5種方法可以避免電子商務(wù)網(wǎng)站(e-commerce site)上出現(xiàn)重復(fù)內(nèi)容和索引問題
在頁面排名很好之前,需要對其進(jìn)行爬網(wǎng)和編制索引。貢獻(xiàn)者M(jìn)anish Dudharejia分享了五個提示,為您的網(wǎng)頁提供在搜索結(jié)果中編入索引的最佳機(jī)會。
電子商務(wù)網(wǎng)站(e-commerce site)比任何其他類型的網(wǎng)站都更為臭名昭著,因?yàn)樗鼈冮_發(fā)的URL結(jié)構(gòu)會對搜索引擎產(chǎn)生爬行和索引問題。保持這一點(diǎn)非常重要,以避免重復(fù)內(nèi)容和爬行預(yù)算復(fù)雜化。
以下是保持電子商務(wù)網(wǎng)站索引最佳的五種方法。
1.了解谷歌索引中的內(nèi)容
首先,定期檢查Google報(bào)告的索引頁數(shù)有多少非常重要。您可以通過在Google上運(yùn)行“site:example.com”搜索來查看Google在網(wǎng)絡(luò)上了解的網(wǎng)頁數(shù)量。
雖然谷歌網(wǎng)站管理員趨勢分析師加里·伊利斯已經(jīng)提到這個數(shù)字只是一個估計(jì)值,但這是確定某些內(nèi)容是否與您的網(wǎng)站索引嚴(yán)重關(guān)閉的最簡單方法。
內(nèi)容管理系統(tǒng)(CMS)與電子商務(wù)平臺,站點(diǎn)地圖和服務(wù)器文件之間的數(shù)字應(yīng)該幾乎完美匹配,或者至少與所解決和解釋的任何差異相匹配。反過來,這些數(shù)字應(yīng)與Google網(wǎng)站運(yùn)營商搜索中的返回值大致相符。智能的現(xiàn)場優(yōu)化有助于此; 以優(yōu)化為基礎(chǔ)開發(fā)的網(wǎng)站可以通過避免可能產(chǎn)生索引問題的重復(fù)內(nèi)容和結(jié)構(gòu)問題來大大提高幫助。
雖然索引中的結(jié)果太少可能是一個問題,但是太多結(jié)果也是一個問題,因?yàn)檫@可能意味著您在搜索結(jié)果中有重復(fù)的內(nèi)容。雖然Ilyes已經(jīng)確認(rèn)沒有“重復(fù)內(nèi)容損失”,但重復(fù)內(nèi)容仍然會損害您的抓取預(yù)算,并且還會削弱您的網(wǎng)頁在重復(fù)內(nèi)容中的權(quán)限。
如果Google返回的結(jié)果太少:
確定您的站點(diǎn)地圖中的哪些頁面未顯示在您的Google Analytics自然搜索流量中。(使用較長的日期范圍。)
在Google中搜索這些網(wǎng)頁的代表性示例,以確定索引中實(shí)際缺少的內(nèi)容。(您不需要為每個頁面執(zhí)行此操作。)
識別未編制索引的頁面中的模式,并在整個站點(diǎn)中系統(tǒng)地處理這些模式,以增加這些頁面被編入索引的機(jī)會。要查找的模式包括重復(fù)的內(nèi)容問題,缺少入站內(nèi)部鏈接,XML站點(diǎn)地圖中的非包含,無意的無索引或規(guī)范化,以及具有嚴(yán)重驗(yàn)證錯誤的HTML。
如果Google返回太多結(jié)果:
使用ScreamingFrog,DeepCrawl,SiteBulb或類似工具運(yùn)行網(wǎng)站爬網(wǎng),并識別具有重復(fù)標(biāo)題的網(wǎng)頁,因?yàn)檫@些網(wǎng)頁通常具有重復(fù)內(nèi)容。
確定導(dǎo)致重復(fù)的原因并將其刪除。有各種原因和解決方案,這些將構(gòu)成本文其余部分的大部分內(nèi)容。
2.優(yōu)化站點(diǎn)地圖,robots.txt和導(dǎo)航鏈接
這三個要素是強(qiáng)大的指數(shù)化的基礎(chǔ),并已在其他地方深入討論,但如果我在這里沒有提到它,我會失職。我無法強(qiáng)調(diào)綜合站點(diǎn)地圖的重要性。事實(shí)上,我們似乎已經(jīng)達(dá)到了比內(nèi)部鏈接更重要的程度。Gary Ilyes最近證實(shí),即使是“head”關(guān)鍵字(而不是長尾關(guān)鍵字)的搜索結(jié)果也可以包含沒有入站鏈接的頁面,甚至沒有內(nèi)部鏈接。Google可以通過網(wǎng)站地圖了解這些網(wǎng)頁的唯一方式。
重要的是要注意Google和Bing的指南仍然說至少應(yīng)該從一個鏈接訪問頁面,而站點(diǎn)地圖絕不會取消這一點(diǎn)的重要性。
同樣重要的是確保您的robots.txt文件正常運(yùn)行,不會阻止Google從您希望被編入索引的網(wǎng)站的任何部分,并且它聲明了您的站點(diǎn)地圖的位置。功能性robots.txt文件非常重要,因?yàn)槿绻鼈冴P(guān)閉,可能會導(dǎo)致Google根據(jù)Ilyes完全停止為您的網(wǎng)站編制索引。
最后,直觀和邏輯的導(dǎo)航鏈接結(jié)構(gòu)是良好索引的必要條件。除了您希望索引的每個頁面都應(yīng)該可以從您站點(diǎn)上的至少一個鏈接訪問之外,良好的用戶體驗(yàn)實(shí)踐是必不可少的。分類是這一點(diǎn)的核心。
例如,交互設(shè)計(jì)基金會的喬治米勒的研究表明,人類大腦一次只能在短期記憶中保存大約七個信息塊。
我建議你的導(dǎo)航結(jié)構(gòu)是圍繞這個限制設(shè)計(jì)的,事實(shí)上,甚至可能將你的菜單限制在不超過五個類別,以使人們更容易使用。每個菜單部分有五個類別,每個下拉列表有五個子類別可能更容易導(dǎo)航。
以下是Google代表就導(dǎo)航和索引編制所做的一些重要觀點(diǎn):
? 隱藏導(dǎo)航元素的折疊和標(biāo)簽可以包括在內(nèi),如果它們最適合用戶體驗(yàn)。在移動優(yōu)先的世界中,以這種方式隱藏元素不會損害索引。
? 使用面包屑導(dǎo)航,它們包含在PageRank 計(jì)算中。
? Google網(wǎng)站管理員趨勢分析師John Mueller表示,任何標(biāo)準(zhǔn)菜單風(fēng)格(例如大型菜單或下拉菜單)都可以,但是針對單個頁面生成過多網(wǎng)址的糟糕網(wǎng)址結(jié)構(gòu)是個問題。
? Gary Illyes還說過你應(yīng)該避免在你自己的內(nèi)容或內(nèi)部鏈接上使用nofollow屬性。
? Google員工多次聲明內(nèi)部鏈接錨文本是一個因素,因此請確保您的導(dǎo)航鏈接具有描述性和實(shí)用性,并避免使用關(guān)鍵字填充。
? 避免無限空間或蜘蛛陷阱。它們通常在使用鏈接完成交互式站點(diǎn)功能時創(chuàng)建。
? 在您的網(wǎng)站上運(yùn)行抓取工具,以確定您是否最終抓取的網(wǎng)頁數(shù)量超出預(yù)期,因?yàn)檫@可以幫助您識別創(chuàng)建重復(fù),無限空間和其他問題的導(dǎo)航鏈接。
? 從用戶體驗(yàn)(UX)角度保持您的URL盡可能接近根。加里·伊利斯(Gary Illyes)已經(jīng)表示,從根目錄開始的頁面將被抓取并且不常發(fā)現(xiàn)。
? 確保您可以通過移動設(shè)備訪問完整的網(wǎng)站導(dǎo)航,因?yàn)橐苿觾?yōu)先索引意味著這是Google用于索引您網(wǎng)站的版本。
Bing建議如下:
? 富含關(guān)鍵字的網(wǎng)址,可避免會話變量和docID。
? 一個功能強(qiáng)大的站點(diǎn)結(jié)構(gòu),鼓勵內(nèi)部鏈接。
? 有組織的內(nèi)容層次結(jié)構(gòu)
3.獲取URL參數(shù)的句柄
URL參數(shù)是“無限空間”和重復(fù)內(nèi)容的常見原因,嚴(yán)重限制了爬網(wǎng)預(yù)算并可能稀釋信號。它們是添加到您的URL結(jié)構(gòu)中的變量,其中包含用于執(zhí)行以下操作的服務(wù)器指令:? 排序項(xiàng)目。
? 存儲用戶會話信息。
? 過濾項(xiàng)目。
? 自定義頁面外觀。
? 返回現(xiàn)場搜索結(jié)果。
? 跟蹤廣告系列或向Google Analytics發(fā)送信號。
如果您使用Screaming Frog,則可以通過從“Filter”下拉菜單中選擇“Parameters”來在URI選項(xiàng)卡中識別URL參數(shù)。
檢查正在播放的不同類型的URL參數(shù)。任何不會對內(nèi)容產(chǎn)生重大影響的網(wǎng)址參數(shù)(如廣告系列標(biāo)記,排序,過濾和個性化)都應(yīng)使用noindex指令或規(guī)范化處理(而不是兩者)。稍后會詳細(xì)介紹。
Bing還提供了一個方便的工具,可以忽略Bing網(wǎng)站管理員工具的“ 配置我的網(wǎng)站”部分中的選擇網(wǎng)址參數(shù)。
如果參數(shù)以創(chuàng)建不重復(fù)的頁面的方式顯著影響內(nèi)容,則以下是Google關(guān)于正確實(shí)施的一些建議:
? 使用標(biāo)準(zhǔn)URL編碼,采用“?key = value&”格式。不要使用非標(biāo)準(zhǔn)編碼,如括號或逗號。
? 您應(yīng)該使用參數(shù),從不使用文件路徑來列出對頁面內(nèi)容沒有重大影響的值。
? 不會對內(nèi)容產(chǎn)生重大影響的用戶生成的值應(yīng)放在可以使用robots.txt隱藏的過濾目錄中,或者使用某種形式的無索引或規(guī)范化處理。
? 如果用戶會話需要大量參數(shù)來消除對網(wǎng)絡(luò)抓取工具征稅的內(nèi)容重復(fù),則使用Cookie而不是無關(guān)參數(shù)。
? 不為沒有產(chǎn)生結(jié)果的用戶過濾器生成參數(shù),因此空頁面不會被索引或稅務(wù)網(wǎng)頁抓取工具。
? 只有在為搜索引擎生成新內(nèi)容時才允許抓取頁面。
? 不允許為沒有產(chǎn)品的類別或過濾器單擊鏈接。
4.好壞過濾器
搜索引擎何時應(yīng)該可以抓取過濾器,何時應(yīng)該對其進(jìn)行索引或規(guī)范化?受上述谷歌建議影響,我的經(jīng)驗(yàn)法則是“好”的過濾器:? 應(yīng)該作為產(chǎn)品類別的有意義的擴(kuò)展,生成不同但是可靠的頁面。
? 應(yīng)該有助于指定產(chǎn)品。
我覺得這些是或應(yīng)該被編入索引。在我看來,“糟糕”過濾器:
? 重新組織內(nèi)容而不另外更改內(nèi)容,例如按價(jià)格或受歡迎程度排序。
? 保留用戶首選項(xiàng)以更改布局或設(shè)計(jì)但不影響內(nèi)容。
不應(yīng)對這些類型的過濾器編制索引,而應(yīng)使用AJAX,noindex指令或規(guī)范化來解決這些類型的過濾器。
Bing警告網(wǎng)站管理員使用AJAX pushState函數(shù)創(chuàng)建具有重復(fù)內(nèi)容的URL,否則就會失敗。
5.正確使用noindex和規(guī)范化
Noindexing告訴搜索引擎不要索引頁面,而規(guī)范化告訴搜索引擎兩個或多個URL實(shí)際上是同一頁面,但一個是“官方”規(guī)范頁面。對于重復(fù)或近似重復(fù),在大多數(shù)情況下,規(guī)范化是首選,因?yàn)樗A袅藘?yōu)化權(quán)限,但并非總是可行。在某些情況下,您不希望索引任何版本的頁面,在這種情況下應(yīng)使用noindex。
不要同時使用noindex和canonicalization。John Mueller警告不要這樣做,因?yàn)樗赡軙嬖V搜索引擎無法對規(guī)范頁面和重復(fù)數(shù)據(jù)進(jìn)行索引,盡管他說谷歌很可能會將規(guī)范標(biāo)簽視為錯誤。
以下是應(yīng)該規(guī)范化的事情:
? 由分面導(dǎo)航和URL參數(shù)創(chuàng)建的重復(fù)項(xiàng)應(yīng)規(guī)范化為標(biāo)準(zhǔn)版本的頁面。
? 將分頁內(nèi)容規(guī)范化為統(tǒng)一的“查看全部”頁面。
? 將任何A / B或多變量拆分測試規(guī)范化為官方URL。
以下是我建議無法編制索引的內(nèi)容:
? 任何會員區(qū)或員工登錄頁面。
? 任何購物車和謝謝頁面。
? 內(nèi)部搜索結(jié)果頁面。Illyes說:“一般來說,它們對用戶沒用,我們確實(shí)有一些算法試圖擺脫它們......”
? 任何無法規(guī)范化的重復(fù)頁面。
? 狹義的產(chǎn)品類別與其父類別不夠獨(dú)特。
? 作為規(guī)范化的替代方案,Bing建議使用Bing網(wǎng)站站長工具中的URL規(guī)范化功能。這限制了必要的爬行量,并允許您最新鮮的內(nèi)容輕松編入索引。