武漢網(wǎng)站優(yōu)化之關(guān)于Robots.txt協(xié)議你不知道的奧秘
2015年 / 09月01日
Robots.txt協(xié)議,看到這個用于網(wǎng)站與搜索引擎交流的通用協(xié)議我想大多數(shù)人肯定嗤之以鼻,這不簡單嘛,不就是網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。百度百科介紹很清楚,難道你還比它寫的還要清楚嘛。而今天我想說的是,百度百科畢竟是概念化,具體的實戰(zhàn)還需要每個人去操作去執(zhí)行。武漢網(wǎng)站優(yōu)化公司盛世互聯(lián)小編想問問大家,你認(rèn)為你的Robots.txt協(xié)議,寫對了嗎?
一:設(shè)置成Allow全站點抓取
百度收錄的越多,網(wǎng)站的排名越高?這是絕大多數(shù)站長的認(rèn)為,事實上也是如此。但是也并非絕對成立:低質(zhì)量的頁面收錄,會降低網(wǎng)站的排名效果,這一點你考慮到了嗎?
如果你的網(wǎng)站結(jié)構(gòu)不是非常的清晰,以及不存在多余的“功能”頁面,不建議對網(wǎng)站開全站點的抓取,事實上,在SEO診斷中,只遇到極少數(shù)的一部分網(wǎng)站,可以真正的做到全站點都允許抓取,而不做屏蔽。隨著功能的豐富,要做到允許全站點抓取,也不太可能。
二:什么樣的頁面不建議抓取
對于網(wǎng)站功能上有用的目錄,有用的頁面,在用戶體驗上可以得到更好的提升。但是搜索引擎方面來講,就會造成:服務(wù)器負(fù)擔(dān),比如:大量的翻頁評論,對優(yōu)化上則沒有任何的價值。
除此外還包含如:網(wǎng)站做了偽靜態(tài)處理后,那么就要將動態(tài)鏈接屏蔽掉,避免搜索引擎抓取。用戶登錄目錄、注冊目錄、無用的軟件下載目錄,如果是靜態(tài)類型的站點,還要屏蔽掉動態(tài)類型的鏈接Disallow: /*?* 為什么呢?我們舉個例子來看:
上面是某客戶網(wǎng)站發(fā)現(xiàn)的問題,被百度收錄的原因是:有人惡意提交此類型的鏈接,但是網(wǎng)站本身又沒有做好防護(hù)。
三:撰寫上的細(xì)節(jié)注意事項
方法上來講,絕大多數(shù)的站長都明白,這里就不做多說了,不明白的站長,可以上百度百科看一下。今天這里說一些不常見的,可能是不少站長的疑問。
1、舉例:Disallow; /a 與Disallow: /a/的區(qū)別,很多站長都見過這樣的問題,為什么有的協(xié)議后加斜杠,有的不加斜杠呢?筆者今天要說的是:如果不加斜杠,屏蔽的是以a字母開頭的所有目錄和頁面,而后者代表的是屏蔽當(dāng)前目錄的所有頁面和子目錄的抓取。
通常來講,我們往往選擇后者更多一些,因為定義范圍越大,容易造成“誤殺”。
2、JS文件、CSS需要屏蔽嗎?不少網(wǎng)站都做了這個屏蔽,但是筆者要說的是:google站長工具明確的說明:封禁css與js調(diào)用,可能會影響頁面質(zhì)量的判斷,從而影響排名。而對此,我們做了一些了解,百度方面同樣會有一定影響。
3、已經(jīng)刪除的目錄屏蔽,很多站長往往刪除一些目錄后,怕出現(xiàn)404問題,而進(jìn)行了屏蔽,禁止搜索引擎再抓取這樣的鏈接。事實上,這樣做真的好嗎?即使你屏蔽掉了,如果之前的目錄存在問題,那么沒有被蜘蛛從庫中剔除,同樣會影響到網(wǎng)站。
建議最佳的方式是:將對應(yīng)的主要錯誤頁面整理出來,做死鏈接提交,以及自定義404頁面的處理,徹底的解決問題,而不是逃避問題。
注:網(wǎng)站結(jié)構(gòu)優(yōu)化中,只要把404頁面、301跳轉(zhuǎn)、Robots.txt協(xié)議等這些小問題小細(xì)節(jié)做好,后期網(wǎng)站優(yōu)化才不會出現(xiàn)網(wǎng)站降權(quán)、不收錄、被K等一系列問題。
本頁面由武漢網(wǎng)站優(yōu)化,武漢網(wǎng)站結(jié)構(gòu)優(yōu)化,武漢網(wǎng)站優(yōu)化公司提供。