什么是robots協(xié)議
蜘蛛spider在訪問一個網(wǎng)站時,會首先會檢查該網(wǎng)站的根域下是否有一個叫做 robots.txt的純文本文件,這個文件用于指定spider在您網(wǎng)站上的抓取范圍。早期robots協(xié)議是防止網(wǎng)站內(nèi)的隱私,防止抓取用戶不想讓搜索引擎曝光的頁面。
robots.txt文件位置
robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下。比如https://www.vi586.com/robots.txt這個文件
robots一般格式
User-agent: * Disallow: allow:
robots不支持中文
百度蜘蛛目前在robots里不支持中文,如果路徑里面帶了中文,可以選擇UrlEncode編碼的寫法,如
http://www.xx.com/tags/%D7%B0%D0%DE%CE%AC%BB%A4%B1%A3%D1%F8.html
"*"和"$"的含義
Baiduspider支持使用通配符"*"和"$"來模糊匹配url。
"$" 匹配行結(jié)束符。 "*" 匹配0或多個任意字符。
robots協(xié)議對seo優(yōu)化的影響
1.屏蔽隱私內(nèi)容或無內(nèi)容頁面。前面提到蜘蛛的爬取對索引量有著重要的作用,能縮短收錄周期。蜘蛛一般都會全站爬取內(nèi)容,但有些質(zhì)量一般的頁面被抓取會影響整體排名,比如:登陸頁、注冊頁、購物車、表綱、個人隱私文件等。
2.屏蔽某些動態(tài)的內(nèi)容屏蔽,如:tag標(biāo)簽,在剛開始的時候盡量屏蔽蜘蛛抓取,到后期穩(wěn)定的時候再整理后開放。tag標(biāo)簽的作用可以參考《TAG標(biāo)簽的正確用法》
3.屏蔽重復(fù)內(nèi)容頁面。如:多個頁面無內(nèi)容或空評論;不同路徑打開的頁面都一樣。跟帶www和不帶www的頁面說法不一樣,可以把這兩個頁面301重定向到其中一個,集中權(quán)重。
4.屏蔽死鏈接。一般的死鏈會返回404錯誤,當(dāng)然站內(nèi)錯誤或服務(wù)器問題,是無法屏蔽的。
robots的主要功能
1.禁止蜘蛛抓取
dede后臺有很多php、js、css等內(nèi)容,但這些內(nèi)容對排名沒有太大作用,可以使用disallow禁止抓取。
User-agent: sogou spider Disallow: /
代表禁止搜狗蜘蛛進(jìn)行抓取,在中國大陸范圍內(nèi),一般的企業(yè)網(wǎng)站只要百度蜘蛛,谷歌蜘蛛,360蜘蛛就可以了,其他蜘蛛頻繁抓取網(wǎng)站會造成網(wǎng)站訪問速度受到影響。如果禁止這些蜘蛛進(jìn)行抓取,搜索引擎認(rèn)為你是不友好的。
2.引導(dǎo)蜘蛛抓取
Sitemap: http://www.vi586.com/sitemap.xml
以上字段是引導(dǎo)蜘蛛按照sitemap網(wǎng)站地圖的要求抓取。蜘蛛的抓取順序是按照編寫自上而下,如果控制得越精確,則遵循精確的規(guī)則。
3.控制抓取范圍
該行有符號“/”,代表著只包含該欄目下的文章/目錄/子類,不包含本身;
反之無“/”,代表包含包含該欄目下的文章/目錄/子類和本身。
4.舉例最常見的robots.txt寫法
DedeCMS的robots的寫法:
User-agent: * Disallow: /plus/ad_js.php Disallow: /plus/advancedsearch.php Disallow: /plus/car.php Disallow: /plus/carbuyaction.php Disallow: /plus/shops_buyaction.php Disallow: /plus/erraddsave.php Disallow: /plus/posttocar.php Disallow: /plus/disdls.php Disallow: /plus/feedback_js.php Disallow: /plus/feedback.php Disallow: /plus/mytag_js.php Disallow: /plus/rss.php Disallow: /plus/search.php Disallow: /plus/recommend.php Disallow: /plus/stow.php Disallow: /plus/count.php Disallow: /plus/heightsearch.php Disallow: /tags.php Disallow: /member Disallow: /include Disallow: /templets User-agent: sogou spider Disallow: / User-agent: MSNBot Disallow: / User-agent: Slurp Disallow: / User-agent: Teoma Disallow: / User-agent: Gigabot Disallow: / User-agent: Scrubby Disallow: / User-agent: Robozilla Disallow: / User-agent: Nutch Disallow: / Sitemap: http://mengdiqiu.com.cn/sitemap.xml |
這里要注意網(wǎng)站地圖網(wǎng)站robots的最后面,讓搜索引擎先遵循抓取范圍再引導(dǎo)抓取結(jié)構(gòu)。
robots安全重要說明
robots不管是對搜索引擎還是對任何人都是可以訪問的,容易暴露某些隱私或后臺程序,而每個建站程序都有漏洞,樹大才招風(fēng),黑客利用這些漏洞做些不好的事情,后果不堪設(shè)想。一般的大型網(wǎng)站都是自己搭建程序,成本較高,漏洞也較少(只是沒那么多人攻擊)。
對DEDE、DZ、PW等使用的比較多的建站程序,有很多開源的功能,沒有經(jīng)驗的站長很容易成為別人的“肉雞”,經(jīng)常檢查自己網(wǎng)站的外鏈、快照情況就能發(fā)現(xiàn)是不是被人動了手腳。查看文章《別讓網(wǎng)站的robots成為最大的漏洞》。