有時(shí)候不希望搜索引擎抓取某些內(nèi)容可以寫robots.txt文件放到根目錄,按理蜘蛛會(huì)首先讀取這個(gè)文件,按照robots協(xié)議抓取相應(yīng)的內(nèi)容。但是許多站長(zhǎng)們發(fā)現(xiàn),蜘蛛并不太遵守這個(gè)協(xié)議。
為驗(yàn)證這個(gè)問題,做了測(cè)試后發(fā)現(xiàn),如果蜘蛛已經(jīng)抓取并有索引、快照了,這個(gè)時(shí)候再寫robots就不遵守這個(gè)協(xié)議了,一般在robots中禁止抓取文件夾如下,
Disallow:/about/
還不放心,在頁面里增加<meta>聲明
<meta name="robots" content="noindex,follow" />
這個(gè)聲明的意思是告訴蜘蛛不建立索引,可以沿著路徑繼續(xù)抓取內(nèi)容。以為這就能讓已經(jīng)收錄的快照刪除了,有網(wǎng)友說這需要等待,時(shí)間都說不好。
百度有個(gè)規(guī)則是判斷頁面質(zhì)量,如果多個(gè)頁面重復(fù)內(nèi)容過多,會(huì)被降權(quán),甚至移出索引庫。等待很長(zhǎng)世間才會(huì)被移出索引庫,一般調(diào)整過的網(wǎng)站的收錄量會(huì)減少,但不是大幅度減少,是因?yàn)橛行├撁嬖谒惴ǜ潞蟊灰瞥鏊饕龓於眩@對(duì)于正規(guī)SEO做法的站長(zhǎng)來說是好事,垃圾頁面會(huì)影響到網(wǎng)站的排名。
robots和nofollow都能控制蜘蛛抓取范圍,而兩個(gè)的用法不盡相同。
robots協(xié)議
告訴蜘蛛哪些內(nèi)容可抓取,哪些不可抓取。原則是:參與排名的就讓蜘蛛抓,不參與的或涉及到信息安全的不抓取。
nofollow標(biāo)簽
告訴蜘蛛該頁面內(nèi),某鏈接不可信任,不傳遞權(quán)重。一般在頁面鏈接較多的情況下(頁面會(huì)給該頁面下所有鏈接權(quán)重),為了集中頁面權(quán)重,一些無關(guān)緊要的鏈接采用nofollow加以控制。
簡(jiǎn)單說,nofollow主要是為了集中某個(gè)頁面的權(quán)重,而robots是控制整個(gè)網(wǎng)站的蜘蛛抓取范圍。那么問題來了,為什么很多時(shí)候蜘蛛不遵守我們的robots協(xié)議呢?(一些垃圾蜘蛛是完全不遵守robots協(xié)議的)我們說的蜘蛛主要指百度、谷歌蜘蛛。
①書寫錯(cuò)誤
robots.txt的書寫格式是一行一行的寫,不能連著寫,如
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/
每個(gè)記錄都需要另起一行,每個(gè)記錄里不允許空行,空行用來分割不同的記錄。正確的如
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/
很多時(shí)候搜索引擎抓取了你 robots.txt 不允許抓取的內(nèi)容不是因?yàn)闄C(jī)器人不遵守,而是從抓取到索引到展現(xiàn)這個(gè)過程需要一段時(shí)間,當(dāng)搜索引擎已經(jīng)抓取了,你才更新,那么之前抓取的是不會(huì)那么快刪掉的,刪除周期并不規(guī)律,一般是算法更新后生效的情況多些。
下面說下幾個(gè)新手可能會(huì)需要的信息。
1、robots.txt 怎么寫?
各大搜索引擎的站長(zhǎng)平臺(tái)(英文叫 webmasters )都有詳細(xì)說明,也有生成工具。
2、怎樣確定 robots.txt 有效?
站長(zhǎng)平臺(tái)都有抓取 robots.txt 的工具,也會(huì)有“抓取工具”來確認(rèn)某個(gè)頁面是不是可以正確抓取。
3、怎樣通知搜索引擎 robots.txt 已更新?
和上面的一樣,通過站長(zhǎng)平臺(tái)的抓取工具重新抓取(有的是“更新”)即可。
4、讓搜索引擎抓取了不應(yīng)該抓取的內(nèi)容怎么辦?
這個(gè)常用方法有幾種:
* 在站長(zhǎng)平臺(tái)的刪除鏈接工具中輸入鏈接并確認(rèn)刪除 * 修改代碼使搜索引擎訪問時(shí)返回錯(cuò)誤代碼(503、404等),然后在站長(zhǎng)平臺(tái)重新抓取 * 修改 robots.txt (這個(gè)只建議在上面兩個(gè)操作過之后補(bǔ)充)
5、整站禁止抓取,如何操作更有效?
有的搜索引擎索引是不遵守 robots.txt 的,只有在展現(xiàn)的時(shí)候遵守,也就是說,就算你 robots.txt 寫明了禁止抓取,你會(huì)發(fā)現(xiàn)還是有機(jī)器人來爬。
所以如果是大目錄或者是整站禁止抓取,建議在服務(wù)器軟件(如 nginx)的代碼段中直接判斷搜索引擎 UA 并返回錯(cuò)誤代碼。這樣一方面可以減輕服務(wù)器壓力,一方面可以真正禁止抓取。