robots.txt聲明網(wǎng)站中哪些目錄不讓搜索引擎收錄,執(zhí)行順序從上到下,robots.txt寫(xiě)法,添加sitemap鏈接,什么是robots協(xié)議對(duì)seo的影響。sitemap是谷歌創(chuàng)造出來(lái)的,搜索引擎會(huì)優(yōu)先讀取sitemap.xml文件,如果沒(méi)有就逐個(gè)抓取URL。
基本語(yǔ)法
User-agent:定義禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。*號(hào)代表全部搜索引擎 Disallow:不允許收錄 Allow:允許收錄 #:注釋
全站屏蔽所有蜘蛛
網(wǎng)站改版之前,為了避免蜘蛛抓取錯(cuò)誤或臨時(shí)的鏈接,可以采用全站屏蔽蜘蛛的操作,在根目錄建立robots.txt,添加如下內(nèi)容:
User-agent:* Disallow:/
屏蔽某個(gè)目錄、文件
案例:屏蔽所有蜘蛛抓取根目錄下的inc文件夾及里面的所有內(nèi)容,根目錄下的wap目錄下的index.html文件。robots.txt文件添加如下內(nèi)容:
User-agent:* Disallow:/inc/ Disallow:/wap/index.html
屏蔽某個(gè)目錄,但抓取目錄下的文件或文件夾
①案例:屏蔽所有蜘蛛抓取根目錄下的wap文件夾,但抓取里面后綴名為html的文件
User-agent:* Disallow:/wap/ Allow:/wap/*.html
注意:上面的寫(xiě)法,wap帶“/”代表根目錄下的wap目錄下的內(nèi)容。并不會(huì)禁止比如根目錄下waptest的文件夾及文件夾所有內(nèi)容。
②案例:禁止抓取根目錄下所有前面帶“wap”字符的文件夾及文件
User-agent:* Disallow:/wap
禁止了如:/wap/,/wap/12.html,/waptest/,/wapabc.html。
③案例:保護(hù)隱私文件夾或文件
在別讓網(wǎng)站的robots成為最大的安全漏洞一文說(shuō)到,禁止搜索引擎抓取某些私密文件夾的同時(shí),也暴露了網(wǎng)站的目錄結(jié)構(gòu),猜出網(wǎng)站后臺(tái)管理系統(tǒng)、后臺(tái)等。
比如:禁止抓取/include,就可以寫(xiě)成如下,當(dāng)然前提是你的根目錄里面沒(méi)有前面帶這些字符的文件夾或文件給蜘蛛抓取。
User-agent:* Disallow:/inc
屏蔽動(dòng)態(tài)URL
網(wǎng)站有些動(dòng)態(tài)頁(yè)面可能會(huì)和靜態(tài)頁(yè)面相同,造成重復(fù)收錄。
①案例:用robots屏蔽動(dòng)態(tài)URL
User-agent:* Disallow:/*?*
②案例:僅允許訪問(wèn)“.html”為后綴的URL
User-agent:* Allow:.html$ Disallow:/
屏蔽死鏈接
網(wǎng)站改版、刪除文章后,原來(lái)的URL如果已經(jīng)被搜索引擎索引,出現(xiàn)404錯(cuò)誤。一般的做法如下:
①查看網(wǎng)站日志,找出這些死鏈,用百度提交死鏈工具提交,慢慢的會(huì)刪除這些死鏈;
②如果這個(gè)鏈接已經(jīng)更換,也可以用301跳轉(zhuǎn)到新的鏈接,301跳轉(zhuǎn)后原頁(yè)面和新頁(yè)面處理辦法;
③robots禁止蜘蛛抓取死鏈,寫(xiě)法同上,最好帶完整路徑
User-agent:* Disallow:http://www.vi586.com/web/22.html
屏蔽不參與排名的頁(yè)面鏈接
比如會(huì)員中心、登陸界面、聯(lián)系我們等。這些雖然有實(shí)際用途,蜘蛛一樣會(huì)爬取這些頁(yè)面鏈接,這些頁(yè)面也會(huì)分權(quán),因此為了集中權(quán)重,一些完全不參與排名的頁(yè)面應(yīng)該用robots屏蔽。也可以在該頁(yè)面的</head>之前添加<meta>聲明,指向該頁(yè)面的鏈接加上nofollow標(biāo)簽。
<meta name="robots" content="noindex,nofollow"/> <a rel="nofollow" href="/member/login">登陸</a>
sitemap索引在robots.txt的位置
sitamap索引的位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原則,再按照網(wǎng)站地圖爬取。
Sitemap: http://www.vi586.com/sitemap.xml Sitemap: http://www.vi586.com/sitemap.html