網(wǎng)站 robots.txt 文件配置方法,如何禁止搜索引擎收錄指定網(wǎng)站某一篇超鏈接地址呢,今天跟著麥站一起學(xué)學(xué)吧。
搜索引擎通過網(wǎng)絡(luò)蜘蛛抓取網(wǎng)頁的內(nèi)容,并展示在相關(guān)的搜索結(jié)果中。但是有些網(wǎng)頁內(nèi)容我們可能并不想被搜索引擎收錄和索引,如管理員后臺(tái)等。
我們就可以通過 robots.txt 文件來聲明允許/禁止搜索引擎的蜘蛛抓取某些目錄或網(wǎng)頁,從而限制搜索引擎的收錄范圍。
什么是 robots.txt
Robots是站點(diǎn)與spider溝通的重要渠道,站點(diǎn)通過robots文件聲明本網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
Robots.txt用法:
User-agent:用于指定指令所作用于的目標(biāo)抓取工具(網(wǎng)絡(luò)蜘蛛),后接抓取工具名稱;
Disallow:指定不允許抓取的目錄或網(wǎng)頁,后面為空則表示允許抓取一切頁面;
Allow:指定允許抓取的目錄或網(wǎng)頁;
Sitemap:站點(diǎn)地圖的位置,必須是絕對路徑;
*:表示通配符;
$:表示網(wǎng)址結(jié)束;
/:匹配根目錄以及任何下級網(wǎng)址。
禁止抓取某一個(gè)超鏈接:
Disallow: /news/hangyejishu/43.html
robots.txt文件用法舉例
Robots.txt工具:
http://tool.chinaz.com/robots/