Robots.txt文件標準寫法?
網(wǎng)頁要被搜索引擎抓取,首先要被搜索引擎收錄,而搜索引擎收錄網(wǎng)頁參考的就是robots.txt文件,robots.txt文件對于網(wǎng)站非常重要,robots.txt文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一robots.txt,在文件中聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
Disallow – 不允許蜘蛛抓取某些文件或目錄。
下面的代碼將阻止蜘蛛抓取網(wǎng)站所有的文件:
User-agent: *
Disallow: /
Allow – 允許蜘蛛抓取某些文件??梢园袮llow和Disallow配合使用,從而使蜘蛛在某個目錄下只抓取一部分內容。
下面代碼將不允許蜘蛛抓取ab目錄下的文件,而只抓取cd下的文件:
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 – 匹配URL結尾的字符。
下面的代碼將允許蜘蛛訪問以.htm為后綴的URL路徑:
User-agent: *
Allow: .htm$
*通配符 – 告訴蜘蛛匹配任意一段字符。
如下面一段代碼將禁止蜘蛛抓取所有htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置 – 告訴蜘蛛你的網(wǎng)站地圖在哪里,格式為:
Sitemap: sitemap_location
藍冰科技提供技術支持
轉載請注明: >> Robots.txt文件標準寫法?
版權所有:http://trickstime.com (藍冰科技) 轉載請注明出處本文鏈接:http://trickstime.com/newsread.asp?u=102w319w3478t0