robots協(xié)議也就是與搜索引擎簽訂的一份“君子協(xié)議”。通常搜索引擎到網(wǎng)站來(lái)抓取第一個(gè)抓取的就是robots,網(wǎng)站通過(guò)robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。Robots協(xié)議是國(guó)際互聯(lián)網(wǎng)界通行的道德規(guī)范,其目的就是保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息、以確保用戶個(gè)人信息和隱私不被侵犯。因?yàn)椴皇菑?qiáng)制性的協(xié)議,故需要搜索引擎自覺(jué)遵守這份“君子協(xié)議”。
robots協(xié)議的寫(xiě)法
Disallow:禁止抓取
Allow:允許抓取
User-agent: * 這里的*代表了所有的搜索引擎,* 號(hào)是一個(gè)通配符代表了所有。
Disallow: /html/ 禁止抓取html目錄下面的所有內(nèi)容。
Disallow: /admin/*.html 禁止訪問(wèn)/admin/目錄下的所有以”.html”為后綴的鏈接
Disallow: /*?* 禁止抓取鏈接中帶有“?”的所有路徑。
Disallow: /.jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片。
Disallow: /admin/123.html 禁止抓取admin文件夾下面的123.html文件。
Allow: /html/ 這里定義是允許抓取html目錄下面的內(nèi)容
Allow: .html$ 僅允許抓取以”.htm”為后綴的鏈接。
Allow: .jpg$ 允許抓取網(wǎng)頁(yè)所有的jpg格式圖片
Sitemap: 網(wǎng)站地圖 。
robots寫(xiě)法注意事項(xiàng):
1::與/之間一定要加個(gè)小寫(xiě)空格
2:在寫(xiě)的時(shí)候全程用小寫(xiě),第一個(gè)字母用大寫(xiě)。
3:一定不要寫(xiě)錯(cuò)了,寫(xiě)完了仔細(xì)檢查一下,盡量不要禁止讓蜘蛛抓取全站。
上一篇:百度搜索引擎的工作原理
掃一掃 加微信咨詢