robots.txt禁止收錄協議寫法
時間:2022-10-08 來源: 作者: 我要糾錯
robots.txt 是網站和搜索引擎的協議的純文本文件。當一個搜索引擎蜘蛛來訪問站點時,它首先爬行來檢查該站點根目錄下是否存在robots.txt,
如果存在,根據文件內容來確定訪問范圍,如果沒有,蜘蛛就沿著鏈接抓取。robots.txt 放在項目的根目錄下。
Robots.txt用法:
User-agent:用于指定指令所作用于的目標抓取工具(網絡蜘蛛),后接抓取工具名稱;
Disallow:指定不允許抓取的目錄或網頁,后面為空則表示允許抓取一切頁面;
Allow:指定允許抓取的目錄或網頁;
Sitemap:站點地圖的位置,必須是絕對路徑;
*:表示通配符;
$:表示網址結束;
/:匹配根目錄以及任何下級網址。
寫robots.txt要注意的地方
1. 第一個英文要大寫,冒號是英文狀態下,冒號后面有一個空格,這幾點一定不能寫錯。
2. 斜杠:/ 代表整個網站
3.如果“/”后面多了一個空格,則屏蔽整個網站
4.不要禁止正常的內容
5.生效時間是幾天到兩個月
robots.txt語法
允許所有搜索引擎訪問網站的所有部分
robots.txt寫法如下:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
注意: 1. 第一個英文要大寫,冒號是英文狀態下,冒號后面有一個空格,這幾點一定不能寫錯。
禁止所有搜索引擎訪問網站的所有部分
robots.txt寫法如下:
User-agent: *
Disallow: /
只需要禁止蜘蛛訪問某個目錄,比如禁止admin、css、images等目錄被索引
robots.txt寫法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
注意:路徑后面有斜杠和沒有斜杠的區別:比如Disallow: /images/ 有斜杠是禁止抓取images整個文件夾,Disallow: /images 沒有斜杠意思是凡是路徑里面有/images關鍵詞的都會被屏蔽
屏蔽一個文件夾/templets,但是又能抓取其中一個文件的寫法:/templets/main
robots.txt寫法如下:
User-agent: *
Disallow: /templets
Allow: /main
禁止訪問html/目錄下的所有以”.php”為后綴的URL(包含子目錄)
robots.txt寫法如下:
User-agent: *
Disallow: html/*.php
禁止索引網站中所有的動態頁面
比如這里限制的是有“?”的域名,例如index.php?id=1
robots.txt寫法如下:
User-agent: *
Disallow: /?
禁止搜索引擎抓取我們網站上的所有圖片(如果你的網站使用其他后綴的圖片名稱,在這里也可以直接添加)
有些時候,我們為了節省服務器資源,需要禁止各類搜索引擎來索引我們網站上的圖片,這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外,還 可以采取直接屏蔽圖片后綴名的方式。
robots.txt寫法如下:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
robots 百度測試工具
打開https://ziyuan.baidu.com/robots/index,在右側輸入網站地址,點擊檢測,如果在根目錄下已放置robots.txt文檔,則會在下方顯示您的Robots文件已生效。
在域名下輸入指定路徑進行校驗,查看規則是否滿足需求
https://support.google.com/webmasters/answer/6062598?hl=zh-cqdqq
常見網站robots.txt
https://www.baidu.com/robots.txt
https://tieba.baidu.com/robots.txt
https://www.jd.com/robots.txt
https://www.taobao.com/robots.txt
https://www.zhihu.com/robots.txt
https://www.sogou.com/robots.txt
https://www.aliyun.com/robots.txt
https://cn.bing.com/robots.txt
https://www.google.com/robots.txt