久久久亚洲精选,av一区二区在线播放,午夜精品99久久免费

日韩一区二区三区色,一区二区国产日产,亚洲免费一区三区,日本一区二区三区四区在线视频

robots.txt禁止收錄協議寫法

時間：2022-10-08 來源：作者：我要糾錯

什么是robots.txt?
　　robots.txt 是網站和搜索引擎的協議的純文本文件。當一個搜索引擎蜘蛛來訪問站點時，它首先爬行來檢查該站點根目錄下是否存在robots.txt，
如果存在，根據文件內容來確定訪問范圍，如果沒有，蜘蛛就沿著鏈接抓取。robots.txt 放在項目的根目錄下。

Robots.txt用法：

User-agent：用于指定指令所作用于的目標抓取工具（網絡蜘蛛），后接抓取工具名稱；

Disallow：指定不允許抓取的目錄或網頁，后面為空則表示允許抓取一切頁面；

Allow：指定允許抓取的目錄或網頁；

Sitemap：站點地圖的位置，必須是絕對路徑；

*：表示通配符；

$：表示網址結束；

/：匹配根目錄以及任何下級網址。

寫robots.txt要注意的地方
1. 第一個英文要大寫，冒號是英文狀態下，冒號后面有一個空格，這幾點一定不能寫錯。
　　2. 斜杠：/ 代表整個網站
　　3.如果“/”后面多了一個空格，則屏蔽整個網站
　　4.不要禁止正常的內容
　　5.生效時間是幾天到兩個月

robots.txt語法

允許所有搜索引擎訪問網站的所有部分
robots.txt寫法如下：
User-agent: *
Disallow:
或者
User-agent: *
Allow: /

注意： 1. 第一個英文要大寫，冒號是英文狀態下，冒號后面有一個空格，這幾點一定不能寫錯。

禁止所有搜索引擎訪問網站的所有部分
robots.txt寫法如下：
User-agent: *
Disallow: /

只需要禁止蜘蛛訪問某個目錄，比如禁止admin、css、images等目錄被索引
robots.txt寫法如下：
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/

注意：路徑后面有斜杠和沒有斜杠的區別：比如Disallow: /images/ 有斜杠是禁止抓取images整個文件夾，Disallow: /images 沒有斜杠意思是凡是路徑里面有/images關鍵詞的都會被屏蔽

屏蔽一個文件夾/templets，但是又能抓取其中一個文件的寫法:/templets/main
robots.txt寫法如下：
User-agent: *
Disallow: /templets
Allow: /main

禁止訪問html/目錄下的所有以”.php”為后綴的URL(包含子目錄)

robots.txt寫法如下：
User-agent: *
Disallow: html/*.php

禁止索引網站中所有的動態頁面
比如這里限制的是有“?”的域名，例如index.php?id=1
robots.txt寫法如下：
User-agent: *
Disallow: /?

禁止搜索引擎抓取我們網站上的所有圖片(如果你的網站使用其他后綴的圖片名稱，在這里也可以直接添加)
有些時候，我們為了節省服務器資源，需要禁止各類搜索引擎來索引我們網站上的圖片，這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外，還可以采取直接屏蔽圖片后綴名的方式。
robots.txt寫法如下：
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

robots 百度測試工具

打開https://ziyuan.baidu.com/robots/index，在右側輸入網站地址，點擊檢測，如果在根目錄下已放置robots.txt文檔，則會在下方顯示您的Robots文件已生效。

在域名下輸入指定路徑進行校驗，查看規則是否滿足需求

robots google測試工具

https://support.google.com/webmasters/answer/6062598?hl=zh-cqdqq

常見網站robots.txt

https://www.baidu.com/robots.txt
https://tieba.baidu.com/robots.txt
https://www.jd.com/robots.txt
https://www.taobao.com/robots.txt
https://www.zhihu.com/robots.txt
https://www.sogou.com/robots.txt
https://www.aliyun.com/robots.txt
https://cn.bing.com/robots.txt
https://www.google.com/robots.txt