在線工具箱

robots檔案生成

 路徑是相對的,但每個路徑之前都要包含:"/"
 留空為無,谷歌為xml格式,百度為html格式
常用搜索引擎
國外蒐索引擎
特殊蒐索引擎(機器人)
其他(非常規蒐索引擎,甚至偏向惡意)
請將以下結果保存到記事本,命名為robots.txt上傳到網站根目錄

robots.txt是什麼檔案?

蒐索引擎通過一種程式"蜘蛛"(又稱spider),自動訪問互聯網上的網頁並獲取網頁資訊。您可以在您的網站中創建一個純文字檔案robots.txt,在這個檔案中聲明該網站中不想被蜘蛛訪問的部分,這樣,該網站的部分或全部內容就可以不被蒐索引擎訪問和收錄了,或者可以通過robots.txt指定使蒐索引擎只收錄指定的內容。蒐索引擎爬行網站第一個訪問的檔案就是robots.txt。

請詳細介紹robots.txt檔案?

  1. 檔案位置

    robots.txt檔案應該放在網站根目錄下。舉例來說,當蒐索引擎訪問一個網站時,首先會檢查該網站中是否存在robots.txt這個檔案,如果robots機器人程式找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。wordpress的robots檔案位置沒在wordpress網站根節目上傳過robots.txt,當搜尋引擎和用戶拜訪某個檔案時,wordpress程式會主動生成一個robots.txt給搜尋引擎和用戶;若是我們上傳編寫的robots.txt到網站根節目,用戶和搜尋引擎蛛蛛拜訪的就是我們上傳的檔案,wordpress就不會再產生那個檔案了。只有服務器找不到robots的時候wordpress才會生成這個檔案。

  2. 檔案格式

    "robots.txt"檔案包含一條或多條記錄,這些記錄通過空行分開(以CR、CR/NL、or NL作為結束符),每一條記錄的格式如下所示:"<field>:<optionalspace><value><optionalspace>"在該檔案中可以使用#進行注釋,具體使用方法和UNIX中的慣例一樣。該檔案中的記錄通常以一行或多行User-agent開始,後面加上若干Disallow行,詳細情況如下:User-agent:該項的值用於描述蒐索引擎機器人robot的名字。在"robots.txt"檔案中,如果有多條 User-agent記錄,說明有多個robot會受到該協定的約束。所以,"robots.txt"檔案中至少要有一條User- agent記錄。如果該項的值設為*(通配符),則該協定對任何蒐索引擎機器人均有效。在"robots.txt"檔案 中,"User-agent:*"這樣的記錄只能有一條。Disallow:該項的值用於描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以 是部分的,任何以Disallow開頭的URL均不會被robot訪問到。例如:"Disallow: /help"對/help.html 和/help/index.html都不允許蒐索引擎訪問, 而"Disallow: /help/"則允許robot訪問/help.html,而不能訪問/help/index.html。任何一條Disallow記錄為空,說明該網站的所有部分都允許被訪問,在 "/robots.txt"檔案中,至少要有一條Disallow記錄。如果"/robots.txt"是一個空文 件,則對於所有的蒐索引擎robot,該網站都是開放的。

  3. 一般屏蔽

    屏蔽隱私頁面,後臺登陸頁面,緩存頁面,圖片目錄,css目錄,模板頁面,屏蔽雙頁面的內容,同時可以屏蔽一些質量比較差的頁面,例如金網的所有會員用戶空間頁面,dz的動態鏈接也可以設置屏蔽。通過Disallow:命令來進行設置。