robots檔案生成

robots.txt是什麼檔案？
蒐索引擎通過一種程式"蜘蛛"(又稱spider)，自動訪問互聯網上的網頁並獲取網頁資訊。您可以在您的網站中創建一個純文字檔案robots.txt，在這個檔案中聲明該網站中不想被蜘蛛訪問的部分，這樣，該網站的部分或全部內容就可以不被蒐索引擎訪問和收錄了，或者可以通過robots.txt指定使蒐索引擎只收錄指定的內容。蒐索引擎爬行網站第一個訪問的檔案就是robots.txt。

請詳細介紹robots.txt檔案？
檔案位置
robots.txt檔案應該放在網站根目錄下。舉例來說，當蒐索引擎訪問一個網站時，首先會檢查該網站中是否存在robots.txt這個檔案，如果robots機器人程式找到這個檔案，它就會根據這個檔案的內容，來確定它訪問許可權的範圍。wordpress的robots檔案位置沒在wordpress網站根節目上傳過robots.txt,當搜尋引擎和用戶拜訪某個檔案時，wordpress程式會主動生成一個robots.txt給搜尋引擎和用戶;若是我們上傳編寫的robots.txt到網站根節目，用戶和搜尋引擎蛛蛛拜訪的就是我們上傳的檔案，wordpress就不會再產生那個檔案了。只有服務器找不到robots的時候wordpress才會生成這個檔案。
檔案格式
"robots.txt"檔案包含一條或多條記錄，這些記錄通過空行分開(以CR、CR/NL、or NL作為結束符)，每一條記錄的格式如下所示:"<field>:<optionalspace><value><optionalspace>"在該檔案中可以使用#進行注釋，具體使用方法和UNIX中的慣例一樣。該檔案中的記錄通常以一行或多行User-agent開始，後面加上若干Disallow行，詳細情況如下:User-agent:該項的值用於描述蒐索引擎機器人robot的名字。在"robots.txt"檔案中，如果有多條 User-agent記錄，說明有多個robot會受到該協定的約束。所以，"robots.txt"檔案中至少要有一條User- agent記錄。如果該項的值設為*(通配符)，則該協定對任何蒐索引擎機器人均有效。在"robots.txt"檔案中，"User-agent:*"這樣的記錄只能有一條。Disallow:該項的值用於描述不希望被訪問到的一個URL，這個URL可以是一條完整的路徑，也可以是部分的，任何以Disallow開頭的URL均不會被robot訪問到。例如:"Disallow: /help"對/help.html 和/help/index.html都不允許蒐索引擎訪問，而"Disallow: /help/"則允許robot訪問/help.html，而不能訪問/help/index.html。任何一條Disallow記錄為空，說明該網站的所有部分都允許被訪問，在 "/robots.txt"檔案中，至少要有一條Disallow記錄。如果"/robots.txt"是一個空文件，則對於所有的蒐索引擎robot，該網站都是開放的。
一般屏蔽
屏蔽隱私頁面，後臺登陸頁面，緩存頁面，圖片目錄，css目錄，模板頁面，屏蔽雙頁面的內容，同時可以屏蔽一些質量比較差的頁面，例如金網的所有會員用戶空間頁面，dz的動態鏈接也可以設置屏蔽。通過Disallow:命令來進行設置。