如何掌控robots對自己網站的存取?
今天瞭解了一下這部分,因為網站這麼多東西,也許會有些東西是不想被搜尋到的,比方說只是要暫時上傳到空間、或是開一個目錄拿來放現在正在進行測試的網站等等(我接case時就會必須放到我的空間測試),又不能直接關掉權限,因為還是需要能夠存取,這種情況又不希望被登記到搜尋引擎裡面弄亂我的網站索引。所以就需要用到robots.txt這個檔案。
其實Google在這部分說得滿清楚了。以下我整理出一些要點。
1. robots.txt 必須存放在網域的根目錄。
2. 語法:User-Agent 和 Disallow。意思就是「你不要誰(User-Agent)來存取哪些東西(Disallow)?」
3. googlebot特有語法:Allow,讓google某些bot搜尋剛剛你有Disallow過的特定資料。
4. 使用「*」來代表一串任意字元
5. 使用「$」表示 URL 的結尾字元(副檔名)
範例:
所有robots無法檢索目錄folder1
User-Agent:*
Disallow: /folder1/
所有robots無法檢索目錄folder1但可以檢索裡面的myfile.html
User-Agent:*
Disallow: /folder1/
Allow:/folder1/myfile.html
無法檢索特定檔案
User-Agent:*
Disallow: /private_file.html
無法檢索特定檔案類型
User-Agent:*
Disallow: /*.gif$
無法檢索動態產生的網頁
User-Agent:*
Disallow: /*?
只讓google adsense檢索某網頁
User-Agent:*
Disallow:/folder1/
User-Agent:MediaPartners-Google
Allow:/folder1/
攔截所有以 private 開頭之子目錄的存取
User-Agent:Googlebot
Disallow:/private*/
常用User-Agent列表(Robots):
* Googlebot:Google 網頁索引及新聞索引
* MediaPartners-Google:Google Adsense 索引網頁以決定廣告內容
* Googlebot-Mobile:Google手機網頁索引
* Googlebot-Image:索引網站裡的圖片
* Adsbot-Google:索引廣告主的廣告網頁來看品質如何
* Feedfetcher-Google:Google的Feed/RSS索引
* MSNBot:MSN 索引機器人
* del.icio.us-thumbnails:del.icio.us的網站縮略圖擷圖robot
* Yahoo-Blogs:Yahoo部落格索引
* Yahoo-MMAudVid:Yahoo多媒體檔案索引
* YahooFeedSeeker:Yahoo的Feed/RSS索引
- 人氣(729)
最新回應
- 最近發現國外有一套針對Drupal的佈景主題產生器,還不錯
4 天 6 小時前 - 您好:
冒昧打擾您了,
目前我有個專案正在進行,
很希望與
3 周 6 小時前 - .............
4 周 4 天前 - Our
9 周 4 天前 - 真是AJAX吗?
16 周 5 天前 - 不好意思
有個問題可以請問你嗎
javascript的基本
23 周 8 小時前 - 我工作的公司在找能協助維護一個用Drupal
26 周 9 小時前 - lol ,花水木粉絲萬歲~
27 周 12 小時前 - 其實在下原本就是花水木的fans啦…只是一直都不敢回文
31 周 1 天前 - 请问,可否发一个license呢
xiang.leau@g
32 周 5 天前
熱門內容
- Plurk2:噗浪插頭的貼紙美化 (13,348)
- [Module] AJAX Comments (7,488)
- [網站易用性] 下拉式選單的迷思 (6,360)
- Plurk2:花水木版圓角作法&原始檔 (6,204)
- Drupal開發用版型 (5,732)













回應
發表新回應