Robots.txt指南

来源：中国搜索引擎研究网　　作者：佚名

地将目录下文件全数列出。例如：
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
其实，上面这么多声明行只需用目录选项来替代：
Disallow: /AL
Disallow: /Az
需要注意的是：反斜杠"/"表示禁止搜索引擎进入该目录。如果只有几十个文件需要设置访问权限，那倒也无可厚非。问题是我们发现有一个robots.txt文件中列出了有400k，多达4000个文件。我们只是纳闷看到这么多声明，有多少Spiders会掉头而去。
错误9—自创ALLOW指令
没有ALLOW指令，只有DISALLOW指令！我们发现有这样的用法：
User-agent: Spot
Disallow: /john/
allow: /jane/
正确写法应为：
User-agent: Spot
Disallow: /john/
Disallow:
错误10—对声明的目录无反斜杠标识
例如我们发现有这样的例子：
User-agent: Spot
Disallow: john
对这样的记录Spider该怎么反应？按照RES标准，Spider会将名为"john"的文件和名为"john"的目录都DISALLOW。所以要记得使用"/"来标识所声明的路径(目录)。
我们还发现，有些网站的优化工作做得真彻底，竟然在其robots.txt中也放了关键词(费解，不明白他们怎么想的)。这些人一定是把他们的robots.txt纯文本文件当作是html文件了。(要记住：在FrontPage下是不可能正确创建robots.txt文件的)
错误11—网络服务器端的错误配置
为什么对robots.txt文件的调用请求会产生一个二进制文件？只有网络服务器或FTP客户端软件错误设置的情况下才可能发生这种错误。建议大家定期检查自己的robots.txt文件(http://www.mydomain.com/robots.txt)。
服务器/域名“农场”
搜索引擎检测服务器或域名“农场”(即包含巨量站点)的一个简单途径是看它们的robots.txt。我们发现规模在400到500个域名的大型域名“农场”，其“库”内站点使用都是同一个robots.txt文件。这也就相当于告诉搜索引擎这些使用同一robots.txt文件的站点是相关联的。
Google率先支持通配符:
Google是第一家能够支持robots.txt中通配符文件扩展名的搜索引擎。例如:
User-agent: googlebot
Disallow: *.cgi
不过注意了，由于目前只有Google能够支持这种格式，所以”USER-AGENT”只能是“Googlebot”。

9 7 3 1 2 3 4 8 :

·上一篇文章：搜索引擎优化最常见的5个误区
·下一篇文章：选择最佳关键词之10个技巧

转载请注明转载网址：
http://seo.jmkt.cn/news/zhishi/07625183320KK19E791JHBBIB83334I.htm

相关内容

·企业自行管理VS外包SEM：CMO的行动指南

·百度给站长的建站指南

·利用robots.txt防止针对Movable Type的comments和backtrack ping