Robots.txt指南

来源:中国搜索引擎研究网  作者:佚名

介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt www.looksmart.com/robots.txt)
附录II. 相关robots.txt文章参考:
1. Robots.txt常见问题解析
2. Robots Meta Tag的使用
3. Robots.txt检测程序
Robots.txt常见问题解析:
我们开发了一个针对robots.txt文件的“验检程序”,同时又设计了一个搜索程序,专门下载robots.txt文件,以此对新推出的这个“robots.txt验检程序”进行测试。在对DMOZ(ODP)中所链接的站点进行遍历,共计检索240万个站点后,我们总共找到了大概75k的robots.txt文件。
在这些robots.txt文件中,我们发现了大量的而且是形形色色的问题。有超过5%的robots.txt文件使用了错误格式,有超过2%的文件由于使用的是极其拙劣的格式而导致无法为任何SPIDER读取。我们将发现的一些问题在下面列出来供大家参考借鉴:
错误1—语法混用
例如:
User-agent: *
Disallow: scooter
正确语法应为:
User-agent: scooter
Disallow: *
错误2—一行Disallow声明多个目录
这是一个比较常见的错误。我们发现很多网站在其robots.txt中,在一个Disallow指令行中放入了多个目录。譬如:Disallow: /css/ /cgi-bin/images/
绝大多数的spiders对上述声明行都无法做出正确的解析,有些Spiders会忽略其空格而解析为/css//cgi-bin//images/,或只解析/images/或/css/,或者根本不予解析。
正确的语法应为:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
错误3—在DOS模式下编辑robots.txt文件
这也是一个比较常见的错误。正确的做法应该是在UNIX模式下编辑你的robots.txt文件并以ASCII码格式上传。显然并非所有的FTP客户端软件都能够天衣无缝地将文件格式转换为UNIX命令行终端,所以在编辑robots.txt文件时,一定要确保你的文本编辑器是在UNIX模式下。
错误4—在指示行末尾加注
在robots.txt文件中,凡以"#"开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。例如:Disallow: /cgi-bin/ # this bans robots from our cgi-bin
虽然根据RES标准,在指示行的末尾加注是可行的,但这种格式在过去却并非所有的Spiders都能够支持,有些Spiders干脆就把整个句子视为注解内容直接跳过去不读。当然我们知道现如今搜索引擎基本上都能够支持这种格式,不过—仍有可能无法被某些搜索引擎正确解读,你冒得起这个险吗?我们建议在编辑robots.txt文件时,最好让注解自成一行。
错误5—指令行前有空格
例如"Disallow: /cgi-bin/",虽然RES标准并未对这种格式予以特别说明,但我们对这种格式是持极力反对态度的。同样的问题摆在你面前你冒得起无法被Spiders正确解读的险吗?
错误6--404重定向至另一页面
一般没有robots.txt的网站会将对robots.txt文件的调用请求转至另一页面。这种重定向通常不会产生服务器状态错误或重定向状态信息。然而因为是Spiders自己决定它看到的是robots.txt文件还是一个.html文件。虽然理论上应该不会有什么问题,不过为了保险起见,不妨在你服务器的顶级目录下放一个空的robots.txt文件。在
www.google.com/bot.html下,也提供了相同的建议—“如欲避免网络服务器日志中的出错信息‘找不到文件’,可在其根域下创建一个空的robots.txt文件。”
错误7—声明自相矛盾
例如:
USER-AGENT: EXCITE
DISALLOW:
虽然RES标准忽略大小写(Case Sensitive),但目录和文件名却是大小写敏感的。所以对于"USER-AGENT"和"DISALLOW"指令,用大小写都是可以的。但对于所声明的目录或文件名却一定要注意大小写的问题。
错误8—列出所有文件
这也是一种常见错误,不厌其烦

9 7 3 1 2 3 4 8 :


·上一篇文章:搜索引擎优化最常见的5个误区
·下一篇文章:选择最佳关键词之10个技巧


转载请注明转载网址:
http://seo.jmkt.cn/news/zhishi/07625183320KK19E791JHBBIB83334I.htm


相关内容

·企业自行管理VS外包SEM:CMO的行动指南

·百度给站长的建站指南

·利用robots.txt防止针对Movable Type的comments和backtrack ping