当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 网站优化攻略:Robots.txt使用指南

网站优化
flash对seo的影响分析
更新网站百度快照的方法 关键词与外链
可以增加关键字密度几种好方法
导致网站被百度降权的常见因素分析
SEO 策略 搜索引擎 排名
Flash 网站优化有窍门
SEO 优化需要兼顾用户体验设计
不容忽视的SEO优化细节
SEO第一名 只能是谎言
个人站长推广经验与技巧小结
百度快照 频频停止 几种原因分析
微软Bing搜索引擎 网站提交
Bing 网站管理员工具使用指南
国外 SEO优化 几个知识
Web 图片优化技巧总结
SEO 初学者必读
写软文离不开文字功底和素材的说明
SEO 初学者需要掌握的几个基本技能
Google 网页质量 评估 分析
百度对于新站平稳收录的一些技巧分享

网站优化攻略:Robots.txt使用指南


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-26   浏览: 62 ::
收藏到网摘: n/a

搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:
   1) 一个User-Agent(用户代理)字符串行;
   2) 若干Disallow字符串行。
   记录格式为:<Field> ":" <value>
   下面我们分别对这两个域做进一步说明。
User-agent(用户代理):
   User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot
   一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个robot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符"*"就搞定了,即:User-agent: * Disallow(拒绝访问声明):
   在Robots.txt文件中,每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问,而"Disallow:/bob"则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部分都向搜索引擎开放。
空格 & 注释
   在robots.txt文件中,凡以"#"开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。但大家需要注意两个问题:
   1) RES标准允许将注解内容放在指示行的末尾,但这种格式并不是所有的Spiders都能够支持。譬如,并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成一行。
   2) RES标准允许在一个指令行的开头存在空格,象"Disallow: bob #comment",但我们也并不建议大家这么做。
Robots.txt文件的创建:
   需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能,或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子——白费力气了。
对RES标准的扩展:
   尽管已经提出了一些扩展标准,如Allow行或Robot版本控制(例如应该忽略大小写和版本号),但尚未得到RES工作组的正式批准认可。
附录I. Robots.txt用法举例:
   使用通配符"*",可设置对所有robot的访问权限。
   User-agent: *
   Disallow:
   表明:允许所有搜索引擎访问网站下的所有内容。
   User-agent: *
   Disallow: /
   表明:禁止所有搜索引擎对网站下所有网页的访问。
   User-agent: *
   Disallow: /cgi-bin/Disallow: /images/
   表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。
   User-agent: Roverdog
   Disallow: /
   表明:禁止Roverdog访问网站上的任何文件。
   User-agent: Googlebot
Disallow: cheese.htm
   表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。
   上面介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt, www.looksmart.com/robots.txt )
附录II. 相关robots.txt文章参考:
   1. Robots.txt常见问题解析
   2. Robots Meta Tag的使用
   3. Robots.txt检测程序