当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 有道关于robots.txt的解释

网站优化
合理布局企业营销网站的内容
网站SEO如何创造“伪原创”内容
手把手教你做小型网站的网站优化
网站优化应该注意的搜索引擎不接受的操作
五项关键策略影响网站优化(SEO)
Google、Yahoo和MSN对英文站收录的策略
Google域名信任度提高的8个简单方法
搜索引擎优化(SEO)从业者无须担心的事情
网站首页标题关键词优化
制定完整的网站推广计划
多个网站关键词该如何优化?
学习总结:搜索引擎优化(SEO)用不着特复杂
提升网站在搜索引擎中的权重,让搜索引擎认可
熟知网络营销策略帮中小企业突围
了解Web2.0时代的网络推广方式
参考:详细的网站推广方案
站长来看:Baidu关于网页收录问题
站长来看:Baidu关于收录网页排序问题
Baidu给站长的建站建议
网站策划推广总结

网站优化 中的 有道关于robots.txt的解释


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-26   浏览: 27 ::
收藏到网摘: n/a

怎么写robots.txt文件?
robots.txt是个很简单的文本文件,您只要标明“谁不能访问哪些链接”即可。
在文件的第一行写:
User-Agent: YodaoBot
这就告诉了爬虫下面的描述是针对名叫YodaoBot的爬虫。您还可以写:
User-Agent: *
这就意味着向所有的爬虫开放。需要注意的是一个robots.txt文件里只能有一个"User-Agent: *"。

接下来是不希望被访问的链接前缀。例如:
Disallow: /private
这就告诉爬虫不要抓取以"/private"开头的所有链接。包括/private.html,/private/some.html,/private/some/haha.html。如果您写成:
Disallow: /
则表明整个站点都不希望被访问。您也可以分多行来指定不希望被抓取的链接前缀,例如:
Disallow: /tmp
Disallow: /disallow
那么所有以"/tmp"和"/disallow"开头的链接都不会被访问了。

最后形成的robots.txt文件如下:
User-Agent: YodaoBot
Disallow: /tmp
Disallow: /private

请注意,如果您的robots.txt文件里有中文等非英语字符,请确定该文件是由UTF-8编码编写。