当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 有道关于robots.txt的解释

网站优化
SEO实例教程:DEDECMS网站优化4则细节
SEO实例经验分享:搜索引擎分词和长尾
新手站长如何找外部链接和简单网站推广
SEO教程:选择关键词的心得和思路
网站优化:Tags标签优化细节问题
做SEO不容易:开始给SEO吹冷风
网站SEO的正道:提升网站的关键词搜索强度
SEO新研究:google搜索结果显示面包屑导航
了解Google是怎样处理采集数据的
最成功的模式:企业通过长尾媒体进行推广并赚取利润
SEO教程:思考和分析相关网站和大型网站
网站优化教程:找到好链接的6种方法
site域名首页是在第一四种原因
三天优化到百度第一纯属骗人
SEO实验:不要过于相信搜索引擎内部人的话
用DIV+CSS制作网页SEO工作完成30%
SEO预测:网站链接建设方式的转变
网站优化实例教程:做好网站优化的几个简单步骤
SEO教程:按主题归类方式管理网站内容
SEO教程:利用关键词组合策略更新网站内容

网站优化 中的 有道关于robots.txt的解释


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-26   浏览: 56 ::
收藏到网摘: n/a

怎么写robots.txt文件?
robots.txt是个很简单的文本文件,您只要标明“谁不能访问哪些链接”即可。
在文件的第一行写:
User-Agent: YodaoBot
这就告诉了爬虫下面的描述是针对名叫YodaoBot的爬虫。您还可以写:
User-Agent: *
这就意味着向所有的爬虫开放。需要注意的是一个robots.txt文件里只能有一个"User-Agent: *"。

接下来是不希望被访问的链接前缀。例如:
Disallow: /private
这就告诉爬虫不要抓取以"/private"开头的所有链接。包括/private.html,/private/some.html,/private/some/haha.html。如果您写成:
Disallow: /
则表明整个站点都不希望被访问。您也可以分多行来指定不希望被抓取的链接前缀,例如:
Disallow: /tmp
Disallow: /disallow
那么所有以"/tmp"和"/disallow"开头的链接都不会被访问了。

最后形成的robots.txt文件如下:
User-Agent: YodaoBot
Disallow: /tmp
Disallow: /private

请注意,如果您的robots.txt文件里有中文等非英语字符,请确定该文件是由UTF-8编码编写。