当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > Robots.txt 协议标准

建站经验
11个PR7以上的国内网址导航站
国内现状 目前没几个博客能赚钱
网站推广最重要的2点 细节和坚持
给想通过博客赚钱的站长朋友的一些建议
网络推广经验 前期准备和发帖原则
盈利模式 细分市场是站长梦开始的地方
把握博客更新时间
总结网站推广中需要避免的12种推广方式
淘宝网店推广重点 抓住潜在的购买客户
建站杂谈 2010年web领域的预测
给用户一个无法拒绝的回访理由
建站案例 地方门户网站运营的心酸事
制作英文网站的基本流程
网站备案 图文教程
独立域名的英文博客从WordPress切换到Blogger的步骤
大胆尝试电子商务 改变传统盈利思路
404页面设计全攻略
以收购网站为名的商业间谍不可不防
运营企业网站来实现营销目标的经验
淘宝的站内搜索能改变搜索格局?

建站经验 中的 Robots.txt 协议标准


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 44 ::
收藏到网摘: n/a

Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

下面我们就来详细介绍一下它的使用方法:

Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。

例如:

如果您的网站地址是 http://www.ruanchen.com

那么,该文件必须能够通过 http://www.ruanchen.com/pload/tech/20091017/20091017115412_6e0721b2c6977135b916ef286bcb49ec.txt 打开并看到里面的内容。

格式:

User-agent:

用于描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

举例:

例一:"Disallow:/help"

是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。

例二:"Disallow:/help/"

是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。

例三:Disallow记录为空

说明该网站的所有页面都允许被搜索引擎抓取,在"/upload/tech/20091017/20091017115412_6e0721b2c6977135b916ef286bcb49ec.txt"文件中,至少要有一条Disallow记录。如果"/upload/tech/20091017/20091017115412_6e0721b2c6977135b916ef286bcb49ec.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。

#:

Robots.txt 协议中的注释符。

举例:

例一:通过"/upload/tech/20091017/20091017115412_6e0721b2c6977135b916ef286bcb49ec.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录,以及 "/tmp/"目录和 /foo.html 文件,设置方法如下:

User-agent: *

Disallow: /bin/cgi/

Disallow: /tmp/

Disallow: /foo.html

例二:通过"/upload/tech/20091017/20091017115412_6e0721b2c6977135b916ef286bcb49ec.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。

如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容,设置方法如下:

User-agent: *

Disallow: /cgi/

User-agent: slurp

Disallow:

例三:禁止任何搜索引擎抓取我的网站,设置方法如下:

User-agent: *

Disallow: /

例四:只禁止某个搜索引擎抓取我的网站

如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:

User-agent: slurp

Disallow: /

更多,请参考译文出处:http://www.robotstxt.org/wc/norobots.htm