当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 搜索引擎真的遵守robots.txt协议吗?

网站优化
如何提高网站的谷歌页面等级权重
PR更新了 但是能够代表什么呢
网站主要状态页细解以及与搜索引擎的关系
网站的规范标准化建设以及robots协议详解
二十八个让关键词排名明显改观的优化技巧
耐心与细致 搜索引擎优化的六个基础步骤
link和domain在不同的搜索引擎含义不相同
网页内容 针对用户和搜索引擎的不同要求
基础教程:关键词选择基本思路和分析过程
方方面面:五十七条搜索引擎优化实用技巧
经验:让百度三天就收录网站的九个小诀窍
用六个办法加快百度搜索引擎对新站的收录
网站快速被百度和谷歌收录的六个建站气质
搜索优化外链为王时代 不要忘记内链建设
百度更改网页权重算法 网站如何被顺利收录
站长不要讨一时之巧 在网页优化中进行作弊
搜索引擎不及时更新或被降权被封怎么处理
谷歌中文官方博客 简单介绍什么是导入链接
草根站长所关心的 百度收录新站的几点看法
耕耘自己一亩三分田 个人站长勿入SEO误区

网站优化 中的 搜索引擎真的遵守robots.txt协议吗?


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 78 ::
收藏到网摘: n/a

 我们都知道robots.txt文件是搜索引擎遵守的一个抓取协议,但是是不是真的有效果呢?

搜索引擎真的会遵循这个协议吗?

让我们首先来看看

下面这段 [这是我南昌SEO站点的robots.txt设置:允许GG 百度、ALEXA 抓取,屏蔽了其他一切引擎禁止!]

User-agent:Googlebot

Disallow:

User-agent:baiduspider

Disallow:

User-agent:ia_archiver

Disallow:

User-agent:*

Disallow:/

从理论上来说 这样的设置就屏蔽了其他一切引擎,但实际上这种方法并不能完全屏蔽SOSO YAHOO MSN之类的爬虫,在YAHOO上输入site:www.seo-jx.cn还是可以看到内容以及索引的!
遵守robots协议与否当然是由他们自己说了算的!所以要想完全屏蔽搜索引擎的爬虫,需要在.htaccess中加入限制语句才行,这里我们介绍2种最简单的方法:
1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^MSNBOT [NC]
RewriteRule .* - [F]

 

2:

SetEnvIfNoCase User-Agent "^MSNBOT" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

注:MSNBOT 为MSN蜘蛛机器人代码 ,如果想要真正屏蔽某个搜索引擎 把其中的红色部分[MSNBOT]
换成你想要屏蔽的蜘蛛机器人代码即可!
请不要随意添写 否则造成损失与本人无关!
SEO小林发布,转载请注明出处:江西南昌SEO http://www.seo-jx.cn/