当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > 技术上的鬼扯淡:屏蔽百度爬虫的正确方法

建站经验
我骄傲我的站 关于我的纹身网站
大学生网上卖菜 为你解决开门七件事
做电子商务 选择好的虚拟主机是关键
惨痛教训站长足戒 给建站初期的各位站长
做网站需要的是坚持和不断学习的精神
网站发帖宣传应该注意哪些地方
新手做论坛,要用好你的每一分钱
草根站长每天需要做的事情 今天你做了吗
从站长力量网的成功看网站功能的创新重要性
设计能力决定权力
坚持、勤思、善学 建站路程从失败走向成功
分类信息网站未来命运!
关于快速提升新站PR值的方法见解
真正学会做网站的时候 你就成了情场高手
网站容易被百度拔毛的几点情况及预防建议
如何让SupeSite7.0首页显示全部的频道分类
我建站被骗经历和一点经验
软文使网站从PR1提升到PR3 谈软文的好处
踏踏实实做站 放弃网赚成富翁的幻想
教训:垃圾服务器差点让我的网站毁于一旦

建站经验 中的 技术上的鬼扯淡:屏蔽百度爬虫的正确方法


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 115 ::
收藏到网摘: n/a

在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。