当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > 技术上的鬼扯淡:屏蔽百度爬虫的正确方法

建站经验
网站为什么会被百度降权 的原因分析
在搜索引擎上做排名的方法
最令人讨厌的 也是最行之有效的广告类型
穷站长 富站长 分析
如何成为一名合格的站长
建站经验 网站打开速度快慢的因素
建站IDC选择经验 认识双线机房
制作网站需要学习的知识
判断某个网站流量简单分析
岳贵 谈谈个人站长如何树立信念
个人站长二步定位好一个网站
博客网站打造高流量的四种方法
建站经验 你的网站该如何应对被采集
充分利用百度知道进行网络推广
你听说过月赚4万美圆的个人博客吗
网站 搜索引擎降权的处理方法
网页设计 可读性的提高方法
目前最流行的10款国外博客程序
充分利用微型博客推广的技巧
建站经验 成功网站应该具备的

建站经验 中的 技术上的鬼扯淡:屏蔽百度爬虫的正确方法


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 55 ::
收藏到网摘: n/a

在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。