当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > 技术上的鬼扯淡:屏蔽百度爬虫的正确方法

建站经验
推广经验 利用QQ推广网站的方法
google 恶意软件网站 警告后 怎么办
站长浅谈 运营网站切勿盲目跟风
远离垃圾站 做一个有用的站 让人们需要你
站长想把网站做好需要专心
让百度蜘蛛认为你的网站是一个好网站
企业网站 建设目标分析
问答推广的实施步骤与问答推广方法和技巧
SEO B2B行业网站优化经验
搜索引擎算法调整和被搜索引擎惩罚的解决方法
选择不知名网站源码来建站选择技巧
digg 创始人经验分享 发展网站用户的9个方法
智能查询域名的10个国外网站
成功网站的法则 简单的直击人最基本需求
网站 邀请机制的使用说明
成功网站=充实的内容+勤奋的站长+运气
网站内容的主动组织和展示技巧
百度K站和降权原因大收集 看看你占了哪一条
网络媒体 让资讯与服务融为一体
网站运营 SNS社区产品设计思想

建站经验 中的 技术上的鬼扯淡:屏蔽百度爬虫的正确方法


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 56 ::
收藏到网摘: n/a

在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。