当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > 技术上的鬼扯淡:屏蔽百度爬虫的正确方法

建站经验
建站经验分享 做网站的思路
网站内容 原创,转载与伪原创
建站经验 网站要成功必须具备的6点
制作网站价格为什么那么便宜
网站流量 主要来源分析
结合个人小站 谈谈如何提高网站PV
设计网站要注意吸引客户和留住客户
搜索引擎 对自助链接的一些政策
利用反向链接提高网站权重的5种形式
搜索引擎 Bing必学的高级搜索语法
用户体验 文章引导,心理引导粘住网站用户
网站上线前要做的准备工作
Google 优化蜘蛛爬取和索引的技巧
网站发展中20条禁令 推荐
站长网站建设应避免的八大雷区小结
网站15种最差的用户体验
网站策划 网站信息闭环设计
新奇网站 认识代BT下载网站
建站入门 顶级域名与二级域名
网站改版升级的理论知识 站长需要看下

建站经验 中的 技术上的鬼扯淡:屏蔽百度爬虫的正确方法


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 58 ::
收藏到网摘: n/a

在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。