当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > 技术上的鬼扯淡:屏蔽百度爬虫的正确方法

建站经验
网站推广是个持久战 站长要掌握战术技巧
持之以恒的网站推广和日常更新
效果营销 有广告预算不知道用哪些渠道
论坛运营管理经验 防垃圾广告的3种方法
网页页面加载对用户访问的影响
博客网站该如何提升流量
盈利模式 让用户对网站内容买单
网站运营的步骤小结
分类信息网站线下低成本推广方式分析
地方门户网站低推广高回报的思路分析
网站运营战略应该放弃的网站分析
中国网站PR8以上的网站分析
把网站当作自己的孩子 坚持把它养大才能赚钱
网站设计角度分析 提高B2C网站转换率
QQ群推广网站注意的细节问题
闲置的域名该怎么发挥下作用
用虚拟主机做的网站如何迁移
经营一个成功得博客
新手建网站切莫使用低廉服务器(针对做大站的朋友)
BBS型社区运营思路 事件营销是有效的推广方式

建站经验 中的 技术上的鬼扯淡:屏蔽百度爬虫的正确方法


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 52 ::
收藏到网摘: n/a

在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。