技术上的鬼扯淡：屏蔽百度爬虫的正确方法- 建站经验 - 软晨网（RuanChen.com）

当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > 技术上的鬼扯淡：屏蔽百度爬虫的正确方法

建站经验: 清晰的认识自己的站点才能获得更高的流量; 经验之谈：WEB建站之网站宣传; 选择你青睐的URL范式谷歌解答URL范式; 祝志军：网站优劣感受天涯的新架构新首页; 搜狐网冯志军：从用户的角度看内容的整合; 站长本位的回归“需要懂得,网站需要时间的积累与沉淀"; 官方基础教程：深度学习DedeCMS（多图）; 学一学并身体力行用户体验设计十大误区; 搭建一个小型论坛分享我的18个经验心得; 国产CMS初用印象个人推荐选择PHPCMS; 谷歌增加措施防范搜索引擎被恶意链接利用; 软件下载网站如何去应对迅雷的P2SP流量; 2009网络行业有哪些发展趋势?; 做正规网站杜绝垃圾站时代四个易犯弊病; 做个有技术的站长将你的创意转化为现实; 两则妙招：如何让DNS服务器集中解析域名; ASP.Net是什么兼容ASP但是性能更加优越; 股世英雄的网络推广经验之明确主题做推广; 网站内容为王网站的编辑如何来发布新闻; 模块化 CSS 让你更加有效地去管理 CSS

No. « ‹ 103 104 105 106 › »

技术文章搜索

关键字

建站经验中的技术上的鬼扯淡：屏蔽百度爬虫的正确方法

出处:互联网 整理: 软晨网（RuanChen.com） 发布: 2009-10-17 浏览: 129 ::

收藏到网摘: n/a

行业网站创业指南兴趣是创业的精神支柱

在百度C2C产品“百度有啊”即将上线的时候，淘宝网站曾经屏蔽百度搜索爬虫，禁止百度搜索引擎抓取淘宝网站的网页内容，淘宝官方的解释是“杜绝不良商家欺诈”。

在技术层面，淘宝屏蔽百度的方法是，在网站的robots.txt文件中加上如下内容：

User-agent: Baiduspider
Disallow: /

但实际上这种方法并不能完全屏蔽百度的爬虫，至今在百度上输入site：taobao.com还是可以看到内容，要不要索引网站，还是由百度说了算，要是遵守robots协议，那才不会索引，因此要想完全屏蔽百度的爬虫，需要在.htaccess中加入一些语句才可以，下面介绍两种方法。

方法1：

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

方法2：

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

当然，对于普通中文网站来说，还是不建议屏蔽百度的爬虫，通常情况下做一些大型的英文网站，才有必要这么做，以节省流量。

行业网站创业指南兴趣是创业的精神支柱

评论 (0) All