当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 谷歌网站管理员详解:如何使用robots.txt

网站优化
让百度一星期内收录方案 博客收录总结
新站百度只收录首页后又删除的解释
预测日IP上万的最新关键词
SEO 经验总结
wordpress 博客永久链接完整rewrite规则
搜索引擎 判断原创文章的一些猜测
google 已经可以抓取flash加载的外部资源
Google 官方对链接nofollow的政策
百度7月22日大更新研究 百度算法彻底改变
7月26日 百度算法再次波动的处理方法
近期百度大违常理排名全面解析
百度排名的一些初步分析
近日百度连续K站拔毛的原因分析
如何看待近日的百度调整算法事件
SEO基础之建立网站地图
另类的新站推广方法
网站优化 学习笔记
微软 Bing(必应)seo优化的建议
SEO 网页中需要重点强调的内容
认识搜索引擎优化(SEO)

网站优化 中的 谷歌网站管理员详解:如何使用robots.txt


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 52 ::
收藏到网摘: n/a

如何放置Robots.txt文件

robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为“robots.txt”。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。

这里举一个robots.txt的例子:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~name/

使用 robots.txt 文件拦截或删除整个网站

要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: *Disallow: /

要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: GooglebotDisallow: /

每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。

对于 http 协议 (http://yourserver.com/robots.txt):

User-agent: *Allow: /

对于 https 协议 (https://yourserver.com/robots.txt):

User-agent: *Disallow: /

允许所有的漫游器访问您的网页

User-agent: *Disallow:

(另一种方法: 建立一个空的 “/robots.txt” 文件, 或者不使用robot.txt。)

使用 robots.txt 文件拦截或删除网页

您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:

User-agent: GooglebotDisallow: /private

要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:

User-agent: GooglebotDisallow: /*.gif$

要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:

User-agent: GooglebotDisallow: /*?

尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。

作为网站管理员工具的一部分,Google提供了robots.txt分析工具。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个robots.txt文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用robots.txt, 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。