当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Google网站管理员工具轻松制作robots.txt

网站优化
Google网站管理员工具轻松制作robots.txt
Google官方:keywords meta标签对GOOGLE排名没影响
网站优化教程:搜索引擎更新时间
网站的PR值与排名的真正意义
渡虎谷告诉你CSS的结构和规则
渡虎谷告诉你SEO道德规范
论中国SEO的可持续发展
领悟搜索之道:提高在线营销效果
针对错误关键词的SEO没有意义
SEO网站分析:如何进行评分
Googlep排名优化研究(三)
Googlep排名优化研究(二)
Googlep排名优化研究(一)
SEO的URL如何优化才是最佳
Web 2.0技术对SEO的影响
追溯互联网搜索引擎的发展史起源
SEO和个人资源
网站SEO优化实例
网站进行初步诊断十大基本步骤
标准网站开发流程中搜索引擎作用解析

网站优化 中的 Google网站管理员工具轻松制作robots.txt


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-26   浏览: 57 ::
收藏到网摘: n/a

robots.txt 文件使你能够指定你希望阻止其在你网站上抓取文件的漫游器(也被称为"bots"、"抓取工具"、“搜索引擎蜘蛛”)。网络上有很多各种各样的 robots.txt 生成器。Google网站管理员工具中的robots.txt 生成器是第一个由搜索引擎自己提供的生成器工具。
 
robots.txt文件其实很简单,只有几个简单的命令,用记事本就可以编辑了。但是对于很多菜鸟站长来说,robots.txt文件还是太过于复杂了。使用Google网站管理员工具 robots.txt 生成器,你就能够轻松创建 robots.txt 文件了。
 
注意:每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以即使你的网站上所有文件都需要蜘蛛抓取你还是应该在网站中添加一个robots.txt。
 
登陆Google网站管理员(https://www.google.com/webmasters/),选择你要检查的站点,在点击网站配置,选择抓取工具访问,就可以看到“生成robots.txt”工具了。
 
路径:登陆Google网站管理员>选择战点>网站配置>抓取工具访问>生成robots.txt(Generate robots.txt)
 
1. robots.txt生成器工具默认选项是“允许所有漫游器”——允许所有的搜索蜘蛛抓取网站。如果你也是希望这样的话,那你直接用下面这个生成的代码就行了。
 
User-agent: *
Allow: /

2. 你可以修改默认选项为“拦截所有漫游器”,这样做,你会得到下面的2行代码:

User-Agent: *
Disallow: /


这2行代码意味着你网站上的所有网页对所有的搜索引擎蜘蛛都不允许抓取。

3. 指定任何附加规则。例如,要阻止 Googlebot 访问你网站上的所有文件和目录,按以下步骤操作:

操作列表中,选择 拦截。在漫游器列表中,点击 Googlebot。在文件或目录框中,键入 /images/。点击添加。robots.txt 文件的代码将会自动生成。
你会得到下面这样的代码:

User-Agent: *
Allow: /         第一部分表示允许所有的蜘蛛进入(其实这部分完全可以不需要),

User-Agent: Googlebot
Disallow: /images/
Allow: /          第二部分表示不允许Googlebot抓取images文件夹里
的内容

最后,保存robots.txt 文件,方法是下载文件或将内容复制到文本文件并保存为 robots.txt。将文件保存到您网站的顶级目录下。robots.txt 文件必须位于域的根目录中并命名为"robots.txt"。位于子目录中的 robots.txt 文件无效,因为漫游器只在域的根目录中查找此文件。例如,http://www.example.com/漫游器.txt 是一个有效的位置,但 http://www.example.com/我的网站/漫游器.txt 是一个无效的位置。
 
另外,这个工具中只是列出了Google的蜘蛛,不过你也可以自己定义想要禁止的别的搜索引擎蜘蛛名称。
 
附各大搜索引擎的蜘蛛名称
 
Google的蜘蛛:
1) Googlebot:从Google的网站索引和新闻索引中抓取网页 
2) Googlebot-Mobile针对Google的移动索引抓取网页 
3) Googlebot-Image:针对Google的图片索引抓取网页
4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。 
5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下,Google才会使用此漫游器。

百度(Baidu)蜘蛛名称:Baiduspider
雅虎(Yahoo)蜘蛛名称:Yahoo Slurp
有道(Yodao)蜘蛛名称:YodaoBot
搜狗(sogou)蜘蛛名称:sogou spider
MSN的蜘蛛名称:Msnbot