当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Google网站管理员工具轻松制作robots.txt

网站优化
SEO 搜索引擎收录页面流程原理和方式
SEO 分析某关键词的竞争强度的方法
新手站长找外部链接和简单网站推广方法
SEO实例经验分享 搜索引擎分词和长尾
DEDECMS 网站优化4则细节
Google 处理采集数据的一些分析
SEO不容易 开始给SEO吹冷风
Tags 标签优化细节问题
选择关键词的心得和思路
site 域名首页是在第一四种原因
网站找好链接的6种方法
三天优化到百度第一等类似信息纯属骗人
SEO实验 不要过于相信搜索引擎内部人的话
让排名在百度更稳定
百度 反垃圾网站的若干问答
搜索引擎重复网页发现技术分析
站内链接对蜘蛛收录的负面影响以及对策
免费网站推广诀窍 多干体力活儿
SEO 准确的进行关键词的选取
SEO 更新网站内容时注意的链接策略

网站优化 中的 Google网站管理员工具轻松制作robots.txt


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-26   浏览: 101 ::
收藏到网摘: n/a

robots.txt 文件使你能够指定你希望阻止其在你网站上抓取文件的漫游器(也被称为"bots"、"抓取工具"、“搜索引擎蜘蛛”)。网络上有很多各种各样的 robots.txt 生成器。Google网站管理员工具中的robots.txt 生成器是第一个由搜索引擎自己提供的生成器工具。
 
robots.txt文件其实很简单,只有几个简单的命令,用记事本就可以编辑了。但是对于很多菜鸟站长来说,robots.txt文件还是太过于复杂了。使用Google网站管理员工具 robots.txt 生成器,你就能够轻松创建 robots.txt 文件了。
 
注意:每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以即使你的网站上所有文件都需要蜘蛛抓取你还是应该在网站中添加一个robots.txt。
 
登陆Google网站管理员(https://www.google.com/webmasters/),选择你要检查的站点,在点击网站配置,选择抓取工具访问,就可以看到“生成robots.txt”工具了。
 
路径:登陆Google网站管理员>选择战点>网站配置>抓取工具访问>生成robots.txt(Generate robots.txt)
 
1. robots.txt生成器工具默认选项是“允许所有漫游器”——允许所有的搜索蜘蛛抓取网站。如果你也是希望这样的话,那你直接用下面这个生成的代码就行了。
 
User-agent: *
Allow: /

2. 你可以修改默认选项为“拦截所有漫游器”,这样做,你会得到下面的2行代码:

User-Agent: *
Disallow: /


这2行代码意味着你网站上的所有网页对所有的搜索引擎蜘蛛都不允许抓取。

3. 指定任何附加规则。例如,要阻止 Googlebot 访问你网站上的所有文件和目录,按以下步骤操作:

操作列表中,选择 拦截。在漫游器列表中,点击 Googlebot。在文件或目录框中,键入 /images/。点击添加。robots.txt 文件的代码将会自动生成。
你会得到下面这样的代码:

User-Agent: *
Allow: /         第一部分表示允许所有的蜘蛛进入(其实这部分完全可以不需要),

User-Agent: Googlebot
Disallow: /images/
Allow: /          第二部分表示不允许Googlebot抓取images文件夹里
的内容

最后,保存robots.txt 文件,方法是下载文件或将内容复制到文本文件并保存为 robots.txt。将文件保存到您网站的顶级目录下。robots.txt 文件必须位于域的根目录中并命名为"robots.txt"。位于子目录中的 robots.txt 文件无效,因为漫游器只在域的根目录中查找此文件。例如,http://www.example.com/漫游器.txt 是一个有效的位置,但 http://www.example.com/我的网站/漫游器.txt 是一个无效的位置。
 
另外,这个工具中只是列出了Google的蜘蛛,不过你也可以自己定义想要禁止的别的搜索引擎蜘蛛名称。
 
附各大搜索引擎的蜘蛛名称
 
Google的蜘蛛:
1) Googlebot:从Google的网站索引和新闻索引中抓取网页 
2) Googlebot-Mobile针对Google的移动索引抓取网页 
3) Googlebot-Image:针对Google的图片索引抓取网页
4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。 
5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下,Google才会使用此漫游器。

百度(Baidu)蜘蛛名称:Baiduspider
雅虎(Yahoo)蜘蛛名称:Yahoo Slurp
有道(Yodao)蜘蛛名称:YodaoBot
搜狗(sogou)蜘蛛名称:sogou spider
MSN的蜘蛛名称:Msnbot