当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 谷歌官方《搜索引擎优化指南》网络蜘蛛篇

网站优化
谷歌官方《搜索引擎优化指南》分析工具篇
谷歌中文网站管理员教程 链接架构重要性
更新网站内容频率对SEO的影响
针对于谷歌搜索引擎优化的十二个基本步骤
《网络营销教程—SEO》 第二章搜索引擎
《网络营销教程—SEO》 第三章搜索引擎营销
基础教程 搜索引擎优化基础之空间和域名
基础教程 搜索引擎优化基础之爬虫程序篇
国内四大主流搜索引擎 百度谷歌雅虎搜狗
搜索引擎优化基础教程 进行关键词的优化
搜索引擎优化基础教程 如何针对百度优化
十四个因素 将导致网站不被搜索引擎收录
搜狗搜索引擎优化方法
九大搜索引擎优化作弊总结 检查下你网站
影响网站优化的五项关键策略
搜索引擎优化基础教程 单面页的最佳优化
网站优化过程中的关键点 关键词的选择
搜索引擎优化排名做好的十个基本要点
谈外连对整个网站的seo影响有多大
搜索引擎优化SEO操作指南

网站优化 中的 谷歌官方《搜索引擎优化指南》网络蜘蛛篇


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 34 ::
收藏到网摘: n/a

有效使用robots.txt

一个robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去抓取。而这个文件不旦必须命名成”robots.txt”,还得放在你网站的根目录上。 

Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt
一个网站robots.txt文件的路径。 
Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt

所有的遵循这一规则的搜索引擎爬虫(按照通配符*指示的那样)不应该进入并抓取/images/或者任何以/search开头的url里的内容。

你也许并不希望你网站的一些页面被抓取到,因为如果它们出现在搜索结果里对用户可能是没多大意义的。如果你想阻止搜索引擎爬取你的网页,Google网站管理员工具有一个很好用的robots.txt生成器来帮助你创建这个文件。另外如果你希望子域名里的一些内容不被爬取,你需要在子域名的目录下再新建一个robots.txt文件。你也可以在我们的网站管理员帮助中心获得更多关于robots.txt的信息。

这里也有其它更便捷的方式来阻止你的内容出现在搜索结果里,比如说在robots meta标签里添加”NOINDEX”,使用htaccess来为一些目录加密或者使用Google网站管理员工具来移除某些已经被索引的内容。Google工程师 Matt Cutts一个帮助视频里粗略地介绍了各种URL排除原理的注意事项。

robots.txt实践经验

为那些敏感的内容使用更加安全的方案——通过robots.txt来阻止一些敏感或者机密的内容。之所以这样做的是因为如果那些你在robots.txt里阻止的链接出现互联网上(比如说来源记录),搜索引擎就很可能引用这些URLs(不过仅难是URL,不会含有标题或者内容片段)。还有一些不遵守机器人排除标准的流氓搜索引擎则会违背robots.txt上的指令。最后一些好奇的用户就会去查看你robots.txt是声明阻止的目录或者子目录,并猜测那些你不想被看到的内容。所以对内容加密或者通过 .htaccess实现密码保护会是更安全的选择。当然你需要避免:

1.允许看起来像搜索结果一样的页面被爬取。(用户并不喜欢扔给自己一张搜索页面,全是一些没有多大意义的结果。)

2.允许大量的自动生成的页面被抓取,而里面大多都是相同或者差异甚微的内容。“像这些100000张几乎像复制的页面被搜索引擎索引了有多大意义呢?”

3.允许代理服务器创建的URLs被爬取。(来源:Google网站管理员博客  翻译:个篱遐想录)

知识补充:Robots.txt

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。

Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意Robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有和没有斜杠“/”这两种表示是不同的URL,也不能用"Disallow: *.gif"这样的通配符。

这个协议也不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。