当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 谷歌官方《搜索引擎优化指南》网络蜘蛛篇

网站优化
SEO 搜索引擎收录页面流程原理和方式
SEO 分析某关键词的竞争强度的方法
新手站长找外部链接和简单网站推广方法
SEO实例经验分享 搜索引擎分词和长尾
DEDECMS 网站优化4则细节
Google 处理采集数据的一些分析
SEO不容易 开始给SEO吹冷风
Tags 标签优化细节问题
选择关键词的心得和思路
site 域名首页是在第一四种原因
网站找好链接的6种方法
三天优化到百度第一等类似信息纯属骗人
SEO实验 不要过于相信搜索引擎内部人的话
让排名在百度更稳定
百度 反垃圾网站的若干问答
搜索引擎重复网页发现技术分析
站内链接对蜘蛛收录的负面影响以及对策
免费网站推广诀窍 多干体力活儿
SEO 准确的进行关键词的选取
SEO 更新网站内容时注意的链接策略

网站优化 中的 谷歌官方《搜索引擎优化指南》网络蜘蛛篇


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 51 ::
收藏到网摘: n/a

有效使用robots.txt

一个robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去抓取。而这个文件不旦必须命名成”robots.txt”,还得放在你网站的根目录上。 

Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt
一个网站robots.txt文件的路径。 
Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt

所有的遵循这一规则的搜索引擎爬虫(按照通配符*指示的那样)不应该进入并抓取/images/或者任何以/search开头的url里的内容。

你也许并不希望你网站的一些页面被抓取到,因为如果它们出现在搜索结果里对用户可能是没多大意义的。如果你想阻止搜索引擎爬取你的网页,Google网站管理员工具有一个很好用的robots.txt生成器来帮助你创建这个文件。另外如果你希望子域名里的一些内容不被爬取,你需要在子域名的目录下再新建一个robots.txt文件。你也可以在我们的网站管理员帮助中心获得更多关于robots.txt的信息。

这里也有其它更便捷的方式来阻止你的内容出现在搜索结果里,比如说在robots meta标签里添加”NOINDEX”,使用htaccess来为一些目录加密或者使用Google网站管理员工具来移除某些已经被索引的内容。Google工程师 Matt Cutts一个帮助视频里粗略地介绍了各种URL排除原理的注意事项。

robots.txt实践经验

为那些敏感的内容使用更加安全的方案——通过robots.txt来阻止一些敏感或者机密的内容。之所以这样做的是因为如果那些你在robots.txt里阻止的链接出现互联网上(比如说来源记录),搜索引擎就很可能引用这些URLs(不过仅难是URL,不会含有标题或者内容片段)。还有一些不遵守机器人排除标准的流氓搜索引擎则会违背robots.txt上的指令。最后一些好奇的用户就会去查看你robots.txt是声明阻止的目录或者子目录,并猜测那些你不想被看到的内容。所以对内容加密或者通过 .htaccess实现密码保护会是更安全的选择。当然你需要避免:

1.允许看起来像搜索结果一样的页面被爬取。(用户并不喜欢扔给自己一张搜索页面,全是一些没有多大意义的结果。)

2.允许大量的自动生成的页面被抓取,而里面大多都是相同或者差异甚微的内容。“像这些100000张几乎像复制的页面被搜索引擎索引了有多大意义呢?”

3.允许代理服务器创建的URLs被爬取。(来源:Google网站管理员博客  翻译:个篱遐想录)

知识补充:Robots.txt

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。

Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意Robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有和没有斜杠“/”这两种表示是不同的URL,也不能用"Disallow: *.gif"这样的通配符。

这个协议也不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。