当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > 展现网站最优质内容 正确配置Robots文件

建站经验
评价网站推广的效果的方法
中国流量巨大的10种类型的商业网站
轻松快速打造PR5的网站
新手需要了解的网站建设的过程和步骤
推广个人博客最好办法 免费书签收藏代码
能坚持下来的站长让痛苦来的更猛烈些吧
博客首页该如何布局才能吸引与留住人
用户需求网站目标涉及行业盈利模式决定你做什么
建站流程应该是边修改边上线 推荐
建站经验谈 豆瓣网怎么推广的
GOOGLE在中国市场落后的5点原因分析
地方分类信息网站的有效推广方法小结
跟Alexa类似的网站流量跟踪的5个国外网站
网站建设与SEO的流程图
关于解决网站内容复制几点建议 强烈推荐
开心网转帖功能 网站推广经验
Site 网站首页不在第一页的原因及解决方法
解决首页不在第一页的问题的方法参考
网站推广 如何招兼职网络推广员
网站用户体验与公交车的用户体验

建站经验 中的 展现网站最优质内容 正确配置Robots文件


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 111 ::
收藏到网摘: n/a

Google,雅虎,微软就合作共同遵守统一的Sitemaps标准,又宣布,共同遵守的robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。

三家都支持的robots文件记录包括:

Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:

User-agent: *

Disallow: /

Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:

User-agent: *

Disallow: /ab/

Allow: /ab/cd

$通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:

User-agent: *

Allow: .htm$

*通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:

User-agent: *

Disallow: /*.htm

Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里,格式为:

Sitemap:

更多精彩点击下一页

三家都支持的Meta标签包括:

NOINDEX - 告诉蜘蛛不要索引某个网页。

NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。

NOSNIPPET - 告诉蜘蛛不要在搜索结果中显示说明文字。

NOARCHIVE - 告诉蜘蛛不要显示快照。

NOODP - 告诉蜘蛛不要使用开放目录中的标题和说明。

上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。

只有Google支持的Meta标签有:

UNAVAILABLE_AFTER - 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。

NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。

NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。

雅虎还支持Meta标签:

Crawl-Delay - 允许蜘蛛延时抓取的频率。

NOYDIR - 和NOODP标签相似,但是指雅虎目录,而不是开放目录。

Robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。

MSN还支持Meta标签:

Crawl-Delay

另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。

更多精彩点击下一页

在互联网这个大世界里,每天都会有大量的信息生成,其中有很多网站都是信息的制造者,这类网站的文章大多数都是原创性的,可是这类网站在互联网中却不是非常的知名,他们的风头全被新浪等"采集"网站抢走了。

其实并不是搜索引擎不喜欢他们,而是由于他们自己的失误,没有把优质的内容很好的呈现在搜索引擎的面前,这是因为他们不注重SEO导致的后果。比如很多报刊,杂志类的网站,天天都有一大批高质量的原创文章的更新,可这类公司他们仍然比较重视传统的文字性的东西,而忽略了网站的作用,通过分析他们的网站,可以挑出很多毛病。比如导航过于复杂,啰嗦,不能很直观把用户想要的文章呈现在用户面前,不能很方便的让用户查阅到他们所想要阅读的信息,导致了很多高质量的文章在蜘蛛爬行网站的过程中,根本就没有呈现出来,像这样已经石沉大海的,搜索引擎蜘蛛根本爬行不到的文章,就算写的再好,没有阅读者,那也就失去了文章本身的价值。文章就是写给阅读者看的,如果没有观众,文章再精彩也只是作家在一旁独自享乐!

当然,在讨论“如何把网站最优质的内容展现出来”这个问题时,有一个前提,网站原创性的文章比较多。解决这个问题最好的办法就是“内链建设”。内链建设的目的就是让网站的所有页面尽可能的联系在一起,建设成循环链,从而让尽可能多的网页呈现在搜索引擎蜘蛛面前,为蜘蛛提供尽可能多的“路径”选择。因为只有当蜘蛛爬行过你的网页,你的网页才有可能被抓取收录。如果压根蜘蛛就没爬行过的网页,那根本就无从谈起抓取收录的过程了。当然,一个网站要建立好良好的形象,必定要“扬长避短”!除了前面的“扬长”以外,还应该学会“避短”!我们可以通过robots.txt来限制蜘蛛的爬行页面,我们通过robots.txt的控制,不让蜘蛛爬行质量比较低劣的网页。