当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Google黑板报:让google更容易抓取收录网页

网站优化
如何让网站逃出百度沙盒和谷歌沙盒
草根站长教你奥:优秀的原创文章十要素
友情链接的九大标准
怎样让网站上线一月主关键字就冲刺到第一页
如何为企业写blog
提高客户转化率的八大细节
七分文章三分seo-老站长谈网站SEO建设
更新无益 偷懒有理-揭秘搜索引擎算法
提高自身网站权重 网站形象推广小秘籍
企业推广新方式:中文域名加邮箱
站长首选:地毯式推广
新站如何做SEO?
教你写标题描述关键词
垃圾站-沉溺于网站seo的最终结果
王通撕下神秘面纱-什么是真正的seo
英文网站SEO的八大内容
换个思维研究SEO可以吗?
论策探讨网络软文如何写
网络推广原创 让更多人加入创意行业
快速提高一个新网站的流量的方法

网站优化 中的 Google黑板报:让google更容易抓取收录网页


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-26   浏览: 51 ::
收藏到网摘: n/a

对于搜索引擎来说,每天要处理如此多的网页与数据,因此不要妄想搜索引擎会很有耐心的抓取或收录你的网站,对于站长来说,只有将自己网站做得更适合搜索引擎抓取,才能从中获得最大的效益。

很多有关于网站结构、抓取与收录、甚至是排名的问题都可以被归结为一个中心问题,那就是:搜索引擎能够多么容易的抓取您的网站?我们在最近的几次活动上都谈到过这个话题,下面您将会看到我们关于这个问题的演讲内容以及要点概括。

网络世界极其庞大;每时每刻都在产生新的内容。Google 本身的资源是有限的,当面对几近无穷无尽的网络内容的时候,Googlebot 只能找到和抓取其中一定比例的内容。然后,在我们已经抓取到的内容中,我们也只能索引其中的一部分。

URLs 就像网站和搜索引擎抓取工具之间的桥梁: 为了能够抓取到您网站的内容,抓取工具需要能够找到并跨越这些桥梁(也就是找到并抓取您的URLs)。如果您的URLs很复杂或冗长,抓取工具不得不需要反复花时间去跟踪这些网址;如果您的URLs很规整并且直接指向您的独特内容,抓取工具就可以把精力放在了解您的内容上,而不是白白花在抓取空网页或被不同的URLs指引却最终只是抓取到了相同的重复内容。

在上面的幻灯片上,您可以看到一些我们应当避免的反例--这些都是现实中存在的URL例子(尽管他们的名称由于保护隐私的原因已经被替换了),这些例子包括被黑的URL和编码,冗余的参数伪装成URL路径的一部分,无限的抓取空间,等等。您还可以找到帮助您理顺这些网址迷宫和帮助抓取工具更快更好地找到您的内容的一些建议,主要包括:

1)去除URL中的用户相关参数
那些不会对网页内容产生影响的URL中的参数——例如session ID或者排序参数——是可以从URL中去除的,并被cookie记录的。通过将这些信息加入cookie,然后301重定向至一个“干净”的URL,你可以保持原有的内容,并减少多个URL指向同一内容的情况。
控制无限空间

你的网站上是否有一个日历表,上面的链接指向无数个过去和将来的日期(每一个链接地址都独一无二)?你的网页地址是否在加入一个&page=3563的参数之后,仍然可以返回200代码,哪怕根本没有这么多页?如果是这样的话,你的网站上就出现了所谓的“无限空间”,这种情况会浪费抓取机器人和你的网站的带宽。如何控制好“无限空间”,参考这里的一些技巧吧。

2)阻止Google爬虫抓取他们不能处理的页面
通过使用你的robots.txt 文件,你可以阻止你的登录页面,联系方式,购物车以及其他一些爬虫不能处理的页面被抓取。(爬虫是以他的吝啬和害羞而著名,所以一般他们不会自己 “往购物车里添加货物” 或者 “联系我们”)。通过这种方式,你可以让爬虫花费更多的时间抓取你的网站上他们能够处理的内容。

一人一票。 一个 URL, 一段内容
在理想的世界里,URL和内容之间有着一对一的对应:每一个URL会对应一段独特的内容,而每一段内容只能通过唯一的一个URL访问。越接近这样的理想状况,你的网站会越容易被抓取和收录。如果你的内容管理系统或者目前的网站建立让它实现起来比较困难,你可以尝试使用rel=canonical元素去设定你想用的URL去指示某个特定的内容。