当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Google通过提交表单抓取新页面

网站优化
学习seo的注意事项
同样内容的网站放在不同的域名对你有帮助吗
SEO 关键词的选择
网站真实流量分析方法
锚文本对于SEO的重要性
SEO技术 google pr值算法浅谈
搜索引擎优化的一些方法和排名技巧
2009年影响网站搜索引擎排名的重要因素小结
SEO 实战 关键词排名还很重要吗?
SEO教程 网站地址URL规范化技巧
SEO实例分享 关键词和网站流量
所有SEO策略需要站在运营和产品角度
SEO工具 五款免费的死链接检测工具
网页图片该如何优化
SEO切不可把 内容为王 奉为圣经而不知变通
选择一个适合SEO的CMS系统的分析
Google 任何时间段的网页结果查看方法
Google明令禁止的十大SEO黑帽技术小结
SEO作弊方法和SEO作弊认定准则分析
博客从谷歌获得较高的PR值的方法分析

网站优化 中的 Google通过提交表单抓取新页面


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 59 ::
收藏到网摘: n/a

Google虽然已经是抓取页面最多的搜索引擎,但还是不满足,因为有很多网页和信息是很难被发现和抓取的。这也就是为什么做网站时一定要注意搜索引擎友好。

现在Google开始提供提交表单(form)发现其后的网页。本想写个详细说明,刚好看到幻灭已经写了,就直接引用主要内容如下。

之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。

据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时(即检测到时),它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦 Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot 现在已经懂得通过提交表格而获得新内容。

同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那Googlebot 是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是 会自动略过这些表格的。

这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。

Matt Cutts也写了个帖子举例说明这么做的好处。有很多网站首页只是以表单方式列出公司下属的各地区分站,没有以链接形式列出各分站。这种网站以前是不能被深度收录的,因为Google不提交表单,就发现不了隐藏在表单后面的URL。

这当然给一些网站的收录创造了机会,是否也会对某些公司网站带来一定的安全风险?网站某部分不想被收录的话,赶紧用robots.txt文件禁止吧。