当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Google通过提交表单抓取新页面

网站优化
让百度一星期内收录方案 博客收录总结
新站百度只收录首页后又删除的解释
预测日IP上万的最新关键词
SEO 经验总结
wordpress 博客永久链接完整rewrite规则
搜索引擎 判断原创文章的一些猜测
google 已经可以抓取flash加载的外部资源
Google 官方对链接nofollow的政策
百度7月22日大更新研究 百度算法彻底改变
7月26日 百度算法再次波动的处理方法
近期百度大违常理排名全面解析
百度排名的一些初步分析
近日百度连续K站拔毛的原因分析
如何看待近日的百度调整算法事件
SEO基础之建立网站地图
另类的新站推广方法
网站优化 学习笔记
微软 Bing(必应)seo优化的建议
SEO 网页中需要重点强调的内容
认识搜索引擎优化(SEO)

网站优化 中的 Google通过提交表单抓取新页面


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 58 ::
收藏到网摘: n/a

Google虽然已经是抓取页面最多的搜索引擎,但还是不满足,因为有很多网页和信息是很难被发现和抓取的。这也就是为什么做网站时一定要注意搜索引擎友好。

现在Google开始提供提交表单(form)发现其后的网页。本想写个详细说明,刚好看到幻灭已经写了,就直接引用主要内容如下。

之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。

据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时(即检测到时),它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦 Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot 现在已经懂得通过提交表格而获得新内容。

同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那Googlebot 是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是 会自动略过这些表格的。

这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。

Matt Cutts也写了个帖子举例说明这么做的好处。有很多网站首页只是以表单方式列出公司下属的各地区分站,没有以链接形式列出各分站。这种网站以前是不能被深度收录的,因为Google不提交表单,就发现不了隐藏在表单后面的URL。

这当然给一些网站的收录创造了机会,是否也会对某些公司网站带来一定的安全风险?网站某部分不想被收录的话,赶紧用robots.txt文件禁止吧。