当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Googlebot怎么抓网页?想知道吗?

网站优化
谷歌不会将搜索词元标记用于网页搜索结果的排名
SEO策略是建立在网站的整体转换率上面的
网络创业:小技术团队的成长
网站优化:导出链接也能提高网站PR权重
SEO教程:Google为网站提供相关链接功能
网站关键词排名发生变化时怎么办?
8个通过实战总结出来的SEO经验
Google官方博客:锚文本实现段落跳转
SEO教程:动易CMS的目录结构SEO优化
实例分析网站主要关键词排名不高的原因
Baidu优化:经过实践后觉得确实有效的经验
新站长必须知道的SEO的10个小技巧
Google Adwords推出广告附加链接
Google网站管理员工具验证网站新变化
SEO教程:搜索引擎收录页面流程原理和方式
SEO教程:分析某关键词的竞争强度的方法
外媒:Google可能把网页载入速度纳入搜索引擎排名体系
SEO教程:大型网站对热门关键词和长尾关键词的选取
让SEM工作更高效展开效果更好的思路
SEO经验谈:为用户提供最好的搜索体验

网站优化 中的 Googlebot怎么抓网页?想知道吗?


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2010-01-03   浏览: 49 ::
收藏到网摘: n/a

1 、Fetch as Googlebot 这是两个月前更新在网站管理员工具

Google 网站管理员工具刚刚发布了一个 Labs 功能,其中有个功能叫做 Fetch as Googlebot ,你可以在这里模仿 Googlebot,查看你自己的网页代码。不过这个功能是必须通过管理员验证的网站才能查看,没有网站管理权限就没机会了。

2、安装 Firefox 扩展插件,名字叫 User Agent Switcher

这个 User Agent Switcher 可以模仿 IE6、IE7、IE8、Googlebot、Msnbot、Yahoo Slurp、iPhone 3.0,同时这个扩展插件还可以自定义机器人,添加或者删除,如图。

googlebot 6 八种以 Googlebot 查看网页的方式

再补充一些:User Agent String几乎将所有的 Googlebot 都在这个页面列举出来了,有兴趣进一步研究的可以查看,自己添加和修改机器人,应该还包括不少google的服务器IP资源

3、安装 SEOBOOK 为 SEOer 量身定做的工具条

SEOBOOK 里面也有 User Agent 切换功能,不光是 Googlebot、MSN bot、Yahoo Slurp,还有其他浏览器的IE、 Netscape、Opera 等。

如图

googlebot 5 八种以 Googlebot 查看网页的方式

4、修改注册表(只限于IE,不推荐)

将下面代码另存为:Useragent.reg,然后确认就可以使用了。

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Googlebot/2.1″
“Compatible”=”+hxxp://www.googlebot.c0m/bot.html”

为了防止修改完后改不回来,这里再附加一段修改回的代码,另存为

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”

5、修改 Firefox Config 的方法

设置方法,打开火狐,Ctrl+T新建一个浏览标签,输入:about:config,打开配置页面,右键点击页面选择“ 新建→字符串”,在弹出的窗口中 输入:general.useragent.override,确定之后,输入:Googlebot/2.1(+http: //www.googlebot.com/bot.html),继续确定,关闭窗口。

若想修改回来,请提前做好备份,当然你也可以在这里拷贝,我用的最新的firefox:

Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.0.15) Gecko/2009101601 Firefox/3.0.15

6、使用 Lynx 模仿 Googlebot

使用诸如 Lynx 的文本浏览器来检查您的网站,因为大多数搜索引擎信息采集软件查看您网站的方式与 Lynx 几乎一样。如果诸如 Javascript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能造成您无法在文本浏览器中看到整个网站,则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。

国平自己写了一个 Lynx 在线版浏览器插件

7、HTTrack

软件的官方网站是:http://www.httrack.com/ 软件安装后可以换成中文界面。一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些SEO做法的由来。详见国平的博客

8、使用 GSA(Google Search Appliance )

Google 推出 GSA 的目的是让那些信息量暴增的企业和机构能用它建立自己的搜索引擎。它支持的格式有 220 多种,你可以用它来抓取和收录自己的博客、网站、数据库和网络文件夹等等。它是机器和软件全部打包在一起的。

来自国平的博客:你可以把这个 GSA 看做是 Google 的微缩版,它有爬虫,有索引库,有排序算法。它的的硬件和软件都是现在 Google.com 这个网站正在用的东西。所以两者之间相似程度非常的高。我在过 去操作 Google mini 的时候已经证实:至少它的抓取机制和现在的 Google.com 几乎是一摸一样的。

其他方法,等你补充