当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Googlebot怎么抓网页?想知道吗?

网站优化
学习seo的注意事项
同样内容的网站放在不同的域名对你有帮助吗
SEO 关键词的选择
网站真实流量分析方法
锚文本对于SEO的重要性
SEO技术 google pr值算法浅谈
搜索引擎优化的一些方法和排名技巧
2009年影响网站搜索引擎排名的重要因素小结
SEO 实战 关键词排名还很重要吗?
SEO教程 网站地址URL规范化技巧
SEO实例分享 关键词和网站流量
所有SEO策略需要站在运营和产品角度
SEO工具 五款免费的死链接检测工具
网页图片该如何优化
SEO切不可把 内容为王 奉为圣经而不知变通
选择一个适合SEO的CMS系统的分析
Google 任何时间段的网页结果查看方法
Google明令禁止的十大SEO黑帽技术小结
SEO作弊方法和SEO作弊认定准则分析
博客从谷歌获得较高的PR值的方法分析

网站优化 中的 Googlebot怎么抓网页?想知道吗?


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2010-01-03   浏览: 32 ::
收藏到网摘: n/a

1 、Fetch as Googlebot 这是两个月前更新在网站管理员工具

Google 网站管理员工具刚刚发布了一个 Labs 功能,其中有个功能叫做 Fetch as Googlebot ,你可以在这里模仿 Googlebot,查看你自己的网页代码。不过这个功能是必须通过管理员验证的网站才能查看,没有网站管理权限就没机会了。

2、安装 Firefox 扩展插件,名字叫 User Agent Switcher

这个 User Agent Switcher 可以模仿 IE6、IE7、IE8、Googlebot、Msnbot、Yahoo Slurp、iPhone 3.0,同时这个扩展插件还可以自定义机器人,添加或者删除,如图。

googlebot 6 八种以 Googlebot 查看网页的方式

再补充一些:User Agent String几乎将所有的 Googlebot 都在这个页面列举出来了,有兴趣进一步研究的可以查看,自己添加和修改机器人,应该还包括不少google的服务器IP资源

3、安装 SEOBOOK 为 SEOer 量身定做的工具条

SEOBOOK 里面也有 User Agent 切换功能,不光是 Googlebot、MSN bot、Yahoo Slurp,还有其他浏览器的IE、 Netscape、Opera 等。

如图

googlebot 5 八种以 Googlebot 查看网页的方式

4、修改注册表(只限于IE,不推荐)

将下面代码另存为:Useragent.reg,然后确认就可以使用了。

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Googlebot/2.1″
“Compatible”=”+hxxp://www.googlebot.c0m/bot.html”

为了防止修改完后改不回来,这里再附加一段修改回的代码,另存为

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”

5、修改 Firefox Config 的方法

设置方法,打开火狐,Ctrl+T新建一个浏览标签,输入:about:config,打开配置页面,右键点击页面选择“ 新建→字符串”,在弹出的窗口中 输入:general.useragent.override,确定之后,输入:Googlebot/2.1(+http: //www.googlebot.com/bot.html),继续确定,关闭窗口。

若想修改回来,请提前做好备份,当然你也可以在这里拷贝,我用的最新的firefox:

Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.0.15) Gecko/2009101601 Firefox/3.0.15

6、使用 Lynx 模仿 Googlebot

使用诸如 Lynx 的文本浏览器来检查您的网站,因为大多数搜索引擎信息采集软件查看您网站的方式与 Lynx 几乎一样。如果诸如 Javascript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能造成您无法在文本浏览器中看到整个网站,则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。

国平自己写了一个 Lynx 在线版浏览器插件

7、HTTrack

软件的官方网站是:http://www.httrack.com/ 软件安装后可以换成中文界面。一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些SEO做法的由来。详见国平的博客

8、使用 GSA(Google Search Appliance )

Google 推出 GSA 的目的是让那些信息量暴增的企业和机构能用它建立自己的搜索引擎。它支持的格式有 220 多种,你可以用它来抓取和收录自己的博客、网站、数据库和网络文件夹等等。它是机器和软件全部打包在一起的。

来自国平的博客:你可以把这个 GSA 看做是 Google 的微缩版,它有爬虫,有索引库,有排序算法。它的的硬件和软件都是现在 Google.com 这个网站正在用的东西。所以两者之间相似程度非常的高。我在过 去操作 Google mini 的时候已经证实:至少它的抓取机制和现在的 Google.com 几乎是一摸一样的。

其他方法,等你补充