当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Googlebot怎么抓网页?想知道吗?

网站优化
影响搜索引擎优化的12个关键因素
搜索引擎优化新手常犯的错误
新建网站避免进入百度沙盒的几点经验总结
康轶文 网站优化之文章SEO技巧 分词写作
提交两天就被DMOZ收录
为了网站的健康发展 请大家还是远离黑链
穆杰:完整的网站内部优化功能
微软的必应带来了新面貌搜索引擎
域名的选择与seo的关系
网站优化的几个要点分析 简单处有大道理
搜索引擎高排名的捷径并非是多多的外部链接
打开窗户看到风景:影响网站流量几个原因
不仅仅是看技术 关于SEO最经典的十句话
秦剑:谷百优大米的模板和插件详细讲解以及共享
对话谷歌搜索质量小组 让你把网站做的更好
网站跳出率的影响 怎样降低网页的跳出率
如何有效选择关键字及关键字TITLE写法
站长对话Google
关键字选择技巧 如何选择针对性强的关键字
试分析seo项目实施中应避免出现的问题

网站优化 中的 Googlebot怎么抓网页?想知道吗?


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2010-01-03   浏览: 66 ::
收藏到网摘: n/a

1 、Fetch as Googlebot 这是两个月前更新在网站管理员工具

Google 网站管理员工具刚刚发布了一个 Labs 功能,其中有个功能叫做 Fetch as Googlebot ,你可以在这里模仿 Googlebot,查看你自己的网页代码。不过这个功能是必须通过管理员验证的网站才能查看,没有网站管理权限就没机会了。

2、安装 Firefox 扩展插件,名字叫 User Agent Switcher

这个 User Agent Switcher 可以模仿 IE6、IE7、IE8、Googlebot、Msnbot、Yahoo Slurp、iPhone 3.0,同时这个扩展插件还可以自定义机器人,添加或者删除,如图。

googlebot 6 八种以 Googlebot 查看网页的方式

再补充一些:User Agent String几乎将所有的 Googlebot 都在这个页面列举出来了,有兴趣进一步研究的可以查看,自己添加和修改机器人,应该还包括不少google的服务器IP资源

3、安装 SEOBOOK 为 SEOer 量身定做的工具条

SEOBOOK 里面也有 User Agent 切换功能,不光是 Googlebot、MSN bot、Yahoo Slurp,还有其他浏览器的IE、 Netscape、Opera 等。

如图

googlebot 5 八种以 Googlebot 查看网页的方式

4、修改注册表(只限于IE,不推荐)

将下面代码另存为:Useragent.reg,然后确认就可以使用了。

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Googlebot/2.1″
“Compatible”=”+hxxp://www.googlebot.c0m/bot.html”

为了防止修改完后改不回来,这里再附加一段修改回的代码,另存为

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”

5、修改 Firefox Config 的方法

设置方法,打开火狐,Ctrl+T新建一个浏览标签,输入:about:config,打开配置页面,右键点击页面选择“ 新建→字符串”,在弹出的窗口中 输入:general.useragent.override,确定之后,输入:Googlebot/2.1(+http: //www.googlebot.com/bot.html),继续确定,关闭窗口。

若想修改回来,请提前做好备份,当然你也可以在这里拷贝,我用的最新的firefox:

Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.0.15) Gecko/2009101601 Firefox/3.0.15

6、使用 Lynx 模仿 Googlebot

使用诸如 Lynx 的文本浏览器来检查您的网站,因为大多数搜索引擎信息采集软件查看您网站的方式与 Lynx 几乎一样。如果诸如 Javascript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能造成您无法在文本浏览器中看到整个网站,则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。

国平自己写了一个 Lynx 在线版浏览器插件

7、HTTrack

软件的官方网站是:http://www.httrack.com/ 软件安装后可以换成中文界面。一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些SEO做法的由来。详见国平的博客

8、使用 GSA(Google Search Appliance )

Google 推出 GSA 的目的是让那些信息量暴增的企业和机构能用它建立自己的搜索引擎。它支持的格式有 220 多种,你可以用它来抓取和收录自己的博客、网站、数据库和网络文件夹等等。它是机器和软件全部打包在一起的。

来自国平的博客:你可以把这个 GSA 看做是 Google 的微缩版,它有爬虫,有索引库,有排序算法。它的的硬件和软件都是现在 Google.com 这个网站正在用的东西。所以两者之间相似程度非常的高。我在过 去操作 Google mini 的时候已经证实:至少它的抓取机制和现在的 Google.com 几乎是一摸一样的。

其他方法,等你补充