当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > Googlebot怎么抓网页?想知道吗?

网站优化
网站运营推广中的内容策略浅谈
网页设计 优化代码重要性
能够获得搜索引擎垂青的网页
使用网摘推广网站的七个技巧
SEO 域名创意篇
百度教你做 SEO 程序篇
网站不必天天更新 搜索引擎判断原创新算法
如何防止网站被降权八大要素
百度不更新快照的比完全解决方法
如何让网站吸引链接的三十招技巧
SEO HTML 标签权重列表小结
举一反三 推广网站三字经
成功 论坛运营的5条经验
浅谈影响网站流量几个原因分析
SEO 最经典的十句话
不靠SEO 做流量方法
SEO 关键字选择之为流量寻找关键字
文章长短会对网站排名产生影响
网站被降权后的补救方法
新站怎样快速被搜索引擎收录?

网站优化 中的 Googlebot怎么抓网页?想知道吗?


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2010-01-03   浏览: 38 ::
收藏到网摘: n/a

1 、Fetch as Googlebot 这是两个月前更新在网站管理员工具

Google 网站管理员工具刚刚发布了一个 Labs 功能,其中有个功能叫做 Fetch as Googlebot ,你可以在这里模仿 Googlebot,查看你自己的网页代码。不过这个功能是必须通过管理员验证的网站才能查看,没有网站管理权限就没机会了。

2、安装 Firefox 扩展插件,名字叫 User Agent Switcher

这个 User Agent Switcher 可以模仿 IE6、IE7、IE8、Googlebot、Msnbot、Yahoo Slurp、iPhone 3.0,同时这个扩展插件还可以自定义机器人,添加或者删除,如图。

googlebot 6 八种以 Googlebot 查看网页的方式

再补充一些:User Agent String几乎将所有的 Googlebot 都在这个页面列举出来了,有兴趣进一步研究的可以查看,自己添加和修改机器人,应该还包括不少google的服务器IP资源

3、安装 SEOBOOK 为 SEOer 量身定做的工具条

SEOBOOK 里面也有 User Agent 切换功能,不光是 Googlebot、MSN bot、Yahoo Slurp,还有其他浏览器的IE、 Netscape、Opera 等。

如图

googlebot 5 八种以 Googlebot 查看网页的方式

4、修改注册表(只限于IE,不推荐)

将下面代码另存为:Useragent.reg,然后确认就可以使用了。

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Googlebot/2.1″
“Compatible”=”+hxxp://www.googlebot.c0m/bot.html”

为了防止修改完后改不回来,这里再附加一段修改回的代码,另存为

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”

5、修改 Firefox Config 的方法

设置方法,打开火狐,Ctrl+T新建一个浏览标签,输入:about:config,打开配置页面,右键点击页面选择“ 新建→字符串”,在弹出的窗口中 输入:general.useragent.override,确定之后,输入:Googlebot/2.1(+http: //www.googlebot.com/bot.html),继续确定,关闭窗口。

若想修改回来,请提前做好备份,当然你也可以在这里拷贝,我用的最新的firefox:

Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.0.15) Gecko/2009101601 Firefox/3.0.15

6、使用 Lynx 模仿 Googlebot

使用诸如 Lynx 的文本浏览器来检查您的网站,因为大多数搜索引擎信息采集软件查看您网站的方式与 Lynx 几乎一样。如果诸如 Javascript、Cookie、会话 ID、框架、DHTML 或 Flash 等复杂功能造成您无法在文本浏览器中看到整个网站,则搜索引擎信息采集软件在抓取您的网站时可能会遇到问题。

国平自己写了一个 Lynx 在线版浏览器插件

7、HTTrack

软件的官方网站是:http://www.httrack.com/ 软件安装后可以换成中文界面。一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些SEO做法的由来。详见国平的博客

8、使用 GSA(Google Search Appliance )

Google 推出 GSA 的目的是让那些信息量暴增的企业和机构能用它建立自己的搜索引擎。它支持的格式有 220 多种,你可以用它来抓取和收录自己的博客、网站、数据库和网络文件夹等等。它是机器和软件全部打包在一起的。

来自国平的博客:你可以把这个 GSA 看做是 Google 的微缩版,它有爬虫,有索引库,有排序算法。它的的硬件和软件都是现在 Google.com 这个网站正在用的东西。所以两者之间相似程度非常的高。我在过 去操作 Google mini 的时候已经证实:至少它的抓取机制和现在的 Google.com 几乎是一摸一样的。

其他方法,等你补充