当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 51.com的robots.txt有错吗?

网站优化
SEO的步骤参考
SEO 两大搜索引擎网站近期算法分析
SEO 搜索引擎算法探讨
SEO 选择合适的CMS建站
SEO Google如何处理低质量链接
SEO 网站管理员工具深入分析
SEO 分析某关键词的竞争强度
B2C 电子商务网站如何做推广和优化
网页游戏的推广的策略与效果分析
网站排名下降的主要原因分析
网站关键词排名发生变化时的应对方法
Google为网站提供相关链接功能
正确解决IE6的问题的方法
谈google 命名锚链接识别网页段落
动易CMS的目录结构SEO优化
让你的wordpress博客备受搜索引擎青睐
经过实践后觉得确实有效的Baidu优化经验
网站主要关键词排名不高的原因分析
seo优化通用方式小结
网站推广3种方法操作流程详解

网站优化 中的 51.com的robots.txt有错吗?


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 38 ::
收藏到网摘: n/a

什么是robots.txt文件?


搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。


因为刚写了51是因为二级玉米泛滥和站点垃圾造成被封,去站长站看见“眼镜蛇”写的是因为51的robots.txt的原因。

我仔细看了51的robots.txt而最后要驳反“眼镜蛇”的判断和定论!

每个站点都必须要有robots.txt吗?

不一定,看情况

那么robots.txt是针对任何搜索引擎吗?

不一定,搜索引擎的概念是什么先搞明白!至少他有蜘蛛,并且遵循robots.txt语法。像百度,google,yahoo都遵循
官方的robots.txt

robots.txt放在哪里?

根目录下,就是通过 http://www.abc.com/robots.txt等浏览访问到的!

robots.txt怎么写?

请查询:http://www.robotstxt.org/

因为眼镜蛇说百度杀了51是因为51的robots.txt

“51.com搜索消失原因是公司想借机炒作?”

(联系到五一国庆左右百度大规模检查并封杀作弊网站,开始让业界以为51.com是百度惩罚的网站之一,
通过某朋友提示到51.com的robots.txt文件,让大家明白了百度网站只收录一页的原因,
并不是搜索引擎人为所至,而是51.com自身原因。 )

郁闷一:五一成“国庆”了!

郁闷二:robots.txt写法遵循规则,搜索引擎也给予遵循!那么就是眼镜蛇以上文章的判定错误!不是51的robots.txt错误!


分析反驳:

因为51的主页都在home下或者这个二级玉米下,那么就这个来说!


1:http://www.51.com/robots.txt 18行

Disallow: /home/ (假设只针对百度,因为google 没把51怎么着,而之后分析则套用google的一些现象对比百度,除非他们不是一样性质的遵循robots.txt的搜索引擎!)

百度给出的定义:

"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html

http://www.baidu.com/search/robots.html

那么就是说在http://www.51.com/home/index.htm/index.html/index.shtml不能被收录,因为home目录下无主页!

http://www.51.com/home/index.htm   404错误
http://www.51.com/home/index.html  404错误
http://www.51.com/home/index.shtml 404错误
http://www.51.com/home/index.php   404错误
http://www.51.com/home/            404错误

确定HOME下无默认首页文件,一般都是404页,这样多搜索引擎会很不友好的,那么当然仔细点的站点都会杜绝被搜索引擎视为死连接。
51的错法就是"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html

判定:Disallow: /home/ 对于百度正确!

因为有:User-agent: *  (针对所有搜索)

查看:site:51.com/home  ,site:51.com/home/ ,site:www.51.com/home , site:www.51.com/home/
在google都有收录,而不是屏蔽了home下任何,而只是home下的默认首页!

目前看不见百度的现象,根据User-agent: *  (针对所有搜索)说明百度当时也是这样!(80%一样)

再查:site:home.51.com

第一结果为

51 博客网欢迎您home.51.com/ - 类似网页

似乎home.51.com/下有首页,似乎home目下也有首页!

我们点过去则跳转到http://www.51.com/,因为目前搜索引擎都可以识别和收录url转发而非跳转!

随便查下home.51.com/的站点访问使用情况!

比如:第二结果

献给我最爱的00

home.51.com/home.php?user=nicolelove - 5k - 补充材料 - 网页快照 - 类似网页

而你使用“http://nicolelove.51.com ”也访问的是此“home.51.com/home.php?user=nicolelove”

也可以 :http://www.51.com/home/Index.php?user=nicolelove  (home下的任何其他文件可以收录和访问)

也可以:http://51.com/home/Index.php?user=nicolelove 访问而到http://www.51.com/home/Index.php?user=nicolelove

也可以:http://www.51.com/home.php?user=aiyoweiyaaaahttp://home.51.com/home.php?user=aiyoweiyaaaa

严格按照URL说这个可以说是多URL或者路径重叠,或者混乱,只是一些没告诉那些站长,只告诉站长
“http://nicolelove.51.com ”就是你的主页url

补充:

<*** LANGUAGE="Java***">
<!--
var t = addAccessRec();
if (isLoginF == 'y' && isLoginHide != 'y') {
 if (isAddAccess == 'y' && t[0] == true) {
  var URL = "addAccessCount.php?user=nicolelove&visituser=&time=1178309340";
  addAccess(URL);  // 增加访客记录
 }
}
if (isAddCount == 'y' && t[1] == true) {
 var URL = "addClickCount.php?user=nicolelove&time=1178309340";
 addAccess(URL);  // 增加点击数
}
function addAccess(URL)
{
 var oXMLHttp = new InitAjax();
 oXMLHttp.open("GET",URL,true); //异步
 oXMLHttp.setRequestHeader('charset','GBK');
 oXMLHttp.Send(null);
}
LoadXMLHTTP("/home/addMyVisitors.php?who=nicolelove");
//-->
</***>

看下最后第三段代码!

搜索引擎在更多时是不允许这样的现象的。二级玉米和独立玉米都可以认为不同域下的站点和网页!

比如:http://piaoge999.51.com 这个是不存在申请的url站站点,那么你输入回车后就会提示:该用户不存在

提示URL为:http://home.51.com/home.php?user=piaoge999

点确定立即返回到“http://www.51.com/”这样的做法稍微比404错误返回友好了一些,可是假如我今天申请了,明天51删除我了,
却在之前百度收录了我的http://home.51.com/home.php?user=piaoge999或者http://piaoge999.51.com呢?
那是不是现在该可以返回到http://www.51.com/了呢?这个做法给搜索引擎造成多少麻烦?造成多少垃圾收录?
降低了多少百度的技术可靠性的讽刺?

http://www.yookee.org/dispbbs_17_313_1.htm“SEO优化之“不要轻易使用泛解析” 特别拿51来分析了的!

只是没这个写的详细,而这个文章飘哥则做了70%的分析列举说明。要说明的是51被封是联系到了滥用泛解析!

而反驳“眼镜蛇”的是针对他说51的robots.txt的问题造成被封!而51的robots.txt写法符合和遵循!

飘哥到今天还没使用过robots.txt,只是之前帮一个朋友从google拒绝收录而找历史记录发现他的玉米曾经存在robots.txt
内容写法是禁止收录此站。告诉之则给google写信给予了收录。因为那玉米停了一段时间,google则还是按照当时robots.txt给予封闭!


此文结束,51的robots.txt有错吗?51的robots.txt是针对百度的吗?百度是根据51的robots.txt把他杀了的吗?