当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 搜索引擎的分词技术的简单测试

网站优化
SEO 搜索引擎收录页面流程原理和方式
SEO 分析某关键词的竞争强度的方法
新手站长找外部链接和简单网站推广方法
SEO实例经验分享 搜索引擎分词和长尾
DEDECMS 网站优化4则细节
Google 处理采集数据的一些分析
SEO不容易 开始给SEO吹冷风
Tags 标签优化细节问题
选择关键词的心得和思路
site 域名首页是在第一四种原因
网站找好链接的6种方法
三天优化到百度第一等类似信息纯属骗人
SEO实验 不要过于相信搜索引擎内部人的话
让排名在百度更稳定
百度 反垃圾网站的若干问答
搜索引擎重复网页发现技术分析
站内链接对蜘蛛收录的负面影响以及对策
免费网站推广诀窍 多干体力活儿
SEO 准确的进行关键词的选取
SEO 更新网站内容时注意的链接策略

网站优化 中的 搜索引擎的分词技术的简单测试


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-26   浏览: 49 ::
收藏到网摘: n/a

因为种种原因,已经有很长时间没有发过东西了。天刃今天抽时间,把大家最近反应最多的问题整理下,和大家聊聊。

第一个问题就是百度最近算法调整的影响,让很多朋友都没有了头绪。其实这次最大的调整在分词上,很多朋友也都注意到了。就像前几天说的,原来大家只要把干词做好,周围辅助做好长尾词就OK了,不管你用什么词搜,排名就像百度竞价一样牢牢不可动摇。但是貌似这次百度算法调整后就不是这么回事了,你做的主词还一样可以排好,但那些长尾词却很少可以搜到了……

那么这次的分词算法改在哪儿呢?天刃就拿最基本的TITLE撰写来给大家说明一下。百度31汉字的TITLE里,相信SEOER们都会充分利用的。朋友们都知道,在TITLE里将关键词隔开我们常会用到英文半角的逗号,或是“|”来区分,而百度这次分词算法调整之后,虽然还是会把这些认为是分隔符,但用法已经没有原来那么规范了。原因很简单,百度对它的分词越来越自信,已经慢慢放弃或减轻对传统分隔符的依赖了。

现在的百度,可以很容易的识别整个句子中的特定分词,而刻意的将我们想要的关键词用分隔符进行强调有的时候收到的效果是相反的,一个很明显的现象就是,你的TITLE里将你想要的各个关键词用分隔符清清楚楚的列出来,但最后你在搜索结果看到的情况却是:明明这个句子里很明显的有这个分词(两个分开的关键词),但却没有给你加红。也就是说百度根本没有认出你这个句子里的关键词。

这是怎么回事呢?不是百度分词技术垃圾,而是百度放弃了这个句子。(说到这里可能朋友们有些晕了,那我就简单的举个例子。关键词“AAABBB”其中“AAA”“BBB”分别是百度分词库里的独立关键词,而这个时候,你的TITLE这样写:“AAA长尾BBB长尾,AAABBB长尾”,结果你搜索“AAABBB”时,百度的搜索结果里有时竟是:“AAA长尾BBB长尾,AAABBB长尾”,前面句子里的AAA和BBB并没有被百度认为是关键词。)

当然,百度并没有自大到否认一切分隔符,而是根据中文的使用习惯对不符合中文撰写习惯的作法进行淘汰。或者也可以从另一个角度去理解,百度这个更改有针对SEO的原因,一个中英文混写的TITLE,避免不了优化的嫌疑。(也就是很多SEOER朋友开玩笑时说的,百度有的时候允许你作弊,但也不会允许你优化)

那么,现在我们该如何来撰写TITLE呢?天刃通过最近一段时间的琢磨,TITLE的撰写,我们要放弃原来为了给仅有的31个汉字节省字符来刻意使用英文符号的作法,这种作法虽还没有完全被百度摈弃,但这个趋势朋友们应该可以看的出来。“英文半角逗号,英文中间杠(占半个字符)”,这些符号可以换成中文的符号,哪怕损失了放长尾词的字符也是值得的。“|”这个分隔符现在 已经介乎字符与分隔符之间了,所以这个符号现在应该完全的淘汰了。难道我们以后TITLE的分隔符就没有合适的了吗?当然不是。通过对百度自身产品以及新浪的观察,现在最合适的分隔符是只占半个字符的“_”下杠,以后大家可以试着考虑用下这个。当然,必须要照顾中文句子的语法。

关于分词,这里就说下TITLE的撰写,其他的就不一一细说了。TITLE的分词算法绝对不适用用其他元素,这点大家不要混淆。