当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 浅谈搜索引擎百度分词技术

网站优化
SEO系列教程:关键词策略
外贸网站推广:选购国外虚拟主机注意事项
网站推广可以这样做试试
具体分析网站的情况 有针对的做SEO
SEO参考:META标签写作的规范
.NET技术问题与SEO理论有机整合
全站SEO经验总结
网站文章页面加内部链接应该注意的问题
搜索引擎非常喜欢回头客高的网站
网站中重复的网页内容是非常有害的
网站优化中关于关键词的权重
H1标记在搜索引擎优化中的权重
博客营销:三个月获得五万个外链
网站改版后针对新站的网站优化方案
提高网页关键字排名应从网页细节着手
成功网络营销的三种关键方法
竞价广告和SEO中选取关键词的误区分析
SEO:关键字趋势和长尾关键词
SEO:针对不同网站选择不同的关键字
做SEO策划时要注意研究用户的搜索习惯

网站优化 中的 浅谈搜索引擎百度分词技术


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 71 ::
收藏到网摘: n/a

阿霸为了让大家更好的理解如何去选择关键字词,特意做了一些分词测试试验,归纳了一些关于搜索引擎百度分词的经验向大家分享。希望可以帮助站长们更深层的理解搜索引擎分词技术,做好自己的网站,获得更好的排名。

一、搜索引擎中文分词技术

搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。

分词例子:我/是/一个/学生

二、搜索引擎分词技术简述

1.基于字符串匹配的分词方法

按照一定的策略将待分析的汉字串与一个极其词库中的词条进行匹配。

常用分词的方法:

正向最大匹配法(由左到右的方向)

分词测试例子:我/有意/见/分歧

反向最大匹配法(由右到左的方向)

分词测试例子:我/有/意见/分歧

据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反

向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。

2.基于统计的分词方法

相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。

3.基于理解的分词方法

在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。

三、百度搜索引擎分词技术分析

1.最大分词词长

分词测试查询:当然以

分词技术归纳:少于等于3个中文字不切割

分词测试查询:电影下载

分词技术归纳:对于大于等于4个汉字的词将被分词

2.分词匹配算法

分词测试查询:查询:“工地方向导”

正向最大匹配:工地/方向/导

反响最大匹配:工/地方/向导

百度采用 正向最大匹配算法

分词测试查询:邓小平安定军山

正向最大匹配:邓小平/安定/军/山

百度分词结果:邓小平/安/定军山

分词结论:百度识别人名、影视、戏剧名等专用词,转用词库分词时优先。

分词测试查询:何润东西南北(“何润东”、“东西南北”两个词)

正向最大匹配:何润东/西/南北

分词技术归纳:首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。

关于搜索引擎分词技术,阿霸这次就先写到这。但是搜索引擎的分词技术远远不止这些,分词中的一些难题,如歧义识别、新词识别、拼写检查错误提示、拼音提示功能、相关搜索提示等深一些的日后有机会再向大家一一介绍。

大家有兴趣进一步了解这方面的相关知识,可以来我们的交流群一起交流。

中国站长资源网超级群-(500人)群号:47788123 (群共享中很多SEO资源、网站运营资源供群友下载!)

建群目的:帮助站长们解决问题,菜鸟老手一视同仁,能教就教!能帮就帮!