当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 浅谈搜索引擎百度分词技术

网站优化
要与网站内容和用户合适的角度去做SEO
推广实战:两个月实现4000IP流量
网页优化必须做的26件事情
网站交换友情链接有什么作用?
搜索引擎优化(SEO)的8点经验
网络营销:定位推广是相当重要的一节
寻找高质量外部链接的技巧
企业网站产品展示页面的SEO技巧
快速提高网站的PR值
SEO技巧:论述网站外链的重要性
重建网站关于SEO的一些问题
百度的对私服网站的几点规则
大型网站SEO策略的六个关键因素
大型网站针对Google排名的SEO策略
地区论坛网站推广三步走
如何增加网站的反向链接
以用户为中心是SEO的最高境界
搜索引擎优化(SEO)常见问题整理
地方类型网站有效推广策略
地方门户网站运营策略总结

网站优化 中的 浅谈搜索引擎百度分词技术


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 76 ::
收藏到网摘: n/a

阿霸为了让大家更好的理解如何去选择关键字词,特意做了一些分词测试试验,归纳了一些关于搜索引擎百度分词的经验向大家分享。希望可以帮助站长们更深层的理解搜索引擎分词技术,做好自己的网站,获得更好的排名。

一、搜索引擎中文分词技术

搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。

分词例子:我/是/一个/学生

二、搜索引擎分词技术简述

1.基于字符串匹配的分词方法

按照一定的策略将待分析的汉字串与一个极其词库中的词条进行匹配。

常用分词的方法:

正向最大匹配法(由左到右的方向)

分词测试例子:我/有意/见/分歧

反向最大匹配法(由右到左的方向)

分词测试例子:我/有/意见/分歧

据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反

向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。

2.基于统计的分词方法

相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。

3.基于理解的分词方法

在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。

三、百度搜索引擎分词技术分析

1.最大分词词长

分词测试查询:当然以

分词技术归纳:少于等于3个中文字不切割

分词测试查询:电影下载

分词技术归纳:对于大于等于4个汉字的词将被分词

2.分词匹配算法

分词测试查询:查询:“工地方向导”

正向最大匹配:工地/方向/导

反响最大匹配:工/地方/向导

百度采用 正向最大匹配算法

分词测试查询:邓小平安定军山

正向最大匹配:邓小平/安定/军/山

百度分词结果:邓小平/安/定军山

分词结论:百度识别人名、影视、戏剧名等专用词,转用词库分词时优先。

分词测试查询:何润东西南北(“何润东”、“东西南北”两个词)

正向最大匹配:何润东/西/南北

分词技术归纳:首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。

关于搜索引擎分词技术,阿霸这次就先写到这。但是搜索引擎的分词技术远远不止这些,分词中的一些难题,如歧义识别、新词识别、拼写检查错误提示、拼音提示功能、相关搜索提示等深一些的日后有机会再向大家一一介绍。

大家有兴趣进一步了解这方面的相关知识,可以来我们的交流群一起交流。

中国站长资源网超级群-(500人)群号:47788123 (群共享中很多SEO资源、网站运营资源供群友下载!)

建群目的:帮助站长们解决问题,菜鸟老手一视同仁,能教就教!能帮就帮!