当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 浅谈搜索引擎百度分词技术

网站优化
三大搜索引擎联手推出新标准应对复制网页
优化实战:对FLASH型网站进行优化的心得
流量分析:决定SEO效果的四大主要原因
703公交车上的SEO启发
提高网站质量 分析四种网站交换链接对象
2008年RSS订阅最多的30个顶尖SEO博客
他上之石可以取玉 分享大型网站SEO策略
从用户体验和SEO两个角度谈谈网站的描述
SEO单个网页的最优化操作
获取关键词大流量 做好SEO方法中五大要点
简简单单就十个方面 做好WordPress的SEO
警惕 六种情况导致网站难以被搜索引擎收录
导致网站的搜索引擎优化失败的七个大方面
完善三个方面让谷歌对网站的索引变得更快
关键词选择攻略 处理好冷热门及专业关系
案例分析 通过新浪女性页面看关键词堆砌
与网站有些不同 博客流量来源的10个途径
又一强悍外链平台搜狐博客回归搜索
网站进行优化后也许并不需要进行静态处理
网址规范化最新解决方法 3大搜索引擎支持

网站优化 中的 浅谈搜索引擎百度分词技术


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 34 ::
收藏到网摘: n/a

阿霸为了让大家更好的理解如何去选择关键字词,特意做了一些分词测试试验,归纳了一些关于搜索引擎百度分词的经验向大家分享。希望可以帮助站长们更深层的理解搜索引擎分词技术,做好自己的网站,获得更好的排名。

一、搜索引擎中文分词技术

搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。

分词例子:我/是/一个/学生

二、搜索引擎分词技术简述

1.基于字符串匹配的分词方法

按照一定的策略将待分析的汉字串与一个极其词库中的词条进行匹配。

常用分词的方法:

正向最大匹配法(由左到右的方向)

分词测试例子:我/有意/见/分歧

反向最大匹配法(由右到左的方向)

分词测试例子:我/有/意见/分歧

据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反

向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。

2.基于统计的分词方法

相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。

3.基于理解的分词方法

在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。

三、百度搜索引擎分词技术分析

1.最大分词词长

分词测试查询:当然以

分词技术归纳:少于等于3个中文字不切割

分词测试查询:电影下载

分词技术归纳:对于大于等于4个汉字的词将被分词

2.分词匹配算法

分词测试查询:查询:“工地方向导”

正向最大匹配:工地/方向/导

反响最大匹配:工/地方/向导

百度采用 正向最大匹配算法

分词测试查询:邓小平安定军山

正向最大匹配:邓小平/安定/军/山

百度分词结果:邓小平/安/定军山

分词结论:百度识别人名、影视、戏剧名等专用词,转用词库分词时优先。

分词测试查询:何润东西南北(“何润东”、“东西南北”两个词)

正向最大匹配:何润东/西/南北

分词技术归纳:首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。

关于搜索引擎分词技术,阿霸这次就先写到这。但是搜索引擎的分词技术远远不止这些,分词中的一些难题,如歧义识别、新词识别、拼写检查错误提示、拼音提示功能、相关搜索提示等深一些的日后有机会再向大家一一介绍。

大家有兴趣进一步了解这方面的相关知识,可以来我们的交流群一起交流。

中国站长资源网超级群-(500人)群号:47788123 (群共享中很多SEO资源、网站运营资源供群友下载!)

建群目的:帮助站长们解决问题,菜鸟老手一视同仁,能教就教!能帮就帮!