当前位置: 首页 > 图文教程 > 网站运营 > 网站优化 > 垂直搜索对信息更新的三个要求

网站优化
SEO 搜索引擎收录页面流程原理和方式
SEO 分析某关键词的竞争强度的方法
新手站长找外部链接和简单网站推广方法
SEO实例经验分享 搜索引擎分词和长尾
DEDECMS 网站优化4则细节
Google 处理采集数据的一些分析
SEO不容易 开始给SEO吹冷风
Tags 标签优化细节问题
选择关键词的心得和思路
site 域名首页是在第一四种原因
网站找好链接的6种方法
三天优化到百度第一等类似信息纯属骗人
SEO实验 不要过于相信搜索引擎内部人的话
让排名在百度更稳定
百度 反垃圾网站的若干问答
搜索引擎重复网页发现技术分析
站内链接对蜘蛛收录的负面影响以及对策
免费网站推广诀窍 多干体力活儿
SEO 准确的进行关键词的选取
SEO 更新网站内容时注意的链接策略

网站优化 中的 垂直搜索对信息更新的三个要求


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-10-17   浏览: 34 ::
收藏到网摘: n/a

垂直搜索对信息的更新有着特别的要求,根据这些特点可以从以下几点考虑:

1.信息源的稳定性(不能让信息源网站感觉到spider的压力)

2.抓取的成本问题

3.对用户体验改善程度。

根据以上几点制定一种比较好的策略,要做到恰到好处。

策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由于新信息和更新了的信息list页面前面或者首页,所以对网页进行很好的分级可以以低成本很好的解决更新问题,系数比较低的网页一月update一次,稍微高点的一周update一次、中等的几天到一天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时库……

基于视觉网页块分析技术,模拟IE浏览器的显示方式,对网页进行解析。

根据人类视觉原理,把网页解析处理的结果,进行分块,再根据需要,对这些块进行处理,如:采集定向、介绍抽取和一些必要的内容的抽取正文抽取……

结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。

有两种方式,简单的就是模板方式,另外就是对网页不依赖web结构化信息抽取方式,这两种方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。其实web结构化信息抽取在百度、google早已经广泛应用了,如:MP3、图片搜索、google的本地搜索就是从网页库抽取出企业信息,添加到其地图搜索中的,google通过这种技术正在颠覆做内容的方式。同样的技术应用还在qihoo、sogou购物、shopping等各种应用中体现。

简单的语法分析,简单的语法分析在搜索引擎中非常重要,可以通过简单的语法分析来改善数据的质量,低成本的获得某类信息,改善排序,寻找需要的内容……

信息处理技术,信息处理包括的范围比较广

主要包括去重、聚类、分析……,这根据需要相关的技术就非常多。

  数据挖掘,找出您的信息的关联性对于垂直搜索来说非常重要,有效,可以在这些相关性上为用户提供更细致的服务。

分词技术,面向搜索的分词技术,建立和您的行业相关的词库。

注意这是面向搜索的分词,不是面向识别和准确的分词。就这个工作安排十几个人不停的维护也不会嫌多。

索引技术,索引技术对于垂直搜索非常关键,一个网页库级的搜索引擎必须要支持分布索引、分层建库、分布检索、灵活的更新、灵活的权值调整、灵活的索引和灵活的升级扩展、高可靠性稳定性冗余性。还需要支持各种技术的扩展,如偏移量计算等。

其它技术,略。

垂直搜索引擎的技术评估应从以下几点来判断

  1. 全面性

  2. 更新性

  3. 准确性

  4. 功能性