一对一免费咨询:189-6833-3365
搜索引擎的技术和理念都是需要时间和经验的积累更是需要长期不断的完善进步的,绝对不要认为可以一蹴而就(比喻事情轻而易举、一下子就成功),要达到一个相对成熟领先(率先)的搜索引擎从开始到领先的周期一般需要是四年。着急不得。原因是因为搜索引擎太复杂,而且“用户无法描述他要找什么,除非让他看到想找的东西。” 一切都需要摸索,尝试,问题需要一个一个解决,用户的需要得一点点的挖掘。


搜索引擎是一个产品,给用户提供服务的产品

需要长期的不断的改进升级调整才能持续不断的提用户体验,需要满足用户不断增长并且变化的需求、需要不断适应网络的变化。这是因为网络环境是不断变化的、网民的需求也是不断变化的。千万不要把搜索当成项目来做,做完了撂那让用户去用那你肯定没戏。在搜索引擎领域是讲体验的、新的引擎如果用户体验一旦整体上有领先一年以上的差距并且持续2年,那前期的领先者的优势就荡然无存,因为搜索引擎的用户转移成本相对而言是比较低的而且口碑(public praise)是最佳的传播方式。如果一个搜索引擎不能持续不断的技术创新理念创新,那对于这个搜索引擎来说就等于死亡。我们一般形容搜索引擎的领先是以时间计算的。比如:中搜离百度整体差距×年,百度离google的整体差距×年,……只要你能在用户体验上保持一年的领先优势(leading-edge)持续2年,不需要炒作,一切纷至沓来。在用户体验面前,任何的炒作都显得很渺小。

作垂直搜索引擎,麻雀虽小,但是五脏俱全。

无论理念文化、产品(Product)管理、应用、技术都和搜索引擎的楔形理论没有什么区别。网站制作为了做到主题鲜明突出,要点明确,我们将按照客户的要求,以简单明确的语言和画面体现站点的主题;调动一切手段充分表现网站点的个性和情趣,办出网站的特点。所以要做好一垂直搜索必须解决这几个方面。

楔形的尖:垂直搜索技术。网站制作为了做到主题鲜明突出,要点明确,我们将按照客户的要求,以简单明确的语言和画面体现站点的主题;调动一切手段充分表现网站点的个性和情趣,办出网站的特点。

垂直搜索技术主要分为两个层次:模板级和网页库级。


模板级是针对网页进行模板设定或者自动生成模板的方式方法抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,不好的地方是后期维护成本高,信息源和信息量小。网页设计在目标明确的基础上,完成网站的构思创意即总体设计方案。对网站的整体风格和特色作出定位,规划网站的组织结构。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。

搜索引擎的确是一项对技术要求比较高的应用,几年前相关的人才也比较少。现在搜索技术人才多了,相关的技术和技术的应用得相对以前而言更加成熟,但是竞争也更加激烈了。

垂直搜索大致需要以下技术:


  1. 信息采集技术


  2. 网页信息抽取技术


  3. 信息的处理(chǔ lǐ)技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等


  4. 语意相关性分析


  5. 分词


  6. 索引

信息采集技术,垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率(frequency)……,采集可通过人工设定网址和网页分析url方式方法共同进行。

© 2008-2019 浙江东美 ALL RIGHTS RESERVED. XMLBAIDU

免责申明:部分内容来自互联网,若侵犯了您的权益,请告知我们删除!

浙ICP备19019195号-1
找网站建设公司就上东美!
189-6833-3365
tel+86-189-6833-3365