搜索引擎架构 基于垂直搜索架构的时效性信息搜索与推荐引擎的设计与实现.doc
文本预览下载声明
搜索引擎架构 基于垂直搜索架构的时效性信息搜索与推荐引擎的设计与实现
导读:就爱阅读网友为您分享以下“基于垂直搜索架构的时效性信息搜索与推荐引擎的设计与实现”的资讯,希望对您有所帮助,感谢您对92的支持!
如表3.1所示。我们将两个人的特征与兴趣分别建立模型,然后用相同的一组Query去搜索网页索引库,来评比前十结果的需求满足情况。
由表3.2可知,当分别用“奥运奖牌榜”和“北京暴雨”这两个Query来进行实验搜索的时候,个人特征模型在遇到和地域有关的Query时,发挥作用较明显,而职业特征在这个两个Query中并未表现出影响。用户C为对照用户,采用自然排序的方法。相对于对照用户C来说,用户A与用户B的结果因为有模型评分的原因,都有较为明显的收益。
表3.2 兴趣模型对前十的影响
表注:用户C为对照组,没有采用用户特征模型进行评分的结果排序。
3.4.4 个性化模型应用的成本与收益分析
对于一款搜索引擎来说,信息检索速度的快慢直接影响到了用户的体验效果。在搜索中,若针对每个用户都建立个性化的特征模型,同时对用户的每次搜索都采用个性化的排序策略,势必会影响到引擎的响应速度。在现行的商业搜索引擎中,个性化的Rank策略之所以没有大规模的投入使用,其中的一项重要原因就是考虑到该策略对于计算资源消耗较大,对硬件的性能要求较高。
但是随着商业公司规模的扩大,经济能力的提升,也使得硬件水平得到了提高,大规模计算集群得到广泛应用,计算能力不再是限制个性化服务得以推广的瓶颈。同时为了争夺用户资源,各大公司都会将提升服务质量,改善用户体验作为基本的发展方向。作为国内最大的商业搜索引擎,百度公司同样已经意识到了个性化服务的重要性,不断地将各种个性化策略推到线上应用中。搜索引擎并不像社交类软件一样,有着天生的用户粘度特征,人们在使用搜索引擎找到相关的信息资源后,往往会直接离开搜索引擎,直到下次他希望找新的资源再回来访问。而个性化的应用则会很大程度上提升用户的粘度,使得用户更依赖于搜索引擎提供的服务。对于商业公司来说,用户粘度的提升势必会带来更多的访问量和点击量从而提升公司的经济效益。
3.5 本章小结
在本章中我们主要讨论了四种结果排序策略,分别是Query与页面的基础相关性、结果的聚类、资源爆发特征和个性化策略。其中Query与页面的基础相关性在排序策略中起到了主导的作用,因为只有这种相关性达到了一定的阈值,返回的结果才是相关的,而对于那些无关结果的排序则是无用功。为此我们详细介绍了该策略在本论文所涉及系统中的应用方式,并进行了一组实验分析其效果,从结果来看符合设计预期。对结果的聚类这一小节简要介绍了五种基础的通用聚类算法和其特点,分别是基于层次聚类、基于划分聚类、基于密度聚类、基于网格划分聚类和基于模型的聚类。在本论文中我们采用的是基于划分的算法,并在此基础上针对搜索引擎的特点做了优化,使得计算时间和空间复杂度得到了降低,在该小节最后给出了算法的伪代码描述。资源爆发这个策略,是建立在对结果聚类之上,在该小节中,我们举例统计了一个突发事件发生后资源的分布特征,
显示全部