文档详情

基于搜索引擎的智能化推荐技术研究-软件工程专业论文.docx

发布:2019-03-28约5.15万字共64页下载文档
文本预览下载声明
万方数据 万方数据 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 签名: 日期: 年 月 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 (保密的学位论文在解密后应遵守此规定) 签名: 导师签名: 日期: 年 月 日 摘 摘 要 摘 要 互联网不断地成熟,海量的信息在满足用户的需求同时,也给用户精确地找 到所需要的信息制造了越来越大的难度。用户对搜索服务提出了更高的要求,具 体表现在信息的广度和精确度的要求。为了给搜索引擎提供更好的关键词语推荐 服务,本文在比较各种聚类技术,以及研究其他学者在聚类技术改进上做过的工 作,提出了后缀树聚类算法和基于层次聚类 CURE 算法结合的 HWSTC 算法。该 算法在增加一定的时间耗费的基础上,有效地提高了聚类算法的查全率和查准率。 文本所做的主要工作如下所述: (1)分析了国内外在搜索引擎推荐技术上的研究,发展现状。 (2)研究介绍了处理中文文本时所用到的各种技术,包括中文分词,特征提 取,VSM 向量空间建模,各类聚类技术——传统的,和针对网络搜索的在线聚类 技术。 (3)分析设计了搜索结果智能化推荐的搜索引擎架构,流程。 (4)提出了改进的后缀树算法。 (5)通过定量样本测试分析了 HWSTC 算法和它的两种母算法在聚类上的表 现差异,分析了该算法的可行性。 关键词:智能推荐,网页信息提取,在线聚类,HWSTC 算法 I 目录 目录 ABSTRACT With the development of Internet, there is a great quantity of information to fulfill customer’s need of information. On the contrary, it becomes more and more difficult for user to get information that the customer need. Customers become harder to satisfy by existing search engine technology, especially in the breadth and accuracy of information request. To improve the service quality of search engine, after comparing with many Clustering technology, and research works that other researcher have done on improving Clustering technology, this thesis proposed a new Clustering method named HWSTC Clustering that composed of Suffix Tree Clustering and CURE Clustering. This Clustering technology with the price of costing more time to improve the Recall and Precision of Clustering. The main work in this thesis is list below: Analyzed research status quo and improvement of search engine in domestic and overseas Researched and introduced related technologies of treating Chinese text, information extracting , VSM modeling and various kinds of clustering technology—traditional and on
显示全部
相似文档