文档详情

北大计算机毕业论文.doc

发布:2017-12-24约2.12万字共37页下载文档
文本预览下载声明
本科学位论文 题目: 一种动态文本关联模型的设计与实现 The Design and Implement of Dynamic Text- Association Model 姓 名: 学 号: 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 北京大学本科毕业论文导师评阅表 学 号 学生姓名 论文成绩 学院(系) 信息科学技术学院 专 业 计算机科学与技术 导师姓名 导师单位 职 称 论文题目 一种动态文本关联模型的设计与实现 The Design and Implement of Dynamic Text-association Model 导师评语 (包含对论文的性质、难度、分量、综合训练等是否符合培养目标的目的等评价) 导师签名: 年 月 日 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制,抄录,拍照或以任何方式传播。否则,引起有碍作者著作权益之问题,将可能承担法律责任。 摘 要 随着互联网的快速发展,人们越来越多地面临着信息爆炸的问题。过多冗余的信息让人们很难在海量的数据库中挖掘出真正有意义的信息。此外,由于金融市场具有时效性,过期的信息非但没有价值,反而会影响正常的数据挖掘操作。因此,为了保证和提高金融数据挖掘的质量,有必要对海量的文本进行动态的关联操作。 本文在深入学习了关于文本操作的背景知识和应用工具后,分3部分完成动态文本关联的操作。首先,利用网络爬虫得到文本库,然后就文本库中文章进行分词处理,并在这一步骤中完成对文本的时间标记;其后,为更新的文本库建立索引库,利用倒排索引将文章按关键词列表索引起来;然后,利用改进的Tf*Idf算法Tf*ENTROPY算法求出单篇文章的关键词,再根据关键词集合之间的交集判定文章与文章之间的关联。以上步骤都建立在一个时间轴上进行,让不同时刻的文本单独隔离开。 经过实验显示,这种动态文本关联模型保证了信息的时效性,会将新鲜的信息反馈给用户;并且保证了结果的正确性,得到了良好的测试结果。 关键词: 动态 文本关联 倒排索引 Tf*ENTROPY Abstract With the rapid development of Internet, people become to face more and more information blooming problem. Because of redundant information, it is quite difficult to mine the valuable information in huge database. In addition, since financial market is influenced a lot by time, overdue information is not only useless, but also will badly affect the mining operation. So in order to enhance the quality of date-mining, it is necessary to conduct certain research on the topic of dynamic text-association. In this passage, I present my design and realization of dynamic text-association model after learning relevant background knowledge and application tools. I divided the whole operation into 3 steps. First of all, I used web-reptile to get the information from internet, then divided the whole passages into individual words, and signed the passages with time ID;Secondly, I used I
显示全部
相似文档