文档详情

《文本挖掘中文本特征表示和文本特征选择研究与实现》-毕业论文(设计).doc

发布:2018-12-02约1.77万字共30页下载文档
文本预览下载声明
精品 PAGE 精品 吉 首 大 学 JISHOU UNIVERSITY 毕业设计(论文) 题目:文本挖掘中文本特征表示与文本特征选择研究与实现 学 院 数计学院 指导教师 专 业 学 生 阮程宣 。 学 号 。 精品 文本挖掘中文本特征表示和文本特征选择研究与实现 摘 要:文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的 、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行概述,给出文本挖掘的定义和研究现状。然后对文本挖掘中文本特征表示和文本选择方法进行叙述,本文介绍了几种文本挖掘中文本特征表示和文本特征选择常用算法,通过比较本文主要选择TFIDF算法对完成文本特征表示和特征选择,其中TFIDF算法因其算法相对简单、并有较高的准确率,一直受到相关研究人员和众多应用领域的青睐。由于本文主要进行的是文本的特征表示和特征选择,所以没有对分词进行研究,对于中文文本中的词的问题我们采取对将要挖掘的文档进行手动分词,通过TFIDF对选定文档的词计算出这些特征项在文本中的权值,同时这些特征项也可以转化为结构化的形式数据保存,作为文本的中间表现形式,然后在算法中定义一定的取值范围作为特征选择,实现挖掘出文本关键信息的目的。本文通过程序实现TFIDF算法计算特征权重得出文本特征项和文本关键信息,对所选课题进行一个应用性模拟。 关键字:文本挖掘,特征表示,特征选择,空间向量模型,TFIDF。 This text mining text characteristics and text feature selection and implementation Abstract: text mining, also called text data mining or text knowledge discovery, refers to the mass of the text of the implied that previously unknown, and potentially useful mode process. This paper Outlines of text mining, gives the definition of text mining and research status. Then the characteristics of text mining Chinese text selection method and narration, this paper introduces some characteristics of the Chinese text mining and text feature selection methods, through the comparison of the main selection algorithm of the complete text features TFIDF feature selection, and the algorithm for TFIDF algorithm is relatively simple, and the high accuracy, have been related researchers and numerous applications. Because this major is characteristic of text representation and feature selection, so no word to study for Chinese text, the word of the problem, we will take the document for manual excavation, through the word for the selected document TFIDF calculated these words in the text feature weights, at the same time, these feature can also into a structured form data storage, as in the middle of the text, and then in the form of algorithm definition as feature selection scope, u
显示全部
相似文档