文档详情

大数据与数据挖掘之文本挖掘.pptx

发布:2021-07-27约1.69千字共57页下载文档
文本预览下载声明
大数据与数据挖掘-;文本挖掘的背景;文本挖掘概念;文本挖掘的过程;预处理;最大匹配分词法;;;;停用词;文档建模;;文档的向量空间模型;W权值计算方法TF-IDF 目前广泛采用TF-IDF权值计算方法来计算权重, TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。 IDF逆文档频率(Inverse Document Frequency)是全体文档数与包含词条文档数的比值。如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。 在完整的向量空间模型中,将TF和IDF组合在一起,形成TF-IDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t) ;TF度量;IDF度量;关键词与网页的相关性计算;;;;算例1;算例2;文档相似性计算;;文档相似性计算示例;;;信息检索;文本检索的基本度量;信息检索的度量方式;模型质量的评价实例;文本挖掘举例;文档向量化;查询:相关度;文档间相似度(余弦定理);3.文本的维度规约;文本挖掘方法;(1)关键词检索 关键词建立倒排文件索引,与传统的信息检索使用的技术类似。 (2)相似检索 找到相似内容的文本。 (3)词语关联分析 聚焦在词语(包括关键词)之间的关联信息分析上。 (4)文本聚类和文本分类 实现文本的聚类和分类。 (5)自然语言处理 揭示自然语言处理技术的语义,进行文本语义挖掘。 ;关联分析挖掘 ;关联分析挖掘 ;关联分析挖掘 ;关联分析挖掘;文档分类分析;文档分类分析;文档分类分析;文档分类分析;文档分类分析;文档分类分析;文档分类分析;文档聚类分析;文档聚类分析;文档聚类分析;文档聚类分析;文档聚类分析;文档聚类分析;;9、春去春又回,新桃换旧符。在那桃花盛开的地方,在这醉人芬芳的季节,愿你生活像春天一样阳光,心情像桃花一样美丽,日子像桃子一样甜蜜。7月-217月-21Sunday, July 18, 2021 10、人的志向通常和他们的能力成正比例。03:03:1803:03:1803:037/18/2021 3:03:18 AM 11、夫学须志也,才须学也,非学无以广才,非志无以成学。7月-2103:03:1803:03Jul-2118-Jul-21 12、越是无能的人,越喜欢挑剔别人的错儿。03:03:1803:03:1803:03Sunday, July 18, 2021 13、志不立,天下无可成之事。7月-217月-2103:03:1803:03:18July 18, 2021 14、Thank you very much for taking me with you on that splendid outing to London. It was the first time that I had seen the Tower or any of the other famous sights. If Id gone alone, I couldnt have seen nearly as much, because I wouldnt have known my way about. 。18 七月 20213:03:18 上午03:03:187月-21 15、会当凌绝顶,一览众山小。七月 213:03 上午7月-2103:03July 18, 2021 16、如果一个人不知道他要驶向哪头,那么任何风都不是顺风。2021/7/18 3:03:1803:03:1818 July 2021 17、一个人如果不到最高峰,他就没有片刻的安宁,他也就不会感到生命的恬静和光荣。3:03:18 上午3:03 上午03:03:187月-21
显示全部
相似文档