文档详情

Python爬虫大数据采集与挖掘-微课视频版-课件 第二版-11-1 文本信息处理与分类.ppt

发布:2025-04-12约4千字共61页下载文档
文本预览下载声明

扩展阅读向量的重要性提纲文本预处理文本的向量空间模型文本的分布式表示文本分类及实现技术文本情感分析VSM模型的维度是随着文本集的不同而不同,这样会导致大规模文本集处理的困难,因此,希望能将不同文本集的词汇都表示为一个等长向量。分布式表示(DistributedRepresentation)将长短不一的句子表示为一个定长向量,而向量的每个维度不再是词汇,而是代表某种语义特征。具有更加丰富的语义。文本向量表示的技术发展SVD--LDA–word2vec--Glove–FastText—Doc2vec—Elmo—GTP—BertWord2vec之后采取的是神经网络训练学习的方法。Fromgenism.models.doc2vecimportDoc2Vec,TaggedDocument准备训练语料,需要分词训练文档模型model.train使用模型进行文本分析提纲文本预处理文本的向量空间模型文本的分布式表示文本分类及实现技术文本情感分析分类技术概要在分类中涉及到的概念有:分类器、训练、训练样本、测试样本等。分类器是对数据挖掘中对样本进行分类的总称,训练是指对模型的参数进行优化,选取最优的模型参数使得算法能够建立具有很好泛化能力的模型。训练样本是由类别已知的样本组成,用于模型的训练。测试样本是由类别未知的样本组成,用于测试模型的性能。根据文本表示方法的不同,文本分类方法总体上有两大类基于概率模型的分类使用概率文本模型,如n-gram等基于向量空间模型的分类使用文本向量表示,如VSM、Doc2vec等不管是哪类方法,基本流程大都相似。分类的流程基于概率模型的分类器朴素Bayes分类训练:求解以下两组参数分类:按照极大后验例子假设有以下A类、B类共7个训练样本。其中斜体的词汇为特征词,共8个不同的特征词,即:元旦、旅游、假期、计划、跑步、运动、身材、方法。A类4个文本共有10个特征词,B类3文本有7个特征词模型训练-采用unigram,加一平滑分类X=“元旦里,跑步、运动不可少”P(x|A)*P(A)=0.167*0.056*0.056*4/7=0.000299,P(x|B)*P(B)=0.067*0.2*0.2*3/7=0.001149,根据最大后验概率判定准则可见,应当把该文本分为B类。基于向量空间表示的分类KNN分类KNN算法的思想比较简单,即如果一个样本(向量)在特征空间中的个最近邻样本(向量)中的大多数属于某一个类别,则该样本(向量)也属于这个类别。对文本分类而言,在给定新文本后,考虑在训练文本集中与该新文本距离最近的篇文本,根据这篇文本所属的类别判断新文本所属类别。**Python爬虫大数据采集与挖掘(11-1)

--文本信息处理与分类《Python爬虫大数据采集与挖掘》第二版.微课视频版(清华大学出版社,2025)教材《Python爬虫大数据采集与挖掘》及配套公众号

(当当、京东可购书)提纲文本预处理文本的向量空间模型文本的分布式表示文本分类及实现技术文本情感分析词汇切分词汇切分的必要性爬虫采集到文本信息之后的处理是文本处理挖掘的基础是大数据语义分析的基础切分的流程基于词典的分词方法三个基本要素分词词典文本扫描顺序正向扫描、逆向扫描和双向扫描匹配原则最大匹配、最小匹配、逐词匹配和最佳匹配所谓最大匹配,就是优先匹配最长词汇,即每一句的分词结果中的词汇总量要最少。正向最大匹配分词在实现上可以采用减字法。正向减字最大匹配法,首先需要将词典中词汇按照其长度从大到小的顺序排列,然后对于待切分的中文字符串,做如下处理:(1)将字符串和词典中的每个词汇逐一进行比较;(2)如果匹配到,则切分出一个词汇,转步骤5执行;(3)否则,从字符串的末尾减去一个字;(4)如果剩下的字符串只有一个字,则切分出该字;(5)将剩下的字符串作为新的字符串,转步骤1执行,直到剩下的字符串长度为0。[1]s=“今天是中华人民共和国获得奥运会举办权的日子”[2]s=“今天是中华人民共和国获得奥运会举办权的日”[3]s=“今天是中华人民共和国获得奥运会举办权的”…[20]s=“今天”[21]s=“是中华人民共和国获得奥运会举办权的日子”[22]s=“是中华人民共和国获得奥运会举办权的日”…[39]s=“是”[40]s=“中华人民共和国获得奥运会举办权的日子”…[51]s=“中华人民共和国”[52]s=“获得奥运会举办权的日子”…[61]s=“获得”…[1]s=“今天是中华人民”…[6]s=“今天

显示全部
相似文档