大数据管理与应用 课件 第十一章 文本分析.pptx
第十一章文本分析大数据管理与应用——主编:王刚副主编:刘婧、邵臻
文本分析技术是一种分析、挖掘非结构化自然语言文本的方法,其能挖掘出非结构化文本中的深层语义信息,近年来被广泛应用于医疗、金融、管理等诸多领域。在本章中您将理解文本分析的概念,掌握常用的文本预处理技术,特征提取和文本表示技术,文本分类分析技术,文本聚类分析技术以及文本分析应用方法。文本分析概述文本预处理特征提取和文本表示方法文本分类分析文本聚类分析第十一章文本分析
01文本分析概述02文本预处理03特征提取和文本表示方法04文本分类分析05文本聚类分析
文本分析是从原始自然语言文本中提炼出研究者需要的信息。与常见的数据分析相比,文本数据大多是半结构化、非结构化的,维度可能是普通数据的几十倍或是上百倍,数据量庞大,处理的工作量大,此外,更重要的是需要理解自然语言文本中所传达出的语义信息。因此,文本分析需要涉及自然语言处理(NaturalLanguageProcessing)、模式识别(PatternRecognition)和机器学习(MachineLearning)等多个领域知识,才可以尽可能地挖掘出文本中深层的语义信息,是一项交叉性的技术。文本分析经历了四代进程,分别是符号主义、语法规则、统计学习以及深度学习。符号主义是通过逻辑推理方法来进行文本分析。语法规则是基于专家制定的规则来进行语义的抽取。统计学习通过对文本中词频、词语共现等特征进行语义的抽取。深度学习是通过建立的深度神经网络模型,根据训练语料,自主学习特征,从而完成文本分析任务。1.1文本分析的基本概念
目前,文本分析还面临着如下几个方面的挑战。第一,随着计算机技术的快速发展,文本数据的数量呈指数级增长,如何从海量的文本中提取关键信息,成为一个值得研究的问题。第二,文本数据是半结构化或者非结构化的,计算机无法直接理解其中的语义信息,这需要研究者构建基于语义的模型,高效地识别出文本中的内容。第三,简单的一句话中可能包含着多层意思,不仅需要简单的语言处理,还需要进行文本推理等其他技术来挖掘语义信息。第四,标注数据获取十分困难,人工标注语言文本费时费力,并且不能保证标注全部正确,但是有效的模型往往都是在大量的文本中训练而来的。第五,文本分析的目的无法用数学模型直接表示出来。文本分析后的结果有时也需要将其转换成人类能够读懂的自然语言,这中间的转换复杂又困难。1.1文本分析的基本概念
针对文本数据非结构化、高维、具有丰富语义的特征,文本分析流程要比传统的结构化数据分析流程复杂一些,包含文本预处理、构建分析挖掘模型及应用三个阶段。在文本预处理阶段通常要将文本数据转换成计算机可以处理的结构化数据,其核心步骤一般包括分词、去除停用词、基本的语义分析如词性分析及句法分析等,在此基础上针对高维特征利用特征提取方法提取出文本的主要特征,以降低维度。构建分析挖掘模型是在文本预处理的基础之上针对具体的应用问题选取和设计算法,常用的技术包括文本分类、文本聚类等。文本分析典型应用包括信息抽取、情感分析、知识图谱构建、问答系统等。1.2文本分析的基本流程图11-1文本分析的一般流程图
文本分词是利用分词方法将文本分成一个字、词语或者短语等词汇单位的过程。文本分词会根据语言的不同而采用不同的分词方法。英语文本词汇与词汇之间用空格分开,因此英文文本可以直接使用空格和标点符号进行分词。然而中文文本字词之间并没有天然的分隔标记,一句话可以根据每个人理解的不同而被切分成不同的词汇单位,如表11-1所示。因此,对于中文分词需要额外考虑如何更精准地进行分词操作。2.1文本分词原句切分结果无鸡鸭亦可,无鱼肉亦可,白菜豆腐不能少。无/鸡/鸭/亦可,无/鱼/肉亦可,白菜/豆腐/不能/少。无/鸡鸭/亦可,无/鱼肉/亦可,白菜/豆腐/不能/少。这个桃子不大好吃。这个/桃子/不大/好吃。这个/桃子/不大好吃。表11-1歧义句
常用的分词方法主要有基于词典的分词方法、基于统计的分词方法以及基于理解的分词方法三种。基于词典的分词方法:此类方法依赖于词表,将文本切分的字符串跟词表中的词语进行匹配,匹配成功,则按词表中的词语进行切分。基于统计的分词方法:此类方法是基于统计的思想,根据大规模语料上表现出来的词汇共现特征如词频、互信息熵进行分词。基于理解的分词方法:此类方法是利用计算机模拟人的思维对句子进行理解,从而达到分词的目的。2.1文本分词表11-2三种分词工具的分词结果分词工具原句JiebaPkusegPyltp2020年8月8日天晴。2020/年/8/月/8/日/天晴/。2020年/8月/8日/天晴/。2020年/8月/8日/天晴/。吃葡萄不吐葡萄皮。吃/葡萄/不吐/葡萄/皮/。吃/葡萄/不/吐/葡萄皮/。吃/葡萄/不/