人工智能应用基础(高职):文本分析你的评论表达你的喜好PPT教学课件.pptx
《人工智能应用基础》项目五:你的评论表达你的喜好
任务描述☆文本情感分析输入一段客户评价文字,对文字进行分析,了解客户满意度
知识目标素质目标(1)培养学生吃苦耐劳的品质(2)培养学生团队协作、互相帮助的精神(3)提高学生全面、系统考虑问题的意识。1.了解文本分析的基本流程了解分词、词向量的概念和作用理解文本分类的应用能力目标认识中文分词的过程掌握词向量的表示方法掌握使用深度学习进行文本分类的方法
5.1了解中文分词5.2理解文本表示5.3了解文本分类模型5.4应用
5.1了解中文分词为什么需要中文分词?自然语言人工语言人类社会约定俗成程序设计语言/机器语言汉语,英语等C++,Java,Python等简洁长度和规则上都会有一定的冗余含糊、歧义无二义性如果李春来到了无锡,我请他吃饭。
5.1了解中文分词分词:WordSegmentation在自然语言处理中,英文文本具有天然的空格作为区分,但是中文没有明显的分隔符,因此需要对中文进行分词。单词是语义的基本单位,句子和文档都由大量单词构成。中文分词指将中文语句切分成一个个单独的词语。即将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列。
5.1了解中文分词分词:WordSegmentation
5.1了解中文分词常用的分词工具现有的分词方法可分为三大类:基于字符串匹配的分词方法;基于理解的分词方法;基于统计的分词方法。
5.1了解中文分词常用的分词工具jieba分词:支持三种模式:(1)精确模式:试图将句子最精确地切开,适合文本分析;(2)全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
5.1了解中文分词案例
5.1了解中文分词常用的分词工具SnowNLPTHULACNLPIR分词系统
5.1了解中文分词5.2理解文本表示5.3了解文本分类模型5.4应用
5.2理解文本表示机器无法直接识别人类语言,更不能对输入的非结构化文本数据直接进行处理。所以重要的一步就是将非结构化文本数据转化为计算机可以识别和处理的结构化数据,然后才能进行下一步任务,这一步称为文本表示。为什么需要文本表示?
5.2理解文本表示文本表示的两种方法1.独热表示独热表示:将文本中的词以高维向量的形式表示,从而将对文本的处理转化为向量空间中的向量运算。其中,词表中包含我们需要的所有词,以词表的长度大小作为词向量的维度,向量中该词所在的位置取1,其余位置都用0表示。
5.2理解文本表示文本表示的两种方法1.独热表示存在三个问题有序性问题语义鸿沟维度灾难
5.2理解文本表示文本表示的两种方法2.分布式表示分布式表示:也被称为词嵌入,该方法通常将文本中的单词输入到某个预训练模型中进行训练,然后将其转换为连续的稠密向量。其依据是分布式假设,即拥有相同或相似上下文语境的词具有相同或相似的含义。
5.2理解文本表示西瓜呆瓜草莓“西瓜”在语义上更像“呆瓜”还是“草莓”呢?案例
5.2理解文本表示西瓜呆瓜草莓向量化表示:相似度计算:向量化表示:0.01805,0.46956,0.50758,-0.59865,....0.1858,0.0353,0.1479,0.2210,....0.2251,0.28621,0.0347,0.04131,.....0.1150.325词向量与语义相似度(WordEmbeddingSemanticSimilarity)对词汇进行向量化表示,并据此实现词汇的语义相似度计算向量化表示词汇,并计算词汇语义相似度
车头如何放置车牌前牌照怎么装如何办理北京牌照5.2理解文本表示
向量化表示:相似度计算:向量化表示:0.844,-0.0.039,-0.789,-0.499....0.355,0.238,-0.671,-0.743,....0.197,0.619,0.-0.849,-0.652,.....0.7620.486文本语义相似度(TextSemanticSimilarity)依托全网海量数据和深度神经网络技术,实现文本间的的语义相似度计算的能力车头如何放置车牌前牌照怎么装如何办理北京牌照向量化表示文本并计算语义相似度5.2理解文本表示
5.1了解中文分词5.2理解文本表示5.3了解文本分类模型5.4项目开发文字内容的情感倾向分析
5.3了解文本分类模型
5.3了解文本分类模型
5.3了解文本分类模型
5.1了解中文分词5.2理解文本表示5.3了解文本分类模型5.4应用
5.4应用词向量利用大数据和深度学习模型,将语