深度学习案例教程 教案6.1分词的实现.docx
01分词的实现
1
我们来学习第六章文本分类。
2
首先,我们先明确一下学习目标。
第一个学习目标是让大家能够理解文本分类的基本概念和应用场景。
3
第二个目标是掌握分词、TFIDF等文本与处理技术的基本原理。
4
第三个目标是熟悉如何划分训练数据、测试数据以及交叉验证的意义。
5
第四个目标是理解过拟合的概念和它在模型训练中的影响。
6
第五个目标是学习并理解常见的文本分类算法。
7
同时,通过这一章节的学习,希望能够培养大家的素质目标。
1培养我们科学的问题分析和解决能力,提高对实际问题的抽象和建模能力。
8
2提高自我学习和独立解决问题能力,在遇到不熟悉的问题时,能够通过查询文献、网络资源等途径获取解决方案。
9
3培养我们良好的逻辑思维和批判性思维能力,能够分析和评估不同的方法以及模型的优缺点。
10
4提高我们团队合作和沟通能力,可以在团队项目中有效的进行信息交流和分享。
11
本节的实践任务是做新闻文本分类,我们将这个实践任务拆解成4个子任务。
子任务1是新闻数据处理。
子任务2是分类模型的搭建。
子任务3是训练我们搭建好的新闻分类模型。
子任务4是对我们的模型进行评估。
为了完成我们的实践任务,我们需要先了解一些相关的理论知识。
12
接下来我们来学习第一节,分词的实现。
那分词是什么呢?
分词在自然语言处理中是极其重要的一步。在处理文本数据的时候,我们需要将连续的文本划分成独立的单元,这些单元可以是单个字符,也可以是词或者是短语。
分词就是实现这一过程的方法。
13
在我们许多语言中,比如说英语,单词之间,它可以通过空格自然分隔。
然而在一些语言中,比如说中文,它的文本是连续的,没有明显的词语分割符。
在这种情况下,分词技术就显得比较重要。
14
分词就是将一段连续的文本切分成一系列独立的词语,比如说像一个中文句子。
我爱自然语言处理。
经过分词后,我们可以得到,把我和爱之间区分开,然后爱和后面的自然语言处理区分开这样的一个效果。
15
那么分词主要有三个特点。
第一个特点是分词结果会直接影响后续任务的性能,好的分词它可以提取出文本中的关键信息,对于文本分类、信息检索,情感分析等任务都有很重要的影响。
16
第二个特点是分词可能会产生歧义,比如说我爱听音乐这一个句子中,我爱听和听音乐可以视为一个词,也可以视为两个词,这个时候就是对于歧义的分词的一个挑战。
17
第三个特点是分词的效果受语料库影响,不同的语料库可能会产生不同的效果。
18
接下来我们可以通过代码实现来看一下分词如何进行应用。
在python中,我们可以使用jieba库进行中文分词,这是一个简单易用的分词库,包含了三种分词模式,有精确模式、全模式和搜索引擎模式。
我们来看一段代码了解这三种模式。
19
在代码中可以看到,我们首先导入jieba库,
然后定义了一个原始文本text,原始文本的内容为我爱自然语言处理,
接着通过jieba库的cut方法对当前文本进行处理,
在调用cut方法时需要两个参数,第一个参数是我们前面定义的原始文本text,第二个参数是cut_all,置为False,这就是精确模式。
将cut_all参数赋值为False时,我们采用的分词模式即为精确模式,精确模式试图将我们句子最精确的切分开,它适合做这个文本分析。
20
最终它所出来的结果就是我爱语言处理,我和爱区分开,爱和自然语言处理区分开。
21
若将cut_all参数赋值为true,那我们采用的分词模式就是全模式。
他会将句子中所有可以分成词的词语都扫描出来。
22
原始文本中的我爱自然语言处理经全模式扫描出来的结果就变成了:我和爱,爱和自然,然后还有自然语言和语言、处理以及自然语言处理,这些所有可以成词的词语都给它分割开,那这是一个全模式。
23
接下来,我们来看一下搜索引擎模式
搜索引擎模式需要通过jieba库的cut_for_search方法,它的扫描结果和我们全模式的结果类似。
24
它主要是在精确模式的基础上对长词再次切分,提高召回率,适用于搜索引擎分词。
这就是我们分词jieba库用的三种模式。
本节课的讲解就到这里。