文档详情

深度学习案例教程教案6.1分词的实现.docx

发布：2025-03-02约1.73千字共6页下载文档

文本预览下载声明

01分词的实现

我们来学习第六章文本分类。

首先，我们先明确一下学习目标。

第一个学习目标是让大家能够理解文本分类的基本概念和应用场景。

第二个目标是掌握分词、TFIDF等文本与处理技术的基本原理。

第三个目标是熟悉如何划分训练数据、测试数据以及交叉验证的意义。

第四个目标是理解过拟合的概念和它在模型训练中的影响。

第五个目标是学习并理解常见的文本分类算法。

同时，通过这一章节的学习，希望能够培养大家的素质目标。

1培养我们科学的问题分析和解决能力，提高对实际问题的抽象和建模能力。

2提高自我学习和独立解决问题能力，在遇到不熟悉的问题时，能够通过查询文献、网络资源等途径获取解决方案。

3培养我们良好的逻辑思维和批判性思维能力，能够分析和评估不同的方法以及模型的优缺点。

4提高我们团队合作和沟通能力，可以在团队项目中有效的进行信息交流和分享。

本节的实践任务是做新闻文本分类，我们将这个实践任务拆解成4个子任务。

子任务1是新闻数据处理。

子任务2是分类模型的搭建。

子任务3是训练我们搭建好的新闻分类模型。

子任务4是对我们的模型进行评估。

为了完成我们的实践任务，我们需要先了解一些相关的理论知识。

接下来我们来学习第一节，分词的实现。

那分词是什么呢？

分词在自然语言处理中是极其重要的一步。在处理文本数据的时候，我们需要将连续的文本划分成独立的单元，这些单元可以是单个字符，也可以是词或者是短语。

分词就是实现这一过程的方法。

在我们许多语言中，比如说英语，单词之间，它可以通过空格自然分隔。

然而在一些语言中，比如说中文，它的文本是连续的，没有明显的词语分割符。

在这种情况下，分词技术就显得比较重要。

分词就是将一段连续的文本切分成一系列独立的词语，比如说像一个中文句子。

我爱自然语言处理。

经过分词后，我们可以得到，把我和爱之间区分开，然后爱和后面的自然语言处理区分开这样的一个效果。

那么分词主要有三个特点。

第一个特点是分词结果会直接影响后续任务的性能，好的分词它可以提取出文本中的关键信息，对于文本分类、信息检索，情感分析等任务都有很重要的影响。

第二个特点是分词可能会产生歧义，比如说我爱听音乐这一个句子中，我爱听和听音乐可以视为一个词，也可以视为两个词，这个时候就是对于歧义的分词的一个挑战。

第三个特点是分词的效果受语料库影响，不同的语料库可能会产生不同的效果。

接下来我们可以通过代码实现来看一下分词如何进行应用。

在python中，我们可以使用jieba库进行中文分词，这是一个简单易用的分词库，包含了三种分词模式，有精确模式、全模式和搜索引擎模式。

我们来看一段代码了解这三种模式。

在代码中可以看到，我们首先导入jieba库，

然后定义了一个原始文本text，原始文本的内容为我爱自然语言处理，

接着通过jieba库的cut方法对当前文本进行处理，

在调用cut方法时需要两个参数，第一个参数是我们前面定义的原始文本text，第二个参数是cut_all，置为False，这就是精确模式。

将cut_all参数赋值为False时，我们采用的分词模式即为精确模式，精确模式试图将我们句子最精确的切分开，它适合做这个文本分析。

最终它所出来的结果就是我爱语言处理，我和爱区分开，爱和自然语言处理区分开。

若将cut_all参数赋值为true，那我们采用的分词模式就是全模式。

他会将句子中所有可以分成词的词语都扫描出来。

原始文本中的我爱自然语言处理经全模式扫描出来的结果就变成了：我和爱，爱和自然，然后还有自然语言和语言、处理以及自然语言处理，这些所有可以成词的词语都给它分割开，那这是一个全模式。

接下来，我们来看一下搜索引擎模式

搜索引擎模式需要通过jieba库的cut_for_search方法，它的扫描结果和我们全模式的结果类似。

它主要是在精确模式的基础上对长词再次切分，提高召回率，适用于搜索引擎分词。

这就是我们分词jieba库用的三种模式。

本节课的讲解就到这里。

显示全部

相似文档

深度学习案例教程 教案6.1分词的实现.docx

深度学习案例教程教案6.1分词的实现.docx