文档详情

Python程序设计基础课件第9章第三方库.pptx

发布：2024-12-14约1.15万字共23页下载文档

文本预览下载声明

第9章Python第三方库python程序设计基础教程

9.1第三方库概述本节主要介绍Python的第三方库的用法，包括jieba库和wordcloud库的用法简介，jieba库是通过将待处理内容与与分词词库进行比对，按指定策略获得包含的分词。worcloud库是一个优秀的词云展示第三方库。

9.2第三方库的获取和安装本节主要介绍的第三方库有jieba库以及wordcloud库，安装方法有两种。（1）安装包模式安装：在Windows系统环境下，从对应的jieba和wordcloud库的官方网站下载安装包，自动安装即可。（2）在线安装：通过pip3语句进行安装pip3install+‘对应第三方库的名字’

9.2第三方库的获取和安装（2）在线安装：通过pip3语句进行安装有时在线镜像源安装可能会较缓慢，可以采用清华大学镜像源，安装语句如下：pip3install+’第三方库的名字’-i+‘清华大学镜像源’?清华大学镜像：/simple?阿里云镜像：/pypi/simple/?中国科技大学镜像：/simple/?华中理工大学镜像：/?山东理工大学镜像：/?豆瓣镜像：/simple/

9.3jieba库及其使用本节主要介绍的jieba库是一个第三方中文分词主要功能：利用一个中文词库确定汉字之间的关联概率，汉字间概率大的组成词组，形成分词结果。通过命令行下运行一下命令进行安装jieba.lcut(sentence,cut_all=true)全模式，返回语句sentence中所有可以成词的词语，速度非常快，但是不能解决歧义。jieba.lcut(sentence)精确模式，试图将语句sentence最精确地切开，适合文本分析。jieba.lcut_for_search(sentence)搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。pip3installjieba

9.3jieba库及其使用jieba库常用方法方法含义jieba.lcut(sentence)精确模式，将语句划分开,返回值为列表类型jieba.lcut(sentence,cut_all=true)全模式，输出文本sentence中所有可能单词,返回值为列表类型jieba.lcut_for_search(sentence)搜索引擎模式，适合搜索引擎建立索引的分词结果,返回值为列表类型jieba.cut(sentence)精确模式，将语句划分开,返回值为可迭代的数据类型jieba.cut(sentence,cut_all=true)全模式，输出文本sentence中所有可能单词,返回值为可迭代的数据类型jieba.cut_for_search(sentence)搜索引擎模式，建立适合搜索引擎检索的分词结果,返回值为可迭代的数据类型jieba.add_word(sentence)向分词词典中添加新词

9.3jieba库及其使用例9-1三种模式的应用。importjiebaseg_list=jieba.cut(《生死疲劳》是中国当代作家莫言创作的长篇小说,cut_all=True)print(fullpattern:+,.join(seg_list)) ##全模式seg_list=jieba.cut(《生死疲劳》是中国当代作家莫言创作的长篇小说)print(accuratepattern:+,.join(seg_list)) ##精确模式seg_list=jieba.cut_for_search(《生死疲劳》是中国当代作家莫言创作的长篇小说) ##搜索引擎模式print(searchmodel:+,.join(seg_list))

9.3jieba库及其使用例9-2统计唐诗三百首中的词语出现次数。编程思路：词频分析，就是对某一或某些给定的词语在某文件中出现的次数进行统计分析。中文词频分析的基本原理是利用jieba库对文章进行分析，统计每个词出现的个数，就是建立词和出现次数的字典。然后按出现的次数从高到底排序，根据出现频率高的词来分析文章。importjieba#首先要保证所打开的文件是utf-8编码，如果不是，可使用记事本另存为utf-8编码#UTF-8是一种面向互联网传输出现的变长（1-4字节）的字符UNICODE编码，它兼容ASCII码，即英文字符1个字节，汉字占3个字节。withopen(唐诗三百首.txt,r,encoding=utf-8)asfr: txt=fr.read();words=jieba.lcut(txt)#精确模式分析，返回一个列表类型counts

显示全部

相似文档

Python程序设计基础 课件 第9章 第三方库.pptx

Python程序设计基础课件第9章第三方库.pptx