文档详情

Python程序设计基础 课件 第9章 第三方库.pptx

发布:2024-12-14约1.15万字共23页下载文档
文本预览下载声明

第9章Python第三方库python程序设计基础教程

9.1第三方库概述本节主要介绍Python的第三方库的用法,包括jieba库和wordcloud库的用法简介,jieba库是通过将待处理内容与与分词词库进行比对,按指定策略获得包含的分词。worcloud库是一个优秀的词云展示第三方库。

9.2第三方库的获取和安装本节主要介绍的第三方库有jieba库以及wordcloud库,安装方法有两种。(1)安装包模式安装:在Windows系统环境下,从对应的jieba和wordcloud库的官方网站下载安装包,自动安装即可。(2)在线安装:通过pip3语句进行安装pip3install+‘对应第三方库的名字’

9.2第三方库的获取和安装(2)在线安装:通过pip3语句进行安装有时在线镜像源安装可能会较缓慢,可以采用清华大学镜像源,安装语句如下:pip3install+’第三方库的名字’-i+‘清华大学镜像源’?清华大学镜像:/simple?阿里云镜像:/pypi/simple/?中国科技大学镜像:/simple/?华中理工大学镜像:/?山东理工大学镜像:/?豆瓣镜像:/simple/

9.3jieba库及其使用本节主要介绍的jieba库是一个第三方中文分词主要功能:利用一个中文词库确定汉字之间的关联概率,汉字间概率大的组成词组,形成分词结果。通过命令行下运行一下命令进行安装jieba.lcut(sentence,cut_all=true)全模式,返回语句sentence中所有可以成词的词语,速度非常快,但是不能解决歧义。jieba.lcut(sentence)精确模式,试图将语句sentence最精确地切开,适合文本分析。jieba.lcut_for_search(sentence)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。pip3installjieba

9.3jieba库及其使用jieba库常用方法方法含义jieba.lcut(sentence)精确模式,将语句划分开,返回值为列表类型jieba.lcut(sentence,cut_all=true)全模式,输出文本sentence中所有可能单词,返回值为列表类型jieba.lcut_for_search(sentence)搜索引擎模式,适合搜索引擎建立索引的分词结果,返回值为列表类型jieba.cut(sentence)精确模式,将语句划分开,返回值为可迭代的数据类型jieba.cut(sentence,cut_all=true)全模式,输出文本sentence中所有可能单词,返回值为可迭代的数据类型jieba.cut_for_search(sentence)搜索引擎模式,建立适合搜索引擎检索的分词结果,返回值为可迭代的数据类型jieba.add_word(sentence)向分词词典中添加新词

9.3jieba库及其使用例9-1三种模式的应用。importjiebaseg_list=jieba.cut(《生死疲劳》是中国当代作家莫言创作的长篇小说,cut_all=True)print(fullpattern:+,.join(seg_list)) ##全模式seg_list=jieba.cut(《生死疲劳》是中国当代作家莫言创作的长篇小说)print(accuratepattern:+,.join(seg_list)) ##精确模式seg_list=jieba.cut_for_search(《生死疲劳》是中国当代作家莫言创作的长篇小说) ##搜索引擎模式print(searchmodel:+,.join(seg_list))

9.3jieba库及其使用例9-2统计唐诗三百首中的词语出现次数。编程思路:词频分析,就是对某一或某些给定的词语在某文件中出现的次数进行统计分析。中文词频分析的基本原理是利用jieba库对文章进行分析,统计每个词出现的个数,就是建立词和出现次数的字典。然后按出现的次数从高到底排序,根据出现频率高的词来分析文章。importjieba#首先要保证所打开的文件是utf-8编码,如果不是,可使用记事本另存为utf-8编码#UTF-8是一种面向互联网传输出现的变长(1-4字节)的字符UNICODE编码,它兼容ASCII码,即英文字符1个字节,汉字占3个字节。withopen(唐诗三百首.txt,r,encoding=utf-8)asfr: txt=fr.read();words=jieba.lcut(txt)#精确模式分析,返回一个列表类型counts

显示全部
相似文档