文档详情

大学信息技术—数据分析与可视化实践课件 第5章 5.3 唐诗可视化分析案例.pptx

发布:2025-06-08约2.92千字共23页下载文档
文本预览下载声明

大学信息技术3——数据分析与可视化实践第5章数据分析实战

学习目标1.了解数据分析的流程和步骤。2.了解数据可视化技术及其实际应用。3.掌握Excel、Access、Tableau或FineBI等数据处理常用软件的使用方法。4.熟练运用Tableau或FineBI中的各种分析方法和可视化工具来分析具体问题。5.能够解决数据分析中的一般综合问题,培养分析问题和解决问题的能力。

目录页contents成绩统计分析案例空气质量情况分析案例唐诗可视化分析案例销售情况分析案例5.4

5.3唐诗可视化分析案例

目录页contents背景介绍和提出问题数据准备数据分析及可视化分析图表整合12345习题与实践

选题背景及意义ONE5.3.1背景介绍和提出问题

唐诗分析的意义近些年来,弘扬中华传统文化的综艺节目不断涌现,如《中国诗词大会》、《中国汉字听写大会》、《中国成语大会》等,尤其是《中国诗词大会》通过对诗词知识的比拼及赏析,带动全民重温那些曾经学过的古诗词,享受诗词之美,感受诗词之趣。作为现代人,我们最重要的是要了解古诗词、读懂古诗词,是否可以从数据分析的角度“探索”这些诗词,结合数据之美和诗歌之雅,用跨界思维去发现一些有趣的东西。《全唐诗》是清康熙年间编校的一本唐诗合集,收录诗作四万八千九百余首。我们以《全唐诗》为例,借助数据分析工具去研究探索发现古诗词当中的奥秘。5.3.1背景介绍和提出问题

选题背景及意义TWO5.3.2数据准备

希望对古诗中的常用字进行分析,所以采用逐字切分的处理方式对古诗内容做了一个字频分析::

字频统计-全唐诗.csv/gushi/quantang.aspx网站爬取了《全唐诗》900卷共42986首古诗:全唐诗.xlsx全唐诗.xlsx:id(编号)volume(第几卷)sequence(所在卷的第几篇)title(古诗标题)author(古诗作者)text(古诗内容)共42986条数据对应42986首古诗字频统计-全唐诗.csv:number(编号)word(字)frequency(字频,出现的总次数)该文件共有7520条数据。5.3.2数据准备

几种常用的在线分词工具*中文分词:就是将连续的字序列按照一定的规范重新组合成词序列的过程。几种常用的在线分词工具:Jieba,SnowNLP,PkuSeg,THULAC,HanLP5.3.2数据准备

THREE5.3.3数据分析及可视化

问题(二)全唐诗中收录的哪位诗人的诗最多?杜甫、白居易还是李白?问题(一)分析问题古人作诗时喜欢用那些汉字?全唐诗中出现频率较高的字是那些?诗人最喜欢描写哪个季节?问题(三)问题(四)随意输入一段内容,可否快速找到含有该内容的古诗?5.3.3数据分析及可视化

修改工作表名称,并选择“poem(全唐诗)”为当前数据源连接数据源①将维度中的“author”拖拽至列功能区。②将度量中的“记录数”拖拽至行功能区。③选中列功能区的“author”右击选择“筛选器”,在“筛选器”的“顶部”选项卡,选择“按字段”根据“记录数”总和的顶部“20”,④把维度中的“author”拖拽到“标记”卡的“颜色”上。⑤把“author”和“记录数”分别拖拽到“标记”卡的“标签”上。⑥点击菜单栏中的降序排序按钮,使数据按照从高到底排序。工作表的操作谁的诗最多5.3.3数据分析及可视化

谁的诗最多5.3.3数据分析及可视化

修改工作表名称,并选择“字频统计-全唐诗”为当前数据源新建工作表①创建参数topN,调节用以动态显示的汉字个数。②将维度中的“字”拖拽至筛选器窗口。选择“筛选器”的“顶部”选项卡,选择“按字段”中的依据“字频”“总和”“顶部”“topN”。③把维度中的“字”拖拽到“标记”卡的“颜色”上。④把维度中的“字”拖拽到“标记”卡的“标签”上。⑤把度量中的“字频”拖拽到“标记”卡的“大小”上。⑥把标记中的“自动”更改城“文本”。工作表的操作哪些字用得最多5.3.3数据分析及可视化

哪些字用得最多5.3.3数据分析及可视化

修改工作表名称,并选择“字频统计-全唐诗”为当前数据源新建工作表①将维度中的“字”拖拽至筛选器窗口。选择“筛选器”的“条件”选项卡,选择“按公式”,在公式区域输入:[字]=春or[字]=夏or[字]=秋or[字]=冬。②从“标记”卡下拉列表中选择“饼图”。并将视图改为“整个视图”③将维度中的“字”拖拽到“标记”卡的“颜色”上。④把度量中的“字频”拖拽到“标记”卡的“角度”上。⑤把“字”和“字频”分别拖拽到“标记”卡的“标签”上。选择“总和(字频)”,右击,在弹出窗口中选择“快速表计算/合计百分比”命令。

显示全部
相似文档