大规模古籍文献可视化分析与挖掘pdf4963Mb.PDF
文本预览下载声明
大规模古籍文献可视化分析与挖掘
广西民族大学图书馆
欧阳剑
Email: oyjjj@163.com
主要内容:
1、项目背景及目标
2、数据来源及处理
3、系统平台建设与开发
4、面临的主要问题及解决方案
5、系统使用场景及实际使用效果
6、后期计划
1.项目背景及目标
本项目起始于:通过大规模的古籍文本语料来研
究汉语历史词汇演化及过程规律;
另一启示来源于:Google Book Ngram (基于The
Google Web 1T 5-Gram Database )
项目背景
1)古籍数字化已经比较成熟
2)古籍文本数据已具相当规模,深度利用率低
3)人文学科的数字人文研究的需要
急需研究辅助工具与研究方式的创新与开发,
充分利用新的信息技术与手段来对古籍进行深
层次的开发。
4)大数据时代的新研究思维范式与技术
1)大数据时代重在发现知
1)传统人文学科 识与现象,在没有理论假设
的实证研究强调在 的前提下去预知,从海量的
理论的前提下建立 研究思维 数据中发现知识,寻找隐藏
假设 在数据中的模式、趋势和相
2)强调高准确性 关性,揭示事物现象与发展
规律
2)侧重全体数据,轻抽样
传统处理: 大数据处理:
小样本数据分析处理 处理技术 大数据量高速实时分析处理
项目目标:
1)为语言学、历史文献学及历史地理学等人
文学科的研究者提供一个大规模的古籍语料
库;
2)在大数据视域下,为语言学、历史文献学
研究探索新的研究范式与研究方法;
3)为研究者提供一套方法较为科学、客观的
研究分析工具与平台;
2.数据来源及处理
数据来源:1)网络数据采集
2)专业数据库文本获取
数据处理:1)数据抽取(PDF、WORD、HTML等)
2)编码转换(UTF-8\Unicode\UTF-
16BE\GBK)
3)简繁异体字转换
4)元数据标注
3.系统平台建设与开发
1) 实时统计分析;
主要难点:数据的IO瓶颈、实时数据统计分析
--传统数据库、全文引擎(X)
sql server 2008、solr等
--Nosql内存数据库(X)--》作为冷启动容器(√)
hadoop、mongodb、Memcached、Redis
--数据实时分析(√) MapReduce、改进并行算法
2) 分析与挖掘算法开发;
--数据降噪
--基于概率统计计算
--时序预测分析
3) 数据可视化及分析;
--数据可视化(主要为D3 JS、Highcharts JS等)
--地理信息系统(主要为ArcGIS)等
4.面临的主要问题及解决方案
主要问题是提供分析挖掘的准确性
1)生语料--》熟语料的加工
--通过建立断代词结合分词技术进行语料自动
切分;
2)知识库的构建
--首先整理前人研究成果,然后知识自动提取;
3)语料年代的考证
--通过相关专业人士检查(目前还有2万于种需
要标注)
5.系统使用场景及实际使用效果
1)以可视化的形式展现字词的年代分别及词频分布,支持用户统计任意字词
2)提供全文展示,可任意放大或缩小可视化统计区域
3)词义考释,词义演变,词语、词义的产生年代,供用户浏览字词分布信息及规律发现
案列:
显示全部