文档详情

大规模古籍文献可视化分析与挖掘pdf4963Mb.PDF

发布:2018-04-15约2.53千字共27页下载文档
文本预览下载声明
大规模古籍文献可视化分析与挖掘 广西民族大学图书馆 欧阳剑 Email: oyjjj@163.com 主要内容: 1、项目背景及目标 2、数据来源及处理 3、系统平台建设与开发 4、面临的主要问题及解决方案 5、系统使用场景及实际使用效果 6、后期计划 1.项目背景及目标 本项目起始于:通过大规模的古籍文本语料来研 究汉语历史词汇演化及过程规律; 另一启示来源于:Google Book Ngram (基于The Google Web 1T 5-Gram Database ) 项目背景 1)古籍数字化已经比较成熟 2)古籍文本数据已具相当规模,深度利用率低 3)人文学科的数字人文研究的需要 急需研究辅助工具与研究方式的创新与开发, 充分利用新的信息技术与手段来对古籍进行深 层次的开发。 4)大数据时代的新研究思维范式与技术 1)大数据时代重在发现知 1)传统人文学科 识与现象,在没有理论假设 的实证研究强调在 的前提下去预知,从海量的 理论的前提下建立 研究思维 数据中发现知识,寻找隐藏 假设 在数据中的模式、趋势和相 2)强调高准确性 关性,揭示事物现象与发展 规律 2)侧重全体数据,轻抽样 传统处理: 大数据处理: 小样本数据分析处理 处理技术 大数据量高速实时分析处理 项目目标: 1)为语言学、历史文献学及历史地理学等人 文学科的研究者提供一个大规模的古籍语料 库; 2)在大数据视域下,为语言学、历史文献学 研究探索新的研究范式与研究方法; 3)为研究者提供一套方法较为科学、客观的 研究分析工具与平台; 2.数据来源及处理 数据来源:1)网络数据采集 2)专业数据库文本获取 数据处理:1)数据抽取(PDF、WORD、HTML等) 2)编码转换(UTF-8\Unicode\UTF- 16BE\GBK) 3)简繁异体字转换 4)元数据标注 3.系统平台建设与开发 1) 实时统计分析; 主要难点:数据的IO瓶颈、实时数据统计分析 --传统数据库、全文引擎(X) sql server 2008、solr等 --Nosql内存数据库(X)--》作为冷启动容器(√) hadoop、mongodb、Memcached、Redis --数据实时分析(√) MapReduce、改进并行算法 2) 分析与挖掘算法开发; --数据降噪 --基于概率统计计算 --时序预测分析 3) 数据可视化及分析; --数据可视化(主要为D3 JS、Highcharts JS等) --地理信息系统(主要为ArcGIS)等 4.面临的主要问题及解决方案 主要问题是提供分析挖掘的准确性 1)生语料--》熟语料的加工 --通过建立断代词结合分词技术进行语料自动 切分; 2)知识库的构建 --首先整理前人研究成果,然后知识自动提取; 3)语料年代的考证 --通过相关专业人士检查(目前还有2万于种需 要标注) 5.系统使用场景及实际使用效果 1)以可视化的形式展现字词的年代分别及词频分布,支持用户统计任意字词 2)提供全文展示,可任意放大或缩小可视化统计区域 3)词义考释,词义演变,词语、词义的产生年代,供用户浏览字词分布信息及规律发现 案列:
显示全部
相似文档