OpenRefine中文使用教程.doc
文本预览下载声明
更多文章:/loveyy1010
目录
TOC \o 1-3 \h \u 15892 第一章 :初识OpenRefine 5
23630 介绍OpenRefine 5
27494 要点1:安装OpenRefine 6
22396 WINDOWS 7
782 MAC 7
15624 LINUX 7
29816 要点2:创建一个新项目 7
3002 OpenRefine支持的文件类型 9
1074 要点3:探索数据 10
15169 要点4:操纵列 11
25370 列隐藏和展开 11
14639 移动列 12
28674 重命名或删除列 13
31366 要点5:使用项目操作历史 14
32624 要点6:导出项目 16
12029 要点7:获取更多的运行内存 18
8806 Windows 18
19243 Mac 18
27730 Linux 18
2350 小结 19
31126 第二章:分析和修改数据 19
15257 点1-数据排序 20
17230 对行进行重新排序 22
27810 点2-数据透视 22
29241 文本透视 23
21480 数字透视 25
12784 定制透视 28
16204 对标星和标旗行进行透视 31
20175 点3-重复检测 31
12209 点4-应用一个文本过滤 34
31808 点5-使用简单单元格转换 35
12447 点6-删除匹配行 38
20044 小结 41
27165 第三章:高级数据操作 41
2189 点1:对多值单元格的处理 41
9794 点2:行模式和记录模式的转换 44
13829 点3:相似单元格聚类 47
4162 点4:单元格值转换 50
22633 点5:增加源列 53
24843 点6:拆分列 54
13008 点7:行列转换 56
3504 小结 58
4853 第四章:数据集关联 59
28203 ?点1-使用Freebase解析值 59
21863 ?点2-安装扩展包 63
18246 ?点3-增加解析服务 65
1119 ?点4-与关联数据进行解析 67
14502 ?点5-抽取单名称项 70
11790 小结 73
22603 第五章:正则表达式和GREL 74
13992 对文本应用正则表达式 74
20231 字符集 75
19318 数量符 77
9658 锚符 79
1963 可选符 79
12625 组符 80
8416 小结 80
15324 GREL 81
24667 数据转换 82
15160 创建自定义透视功能 83
6021 GREL排障 85
:初识OpenRefine
本章中,我们会说明OpenRefine是用来干什么的?为什么我们需要用它?并且怎么用它。简单介绍后,我们会通过七个基本小点让你初尝OpenRefine的魅力。
◎安装OpenRefine
◎创建一个项目
◎探索你的数据
◎操纵列
◎使用项目历史
◎输出项目
◎充分利用内存
虽然每个点都相对独立,我们还是建议新读者按照我们的顺序学习,最起码开始的几点需要如此,因为这几点中我们提供了软件操作的重要信息。有经验的高级读者可以按照自己喜欢自由选择。
介绍OpenRefine
我们需要承认这样一个事实:你的数据是不完美的,所有的数据都是不完美的。无论你多么小心地建立数据,错误总会偷偷溜进你的数据中。如果是多人共同创建或者已经几经转手,那么错误更加无法避免。无论你的数据本来就是数字化的,还是通过传统刊物数字化转换而来的,无论它们存储在excel表中还是数据库中,数据中的错误总是无法避免。
确认错误是保证数据质量的第一步,主要包括数据画像和数据清洗。
数据画像 Olson定义为:使用统计方法发现数据的结构、内容、质量。换句话说,这是一种对你的数据进行画像,预发现包含的错误信息的方法。
数据清洗 用半自动化的方式改正画像过程中发现的错误,比如:删除缺失和重复值、行过滤透视、值聚类及转换、单元格拆分等等。
鉴于后续章节都需要保证数据已经画像清洗过,数据转换工具(IDTS)能够快速廉价的在一个操作界面内处理大量的数据问题,即使处理人员缺乏专业技术背景,所以IDTS也就成为了首选。
OpenRefine就是这样一个IDTS工具,其能够对数据进行可视化操作处理。它很像传统的excel软件,但其工作方式更像数据库,因其并不是处理单独的单元格,而是处理列和字段。这意味着OpenRefine对于增加新行内容表现不佳,但对于探索、清洗、整
显示全部