文档详情

三七大数据平台技术解决实施方案_V1.0.doc

发布:2018-11-24约18.18万字共261页下载文档
文本预览下载声明
. WORD格式.资料 . 专业.整理 三七数据 大数据技术解决方案 北京三七数据技术有限公司 2017年7月31日 目 录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc338008203 1 概述 PAGEREF _Toc338008203 \h 6 HYPERLINK \l _Toc338008204 2 面临的挑战 PAGEREF _Toc338008204 \h 6 HYPERLINK \l _Toc338008205 2.1 数据采集 PAGEREF _Toc338008205 \h 10 HYPERLINK \l _Toc338008206 2.2 数据清洗 PAGEREF _Toc338008206 \h 10 HYPERLINK \l _Toc338008207 2.3 数据存储 PAGEREF _Toc338008207 \h 12 HYPERLINK \l _Toc338008208 2.4 数据并行处理 PAGEREF _Toc338008208 \h 12 HYPERLINK \l _Toc338008209 2.5 数据分析 PAGEREF _Toc338008209 \h 12 HYPERLINK \l _Toc338008210 2.6 可视化 PAGEREF _Toc338008210 \h 12 HYPERLINK \l _Toc338008211 2.7 传统解决方案的分析 PAGEREF _Toc338008211 \h 12 HYPERLINK \l _Toc338008212 3 相关技术的研究 PAGEREF _Toc338008212 \h 12 HYPERLINK \l _Toc338008213 3.1 参考模型框架 PAGEREF _Toc338008213 \h 12 HYPERLINK \l _Toc338008214 3.2 数据采集 PAGEREF _Toc338008214 \h 12 HYPERLINK \l _Toc338008215 3.2.1 结构化数据的采集 PAGEREF _Toc338008215 \h 12 HYPERLINK \l _Toc338008216 3.2.2 半结构化数据的采集 PAGEREF _Toc338008216 \h 12 HYPERLINK \l _Toc338008217 3.2.3 非结构化文本数据中信息的抽取 PAGEREF _Toc338008217 \h 15 HYPERLINK \l _Toc338008218 3.3 数据清洗和数据质量的保证 PAGEREF _Toc338008218 \h 15 HYPERLINK \l _Toc338008219 3.3.1 数据质量的概念及分类 PAGEREF _Toc338008219 \h 15 HYPERLINK \l _Toc338008220 3.3.2 数据清洗的原理 PAGEREF _Toc338008220 \h 18 HYPERLINK \l _Toc338008221 3.3.3 单数据源中的数据清洗 PAGEREF _Toc338008221 \h 20 HYPERLINK \l _Toc338008222 3.4 数据的集成和融合 PAGEREF _Toc338008222 \h 37 HYPERLINK \l _Toc338008223 3.4.1 多数据源集成问题的分类 PAGEREF _Toc338008223 \h 38 HYPERLINK \l _Toc338008224 3.4.2 数据标准化的研究 PAGEREF _Toc338008224 \h 40 HYPERLINK \l _Toc338008225 3.4.3 数据集成的流程 PAGEREF _Toc338008225 \h 41 HYPERLINK \l _Toc338008226 3.4.4 多数据源中重复实体的清理 PAGEREF _Toc338008226 \h 41 HYPERLINK \l _Toc338008227 3.4.5 数据不一致性问题的研究 PAGEREF _Toc338008227 \h 43 HYPERLINK \l _Toc338008228 3.5 数据的存储和处理 PAGEREF _Toc338008228 \h
显示全部
相似文档