文档详情

案例15 大数据简介.pdf

发布:2021-02-04约2.88千字共13页下载文档
文本预览下载声明
案例15 大数据简介 1 (一)大数据特点 大数据指的是所涉及的资料量规模巨大到无法 通过目前主流软件工具, 在合理时间内达到撷取、 管理、处理、并整理成为帮助企业经营决策的资讯. 大数据不用随机方法(抽样调查)去抽取样本, 而分析所有数据(即总体资料). [1]本节主要内容摘录于英国作者维克托麦尔 ·舍恩伯格等所著,由胜杨燕和周涛翻译的 《大数据时代》. 2 “大数据”并不仅仅是传统意义的“数据”, 包 括文本、图片、视频等等. 大数据具有4V 的特点, 大量(Volume ) 高速(Velocity ) 多样(Variety ) 价值(Value ) 3 大数据从形式上可以简单地分成两种,结构数据和 非结构数据。 结构数据是直接可用行和列储存的数据, 例如 Excel, SPSS等表格中的数据, 即传统模式下的数据. 非结构数据是除结构数据以外的其它形式资料, 例 如图片、论坛帖和网络视频. 在实际应用中, 非结 构数据很多时候占了总大数据量的绝大部分. 4 (二)大数据正改变我们的观念 大数据正改变着我们对传统数据概念、处理方法的理 解. 主要体现在如下三个方面: 转变一: 在大数据时代,有先进的数据储存设备和 超快速的计算能力, 因此在做数据分析时不再依赖于 随机样本对总体的推断, 而是直接对总体的所有数据 进行分析. 5 转变二: 海量的数据的出现, 将导致我们不必 再去追求传统意义下的一些精确度问题, 如样本 大小对统计推断精度的影响等. 通过数据把握事 物的发展趋势是研究主要目标. 转变三:传统意义下的数据分析最关键的是寻找 事物因果关系(如回归分析、时间序列分析等 等), 但在大数据意义下, 我们更关心的是事物 (变量)之间的相关关系. 因此, 大数据最主要 的分析方法是分类和关联分析的方法. 6 目前常用的统计软件如SPSS和SAS等都开发了相应 的模块用于大数据挖掘. Clementine是SPSS中的一个独立的模块,用于大 数据的挖掘. SAS 中的EM模块也是新增的用于处理大数据的模 块. 7 按照数据来源划分, 大数据可分为三类: 商业数据一般来自于企业ERP 系统、各种POS终端、 以及网上支付系统等业务系统; 互联网数据则来自于通讯记录、社交媒体(如 facebook、Twitter、Youtube等); 传感数据来自于GPS 设备、RFID设备、视频监控 设备等. 据统计, 目前全球平均每个月有2.5EB 的数据 出现. 8 (三)数据挖掘著名案例:啤酒与尿片 数据挖掘是指从数据库的大量数据中揭示出隐含 的、先前未知的并有潜在价值的信息的过程, 是基于 人工智能、机器学习、统计学、数据库、可视化技术 等, 高度自动化地分析数据, 做出归纳性的推理, 帮 助决策者调整策略, 做出正确的决策.
显示全部
相似文档