案例15 大数据简介.pdf
文本预览下载声明
案例15 大数据简介
1
(一)大数据特点
大数据指的是所涉及的资料量规模巨大到无法
通过目前主流软件工具, 在合理时间内达到撷取、
管理、处理、并整理成为帮助企业经营决策的资讯.
大数据不用随机方法(抽样调查)去抽取样本,
而分析所有数据(即总体资料).
[1]本节主要内容摘录于英国作者维克托麦尔 ·舍恩伯格等所著,由胜杨燕和周涛翻译的
《大数据时代》.
2
“大数据”并不仅仅是传统意义的“数据”, 包
括文本、图片、视频等等. 大数据具有4V 的特点,
大量(Volume )
高速(Velocity )
多样(Variety )
价值(Value )
3
大数据从形式上可以简单地分成两种,结构数据和
非结构数据。
结构数据是直接可用行和列储存的数据, 例如
Excel, SPSS等表格中的数据, 即传统模式下的数据.
非结构数据是除结构数据以外的其它形式资料, 例
如图片、论坛帖和网络视频. 在实际应用中, 非结
构数据很多时候占了总大数据量的绝大部分.
4
(二)大数据正改变我们的观念
大数据正改变着我们对传统数据概念、处理方法的理
解. 主要体现在如下三个方面:
转变一: 在大数据时代,有先进的数据储存设备和
超快速的计算能力, 因此在做数据分析时不再依赖于
随机样本对总体的推断, 而是直接对总体的所有数据
进行分析.
5
转变二: 海量的数据的出现, 将导致我们不必
再去追求传统意义下的一些精确度问题, 如样本
大小对统计推断精度的影响等. 通过数据把握事
物的发展趋势是研究主要目标.
转变三:传统意义下的数据分析最关键的是寻找
事物因果关系(如回归分析、时间序列分析等
等), 但在大数据意义下, 我们更关心的是事物
(变量)之间的相关关系. 因此, 大数据最主要
的分析方法是分类和关联分析的方法.
6
目前常用的统计软件如SPSS和SAS等都开发了相应
的模块用于大数据挖掘.
Clementine是SPSS中的一个独立的模块,用于大
数据的挖掘.
SAS 中的EM模块也是新增的用于处理大数据的模
块.
7
按照数据来源划分, 大数据可分为三类:
商业数据一般来自于企业ERP 系统、各种POS终端、
以及网上支付系统等业务系统;
互联网数据则来自于通讯记录、社交媒体(如
facebook、Twitter、Youtube等);
传感数据来自于GPS 设备、RFID设备、视频监控
设备等. 据统计, 目前全球平均每个月有2.5EB 的数据
出现.
8
(三)数据挖掘著名案例:啤酒与尿片
数据挖掘是指从数据库的大量数据中揭示出隐含
的、先前未知的并有潜在价值的信息的过程, 是基于
人工智能、机器学习、统计学、数据库、可视化技术
等, 高度自动化地分析数据, 做出归纳性的推理, 帮
助决策者调整策略, 做出正确的决策.
显示全部