清华大学数据可视化教程高维数据可视化v3-9509917.pdf
文本预览下载声明
清华大学“大数据”系列课程
高维数据可视化
计算机系 胡事民
高维数据可视化
• 数据维度
• 高维数据可视化
– 数据变换
– 数据呈现
– 数据交互
数据维度
• 一维数据
– 通过柱状图、饼图等表达
“eaten or not ”
单独的一个bar代表一个一维数据
数据维度
• 二维数据
– 可使用平面坐标系表达
数据维度
• 三维数据
– 可使用空间坐标系表达,本质也是二维的投影
– 人类的视觉感知系统很难脱离
三维空间定势,对三维空间的
理解已远没有二维直观
数据维度
• 多维数据
– 怎样在视觉空间(三维空间/二维平面)上表达?
姓名 身高 体重 年龄 性别 教育程 籍贯
度
张三 180cm 65kg 23 男 大学 上海
李四 168cm 55kg 18 女 高中 浙江
赵五 175cm 75kg 53 男 初中 广东
…
高维数据可视化的简单思路
• 在二维/三维图表上增加视觉通道,以表达更多
的属性信息
– 散点的形状、填充形式、颜色、大小等
高维数据可视化的简单思路
• “多视图协同关联”
– 不同的视图表示数据的一部分属性
更高维度
• 增加视觉通道?
– 人眼能同时处理的视觉通道只有5-7种
• 增加视图?
– 每一视图都只能显示数据的局部属性
难以直观显示数据的整体属性
在信息可视化中,现实的
数据往往具有很高的维度
高维数据的特点
• 真实的数据虽然具有较高维度,但不同的属性
之间往往具有非常强的内在关联性,例如汽车
样本数据可能同时包含:
– 最大速度(千米/小时)
比例关系
– 最大速度(英里/小时)
– 发动机功率 正相关
– 发动机排量
高维数据的特点
• 高维vs 多元
– 高维:数据具有多个独立属性
– 多元:数据具有多个相关属性
• 还是刚才的例子
– 最大速度(千米/小时)
– 最大速度(英里/小时)
– 发动机功率
– 发动机排量
– 最大里程
高维数据可视化
• 数据维度
• 高维数据可视化
– 数据变换
– 数据呈现
– 数据交互
数据变换
• 降低维度:使用线性或非线性变换把高维数据
投影到低维空间,去掉冗余属性。
• 目标:投
显示全部