数据可视化基础 高维数据可视化技术

42
数数数数数数数 数数数数数数数数数 数数 [email protected] http://www.cad.zju.edu.cn/home/chen wei/visclass

description

数据可视化基础 高维数据可视化技术. 陈为 [email protected] http://www.cad.zju.edu.cn/home/chenwei/visclass. 数据模型. • 3 个特征  对象 感兴趣项 学生,课程,学期, …. )  属性 数据的特征或属性 (name, age, GPA, number, date, …) (姓名,年龄, GPA ,学号,日期, … )  关系 两个对象是如何联系的 ? (学生上课,学期的课程, … ). 属性变量类型. • 变量的三种主要类型 - PowerPoint PPT Presentation

Transcript of 数据可视化基础 高维数据可视化技术

Page 1: 数据可视化基础 高维数据可视化技术

数据可视化基础高维数据可视化技术

陈为[email protected]

http://www.cad.zju.edu.cn/home/chenwei/visclass

Page 2: 数据可视化基础 高维数据可视化技术

数据模型

• 3 个特征 对象

感兴趣项学生,课程,学期,… . )

属性数据的特征或属性(name, age, GPA, number, date, …) (姓名,

年龄, GPA ,学号,日期,…)

关系两个对象是如何联系的?(学生上课,学期的课程,…)

Page 3: 数据可视化基础 高维数据可视化技术

属性变量类型

• 变量的三种主要类型

N-Nominal( 类型的 ) ( 等或不等于其他值 )例如 : 性别

O-Ordinal (有序的) ( 服从 < 关系 , 有序的集合 )例如 : fr,so,jr,sr

Q-Quantitative (量化的) ( 可以进行数学操作 )例如 : 年龄

值间关系 : 排序 比率 相互关系

Page 4: 数据可视化基础 高维数据可视化技术

高维数据

Based on slide from Stasko

3 维散点图是可以的

每个变量都独立显示

仍然是二维的,但使用标记属性来表示第三个变量

多维视图

Page 5: 数据可视化基础 高维数据可视化技术

高维数据可视化 -- 散点图矩阵在二元变量对的散点图中表达其二元关系

对什么有用?丢失什么?

Page 6: 数据可视化基础 高维数据可视化技术

高维数据可视化 -- 数据表格 面向特征的类别用户界面

继续调整电子数据表的原语

列代表数据项,行表示属性

使用条形盒或其他的方式描述属性值

Page 7: 数据可视化基础 高维数据可视化技术

高维数据可视化 -- 平行坐标

Page 8: 数据可视化基础 高维数据可视化技术

高维数据可视化 -- 星型散点图 空间变量围绕着一个圆心

使用“辐条”编码数据值

数据点是一个形状

Page 9: 数据可视化基础 高维数据可视化技术

星型散点图

Page 10: 数据可视化基础 高维数据可视化技术

高维数据可视化—切尔诺夫脸谱图 (Chernoff Faces)

用人脸特征编码不同变量的值

Page 11: 数据可视化基础 高维数据可视化技术

切尔诺夫脸谱图

Page 12: 数据可视化基础 高维数据可视化技术

类别数据

多元的类别数据如何表示? 学生

性别:男,女 眼睛颜色:棕、蓝、绿、淡褐色 头发颜色:黑、红、棕、亚麻色、灰 祖国:美国、中国、意大利、印度…

Page 13: 数据可视化基础 高维数据可视化技术

马赛克图 (Mosaic Plot)

Page 14: 数据可视化基础 高维数据可视化技术

马赛克图 (Mosaic Plot)

女 男

Page 15: 数据可视化基础 高维数据可视化技术

马赛克图 (Mosaic Plot)

女 男

淡褐

绿

蓝色

Page 16: 数据可视化基础 高维数据可视化技术

马赛克图 (Mosaic Plot)

女 男

淡褐

绿

蓝色

黑 红 棕 亚麻色

Page 17: 数据可视化基础 高维数据可视化技术

属性直方图 多直方图视点,每个属性一个 ( 像格子 )

每个数据实例用一个方格描述

根据实例的对应的属性值确定方格的位置

从一个视点选择数据实例,其他视点也会做出反应

查询控件缩小范围

使用着色来表示查询匹配的程度 ( 全匹配时最深 )

Page 18: 数据可视化基础 高维数据可视化技术

特征 属性直方图

在所有属性范围的所有对象

通过属性限制来交互

Page 19: 数据可视化基础 高维数据可视化技术

特征属性笔刷间的相互联系

Page 20: 数据可视化基础 高维数据可视化技术

特征 颜色编码的敏感度

Page 21: 数据可视化基础 高维数据可视化技术

总结 总结

属性直方图 属性关系 敏感度信息 零单击情况或当你一点也不熟悉数据时特别

有用

局限性 属性的数量是有限的

Page 22: 数据可视化基础 高维数据可视化技术

散点图 : 灰尘 & 磁铁 不同原语的聚集

数据实例多如铁粉屑

不同的属性如磁铁般给出物理显示

对象交互来挖掘数据

Page 23: 数据可视化基础 高维数据可视化技术

界面

Page 24: 数据可视化基础 高维数据可视化技术

交互 铁屑 ( 数据 )依据磁铁 ( 属性 ) ,按其值排列

显示的所有磁铁影响铁屑的位置

磁铁的个体影响可能被改变

铁屑的颜色和尺寸也连接到磁铁 ( 属性 )

移动一个磁铁使所有的铁屑移动

移动铁屑的命令

如何放置磁铁来挖掘数据的不同策略

Page 25: 数据可视化基础 高维数据可视化技术

高维数据可视化 --紧凑的像素显示

• 用像素代表数据样本或变量

• 同时显示上百万或更多的像素

• 可能依赖于颜色的使用

• 容纳大量数据

• 挑战:布局是什么?

Page 26: 数据可视化基础 高维数据可视化技术

大规模例子

Page 27: 数据可视化基础 高维数据可视化技术

数据库的应用• 多个数据项组成一个 n 维的数据库

• 发出请求一个规定维度的目标执行的查询请求

• 通常,得不到精确的匹配

• 考虑发现相近的匹配

D. Keim, H-P Kriegel, “VisDB Database ExplorationUsing Multid Vis”, IEEE CG&A, 1994.

Page 28: 数据可视化基础 高维数据可视化技术

问题• 如果维度的数据类型是浮点数或字符串,怎么做?

• 如果每一维的数据类型相同,但不同的数据规模?

• 必须定义某种距离,然后,乘以权重因子

Page 29: 数据可视化基础 高维数据可视化技术

技术• 计算所有数据点的相关性

• 根据相关性排序数据项

• 使用螺旋技术排序—从中心散开

• 基于相关性给数据项着色

相关性色彩——经验设计

高 低

Page 30: 数据可视化基础 高维数据可视化技术

螺旋法

图 1. 某一个维度的螺旋形布局

高度相关的数据在中心,随着线形向外延伸,相关性降低

Page 31: 数据可视化基础 高维数据可视化技术

样例显示

8 维1000 项

多窗口 分组

Page 32: 数据可视化基础 高维数据可视化技术

关联的数据

Dx--- x轴属性

Dy--- y轴属性

Ox--- 规定 x轴排序规则

Oy--- 规定 y轴排序规则

C--- 颜色映射规则

Page 33: 数据可视化基础 高维数据可视化技术

应用实例

图 13. 挖掘 405 , 000 个销售记录的多条形图 ( 例如, Dx=产品类型 , Dy=⊥, Ox=浏览次数 , Oy=金额 , C)。 (a) 颜色 :金额 (b) 颜色 : 参观次数, (c) 颜色:数量

1. 7 号产品和 10 号产品有消费额高的客户群 ( 图 13a 中条形 7和条形10)

2. 花费的金额和浏览的次数是明显相关的,特别是 4 号产品 ( 图 13b 的 4号条形的顶部的深颜色线性增加 )

3. 4 号和 11 号产品销售数量最高 ( 图 13c 的条形 4和条形 11 的深颜色 )4. 单击像素 A 显示那个客户的具体细节

Page 34: 数据可视化基础 高维数据可视化技术

可视映射

把量化的值变成条形

Page 35: 数据可视化基础 高维数据可视化技术

实例化

Page 36: 数据可视化基础 高维数据可视化技术

细节

聚焦于数据项,同时可以显示内容

http://www.open-video.org/details.php?videoid=8304

Page 37: 数据可视化基础 高维数据可视化技术

低维嵌入

Page 38: 数据可视化基础 高维数据可视化技术

降维

• 使用线性或非线性变换把高维数据投影到低维空间

• 投影保留重要的关系 ( 例如,没有信息损失、数据区分 )

Page 39: 数据可视化基础 高维数据可视化技术

•••

•••

降维线性方法

主成分分析 (PCA) – Hotelling[33]

多维尺度分析 (MDS) – Young[38]

非负矩阵分解 (NMF) – Lee[99]

非线性方法局部线性嵌套 (LLE)– Roweis[00]

IsoMap – Tenenbaum[00]

Charting – Brand[03]

Page 40: 数据可视化基础 高维数据可视化技术

多维尺度分析(MDS)

Page 41: 数据可视化基础 高维数据可视化技术

MDS• 输入: H 维数据点的彼此间的距离组成的

矩阵 M

• 输出:一个 L 维空间的数据的投影,投影空间中的两两点的距离尽量和原始空间 距离保持一致

Page 42: 数据可视化基础 高维数据可视化技术

实例