움직이는 데이터 그림 - NexRnexr.co.kr/upload/moving_data.pdf · 2018-06-12 · 2012/10/24...
Transcript of 움직이는 데이터 그림 - NexRnexr.co.kr/upload/moving_data.pdf · 2018-06-12 · 2012/10/24...
2012/10/24 한국 R 사용자 모임
1
움직이는 데이터 그림Moving Data Pictures
허명회 (고려대 교수, 통계학) [email protected]
Korean R User Conference 2012
2012/10/24 한국 R 사용자 모임
2
개요...
§ 통계 그래프 statistical graph
§ 데이터 시각화 data visualization
§ 文盲 illiteracy, 數盲 innumeracy, 圖盲 graph blind
§ 데이터 기술 data technology (DT)
§ 흥 fun!
moving pictures demo.avi
2012/10/24 한국 R 사용자 모임
3
1. Word cloud
낱말구름(word cloud)은 텍스트 내 낱말들의 빈도 분포를 보여준다.
국문 텍스트: “메일의 기본 격” (허명회, 2011) 원고지 8.7매, 1301자 분량의 에세이. e-mail-essay.txt
2012/10/24 한국 R 사용자 모임
4
1. Word cloud
- 텍스트는 순차적으로 읽혀지는 데이터이다. 컴퓨터가 텍스트를 읽는 과정을 보여주면...?
2012/10/24 한국 R 사용자 모임
5
2. Heat map
- 온냉도(heat map)은 × 수치 자료를 컬러로 표현한다.
사례: 유럽 25개국의 9개 단백질 섭취원 자료
* Rows and columns are not ordered.
2012/10/24 한국 R 사용자 모임
6
2. Heat map
- 행과 열의 재배열 과정을 보여주는 것이 어떨까?
1) Columns are ordered by “endlink” algorithm. 2) Rows are ordered by linearly weight sum of columns.
2012/10/24 한국 R 사용자 모임
7
2. Heat map
- 보기: 20*20 random matrix
1) Columns are ordered by “endlink” algorithm. 4) Repeat Steps 2 and 3.
2) Rows are ordered by linearly weight sum of columns.
3) Columns are ordered by linearly weight sum of rows.
2012/10/24 한국 R 사용자 모임
8
2. Heat map
- 보기: 단백질 섭취 자료
1) Columns are ordered by “endlink” algorithm. 2) Rows are ordered by “endlink” algorithm.
2012/10/24 한국 R 사용자 모임
9
3. Scatter Plot
- 산점도 행렬(scatterplot matrix): 개 종속변수, 개 설명변수.
사례: ozone, .
2012/10/24 한국 R 사용자 모임
10
3. Scatter Plot
- yx 플롯: 종속변수 와 설명변수 ⋯ 사이 산점도.
* 개 설명변수의 순서화가 필요하다 (끝 잇기 endlink 알고리즘).
* 한 변수에서 다른 변수로 연속적으로 이동할 필요가 있다.
cos sin , ≦ ≦ .
2012/10/24 한국 R 사용자 모임
11
3. Scatter Plot
- xx 플롯: 설명변수 ⋯ 사이 산점도.
* × 산점도를 체계적으로 탐색할 필요가 있다.
* 한 변수( )를 수직 축에 놓고 다른 변수들( ⋯ )을 수평 축에 놓고
순서화한 다음 한 변수 쌍에서 인접 변수 쌍으로 연속적으로 이동한다.
cos sin ≦ ≦
2012/10/24 한국 R 사용자 모임
12
3. Scatter Plot
- 사례: ozone, .
2012/10/24 한국 R 사용자 모임
13
4. PCA Biplot
- Gabriel’s Biplot: 개 개체와 개 변수를 저차원 공간에 동시에 사영한다.
사례: Italian Olive Oil 자료 ( )
2012/10/24 한국 R 사용자 모임
14
4. PCA Biplot
From minor to major components,
→
사례: Italian Olive Oil 자료 - Evolutionary PCA
2012/10/24 한국 R 사용자 모임
15
4. PCA Biplot
Local Focus: Visualizing k-Means Clusters
사례: Italian Olive Oil 자료
2012/10/24 한국 R 사용자 모임
16
교육적 활용
목록: 1. quincunx* 2. covering by circles*
3. voter model 4. forest fire process*
5. gambler’s ruin ⋮
Galton의 퀸컹크스(Bean Machine, 핀볼)
- 이항분포 ↑∞ → 정규분포
quincunx_10.avi
2012/10/24 한국 R 사용자 모임
17
교육적 활용
2. Covering by Circles
2012/10/24 한국 R 사용자 모임
18
교육적 활용
4. Forest Fire Process
2012/10/24 한국 R 사용자 모임
19
요약
§ 중간과정(middle process)의 전시§ 새로운 방식의 자료탐색§ 흥미
2012/10/24 한국 R 사용자 모임
20
참고문헌
GGobi by Cook and Swayne (2007)Wu, Tzeng and Chen (2008). “Matrix visualization”, in Handbook of
Data Visualization.R animation package V 2.06 by Yihui Xie (2011) Huh and Lee (2012). “Local projective display of multivariate
numerical data”, Unpublished Manuscript.
R : An open source statistical language and software