Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자...

30
1 理學碩士學位請求論文 "Nearest shrunken centroids" 를 이용한 유전자 선택 방법 비교 Gene selection methods by "Nearest shrunken centroids" 2003 年 2月 仁荷大學校 大學院 統計學科 鄭 沃 旻

Transcript of Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자...

Page 1: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

1

理學碩士學位請求論文

"Nearest shrunken centroids"를 이용한

유전자 선택 방법 비교

Gene selection methods by

"Nearest shrunken centroids"

2003 年 2 月

仁荷大學校 大學院

統計學科

鄭 沃 旻

Page 2: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

2

理學碩士學位請求論文

"Nearest shrunken centroids"를 이용한

유전자 선택 방법 비교

Gene selection methods by

"N earest shrunken centroids"

2003 年 2 月

指導敎授 朴 憲 鎭

이 論文을 碩士學位 論文으로 提出함

仁荷大學校 大學院

統計學科

鄭 沃 旻

Page 3: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

3

이 論文을 鄭沃旻의 碩士學位論文으로 認定함.

2003 年 2 月

主審

副審

委員

Page 4: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

4

요 약

최근에는 클래스 예측방법에 대해 nearest shrunken centroid

가 인정받고 있다. ''nearest shrunken centroids'' 방법은 각 클래

스에 대해 가장 큰 특징을 가지고 있는 유전자들의 구별해낸다. 이

방법은 그 밖의 고차원의 분류 문제들에서도 사용될 수 있다. 본 논

문은 Golub 등(1999)에서 사용한 백혈병 자료와 Khan 등(2001)에

서 사용한 유전자 발현 자료를 사용하여 Robert 등(2002)에서 다룬

''nearest shrunken centroids''에 의해 유전자 선택을 비교하였다.

중심값이 평균이였던 알고리즘을 변형하여 중심값을 중앙값으로

정해서 최소한의 유전자를 선택하여 표본의 클래스를 분류 및 예측

하였다.

A B S T R A C T

The nearest shrunken centroid has recently developed in class

prediction. The method of ''nearest shrunken centroids''

identifies subsets of genes that best characterize each class.

The method can be used in other high-dimensional classification

problems. This paper compares gene selection by ''nearest

shrunken centroids'' in Robert et al. (2002) using gene

expression profile of Leukemia from Golub et al. (1999) and gene

expression profile from Khan et al. (2001). We modify “nearest

shrunken centroids” by using median instead of average. We

choose minimal number of genes , classify samples and predict a

class with modified nearest shrunken centroids

Page 5: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

5

목 차

제1장

제2장

2.1

2.2

2.3

제3장

3.1

3.2

제4장

4.1

4.2

제5장

참 고

서론 ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥

Nearest shrunken centroids ‥‥‥‥‥‥‥‥‥

Nearest shrunken centroids 알고리즘 ‥‥‥‥

Nearest shrunken centroids(중앙값)알고리즘

클래스 예측과 판별함수 ‥‥‥‥‥‥‥‥‥‥‥

모의 실험 및 분석 ‥‥‥‥‥‥‥‥‥‥‥‥‥

백혈병 자료 ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥

3.1.1 중심 : 평균 ‥‥‥‥‥‥‥‥‥‥‥‥‥ 3.1.2 평균과 중앙값의 비교 ‥‥‥‥‥‥‥ Gene expression dataset from Khan et al. ‥‥

모의 실험 결과 ‥‥‥‥‥‥‥‥‥‥‥‥‥‥

백혈병 자료 ‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥

Gene expression dataset from Khan et al. ‥‥

결 론‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥

문 헌‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥‥

1

2

2

3

5

6

6

6

11

14

20

20

21

23

24

Page 6: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

6

제 1 장 서 론

고차원적인 특성들을 지닌 클래스에 대한 예측은 중요한 문제이며

최근에는 cDNA 마이크로어레이(Microarray)에서 많은 관심을 가지

고 있다. 그 과제는 유전자 발현 profile을 기초로 둔 표본(sample)

들의 진단에 도움이 되는 범주를 분류하고 예측하는 것이다. 하지

만 마이크로어레이 자료의 문제점은 클래스를 예측하는데 있어서

많은 수의 유전자(input)들이 있는 반면에 상대적으로 표본의 수는

작다. 그러므로 클래스 분류에 많은 기여를 하는 유전자들을 식별해

내는 부분이 중요하다 할 수 있다.

이 논문에서는 “nearest shrunken centroid” 방법을 다룬다.

“nearest centroid” 분류는 훈련자료에서 전체 표본에 대한 유전자

들의 발현값에 대해 각 중심값(유전자의 평균 발현값)을 뺀다. 즉,

이러한 값들은 전체중심으로부터의 차이점들이다. 그 다음 “nearest

centroid” 분류를 적용해서 테스트 표본의 유전자 발현값과 각 클래

스의 중심값의 거리를 계산하여 거리가 가장 짧은 클래스에 분류하

는 것이다. 제안된 “nearest shrunken centroid” 방법은 shrinkage

양을 테스트 자료나 cross-validation을 이용하여 결정한 후 각 클

래스의 유전자 중심값과 전체 유전자 중심값의 차이가 없는 유전자

들을 제거한 후 클래스를 분류하는 방법이다.

이 논문에서는 기존의 중심값을 평균으로 이용한 발현 값이 마이

크로어레이 실험에서의 여러 가지 변이로 인해 부정확한 값이 나타

날 수 있으므로 중앙값을 중심값으로 해서 서로의 차이를 비교 분

석 하기로 한다. 자료는 7129개의 유전자를 가지고있는 72개의 표

본들로 구성된 백혈병 자료와 2308개의 유전자를 가지고 있는 63

개의 표본들로 구성된 Khan 등(2001) 논문의 자료를 이용한다.

Page 7: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

7

제 2 장 Nearest shrunken centroids

2.1 Nearest shrunken centroids 알고리즘

의 유전자들은 pi Λ,2,1= 이고, 표본들은 nj Λ,2,1= 으로 표

현 된다. 1부터 K까지 클래스들이 있고, kC 는 클래스 k 에 속한 kn

개의 표본들의 index의 집합이다. 알고리즘은 다음 순서와 같다.

(1) 클래스 k 의 i 번째 구성성분에 대한 중심을

∑ ∈=

kCj kijik nxx /

라 하고, 이것은 유전자 i 에 대해 클래스 k 에서의 평균 발현값을

의미한다. i 번째 구성성분에 대한 전체 중심은

∑ ==

n

j iji nxx1

/

로 표현된다. 이렇게 하면 클래스의 중심들은 전체 중심쪽으로 움

츠리게 된다.

(2) 이를 이용하여 각 유전자들에 대해서 클래스 내의 표준편차

(standard deviation)에 의해 정규화부터 한다.

ik

iikik sm

xxd

⋅−

=

여기서, is 는 유전자 i 에 대한 합동표준편차(pooled within-class

standard deviation)가 된다.

∑∑∈

−−

=k Ci

ikijik

xxKn

s 22 )(1

, nnm kk /1/1 +=

그러므로, ikd 는 유전자 i 에 대한 t-통계량이며, 클래스 k 를 클

래스의 평균과 비교한다.

ijx

Page 8: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

8

(3) 또한 ikikiik dsmxx += 로 쓸 수 있다. 여기서, 각 ikd 를

0(zero)쪽으로 축소시켜서 주어진 ikd ′ 로 새로운 shrunken

centroids 또는 prototypes를 생성 시킨다.

ikikiik dsmxx ′+=′

이러한 축소(shrinkage)를 “soft-thresholding”이라 부른다.

+∆−=′ )|)(|( ikikik ddsignd ( otherwise zero and ,0 if >=+ ttt )

그림1 : soft threshold function

(그림1)에서 이 변환을 보여준다. 많은 ikx 들은 noisy이거나 전체

평균 ix 이므로 soft-thresholding은 보다 정확한 평균들의 추정값

들을 잘 생성해 낸다.

제안된 방법에서 만약 ∆ 가 충분히 크다면 클래스 예측에 관련

되는데 있어서 멀리 떨어져 있는 많은 유전자들을 제거할 수 있다

는 특성이 있다. 특히 유전자 i 에서 ikd 가 모든 클래스 k 에서 0으

로 축소되면 유전자 i 의 중심은 ix 가 된다.

2.2 Nearest shrunken centroids(중앙값) 알고리즘

의 유전자들은 pi Λ,2,1= 이고, 표본들은 nj Λ,2,1= 으로

표현 된다. 1부터 K까지 클래스들이 있고, kC 는 클래스 k 에서 kn

개의 표본들의 index의 집합이다. 알고리즘은 다음 순서와 같다.

ijx

Page 9: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

9

**~~ikikiik dsmxx +=

(1) 클래스 k 의 i 번째 구성성분에 대한 중심을 kC 에 속한 j 에

대하여 의 중앙값으로 하는데 이를 ikx~ 라 하자.

이것은 유전자 i 에 대해 클래스 k 에서의 중앙 발현값을 의미한

다. 또한 i 번째 구성성분의 전체 클래스에 대한 중심을 중앙값으

로 하고 ix~ 라 하자. 이렇게 하면 클래스의 중심들은 전체 중심쪽

으로 움츠리게 된다.

(2) 이를 이용하여 각 유전자들에 대해 클래스내의 정규화부터 한다.

여기서 는 유전자 i 에 대해 합동표준편차(pooled within-

class standard deviation)에서 평균대신 중앙값을 사용하여 구한다.

그러므로, *

ikd 는 클래스 k 를 클래스의 중앙값과 비교한다.

(3) 또한 로 쓸 수 있다. 여기서 각 를

0(zero)쪽으로 축소시켜서 주어진 로 새로운 shrunken

centroids 또는 prototypes를 생성시킨다.

많은 ikx~ 들은 noisy이거나 전체 중앙값 ix~ 이므로 soft-

thresholding은 보다 정확한 중앙값들의 추정값들을 잘 생성해 낸

다.

*

*~~

ik

iikik

smxx

d⋅−

=

∑ ∑ +=−−

=∈k

kkCi

ikiji nnmxxKn

sk

/1/1 , )~(1 2*2

**~~ikikiik dsmxx ′+=′

ijx

*

is

*ikd

*

ikd ′

otherwise) zero and ,0 if ( )|)(|( *** >=∆−=′ ++ tttddsignd ikikik

Page 10: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

10

2.3 클래스 예측과 판별함수

테스트 표본들을 통해 어느 클래스에 분류될지 판별을 할 수 있다.

테스트 표본들을

),,,( **2

*1

*pxxxx Κ=

로 정의하자. 클래스 k 에 대한 판별점수(discriminant score)를 다

음과 같이 정의 할 수 있다.

k

p

i i

ikik s

xxx πδ log2

)()(

12

2** −

′−= ∑

=

클래스의 사전확률을 kπ 라 하고 (∑ ==

K

k k11π )모집단에서 클래스 k

의 전체 상대도수로 구한다( nnkk /ˆ =π ). 이때, 분류규칙은 다음과

같다.

만약 )(min)( ** xx kkl δδ = 이면 lxC =)( * .

또한 가우시안 선형 판별분석(gaussian linear discriminant

analysis)와 유사한 클래스들의 확률값을 추정할 판별점수를 사용할

수 있다.

∑ =

=K

l

x

x

kl

k

e

exp

1

)(2

1

)(2

1

*

*

*

)(ˆδ

δ

Page 11: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

11

제 3 장 모의 실험 및 분석

3.1 백혈병 자료

백혈병(Leukemia)의 유전자 발현 자료로써 클래스 2개에 대해

중심값을 평균과 중앙값을 선택하여 유전자 선택과 클래스 예측에

대한 모의 실험을 하였다. 유전자의 수는 7132개이고, 표본의 수는

72개이다. 클래스는 ALL (Acute Lymphoblastic Leukemia)의 47개

표본과 AML(Acute Myeloid Leukemia)의 표본 25개를 선택 하였

으며 유전자 발현값을 다음 순서로 변환시켰다.

(i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다.

(ii) max−min ≤ 500 이고, max/min ≤ 5인 유전자는 제외시킨다.

(iii) 유전자의 발현값을 밑이 10인 로그변환을 시킨다.

위와 같은 사전 처리에 의해서 데이터는 3571개의 유전자에 대한

발현값을 가진 새로운 값으로 변형 모의 실험을 하였다. 10-fold

cross validation을 이용하여 Δ (soft-thresholding)에 따라 변하는

오분류 비율을 구한 후 가장 낮은 곳에서의 유전자의 선택 및 특성

을 관찰 하고 판별점수의 분포를 확인한다.

3.1.1 중심 : 평균

(그림2)는 10-fold cross validation 을 사용해서 3571개의 유전

자들 중에서 Δ (soft-thresholding)을 증가 시키면서 ikd 를 0(zero)

쪽으로 축소 시켜서 주어진 ikd ′ 로 새로운 shrunken centroids 또

는 prototypes를 생성시킨다. 즉 클래스를 가장 잘 설명할 수 있는

유전자가 선택 되어지는 과정을 설명하고 있다. Δ가 3.2일 때 오분

류 오차(misclassification error)가 0.028로 나타났으며 유전자의

Page 12: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

12

수는 35개가 선택됨을 알 수 있다.

그림2

Page 13: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

13

그림3 (1 : ALL , 2 : AML)

(그림3)은 Δ가 3.2일 때 선택 된 35개의 유전자에 대한 d 값을

표현하고 있다. 두개의 클래스로 나누어졌기 때문에 한쪽 클래스의

d 값이 음수이면 반대쪽 클래스의 d 값은 양수를 나타내고 있다. 또

한 전체 중심으로부터 가장 떨어져 있는 유전자부터 순서대로 d 값

을 나타내고 있다.

Page 14: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

14

그림4 (red : ALL , green : AML)

(그림4)는 Δ가 3.2일 때 선택 된 35개의 유전자에 발현값을 나타

내고 있다. 네모상자 위의 수치는 선택된 유전자를 나타내며, 네모

상자 안의 빨간 점은 ALL표본의 유전자 발현값의 위치를 나타내고

있으며, 오른쪽의 녹색 점은 AML표본의 유전자 발현값의 위치를

나타낸다. 각 유전자들의 네모상자에서 빨간 점과 녹색 점은 서로

발현값이 뚜렷하게 차이가 나타남을 확인할 수 있다.

Page 15: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

15

그림5 (1 : ALL , 2 : AML)

(그림5)는 각 표본들에 대한 클래스에 속할 확률을 나타낸 것이다.

아래 축은 표본들을 나타내고 왼쪽 축은 확률값을 나타낸다.

점선 왼쪽 부분은 ALL표본들이 각 클래스에 분류 될 확률값을 나

타낸 부분이고 오른쪽 부분은 AML표본들이 각 클래스로 분류할 확

률값을 나타내고 있다.

Page 16: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

16

3.1.2 평균 과 중앙값의 비교

그림6

(그림6)은 10-fold cross validation을 사용하여 3571개의 유전자

들 중에서 Δ (soft-thresholding)를 증가시키고, ikd 를 0(zero)쪽으

로 축소시켜서 주어진 ikd ′ 로 새로운 shrunken centroids 또는

prototypes를 생성시킨다. 중심값은 왼쪽 그림이 평균이며, 오른쪽

그림이 중앙값이다. 중심값을 평균으로 하면 Δ가 3.2일 때, 오분류

오차가 0.028로 나타났으며, 유전자의 수는 35개가 선택되었다. 반

면에 중심값을 중앙값으로 하면 Δ가 3.8일때, 오분류 오차가 0.083

으로 나타났으며, 유전자의 수는 26 개가 선택됨을 알 수 있다.

Page 17: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

17

그림7 (위 : 평균, 아래 : 중앙값)

(그림7)에서 위의 그림은 중심값을 평균으로 사용 하였으며 Δ가

3.2일 때 선택 된 35개의 유전자에 발현값을 나타내고 있다. 아래

그림은 중심값을 중앙값으로 하였으며 Δ가 3.8일 때 선택 된 26개

의 유전자에 발현값을 나타내고 있다.

Page 18: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

18

그림8 (위 : 평균, 아래 : 중앙값)

(그림8)은 각 표본들에 대한 클래스에 속할 확률을 나타낸 것이다.

위의 그림은 중심값이 평균일 때, 각 표본에 대한 확률을 나타내며

아래 그림은 중심값이 중앙값일 때, 각 표본에 대한 확률을 나타낸

다. 중심값을 평균으로 잡았을 때 중앙값보다 클래스에 속할 확률이

더 크거나 작게 나타남을 알 수 있다.

Page 19: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

19

3.2 Gene expression dataset from Khan et al.

Khan 논문에 실렸던 유전자 발현 자료로써 클래스 4개에 대해중

심값을 평균과 중앙값을 선택하여 유전자 선택과 클래스 예측에 대

한 모의 실험을 하였다. 유전자의 수는 2308개와 표본의 수는 63개

이다. 클래스는 EWS 23개 표본과 RMS 표본 20개, NB 표본 12개,

BL 표본 8개를 선택하여 모의 실험 하였다.

그림9

(그림9)에서 볼 때, 중심값을 평균으로 사용된 것이 왼쪽 그림이며,

중앙값으로 사용된 것이 오른쪽 그림이다. 중심값을 평균으로 하면

Δ가 4.7일 때, 오분류 오차가 0.016로 나타났으며, 유전자의 수는

33개가 선택되었다. 반면에 중심값을 중앙값으로 하면 Δ가 4.7일

때, 오분류 오차가 0.016 으로 나타났으며, 유전자의 수는 25 개가

선택됨을 알 수 있다.

Page 20: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

20

그림10-1

Page 21: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

21

그림10-2

Page 22: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

22

(그림10-1,10-2)는 1(EWS), 2(RMS), 3(NB), 4(BL) 클래스에 대해

Δ에 의해 선택 된 유전자에 대한 d 값을 표현하고 있다. (그림10-

1)은 중심값을 평균으로 (그림10-2)는 중심값을 중앙값으로 사용하

여 구해진 유전자들에 대한 d 값이다.

그림11-1

Page 23: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

23

그림11-2

(그림11-1)은 중심값을 평균으로 사용하였으며, Δ가 4.7일 때 선택

된 33개의 유전자 발현값을 나타내고 있다. (그림 11-2)는 중심값

을 중앙값으로 하였으며, Δ가 4.7일 때 선택 된 25개의 유전자 발

현값을 나타내고 있다.

Page 24: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

24

그림12

(그림12)는 각 표본들에 대한 클래스에 속할 확률을 나타낸 것이다.

위의 그림은 중심값을 평균으로 사용하였을 때 각 표본에 대한 확

률을 나타내며, 아래 그림은 중앙값으로 사용하였을 때 각 표본에

대한 확률을 나타낸다.

Page 25: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

25

제 4 장 모의 실험 결과

4.1 백혈병 자료

표1

(표1)은 백혈병 자료의 표본을 “nearest shrunken centroid” 방법

을 통해 shrinkage 양을 cross-validation을 이용하여 결정한 후

판별 함수를 통해 각 클래스를 예측하고, 오분류 비율을 나타낸 표

이다. 왼쪽 표는 중심이 평균으로 사용되었으며, Δ가 3.2일 때 유전

자가 35개 선택되었으며 ALL은 1(ALL)로 예측된 표본이 47개 중

에서 46였고 AML은 2(AML)로 예측된 표본이 25개중 24개로 총

평균 오분류 비율은 0.028로 나타났다.

오른쪽 표는 중심이 중앙값으로 사용되었으며 Δ가 3.8일 때 유전

자가 26개 선택 되었으며 ALL은 1(ALL)로 예측된 표본이 47개

중에서 모두 정확히 분류 되었고, AML은 2(AML)로 예측된 표본이

25개중 6개로 총 평균 오분류 비율은 0.083으로 나타났다. 평균이

중앙값 보다 오분류 비율이 낮게 나타났으나 중앙값은 선택된 유전

자 수(26개)가 평균(35개)보다 작게 선택 됨을 알 수 있었다.

0 . 0 4 2 4 1 A M L

0 . 0211 4 6 A L L

E r r o r

r a t e

2 1

0 . 1 2 1 9 6 A M L

0 0 4 7 A L L

E r r o r

r a t e 2 1

Page 26: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

26

4.2 Gene expression dataset from Khan et al.

표 2

(표2)는 Khan 자료의 표본을 “nearest shrunken centroid” 방법

을 통해 shrinkage 양을 cross-validation을 이용하여 결정한 후

판별 함수를 통해 각 클래스를 예측하고, 오분류 비율을 나타낸 표

이다. 위쪽 표는 중심이 평균으로 사용되었으며, Δ가 4.7일 때 유전

0 8 0 0 0 BL

0 .83 0 11 1 0 NB

0 0 0 20 0 RMS

0 0 0 0 23 EWS

E r r o r

r a t e 4 3 2 1

0 8 0 0 0 BL

0 .83 0 11 1 0 NB

0 0 0 20 0 RMS

0 0 0 0 23 E W S

E r r o r

r a t e 4 3 2 1

Page 27: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

27

자가 33개 선택 되었으며 EWS는 1(EWS)로 예측된 표본이 23개

중에서 23였고 RMS는 2(RMS)로 예측된 표본이 20개중 20개, NB

는 3(NB)로 예측된 표본이 12개중 11개, BL은 4(BL)로 예측된 표

본이 8개중 8개 총 평균 오분류 비율은 0.016으로 나타났다. 아래

쪽 표는 중심이 중앙값으로 사용되었으며 Δ가 4.7일때 유전자가 25

개 선택 되었으며 EWS는 1(EWS)로 예측된 표본이 23개 중에서

23였고 RMS는 2(RMS)로 예측된 표본이 20개중 20개, NB는

3(NB)로 예측된 표본이 12개중 11개, BL은 4(BL)로 예측된 표본이

8개중 8개 총 평균 오분류 비율은 0.016으로 나타났다. 중심이 평

균과 중앙값 일 때 오분류 비율이 똑같이 나타났으나 중앙값은 선

택된 유전자 수(25개)가 평균(33개)보다 작게 선택 됨을 알 수 있었

다.

Page 28: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

28

제 5 장 결 론

백혈병 자료와 Khan의 두 자료로부터 “nearest shrunken

centroid” 방법을 사용하여 모의 실험을 하였다. 유전자 발현값들은

실험에서의 여러 가지 변이로 인해 부정확한 값이 나타날 수 있다.

따라서 이상치에 대한 영향을 줄이기 위해 중심값으로 중앙값을 사

용하여 기존의 평균을 중심값으로 사용한 알고리즘과 비교 분석하

였다. 그 결과 평균을 중심값으로 사용하였을 경우가 비교적 안정적

인 분류와 낮은 오분류 비율을 나타내었지만, 중앙값을 사용하였을

경우에도 약간 높거나 같은 결과를 나타내었다. 하지만, 유전자의

선택에 있어서는 중앙값을 사용하였을 경우에 평균보다 유전자가

적게 선택되는 효과를 볼 수 있었다.

더 많은 데이터를 통해 모의 실험을 할 필요가 있었으며 판별함

수를 다양하게 적용하여 최적의 결과를 낼 수 있는 방법도 실험해

보아야 할 것이다.

Page 29: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

29

참 고 문 헌

[1] Dudoit, S. (2000) Comparison of Discrimination Methods for

the Classification of Tumors Using Gene Expression Data. JASA,

97, 77-87

[2] Khan, J., Wei, J., Ringner, M., Saal, L., Ladanyi, M.,

Westermann, F., Berthold, F., Schwab,M., Antonescu, C.,Peterson,

C., et al. (2001) Nat. Med. 7 , 673�679.

[3] Golub T. R., Slonim D. K., Tamayo P., Huard C., Gaasenbeek

M., Mesirov J. P., Coller H., Loh M. L., Downing J. R., Caligiuri M.

A., Bloomfield C. D. and Lander E. S. (1999) Molecular

classification of cancer: class discovery and class prediction by

gene expression monitoring. Science, 286, 531-537.

[4] Hastie, T., Tibshirani, R. & Friedman, J. (2001)

The Elements of Statistical Learning; Data Mining, Inference and

Prediction (Springer, New York).

[5] Robert T., Trevor H., Balasubramanian N., Gilbert C.(2002)

Diagnosis of multiple cancer types by shrunken

centroids of gene expression

[6] Robert T., Trevor H., Balasubramanian N., Gilbert C.(2002)

Class prediction by nearest shrunken centroids,with applications

to DNA microarrays.

Page 30: Nearest shrunken centroids를 이용한 유전자 선택 방법 비교 · (i) 유전자 발현값이 최소값 100, 최대값 16,000이 되도록 한다. (ii) max−min ≤ 500 이고,

30

감사의 글

학위논문을 완성하기까지 저를 돕고 보살펴주신 모든 분들께

지면을 빌어 감사의 말을 전합니다. 특히 학문에 대한 열정과 바른

길을 가도록 가르쳐 주신 박헌진 교수님께 깊이 고개 숙여

감사드리며, 관심과 배려로 이끌어주신 구자용 교수님께

감사드립니다. 그리고, 항상 웃음으로 반겨주신 구자흥 교수님, 긴

시간동안 보살펴주시고 지도해주신 전홍석 교수님, 제가 나아갈

방향을 제시해주신 이재준 교수님, 항상 편하게 대해주신 황진수

교수님, 항상 바른 지적을 해주신 김진경 교수님, 언제나 변함 없으신

박진호 교수님께 감사드립니다. 곁에서 늘 큰 힘이 되어주신 이종선

선배님, 전성해 선배님, 최성용 선배님께 감사드리며, 오랜 시간을

함께 지내온 영수형, 기성이형, 선용, 규석, 민정, 유미에게 감사와

고마움을 전합니다. 또한 대학원생활을 통해 큰 도움을 주며 걱정해

주던 후배 현주, 민성, 병성, 은정, 경미, 미혜, 성순, 주연,

정룡에게도 감사드립니다. 학문적인 충고와 애정어린 마음으로

그동안 도와주신 지연이누나, 인규형, 경우형, 지훈이형, 윤한이형,

정환이와 졸업한 많은 선배님들께 감사드리며, 바쁜중에도 귀찮은

부탁에도 마다 않고 힘이 되어주었던 광현이 형에게 감사드립니다.

학업을 핑계로 소홀했던 저를 늘 친구의 자리에서 걱정하며 보살펴준

용이, 정규, 덕훈, 세응, 회성, 영수, 성권, 창섭, 연정, 명숙과

검도부동기들에게 감사드립니다. 저에게 바쁜 업무시간에도 항상

관심과 배려해주신 최선홍 부장님, 김길준 수석님, 윤근상 과장님,

최건상 대리님, 한우정 대리님, 정성섭 대리님과 황성하 수석님을

비롯한 동문선배님들과 이 기쁨을 함께 나누고 싶습니다. 끝으로 절

위해 항상 도움을 주는 동생 재헌이에게 고마움을 전하며 아들

걱정에 밤새 잠 못 이루시는 부모님께 지면으로는 다 표현하지 못할

감사의 마음을 논문으로 대신하려 합니다.

모두들 사랑합니다. 항상 행복하시고 늘 건강하십시오.