データマイニングにおける クラスタリングの研究
-
Upload
simon-bowman -
Category
Documents
-
view
88 -
download
0
description
Transcript of データマイニングにおける クラスタリングの研究
データマイニングにおけるクラスタリングの研究
東北大学工学部情報工学科徳山研究室 4年 鈴木 晶子
2004/03/03 卒論発表会 2
データマイニング– 巨大なデータベースから知識を抽出する技術
データマイニング技術の1つ⇒クラスタリング
研究の背景―データマイニング―
膨大な量のデータから… 役に立つ知識を発見 !!
2004/03/03 卒論発表会 3
クラスタリング 入力されたデータを「クラスタ」に分割す
ること クラスタ
– データの部分集合– 類似したパターンを持つデータのみが含まれ
る
1x
2x 2x
1x
1Cクラスタ
2Cクラスタ
2004/03/03 卒論発表会 4
本研究で扱うクラスタリング 数値属性をもつデータに対するクラスタ
リング d 個の属性をもつデータ ⇒d 次元空間に存在する点
商品 価格 売れた数A 120 1200
B 980 750
C 4500 100
D 380 1500
E 2000 450
F 650 1000
G 1350 800価格
売れた数
A
B
C
D
E
F
G
表 . ある商店の売り上げ
2004/03/03 卒論発表会 5
本研究の目的大規模データを扱う2つのクラスタリングアルゴリズムを取り上げる– BIRCH [Zhang et al. 1996]
全ての要素によって特徴づけられたクラスタを作る
– DOC [Procopiuc et al. 2002]一部の要素のみによって特徴づけられたクラスタを作る
実験を行い、各手法の特徴を明らかにする
2004/03/03 卒論発表会 6
発表の流れ BIRCH の紹介
– Clustering Feature(CF) と CF 木– アルゴリズム
DOC の紹介– 最適なクラスタの定義– アルゴリズム
実験 まとめ
2004/03/03 卒論発表会 7
BIRCH [Zhang et al. 1996] “Clustering Feature” という概念を用いて 階層木構造を作る
データの集合A
データの集合B
全てのデータ
集合A B∪
2004/03/03 卒論発表会 8
Clustering Feature (CF) クラスタに含まれるデータの情報を要約した
もの d 次元データ( d 次元実ベクトル) :
N 個のデータからなるクラスタ :
クラスタの CF ベクトル
– N : クラスタに含まれるデータの数– : N 個のデータの線形和– SS : N 個のデータの二乗和
NiX i ,,2,1},{
CF ),,( SSLSN
LS )(1
N
i iX
)(1
2
N
i iX
),,,( 21 di xxxX
2004/03/03 卒論発表会 9
CF 木 各ノードが“エントリー” を持った平衡
木 エントリー : CF ベクトルによって表され
る 各ノードのエントリー数には上限がある
A B
A B∪
A B
[CFA][CFB]
[CFX][CFY]
[CFA +
CFB]
[CFX +
CFY]
2004/03/03 卒論発表会 10
CF 木の構築 CF 木は、初めは 1 つのノードしかない。
葉ノードに 1 つずつデータを挿入していくことにより、動的に木を構築する。
2004/03/03 卒論発表会 11
CF 木の構築方法 (1/2)
[CF1][CF2]
data
1. データを挿入する葉ノードを決定する
– “data” とエントリーとの距離に基づき決定される
2. 辿り着いた葉のエントリーに“ data” を挿入する
– 既存のエントリーに挿入できない場合は新しいエントリーを追加
1つのデータ“ data” をCF 木に挿入するまでの過程
[CF1][CF2][CF3]
data
2004/03/03 卒論発表会 12
CF 木の構築方法 (2/2)
[CF1][CF2][CF3]
3. ノードの持つエントリーが増えすぎた場合、木のバランシングを行う
[CF4]data
以上の操作をデータがなくなるまで繰り返し、
CF 木を構築[CF5][CF6]
2004/03/03 卒論発表会 13
BIRCH アルゴリズム
Phase 1 : CF 木を構築する
Phase 2(optional) : CF 木を縮小する
Phase 3 : 大域的クラスタリング
Phase 4(optional) : クラスタを精錬する
データ
CF 木
クラスタ
2004/03/03 卒論発表会 14
DOC [Procopiuc et al. 2002] 射影を用いたクラスタリング
– データを低次元の部分空間に射影– その射影に対してクラスタリングを行う
x3
x2
x1
x3
x2
x1
x3
x2
x1
2004/03/03 卒論発表会 15
射影クラスタの定義 幅 w の射影クラスタ :
(C, D)– C : データの集合– D : 座標軸の集合
集合 C : クラスタに含まれるデータの集合
集合 D : クラスタの幅が wに制限される座標軸の集合
x3
x2
x1ww
: 集合 C の要素21, xx : 集合 D の要素
2004/03/03 卒論発表会 16
最適な射影クラスタの定義 射影クラスタの良さ :
– |C| が大きいほど も大きい (⇒クラスタに含まれるデータ数が多いほど良いク
ラスタ)
– |D| が大きいほど も大きい (⇒幅を制限する座標軸の数が多いほど良いクラス
タ) “ 最適なクラスタ”
– 幅 w をもつ射影クラスタのうち、良さ が最大となるもの
),( DC
しかし最適なクラスタを求めることは NP 困難⇒ ランダムアルゴリズムを用いて近似的に求める
2004/03/03 卒論発表会 17
2x
1x
DOC アルゴリズム1. データの中からランダムに1点
p を選ぶ2. さらにデータの中からランダム
に数点選び、集合 X とする3. 点 p と点 q∈X の射影について距
離を測り、クラスタの形を決める
4. 全データをスキャンし、クラスタの中に入る点を求める
5. 2 ~ 4 の操作を繰り返す6. 点 p を選びなおして、さらに 2 ~ 4 の操作を繰り返す7. 最後に、クラスタの“良さ”が最大となるものを1つ出力する
2x
1x
2x
1x
クラスタの
中心 p
12x
1x
2q1∈X
q2∈X
q3∈X
p
2x
1x
3
p ww
x1 軸方向の幅は 2w
2x
1x
3
p
x2 軸方向の幅は∞
2x
1x
3
p ww
2x
1x
4
2004/03/03 卒論発表会 18
DOC アルゴリズムの出力 DOC アルゴリズムによって得られるクラスタ
⇒ 幅 2w をもつクラスタ 定理 DOC アルゴリズムは 1/2 より高い確率で、 最適なクラスタよりも“良さ”の値が大きい クラスタを出力する。 最適なクラスタより“良さ”が大きくなる例
– 最適なクラスタ に含まれる 点 p を中心としたクラスタ– 形は最適なクラスタと同じ– 最適なクラスタを全て含む
ww
),( *DC
),( ** DC
x1
x3
x2
p
w
),( ** DC
2004/03/03 卒論発表会 19
n : データ数 , d : データの次元数 とすると、
全体の計算時間 : O(ndC+1)
アルゴリズムの計算時間
(ただし、 C は定数)
2004/03/03 卒論発表会 20
実験目的
BIRCH, DOCのクラスタリング精度を測定する
方法– 各アルゴリズムにデータセットを入力し、クラスタリングを行う
– FastDOCでは、一度クラスタリングされた点を取り除くことにする
ただし DOCアルゴリズムは時間がかかるため、アルゴリズムを高速化させるヒュ―リスティクスFastDOCを用いた
2004/03/03 卒論発表会 21
実験に用いたデータセット 実験 1 : 人工生成データを用いた実験
– データ数 : 100,000
– 次元数 : 10~200
– クラスタ数 : 5
– 20,000 点 / 1クラスタ
実験 2 : 実際のデータを用いた実験– アルファベットの発音に関する音声データ– データ数 : 6,238 ; 属性数 : 617 ; クラス数 : 26
2004/03/03 卒論発表会 22
実験結果(実験1)人工生成データに対する実験結果
50
55
60
65
70
75
80
85
90
95
100
10 25 50 100 150 200データの次元数
精度(%)
BIRCHFastDOC
2004/03/03 卒論発表会 23
実験結果(実験2)実際のデータに対する実験結果
– 音声データに対するクラスタリング精度
FastDOCのほうが精度が低い原因–データを射影することにより考慮する属性の数が減り、一部の情報が失われた
–クラスタの幅が 2wか∞かの2つしかないので、データセットを正確に分割できない
BIRCH : 53.6% FastDOC : 30.7%
2004/03/03 卒論発表会 24
2 つのクラスタリングアルゴリズム– BIRCH :
– DOC :
クラスタの数が多く、クラスタ1個あたりに含まれるデータの数が少ないデータセットには不向き
今後の課題―アルゴリズムの改良―– パラメータの設定方法の検討– BIRCH と DOC の融合
まとめ
階層構造を用いたボトムアップ的クラスタリング射影を用いたトップダウン的クラスタリング
fin.