不均衡データのクラス分類

2012年1月28日第20回Tokyo.R

@sfchaos

アジェンダ

自己紹介

クラス分類

不均衡データ

不均衡データへの対処方法

1. 自己紹介

TwitterID：@sfchaos

お仕事：データ分析

2. クラス分類

クラス分類とは，

データの特徴に基づき

データが属するクラスを

推定する問題

例えば，

スパムメールの判別

重病の罹患有無の判別

クラス分類を行うための手法は数多く提案されている．

決定木

ナイーブベイズ

サポートベクタマシン

ブースティング

ランダムフォレスト etc.

クラス分類のアルゴリズムは

一般に多クラスの分類に対応

しかし，今回は2クラスの

分類問題だけを扱う

正例・・・興味のあるクラス

負例・・・興味のないクラス

3. 不均衡データ

クラスに属するサンプル数に

偏りがあるデータを

「不均衡データ」と呼ぶ

※英語では"imbalanced data"

現実の問題では，

クラスのサンプル数が

偏っていることは多い

また，興味のあるクラスは

サンプル数が少ないことも多い

こうしたデータに対して

工夫もせずに

クラス分類をしようとすると・・・

> library(kernlab)

> # データの読み込み(データは"../data/"ディレクトリに置いておく)

> abalone <- read.csv("../data/abalone.data", header=FALSE)

> # 19番目のクラスを正例に，それ以外のクラスを負例とする

> label <- abalone[, 9]

> label[label==19] <- "positive"

> label[label!="positive"] <- "negative"

> label <- factor(label)

> table(label)

negative positive

4145 32 正例３２サンプル，負例４１４５サンプルのデータ

> set.seed(123)

> # クロスバリデーションの実行(多項式カーネルを用い，次数は2とする)

> idx <- sample(1:10, nrow(abalone), replace=TRUE)

> for (i in 1:10) {

+ is.test <- idx == i

+ abalone.train <- abalone[!is.test, ]

+ abalone.test <- abalone[is.test, -9]

+ fit.ksvm <- ksvm(label ~., data=abalone.train, kernel="polydot", kpar=list(degree=2))

+ pred[is.test] <- as.character(predict(fit.ksvm, abalone.test))

> # 予測結果の集計

> table(pred)

negative

全てを負例と判別!!

4. 不均衡データへの

対処方法

不均衡なデータへの対処方法は，

大きく分けて２つある

①正例を誤答したときの

ペナルティを重くする

(cost-sensitive learning)

②正例と負例のサンプル数を

調整する

①正例を誤答したときの

ペナルティを重くする

(cost-sensitive learning)

SVMでは，

ksvm関数(kernlabパッケージ)のclass.weights引数に指定

> label.table <- table(label)> # 正例の重み(負例と正例のサンプル数の比とする)> weight.positive <- as.numeric(label.table[1]/label.table[2])> # 10-fold クロスバリデーションの実行> for (i in 1:10) {+ is.test <- idx == i+ abalone.train <- abalone[!is.test, ]+ abalone.test <- abalone[is.test, -9]+ fit.ksvm <- ksvm(label ~., data=abalone.train, + class.weights=c("positive"=weight.positive, + "negative"=1), + kernel="polydot", kapr=list(degree=2))+ pred[is.test] <- as.character(predict(fit.ksvm, abalone.test))+ }> table(label, pred) pred label negative positive negative 3118 1027 positive 19 13

何も工夫しないよりは良くなったが，まだまだ(モデルパラメータのチューニングの余地もまだまだあり)

正例と負例のサンプル数に反比例したペナルティの重みを指定

②正例と負例のサンプル数を調整する

オーバーサンプリング →正例を増やす

アンダーサンプリング　 →負例を減らす

両方

いろいろなアルゴリズムが

提案されているが，

Rで簡単に試せるのは

DMwRパッケージのSMOTE

SMOTEでは，

正例を人工的に作成

(オーバーサンプリング)，

負例をアンダーサンプリングする

> library(kernlab)> library(DMwR)> set.seed(123)> # 元のデータにサンプル名の付値> rownames(abalone) <- paste("original",

1:nrow(abalone), sep="")> # SMOTE関数を用いて人工的な正例の生成，負例をアンダー

サンプリング> abalone.smote <- ++ SMOTE(label ~ ., data=abalone, perc.over=2000,

perc.under=10)

人工的な正例を2000/100倍(=20 倍)増やす

負例の数を次式で調整する(正例の数＋人工的な正例の数)×10/100(=0.1)

> idx <- sample(1:10, nrow(abalone.smote), replace=T)> pred <- rep(NA, nrow(abalone.smote))> # 10-fold クロスバリデーションの実行> for (i in 1:10) {+ is.test <- idx == i+ abalone.train <- abalone.smote[!is.test, ]+ abalone.test <- abalone.smote[is.test, -9]+ fit.ksvm <- ksvm(label ~., data=abalone.train, kernel="polydot", kpar=list(degree=2))+ pred[is.test] <- predict(fit.ksvm, abalone.test)+ }

> # SMOTEでの補間点も含むデータに対する分割表> table(abalone.smote$label, pred) negative positive negative 19 13 positive 1 351> # 元々のデータに対する分割表> is.original <- rownames(abalone.smote) %in% + rownames(abalone)> table(abalone.smote[is.original, "label"], + pred[is.original]) negative positive negative 19 13 positive 0 32

まだまだチューニングの余地はあるが，

それでも精度はかなり向上

Warning!!

SMOTE関数を使用する際は，

データのクラスラベルは

最後の列に配置しよう(SMOTE関数が使用している

smoote.exs関数の仕様)

thanks to @dichikaさん

またSMOTEがベストな選択とは

限らない

SMOTE以降も様々な手法が

提案されているGranular SVMなど

最後にランダムフォレストでの

不均衡データへの対処方法に

ついても少しだけ

ランダムフォレストの

提案者たちによると，

ランダムフォレストでの

不均衡データへの対応は2つ

Weighted Random Forest　正例，負例をそれぞれ誤って分類する際のペ

ナルティを以下の2箇所で考慮する． Gini係数を評価基準として決定木の枝を作成する

とき

予測ラベルを決定する際に重み付き多数決を取るとき

Balanced Random Forest各ツリーを構築する際, 正例のデータ数と同じだけ負例のデータをサンプリングして学習する.

RのrandomForestパッケージでは，

Weighted Random Forest　引数classwtが部分的に対応している模様

(Gini係数のみ？，古いfortranコードを用いている)

Balanced Random Forest　引数sampsizeに正例と負例に対して同じサ

ンプル数を指定する

引数classwtを調整してもあまり効果はない?

randomForestパッケージの管理者によると・・・(http://bit.ly/xJ2mUJ)

現在のclasswtオプションはパッケージが開発された当初から存在しているが，公式のfortranのコード(バージョン4以降)の実装とは異なる．クラスの重みを考慮するのは，ノード分割時にGini係数を算出する際のみである．

我々は，クラスの重みをGini係数の算出においてのみ用いても，極端に不均衡なデータ(例えば1:100やそれ以上)に対してはあまり役に立たないことが分かった．そこで，Breiman教授はクラスの重みを考慮する新しい方法を考案した．この方法は新しいfortranコードに実装されている．

現在のパッケージのclasswtにクラスの重みを指定しても，我々が望んでいた結果が過去に得られなかったことだけは付記しておく．

まとめ

不均衡データ="各クラスに属するサンプル数に偏りがあるデータ"

不均衡データに対するクラス分類においてはいろいろと工夫が必要な場合がある

対応方法としては，正例の誤判別ペナルティを調整する方法とサンプリングを工夫する方法が代表的

個々の問題に応じていろいろと試すべし

参考資料

Using Random Forest to Learn Imbalanced Data

Learning from the imbalanced data

不均衡データのクラス分類

Technology

Transcript of 不均衡データのクラス分類

华为Eudemon1000E-V虚拟综合业务网关carrier.huawei.com/~/media/CNBG/Downloads/Product/Fixed Network/carrier... · 负载均衡 支持七层业务的负载均衡和链路负载均衡，丰富的负载均衡调度算法，充分利用计算资源。

第四篇 市场均衡的微观分析

트리핀 딜레마와 글로벌 不均衡의 歷史的 眺望(1)s-space.snu.ac.kr/bitstream/10371/74483/1/50-1_01... · 2019-04-29 · ―1 ― 트리핀 딜레마와 글로벌 不均衡의

项目 背景 -> 均衡 营养势在必行

論 文 一般市場不均衡状態における有効 需要と市場均衡線に ...8）Patinkin〔6, pp.235－36D. －o 一般市場不均衡状態における有効需要と市場均衡線について

货币均衡与 通货膨胀

短期均衡(2) IS-LMモデル - Keio Universityfs1.law.keio.ac.jp/~aso/macro/pp/macro07.pdf短期均衡(2) IS-LMモデル •財市場IS曲線 •財市場の均衡 •政府支出の増加，減税

維持均衡營養 提升抵抗力

ゲーム論 I 第二回 - FC2ykamijo.web.fc2.com/lec2010/game_a_11.pdf11 部分ゲーム完全均衡 • 「信憑性の無い脅し」均衡を排除するための、 展開形ゲームにおける新しい均衡概念。

CM-- 集群管理与负载均衡系统

長期均衡(1) 閉鎖経済モデル 古典派マクロ経済学fs1.law.keio.ac.jp/~aso/macro/pp/macro03.pdf財市場の均衡(3) 貸付資金市場との関係財市場の均衡条件

使用 Nginx 轻松实现开源负载均衡

総合スーパーのパートの基幹化と 均衡・均等処遇の …...論 文 総合スーパーのパートの基幹化と均衡・均等処遇の取り組み No. 701December

全体戦力均衡 vs. 部分的戦力均衡 - Waseda University1 全体戦力均衡 vs. 部分的戦力均衡 ―F1 におけるファンの求めるゲーム特性― 稲田大学商学部

均衡飲食 - hkedcity.net · 均衡飲食 • 均衡飲食應包括各種類型的食物，提供適當的熱能和營養 素。每個人所需的熱能攝取量會因年齡，身高，體重和活

1 4 .1 開放經濟體系下的均衡

第九章 一 般 均 衡 与 福 利

Windows - help.acdsystems.com · eV的簡要技術說明 197 調整白平衡 197 調整光線 198 基本光線均衡(LightEQ™) 199 標準光線均衡(LightEQ™) 199 高級光線均衡(LightEQ™)

《 西方经济学 》 专题四 厂商均衡理论

第二章 需求、供给和价格均衡

华为Eudemon1000E-V虚拟综合业务网关carrier.huawei.com/~/media/CNBG/Downloads/Product/Fixed Network/carrier... · 负载均衡支持七层业务的负载均衡和链路负载均衡，丰富的负载均衡调度算法，充分利用计算资源。

第四篇市场均衡的微观分析

트리핀 딜레마와 글로벌 不均衡의 歷史的眺望(1)s-space.snu.ac.kr/bitstream/10371/74483/1/50-1_01... · 2019-04-29 · ―1 ― 트리핀 딜레마와 글로벌 不均衡의

项目背景 -> 均衡营养势在必行

論文一般市場不均衡状態における有効需要と市場均衡線に ...8）Patinkin〔6, pp.235－36D. －o 一般市場不均衡状態における有効需要と市場均衡線について

货币均衡与通货膨胀

維持均衡營養提升抵抗力

ゲーム論 I 第二回 - FC2ykamijo.web.fc2.com/lec2010/game_a_11.pdf11 部分ゲーム完全均衡 • 「信憑性の無い脅し」均衡を排除するための、展開形ゲームにおける新しい均衡概念。

長期均衡(1) 閉鎖経済モデル古典派マクロ経済学fs1.law.keio.ac.jp/~aso/macro/pp/macro03.pdf財市場の均衡(3) 貸付資金市場との関係財市場の均衡条件

総合スーパーのパートの基幹化と均衡・均等処遇の …...論文総合スーパーのパートの基幹化と均衡・均等処遇の取り組み No. 701December

均衡飲食 - hkedcity.net · 均衡飲食 • 均衡飲食應包括各種類型的食物，提供適當的熱能和營養素。每個人所需的熱能攝取量會因年齡，身高，體重和活

第九章一般均衡与福利

《西方经济学》专题四厂商均衡理论

第二章需求、供给和价格均衡