第6回: 箱ヒゲ図 box-whisker plot outlier第6回:箱ヒゲ図(box-whisker...
Transcript of 第6回: 箱ヒゲ図 box-whisker plot outlier第6回:箱ヒゲ図(box-whisker...
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
株式会社サンテック 統計解析室室長
足立 堅一 先生
第6回: 箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」
― 外れ値検出とその表示のための有力な武器 ―
~~~~~~ CONTENTS ~~~~~~
印刷される場合には、こちら (PDF版)をご利用下さい。 PDFファイルをご覧になるには「推奨動作環境」をご覧ください。
6.1 箱ヒゲ図の作成法 「箱」 と 「ヘソ」 と 「ベルト」 と 「ヒゲ」 と 「外れ値」 と
6.2 箱ヒゲ図は「データの表示法」か「データの要約法」か?
6.3 箱ヒゲ図の効用とmean±2SDの破綻 箱ヒゲ図が有効なことを示す例
6.4 「外れ値」への対処法
今回は箱ヒゲ図の紹介とその効用について、第5回同様に著者の私見を交えて解説する。箱ヒゲ図には色々な効用が考えられるが、著者にはその最たるものが、「外れ値」検出とその表示のための有力な手段であると思われる。 「外れ値」とは何かを、定性的・感覚的には、「仲間のデータから乖離した値」と今まで説明してきた。箱ヒゲ図は、その状況を一歩前進させて、定量的な定義を提供してくれる。 そこで先ず箱ヒゲ図の作成方法から話を進めよう。
※掲載内容のご使用は診断薬.NET「利用規約/著作権」に準じ 私的使用の範囲外でのご使用は事前に承諾が必要です。
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
NEXT
6.1 箱ヒゲ図の作成法 「箱」 と 「ヘソ」 と 「ベルト」 と 「ヒゲ」 と 「外れ値」 と
箱ヒゲ図作成には、小道具として「箱」・「ヘソ」・「ベルト」・「ヒゲ」がある。なお、「ヘソ」・「ベルト」は著者が勝手に命名したものであることをお断りしておく。
「ヘソ」 → 「平均値(mean)」「ベルト」→ 「median」
そして、箱作成には「quartile(4分位数)」の理解が必要になる。
quartileは、quarterと同じ語源であり、1/4を意味する。これはmedianが同様な概念から1/2を意味することを考えれば理解が容易になる。
例題1 166・177・170・173・167の5個のデータがある。 median・quartileを求めること。
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
BACK NEXT 6.1 箱ヒゲ図の作成法 quartileの算出方法
例題1:
166・177・170・173・167の5個のデータがある。 median・quartileを求めること。
先ず、データを順番に並べ換える。 166・177・170・173・167 → 166・167・170・173・177 medianつまり中央の値は、この場合データが5個(奇数個)なので、1つだけにな
り、170。
次にquartileだが、中央(1/2)から下にそ
の半分(1/4)、つまり下から1/4の位置にあ
る値を探すと167。これを第1quartile (下
側4分位点/Q1;the first quartile)と呼ぶ。 逆に、中央から上に1/4の位置にある値を探
すと173。これを第3quartile (上側4分位
点/Q3;the third quartile)と呼ぶ。
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
BACK NEXT 6.1 箱ヒゲ図の作成法 ヒゲと外れ値の算出方法
こうして求めた、第1quartileと第3quartileから「箱」を作
る。つまり、箱の下側の枠が第1quartile、上側の枠が第
3quartileになる。 最後に、「ヒゲ」の作成法であるが先ず、第3quartile-第
1quartileを求め、箱長(4分位範囲)を算出し、箱長を1.5倍した値の分だけ、箱の上下に伸ばす。 ただし、上に伸ばすヒゲの場合には、最大値がこの1.5倍した値より小の場合には当該最大値まででヒゲを打ち切る。同様
に、下に伸ばすヒゲでは、最小値がこの1.5倍した値より大の場合には当該最小値まででヒゲを打ち切る。これらヒゲの上下に外れる値が「外れ値」となる。 「外れ値」は1.5~3.0倍の範囲のものを「0」で、3.0倍<を「*」と2つに分類して表示することがある。 そして箱の中に、「ベルト」のようにmedianを描き、さらに
は、一般的には平均値を「ヘソ → +」のように描く。 なお、「ヘソ」は極端な外れ値がある場合には、箱の外へはみ
出すこともある。また、「ヘソ」を表示しない統計解析用soft-ware packageもある。
例題2 5個のデータ(166・177・170・173・167)について箱ヒゲ図を描くこと。 外れ値はあるか。
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
BACK NEXT 6.1 箱ヒゲ図の作成法
例題2:
5個のデータ(166・177・170・173・167)について箱ヒゲ図を描くこと。 外れ値はあるか。
箱長 = 第3quartile-第1quartile = 173-167 = 6となり、 ヒゲ = 箱長×1.5 = 6×1.5 = 9 従って、下側のヒゲ範囲は 167-9 = 158、 上側のヒゲの範囲は 173+9 = 182。 データは、158~182の範囲(第1quartile-箱長×1.5 ~ 第
3quartile+箱長×1.5)に収まっており、外れ値はない。 箱ヒゲ図は右記の図となる。 ※ median 170、 平均値 170.6
ヒゲの下端は、158<166(データ最小値)のため166で打ち切る。 〃 上端は、182>177(データ最大値)のため177で打ち切る。
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
BACK NEXT
6.2 箱ヒゲ図は「データの表示法」か「データの要約法」か?
6.1で箱ヒゲ図の作成方法は理解できたので、参考までに第2回と第3回とで解説した「データの表示法」や「データの要約法」とこの箱ヒゲ図の位置付けを考えて見る。 元来、「データの表示法」や「データの要約法」の分類にも公式の定義はないように思われ、著者の見解を入れた分類であることを断っておく。著者としては、簡素化と数値化・定量化の観点から、「データの表示法」<「データの要約法」と考えている。後者の代表例が簡素化と数値化・定量
化されたmean±SDである。 その観点からすると、「箱」・「ヘソ」・「ベルト」・「ヒゲ」(そして、もし存在すれば「外れ値」)の小道
具からなる箱ヒゲ図は、mean±SDに類した数値化を無理すればできなくはないが、やはり、視
覚化・graph化したときに、その真骨頂が発揮されるように思われる。そして、その視覚化・
graph化した時の、histogramや幹葉図などの従来法と比較しての特長は、簡潔性や
compactness(省space性)であろう。こうした意味では、「半定量的手法」と著者は位置付けている。
histogram 幹葉図 幹 葉 #10 7 19 8 18 3358 47 04 26 022567 65 1126777 74 78 13 128 3
箱ヒゲ図
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
BACK NEXT
6.3 箱ヒゲ図の効用とmean±2SDの破綻 箱ヒゲ図が有効なことを示す例
次に、箱ヒゲ図がデータの形状・分布の違いを半定量的かつ視覚的に効果的に提示する例を示そう。 表6-1は、3種類の異なる分布をする母集団から各20例の標本抽出をしたものである(作業を容易にするために、データは小さいほうから順番に並べてある)。
表6-1
x98.8 99.0 99.0 99.2 99.8 99.9 100.2 100.4 100.4 100.4
100.5 100.6 100.6 100.7 100.7 100.8 100.9 101.0 101.0 101.7
lx17.3 21.6 21.9 27.0 50.2 55.6 76.5 89.5 90.6 91.0
104.2 107.8 110.1 126.2 127.3 138.3 156.3 158.5 159.8 336.7
lgx2.85 3.07 3.09 3.30 3.92 4.02 4.34 4.49 4.51 4.51
4.65 4.68 4.70 4.84 4.85 4.93 5.05 5.07 5.07 5.82
例題3 表6-1のデータ lxについて、演習も兼ねて自分で箱ヒゲ図を描くこと。 → 計算作業の手間を省くために、データlxの要約統計量 また、mean±2SDを求めて、それが占める範囲に注目して、考察すること。 要約統計量に示した「幹葉図」や「正規確率プロット」についても参考までに眺めておくこと。
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
lx17.3 21.6 21.9 27.0 50.2 55.6 76.5 89.5 90.6 91.0
104.2 107.8 110.1 126.2 127.3 138.3 156.3 158.5 159.8 336.7
※ データは小さいほうから順番に並べてある
基本統計量
モーメント
標本数 20 重み変数の合計 20
平均値 103.32 合計 2066.4
標準偏差 72.0932335 分散 5197.43432
歪度 1.68965484 尖度 4.9834371
無修正平方和 312251.7 修正平方和 98751.252
変動係数 69.7766488 平均の標準誤差 変動係数
16.1205371
範囲 319.40000Q3-Q1 79.90000最頻値
パーセント点(定義 5) パーセント点 推定値100%(最大値)336.7099% 336.7095% 248.2590% 159.1575%(Q3) 132.8050%(中央値) 97.6025%(Q1) 52.9010% 21.755% 19.451% 17.300%(最小値) 17.30
幹葉図
幹 葉 #3 4 12 2 1 666 31 011334 60 568999 60 2223 4 ---+----+---+
幹.葉の単位: 10**+2
箱ヒゲ図
正規確率プロット
※+ ・・・ 正規分布に基づいた基準線
* ・・・ 実際のデータに基づく
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
BACK NEXT 6.3 箱ヒゲ図の効用とmean±2SDの破綻
例題3:
表6-1のデータ lxについて、演習も兼ねて自分で箱ヒゲ図を描くこと。 → 計算作業の手間を省くために、データlxの要約統計量 また、mean±2SDを求めて、それが占める範囲に注目して、考察すること。 要約統計量に示した「幹葉図」や「正規確率プロット」についても参考までに眺めておくこと。
箱長= Q3-Q1 = 132.80 - 52.90 = 79.9
◎上側のヒゲ・・・
Q3 +1.5×箱長(Q3-Q1)= 132.80+1.5×79.9 = 252.65
データの最大値 336.7は、252.65より大なので「外れ値」となる。
ヒゲは252.65まで伸ばす。
Q3+3.0×箱長 = 132.80+3.0×79.9 = 372.5 > 336.70(データ最大値) 従って、336.7は「外れ値(0)」と決定。
◎下側のヒゲ・・・
Q1-1.5×箱長 = 52.90-1.5×79.9 = -66.95 < 17.30(データの最小値) 従って、ヒゲは17.3までで打ち切り。当然「外れ値」はない。
右記に作成した箱ヒゲ図を示す。
上記の箱ヒゲ図からmedianと平均値の関係については多少の不一致があり、後者が少し高いこと、また上側への「外れ値」が存在すること、つまり、分布は上側(右側)に尾を引いていることが判明する(実は、この分布はまさに『対数正規分布』であり、その特徴を片鱗ではあるものの、
detect していると言えよう)。
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
BACK NEXT 6.3 箱ヒゲ図の効用とmean±2SDの破綻
さて、SDやmean±SDについては、第2回、第3回でSDを「広がりのparameter」やデータの
表示法として解説したが、ここでは更にmean±2SDの意味について解説しよう。それは、正規分
布する場合には、それを構成する全データの95%がmean-2SD ~ mean+2SDの間に存在
すること、逆に、その下側ないしは上側にはみ出すデータはそれぞれ2.5%しか存在しないことが知られていることである。 先程のデータの場合について上記の観点から考察してみると、mean±2SDは、
103.32±2×72.09なので、その範囲は-40.86~247.5となり、下側が-に大きく入り込んでいる。
上記の数値からすると、-のデータがかなりの数存在するだろうとデータを見ると、最小値です
ら17.3で-のデータは1つもない。つまり、下側限界値は実際のものよりも明らかに-の方向に
biasがかかっている。実は、このデータを抽出した母集団は対数正規分布をしており、-の値は
存在しないデータである。 → lxのデータ及び要約統計量
このように、対数正規分布、つまり正規分布しないデータなのにそれ
を考慮しないで適用してしまうと、mean±2SDの本来的な意味が破綻することになる(これについては第5回でも述べた)。逆に破綻していることを利用すれば、分布が正規分布しないことが示唆されることになる。 もう1つ重要な点は、「対数正規分布」するデータを「正規分布」と盲信していると、真っ当に対数正規分布するデータにも拘わらず、「外れ値」と見えてしまう危険性があることである。 x、lgxについても同様に解答すること。 (なお、lgxはlxを対数変換したものである。) → xのデータ及び要約統計量 → lgxのデータ及び要約統計量
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
x98.8 99.0 99.0 99.2 99.8 99.9 100.2 100.4 100.4 100.4
100.5 100.6 100.6 100.7 100.7 100.8 100.9 101.0 101.0 101.7
※ データは小さいほうから順番に並べてある
基本統計量
モーメント
標本数 20 重み変数の合計 20
平均値 100.28 合計 2005.6
標準偏差 0.77364483 分散 0.59852632
歪度 -0.5864437 尖度 -0.2096142
無修正平方和 201132.94 修正平方和 11.372
変動係数 0.77148467 平均の標準誤差 変動係数
0.17299224
範囲 2.90000Q3-Q1 0.90000最頻値100.4000
パーセント点(定義 5) パーセント点 推定値100%(最大値)101.7099% 101.7095% 101.3590% 101.0075%(Q3) 100.7550%(中央値) 100.4525%(Q1) 99.8510% 99.005% 98.901% 98.800%(最小値) 98.80
幹葉図
幹
葉
#101 7 1101 00 2100 5667789 7100 2444 4
99 89 299 002 398 8 1
---+----+---+---+
箱ヒゲ図
正規確率プロット
※+ ・・・ 正規分布に基づいた基準線
* ・・・ 実際のデータに基づく
lgx2.85 3.07 3.09 3.30 3.92 4.02 4.34 4.49 4.51 4.51
4.65 4.68 4.70 4.84 4.85 4.93 5.05 5.07 5.07 5.82
※ データは小さいほうから順番に並べてある
基本統計量
モーメント
標本数 20 重み変数の合計 20
平均値 4.388 合計 87.76
標準偏差 0.78639484 分散 0.61841684
歪度 -0.6331908 尖度 -0.1496661
無修正平方和 396.8408 修正平方和 11.74992
変動係数 17.9214867 平均の標準誤差 変動係数
0.17584323
範囲 2.97000Q3-Q1 0.92000最頻値4.510000
パーセント点(定義 5) パーセント点 推定値100%(最大値) 5.82099% 5.82095% 5.44590% 5.07075%(Q3) 4.89050%(中央値) 4.58025%(Q1) 3.97010% 3.0805% 2.9601% 2.8500%(最小値) 2.850
幹葉図
幹
葉
#5 8 15 011 34 555677889 94 03 23 9 13 113 32 8 1 ---+----+---+---+
箱ヒゲ図
正規確率プロット
※+ ・・・ 正規分布に基づいた基準線
* ・・・ 実際のデータに基づく
| サイトマップ |
サイトトップへ
医学統計学
ログアウト TOP > 医学統計学講座 > 第6回
第6回:箱ヒゲ図(box-whisker plot)と「外れ値(outlier)」 ― 外れ値検出とその表示のための有力な武器 ―
株式会社サンテック 統計解析室室長
足立 堅一先生
BACK
6.4 「外れ値」への対処法
「外れ値」と見えるのは、現象が対数正規分布にもかかわらず、「正規分布」すると盲信するからではないかとの観点を持つこと
―「正規分布するのだ!」→「外れ値だ!」→「外せ!」の行動姿勢への いま少しの慎みを持つこと
「外れ値」が真に生物現象を反映していれば、それは「極端に大きい/小さい」という重要な
情報を有しており、本来除去すべきではないものであるとのstanceが適切と思われること
「(上側の)外れ値」が検出されたならば、「対数変換」を試みるのも1つ
の方法(第5回の引用文献(4)においても多用)
「外れ値」を除去した場合としない場合での検定結果などの安定性を見ることも一般に推薦されていること
「変換」をしない場合や、「変換」が成功しない場合は、「外れ値」の持つ
「重要情報」をも加味できる、non-parametric検定に切り換えるのも1つの方法であること
| ご利用にあたって | 個人情報の取り扱い | 推奨動作環境 | 著作権|
Copyright©2009 NIPPON KAYAKU CO.,LTD All right reserved.
【 non-prametric検定の解説 】
第4回で解説した t 検定は「parametric 検定」と呼ばれるものの代表例です。 parametricの意味するところは、第2回で解説したparameter(正規分
布で説明した、平均値μや標準誤差σなどの「母数」)と深く関係しておりま
す。 つまり、「parametric 検定」とは、こうしたparameterを利用して検定する方法のことです。 これに対して、順番情報などを利用するなど、つまり、parameterを利
用しない検定法もあり、それらが「non-prametric検定」と呼ばれます。