過去の投稿論文に学ぶ 受理される統計解析...れます。Levene...

13
1 過去の投稿論文に学ぶ 受理される統計解析 国立保健医療科学院技術評価部 横山徹爾 国際補綴歯科学会名古屋2008 社団法人日本補綴歯科学会第117回学術大会 1回日本、中国、韓国補綴歯科学会共催学術大会 研究セミナー 2008.6.7.使用の最終版 本日の目的 過去に投稿・受理された論文の査読過程を振 り返り、 どのような統計解析にケチがつくのかを確認し、 受理された統計解析はどのようなものかを考える。 論文中で用いられた統計手法について、少し詳し く学ぶ本日のスケジュール はじめに 統計家の目から見た(個人的意見ですが)、医学論 文の査読 実際の論文に学ぶ (1)材料試験での多群間の差の検定 (2)QOLと義歯による機能との関係 (3)総義歯の総合的な状態を量的に評価する方法 (4)顎の動きと脳血流の変化との関係 謝辞 一般に論文の査読過程が公開されることは なく、これから論文を書こうとする者にとって は極めて貴重な情報といえます。 査読過程の公開をお許しいただき、ご協力を 賜った先生方に、深く感謝申し上げます。 本セミナーのスライドの多くは、ご協力いただ いた先生方が作成されたものを、部分的に改 して使わせていただいております。 はじめに:統計家の目から見た、医学 論文の査読(1) 投稿時 統計家がついていても、統計処理にケチが付くこと がある! 最大の理由は、「説明不足」「わかりにくい」。 Statistical analysisの説明をしっかりと書こう。 説明が詳しすぎて否定的なコメントを受けたことはない。 読者(査読者)を意識してわかりやすく書こう。 査読者も読者。読者に理解困難な論文は、受理されるは ずがない。 著者はデータに慣れすぎていて、“わかりにくい”ということ に気づけない。誰か(上司よりも部下)に読んでもらって、 わかりにくい点を指摘してもらおう。英文校閲業者のコメン トも意外と役に立つ。 はじめに:統計家の目から見た、医学 論文の査読(2) 査読時 目的と統計処理を明確に 統計処理に間違いはなくても、目的に合致していなければダメ。 同じデータでも、目的によって用いる統計処理は異なる。 説明不足は不利 結果の妥当性が判断できない→判断保留→細かいことまで聞きたく なる→再査読の回数が増える。 初稿時から丁寧に説明を書こう。 ケアレスミスは心証を害する。 数値に誤りがあると、全体の統計処理が疑われる。 スペルミスが多いと、“こんな準備不足で投稿するのはけしからん” →“リジェクトしてやろう”とあら探しをする。 Resultsまでが特に大事。 Discussion不足はリジェクトの理由になりにくい。(LimitationConclusionは大事)

Transcript of 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene...

Page 1: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

1

過去の投稿論文に学ぶ受理される統計解析

国立保健医療科学院技術評価部

横山徹爾

国際補綴歯科学会名古屋2008社団法人日本補綴歯科学会第117回学術大会第1回日本、中国、韓国補綴歯科学会共催学術大会 研究セミナー

2008.6.7.使用の最終版

本日の目的

過去に投稿・受理された論文の査読過程を振り返り、

どのような統計解析にケチがつくのかを確認し、

受理された統計解析はどのようなものかを考える。

論文中で用いられた統計手法について、少し詳しく学ぶ。

本日のスケジュール

はじめに統計家の目から見た(個人的意見ですが)、医学論文の査読

実際の論文に学ぶ(1)材料試験での多群間の差の検定

(2)QOLと義歯による機能との関係

(3)総義歯の総合的な状態を量的に評価する方法

(4)顎の動きと脳血流の変化との関係

謝辞

一般に論文の査読過程が公開されることはなく、これから論文を書こうとする者にとっては極めて貴重な情報といえます。

査読過程の公開をお許しいただき、ご協力を賜った先生方に、深く感謝申し上げます。

本セミナーのスライドの多くは、ご協力いただいた先生方が作成されたものを、部分的に改変して使わせていただいております。

はじめに:統計家の目から見た、医学論文の査読(1) 投稿時

統計家がついていても、統計処理にケチが付くことがある!

最大の理由は、「説明不足」「わかりにくい」。

Statistical analysisの説明をしっかりと書こう。説明が詳しすぎて否定的なコメントを受けたことはない。

読者(査読者)を意識してわかりやすく書こう。査読者も読者。読者に理解困難な論文は、受理されるはずがない。著者はデータに慣れすぎていて、“わかりにくい”ということに気づけない。誰か(上司よりも部下)に読んでもらって、わかりにくい点を指摘してもらおう。英文校閲業者のコメントも意外と役に立つ。

はじめに:統計家の目から見た、医学論文の査読(2) 査読時

目的と統計処理を明確に統計処理に間違いはなくても、目的に合致していなければダメ。同じデータでも、目的によって用いる統計処理は異なる。

説明不足は不利結果の妥当性が判断できない→判断保留→細かいことまで聞きたくなる→再査読の回数が増える。初稿時から丁寧に説明を書こう。

ケアレスミスは心証を害する。数値に誤りがあると、全体の統計処理が疑われる。スペルミスが多いと、“こんな準備不足で投稿するのはけしからん”→“リジェクトしてやろう”とあら探しをする。

Resultsまでが特に大事。Discussion不足はリジェクトの理由になりにくい。(LimitationとConclusionは大事)

Page 2: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

2

論文1材料試験での多群間の差の検定

ポイント

多重比較のポイントについて学ぶ

キーワード

多重比較

分散分析(ANOVA)Tukey HSD testDunnett test

論文1 材料試験での多群間の差の検定目的

コンポジットレジンの機械的

性質と、技工用光重合器と

の関係を調べる。

方法

間接修復用コンポジット1種類と技工用照射器2種類(メーカー指示の照射器Aおよびメーカー指示の重合条件、それ以外の照射器Bおよび照射時間を変化させた5条件[B30s,B60s,B90s,B120s,B180s])について、①ヌープ硬さ、②吸水量、③溶解量の計3項目を計測し、計測項目別

の各重合条件の差を分析した(平均値の差の検定)。

値は平均とSD、各群n=5ずつ

tt検定(または検定(またはUU検定)を全ての組合せについて繰り検定)を全ての組合せについて繰り返す???(ダメ!)返す???(ダメ!)–– 1回の検定につき、第1種の過誤が1回の検定につき、第1種の過誤が5%5%の確率で生じる。の確率で生じる。–– 3回検定を繰り返すと、3回検定を繰り返すと、11--(1(1--0.05)0.05)33=14%=14%の確率で第1の確率で第1

種の過誤が生じる。種の過誤が生じる。–– 有意水準有意水準5%5%といいながら、といいながら、実は実は14%14%の確率で3つの検の確率で3つの検

定のうち1つ以上で第1種の過誤を生じる!定のうち1つ以上で第1種の過誤を生じる!→検定の多重性→検定の多重性の問題の問題

例題2:どのような検定を行うか例題2:どのような検定を行うか

40歳代男性における飲酒習慣と血圧等との関連

平均 SD 平均 SD 平均 SD

収縮期血圧 (mmHg) 130 20 125 18 135 22

飲酒者(n=100)

非飲酒者(n=80)

やめた(n=20)

復習 独立な独立な3群の差の検定3群の差の検定

パラメトリックな検定パラメトリックな検定

–– 一元配置分散分析一元配置分散分析

正規分布、等分散正規分布、等分散

ノンパラメトリックな検定ノンパラメトリックな検定

–– KruskalKruskal--WallisWallis検定検定

非正規分布、不等分散非正規分布、不等分散

等分散の判断は正規確率紙による視覚的検討、およびBartlett検定など

歪んだ分布は対数変換を行うと、正規分布に近づくだけでなく、等分散に近づくこともある

対数変換等を行っても正規分布に近づかない、不等分散の場合

帰無仮説H0: μ1=μ2=μ3対立仮説H1: H0ではない

33群の群のどこかどこかに差があるということが示される。に差があるということが示される。

–– どことどこの組合せに差があるかは、まだ分からない!どことどこの組合せに差があるかは、まだ分からない!

収縮期血圧収縮期血圧–– ほぼ正規分布、等分散→一元配置分散分析ほぼ正規分布、等分散→一元配置分散分析

中性脂肪中性脂肪–– 対数変換したところ正規分布、等分散→一元配置分散分析対数変換したところ正規分布、等分散→一元配置分散分析

γγ--GTPGTP–– 変換しても強く歪んだ分布→変換しても強く歪んだ分布→KruskalKruskal--WallisWallis検定検定

例題3:どのような検定を行うか例題3:どのような検定を行うか40歳代男性におけるALDH2遺伝子型と血圧との関連

平均 SD 平均 SD 平均 SD P値

収縮期血圧 (mmHg) 130 20 125 18 110 17 ?

中性脂肪 (ml/dL) 140 110 110 80 100 77 ?

γ-GTP (IU/L) 70 80 40 40 35 30 ?

1/1 (n=240) 1/2 (n=140) 2/2 (n=20)

ALDH2遺伝子型

(mg/dL)

独立な3群以上の差の検定と対比較独立な3群以上の差の検定と対比較

分散分析分散分析

–– 帰無仮説帰無仮説HH00: : μμ11==μμ22==μμ33

–– 対立仮説対立仮説HH11: : μμ11==μμ22==μμ33ではないではない

つまり、つまり、どれとどれに差があるかは分からないどれとどれに差があるかは分からない。そこで・・・。そこで・・・

対比較対比較–– どことどこの組合せに差があるか、興味のある組合せに対して検定を繰りどことどこの組合せに差があるか、興味のある組合せに対して検定を繰り

返す(返す(対比較対比較)。ただし、検定を繰り返しても第1種の過誤の生じる確率が)。ただし、検定を繰り返しても第1種の過誤の生じる確率が5%5%を超えないようにを超えないように工夫する工夫する。。

全ての組合せに興味がある場合:全ての組合せに興味がある場合:TukeyTukey法法 ((TukeyTukey--KramerKramer法法))一つの対照群と残りの群を比較する場合:一つの対照群と残りの群を比較する場合:DunnetDunnet法法後で一部のカテゴリーを併合していろいろな比較を行う(線型比較):後で一部のカテゴリーを併合していろいろな比較を行う(線型比較):ScheffeScheffe法法

特定の組合せに興味があり、検定回数を事前に決めておく場合:特定の組合せに興味があり、検定回数を事前に決めておく場合:BonferroniBonferroni法法(Holm(Holm法法))3群の場合のみ、分散分析で有意になったという前提で3回の3群の場合のみ、分散分析で有意になったという前提で3回のtt検定を繰り返す検定を繰り返す方法:方法:Fisher LSDFisher LSD法法

Page 3: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

3

まず、一元配置分散分析を行うまず、一元配置分散分析を行う

どことどこに差があるかを確認するために、どことどこに差があるかを確認するために、–– 3通り全て興味がある場合・・・3通り全て興味がある場合・・・TukeyTukey--KramerKramer法法–– 非飲酒者と他の2群の比較に興味がある場合・・・非飲酒者と他の2群の比較に興味がある場合・・・DunnetDunnet法法

上記2法では分散分析を省略することもある上記2法では分散分析を省略することもある

–– 注意:結果を見てから差のありそうな比較だけをしちゃダメ!注意:結果を見てから差のありそうな比較だけをしちゃダメ!

例題2’:どのような検定を行うか例題2’:どのような検定を行うか

40歳代男性における飲酒習慣と血圧等との関連

平均 SD 平均 SD 平均 SD

収縮期血圧 (mmHg) 130 20 125 18 135 22

飲酒者(n=100)

非飲酒者(n=80)

やめた(n=20)

論文1 材料試験での多群間の差の検定目的

コンポジットレジンの機械的

性質と、技工用光重合器と

の関係を調べる。

方法

間接修復用コンポジット1種類と技工用照射器2種類(メーカー指示の照射器Aおよびメーカー指示の重合条件、それ以外の照射器Bおよび照射時間を変化させた5条件[B30s,B60s,B90s,B120s,B180s])について、①ヌープ硬さ、②吸水量、③溶解量の計3項目を計測し、計測項目別

の各重合条件の差を分析した(平均値の差の検定)。

(再掲)

値は平均とSD、各群n=5ずつ

当初の統計解析

①ヌープ硬さおよび②吸水量に関して、ANOVA(分散分析)およびTukey HSD testを使用した。

ANOVAで有意→6群のどこかに差がある。

では、どこに差があるのだろう?→Tukey HSD test。ただし、Tukey HSD testは、6群のうち全ての2群の組合せ(6C2)を調べ

て、どことどこに差があるかを知りたい場合に使う。

本当に全ての2群の組合せ(15通り)に興味があるのだろうか?

比較したい組合せ数が増えれば増えるほど、検出力が落ちる(有意になりにくい→見落としが増える)ので、興味のある組合せだけに限定した方がよい。

なお、Tukey HSD testはANOVA不要(あっても悪くないという意見も)。

③溶解量に関しては、Contrast testを使用した。

値は平均とSD

当初の図表

ANOVA& Tukey HSD test

Contrast test(?)

値は平均とSD、各群n=5ずつ

査読者からの指摘事項統計手法にやや難があると思われます.Solubility in waterの項目ですが(←これだけなぜかcontrast test)(1)他の2項目では、ANOVAおよびTukey testを使っているのに,

Solubility in waterのみANOVAの結果を無視して対比較(contrast test)を行っていること.

(2)Solubility in waterに関して,Levene testの結果が記載されていません.もし,等分散ならばよいのですが,不等分散ならばANOVAおよびcontrast testsそのものが不適切だと考えます.(※ANOVAは全ての群の母分散が等しいという前提で計算が行われます。Levene testは等分散検定で、等分散が否定されるとANOVAは不適切)

(3)contrast testsの使い方の詳細が記載されていません.たぶん,照射器Aを対照群として,照射器Bの各群との間で対比較を行ったのでしょうが,多重性が問題となりそうです(有意水準が甘くなっていると思われます).(※特定の1群と他の群との組合せに興味がある場合は、Dunnetttest)

(青字は横山が加筆)

これらの問題を解決するには,以下に記載した方法がもっとも公正ではないかと考えます.

Levene testの結果が,等分散ならばKHN,water sorption, solubility in waterすべての項目に対して,ANOVAを前提としないで,最初からDunnettの多重比較を照射器Aを対照群として行う(Dunnettは,F検定量を使用しない統計法ですか

らANOVAを前提とする必要はありません).本論文では,Discussion partで照射器Bの各群間での比較には言及していませんから(←つまり、A vs. B各群以外には興味がない) ,

この手法で充分ではないでしょうか.

Levene testの結果で,不等分散な項目があれば,その項目に関して,ANOVAを前提としないで,最初からDunnettのT3あるいはDunnettのCによる多重比較を行う.

査読者からの指摘事項 (青字は横山が加筆)

Page 4: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

4

修正後の統計解析

Levens testを実施し, その後の結果によりDunnettの検定を採用した.

メーカー指示照射器Aを対照群に設定した.

本研究における結果は等分散性を示したので,材料と方法の項目,統計分析の結果についての記載を変更した.Dunnettの検定結果はTable として追加した.

修正後の図表(抜粋)

AAA

AA

A vs. B各群だけをDunnett検定している

<0.001

Lesson 1: 多重検定のコツ

どの群とどの群の比較に興味があるのか、最初に明記しましょう!

それによって検定方法は決まる。

あれもこれもと欲張ると、検出力が落ちて、結局は損(?)をします。

有意になりにくい=見落とし(βエラー)が増える。

なお、結果を見てから、差がありそうな箇所だけに興味を示して検定方法を選ぶのは、ズルです。

研究計画の段階で、興味の対象は決まっているはず。

ただし、Scheffeの方法は、全ての対比の組合せを比較できるので可だが検出力は低い。

A B C D

全ての2群の組合せTukey法

A B C D

事前に決めたn回の検定Bonferroni法

A B C D

任意の組合せ間ANOVA+Scheffe法

A B C D

A B C

3群の場合のみ全ての2群の組合せANOVA+Fisher PLSD法

A B C D

特定の対照群と他の各群Dunnett法

よく使う多重検定のまとめ

など

論文2QOLと義歯による機能との関係

ポイントアンケート調査票の開発と妥当性・信頼性の検討について学ぶ

キーワードアンケート調査票

妥当性・信頼性

因子分析

クロンバックのα係数

多重比較

調査票が科学的であるために

「アンケート調査なんて科学的じゃない」と極論する人がいます。

それはたぶん、「調査票の開発過程で、科学的方法が用いられている」ことを知らないからでしょう。

開発過程では、「調査票の妥当性・信頼性の検討」などが行われます。

逆に言うと、妥当性・信頼性が検討されていない調査票を用いたアンケートは、科学的でないかもしれません(論文投稿時に問題となることがある)。

妥当性検討された調査票を用いましょう。

ところで、妥当性と信頼性って何でしょう?

Page 5: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

5

妥当性と信頼性

妥当性自分の測りたいものをちゃんと測っているか?

QOLを測っているつもりなのに、単に病気の重症度を測っているだけだった。・・・妥当性なし。

信頼性そもそも、その人からちゃんと情報を引き出しているのか?

同一人物に同じ調査票を2回記入してもらったら、2回の回答が全然違った。・・・信頼性(再現性)なし。

同じ調査票に、よく似た質問を複数入れておいたのに、どれもバラバラな回答だった。・・・信頼性(一貫性)なし。

妥当性×信頼性×

妥当性×信頼性○

妥当性○信頼性○

妥当性検討

基準連関妥当性

測定値が外的基準(他の妥当な方法で測定した値)と相関することを示す。

要するに、真実の値(またはそれに近い値)が何らかの手段で測定できたとして、それと似た値が得られるか?

内容的妥当性

質問が、測定したい内容をカバーしているか確認する。

構成概念妥当性

測定したい概念を、正しく測定できていることを確認する。

よく使われるのが、因子分析。

信頼性検討

再現性

同一人物に、繰り返し同じ調査を行って、同じ結果が得られることを確認する。

一貫性

同一人物は、同じ概念の(類似の)質問に対して、同じように回答していることを確認する。

クロンバックのα係数で数値として表すことが多い。

論文2QOLと義歯による機能との関係

目的QOLと義歯による機能との関係を検討する。

方法1(QOL調査票の開発)義歯あるいは食に関する質問、現在の健康状態、生活満足度とQOLに関する16の質問についてビジュアルアナログスケール(VAS)によるアンケート票を作製し、義歯装着者48人を被験者としてアンケートの妥当性と信頼性を検討した。妥当性(構成概念妥当性)検討

Varimax回転を用いた因子分析によって、義歯装着者用の4因子、8項目から構成されるアンケート票を作成。

信頼性検討(一貫性)信頼性分析(Cronbach’s α)を用いて確認した。

義歯関連項目を加えた8項目の平均点をQOLDとして用いた。

論文2QOLと義歯による機能との関係

方法2(義歯の状態と患者のQOLの関連分析)

先に検討したアンケート票を用い、103人の外来患者

を被験者として調査した。

QOLDの平均を以下の5群間で比較:

①TFD:義歯の機能に若干の問題を抱えている全部床義歯装着者、②NFD:義歯に関する問題のない全部床義歯、③SFD:単義歯、④NPD:部分床義歯、⑤NMP:顎義歯装

着者。

ANOVAと、Duncan test。

当初の方法

既知のものの選定: Padilla GVら(1985).人工肛門使用者を対象とした23項目から構成させるアンケート法( VAS )↓23項目から一般的事項と考えられる12項目を選定義歯関連事項として4項目を追加した16項目からなるアンケート票

を試作↓48名の被験者でアンケート票の妥当性と信頼性の検討

(因子分析および信頼性分析)↓4因子8項目からなるアンケート票の完成(QOLD)

↓種々の義歯装着者(計103名)におけるQOLDの測定

↓義歯の装着が高齢者のQOLに及ぼす影響の検討

QOL調査票の開発

義歯の状態と

患者のQOLの

関連分析

Page 6: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

6

Table 1. Twenty-three item QLI for colostomy patients (Padilla, 1985)Q 1. How much strength do you have?Q 2. Is the amount of time you sleep sufficient to meet your needs?Q 3. Do you tire easily?Q 4. Do you feel your present weight is a problem?Q 5. Do you feel your worried (fearful or anxious) about your colostomy?Q 6. Is your sexual activity sufficient to meet your needs?Q 7. How is your present state of health?Q 8. How easy is it to adjust to your colostomy?Q 9. How much fun do you have (hobbies, recreation, social activities)?Q10. Do you find eating a pleasure?Q11. How much can you work at your usual tasks (housework , office work, gardening)?Q12. Is the amount you eat sufficient to meet your needs?Q13. How useful do you feel?Q14. How much happiness do you feel?Q15. How satisfying is your life?Q16. How much pain do you feel?Q17. How often do you feel pain?Q18. How good is the quality of your life?Q19. How fearful are you of order or leakage from your colostomy?Q20. Is your level of contact with your friends and family sufficient to meet your needs?Q21. Do you feel rejected by your family or loved ones?Q22. How difficult is it for you to look at your colostomy?Q23. Is the amount of privacy you have sufficient to meet your needs?

査読内容:Padillaのアンケート項目は引用を明記するだけで、Tableとして掲載する必要なしわれわれの16項目(黒文字)をTableとして提示

Table 1. Sixteen item QOLD for denture wearersQ 1. How much strength do you have?Q 2. Is the amount of time you sleep sufficient to meet your needs?Q 3. Do you tire easily?Q 4. Do you feel your present weight is a problem?Q 5. How is your present state of health?Q 6. How much fun do you have (hobbies, recreation, social activities)?Q 7. Do you find eating a pleasure?Q 8. Is the amount you eat sufficient to meet your needs?Q 9. How useful do you feel?Q10. How much happiness do you fee?Q11. How satisfying is your life?Q12. How good is the quality of your life?Q13. Do you feel your worried (fearful or anxious) about your denture?Q14. How much pain do you feel for using your denture?Q15. How often do you feel pain for using your denture?Q16. Do you have any consideration for others about stinking or defilement

of denture?

※Q1-12はPaddilaらの論文から引用した項目Q13-16はわれわれが追加した義歯装着者用項目

(1st revision)

2nd revision既知のものの選定: Padilla GVら(1985).人工肛門使用者を対象とした23項目から構成させるアンケート法( VAS )↓23項目から一般的事項と考えられる12項目を選定義歯関連事項として4項目を追加した16項目からなるアンケート票

を試作↓48名の被験者でアンケート票の妥当性と信頼性の検討(2回の因子分析および信頼性分析)

↓4因子8項目からなるアンケート票の完成(QOLD)

↓種々の義歯装着者(計103名)におけるQOLDの測定

↓義歯の装着が高齢者のQOLに及ぼす影響の検討

QOL調査票の開発

義歯の状態と

患者のQOLの

関連分析 因子3(社会的状態)

因子2(身体の状態)

因子1(心の状態)

構成概念妥当性検討のために、因子分析(factor analysis)

多数の質問の背後には、いくつかの概念(因子という)が潜在しているはずだ。その因子を見つけ出そう!

質問1質問3

質問2質問6質問7

質問4質問5

7つの質問を通じて、3つの因子(構成概念)を測定している。

因子分析によって、因子1~3を見つけ出し、数値(因子得点)で表すことができる。

因子1は質問1,3とよく相関する(相関の程度=因子負荷量)

因子を同定しやすいように、Varimax回転やPromax回転とい

う処理を行うことが多い。

Table 2. First Rotated Component Matrix (Factor Analysis with Varimax Rotation)

Component1 2 3 4 5

Q1 0.272 0.557* 0.012 0.137 -0.170Q2 -0.009 0.766* 0.250 -0.049 -0.125Q3 0.166 0.782* -0.372 -0.056 0.069Q4 0.043 -0.203 0.077 0.001 0.874*Q5 0.247 0.674* 0.004 0.009 0.454Q6 0.845* 0.315 0.202 0.040 0.025Q7 0.234 -0.003 0.840* 0.276 0.058Q8 0.183 0.079 0.894* 0.123 0.070Q9 0.293 0.542* 0.336 0.275 0.114Q10 0.887* 0.167 0.276 -0.036 0.096Q11 0.792* 0.052 0.404 0.223 0.043Q12 0.785* 0.258 0.072 0.318 0.157Q13 -0.058 0.388 0.043 0.203 0.526*Q14 0.247 0.023 0.120 0.922* 0.044Q15 0.140 0.079 0.291 0.890* 0.076Q16 0.699* -0.062 -0.197 0.261 -0.289

投稿時As to the procedure for developing QOLD, five factors including 16 question items were obtained by the first factor analysis. The fifth factor had the lowest loading level. Then, Q4 and Q13 were eliminated.なぜfifth factor(Q4 and Q13) を削

除したかの説明が足りない。

掲載時As to the procedure for developing QOLD,

five factors including 16 question items were obtained by the first factor analysis. In the factor analysis, the order of five factors is based on factor loading levels. The fifth factor had the lowest loading level and there was no common context in questions Q4 and Q13. Then, Q4 and Q13 were eliminated.

質問 因子1 因子2 因子3 因子4 因子5

値は因子負荷量(各質問と各因子の相関の程度)

因子5は因子負荷量と寄与率が小さい。また、Q4とQ13に共通す

る概念(研究者が勝手に考えて決める)が見いだせなかったので除外することにした。

Table 3. Second Rotated Component Matrix (Factor Analysis with Varimax Rotation)

Component1 2 3 4

Q1 0.250 0.542* -0.028 0.149Q2 0.016 0.691* 0.237 -0.096Q3 0.131 0.804* -0.368 -0.055Q4Q5 0.134 0.791* 0.006 0.064Q6 0.835* 0.334 0.246 0.016Q7 0.240 -0.005 0.842* 0.267Q8 0.168 0.091 0.900* 0.130Q9 0.177 0.603* 0.296 0.350Q10 0.856* 0.220 0.332 -0.039Q11 0.771* 0.101 0.436 0.221Q12 0.784* 0.291 0.144 0.271Q13Q14 0.243 0.028 0.105 0.921*Q15 0.096 0.106 0.258 0.915*Q16 0.762* -0.038 -0.200 0.209

投稿時Next, four factors including 14 question items were obtained by the second factor analysis. Four factors seemed to best represent question items. It was possible to group the items under “psychological health factor (Psy)”, the “physical health factor (Phy)”, the “eating satisfaction factor (Eat)” and the “pain related to denture wear factor (Den)”. To standardize each factor, two high-loading items in each factor were selected for the QOLD questionnaire. 標準化についての説明が必要

掲載時Next, four factors including 14 question items were obtained by the second-factor analysis. Four factors seemed to best represent question items. Itwas possible to group the items under Psy, Phy, Eat and Den. In the factor analysis, the factor loading level was influenced by the number of question items. To standardize each factor, two high-loading items in each factor were selected for the QOLD questionnaire.

質問 因子1 因子2 因子3 因子4

Q4とQ13を省略し、因子を4つに減らした。

4因子は(研究者が考えて決める)、1. psychological health factor (Psy)2. physical health factor (Phy)3. eating satisfaction factor (Eat)4. pain related to denture wear factor (Den)

Page 7: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

7

Table 3. Components and questions

1. Psychological health (Psy)Q 6. How much fun do you have (hobbies, recreation, social activities)?Q10. How much happiness do you feel?

2. Physical health (Phy)Q 3. Do you tire easily?Q 5. How would you rate your present state of health?

3. Eating satisfaction (Eat) Q 7. Do you find eating a pleasure?Q 8. Is the amount you eat sufficient to meet your needs?

4. Pain by denture (Den)Q14. How much pain do you feel when wearing your denture?Q15. How often do you feel pain when wearing your denture?

それぞれに対してVASで回答全ての回答の平均点(100点満点換算)をQOLDとして使用4因子ごとの平均点(100点満点換算)はそれぞれの因子の点数としても使用可能

因子得点の大きさは質問の個数に依存するので、結局、4因子を、各々2個ずつ(因子負荷量の大きい方から2個)の質問で得点化することにした。質問の個数が異なっても、得点の大きさを変えない方法はありますので、2個ずつに揃える必要はないと思います。“単純化するために”ならば、これもありだと思いますが。

信頼性検討

再現性

同一人物に、繰り返し同じ調査を行って、同じ結果が得られることを確認する。

一貫性

同じ概念の(類似の)質問に対して、同じように回答していることを確認する。

クロンバックのα係数で数値として表すことが多い。

Table 3. Components and questions

1. Psychological health (Psy)Q 6. How much fun do you have (hobbies, recreation, social activities)?Q10. How much happiness do you feel?

2. Physical health (Phy)Q 3. Do you tire easily?Q 5. How would you rate your present state of health?

3. Eating satisfaction (Eat) Q 7. Do you find eating a pleasure?Q 8. Is the amount you eat sufficient to meet your needs?

4. Pain by denture (Den)Q14. How much pain do you feel when wearing your denture?Q15. How often do you feel pain when wearing your denture?

これらの8質問の信頼性係数(クロンバックのα)=0.784.•全ての質問に同じように回答すると、αは1に近づく。•どの質問も、QOLを測定しようとしているのだから、ちゃんと情報を引き出せているならば、αは1に近いはずである。αが小さいと、各質問にバラバラな回答をしていることを

意味するので、信頼性(内部一貫性)が低い。•ただし、完全にα=1になると、全部同じ回答ということを意味するので、そもそも複数の

質問をする意味がない。•各概念ごとにαを計算することもある。

信頼性(内部一貫性)の検討著者コメント: 査読者からの指

摘はなかったが、今考えると事後 の 多 重 比 較 と し て はDuncan‘s test で は な く 、Scheffé’s testが妥当であった

と思います。横山コメント: Duncan’s testは、多重検定の方法としては不適当なので、使わないようにしましょう。☆大事なのは、“どの群とどの群の差に興味があるか”。※参考4群以上の場合の、Fisher’s PLSD法も不適切なので使わ

ないようにしましょう。(3群の場合のみOK)

著者コメント: また、多重比較の結果を図に示す方法が妥当かが疑問です(*による表示)。横山コメント: 確かに、どことどこに差があるのか、本文を読まないと分かりません。図はself-explanatory(それだけで一目瞭然)を心がけましょう。Figure legendは表題ではなくて説明なので、そこに詳しく書くのがおすすめ(例えば下線部)。

Figure. The score of four factors (Phy, Psy, Eat and Den) of the QOLD, the QOLD scores in each group. The score of Phy in TFD group was significantly different from those in SFD and NMP groups; the scores of Psy, Eat, Den, and QOLD were significantly different between TFD and other 4 groups.

A B C D

全ての2群の組合せTukey法

A B C D

事前に決めたn回の検定Bonferroni法

A B C D

任意の組合せ間ANOVA+Scheffe法

A B C D

A B C

3群の場合のみ全ての2群の組合せANOVA+Fisher PLSD法

A B C D

特定の対照群と他の各群Dunnett法

よく使う多重検定のまとめFigure. The score of four factors (Phy, Psy, Eat and Den) of the QOLD, the QOLD scores in each group.

ところで、NMP群だけ、他の4群よりも

平均年齢が有意に若いそうです。QOLが年齢に強く影響を受ける可能性があるならば、“NMPの平均が高い

のは若いせいでは?”と疑われるかも知れません。そんなとき、

年齢調整平均というものを計算することができます。これは、年齢の影響を補正して平均値を計算する方法で、“NMPの平均が高

いのは若いせいでは?”という疑いを晴らすことができます。使用する統計手法は、

共分散分析(ANCOVA)といいます。ぜひ試して下さい。

Page 8: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

8

Lesson 2: 統計処理の説明

説明は丁寧に。複雑な解析ほど、詳しい説明が必要。因子分析

因子5(Q4 and Q13) を削除したのか、説明が足りない。

なぜ各因子の質問を2個ずつにしたか(標準化)についての説明が必要。

多重比較

図を見ただけでは、どことどこに差があるのか分からない。

図表は、self-explanatory(それだけで一目瞭然)を心がけましょ

う。Figure legendは少し長く書いて構いません(本文と重複しすぎるのも困り

ますが、否定的コメントには繋がりません)

Tableはfootnoteに少し詳しく書く。

“本文を読めばわかる”という発想は、読者friendlyではありません。

論文3総義歯の総合的な状態を量的に評価する方法ポイント

重回帰分析とダミー変数について学ぶ

キーワード

数量化Ⅰ類

重回帰分析

ダミー変数

論文3総義歯の総合的な状態を量的に評価する方法

目的総義歯の診査結果を統計学的に分析し,総義歯の総合的な状態を量的に評価できるようなスコアを作成する。

方法上下顎総義歯(320)を歯科医師が16項目(説明変数)について3段階で評価し,総合評価(10点満点)を外的基準(目的変数)として,多変量解析数量化Ⅰ類(ダミー変数を用いた重回帰)で分析。

総義歯の総合的な状態を100点満点で評価できる総義歯スコアを作成。

程度,状態,はい/いいえ などの質的

データに数量(カテゴリースコア)を与えて,重回帰分析を行う手法(林,1952)

体重 = 性別 + 結婚 + 係数(60)男: 8 既婚: 5女: -10 未婚: -3

男で既婚者の体重 = 8 +5 +60 = 73 (kg)女で未婚者の体重 = -10 -3 +60 = 47 (kg)

(例)体重を、性別と結婚の有無で予測する。

多変量解析数量化Ⅰ類

程度,状態,はい/いいえ などの質的

データに数量(カテゴリースコア)を与えて,重回帰分析を行う手法(林,1952)

状態 = 項目1 + 項目2 + ・・・ + 項目16よい: 8 両方: 5悪い: -10 片方: -3ふつう: 0 なし: 0

項目1=よい、項目2=片方、・・・の義歯の状態= 8 - 3 ・・・ = 80点

(例)義歯の総合状態を、16項目で予測する。

多変量解析数量化Ⅰ類 総義歯の総合的な状態を、質的データに基づいて量的に表現する。(本研究の主目的)

Page 9: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

9

Factors Evaluation grades Score

総義歯の総合的な状態を、質的データに基づいて量的に表現する。(本研究の主目的)

数量化Ⅰ類

日本国内ではよく使われている。

本質的には、ダミー変数を用いた重回帰分析と同じ。

最近は、国際的にも数量化理論(Ⅰ類~Ⅳ類がよく使われる)が通用するようになってきていると思われるが、一般の医学研究者には認知度が低い可能性あり。

“ダミー変数を用いた重回帰分析”と説明すれば、ちゃんと理解してもらえる。

特殊な方法を使うときは、しっかりと説明しましょう。

正しい手法を使っていても理解されないことがある

重回帰分析

注目している連続量Y(総合評価[10点満点])と、

複数の要因X1,X2, ...,Xn(診査結果16項目)との関

係を1次式の形で表したもの。

Y=β1X1+β2X2+...βnXn+切片+誤差

β1~βnを偏回帰係数という。

ただし、各診査結果が3カテゴリーの質的データ(例:両方、片方、なし)のような場合には、単に1、2、3のような数値を当てはめても無意味であり、ダミー変数によって“両方、片方、なし”の3通りを表現する必要がある。

総合評価 16項目の診査結果

ダミー変数で質的データ“両方、片方、なし”を表現する

重回帰分析ではY=β1,1X1,1+β1,2X1,2+β1,3X1,3+・・・・+ 切片+誤差

質的データX1 X1,1 X1,2 X1,3

両方 1 0 0

片方 0 1 0

なし 0 0 1

ダミー変数

通常は、3つのうち1つは除外する(そのカテゴリーの点数β1,3=0とみなされる)

偏回帰係数β1,1、β1,2が、“両方”、“片方”の点数。“なし”の点数β1,3=0。

1. It was difficult to read and understand the manuscript. This appears to be due in part to a translation problem. ・・・・・・

2. How did the examiners arrive at the ''general impression on a scale of 1 to 10." ・・・・・・

3. The article is not written in a clear, concise manner. ・・・・・・

4. While the study has defined criteria, the measures are not defined. ・・・・・・

5. The author failed to standardize the factors ・・・・・・

6. The Material and methods section is very difficult to follow. ・・・

7. The first paragraph of the Discussion section is unclear:・・・・・・

8. There is no Conclusion section. ・・・・・・

1st Comments and recommendations英語が読みづらい →再チェック

方法の説明不足(統計手法が理解しづらい)

→統計手法の変更(数量化Ⅰ類→ダミー変数を用いた重回帰分析),方法を詳しく記載

結果の再現性と診査・評価基準が不明

→予備実験文献の引用(術者間の一致度、同一術者における再現性・・・κ係数などで評価)

研究の目的と結論が不明瞭

→目的の明瞭化,結論の明瞭化

(補綴専門医の評価基準を明らかにした)

Editorからの手紙の要約と対策

Page 10: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

10

1. This manuscript describes a project that is both potentially interesting and important. However, ・・・・・・(中略)

Statistical comments and recommendations.1. Ask the author(s) to explain why some interval scale

variables were converted to categorical (dummy) variables.(質的データではない、いくつかある順序データをなぜダミー変数にしたのか?)

2. While the “backward elimination method” is probably appropriate, it would be helpful if the author(s) added some explanation not in the text of the paper, however of their strategy for selecting variables in the final model. ・・・・(変数選択法について、査読者用に詳しい説明が欲しい)

3. The author(s) needs to explain more clearly how category scores were converted to integers.(カテゴリーのスコアを整数にした方法を詳しく説明する必要有り)

4. Figure #2 should have the r value (0.819) included with the graph.(図中に相関係数を書くべき)

2nd Comments and recommendations

13 2 012 1 0

12 8 0

14 13 016 8 0

15 11 0

18 8 0

13 2 012 1 0

12 8 0

14 13 016 8 0

15 11 0

18 8 0

Artificial teeth selectionAnterior teeth arrangementInterocclusal distanceFit of maxillary dentureFit of mandibular dentureStability of maxillary dentureStability of mandibular dentureTongue spaceOcclusionArticulationRetention of maxillary dentureRetention of mandibular dentureBorder extension of maxillary dentureBorder extension of mandibular dentureFacetPosition of posterior teeth

Artificial teeth selectionAnterior teeth arrangementInterocclusal distanceFit of maxillary dentureFit of mandibular dentureStability of maxillary dentureStability of mandibular dentureTongue spaceOcclusionArticulationRetention of maxillary dentureRetention of mandibular dentureBorder extension of maxillary dentureBorder extension of mandibular dentureFacetPosition of posterior teeth

Factors Evaluation grades Score

Complete denture score : Total (58) points

1 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 3

1 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 31 2 3

説明変数がたくさんある場合(本研究では16個)、重要な変数だけ(通常は有意なものだけ)を選択したいことがある。変数選択の方法として、変数増加法、減少法、増減法などがある。これにより、予測(評価)にあまり役立たない変数を除外できる。

選んだ結果

重回帰分析における変数選択

医学データの種類計量データ:量的に測定できる連続的な測定値

連続データ (例)身長、体重、血圧、血清総コレステロール離散データ (例)う歯の本数

計数データ:カテゴリー型のもの2値 (例)性別の“男”と“女”、既往歴の“有り”と“なし”カテゴリーが3つ以上

順序尺度ordinal scale(間隔尺度):順序関係はあるが絶対量としての意味はない測定値。

(例)胃癌の深達度:T1, T2, T3, T4名義尺度nominal scale(類別変数):順序関係がない分類のための変数。

(例)病理分類の“腺腫”, “線維腫”, “血管腫”, etc.

復習

ポイント: 一見同じ質的データに見えても、順序尺度で量反応関係に注目する場合は、用いる統計手法が違う

英語が読みづらい→再チェック

結果の再現性と術者による一致度が不明→予備実験結果の引用

統計処理について

間隔変数(咬合高径など)を類別変数に変換した理由→考察で説明

変数選択に変数減少法を用いた理由→変数増加法を追加,統計コンサルタント用資料の送付

Editorからの手紙の要約と対策

咬合高径咬合高径

1-4 mm → ランク1 → 12点

5-7 mm → ランク2 → 1点

8 mm以上または0 mm → ランク3 → 0点

間隔変数 類別変数 間隔変数

Table A Partial correlation coefficients and r2 value of backward elimination methodNumbers of factors

Factors 16 15 14 13 12 11 10 9 8 7 6 5

Artificial teeth selection 0.110 0.110 0.093 0.094 0.093 0.094 0.086Anterior teeth arrangement 0.173 0.176 0.175 0.175 0.174 0.173 0.174 0.229*0.245*0.261*0.290*0.307*Interocclusal distance 0.172 0.172 0.182 0.182 0.187*0.189*0.188*0.197*0.217*0.238*0.243*0.259*Fit of maxillary denture 0.029 0.027 0.011Fit of mandibular denture 0.016Stability of maxillary denture 0.075 0.075 0.067 0.068 0.066 0.061Stability of mandibular denture 0.203*0.203*0.204*0.204*0.202*0.204*0.196*0.195*0.192*0.187*Tongue space 0.029 0.030 0.028 0.029Occlusion 0.202*0.203*0.204*0.210*0.209*0.213*0.211*0.216*0.219*0.227*0.241*Articulation 0.278*0.278*0.277*0.278*0.278*0.282*0.281*0.284*0.279*0.311*0.314*0.386*Retention of maxillary denture 0.031 0.032 0.031 0.032 0.029Retention of mandibular denture 0.216*0.216*0.208*0.209*0.210*0.212*0.211*0.207*0.202*0.209*0.321*0.324*Border extension of maxillary denture 0.088 0.090 0.112 0.115 0.116 0.119 0.113 0.129Border extension of mandibular denture 0.255*0.256*0.249*0.250*0.251*0.250*0.254*0.264*0.303*0.296*0.327*0.326*Facet 0.171 0.170 0.168 0.167 0.166 0.166 0.171 0.172 0.181Position of posterior teeth 0.020 0.021

r2 0.697 0.697 0.700 0.701 0.701 0.701 0.700 0.698 0.693 0.683 0.672 0.653**: p<0.01 When the number of factors was less than 8, all factors indicated significant correlation to the general assessValue of r2 decreased as the number of factors decreased from 11 to 5.

Page 11: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

11

Table B Partial correlation coefficients and r2 value of forward selection methodNumbers of factors

Factors 1 2 3 4 5 6 7 8 9

Artificial teeth selectionAnterior teeth arrangement 0.331* 0.264* 0.251* 0.261* 0.245* 0.229*Interocclusal distance 0.253* 0.238* 0.238* 0.217* 0.197*Fit of maxillary dentureFit of mandibular dentureStability of maxillary dentureStability of mandibular denture 0.380* 0.328* 0.325* 0.312* 0.187* 0.192* 0.195*Tongue spaceOcclusion 0.224* 0.227* 0.219* 0.216*Articulation 0.481* 0.440* 0.388* 0.365* 0.303* 0.311* 0.279* 0.284*Retention of maxillary dentureRetention of mandibular denture 0.209* 0.202* 0.207*Border extension of maxillary denture 0.129Border extension of mandibular denture 0.612* 0.543* 0.398* 0.370* 0.341* 0.344* 0.296* 0.303* 0.264*Facet 0.181 0.172Position of posterior teeth r2 0.375 0.518 0.588 0.630 0.653 0.670 0.683 0.693 0.698 **: p<0.01

When the number of factors was less than 8, all factors indicated significant correlation to the general assessment.Value of r2 increased as the number of factors increased from 1 to 9.When the number of factors was more than 6, Table A and B indicated the same consisting factors.

1. The manuscript is improved but still needs editing ・・・・・・2. Table I is difficult to follow. ・・・・・・3. Table I is entitled "Factors and criteria for denture evaluation."

However, not all of the factors contain criteria. ・・・・・・4. In the Clinical Application section, the statement is not

correct.・・・・・・

Statistical comments and recommendations.1. The responses of the authors to the previous comments and

questions were very helpful. One issue that remains is that of the optimal number of variables. ・・・・・・(相変わらず変数選択法について説明を求めている。とくに7変数を選んだ根拠)

2. Please submit a copy of the computer printout(s) showing the values of r2 when each variable is added. ・・・・・・(変数選択の各ステップにおける統計量を見たがっている)

3rd Comments and recommendations

英語が一部読みづらい→再チェック

表の説明が不足→説明を追加

統計処理について

選択した変数の数が7であるのが最適である理由は?→説明を追加

統計処理のプリントアウトを提出すること→合計約400ページのうち,重要な10ページを

提出

Editorからの手紙の要約と対策

Numbers of factors1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Number of significantfactors of Backwardregression

5/5 6/6 7/7 7/8 7/9 6/10 6/11 6/12 5/13 5/14 5/16 5/16

Number of significantfactors of Forwardregression

1/1 2/2 3/3 4/4 5/5 6/6 7/7 7/8 7/9

Numbers of factors1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Number of significantfactors of Backwardregression

5/5 6/6 7/7 7/8 7/9 6/10 6/11 6/12 5/13 5/14 5/16 5/16

Number of significantfactors of Forwardregression

1/1 2/2 3/3 4/4 5/5 6/6 7/7 7/8 7/9

Numbers of samefactors selected bybackward andforward regressionmethod

4/5 5/6 7/7 8/8 9/9

All factors

All factors

All factors

Table C This is the reason why we decided to use 7 factors.This was stated within the text of the manuscript as follows;

With both the backward elimination method and the forward selection method, all factors indicated significant correlations to the general assessment (p < 0.01) when the number of factors was less than 8. Values of r2 (indicator of fitness of multiple regression models) decreased (0.698 to 0.653) as the number of factors decreased from 9 to 5. When the number of factors was more than 6, both methods indicated the same consistent factors. Therefore, the 7 significant factors (r2 = 0.683) was decided (Table II).

Seven factors were selected.

わかりやすい統計手法の使用(特に英語の参考文献のあるものを使用)

統計のコンサルタント用の資料・生データの送付(本文には載せないが,コンサルタントの理解と信頼を得るため)(必要に応じて)

再現性や術者間の信頼性に気を配る(日本語文献の場合はデータも引用する)

ケアレスミスの根絶(ケアレスミスがあると信頼性を大きく損なう)

投稿のために(統計編、著者コメント) Lesson 3: 統計処理の説明2

再び、説明は丁寧に詳しく。

認知度の低い統計手法を使う場合は、ちゃんと説明すること。

本文に載せる必要がないと思われる参考データは、査読者のためだけに送ることも可。

Page 12: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

12

論文4顎の動きと脳血流の変化との関係

ポイント

経時的に連続して測定したデータの解析。

多重比較では対応できない場合もある。

キーワード

経時的測定データ

曲線下面積(Area Under the Curve: AUC)

論文4顎の動きと脳血流の変化との関係

目的

顎の動きが、脳血流に与える影響を明らかにする。

方法健康なボランティア12名。

中大脳動脈血流速度、心拍数、血中二酸化炭素分圧等を連続して測定し、

クレンチング(45秒間)、ガム咀嚼(5分間)、タッピング(3分間)をさせて、安静時からの変化を分析。

当初の解析

中大脳動脈血流速度、心拍数、血中二酸化炭素分圧などの変化を検討するにあたり、クレンチング(45秒間)の場合は5秒ごと、ガム咀嚼(5分間)は30秒ごと、タッピング(3分間)は10秒ごとに区間平均値を算出して、それぞれの区間値とタスク前3分間の平均値との比較を行った(図1)。

その際に用いた統計法は、Friedman’s test(対応のある3群以上の差のノンパラ検定)と the Bonferroni’s post hoc testであった。

査読者からの指摘:タスクによって区間の幅が異なるのはおかしい。クレンチング(図)は5秒ごと、ガム咀嚼は30秒ごと、タッピングは10秒ごとに区間平均値。

横山コメント:“どことどこの差に興味があるのか?”を考えてみてください。・クレンチング前と、“クレンチング中の5秒ごとの血流”の差に興味がありますか?→もしそうならば、多重比較。・クレンチング前と、“クレンチング中45秒間(ずっと)の血流”の差ではないでしょうか?→もしそうならば、クレンチング中45秒間全体の血流の平均値を使うべき。

著者もそれに気づいたようで・・・

(図1)もとの分析方法:各パラメータの区間値(クレンチングなので5秒ごと)を求め、タスク前の値と含めて多重比較をかけている。

最終的統計方法

区間値を算出して多重比較をする方法では、区間が増えるほど有意差は生じにくくなる。

例えば、ガム咀嚼をクレンチングと同じ分析区間で分割すると、60もの区間ができてしまい、到底有意差は得られない。

横山コメント:というよりも、そんな細かい比較に興味はない。“どことどこの比較に興味があるのか”で、方法は決まります。

そこで、タスク前の中央値を基準として、記録されたパラメータの変化曲線からArea under effect curve(基準より高値にある部分の面積)を計算し、それを統計量とするRandom effect modelを用いて検定した(図2)。この方法は、例えば薬剤の投与による生体信号の変化を見るときなどに使われる。

Area under effect curve(AUEC)の求め方。Pre-taskの中央値を基線として、その上の面積(黒い部分)。ただし、基線よりも下に下がった部分の面積は引く。要は、この間の信号の平均的な値に相当する。これがゼロと比べて有意に異なるかどうかでPre-taskとの差を検定できる。より一般的には、Area Under the Curve (AUC)とも呼ばれる。経時的に連続して測定された多数のデータを評価する際に、よく用いられる指標。

Page 13: 過去の投稿論文に学ぶ 受理される統計解析...れます。Levene testは等分散検定で、等分散が否定されると ANOVAは不適切) (3)contrast testsの使い方の詳細が記載されていません.たぶん,照

13

Random-effects model with replication data論文中に説明が見あたりませんでした。特別な分析を行う場合は、詳しい説明(または文献引用)を!

たぶん、血流速度 = β×task(pre=0, on=1) + ε個体+ ε時点 +定数

ε個体~N(0,σ2個体), ε時点~ N(0,σ2

時点)

というモデルなどが考えられます。

タスク間の差 個人差 時点差

Lesson 4: 多重検定以外の方法もある

特に経時的な繰り返しデータの場合、多重検定では検定回数が増えすぎて、検出力が著しく低下することがある。

そこで、全体の平均的な値をAUCなどで要約

することもある(検定は1回だけ)。

結局、“どことどこの差に興味があるのか?”で統計手法は決まる。

まとめ(特に強調したい点)

統計処理の説明は詳しく丁寧に。

難しい統計処理ほど、やさしく説明を。

多重検定は、“どことどこの差に興味があるのか”を明確に。

図表はself-explanatoryに。

●いずれも昨年度実績。今年度について詳しくは:http://www.niph.go.jp/soshiki/gijutsu/index_j.html●このハンドアウトの追加版(6/9以降に更新):http://www.niph.go.jp/soshiki/gijutsu/staffs/yokoyama/etc/hotetsu2008.pdf

国立保健医療科学院における生物統計関連の教育

遠隔教育・生物統計学いわゆるe-learning。埼玉県まで来なくても自宅等で受講できる。3ヶ月かけて教科書を1冊学習。

定員30名。

臨床試験に係わる臨床医向け生物統計学研修臨床試験のプロトコルを自分で作って実施しようという臨床医向け。臨床試験に特化した研修で、統計学そのものは時間をあまりかけない。

専門課程・生物統計分野生物統計の本物の専門家を目指す人向け。最低1年間専念。

謝辞

一般に論文の査読過程が公開されることはなく、これから論文を書こうとする者にとっては極めて貴重な情報といえます。

査読過程の公開をお許しいただき、ご協力を賜った先生方に、深く感謝申し上げます。

本セミナーのスライドの多くは、ご協力いただいた先生方が作成されたものを、部分的に改変して使わせていただいております。