明日から読める無作為化比較試験: 行動療法研究に求められる統計学

明⽇から読める無作為化⽐較試験: ⾏動療法研究に求められる統計学

奥村泰之⼀般財団法⼈医療経済研究・社会保険福祉協会

医療経済研究機構研究部主任研究員

⽇本認知・⾏動療法学会第41回⼤会2015/10/3 (⼟) 17:30~20:30

仙台国際センター展⽰棟会議室2

ファシリテーター国⾥愛彦 (専修⼤学)三瓶舞紀⼦ (国⽴成育医療研究センター)⽵林由武 (統計数理研究所)⼟屋政雄 (労働安全衛⽣総合研究所)横光健吾 (たばこ総合研究センター)市倉加奈⼦ (東京医科⻭科⼤学)中島俊 (東京医科⼤学)

2

研修会の狙い到達⽬標無作為化⽐較試験を読む能⼒を養う個別⽬標

1. 無作為化⽐較試験の要点を理解できる2. 無作為化⽐較試験の批判的吟味を理解できる3. 無作為化⽐較試験を検索・⼊⼿できる

3

無作為化⽐較試験の要点の理解

RCTの3類型と研究疑問の定式化論⽂の構成量的変数の評価指標信頼区間と群間差の解釈質的変数の評価指標

4

無作為化⽐較試験 (RCT) の型

5

症例登録

無作為化

実験群

対照群

アウトカム測定

現在未来

3種類のRCT，実験的介⼊の優越性

6

0C is betterE is better

優越性試験

Lesaffre E: Bull NYU Hosp Jt Dis. 2008;66(2):150-4.

「優れている」と判断する限界値

3種類のRCT，実験的介⼊の⾮劣性

7

0

⾮劣性試験「劣っていない」と判断する限界値


C is betterE is better

3種類のRCT，実験的介⼊の同等性

8

0

同等性試験「同等である」

と判断する限界値


C is betterE is better

研究疑問の定式化 (PICO-T)Patients...患者Intervention...介⼊Comparison...⽐較対照Outcome...アウトカムTime...時間

9中川敦夫: 臨床研究の歴史、意義、研究の定式化 (2012年度版). (http://www.icrweb.jp/)

研究疑問の定式化の事例

10

P : 12~18歳の慢性疲労症候群の患者を対象に，

I : インターネット⽀援型認知⾏動療法を受けた⼈は，

C : 通常の理学療法⼠による介⼊を受けた⼈と⽐べて，

O : 過去12⽇間における授業の完全出席率が⾼いか

T : 治療開始6か⽉時点

Nijhof SL et al: Lancet. 2012 Apr 14;379(9824):1412-8.

アウトカムの6領域

11

領域事例死亡疾患症状，臨床化学検査値異常など不快痛み，吐き気，呼吸苦，掻痒，⽿鳴障害⽇常⽣活の機能，就労や余暇不満疾患やその介護に伴う感情 (悲しみ，怒

り)貧困個⼈や社会の疾患に伴うコスト

中川敦夫: 臨床研究の歴史、意義、研究の定式化. 2012. (http://www.crt-web.com/)

主要アウトカムの原則

12

最も重要なもの1つ患者-治療者-政策決定者にとって重要1つに絞る理由検定の多重性の防⽌選択的な報告の防⽌主要アウトカムの反映先研究⽬的例数設計

Chan AW et al: BMJ. 2013 Jan 8;346:e7586. doi: 10.1136/bmj.e7586.

うつ病治療の重要なアウトカムアウトカム定義患者の観点治療者の観点1. 症状の緩和重症度尺度の変化率50%以上

の反応1位 5位

2. 認知機能の改善集中，論理的思考，知的課題の遂⾏能⼒

2位 4位

3. 社会的機能の改善学業/就業，社会的⽣活，娯楽，家庭⽣活への参加

3位 3位

4. 不安症状の消失恐怖，不安，緊張を感じる 4位 6位5. 症状の寛解うつ病の基準を満たさない 5位 1位6. 再発しない 6-12か⽉間，うつ病の基準を

満たさない6位 2位

13Hummel MJ et al: Patient. 2012;5(4):225-37

統合失調症治療の重要なアウトカム

14

アウトカム患者の観点

1. 錯乱状態と集中困難の緩和 1位2. 活動性と興味の向上 2位3. 幻覚や妄想の症状の改善 3位4. 就業などの⽣産的活動の向上 4位5. 外出など社交的活動の改善 5位6. 副作⽤の軽減 6位

Rosenheck R et al: Br J Psychiatry. 2005 Dec;187:529-36



18

論⽂の全体像

19Moher D et al: BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869

表紙 (Title and Abstract)

序論 (Introduction)

⽅法 (Methods)

結果 (Results)

考察 (Discussion)

その他 (Other information)

論⽂の全体像

20Moher D et al: BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869

重要度記載欄記載内容◎ 表紙標題◎ 要旨○ 序論背景と研究実施の合理性◎ ⽬的や仮説○ ⽅法 (研究デザイン) 研究デザイン× 研究開始後のデザインの変更○ ⽅法 (調査対象) 適格基準○ データ収集のセッティングと場所○ ⽅法 (介⼊) 介⼊◎ ⽅法 (アウトカム) 主要評価項⽬と副次評価項⽬× 研究開始後のアウトカムの変更◎ ⽅法 (標本サイズ) 標本サイズの設計法× 中間解析と試験中⽌の説明

論⽂の全体像

21

重要度記載欄記載内容○ ⽅法 (割り付け) 乱数の⽣成法○ 無作為化法の種類○ 割り付けの隠蔽化法○ 割り付けの実施法○ ⽅法 (盲検化) 盲検化の⽅法○ 介⼊間の盲検化の類似性◎ ⽅法 (統計解析) 群間の⽐較法× 追加分析の⽅法○ 結果 (流れ図) 対象者数の推移○ ⽋測や除外の理由× 結果 (組み⼊れ) 組み⼊れ期間× 試験中⽌の理由

Moher D et al: BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869

論⽂の全体像

22

重要度記載欄記載内容○ 結果 (基準時データ) 基準時の背景情報○ 結果 (解析対象) 解析対象者数◎ 結果 (アウトカム) 主要評価項⽬と副次評価項⽬の結果◎ 絶対リスクと相対リスク（質的変数）× 結果 (追加分析) 追加分析の結果○ 結果 (有害事象) 有害事象の結果× 考察 (限界) 臨床試験の限界× 考察 (⼀般化可能性) ⼀般化可能性の記述◎ 考察 (解釈) 研究結果の解釈○ その他 (登録番号) 臨床試験登録の番号○ その他 (計画書) 臨床試験の研究計画書× その他 (資⾦源) 研究資⾦

Moher D et al: BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869

3分間で情報抽出，3ステップ①研究疑問の定式化 (PICO-T)標題要旨 (⽬的・⽅法)⽅法 (アウトカム・標本サイズの設計・統計解析)

②研究結果の把握図表要旨 (結果)結果

③結論の⼀⽂と研究疑問との整合性の把握要旨 (結論)考察の最終段落

23

標題から研究疑問の定式化 A Home-Based Intervention to Reduce Depressive Symptoms and Improve

Quality of Life in Older African Americans: A Randomized Trial

24

P : ⾼齢者のアフリカ系アメリカ⼈

I : ⾃宅における介⼊

C : ︖

O : うつ病の重症度と⽣活の質 (主要評価項⽬が2つ︖)

T : ︖

Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52

要旨から患者-介⼊-⽐較対象の精緻化 Patients: African Americans aged 55 years or older with depressive

symptoms. Intervention: A multicomponent, home-based intervention delivered by

social workers or a wait-list control group that received the intervention at 4 months.

25

旧新

P : ⾼齢者のアフリカ系アメリカ⼈

55歳以上のうつ症状を有するアフリカ系アメリカ⼈

I : ⾃宅における介⼊ソーシャルワーカーによる⾃宅における複合的介⼊

C : ︖ 4か⽉間の治療待機群


要旨からアウトカム-時間の精緻化 Measurements: Self-reported depression severity at 4 months (primary

outcome) and depression knowledge, quality of life, behavioral activation, anxiety, function, and remission at 4 and 8 months.

26

旧新

O : うつ病の重症度と⽣活の質 (主要評価項⽬が2つ︖)

⾃⼰記⼊式のうつ病の重症度

T : ︖ 4か⽉時点


⽅法からアウトカムの精緻化Outcomes and Follow-up The primary outcome was severity of depressive symptoms assessed with

the PHQ-9, a brief, psychometrically valid, 9-item self-report measure. Higher scores indicated greater severity (Cronbach 0.769 for sample).

27

旧新

O : ⾃⼰記⼊式のうつ病の重症度

⾃⼰記⼊式尺度PHQ-9のうつ病の重症度


⽅法からアウトカムの精緻化Statistical Analysis The primary treatment effect was the between group difference in change

from baseline to 4 months, estimated using the ESTIMATE statement in SAS.

28

旧新

O : ⾃⼰記⼊式尺度PHQ-9のうつ病の重症度

⾃⼰記⼊式尺度PHQ-9のうつ病の重症度 (4か⽉時点と基準時の変化量の群間差)


研究疑問のまとめ

29

P : 55歳以上のうつ症状を有するアフリカ系アメリカ⼈

I : ソーシャルワーカーによる⾃宅における複合的介⼊

C : 4か⽉間の治療待機群

O : ⾃⼰記⼊式尺度PHQ-9のうつ病の重症度 (4か⽉時点と基準時の変化量の群間差)

T : 4か⽉時点


図表 and/or 要旨 and/or 結果から主要評価項⽬の群間差を把握

30

治療群は6.9点改善(4か⽉時点と基準時の変化量)

対照群は3.8点改善(4か⽉時点と基準時の変化量)

変化量の群間差は有意に治療群が3.0点改善


考察の最後 and/or 要旨から結論の⼀⽂と研究疑問との整合性の把握

研究疑問の整合性✅ ⽣活の質は，主要評価項⽬ではない✅ 主要評価項⽬は変化量の群間差なので，パーセンテージを暗⽰する「⼤部分」の表現は不思議

31Gitlin LN et al: Ann Intern Med. 2013 Aug 20;159(4):243-52

結論ソーシャルワーカーによる⾃宅における介⼊は，⼤部分のアフリカ系アメリカ⼈において，うつ病の重症度を下げ，⽣活の質を改善できるだろうConclusion: A home-based intervention delivered by social workers could reduce depressive symptoms and enhance quality of life in most older African Americans.



33

量的変数，個⼈レベルの評価指標評価時の値基準時と評価時の値の変化量基準時と評価時の値の変化率

34

個⼈レベルの評価指標の事例

35

ID 基準時評価時変化量変化率

A 88 88 0 0.0 B 57 54 -3 -5.3 C 82 68 -14 -17.1 D 59 53 -6 -10.2

0x 1x 01 xx 1000

01 xxx

調整した評価時の評価指標

36

基準時の評価指標の値など

群(実験群 vs 対照群) 評価時の評価指標の値

量的質的(2⽔準)統計⼿法 ■共分散分析

analysis of covariance■線形混合モデル

linear mixed effects model

■ロジスティック回帰分析logistic regression analysis

■⼀般化線形混合モデルgeneralized mixed effects model

■⼀般化推定⽅程式generalized estimating equation

アウトカム別，集団レベルの評価指標アウトカムの種類

要素量的質的(2⽔準)

群内の評価指標平均値標準偏差

リスクオッズ

群間差の評価指標平均値差標準化平均値差

リスク⽐オッズ⽐リスク差必要治療症例数(NNT)

37Higgins JPT, Green S: Cochrance handbook for systematic reviews of interventions. Wiley-Blackwell. 2008Chan AW et al: BMJ. 2013 Jan 8;346:e7586.

群内の評価指標の事例

38

12~18歳の慢性疲労症候群におけるインターネット⽀援型認知⾏動療法による慢性疲労への効果アウトカム: 6か⽉時点の慢性疲労の質問紙 (Checklist

Individual Strength-20) の重症度介⼊と対照: 認知⾏動療法群 67名 vs. 通常診療群 64名


アウトカムインターネット⽀援型認知⾏動療法

通常診療

疲労の重症度 (8~56点), 平均値 (標準偏差)

24.0 (13.4) 42.3 (13.1)

注) 値が⼤きいほど重症度が重いことを意味する

群間の評価指標

39

統計量平均値差 (Mean Difference: MD)計算式

得点範囲尺度の得点可能範囲に依存解釈 <0: 実験群のアウトカムの平均値は，対照群よりMD低い

=0: 両群で差がない>0: 実験群のアウトカムの平均値は，対照群よりMD⾼い

対照群の平均値実験群の平均値MD

群間の評価指標

40

統計量標準化平均値差 (Standardized Mean Difference: SMD)計算式

得点範囲ー∞〜0〜＋∞解釈① <0: 実験群の評価項⽬の平均値は，対照群よりSMD*sdpool低い

=0: 両群で差がない>0: 実験群の評価項⽬の平均値は，対照群よりSMD*sdpool⾼い

解釈②(慣例)

=0.2: ⼩さな差=0.5: 中程度の差=0.8: ⼤きな差

2

11

9431

22

Nsdnsdn

sd

NsdSMD

pool

pool

対照群対照群実験群実験群

対照群の平均値実験群の平均値

標準化平均値差の別称

41

Hedges’ gCohen’s dEffect size注) 研究者によって呼称 (＋式) に混乱がみられる。コクラン共同計画が採⽤する標準化平均値差の定義式は，Hedgesの不偏推定量である。

計算と解釈の事例

42

事例平均値差標準化平均値差計算 MD = 24.0－42.3

= －18.3SMD = －18.3/13.3*1 = －1.4sdpool = 13.3

解釈認知⾏動療法群の慢性疲労の重症度の平均値は，通常診療群より18.3点低い

認知⾏動療法群の慢性疲労の重症度の平均値は，通常診療群より1.4標準偏差 (18.3=1.4*13.3) 低い

平均値差と標準化平均値差の違い

43

指標尺度不変解釈可能性平均値差 × ○標準化平均値差 ○ ×

推奨1．研究間で同⼀の尺度であれば平均値差推奨2．研究間で異なる尺度であれば標準化平均値差

Higgins JPT, Green S: Cochrance handbook for systematic reviews of interventions. Wiley-Blackwell. 2008



45

信頼区間の定義定義⺟数が存在していると思われる区間95%信頼区間 (95% Confidence Interval)⺟集団から無作為抽出をして，⺟数に関する

95%信頼区間を求める研究を無限回⾏ったとしたら，その複数の信頼区間のうち95%は⺟数を含む範囲

信頼区間の幅標本サイズが増えると幅が狭くなり精度が向上

46

信頼区間のイメージ (N = 131)

47

0 20 40 60 80 100

-30

-20

-10

010

母集団における平均値差 = -18

繰り返し

平均

値差

信頼区間のイメージ (N = 786)

48

0 20 40 60 80 100

-30

-20

-10

010

母集団における平均値差 = -18

繰り返し

平均

値差

統計的有意差と臨床的有意差統計的有意差「群間の差がない」仮説を捨て，「群間の差

がある」仮説を採択すること注1)「差の⽅向性や⼤きさ」は不明注2)「標本サイズが⼤きい」と必ず有意臨床的有意差害やコストを考慮した上で，有益と認識でき

るアウトカムの最⼩限の群間差であり，その差は臨床実践を変えることにつながり得ること

49Wells G et al: J Rheumatol. 2001 Feb;28(2):452-4.

有意な結果の信頼区間の解釈

50

統計的に有意な群間差 (p<.05)

信頼区間の下限値注＞臨床的有意差

信頼区間の下限値注 ≦臨床的有意差

結果は決定的に差が認められる

結果は決定的ではなく追試が必要

Guyatt et al: Users’ guide to the medical literature (3rd ed). JAMAevidence. 2015.

注) 評価項⽬の値が⼤きいほど実験的治療が対照的治療よりも優れている場合は信頼区間の下限値，逆の場合は信頼区間の上限値

有意な結果の信頼区間の解釈

51

0C is better E is better

「統計的に有意」と判断する限界値

「臨床的に有意」と判断する限界値

決定的に差が認められる



有意でない結果の信頼区間の解釈

52

統計的に有意でない群間差 (n.s.)

信頼区間の上限値＜臨床的有意差

信頼区間の上限値≧臨床的有意差

結果は決定的に差が認められない



注) 評価項⽬の値が⼤きいほど実験的治療が対照的治療よりも優れている場合は信頼区間の上限値，逆の場合は信頼区間の下限値

有意でない結果の信頼区間の解釈

53

0C is better E is better

「統計的に有意」と判断する限界値

「臨床的に有意」と判断する限界値

決定的に差が認められない



臨床的有意差の決定の難しさ群間の差の重要性は，「疾患」「利⽤できる

治療法」「治療のリスクベネフィット⽐」など，広いコンテクストを基にしなければ，決定できない︕

» ...(前略) the determination of the importance of group differences, which can only be established in the broader context of the disease being treated, the currently available treatments, and the overall risk-benefit ratio of the treatment.

54Dworkin RH et al: J Pain. 2008 Feb;9(2):105-21.

臨床的有意差の実例 (アウトカム依存性)

55

アウトカム最⼩限の差中程度の差全死亡 1 0.95

重篤な症状や有害事象 1 0.90

重篤でない症状や有害事象 0.9 0.80

注) 値はリスク⽐の信頼区間の上限値，値が⼩さいほど実験的治療が対照的治療よりも優れていることを意味する

IQWIG: General Methods. 2015 (https://www.iqwig.de/en/methods/methods-paper.3020.html)

56

治療法アウトカム⽐率差臨床的意味の⼤きさアスピリン vs

プラセボ⼼筋梗塞の発症 0.8% 通常診療の⼀環に

シクロスポリン(抗⽣物質) vs

通常診療

臓器移植の拒絶反応 15.9% 画期的な打開策と認知

⼼理療法 vs通常診療

⼼理・社会的状態 32.3% ほどほど

注) 値はリスク差の推定値，値が⼤きいほど実験的治療が対照的治療よりも優れていることを意味する

Kraemer et al: Biolo Psychiatry 59: 990-996, 2006.Rosentahl et al: Contrasts and effect sizes in behavioral research. Cambridge, 2006.

臨床的有意差の実例 (アウトカム・治療法依存性)

⽣命/⽣活への影響が⼤きいアウトカム⼩さな差でも臨床的意味が⼤きい安価/安全な治療法⼩さな差でも臨床的意味が⼤きい

⽣命/⽣活への影響が⼩さいアウトカム⼤きな差でも臨床的意味が⼩さい⾼価/危険な治療法⼤きな差でも臨床的意味が⼩さい

57Kraemer et al: Biolo Psychiatry 59: 990-996, 2006.Rosentahl et al: Contrasts and effect sizes in behavioral research. Cambridge, 2006.

臨床的有意差の原則

臨床的有意差の簡易的な調べ⽅例数設計における記述臨床的有意差を定義していることがある得点可能範囲の10%の値0~60点の尺度➡6点の群間差

58Guyatt et al: Users’ guide to the medical literature (3rd ed). JAMAevidence. 2015.

群内の評価指標の事例

59

アウトカムインターネット⽀援型認知⾏動療法

通常診療

疲労の重症度 (8~56点), 平均値 (標準偏差)

24.0 (13.4) 42.3 (13.1)

12~18歳の慢性疲労症候群におけるインターネット⽀援型認知⾏動療法による慢性疲労への効果アウトカム: 6か⽉時点の慢性疲労の質問紙 (Checklist

Individual Strength-20) の重症度介⼊と対照: 認知⾏動療法群 67名 vs. 通常診療群 64名


計算と解釈の事例

60

事例平均値差 (95% 信頼区間)計算－18.3(－22.9, －13.7)

解釈 ✅ 統計的に有意な群間差 (p<.05)✅臨床的有意差は未記載のため，信頼区間の上限値13.7がもつ意味の解釈は困難




62

アウトカム別，集団レベルの評価指標アウトカムの種類

要素量的質的(2⽔準)

群内の評価指標平均値標準偏差

リスクオッズ

群間差の評価指標平均値差標準化平均値差

リスク⽐オッズ⽐リスク差必要治療症例数(NNT)

63Higgins JPT, Green S: Cochrance handbook for systematic reviews of interventions. Wiley-Blackwell. 2008Chan AW et al: BMJ. 2013 Jan 8;346:e7586.

アウトカム，質的変数の事例12~18歳の慢性疲労症候群におけるインターネッ

ト⽀援型認知⾏動療法による授業出席への効果アウトカム: 6か⽉時点の過去12⽇間における授業の完全出

席の有無 (⽋席率10％以下)介⼊と対照: 認知⾏動療法群 67名 vs. 通常診療群 64名

64

授業の完全出席要素ありなしインターネット⽀援型認知⾏動療法

50 (75%) 17 (25%)

通常診療 10 (16%) 54 (84%)


群内の評価指標，リスクとオッズ

65

統計量リスク (risk) オッズ (odds)

計算式

得点範囲 0〜1 0〜∞

事例 50/67 = 0.75 50/17 = 2.94

解釈 100⼈中75名が授業完全出席

授業の完全出席3名につき不完全出席1名

標本サイズイベント発⽣数

イベント未発⽣数イベント発⽣数

群間の評価指標，リスク⽐

66

統計量リスク⽐ (Risk ratio/Relative risk: RR)計算式

得点範囲 0〜1〜1/対照群のイベント発⽣率(1=「群間差なし」)

解釈① <1: 実験群のイベント発⽣率は，対照群のRR=1: 両群で差がない>1: 実験群のイベント発⽣率は，対照群のRR倍

解釈② 介⼊によりイベント発⽣率が100×(RR－1)%増加介⼊によりイベント発⽣率が100×(1－RR)%減少

率対照群のイベント発⽣率実験群のイベント発⽣

RR

リスク⽐の計算と解釈例

67

事例完全出席のリスク不完全出席のリスクRR (50/67)/(10/64) = 0.75/0.16

= 4.78(17/67)/(54/64) = 0.25/0.84 = 0.30

解釈① 授業の完全出席率は，認知⾏動療法群の⽅が，通常診療群よりも4.78倍⾼かった(0.16*4.78=0.75)

授業の不完全出席率は，認知⾏動療法群は，通常診療群の3/10であった(0.84*0.30=0.25)

解釈② 認知⾏動療法により，授業完全出席率が378%増加(0.16*3.78+0.16=0.75)

認知⾏動療法により，授業の不完全出席率が70%減少(0.84－0.84*0.70=0.25)

対称性 1/RR = 1/4.78 ≠ 0.30 1/RR = 1/0.30 ≠ 4.78

群間の評価指標，オッズ⽐

68

統計量オッズ⽐ (Odds Ratio: OR)計算式

得点範囲 0〜1〜∞ (1=「群間差なし」)解釈① <1: 実験群のイベント発⽣オッズは，対照群のOR

=1: 両群で差がない>1: 実験群のイベント発⽣オッズは，対照群のOR倍

解釈② 介⼊によりイベント発⽣オッズが100×(OR－1)%増加介⼊によりイベント発⽣オッズが100×(1－OR)%減少

対照群のオッズ実験群のオッズ

OR

オッズ⽐の計算と解釈例

69

事例完全出席のオッズ不完全出席のオッズOR (50/17)/(10/54) = 2.94/0.19

= 15.88(17/50)/(54/10) = 0.34/5.40=0.06

解釈① 授業の完全出席のオッズは，認知⾏動療法群の⽅が，通常診療群よりも15.88倍⾼かった (0.19*15.88=2.94)

授業の不完全出席のオッズは，認知⾏動療法群は，通常診療群の6/100であった(5.40*0.06=0.34)

解釈② 認知⾏動療法により，授業完全出席のオッズが1488%増加(0.19*14.88+0.19=2.94)

認知⾏動療法により，授業の不完全出席のオッズが94%減少(5.54－5.54*0.94=0.34)

対称性 1/OR = 1/15.88 = 0.06 1/OR = 1/0.06 = 15.88

群間の評価指標，リスク差

70

統計量リスク差 (Risk Difference: RD)計算式

得点範囲－1〜0〜＋1 (各群の発⽣率に依存)

解釈① <0: 実験群のリスクは，対照群よりRD*100%低い=0: 両群で差がない>0: 実験群のリスクは，対照群よりRD*100%⾼い

解釈② 特定期間に1⼈多くイベント発⽣/発⽣防⽌することを期待するには，⽐較対照の介⼊よりも実験的介⼊によりNNT=[1／|RD|]⼈を治療する必要がある

率対照群のイベント発⽣率実験群のイベント発⽣ RD

リスク差の計算と解釈例

71

事例完全出席のリスク不完全出席のリスクRD (50/67)－(10/64) = 0.75－

0.16 = 0.59(17/67)－(54/64) = 0.25－0.84 = －0.59

解釈① 授業の完全出席率は，認知⾏動療法群の⽅が，通常診療群よりも59%⾼かった(0.59*100=59)

授業の不完全出席のオッズは，認知⾏動療法群は，通常診療群よりもの59%低かった(－0.59*100=－59)

解釈② 認知⾏動療法により1.7⼈治療して (1/|0.59|=1.7)，6か⽉後に1⼈多く完全出席させられる

認知⾏動療法により1.7⼈治療して (1/|－0.59|=1.7)，6か⽉後に1⼈多く不完全出席を防⽌できる

リスク⽐，オッズ⽐，リスク差の違い

72

指標数学的性質解釈可能性リスク⽐ × ○オッズ⽐ ◎ ×リスク差 × ◎

推奨1．イベント定義に注意してリスク⽐/オッズ⽐推奨2．評価指標により結論が変化しないか感度分析

Higgins JPT, Green S: Cochrance handbook for systematic reviews of interventions. Wiley-Blackwell. 2008

批判的吟味の理解

バイアスへのリスクの評価粉飾の評価

73

バイアス (真実からの乖離) へのリスク

74

バイアスの種類判断基準選択バイアス乱数⽣成

割り付けの隠蔽化実⾏バイアス患者と治療者の盲検化検出バイアス評価者の盲検化⽋測バイアスアウトカム測定の完全性報告バイアス事前設定したアウトカム報告

Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook)

選択バイアスによる過⼤評価，乱数⽣成の不備11%，割り付けの隠蔽化の不備7%

75Savović J et al: Ann Intern Med. 2012 Sep 18;157(6):429-38.

0.8 0.9 1.0 1.1 1.2Ratio of Odds Ratio

隠蔽化不十分不明試験: / (916 ) 十分試験 vs. (376 )

乱数生成不十分不明試験: / (832 ) 十分試験 vs. (112 )

0.89 (0.82,0.96)

0.93 (0.87,0.99)

バイアスへのリスクの評価法

76Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook)

お⼿本はコクランレビュー

77Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237.

乱数⽣成の評価基準例‘High risk’ of bias 介⼊の利⽤可能性により割り付け (allocated by availability of the

intervention) 患者の好みにより割り付け (allocation by preference of the participants)

‘Low risk’ of bias コンピュータによる乱数⽣成 (using a computer random number generator) 最⼩化法の使⽤ (using minimization methods)

‘Unclear risk’ of bias 無作為に割り付け

(patients were randomly allocated)

78Chapter 8: Assessing risk of bias in included studies (http://www.cochrane.org/handbook)

乱数⽣成の評価事例研究評価判断根拠の記述Hayward 2000[1]

High ”Twelve subjects were recruited for each randomisation, with 6 subjects randomly assigned to the CBGT-C condition and 6 to an untreated condition. After 2 treatment groups were completed, a third set of 11 subjects were included in the untreated condition“

Simon 1998[2] Low “Patients were randomly assigned using computer generated random numbers.”

79[1] James AC et al: Cochrane Database Syst Rev. 2015 Feb 18;2:CD004690[2] Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237.

割り付けの隠蔽化の評価基準例

80

‘High risk’ of bias 封印されていない封筒の利⽤ (assignment envelopes were used without

appropriate safeguards) 公開された割り付け予定乱数の利⽤ (using an open random allocation

schedule)

‘Low risk’ of bias 中央登録⽅式の利⽤ (using a method of central allocation) 不透明の封印された連続番号の封筒の利⽤ (using a method of

sequentially numbered, opaque, sealed envelopes)

‘Unclear risk’ of bias 無作為に割り付け

(patients were randomly allocated)


割り付けの隠蔽化の評価事例研究評価判断根拠の記述Donnan1990[1]

High “Each patient received an envelope at the end of the consultation with their general practitioner, which at random contained either the self-help materials and a questionnaire or the questionnaire alone. The envelopes were similar but those containing the self-help material were heavier.”

Hollinghurst2010[2]

Low “Randomization was by means of a computer-generated code, implemented by an individual who was not involved in the recruitment process, and communicated to the participant within 48 h of the baseline interview.” “The allocation was concealed in advance from participants, researchers involved in recruitment, and therapists.”

81[1] Mayo-Wilson E et al: Cochrane Database Syst Rev. 2013 Sep 9;9:CD005330.[2] Nieuwenhuijsen K et al: Cochrane Database Syst Rev. 2014 Dec 3;12:CD006237.

治療者と患者の盲検化の評価基準例

82

‘High risk’ of bias 治療者と患者の盲検化を試みたが，失敗している可能性がある (blinding

of key study participants and personnel attempted, but likely that the blinding could have been broken)

‘Low risk’ of bias 治療者と患者の盲検化は確実である (blinding of participants and key

study personnel ensured)

‘Unclear risk’ of bias 判断するための⼗分な記載がない


治療者と患者の盲検化の評価事例研究評価判断根拠の記述Hees 2013 High “Due to the nature of the intervention, neither patients

nor therapists could be blinded to the patient’s allocation status.” Both treatments cannot be considered equally desirable for patients, so risk of performance bias high

Burnand 2002 Low No blinding but risk of performance bias low as both treatments can be considered equally desirable for patients “Both treatments involved the sameclomipramine protocol and intensive nursing in a specialized milieu. In addition, the amount of structured psychodynamic psychotherapy provided during combinedtreatment was comparable to the amount of supportive care provided during treatment with clomipramine alone.”


評価者の盲検化の評価基準例

84

‘High risk’ of bias 評価者の盲検化を⾏っておらず，盲検化の有無が測定結果に影響する可能

性がある (no blinding of outcome assessment, and the outcome measurement is likely to be influenced by lack of blinding)

‘Low risk’ of bias 評価者の盲検化を確かに⾏っている (blinding of outcome assessment

ensured, and unlikely that the blinding could have been broken)



評価者の盲検化の評価事例研究評価判断根拠の記述Burnand 2002 High “The individuals who rated the presence and severity of

major depression and HSRS scores at ten weeks were not blinded to treatment assignment.”

Hollinghurst2010

High The BDI is a self-report inventory. As participants were aware of their intervention status, risk of bias high

Hees 2013 Low “Study assessment were conducted by a psychiatrist and a researcher who where blind to group allocation.” As the HRSD is a clinician-rated instrument, there is a low risk of bias for the HRSD outcome


アウトカム測定の完全性の評価基準例

86

‘High risk’ of bias ⽋測の理由が，真のアウトカムの値と関連する (reason for missing

outcome data likely to be related to true outcome) 不適切な単⼀代⼊法を利⽤する (potentially inappropriate application of

simple imputation)

‘Low risk’ of bias アウトカム測定に⽋測がない (no missing outcome data)



アウトカム測定の完全性の評価事例


無作為化した⼈数 (N) 評価時の⽋測数 (n)

症例登録

無作為化

実験群対照群

対照群

アウトカム測定

脱落割合 (n/N×100)✅10%未満...low✅ 10%~20%...⽋測値の処理法に依存✅ 20%超...high

事前設定したアウトカム報告の評価基準例

88

‘High risk’ of bias ⼀つ以上の主要評価項⽬が事前に設定されていない (one or more

reported primary outcomes were not pre-specified)

‘Low risk’ of bias 研究計画書が⼊⼿可能であり，すべての評価項⽬は事前設定と⼀致してい

る (the study protocol is available and all of the pre-specified (primary and secondary) have been reported in the pre-specified way)



事前設定したアウトカム報告の評価事例研究評価判断根拠の記述Noordik 2013 High Not all (secondary) outcomes measures announced in the

design paper were reported in the effect study, of which the data on the HADS-depression subscale

Hees 2013 Low The study protocol is available and all of the study’s pre-specified (primary and secondary) outcomes that are of interest in the review have been reported in the pre-specified way


報告バイアスの発⽣パターン

90

事前設定した主要評価項⽬を削除論⽂で主要評価項⽬を新設主要評価項⽬から副次評価項⽬に格下げ副次評価項⽬から主要評価項⽬に格上げ主要評価項⽬の評価時点の変更

[1] Mathieu S et al: JAMA. 2009 Sep 2;302(9):977-84[2] You B et al: J Clin Oncol. 2012 Jan 10;30(2):210-6[3] Hannink G et al: Ann Surg. 2013 May;257(5):818-23[4] Killeen S et al: Ann Surg. 2014 Jan;259(1):193-6

臨床試験の事前登録義務35. ⼈間を対象とするすべての研究は，

最初の被験者を募集する前に⼀般的にアクセス可能なデータベースに登録されなければならない。

91⽇本医師会 (http://www.med.or.jp/wma/helsinki08_j.html#ja)

事前の研究概要をWeb公開

92Black DS et al: JAMA Intern Med. 2015 Apr;175(4):494-501

主要評価項⽬のズレの確認

93Black DS et al: JAMA Intern Med. 2015 Apr;175(4):494-501

論⽂

臨床試験登録

批判的吟味の理解

バイアスへのリスクの評価粉飾の評価

95

臨床試験の粉飾 (spin)

96

研究者は失敗した研究成果を盛って報告しがち

奥村: Monthly IHEP 301: 23-28, 2014 (http://goo.gl/ywZ8a0)

失敗した臨床試験，結論を粉飾，40~59%

97

[1] Boutron I et al: JAMA. 2010 May 26;303(20):2058-64[2] Yavchitz A et al: PLoS Med. 2012;9(9):e1001308[3] Lockyer S et al: Trials. 2013 Nov 6;14:371[4] Patel SV et al: Dis Colon Rectum. 2013 Dec;56(12):1388-94

バラエティ豊かな粉飾法

98奥村: Monthly IHEP 301: 23-28, 2014 (http://goo.gl/ywZ8a0)

粉飾事例，リサーチクエスチョン

99

P : 地域住⺠ (地⽅部/都市部)

I : 複合的⾃殺予防プログラムC : 通常の⾃殺予防対策

O : ⾃殺死亡者数と⾃傷搬送者数の合計

T : 治療開始3.5年

Ono Y et al: PLoS One. 2013 Oct 9;8(10):e74902

主要評価項⽬，統計的有意性はない

100Ono Y et al: PLoS One. 2013 Oct 9;8(10):e74902

介⼊群が好ましい対照群が好ましい

地⽅部の副次評価項⽬ (⾃傷搬送者数)，⼀部のサブグループに有意性

101

介⼊群が好ましい対照群が好ましいOno Y et al: PLoS One. 2013 Oct 9;8(10):e74902

要旨の結論部を粉飾主要評価項⽬の粉飾複合的⾃殺予防プログラムは，都市部ではな

く地⽅部で実施できる。 Our findings suggest that this community-based multimodal intervention

for suicide prevention could be implemented in rural areas, but not in highly populated areas.

副次評価項⽬ + サブグループの焦点化地⽅部における介⼊の効果は，男性と⾼齢者

で⽰された。 The effectiveness of the intervention was shown for males and for the

elderly in rural areas.

102[1] Ono Y et al: PLoS One. 2013 Oct 9;8(10):e74902[2] 奥村: Monthly IHEP 301: 23-28, 2014

粉飾の評価の流れ

103

優越性試験の確認(論⽂の標題・要旨) ⾮劣性・同等性試験

主要評価項⽬の確認(臨床試験登録/研究計画書/論⽂)

真の主要評価項⽬の群間差の確認(論⽂の結果) 有意な群間差

結果と結論の整合性の確認整合性がある

粉飾の種類の同定(群内差/副次評価項⽬/サブグループ/⾮劣性・同等性)

研究疑問の確認

無作為化⽐較試験の検索と⼊⼿

検索⼊⼿

105

基本は，PubMed，MeSH検索

106

MeSH Databaseをクリック

MeSH⽤語，randomized controlled trial

107

randomized controlled trial

と⼊⼒Search

をクリック

6⽤語ヒット

108

Randomized Controlled Trial [Publication Type]

をクリック

MeSH⽤語の定義

109

Add to search builderをクリック

検索式の確認

110

“Randomized Controlled Trial“[Publication Type]

検索式が⽣成

検索条件，「患者」と「介⼊」の追加Patients...慢性疲労症候群Intervention...⼼理療法

注) 患者や介⼊の検索条件は，広めに設定

111

MeSH⽤語，慢性疲労症候群

112

chronic fatigue syndromeと⼊⼒

Searchをクリック

MeSH⽤語の定義

113


検索式の確認

114

"Fatigue Syndrome, Chronic"[Mesh]検索式が追加

MeSH⽤語，⼼理療法

115

psychotherapyと⼊⼒

Searchをクリック

10⽤語ヒット

116

Psychotherapyをクリック

MeSH⽤語の定義

117


MeSH⽤語の定義

118

"Psychotherapy"[Mesh]検索式が追加

検索式がよければSearch PubMed

をクリック

60論⽂ヒット

119

無料で読めるもの

無作為化⽐較試験の検索と⼊⼿

検索⼊⼿

120

⽂献⼊⼿法所属施設の図書館購読雑誌全⽂データベース⽂献複写依頼Google検索著者請求国⽴国会図書館

121

施設

個⼈

上位5論⽂の書誌情報

出版年雑誌名巻(号):⾴無料⼊⼿

2014 BMC Fam Pract 5:184 ○

2014 J Psychosom Res 77(1):20-6 ○

2013 Trials 14:444 ○

2013 Trials 14:386 ○

2013 J Psychosom Res 75(3):249-54 ×

122

Google検索，”タイトル”+ filetype:pdf

123

国⽴国会図書館インターネットから郵送複写サービス

126

おわりに

127

エビデンスの質の評価基準

128

研究法エビンデンスの質R C T → High

ModerateR C T 以外 → Low

Very low

降格基準バイアスへのリスク研究結果の不⼀致外挿広い信頼区間出版バイアス

Guyatt G et al: J Clin Epidemiol. 2011 Apr;64(4):383-94.

昇格基準⼤きな効果⽤量反応性交絡因⼦の調整

Take Home MessagesRCTの読解，臨床家に必須研究疑問はPICO-Tに定式化量的変数の評価，平均値差/標準化平均値差質的変数の評価，リスク⽐/リスク差/オッズ⽐RCTの質の評価，コクラン，バイアスへのリスク粉飾に注意PubMedで⽂献検索，⽂献⼊⼿は施設/個⼈

129

推薦図書福原俊⼀: 臨床研究の道標: 7つのステップで学ぶ研究

デザイン. 健康医療評価研究機構. 2013.福原俊⼀: リサーチ・クエスチョンの作り⽅.健康医

療評価研究機構. 2008⽊原雅⼦, ⽊原正博:医学的研究のデザイン研究の質

を⾼める疫学的アプローチ第4版. メディカルサイエンスインターナショナル. 2014.

坂本真⼠, ⼤平英樹: ⼼理学論⽂道場: 基礎から始める英語論⽂執筆. 世界思想社. 2013

130

明日から読める無作為化比較試験: 行動療法研究に求められる統計学

Health & Medicine

Transcript of 明日から読める無作為化比較試験: 行動療法研究に求められる統計学