[PPT]一般化可能性理論とパフォーマンス評価 …m-sk.sakura.ne.jp/murakou/G.ppt ·...

一般化可能性理論一般化可能性理論 (generalizability (generalizability theory) theory) とパフォーマンス評価とパフォーマンス評価 (p(p

erformance assessment)erformance assessment)

日本学術振興会・東京工業大学日本学術振興会・東京工業大学村山航村山航

[email protected]@orion.ocn.ne.jp

ContentsContents

一般化可能性理論とは一般化可能性理論とはパフォーマンス評価に対する一般化可能パフォーマンス評価に対する一般化可能性理論研究の現状性理論研究の現状

古典的テスト理論古典的テスト理論信頼性信頼性 (reliability) (reliability) ＝尺度の一貫性・安定性＝尺度の一貫性・安定性信頼性係数信頼性係数– 全分散における真値の分散の占める割合全分散における真値の分散の占める割合

– 誤差分散が大きいと小さくなる誤差分散が大きいと小さくなる

推定方法推定方法– 再テスト法，平行テスト法，再テスト法，平行テスト法， CronbachCronbach のの αα などなど

補足：信頼性と妥当性補足：信頼性と妥当性妥当性：測定したいものを測定できてい妥当性：測定したいものを測定できているかるか

信頼性：高妥当性：高信頼性：低妥当性：低信頼性：高妥当性：低※ 妥当性が高く信頼性が低いことは考えにくい（信頼性は妥当性の必要条件）

古典的な「信頼性」概念の限界古典的な「信頼性」概念の限界意味が多義的：「安定」「一貫」とは何意味が多義的：「安定」「一貫」とは何か？か？– 時間的に安定しているのか：再テスト信頼性時間的に安定しているのか：再テスト信頼性– （同じ概念を測定する）テスト・項目間で一（同じ概念を測定する）テスト・項目間で一貫しているのか：貫しているのか： αα 係数係数ポイント：「誤差」の意味によって信頼ポイント：「誤差」の意味によって信頼性の意味も変わってくる性の意味も変わってくる時間的な変動⇒時間的安定性

項目間の変動⇒項目間一貫性評定者間の違い⇒評定者間一貫性

一般化可能性理論一般化可能性理論 (generalizability theory)(generalizability theory) とはとは

古典的テスト理論より洗練された形で信古典的テスト理論より洗練された形で信頼性を評価する手法：以下の２つの段階頼性を評価する手法：以下の２つの段階があるがある– Generalizability (G) studyGeneralizability (G) study

分散分析分散分析 (ANOVA) (ANOVA) の原理を用いて，異なるソーの原理を用いて，異なるソースの誤差分散の成分を分離して推定するスの誤差分散の成分を分離して推定する

– Decision (D) studyDecision (D) studyG study G study で得られた分散成分をもとに，さまざまで得られた分散成分をもとに，さまざまなデザインにおける信頼性を評価するなデザインにおける信頼性を評価する

用語用語相相 (facet)(facet)– 評定者，項目，時間といったテストの諸側面．評定者，項目，時間といったテストの諸側面．一般化可能性理論では，この相ごとに誤差を分一般化可能性理論では，この相ごとに誤差を分離していく．離していく．測定の対象測定の対象 (object of measurement)(object of measurement)– 多くの場合，人（もしくは学校）．ここの分散多くの場合，人（もしくは学校）．ここの分散が真値の分散とみなされる．が真値の分散とみなされる．ユニバース（ユニバース（ universe)universe)– それぞれの相における母集団（のようなもの）．それぞれの相における母集団（のようなもの）．– 一般化可能性理論で「母集団」一般化可能性理論で「母集団」 (population)(population) とという言葉は「測定の対象」にのみ使われる．いう言葉は「測定の対象」にのみ使われる．

具体例具体例 (Brennan et al., 1996 (Brennan et al., 1996 より）より）California Assessment Program (CAP) California Assessment Program (CAP) の理科の理科のアセスメント（一種のパフォーマンス評価）のアセスメント（一種のパフォーマンス評価）– ５つの課題５つの課題 ((tt))– ３人の評価者３人の評価者 ((rr) ) がすべての課題を評価がすべての課題を評価– 得点はどれも１点－４点得点はどれも１点－４点– 評価の対象は当然受験者評価の対象は当然受験者 ((pp))

p x t x r デザインと呼ぶ（すべての要因がクロス）課題ごとに評価者が違うなら p x (r : t) デザイン（” A:B” は” A は B にネストされた”という意味）

G studyG study

変量効果の分散分析により分散成分変量効果の分散分析により分散成分 (( 平平均平方和均平方和 MSMS ではないので注意）を推定ではないので注意）を推定– ユニバース・母集団における個々の効果の分ユニバース・母集団における個々の効果の分

散散– pp x x tt x x rr デザインのとき，求める分散成分はデザインのとき，求める分散成分は

交互作用を含め，交互作用を含め， pp, , tt, , rr, , ptpt, , prpr, , trtr, , ptrptr + + ee のの 7 7 つ．つ．※ 注：複数の水準がないとその相の分散は推定できない（例：評定者１人だと評定者相の分散成分は推定できない）

CAPCAP の結果の結果Variance Variance

componentscomponentsEstimates Estimates

of σof σ Persons (Persons (pp)) 0.2980.298

Tasks (Tasks (tt)) 0.0920.092

Raters (Raters (rr)) 0.0030.003

ptpt 0.4930.493

prpr 0.0000.000

trtr 0.0020.002

ptrptr + e + e 0.1480.148

全ての課題・評定者の評定を平均したとき，生徒の得点が母集団でどれくらい分散しているか ⇒ 大きいほどよい（生徒の能力を識別できている）得点の課題間での（ユニバースにおける）ばらつき．難易度にばらつきがあると，ここが大きくなる評定者間の評定のばらつき課題によって生徒の順序が入れ替わる程度 ( Ａ君は B君より課題１が得意だが，課題２は B 君の方が A 君より得意 )評定者によって生徒の順序が入れ替わる程度全要因の交互作用＋その他の誤差

G study G study より分かったことより分かったこと個々の得点は生徒間の個人差をある程度個々の得点は生徒間の個人差をある程度は捉えているは捉えているただし，課題によって生徒の順序が入れただし，課題によって生徒の順序が入れ替わってしまう ⇒ 大問題（テスト結果が替わってしまう ⇒ 大問題（テスト結果が使われた課題に大きく依存してしまうか使われた課題に大きく依存してしまうから）ら）評定者間のばらつきは思ったほど大きく評定者間のばらつきは思ったほど大きくない（むしろ小さい）ない（むしろ小さい）

D studyD studyG study の分散成分

「１つの観測得点」に関するもの（ e.g., A 君の課題 P における評定者 α の

評定値）

実際に興味があるのは「 5 つの課題の平均点」や「 2 人の評定者の平均点」に関する信頼性

D studyD study における信頼性の推定における信頼性の推定– 複数の相からのサンプルにおける複数の相からのサンプルにおける「平均値」「平均値」の信頼性の信頼性（一般化可能性）を求める（一般化可能性）を求める– 「評定者を４人に増やしたら？」といった仮想の実験「評定者を４人に増やしたら？」といった仮想の実験デザインに対する信頼性の推定も可能デザインに対する信頼性の推定も可能

pp x x tt x x rr デザインにおける推定デザインにおける推定Variance component in Variance component in D study D study （平均値を取る（平均値を取る相を大文字で表現）相を大文字で表現）

Variance component in G study 測定の対象の分散はそのまま

平均値の標準誤差を算出する公式を適用（分散をサンプル数で割る）

２種類の信頼性係数２種類の信頼性係数Dependability Coefficient ΦDependability Coefficient Φ– 以外すべてを誤差と考える以外すべてを誤差と考える

Generalizability Coefficient ρGeneralizability Coefficient ρ22 (or Eρ (or Eρ22))– PersonPerson との交互作用のみを誤差と考えるとの交互作用のみを誤差と考える

ΦΦ とと ρρ22 の違いの違いポイント：やが大きいのは問題か？ポイント：やが大きいのは問題か？

生徒の能力順位を知りたいとき課題Ａ（易）

１位：太郎君（ 95点）２位：直美さん（ 90 点）３位：亮君（ 80点）…

５５位：瑛太君（ 35 点）５６位：拓也君（ 30 点）

課題 B （難）１位：太郎君（ 55点）２位：直美さん（ 50点）３位：亮君（ 45点）…

５５位：瑛太君（ 5点）５６位：拓也君（ 0点）

だけが大きい例問題ナシ（順位は課題によって変わらないから）．むしろ怖いのはが大きいときが高いのがよい

ΦΦ とと ρρ22 の違いの違いポイント：やが大きいのは問題か？ポイント：やが大きいのは問題か？

生徒の絶対得点（ e.g., 60 点）で選抜したいとき課題Ａ（易）１位：太郎君（ 95点）２位：直美さん（ 90 点）３位：亮君（ 80点）…

５５位：瑛太君（ 35 点）５６位：拓也君（ 30 点）

課題 B （難）１位：太郎君（ 55点）２位：直美さん（ 50点）３位：亮君（ 45点）…

５５位：瑛太君（ 5点）５６位：拓也君（ 0点）

だけが大きい例

大問題（選んだ課題により 60 点の意味が違ってくるから）．が高いのがよい

２種類の信頼性係数：まとめ２種類の信頼性係数：まとめ受験者の相対順位に興味がある場合は受験者の相対順位に興味がある場合はの大きさをみる必要性の大きさをみる必要性– 多くの場合はこちらが重要多くの場合はこちらが重要– 相関に興味がある場合もこちら相関に興味がある場合もこちら– CronbachCronbach のの αα 係数は係数は p x I p x I デザインにおけデザインにおけ

るこの係数と等しいるこの係数と等しい

受験者の絶対得点に興味がある場合（受験者の絶対得点に興味がある場合（ e.e.g., standard settingg., standard setting など）は，の大きなど）は，の大きさをみる必要性さをみる必要性

CAPCAP の結果の結果Variance Variance

componentscomponentsG studyG study

EstimatesEstimatesD studyD study

EstimatesEstimatesnnrr=3, n=3, ntt=5=5

Persons (Persons (pp)) 0.2980.298 0.2980.298 Tasks (Tasks (tt)) 0.0920.092 0.0180.018 Raters (Raters (rr)) 0.0030.003 0.0010.001 ptpt 0.4930.493 0.0990.099 prpr 0.0000.000 0.0000.000 trtr 0.0020.002 0.0000.000 ptrptr + e + e 0.1480.148 0.0100.010

Eρ2 = 0.73

Φ= 0.70

3 人の評価者， 5 つの課題の平均値を使うと信頼性はまずます

（ユニバースから別の３人の評価者，５つの課題を選んできても結果は安定）

仮想のデザインに対する信頼性の推仮想のデザインに対する信頼性の推定定評定者や課題を増やす（減らす）と信頼評定者や課題を増やす（減らす）と信頼性はどうなるのか？性はどうなるのか？nt や nr に値を代入することで，推定が可能

Efficient なテスト設計が可能！

CAPCAP の場合の場合Brennan (1996) Brennan (1996) よりより

課題が増えると信頼性はかなり改善：もともとが大きいので

評定者の数を増やしても信頼性はそんなに増えない：もともとが小さいので

D study D study より分かったことより分かったこと３人の評定者，５つの課題である程度は３人の評定者，５つの課題である程度は信頼性が保たれている信頼性が保たれている課題を増やすことでより信頼性を高める課題を増やすことでより信頼性を高めることが可能．ことが可能．評定者を増やしてもそれほど信頼性は高評定者を増やしてもそれほど信頼性は高まらない（コストによっては，課題を増まらない（コストによっては，課題を増やし，評定者を減らすという選択もよやし，評定者を減らすという選択もよい）．い）．

一般化可能性理論：その他１一般化可能性理論：その他１Nested Nested デザインデザイン– G study, D study G study, D study のどちらでも適用可能のどちらでも適用可能– NestedNested デザインでも基本はデザインでも基本は Balanced designBalanced design

アンバランスドデザインの場合アンバランスドデザインの場合– 分散成分の推定が難しい ⇒ できれば避けた分散成分の推定が難しい ⇒ できれば避けた

いい– 最尤法最尤法 (Searle et al., 1992)(Searle et al., 1992) ，もしくは，もしくは AnaloAnalo

gous ANOVA (Brennan, 2001) gous ANOVA (Brennan, 2001) を用いるを用いる– 多変量一般化可能性理論（後述）を用いる多変量一般化可能性理論（後述）を用いる

多変量一般化可能性理論多変量一般化可能性理論– 一般化可能性理論の拡張一般化可能性理論の拡張– 固定因子固定因子 (fixed factor ) (fixed factor ) にあたる部分をにあたる部分を多変多変量の従属変数として一般化可能性理論を適用量の従属変数として一般化可能性理論を適用– 具体例：山森（具体例：山森（ 2003)2003)

– 従属変数ごとに各相の水準数が従属変数ごとに各相の水準数が違ってよい違ってよい：：単変量だとアンバランスドなデザインも，多単変量だとアンバランスドなデザインも，多変量だとバランスドデザインになるときがあ変量だとバランスドデザインになるときがありり

一般化可能性理論：その他２一般化可能性理論：その他２

※※ 注：複数の課題があって注：複数の課題があっても，も， random factorrandom factor であるなであるならば，これらを従属変数にらば，これらを従属変数にしてはダメしてはダメ

分散成分の標準誤差分散成分の標準誤差 (see Brennan, 2001)(see Brennan, 2001)– 水準数が少ない相で得られた分散成分は精度が低い水準数が少ない相で得られた分散成分は精度が低い

可能性可能性– 相の水準数を増やすことで標準誤差は減る相の水準数を増やすことで標準誤差は減る

ソフトウェアソフトウェア– G study: SASG study: SAS のの varcomp, mixedvarcomp, mixed– D study: SASD study: SAS マクロマクロ -> http://flash.lakeheadu.ca/-> http://flash.lakeheadu.ca/

~boconno2/gtheory/gtheory.html~boconno2/gtheory/gtheory.html– GENOVA (Brennan): http://www.education.uiowa.GENOVA (Brennan): http://www.education.uiowa.

edu/casma/GenovaPrograms.htmedu/casma/GenovaPrograms.htm

一般化可能性理論：その他３一般化可能性理論：その他３

ContentsContents

一般化可能性理論とは一般化可能性理論とはパフォーマンス評価に対する一般化可能パフォーマンス評価に対する一般化可能性理論研究の現状性理論研究の現状

パフォーマンス評価実施者の陥パフォーマンス評価実施者の陥穽穽「評定の客観性・一貫性が保たれなくて「評定の客観性・一貫性が保たれなくてはいけないから，ルーブリックをしっかはいけないから，ルーブリックをしっかりと作成し，評定者も複数人確保しよりと作成し，評定者も複数人確保しよう！」う！」「評定者間の相関「評定者間の相関 (inter-rater reliability) (inter-rater reliability) が高ければ問題がないだろう」が高ければ問題がないだろう」「高い一般化可能性係数が得られた．こ「高い一般化可能性係数が得られた．これで万事問題なし！」れで万事問題なし！」

もちろん，これらは大切なこと．しかし…

Brennan (1996) より先行研究のまとめ近年の先行研究を見る限り，評定者によるばらつきはほとんどない！

むしろ非常に大きいのは，人と課題の交互作用！

CAPCAP の場合：の場合： repriserepriseBrennan (1996) Brennan (1996) よりより

課題が増えると信頼性はかなり改善：もともとが大きいので

評定者の数を増やしても信頼性はそんなに増えない：もともとが小さいので評定者より課題の数を増やすことが大切！（時間的制約があるとはいえ）

Inter-rater reliabilityInter-rater reliability 神話の危険性神話の危険性基本的に，ある課題に対して２人の評定者基本的に，ある課題に対して２人の評定者が評定したときの相関係数が評定したときの相関係数– 非常によく使われる指標非常によく使われる指標

複数の課題間の分散をまったく考慮に入れていないp x t の成分が真値と交絡し，信頼性を過大推定してしまう(Brennan, 2000)

しかし…

パフォーマンス評価の大きな問題点を見逃す可能性

課題・評定者以外の相の効果課題・評定者以外の相の効果SourceSource VC (%)VC (%) SourceSource VC (%)VC (%)pp 0.07(4)0.07(4) roro 0.000.00rr 0.000.00 toto 0.000.00tt 0.000.00 prtprt 0.000.00oo 0.01(1)0.01(1) propro 0.010.01prpr 0.01(1)0.01(1) ptopto 1.16(59)1.16(59)ptpt 0.63(32)0.63(32) rtorto 0.000.00popo 0.000.00 prto + eprto + e 0.08(4)0.08(4)rtrt 0.000.00Eρ2 = 0.04, Φ = 0.04

Ruiz-Primo et al. (1993)o = occasion = 時間間隔（５ヶ月）

生徒が２回目の時には課題ごとにストラテジーを変えている可能性

信頼性と妥当性は別信頼性と妥当性は別村山村山 (2008)(2008) ：教師による生徒の意欲の評：教師による生徒の意欲の評価価– 複数の評定者を使用複数の評定者を使用– 評定者間一貫性は非常に高い評定者間一貫性は非常に高い– 妥当性（生徒の自己報告と教師の評定との相妥当性（生徒の自己報告と教師の評定との相関）は非常に低い：関）は非常に低い： r = 0.00 – 0.15 (!)r = 0.00 – 0.15 (!)

まとめまとめパフォーマンス評価を実施すると，つい「評定者」パフォーマンス評価を実施すると，つい「評定者」の相だけに目が向きがちであるの相だけに目が向きがちである– もちろんそれは大切もちろんそれは大切

しかし，これまでの研究でもっとも問題になっていしかし，これまでの研究でもっとも問題になっているのはるのは p x t p x t の成分（選ばれた課題によって受験者の成分（選ばれた課題によって受験者の得手・不得手が顕著に違う）の得手・不得手が顕著に違う）– 対策：完全な対策は存在しない対策：完全な対策は存在しない課題を増やす：時間的制約のコストがかかる課題を増やす：時間的制約のコストがかかる出題領域を狭くする：測定できる能力も狭くなってしまう出題領域を狭くする：測定できる能力も狭くなってしまう

他の相（他の相（ occasionoccasion など）や妥当性にも気を配る必など）や妥当性にも気を配る必要性要性

文献１文献１一般化可能性理論一般化可能性理論– オリジナルオリジナル

Cronbach, Gleser, Nanda, & Rajaratnam (1972). Cronbach, Gleser, Nanda, & Rajaratnam (1972). The dependThe dependability of behavioral measurements.ability of behavioral measurements.

– 初学者用文献初学者用文献Brennan (1992). Brennan (1992). Elements of geeneralizability theory (rev. eElements of geeneralizability theory (rev. ed.).d.).Shavelson & Webb (1991). Shavelson & Webb (1991). Generalizability theory: A primerGeneralizability theory: A primer..

– より包括的な文献より包括的な文献Brennan (2001). Brennan (2001). Generalizability theory.Generalizability theory.

– 日本語の文献日本語の文献現代テスト理論（池田央）現代テスト理論（池田央）教育測定学（教育測定学（ LinnLinn 著，池田央ら監訳）第著，池田央ら監訳）第 33 章章

文献２文献２一般化可能性理論のパフォーマンス評価への適用一般化可能性理論のパフォーマンス評価への適用– レビューレビュー

Brennan (1996). Generalizability of performance assessments. IBrennan (1996). Generalizability of performance assessments. In Phillips (Ed.). n Phillips (Ed.). Technical issues in performance assessmentsTechnical issues in performance assessments..Cronbach et al. (1997). Generalizability analysis for performance Cronbach et al. (1997). Generalizability analysis for performance assessments of student achievement or school effectiveness. assessments of student achievement or school effectiveness. EdEducational and Psychological Measurement.ucational and Psychological Measurement.

– 事例事例Ruiz-Primo et al. (1993). On the stability of performance assessRuiz-Primo et al. (1993). On the stability of performance assessments. ments. Journal of Educational MeasurementJournal of Educational Measurement..Shavelson et al. (1993). Sampling variability of performance assShavelson et al. (1993). Sampling variability of performance assessments. essments. Journal of Educational MeasurementJournal of Educational Measurement..Webb et al. (2000). The dependability and interchangeability of aWebb et al. (2000). The dependability and interchangeability of assessment methods in science. ssessment methods in science. Applied Measurement in EducatiApplied Measurement in Educationon..

[PPT]一般化可能性理論とパフォーマンス評価 …m-sk.sakura.ne.jp/murakou/G.ppt ·...

Documents

Transcript of [PPT]一般化可能性理論とパフォーマンス評価 …m-sk.sakura.ne.jp/murakou/G.ppt ·...