Post on 20-May-2020
仮説検証型 (hypothesis testing)の研究
仮説を立てる
データ収集
分析
解釈
質問紙やテストなどの測定具
目に見えない能力を評価
測りたい能力を測れてる? (妥当性)
安定して正確な結果が得られる? (信頼性)
仮説検証型 (hypothesis testing)の研究
仮説を立てる
データ収集
分析
解釈
データを解釈可能な形にする
平均値に差はある?
得点間にはどんな関係がある?
どのくらいの差があった?
その結果は偶然ではない?統計分析が欠かせない =本書を学ぶ理由
社交性診断
1. 宿題は必ずやってくるほうだ
2. 期限は守れる方だ
当てはまらない どちらでもない 当てはまる1 2 3 4 5
当てはまらない どちらでもない 当てはまる1 2 3 4 5
この2つは同じような質問のため,同じ人が回答すれば似たような回答になる→信頼性はある
社交性を測るための質問項目として適切か? →妥当性は満たされない
妥当性といってもいろいろありまして 米国教育学会,米国心理学会,全米教育測定協議会 (1966)妥当性の種類 定義 検証法
内容的妥当性 測りたい能力や特性を測るのに十分な項目があるか 専門家の判断
基準関連妥当性 1.併存的妥当性 2.予測的妥当性
1.外部の基準との関連 2.ある時点の結果が将来のパフォーマンスをどの程度予測できるか
相関分析
構成概念妥当性 尺度が測定しようとしている構成概念をどの程度反映しているか
相関分析 因子分析 MTMM
表面的妥当性 測定したいもの測定しようとしているように見えるか
単一の概念とは言っても妥当性に関する証拠は たくさんあったほうが良いわけで… Messick (1995, 1996)
妥当性の側面 証拠 収集法の例内容的 内容的妥当性にあたる 専門家の判断
本質的 項目やタスクに回答する実際の プロセスが理論と一致している
質問紙 発話プロトコル
構造的 尺度の得点が,構成概念の次元を反映している
SEM 因子分析
一般化可能性母集団が同じであれば,データの理論的特性(e.g., 平均点)が一
貫している
一般化可能性理論 アルファ係数
外的 併存的妥当性にあたる SEM
結果的 特定の尺度を使用することによる悪影響がない 波及効果の分析
MTMM (多特性・多方法行列分析法)収束的妥当性と弁別的妥当性から,構成概念妥当性を検証
異なる方法で,同じ能力を測定 → 得点の相関は高い同じ方法で,異なる能力を測定 → 得点の相関は低い
p. 8の例を参照
Kane (2006) の妥当性の論証によるアプローチ解釈的論証と妥当性論証の2段階の論証
解釈的論証テスト得点の解釈および使用に関わる推論と その前提を明確にする
妥当性論証推論の前提の裏付け となる証拠を提供し, 根拠や論拠を提示する.
具体的には,(1) 得点化,(2) 一般化,(3) 外挿,(4) 決定の4つの推論に対し,前提を明らかにし,根拠を提示する
Chapelle et al. (2008) およびChapelle (2015)6+1の合計7つの推論に基づく妥当性検証
(1) 領域定義 測定する構成概念が明確である (2) 評価 パフォーマンスが適切な形で素点になる (3) 一般化 一貫した結果が得られる(4) 説明 構成概念を測定しているという分析結果 (5) 外挿 テスト以外の状況で同じ能力を発揮できる (6) 使用 (7) 影響
Bachman and Palmer (2010)論拠と反証を明示し,正当化を行う
(1) 評価記録は一貫している (2) 解釈は意義がある (3) 偏見がない (4) 一般化できる (5) 関連性がある (6) 充足する
評価タスクから観測されたパフォーマンスに対し
得点に基づく決定に対し(7)価値がある (8) 公平である
古典的テスト理論では
得られたテスト得点は以下の前提を含む
• 誤差はランダムに生ずる,つまり真値との相関はゼロ
• 誤差はプラスとマイナスどちらの値もあり平均はゼロ
• 誤差同士の相関もゼロ
観測値=真値+誤差
古典的テスト理論では
得られたテスト得点は以下の前提を含む
• 分散とは,各データが平均からどのくら離れているかの平均(実際は2乗してプラスマイナスを打ち消す)
• 信頼性係数ρは真値の分散/観測値の分散
観測値の分散=真値の分散+誤差の分散
.80以上が良いとされる
※ただし,真値がわからないので求めることができない