Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und...

38
Diagnostik und Evaluation Seminar Nr.: 3134 L 305 Raum FR 4061 Dozentin: Rebecca Lazarides Dozentin: Rebecca Lazarides Adresse: Franklinstraße 28/29 Tel.: 030/ 314-73656 Raum FR 4060 Sprechzeiten: Di 10-12 Uhr (oder nach Vereinbarung) Mail: [email protected] Pädagogische Psychologie SE Pädagogische Diagnostik und Evaluation Rebecca Lazarides

Transcript of Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und...

Page 1: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Diagnostik und Evaluation

Seminar Nr.: 3134 L 305 Raum FR 4061

Dozentin: Rebecca Lazarides Dozentin: Rebecca Lazarides Adresse: Franklinstraße 28/29 Tel.: 030/ 314-73656Raum FR 4060 Sprechzeiten: Di 10-12 Uhr (oder nach Vereinbarung)Mail: [email protected]

Pädagogische Psychologie SE Pädagogische Diagnostik und Evaluation Rebecca Lazarides

Page 2: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Thema 2: Methodenfragen pädagogischer Diagnostik

Ø Wie kann man Wissen und Können von Schülern angemessen untersuchen?

Ø Wie kann man dabei zu einem einigermaßen objektiven Urteil kommen?Urteil kommen?

Ø Woher nimmt man den Maßstab für Bestanden oder Durchgefallen?

Ø Welche Orientierungshilfe bietet ein Notenmittelwert?

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Page 3: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Aspekte diagnostischen Handelns

Vergleich - dient der Beschreibung eines Verhaltens- zu Grunde liegen Informationen zu Art, Häufigkeit, Dauer, Intensität, Latenz oder Distanz des zu beurteilenden Verhaltens

- in der pädagogischen Diagnostik wird v.a. verglichen:à mit früherem Verhalten des gleichen Menschenà mit dem Verhalten anderer Menschenà mit Verhaltensbeschreibungen & Standards

- als Vergleichsmaßstäbe dienen in der pädagogischen Diagnostik individuelle, soziale und sachliche Bezugsnormen

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Analyse - geht über die vergleichende Einordnung neuer Beobachtungen hinaus & fragt, warum ein Verhalten vom Standard abweicht

- betrachtet dabei nicht nur die Gesamtleistung, sondern vor allem auch Stärken und Schwächen der Leistung

Prognose - Lehrer ist im Bereich der Pädagogischen Diagnostik ständig gezwungen, auf Verhalten in anderen Situationen oder in der Zukunft zu extrapolieren

Page 4: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Bsp. Prognose: Ein Schüler hat im Förderunterricht die Multiplikation mit einstelligen Zahlen gelernt, der Lehrer muss nun anhand des beobachteten Verhaltens folgern, ob der Lernerfolg in der Klassensituation wiederholt werden kann, ob der Schüler auch sicher genug für die Multiplikation mit zweistelligen Ziffern ist.

Interpretation - gesammelte Informationen werden geordnet, kritisch beurteilt, gewichtet & zu einer wertenden Stellungnahme bzw. zu einem

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

gewichtet & zu einer wertenden Stellungnahme bzw. zu einem Gesamtbild zusammengefasst = Interpretation

Mitteilung & - Verhaltensbeurteilung wird anderen (Lernende, Wirkungskontrolle Erziehungsberechtigte) mitgeteilt-Wirkung der Mitteilung

sollte kontrolliert werden, um zu wissen, ob der gewünschte Erfolg erreicht wird

Page 5: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Zusammenfassend-Schritte des Diagnostizierens

1. Informationen sammeln2. Informationen in geeigneter Weise gewichten und kombinieren, so dass eine

möglichst objektive, zuverlässige & letztendlich gültige Prognose über das zukünftige Verhalten und Erleben der Person unter den zur Diskussion stehenden Entscheidungsoptionen möglich wird

3. Empfehlung

„Diagnostizieren ist ein Urteilsprozess, der unter Einsatz wissenschaftlicher Methoden erfolgen sollte, die gewährleisten, dass andere Personen beim Einsatz derselben Methoden zu denselben

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

andere Personen beim Einsatz derselben Methoden zu denselben Empfehlungen hinsichtlich der Auswahl der geeigneten pädagogischen Intervention kommen“ (Leutner 2001 in Rost)

Liegen für die Erhebung und Kombination diagnostischer Daten detaillierte und überprüfte Verfahrensregeln vor, die einem methodischen Rechenverfahren folgen, spricht man von statistischer Urteilsbildung

Page 6: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Ø Wozu nutzt das Wissen um sozialwissenschaftliche Methoden und standardisierte Forschungsinstrumente in der pädagogischen Diagnostik bzw. im Lehrerberuf?

- Aktuelle Forschungen (Spinath 2005) zur diagnostischen Kompetenz von Lehrern zeigen, dass allgemeine Lehrereinschätzungen von Schüllerleistungen unterschiedlich akkurat sind-> diagnostische Kompetenz von Lehrern ist eher gering, sofern Lehrer dafür nicht die geeigneten objektiven Messinstrumente nutzen (z.B. standardisierte Tests)

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Tests)

- Geringe Akkuratheit von Lehrerurteilen rührt davon, dass Lehrer ohne direkte Aufforderung kaum von validen Verfahren zur Messung von Schülermerkmalen Gebrauch machen

à Notwendigkeit Lehrer bei der Auswahl und fachgerechten Anwendung geeigneter Testverfahren zu schulen

Page 7: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Grundfragen des Messens und

Skalierens in den

Sozialwissenschaften

ØWelche Messinstrumente werden im pädagogisch

diagnostizierenden Handeln unterschieden?

ØWie konstruiert man pädagogisch-diagnostische Messinstrumente?

ØWelche Qualitätskriterien sollten solche Messinstrumente

erfüllen?

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Page 8: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

„Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-) Objektes (Gegenstand, Ereignis, Person, Situation, Beurteilungssachverhalt) und erfolgt durch eine Zuordnung von Zahlen zu Messobjekten.“

Orth 1995

Ø Messwerte sind immer eine Vergröberung und Vereinfachung einer differenzierten Beobachtung, die eine Vergleichbarkeit von Beobachtungen erst ermöglicht

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

ermöglicht

Methoden des Messens: - Tests- Verhaltensbeobachtung- Gespräch und Interview

Page 9: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Pädagogische Tests

Ø diagnostische Informationen werden häufig über den Einsatz von Tests und Fragebögen erhoben

Ø dabei handelt es sich um eine besonders standardisierte Form der Informationsgewinnung, bei der der Proband Fragen oder Aufgaben schriftlich bearbeitet

Ø Standardisierung: Erhöhung der Objektivität eines Leistungstests & Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen Leistungsstandes

Page 10: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

„Ein Test ist ein systematisches und routinemäßig einsetzbares Verfahren zur Messung definierter Ausschnitte menschlichen Verhaltens. Die Messung wird verwendet, um den Grad der Ausprägung einer sogenannten Eigenschaft, Fähigkeit oder Fertigkeit festzustellen oder/und um zukünftiges Verhalten vorherzusagen.“ (Hasselhorn & Gold 2006)

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Ø Eine gute Übersicht standardisierter pädagogischer Tests findet man im „Brickenkamp Handbuch psychologischer und pädagogischer Tests“ (Brähler,Holling,Leutner & Petermann 2002) sowie in der Reihe „Tests und Trends der pädagogisch-psychologischen Diagnostik“

Page 11: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Was bedeutet Standardisierung ?

v bei Entwicklung & Anwendung der Tests werden spezielle Standards eingehalten, um die Gefahr eines Messfehlers möglichst gering zu halten

v minimale Voraussetzung, um von Standardisierung sprechen zu können, besteht in der formellen Festlegung der Art der Testdurchführung

v Festlegung von Bewertungsnormen, auf deren Basis die individuellen Leistungen eingeordnet werden können (Hasselhorn & Gold 2006)

Was sind Bezugs-/Bewertungsnormen

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

v Unter Bezugsnorm ( engl. reference norm) versteht man einen Standard, mit dem ein Resultat verglichen wird, wenn man es als Leistung wahrnehmen und bewerten will (Heckhausen 1974)

v Soziale Bezugsnorm, Individuelle bezugsnorm, kriteriale Bezugsnorm

Page 12: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Gütekriterien von Tests

Objektivität

- Durchführung, Auswertung & Interpretation sind unabhängig vom Testanwender

- unter Einsatz desselben Tests kommen andere Personen zu derselben Aussage

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Aussage- Bsp.: alle Schüler haben bei ähnlichem Leistungsniveau ähnliche Testergebnisse, unabhängig von der Einstellung des Lehrers zu den einzelnen Schülern

- Durchführungsobjektivität, Auswertungsobjektivität, Interpretationsobjektivität

Page 13: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Reliabilität-Zuverlässigkeit

Validität-Gültigkeit

-Im Idealfall führt dasselbe Instrument zur - Test misst das, was er soll selben Zeit wiederholt angewendet auf -Testitems stellen eine Zufallsstich-

dieselbe Person zu identischen Aussagen probe von Fragen dar, die in ihrer- Messinstrumente sind messfehlerfrei Grundgesamtheit die zu-Messfehler sind z.B. Ungenauigkeiten messende Eigenschaft repräsentieren

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

-Messfehler sind z.B. Ungenauigkeiten messende Eigenschaft repräsentierendes Messinstrumentes (Kontentvalidität)(uneindeutige Formulierungen im Test) - Test korreliert hoch mit anderen

-Bsp.: der Schüler schreibt zweimal die selbe Instrumenten, die dieselbe Eigen-Mathematikklausur & kommt jedes Mal zum schaft messen (Kriteriumsvalidität)selben Punktestand & niedrig mit Instrumenten, die

-Test-Retest-Reliabilität; Paralleltest- andere Eigenschaften messenReliabilität; Split-Half-Reliabilität (diskriminante Validierung)

Page 14: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Wie konstruiert man einen „standardisierten“ pädagogischen Test?

1. Lehrzielanalyse:

Was soll durch den Test geprüft werden?

à Im schulischen Lernen: Prüfung von Kenntnis, Verständnis und Anwendung spezifischer Lehrinhalte

2. Generieren von Testitems:

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Welche Aufgaben stellen eine repräsentative Auswahl des im Unterricht behandelten Inhalts dar?

Page 15: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Um Standardisierung im engeren Sinne zu gewährleisten:

LUKESCH 1998: 5 Schritte der Testkonstruktion

à VorerprobungIst der Test durchführbar? Sind die Aufgaben verständlich & eindeutig formuliert?

à Testdurchführung an einer kleinen StichprobeSind die Aufgaben angemessen?

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Sind die Aufgaben angemessen?Ist der Schwierigkeitsgrad realistisch?

à Aufgaben- und TestanalyseWie streuen sich die Aufgabenschwierigkeiten?(-> empfehlenswert sind Tests, bei denen die Aufgabenschwierigkeit

zwischen 0,20 –jeder 5. kennt die richtige Lösung- und 0,8 -4 von 5 Personen kennen die richtige Lösung- liegt)

Page 16: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Wie gut stimmt die Lösung eines einzelnen Items mit dem Abschneiden eines Probanden im Gesamttest überein-> wie trennscharf ist eine einzelne Aufgabe? (Trennschärfe-Korrelationskoeffizient)

à Testvalidierung Misst der Test, was er messen soll? (Validität) =>Stimmt das Testergebnis mit der sonstigen Leistung des Schülers im getesteten Fach überein?

Bsp.: DEMAT 3+ ergab einen statistischen Zusammenhang von r= -0,61 zwischen Testleistung in Punkten und Mathematiknote = Schüler, die hohen Punktwert im Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik

à Testeichung/ NormierungWie ist die erreichte Einzelleistung in einer vergleichbaren Gruppe einzuordnen?

-Testdurchführung an großer & repräsentativer Stichprobe, um Vergleichs-maßstab zu generieren, der Grundlage für spätere Bewertung von Einzel-leistungen bildet (Bsp.: IQ-Normierung: mittlere Leistung = Punktwert 100)

Page 17: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Und wie konstruiere ich als Lehrer ein formelles Testverfahren?

1. Definition des Curriculums- Curriculum ist ein Entwurf, das Aussagen über die

angestrebten Ziele, Inhalte sowie über die Lernbedingungen,Medien, Methoden & Evaluationsverfahren macht

- Evaluationsverfahren beziehen sich dabei auf die Verfahren,mit deren Hilfe Lehr-Lern-Prozesse überprüft werden

- Curricula sind zumeist von Ministerien vorgegeben

2. Operationalisierung

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

2. Operationalisierung- Wie kann eine Erfassung der Lehr-Lern-Ziele erreicht werden?- Ausdruck-> mdl. Ausdruck; schriftl. Ausdruck; Zeichnung; Mimik; Gestik-Spiel, Gespräch, Fragebogen, Test, Beobachtung…- Soll ein Testverfahren für den gesamten Inhalt des Curriculums entwickelt

werden oder sollen für Teilaspekte spezifische Verfahren entwickelt werden?à Global- vs. Skalenebene- Bsp.: ermittelt man mit nur einem Verfahren die Ausprägung eines Merkmals

(Rechtschreibfähigkeit) & nicht mit einzelnen Skalen, kann man keine Rückschlüsse auf Stärken & Schwächen des Schülers ziehen

Page 18: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

3. Ableitung einer geeigneten Aufgabenform

Welches ist die geeigneteste Form der Überprüfung?-> Möglichkeiten: Lückentest, Multiple-Choice-Test, Ergänzungsaufgaben …

4. Ableitung von Items

Welche Regeln & Konstruktionsschritte werden angewendet, um aus allgemeinen Überlegungen heraus, Items abzuleiten?

à Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

à Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache dadurch definiert werden kann, dass eine Prozedur angegeben wird, mit deren Hilfe die Sache erfasst werden kann (Jäger 2000)

- Bsp.: mit Hilfe eines Intelligenztests wird Intelligenz operationalisiert

à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen - Finden übergeordneter Kategorien zur Grobklassifizierung der Lehrinhalte - aus Grobkategorien kann abgeleitet werden, wie ein Item konstruiert sein muss, dass Lehrinhalte erfasst

Page 19: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Bsp.: Rechtschreibfähigkeit-Konjugation von Verben

Wissen à Konjugieren Verben (Wortschatz)Verstehen

Grammatikalische Regeln

Ø Item: Suche für den folgenden Lückentext passende Verben und setze die richtig konjugierte Form ein. Erkläre zuletzt in 3 Sätzen den Unterschied zwischen regelmäßigen & unregelmäßigen Verben!

à Generative Regeln: Explizite Regeln, aus denen einzelne Aufgaben (Items) unter

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

à Generative Regeln: Explizite Regeln, aus denen einzelne Aufgaben (Items) unter Hinzuziehen des Lehrinhaltes abgeleitet werden.

Bsp.: Lehrziel: Subtrahieren & Addieren im Zahlenraum von 1 bis 10

- d.h. alle Operationen der Art + und - sind möglich, sofern die Rechengrößen den Zahlenraum von 1 überschreiten und den von 10 unterschreiten

Ø Item: 3 + 7 = ? Oder ? – 3 = 7

Page 20: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

5. Empirische Überprüfung an Analysestichprobe

6. Itemrevision (wenn Items zu schwer)

7. Erhebung von Vergleichsdaten (Wie viele Schüler haben eine vergleichbare Leistung erreicht?)

8. Gewinnung von Daten zur Objektivität, Reliabilität & Validität

Bsp.: Inhalts-Validität: Wenn z.B. bei Schüler und Schülerinnen der 7. Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst werden soll, Spiegelungen zu erfassen, muss gefragt werden, ob Spiegelungen Teil des Curriculums dieser Klassenstufe sind.

Page 21: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Verschiedene Arten pädagogischer Tests werden unterschieden nach

• zu erfassender Eigenschaft …

à Leistungs- & Fähigkeitstests : Erfassung von Lernvoraussetzungen und Lernergebnissen, z.B. Konzentration

à Persönlichkeits- & Einstellungsfragebogen :Erfassung nicht leistungs- bzw. fähigkeitsbezogener Eigenschaften, z.B.

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Erfassung nicht leistungs- bzw. fähigkeitsbezogener Eigenschaften, z.B. Interesse an einzelnen Fächern

Page 22: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

• Ausmaß der Standardisierung…

à Formelle Tests - basieren auf spezifischer Testtheorie- hohes Maß an Standardisierung bei Testdurchführung, Testauswertung &

Interpretation - an umfangreichen Stichproben geeicht (normiert), um Vergleichbarkeit der

Position eines Individuums zu sichern

à Informelle Tests - für aktuelle Testzwecke zusammengestellte Instrumente

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

- für aktuelle Testzwecke zusammengestellte Instrumente- nicht geeicht, können aber dennoch auf einer Testtheorie basieren - Sonderform: Lernzielorientierte Tests (Klauer 1987)

• Bezug beim Vergleich von Testergebnissen…

àààà Normorientierte Tests - verwenden eine soziale Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einer Gruppe vergleichbarer

Personen- z.B. klassische Intelligenztests

Page 23: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Vorteile: - mit Hilfe der sozialen Bezugsnorm lassen sich zeitlich stabile Leistungsunterschiede von Lernenden identifizieren, die als Hinweise für überdauernde Kompetenzunterschiede gelten

- ist sinnvoll, wenn es darum geht, den/die dauerhaft Beste(n) oder Schlechte(n) in einer Klasse zu ermitteln

Nachteile: - soziale Bezugsnormorientierung bezieht sich auf enges Bezugssystem

- dies kann zur Folge haben, dass Kinder mit „objektiv gleichen“ Leistungen je nach der Leistungsstärke ihrer

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

gleichen“ Leistungen je nach der Leistungsstärke ihrer Bezugsgruppe einmal als gut und ein anderes Mal als schwach eingestuft werden

- kann zu Stagnationen bzw. Rückentwicklungen der gesamten Klasse im Hinblick auf objektive Zielvorgaben führen

- verdeckt interindividuelle Unterschiede Einzelner in Bezug auf ihren Lernfortschritt -> werden erst dann als „besser“ wahrgenommen, wenn sie andere „überholen“

Page 24: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

à Kriteriumsorientierte Tests -verwenden kriteriale Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einem zuvor & unabhängig

von anderen Personen festgelegten Kriterium- zu testende Personen sollen möglichst gut in der Umgebung des Kriteriums

(z.B. Lernziel) voneinander unterscheidbar sein

à Lerntests- verwenden individuelle Bezugsnorm- dienen dem Vergleich einer getesteten Person mit einem Testergebnis

derselben Person zu einem früheren Zeitpunkt- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern ausgeblendet werden

• Art der zugrunde liegenden Testtheorie…

à Klassisch konstruierte Tests -basieren auf klassischer Testtheorie-> Antwort des Probanden spiegelt wahren Wert (tatsächliche Ausprägung der zu erfassenden Eigenschaft) & Messfehler wider-Ziel der Testkonstruktion ist hohe Trennschärfe/Reduzierung des Messfehlers

Page 25: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

à Probalistisch konstruierte Tests

-basieren auf Testmodell der probalistischen Testtheorie (Bsp.: Rasch Modell)

- Wahrscheinlichkeit einer richtigen Itemlösung ergibt sich aus Funktion zweier Modellparameter Personenfähigkeit & Itemschwierigkeit

- p~ 0,5 wenn Fähigkeit = Schwierigkeit; - p~ 0 wenn Fähigkeit < Schwierigkeit; - p~1 wenn Fähigkeit > Schwierigkeit

- wenn Modell gilt, dann hat der Test die Eigenschaft der sog. Spezifischen Objektivität = geschätzte Fähigkeitswerte sind unabhängig von den

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Spezifischen Objektivität = geschätzte Fähigkeitswerte sind unabhängig von den Schwierigkeitswerten der verwendeten Items -> den Personen können dann Items vorgelegt werden, die möglichst gut auf ihre individuell unterschiedlichen Fähigkeiten abgestimmt sind =adaptiver Test

- VORTEIL: Adaptive Tests benötigen um eine vorher festgelegte Messgenauigkeit zu erreichen weniger Items als ein Test auf Basis der klassischen Testtheorie

Page 26: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Wie interpretiere ich erhaltene Testwerte?

Grundbegriffe:

à Rohwert = Anzahl richtig gelöster Aufgaben im Test

à Normwert- Rohwerte allein geben das Leistungsvermögen einer Person nicht

wirklich wider- Normwerte stehen bei standardisierten Tests durch die Eichung des

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

- Normwerte stehen bei standardisierten Tests durch die Eichung des Tests zur Verfügung: auf Grund der mittleren Leistung & der Verteilung einer Eichstichprobe lässt sich jedem Rohwert ein Normwert zuordnen

à Bestimmung der Position einer getesteten Person im Hinblick auf den Maßstab der Eichstichprobe wird möglich

à Normwerte = T-Werte, Z-Werte und IQ-Wertediesen Testnormwerten liegt die Annahme einer Normalverteilung zugrunde

Page 27: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

à Prozentrangnormen:

- um zu Prozentrangnormen zu gelangen, fasst man die Rohwerte zu Rohwertklassen zusammen, die jeweils gleiche Prozentanteile in der Gesamtverteilung der Rohwerte ausmachen

- Jedem Rohwert im Test ist dann ein bestimmter Prozentrang zuordenbar

- der Prozentrang gibt an, wie viel Prozent der Eichstichprobe genau so viele oder noch weniger Testitems richtig gelöst haben

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

viele oder noch weniger Testitems richtig gelöst haben- Bsp.: PR=60 à 60 % der Personen der Eichstichprobe haben genau

so viele oder weniger Testitems richtig gelöst- Normalverteilungsannahme fehlt, Prozentrangnormierung ist aber

beliebt in der diagnostischen Praxis, da sie eine rasche Bestimmung der relativen Position einer getesteten Person zulassen (gehört sie zu den Besten oder Schlechtesten ?)

Page 28: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Beispielaufgabe:

Ø Wenn von 300 Schülern die Ergebnisse eines Rechentests mit 80 Aufgaben vorliegen, dann kann man auf einer Skala von 0-80 eintragen, wie oft jeder Rohwertpunkt von wie vielen Schülern erreicht wurde.

Rohwert Häufigkeitdieses Rohwertes

KumulierteHäufigkeitRohwert

Cum f% PR

80 … …

… … …

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

… … …

… … …

5 25 98

4 18 73 24,3 24

3 19 55 18,3 18

2 15 36 12,0 12

1 12 21 7,0 7

0 9 9 3,0 3

Page 29: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Dabei gilt:

Cum f%= 100 * cum fN

à Ergebnisse: - Rohwert 3 (3 Aufgaben richtig) kann Prozentrangplatz 18 zugeordnet werdenà die Rechenleistung eines Schülers mit 3 Rohwertpunkten

entspricht der von 18% aller Schüler der Stichprobeoder à 18% der anderen Schüler haben gleich gut oder schlechter

abgeschnitten

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

abgeschnitten

- Für algebraische Operationen müssen die Prozentränge in T-Werte umgerechnet werden

- dafür liegen in den meisten Statistikbüchern Tabellen vor- sorgfältig entwickelte Schultests beziehen mittlerweile auch Messfehler

in die Normenskala mit einà „Prozentrangband“ oder „T-Wert Band“

Page 30: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Bsp.: Ausschnitt aus der Normentabelle des Allgemeinen Schulleistungstestsfür 2. Klassen (AST 2+)

Rohwert Prozentrangband Mittlerer T-Wert T-Wert-Band Rohwert

50-52 31-49 47 45-50 50-52

53-55 35-54 49 46-51 53-55

56-58 41-59 50 48-52 56-58

59-61 47-65 51 49-54 59-61

62-64 52-69 53 51-55 62-64

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

62-64 52-69 53 51-55 62-64

65-67 57-75 54 52-57 65-67

68-70 63-80 56 53-58 68-70

71-73 68-85 57 55-60 71-73

74-76 73-89 59 56-63 74-76

Page 31: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

à Ein Lehrer kann daran sehen, dass ein Schüler bzw. eine Schülerin mit einem Testrohwert von 75 Punkten im Prozentrangband 73-89 liegt. Das heißt, die Testleistung ist mindestens gleich gut oder besser als die von 73% der Gruppe der Zweitklässler und höchstens gleich gut oder schlechter als die von 89%.

à In diesem Bereich liegt der „wahre Wert“ des Schülers

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Page 32: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Wie komme ich von validierten Testwerten zu Noten?

1. Es liegen Daten vor: Haufigkeitsverteilung

Bsp. Testergebnisse eines standardisierten Mathematiktests

810121416

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

02468

Ordinate (senkrecht): absolute HäufigkeitenAbszisse (waagerecht): alle möglichen Ausprägungen der Testwerte

Page 33: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

2. Es ist bekannt, wie diese Daten zustande gekommen sind & wie sie hinsichtlich ihrer Gütekriterien zu beurteilen sind.

3. Die Verteilung der Daten ist bekannt.- Wie viele Personen von einer Anzahl N haben insgesamt einen bestimmten

Punktwert erreicht?

4. Es wird eine Normorientierung gewählt

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

- soziale Bezugsnorm, individuelle Bezugsnorm, kriteriale Bezugsnorm …- dabei geht man von einer Normalverteilung aus

(Glockenkurve- Gaussche Normalverteilung)- bei schulischen Leistungstests geht man zumeist von

Prozentrangnormierungen aus

Page 34: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

5. Die bestehenden Daten werden bestimmten Voraussetzungen angepasst

- wenn Verteilung der Daten nicht einer Normalverteilung entspricht, wird eine Anpassung der Daten vorgenommen

- d.h. Rohwerte werden in Normwerte umgerechnet

Übergang zwischen Prozentwerten und Noten in einer Normalverteilung:

Prozentwert 100- 97,72- 84,11- 49,99- 15,86-0,12 < 0,12

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

à Mit diesem Vorgehen wird eine Transformation der ursprünglichen Daten (Punkte, Rohwerte), welche nicht normalverteilt sind, in eine Normalverteilung erreicht.

Prozentwert 100-

97,73

97,72-

84,11

84,11-

50,00

49,99-

15,87

15,86-0,12 < 0,12

Note 1 2 3 4 5 6

Page 35: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Verhaltensbeobachtungen

„Beobachtung ist das grundlegende Verfahren der empirisch forschenden Sozialwissenschaften und der Erziehungswissenschaften.“ (Roth 2001)

- umfasst jegliche Form der Beobachtung einer Person in realen und simulierten Situationen (Bsp. Reale Situation- Unterricht; Bsp. Simulierte Situation-Rollenspiel)

Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet.

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet. Das heißt, würde man ihn nach seinem Spaziergang nach Häufigkeit & Schwere aggressiver Handlungen, Gesprächskontakten zwischen Mädchen & Jungen der 5. & 6. Klassenstufe o.Ä. fragen, wäre er überfragt.

Page 36: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

à Die Qualität einer Verhaltensbeobachtung ist abhängig vom Kategoriensystem zur Protokollierung des beobachteten Verhaltens & vom Training des Beobachters, damit grundlegende Beobachtungsfehler vermieden werden können

Naive Beobachtung ß à systematische/wissenschaftliche Beobachtung

à Die Lehrkraft sollte in Beobachtungsbögen, Gutachten usw. nicht nur zum Verhalten des Schülers Stellung nehmen, sondern auch Rückschlüsse auf Charaktermerkmale ziehen & Prognosen über die künftige Entwicklung stellen

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

à Dabei hat sie folgende Möglichkeiten der wissenschaftlichen Beobachtung:

• unsystematische & systematische Beobachtung• nicht-teilnehmende & teilnehmende Beobachtung• Beobachtung von Ereignis- & Zeitstichproben• Beobachtung nach Art der Ergebnisfixierung

Page 37: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Gefahr von Beobachtungsfehlern

- Beobachtungsfehler = Fehler, die mit begrenztem Vermögen bzw. fehlendem Willen des Beobachters zu tun haben (geringe Sorgfalt, Langeweile, Müdigkeit, Unvertrautheit mit der Situation der Leistungsbeurteilung)

-Nicht alle für das Urteil relevanten Verhaltensweisen werden wahrgenommen

Gefahr von Beurteilungsfehlern

Typische Beurteilungsfehler (Hasselhorn & Gold 2006):

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

Ø Mildeeffekt: Voreingenommenheit führt zu positiverer Beurteilung einer Person

Ø Großzügigkeitsfehler: Alle Personen werden günstiger beurteilt als angemessen-Bezug zur sachlichen Norm (kriteriale Norm) ist verlorengegangen

Page 38: Diagnostik und Evaluation - ewi.tu-berlin.de · Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009 ... à Tyler-Matrix (Tyler 1973): Methode, um Lehrstoffanalyse durchzuführen

Ø Halo- oder Hofeffekte: Urteil wird von einer markanten Eigenschaft der zu beurteilenden Person (Aussehen, Mundart) beeinflusst. Verzerrung des Urteils kann sich zu Gunsten als auch zu Ungunsten der zu beurteilenden Person auswirken.

Ø Logischer Fehler:Fälschliche Annahme über Zusammenhang zweier Merkmale beeinflusst das Urteil à Lehrer glaubt, dass viele Rechtschreibfehler die Folge geringer Intelligenz seien & kommt daher gar nicht erst auf die Idee, dass eine Lese-Rechtschreib-Störung vorliegt

Pädagogische Psychologie HS Diagnostik und Evaluation SoSe 2009

eine Lese-Rechtschreib-Störung vorliegt

Ø Tendenz zur Mitte:Manche Urteiler meiden extreme Urteile, was zur Folge hat, dass sie nur mittlere Bewertungen (z.B. nur Zensuren zwischen 2 und 4) abgeben.

Ø Tendenz zu extremen UrteilenAndere überhöhen gern in ihrer Bewertung Unterschiede zwischen Personen. Sie sind von einer Leistung entweder begeistert oder enttäuscht. Die Folge ist eine Tendenz zu extremen Urteilen & die Vermeidung mittlerer Bewertungen.