Samenvatting psychometrie - Onderwijssite · 4 4.4 Kwantificering van antwoorden 4.4.1...

1

Samenvatting psychometrie

Deel I

Hoofdstuk 4: constructie van items en kwantificering van reacties 4.1 Van de respondent gevraagde activiteit

Basiskader psychologie: Gedrag= functie (persoon, situatie) o Persoon: niet observeerbare, psychologische eigenschappen o Situatie= items

Basiselementen van vragenlijsten= items o = de stimuli waarop de respondenten reageren

Uit hun reactie (observeerbare gedrag) trachten het niveau van de geteste persoon af te leiden op een niet- observeerbare psychologische eigenschap

Theoretische opdrachten o Bv. weg door doolhof, blokkenleggen, mentale rotatie ,… o Veel voorkomend in intelligentie testen o Rekenopdrachten en taalvraagstukken o Theoretische verkeersproblemen o Met behulp van theoretische opdrachten worden cognitieve capaciteiten en cognitieve

vaardigheden gemeten Capaciteiten: mentale vermogens met een duidelijk erfelijk component.

relatief stabiele kenmerken Vaardigheden: bevatten ook erfelijk component maar zijn voor belangrijk deel te leren

meer door oefening te beïnvloeden o Antwoorden zijn goed of fout en soms gedeeltelijk goed of fout

Stellingen o Onderzochte dient aan te geven of hij al dan niet akkoord gaat met de stelling of in hoeverre

hij ermee akkoord gaat o Meten van persoonlijkheidstrekken, opinies, houdingen en voorkeuren o Antwoorden zijn niet goed of fout maar geven de positie aan van de respondent op de schaal

van de veronderstelde eigenschap

Vragen o Meten van opinies, houdingen en voorkeuren o Open en gesloten vragen o Antwoorden bieden informatie over eigenschappen. Ze zijn niet goed of fout, amar geven

een standpunt/houding aan

Praktijkproeven o Meting van capaciteit en vaardigheden o Bv. psycholoog registreert en interpreteert de reacties van de sollicitant o Reacties te classificeren als fout/goed of als adequaat/ niet adequaat

Andere mogelijkheden o Projectietest:

persoonlijkheid in kaart brengen er wordt een zo vrij mogelijke reactie gevraagd

4.2 Vorm waarin het antwoord wordt gegeven

2 mogelijkheden o Respondent bepaalt geheel zelf hoe hij reageert

Open vraag, opdracht, essayvorm

2

o Respondent kiest uit een beperkt aantal door de testconstructeur geformuleerde reacties Gesloten vraag, multiple choice,

Veel voorkomende opinie: open vraagvorm superieur aan meerkeuze vraagvorm (face validity: open vragen zijn rijker dan gesloten vragen)

Open vragen Gesloten vragen Respondent kan laten zien wat hij kan/weet Doet primair beroep op geheugen

Antwoorden bieden meer informatie Antwoorden bieden minder informatie

Beoordelen en categoriseren van antwoorden is tijdrovend

Werken met categorisatiesysteem

Categoriseren is weinig tijdrovend

Interpretatie van onderzoek heeft grote invloed (subjectiviteit)

Minstens 2 onafhankelijke beoordeelaarsinterbeoordeelaars- betrouwbaarheid

Interpretatie van onderzoeker heeft geen rol (objectief)

Beantwoorden van vragen vergt veel tijd voor respondent

Beantwoorden gaat snel

Antwoorden zijn niet altijd relevant voor de meting van de bedoelde eigenschap

Geen kans om op irrelevante zaken in te gaan

Niet alle respondenten zijn evengoed in staat om gedachten op papier te zetten

Kans op verkeerd begrijpen van vragen Kans op verkeerd begrijpen van stellingen is kleiner

Dillema bij vragen: specifieke of algemene beschrijvingen

Lagere betrouwbaarheid (door subjectieve interpretatie)

Hogere betrouwbaarheid (want door snelheid zijn er meer vragen mogelijk)

Betere validiteit (Betere dekking van bedoelde eigenschap)

Uitvoerig vooronderzoek noodzakelijk - Moeilijkheid: bedenken van onjuiste

alternatieven - Inschatten van moeilijkheidsgraad items

lastig Veel aandacht besteden aan formulering vragen

Kans dat respondent louter door raden veel goede antwoorden heeft

- Correctie voor raden - Bv. 2 items kiezen uit 6 alternatieven,

beide moeten juist zijn opdat de vraag correct opgelost is

Meting van hogere cognitieve vaardigheden (maar mag niet worden overschat)

Enkel eenvoudige cognitieve vaardigheden kunnen gemeten worden (empirisch onderzoek bewijst tegendeel, vaak betere predictoren)

een effectieve open vraag o de vraag moet kort en helder zijn o instructie moet duidelijk maken dat antwoorden kort dienen te zijn

3

4.3 Itemvormen: het speciale geval van geprecodeerde items 4.3.1 Items voor prestatieniveautests

in prestatieniveautesten wordt vaak gebruik gemaakt van meerkeuze- items

aantal opinies is vrijwel nooit groter dan 5

doorgaans is 1 oplossing goed en zijn de andere fout

stam: eerste deel van item, wat een uitspraak bevat die aangevuld moet worden met een gegeven optie

gesleutelde respons: het goede antwoord

afleiders: de foute antwoorden

grote variantie binnen meerkeuze antwoordvorm (hier: 3 principes) o kiezen

eenvoudigste vorm= twee keuzevorm (bv. ja/nee, juist/fout) (in)correcte antwoordvorm: slechts één van de antwoorden is de (on)juiste Meest/minst juiste antwoordvorm: meest/ minst plausibele antwoord kiezen Verschillende antwoordvorm: uit een aantal antwoordmogelijkheden moet men

één/meer antwoorden kiezen die een juist antwoord zijn op de gestelde vraag Complexe vormen: o.a. gecombineerde antwoordvorm

2 stellingen (a en B) opgenomen die verbonden zijn door een conjunctie (C). Deelnemer moest zeggen welke (A, B, en/of C) juist is

o Rangschikken Keuzemogelijkheden plaatsen volgens de volgorde van juistheid, toepasbaarheid of

voorkeur Vooral bij meting van interesses en motieven Voordeel: verkrijgen van veel informatie (ook partiële informatie)

o Toeschrijven (= matching) 2 rijen met woorden, telkens moet de juiste combinatie gemaakt worden Voordeel: door de compacte vraagvorm wordt veel informatie door één opgave

verzameld Nadeel: keuzes zijn niet onafhankelijk van elkaar : hoe minder onzekere combinaties

overblijven, hoe meer kans op juistheid bij raden Oplossing: bij één van de rijen meer alternatieven aanbieden

4.3.2 items voor test voor gedragswijze

Gedragswijze: persoonlijkheidsvragenlijsten en attitudetests

Item is vaak een uitspraak waarbij de respondent kan aangeven in welke mate hij het met de uitspraak eens is

Aanwijzingen bij prestatievorm o Zorg dat respondent niet in verleiding kan komen kruisje te zetten tussen twee

keuzemogelijkheden in o Meest bekend: likert items (items met 5 antwoordmogelijkheden)

Kan worden gevarieerd Even aantal: geen neutrale categorie

Proefpersoon moet kleur bekennen, geen toevlucht in veilige optie Neutrale categorie kan nodig zijn indien geen mening op de stelling

o Men is doorgaans niet / nauwelijks in staat om meer dan 7 nuanceringen te onderscheiden

o Verbale aanduidingen Elke nuancering benoemen: kan door verschillende deelnemers verschillend

geïnterpreteerd worden Enkel de twee uitersten benoemen: meer kans op verschillende interpretatie

4

4.4 Kwantificering van antwoorden 4.4.1 Kwantificering, diverse informatiebronnen

Reacties van respondenten zijn in eerste instantie kwalitatief van aard o Moeilijk om systematisch onderzoek te doen naar de kwaliteit van de items/ vragenlijst

Kwalitatieve reacties dienen in getallen te worden omgezet o Getallen moeten een indicatie geven van de psychologische werkelijkheid met betrekking

tot de te meten eigenschap Bv. iemand die 3 aanduid op likert schaal, moet hogere score hebben dan iemand die

2 aanduid

Vervolgens door statistische berekeningen op deze scores vaststellen of er een voor een meting gewenste systematiek in het gedrag aanwezig is o Systematiek aanwezig: test heeft goede meeteigenschappen o Systematiek niet aanwezig: items hebben reacties ontlokt die geen zinvolle indicatie

vormen van de te meten eigenschap

Sommige stromingen in de psychologie verzette zich tegen kwantificering in het algemeen o Gebruikers van projectieve testen: kwantificering van gedrag zou leiden tot

onaanvaardbare reductie van de betekenis en relevantie van de reacties o Dit kan kloppen, maar de rijkdom kan ook het zich ontnemen van de relevantie

Kwantificering leidt tot reductie o Zo krijg je beter zicht op constante en systematische kenmerken van de respondent o Aangepast aan de vraagstelling

Alle informatiebronnen die voor een beslissing worden gebruikt dienen aan dezelfde kwaliteitseisen te voldoen

4.4.2 Itemscores

Kwalificering van kwalitatieve reacties op items: o Veronderstelling: de antwoordcategorieën van een item kunnen geordend worden op een

continuüm dat staat voor de psychologische eigenschap die met de test wordt gemeten o Vervolgens worden aan de categorieën getallen toegekend

Bv. juiste antwoord krijgt meer punten dan foute antwoorden Bv. laagste krijgt 1 punt, hoogste 5

Dichotoom item: item met twee antwoordcategorieën

Polytoom item: item met minstens 3 antwoordcategorieën o Richting van het continuüm is afhankelijk van de formulering van de stam van het item

! oneens zijn met een stelling kan indicatief zijn voor beide extremen op latente trek o Bv. “roken op café verbieden is goed”niet akkoord kan wijzen op:

‘ze mogen overal roken’ ‘ze mogen nergens openbaar roken’

Scores= de aan antwoordcategorieën toegekende getallen o Alleen de ordening is van belang, geen verhoudingen/ afstanden o Dus in principe enkel ordinaal maar in praktijk vaak gebruikt als intervalsschaal

Alle items uit dezelfde test krijgen dezelfde scores toegekend o Zo wordt voorkomen dat bij statistische analyse items verschillend gewogen wordt o Bij gelijke scoring zijn de items getalsmatig gelijk o Normaal wordt er gewerkt met gelijke gewichten, ongelijke gewichten enkel als theorie

dit staaft

Soms worden gewichten van items via statistische analyses uit de gegevens afgeleid o Bv. hoger gewicht naarmate het item hoger correleert met de somscore

5

4.5 Beoordeling van de kwaliteit van items in vooronderzoek

Test constructie onderzoek kent ruwweg twee fasen o Vooronderzoek: in een kleine steekproef worden de reacties van proefpersonen op de eerste

versie van de items geanalyseerd Steekproefgrootte ligt tussen de 20 en 100 proefpersonen Steekproef hoeft niet altijd representatief te zijn Slecht functionerende items kunnen verwijderd of vervangen worden Doel: eerste kwaliteitsscreening items

o Hoofdonderzoek Grote, representatieve steekproef Steekproefgrootte: 500 tot 2000 proefpersonen Populatie wordt vaak opgesplitst in verscheidene deelgroepen, welke allen groot genoeg

dienen te zijn Steekproef moet hele populatie representeren Ook als sommige deelgroepen van nature kleiner zijn dan de andere, verdient het

aanbeveling om uit elke groep een even grote steekproef te nemen Strata= de deelgroepen Gestratificeerde steekproef= steekproef met deelgroepen Er kunnen nog items uit de test wegvallen, maar minder dan in het vooronderzoek Hoofddoel: kwaliteit van de gehele test vaststellen in verband met het gebruik ervan in

de beoogde populatie Testprestatie voor gehele steekproef en voor de relevante deelgroepen worden

weergegeven in frequentieverdelingen waarmee de prestaties van individuen vergeleken kunnen worden

Doel: kwaliteitsbepaling items en test+ opstellen normen

4.5.1 vooronderzoek van Dichotome items

De frequentieverdeling van reacties op de items kan informatief zijn bij de beoordeling van de kwaliteit van het item o Vaak wordt gekeken naar de relatieve frequenties o P-waarde: relatieve frequentie op het goede antwoord o A-waarden: relatieve frequentie op de afleiders

Een item op de studietoets heeft goed gefunctioneerd indien de meeste respondenten het goede alternatief hebben gekozen en de afleiders door de overige respondenten ongeveer even vaak werden gekozen

De verdeling is informatief maar biedt niet het definitieve bewijs dat het item goed functioneert

Mogelijke verdelingen: o Juiste alternatief wordt het meest gekozen, men kiest de afleiders ongeveer evenveel

Ideale situatie o elk alternatief is evenveel gekozen : veel gegist

Als iemand gist heeft elk antwoord dezelfde kans om gekozen te worden Om te weten of er daadwerkelijk grootschalig gegist is, is aanvullende evidentie nodig

Evidentie kan worden verkregen van correlaties van het item met de andere items in de test (Volledig gegist: correlatie = 0)

Inspectie van inhoud item (Item kan te moeilijk zijn of slecht geformuleerd) o Overgrote deel kiest juiste alternatief

Item is te makkelijk of er wordt iets triviaals gevraagd (of bij examen: stof is goed gekend) Afleiders kunnen niet plausibel zijn

o Ene afleider wordt meer gekozen (.6) dan juiste antwoord (.1) en tweede afleider (.3)

6

Eén van de afleiders kan een valstrik bevatten (zijn vooral vragen naar curiositeit)

Bv. door naambekendheid een bepaalde afleider aanduiden De bewuste afleiders zouden juist kunnen zijn

4.5.2 vooronderzoek van polytome items

Zie boek Blz. 142 voor vb. frequentieverdeling

Verdeling I: meeste mensen zijn gematigd positief, alle antwoord categorieën worden benut o Er zijn respondenten die geen mening hebben o Er zijn grote voor en tegenstanders o Conclusie: item functioneert goed want er is een goede spreiding van respondenten over

de categorieën heen

Gemiddelde berekenen door een gewogen som van de itemscores o Per item de som van de itemscores berekenen waarbij elke score wordt gewogen met de

relatieve frequentie o Ligt gemiddelde score boven neutrale categorie: reactie is in het algemeen positief

Verdeling II: uitgesproken scheef o Items waarop personen zich niet van elkaar onderscheiden kunnen voor dit doel niet

gebruikt worde; het item dient verwijderd te worden o Item is te populair/makkelijk als iedereen er positief op antwoord, te impopulair/moeilijk

als iedereen er negatief op antwoord

Hoofdstuk 8: validiteit en betekenis Inleiding

Een test is valide als hij aan zijn doel beantwoord

Voor een goede validiteit is een goede betrouwbaarheid nodig, maar omgekeerd geldt dit niet o Valide test is betrouwbaar: Laag betrouwbare testscores kunnen niet valide zijn, ze geven

vooral meetfouten weer o Betrouwbare test is niet noodzakelijk valide: betrouwbare test kan onbedoeld iets anders

meten o Betrouwbaarheid is noodzakelijke maar niet voldoende voorwaarde voor de validiteit van

een test

Onderzoeker zal streven naar een test die en betrouwbaar en valide is

8.1 Het begrip validiteit

Begrip validiteit heeft nooit een eenduidige betekenis gehad, maar wel gemeenschappelijk basisprincipe te onderkennen is de veelheid aan definities

Validiteit= de mate waarin de test aan zijn doel beantwoord o Validiteit kan niet gezien worden als een eigenschap van de test zonder meer, maar

eigenschap van het gebruik van een test o Het is mogelijk dat een test voor het ene doel zeer valide is en voor een ander doel niet o Verschillende doelen, dus verschillende vormen van validiteit

Bij elke test gaan we ervan uit dat het testgedrag ons iets kan zeggen over ander gedrag dat buiten dit specifieke testgedrag ligt

Valideringsproces: proces van het verzamelen van evidentie voor de rechtvaardiging van overgang van testgedrag naar iets anders

Validiteit: mate waarin de rechtvaardiging is gevonden

Validiteit wordt gekoppeld aan het doel om te testen o 2 mogelijkheden: test als voorspeller of test als operationalisering

Test als voorspeller van ander gedrag

7

o Doel van het testen is primair de voorspelling van een bepaald gedrag of een prestatie buiten de testsituatie Voorspelling: het doen van uitspraken over feiten waarvoor we geen directe evidentie

hebben, maar waarover we een conclusie formuleren op basis van de kennis van gegevens waarvan we veronderstellen dat ze met de feiten samenhangen

Predictie: feiten liggen in de toekomst Paradictie: feiten liggen in het heden Postdictie: feiten liggen in het verleden

De term predictie wordt gebruikt als overkoepelende term: het doen van een uitspraak voer niet waargenomen gedrag buiten de testsituatie

o Ook al bestaat er een aantoonbare relatie tussen de begrippen, wanneer de test niet een zinvolle operationalisering is dan heeft de voorspelling weinig kans op slagen

o Alleen wanneer zowel de test als het te voorspellen gedrag uitingen zijn van eigenschappen waartussen een aantoonbare relatie bestaat, kan de test een adequate voorspelling opleveren

Test als operationalisering van een psychologisch begrip o Het gaat bij het testen expliciet om het theoretische begrip zelf

Men zal gebruik moeten maken van hypothetische begrippen Doel is in eerste instantie de meting van de begrippen (bv. persoonlijkheidstrekken,

attitude, …) o Wanneer de psychologische betekenis van de testprestatie wordt onderzocht, dan worden

daarbij ook relaties met operationaliseringen van andere psychologische begrippen in de beschouwing getrokken. Een dergelijk ander begrip kan ook een te voorspellen criterium zijn. Ook al is het niet het primair doel, toch levert dergelijk onderzoek onmiskenbaar

informatie op over het voorspellend vermogen van de test (bv. IQ- schoolprestaties)

Predictieve validiteit en begripsvaliditeit o Alle variëteiten in het validiteitsbegrip vallen binnen een van deze beide soorten validiteit o Onderscheid is principieel niet nodig, eerder een praktisch, methodologisch onderscheid o Predictieve validiteit

Voorspellend gebruik Centrale vraag: in hoeverre maakt de test daadwerkelijk en juiste voorspelling mogelijk

o Begripsvaliditeit Het meten van eigenschappen Centrale vraag: in hoeverre dekt de test het bedoelde psychologische begrip

o Testen als activiteit op zich heeft geen zin Onderscheid tussen predictieve en begripsvaliditeit niet altijd dwingend te maken (je

kan een begrip testen maar er zal altijd een relatie met iets ander mee gemoeid zijn) Predictieve validering zou gezien kunnen worden als een specifieke vorm van

begripsvalidering

8.2 Enkele andere onderscheidingen in validiteit 8.2.1 Vier belangrijke soorten validiteit

Predictive validity o Wordt vastgesteld door na te gaan in welke mate de voorspellingen worden bevestigd door

gegevens/ observaties verzameld op een later tijdstip o Bv. schoolkeuze, therapiekeuze, … o Het is heir voornamelijk temporeel (in toekomst) voorspellend opgevat o Predictieve validiteit in enge zin

Concurrent validity

8

o Wordt beoordeeld door na te gaan hoezeer de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens

o Bv. het valideren van een test door de testresultaten van leerlingen te vergelijken met gelijktijdige prestatiebeoordelingen

o Men moet vaak zijn toevlucht doen tot gelijktijdig criterium omdat het onmogelijk is om een toekomstig criterium te wachten Concurrent validiteit kan dus wel informatief zijn maar de betekenis is toch vaak

beperkt als de voorspelling gericht is op een toekomstig criterium

Inhoudsvaliditeit o Beoordelen hoezeer de inhoud van de test een geheel van situaties, kennisinhouden of

vaardigheden representeert, waaruit met vetrekking tot de onderzochte persoon conclusies moeten worden getrokken

o Vooral van toepassing bij onderwijskundig meten o Inhoudsvaliditeit is dus een indicatie van de mate waarin test het domein van mogelijke

items representeert o Welke onderwerpen/ vaardigheden moeten worden opgenomen in het corresponderende

itemdomein en wat is het gewicht van de diverse onderdelen ! best gebruik maken van interbeoordeelaars betrouwbaarheid

o Belangrijk bezwaar: empirisch onderzoek ontbreekt vaak Items vormen vaak de verzameling van eerder gebruikte testen Validering van een nieuwe test aan oude testen krijgt zo het karakter van een cirkel

redenering “mijn toets is valide want is vergelijkbaar met vroegere testen” o Het vaststellen van inhoudsvaliditeit is vooral een kwestie van oordeken o Komt dicht in de buurt van ‘face validiteit’ o Formele definitie: inhoudsvaliditeit= de sterkte van de samenhang tussen de testscore en

de totaalscore op het gehele itemdomein Totaalscore is in praktijk niet beschikbaar NIET

R(test1, test2) R(Testi1, criterium) R(antwoordvorm1, antwoordvorm2)

Deze definitie komt in feite neer op het bepalen van de samenhang tussen de scores op twee testen die verondersteld worden equivalent te zijn

Correlatie is schatting betrouwbaarheid van de twee afzonderlijke testen Maar is deze betrouwbaarheidsschatting ook op te vatten als de schatting van

de inhoudsvaliditeit? o Het is mogelijk dat beide testen niet representatief zijn

Constructvaliditeit o Cronbach en Meehl o Ruimer dan begripsvaliditeit o Wordt geëvalueerd door te onderzoeken welke psychologische eigenschappen door de test

worden gemeten Eigenschappen betreffen hypothetische constructen

o Bestaat uit 3 onderdelen Uitvinden welke eigenschappen een verklaring zouden kunnen geven van de

testprestatie Het afleiden van toetsbare hypothesen uit de theorie die het construct verklaart Het uitvoeren van empirisch onderzoek om de hypothese te toetsen

o Komt in de buurt van betekenisanalyse Betekenisanalyse impliceert voor een belangrijk deel exploratief onderzoek

o Van begripsvalidering is pas sprake wanneer vragen naar de betekenis van de test alleen beantwoord kunnen worden door een gericht, confirmatief onderzoek naar de relatie

9

tussen de testscore en andere operationaliseringen van hetzelfde beoogde begrip en naar relaties met andere verwante begrippen De definitie van begripsvalidering is dus enger dan die van construct validiteit

8.2.2 andere onderscheidingen in het begrip validiteit

Synthetische validiteit o Variant van begripsvaliditeit o Richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criteriumgedrag

in plaats van op het complexe criterium als geheel Bv. in plaats van op leidinggeven te richten, focussen op taak en doelgerichtheid

o Zo wordt het probleem opgelost dat men voor de validering van een test tegen een complexe en vaak unieke functie over veel te weinig proefpersonen kan beschikken om het valideringsonderzoek te verrichten

o Uit de afzonderlijke voorspellende elementen wordt vervolgens de voorspelling van de hele functie gesynthetiseerd

o Criterium blijft het doel, maar wel stap gedaan richting begripsvalidering (want de vraag welk psychologisch fenomeen door de test wordt gemeten is van belang)

Congruent validiteit o Geeft de mate aan waarin een test correleert met een andere test waarvan wordt

aangenomen dat die dezelfde eigenschap meet o Niet het doel te voorspellen, maar nagaan in welke mate de test de beoogde eigenschap

meet o Onderdeel van het proces van begripsvalidering

Face validiteit o Gemeten naar de subjectieve indruk van de leek/ psycholoog, lijkt de relatie tussen test

en criterium of de betekenis van de test zonder meer duidelijk o Deze indruk hoeft niet ondersteunt te worden door empirisch onderzoek o Men spreekt van indrukvaliditeit zolang hier nog geen empirische bevestiging van is

gevonden o Niet altijd een nuttige, soms zelf vrij gevaarlijke eigenschap van een test

Bv. Bourdon- Wiersma- test voor bepaling van epilepsie o Indien een test aantoonbaar voldoende predictieve of begripsvaliditeit heeft, is het zelfs

wenselijk dat dit voor iedereen ook wel duidelijk is Kan motiverend werken

o Lijkt op ‘transparantheid’ van een testprocedure Eerder een wenselijke dan een noodzakelijke eigenschap

Incrementele validiteit o Betreft de verbetering van de voorspelling met behulp van een test ten opzichte van

voorspellingen die kunnen worden gedaan op basis van veelal reeds aanwezige informatie o Biedt de test een meerwaarde

8.3 Predictieve validiteit

Er wordt uitgegaan van een gegeven criterium

Centrale vraag: hoe goed valt dit criterium te voorspellen o Criterium kan in toekomst, heden, verleden liggen o Meestal beschikt men niet over de criteriuminformatie, maar dient de test juist om die

informatie te schatten

Noodzakelijk om in een representatieve steekproef uit de beoogde populatie zowel testgegevens als criteriumgegevens te verzamelen en vervolgens de relatie tussen test en criterium vast te stellen

Basismodel:

10

o Op basis van het genoemde empirisch onderzoek in een representatieve steekproef wordt de relatie onderzocht tussen de testprestaties en de later verzamelde criteriumprestaties

o Bv. toegangsexamen (predictor) voorspelt prestatie in onderwijs (criterium) o Lineaire relatie is het eenvoudigste: Y=a+ b X

A (intercept) geeft het snijpunt aan met de Y-as B (regressiegewicht) geeft de richtingscoëfficiënt aan

o Voor het bepalen van de lineaire benadering wordt regressieanalyse gebruikt Bepalen van de rechte lijn die het beste past bij de punten wolk De gemiddelde gekwadrateerde verticale afstand van alle punten tot deze lijn is het

kleinst o ^Y=a + b X

X: de bekende testscore ^Y= de schatting van Y via de regressievergelijking Dus op basis van testprestatie kan een schatting gemaakt worden van criteriumprestatie

8.3.1 Nadere bepaling van criteriumbegrip

Uiteindelijk criterium o Het uiteindelijke doel van een concrete procedure o Bv. bij selectie van studenten geneeskundeprofessionele bijdrage aan medische zorg o Zelden of nooit beschikbaar

Tussentijdscriterium o Bv. prestaties op het eindexamen

Onmiddellijk criterium o Bv. totaal behaalde studiepunten op het einde van het 1ste jaar

2 problemen bij deze 3-deling o Probleem aangaande tijd

Uiteindelijk criterium ligt in de tijd ver verwijderd van het test tijdstip Andere 2 liggen er dichter bij

o Abstractieniveau In hoeverre is het criterium beschikbaar, (duurt het niet te lang? Is het niet te

veelomvattend) kan het worden geoperationaliseerd (is het meetbaar te maken?) of worden gekwantificeerd (is het nog zinvol in getallen uit te drukken?)

o tijd en abstractieniveau van de doelstelling worden vaak onvoldoende gescheiden

alternatief onderscheid: o uiteindelijke doel vallen rechtstreeks af te leiden uit de bestaansredenen van het instituut

waarbinnen het voorspellend testgebruik plaatsvindt doel als zodanig is niet- psychologisch

o conceptuele criterium ( meer concreet zichtbaar) een concretisering van het uiteindelijke organisatiedoel in termen van zichtbare

resultaten vertegenwoordigt het laagste niveau van abstractie

o criteriumgedrag o criteriummaat

afgeleid van conceptueel criterium expliciete, ondubbelzinnige uitspraken/ scores die betrekking hebben op

criteriumgedrag/-prestaties criteriumgedrag/-prestatie is waarneembaar en registreerbar en relevant voor het

conceptuele criterium criteriumgedrag is te operationaliseren tot criteriummaat criteriummaat= score op een bepaalde schaal van een bepaalde test

11

zijn vaak kwantitatieve operationaliseringen van het criteriumgedrag belangrijk is dat de meting van een criterium aan dezelfde eisen van betrouwbaarheid

en validiteit voldoet als de test waarmee dit criterium wordt vooropgesteld

(inhouds)validiteit: van het organisatiedoel tot het criteriumgedrag

validiteit wordt bepaald door de relatie tussen predictorscore (testscore) en criteriumscores vast te stellen o scores worden eerst gecorrigeerd voor onbetrouwbaarheid om daarna de relatie de

relatie tussen gecorrigeerde scores te nemen als indicatie van validiteit geeft vaak een sterk geflatteerd beeld van de werkelijke validiteit

relatie tussen criteriumgedrag en het achterliggende conceptuele criterium is niet voor empirisch onderzoek toegankelijk o pas nadat het criteriumgedrag is gekozen en de criteriummaat is vastgesteld, kan de

predictieve validiteit van de testprocedure worden bepaald

in de praktijk wil men vaak weten wat de relatie is tussen een dichtbij gelegen criterium en een prestatiecriterium op een later tijdstip o relatie is vaak zwak o kwestie van beleid wat het best als conceptueel criterium genomen wordt o probleem bij keuze van criteriumgedragingen: de betrouwbaarheid van de maten is vaak

omgekeerd evenredig aan hun relevantie

8.3.2 Opzet van een test of testbatterij met predictieve validiteit

fase 1: operationalisering van het criterium o het operationeel maken van het criteriumgedrag in een zo exact mogelijke criteriummaat

fase 2: Keuze en constructie van test o de keuze van de mogelijk geschikte test of de keuze of de constructie van mogelijk

geschikte items, waaruit één/meer test kunnen worden samengesteld o de wijze van testconstructie is afhankelijk van omstandigheden, mogelijkheden tot

verwerking en de theoretische aanpak van de onderzoeker

fase 3: proefafneming van bestaande of nieuwe tests o wordt vaak overgeslagen o proefafneming van de bestaande of de nieuw te construeren tests op diverse groepen

proefpersonen uit de populatie waarvoor de testprocedure wordt ontworpen bij een bestaande test is dit enkel nodig als de testprocedure plaatsvindt in een

populatie die afwijkt van de populatie waarvoor de test oorspronkelijk is geconstrueerd

onderzoek kan gevolgen hebben voor de bruikbaarheid van de test o populatie en steekproef

steekproef dient een zo getrouw mogelijke afspiegeling te zijn van de populatie waarvoor de test uiteindelijk zal worden gebruikt

afwijkingen tussen steekproeven en populatie qua gemiddelde minder erg dan que spreiding

betrouwbaarheid en validiteit zijn gevoelig voor variatie in spreiding, niet voor variatie in gemiddelde

representativiteit kan beter worden gegarandeerd als men vooraf rekening houdt met de samenstelling van de populatie naar voor de test belangrijke demografische en persoonlijke variabelen

bv. als het onderscheid 50- en 50+ relevant is voor de te meten eigenschap, moet dit ook in rekening gebracht worden in steekproef (evenveel in elke categorie)

=gestratificeerde steekproef

12

Stratificeren niet noodzakelijk als men aselect een grote steekproef uit de populatie trekt? (MAAR vaak zijn sommige deelgroepen minder makkelijk te bereiken)

Steekproeven zijn vaak niet representatief wat leeftijd betreft en worden daarmee de voor vele psychologische eigenschappen belangrijke ontwikkelingsaspecten genegeerd

Vooronderzoek: kleine steekproef die niet representatief hoeft te zijn is voldoende (bv. enkel de twee extreme leeftijdsgroepen)

Hoofdonderzoek: behoeft een grote representatieve steekproef o Itemanalyse

Bij het construeren van nieuwe testen Diverse aspecten van de test kunnen worden geanalyseerd (bv. moeilijkheidsgraad,

correlatie van items met totaal score,…) Extreem moeilijke/makkelijke items zijn enkel gewenst als de test in de populatie de

gehele schaal van de eigenschap dient te bestrijken en ook voor ‘extreme’ personen items dient te bevatten

Moeilijkheid van een item op zich heeft niets te maken met wat het item meet of hoe betrouwbaar het item dit doet

Homogene test verkrijgen door Factoranalyse De onderzoeker selecteert zelf rechtstreeks item op basis van hun onderlinge

correlatie Chronbach’s apha: ondergrens voor de betrouwbaarheid Op basis van de in de derde fase verzamelde gegevens wordt de test in zijn

definitieve vorm samengesteld

fase 4: validatie van de testprocedure o het valideringsonderzoek: voetangels en klemmen

de daadwerkelijke validatie van de test in plaats van voorspelling met toekomstig criterium wordt gekozen voor de opzet

met een gelijktijdig criterium men hoopt hierbij de gegevens te kunnen generaliseren naar het bedoelde

voorspellingsmodel longitudinaal onderzoek

duurt lang waardoor het kostbaar is van hoeveel personen gaan uiteindelijk de criteriumscores ter beschikking

komen? (bv. uitval) o gevolg: variatiebeperking op zowel predictor als criteriumvariabele o zowel betrouwbaarheid als validiteit zullen te laag worden geschat

Mogelijks kunnen de testuitslagen bij een latere beoordelaar bekend raken o Contact minimatie van het criterium= Als de beoordelaar zijn oordelen door

deze kennis laat beïnvloeden en zijn oordelen worden als criteriummaat in het valideringsonderzoek gebruikt, dan zijn testscores en criteriumscore niet meer onafhankelijk vastgesteld

Correlatie zal kunstmatig hoog uitvallen

Mogelijk restriction of range: extremen vallen wegbeperking in spreiding o vaststellen van de validiteit

valideitscoëfficiënt = correlatie tussen testscore en criteriumscore er wordt aangenomen dat het verband tussen predictor en criterium goed door een

rechte lijn kan worden benaderd uitzonderingen:

kromlijnige relatie o lage testscore gaat gepaard met lage criteriumscore

13

o hoge testscore gaat gepaard met hogere criteriumscore o maar zeer hoge testscore gaat gepaard met lagere criteriumscore o gevolg: correlatie zal laag zijn o er moet gebruik gemaakt worden van een correlatiemaat die onafhankelijk

is van vorm (bv. correlatieratio) heteroscedastische relatie

o er is een verband tussen de lagere waarden van twee andere variabelen, maar niet voor de hogere waarden

o bij zeer hoge waarden van X zijn bijna alle waarden van Y mogelijk o gebruik maken van correlatiecoëfficiënt die de gemiddelde relatie over de

verschillende niveaus van de testscore weergeeft o [homoscedastische relaties: relaties die overal even sterk zijn]

Tests kunnen voor voorspelling soms nuttig zijn als suppressor variabele ^Y= a+ bIXI-b2X2 criterium Y wordt voorspeld door testscore XI een positief gewicht bI te geven en

er een deel van X2 van af te trekken, namelijk het deel dat nul correleert met Y gewichten (b) worden bepaald door regressieanalyse Bv. taalvaardigheid speelt rol bij test voor rekenvaardigheid

Testscores kunnen functioneren als moderatorvariabele =variabele die zelf niet of nauwelijks hoeft te correleren met een criteriumscore

Y, maar die wel de relatie van andere variabelen met Y beïnvloedt Indien men er geen rekening mee houdt, lijkt de correlatie tussen test X en

criterium Y matig, maar in de afzonderlijke groepen (bv. mannen en vrouwen)ligt de relatie geheel anders

Ze verduidelijken de relatie tussen test en criterium en maken ook duidelijk dat tests soms maar in een beperkt aantal deelgroepen uit een populatie bruikbaar zijn om een criterium te voorspellen

Apart geval: 2 variabelen apart met een criteriumvariabele Y correleren en bovendien nog een interactie effect op Y hebben (=moderated regression)

Als beide variabele een hoge score te zien geven, wordt de correlatie met het criterium daardoor nog extra verhoogd

=moderated regression

fase 5: Samenstelling van de predictorbatterij o de tests waarvoor een goede validiteit is gevonden, worden gecombineerd in een

maximaal voorspellende testbatterij o veel gebruikte statistische methode: meervoudige regressieanalyse

testscores worden gewogen en opgeteld tot een voorspelling van criteriumscore Y ^Y = a + bIXI + b2X2 + … + bmXm Regressiegewicht is relatief groot als de test hoog correleert met criterium Y en laag

met de andere tests o Ideaal: een batterij van tests die onderling laag correleren en allen hoog correleren met Y o Mutlipele correlatie drukt het succes van de gehele testbatterij voor de voorspelling van Y

uit = de correlatie van de totaalscore gebaseerd op de hele testbatterij met het

geobserveerde criterium

fase 6: kruisvalidering o het statistische voorspellingsmodel (hier: regressiemodel) dat is gevonden op basis van de

steekproefgegevens, wordt gecontroleerd op een nieuwe representatieve steekproef van proefpersonen afkomstig uit dezelfde populatie als de eerste steekproef

o er wordt nagegaan of de geschatte regressiegewichten in beide steekproeven voldoende op elkaar lijken en of de multipele correlaties ongeveer gelijk zijn

o reden voor de controle:

14

het uiteindelijk gekozen regressiemodel komt vaak tot stand na veel trial and error naarmate de onderzoeks steekproef kleiner is, leunt dit proberen sterker op de

toevallige samenenstelling van deze steekproef en worden beslissingen over tussentijdse wijziging van het model genomen op basis van steeds onnauwkeuriger geschatte regressiegewichten

naarmate er meer foute beslissingen genomen worden, treedt er meer kanskapitalisatie op

bij een sterke mate van kanskapitalisatie past het gevonden regressiemodel heel goed bij de ene, toevallige steekproef, maar niet meer bij de populatie waaruit de steekproef is getrokken

o onderzoeker probeert dus te voorkomen dat hij zoveel mogelijk modellen probeert kan het beste door zoveel mogelijk uit te gaan van een theorie of een rationele

analyse o indruk krijgen van de mate waarin kanskapitalisatie zich heeft voorgedaan:

een nieuwe steekproef uit de populatie trekken die even groot is als de eerste steekproef (duur en tijdrovend)

de steekproef die men al heeft aselect opsplitsen in twee even grote deelsteekproeven

het op basis van de eerste steekproef gekozen definitieve regressiemodel wordt in de tweede steekproef gebruikt om voor elke proefpersoon een schatting te maken van diens criteriumscore

schatting wordt gecorreleerd met geobserveerde criteriumscore zodat een multipele correlatie wordt verkregen voor de tweede steekproef

deze correlatie wordt vergeleken met die van de eerste steekproef weinig verschil in correlatiekanskapitalisatie heet geringe rol gehad

o robuust model heeft meer kans om tot juiste beslissingen te leiden

8.3.3 Differentiatie in het criteriumonderzoek

tests met een geringe validiteit kunnen soms toch nog een zinvolle bijdrage aan de beslissingen leveren

een test met een behoorlijke validiteit heeft soms maar weinig effect

validiteit van testen zijn vaak maar matig

5 redenen waarom veel validiteitscoëfficiënten (correlatie tussen test en criterium) zo laag zijn: 1. Geringe betrouwbaarheid van het criterium

o Er wordt vaak veel aandacht besteed aan het maken van een betrouwbare test of testbatterij

o Maar voor de constructie van een betrouwbare criteriummaat bestaat meestal minder aandacht

o Probleem: men probeert met een betrouwbare predictor een criteriumscore te voorspellen die vooral uit meetfouten bestaat

2. Miskenning van een niet- lineaire relatie tussen predictor en criterium o Voordat de beslissing tot de aanname van lineariteit en homoscedasticiteit van de

relatie wordt genomen, moet eerst worden onderzocht of deze eigenschappen de relatie wel recht doet

o Kan het eenvoudigste door visuele inspectie van scatter plot o Het is beter om bijvoorbeeld voor elke waarde van de predictor variabele X uit de

bijhorende verdeling van criteriumvariabele Y de meest waarschijnlijke waarde als voorspelling te nemen voor nieuwe gevallen

3. Negeren van de complexe samenstelling van groepen o De relatie tussen predictor en criterium kan verschillen voor verschillende deelgroepen o Indien dit wordt genegeerd, kunnen ernstige voorspellingsfouten gemaakt worden

15

o Van belang de juiste moderatorvariabelen of covariaten te vinden o Het kan ook zijn dat de sterkte van het verband in twee deelgroepen gelijk is, terwijl

voor dezelfde predictorscore X de gemiddelde criteriumscore in de ene groep hoger is dan in de andere groep (zie figuur 8.4b Blz. 362) Twee verschillende voorspellingsmodellen zijn noodzakelijk

o In het algemeen gaat het hier om de vraag of er kan uitgegaan worden van één voorspellingsmodel voor alle groepen of dat er per relevante groep een apart model nodig is

4. Negeren van de variabele betekenis van het criterium in verschillende organisaties o Hetzelfde criterium kan in verschillende organisaties geheel verschillende betekenissen

hebben, terwijl de naam suggereert dat het om hetzelfde zou gaan Bv. zelfde type functie kan in verschillende organisaties anders worden ingevuld

o De voorspellingsmodellen dienen zowel uiteenlopende predictoren als uiteenlopende criteriummaten te bevatten

5. Onterechte vereenvoudiging van het criterium o Er wordt vaak uitgegaan van een te eenvoudig beeld van het criterium o Een meer gedifferentieerde benadering is dan nodig om tot betere voorspellingen te

komen o 2 mogelijkheden:

Gevarieerd en complex criteriumgedrag wordt soms samengevat in een globale criteriummaat

Elke nuance gaat verloren en een goede voorspelling van het criterium wordt lastig

Criteriumgedrag is aan het moment van de vaststelling en meting gebonden en niet zonder meer generaliseerbaar in de tijd

Eenvoudigste reden: mensen leren en ontwikkelen zich in de tijd

Het is van belang dat naast de inhoud ook het moment van meting van het criterium in ogenschouw wordt genomen

Ander aspect is dat men zich niet richt op een momentopname, maar op de veranderingen die optreden tussen 2 of meer momentopnamen

Er wordt dan een dynamisch ipv een statisch criterium voorspelt

8.3.5 beperkingen van predictieve validiteit

Predictoren die hoog correleren met het criterium en laag met andere predictoren krijgen een zwaar gewicht o Belangrijke vraag: leidt deze statistische selectie van predictoren ook altijd tot inzicht in

de vraag waarom een testbatterij het criterium goed voorspelt?

Soms zijn verbanden tussen tests en criteria erg doorzichtig (bv. rekenoefeningen voor rekenvaardigheid)

Soms worden relaties gevonden die zich volledig aan het oog onttrekken

Constructvaliditeit: doel: testpsychologie redden uit het slop van inhoudsloze correlatieberekeningen o Begripsvalidering met het oog op de wetenschappelijke onderbouwing van het meten

met behulp van tests is een onmisbaar onderdeel van testconstructie o Door middel van empirisch onderzoek achterhaalt men hier wat de test precies meet

Het blind toepassen van tests ter voorspelling van een criterium, zonder zich af te vragen waarom de voorspelling werkt, leidt niet noodzakelijk tot inzicht o Kritische en nieuwsgierige houding is voorwaarde voor verder onderzoek dat de

predictieve validiteit kan verbeteren

16

Het blind afgaan op de grootste correlaties impliceert dat men eigenlijk alle mogelijke predictoren zou moeten onderzoeken op hun geschiktheid voor de voorspelling van het criterium

Er kan sprake zijn van een unieke of zeldzame situatie, waarvoor niet of nauwelijks een criterium valt vast te stellen o Er bestaat weinig houvast voor voorspellingen op basis van testonderzoek o Er kunnen hypothesen worden gegenereerd over de mogelijke samenhang als de

psycholoog inzicht heeft in de betekenis van het testgedrag o Door deze inzichten te benutten zijn psychologische uitspraken over de onderzochte

mogelijk

De psycholoog die zonder theorie te werk gaat kan in de knel komen bij de vraag de onderzochte te beschrijven

Betekenisanalyse en begripsvaliditeit bieden een mogelijkheid om het ‘sacrosancte’ criterium van zijn voetstuk te halen en te analyseren

Een strikt empirische opvatting van voorspellen leidt nooit tot verder inzicht in de vraag wat het criterium precies meet

Conclusie: o predictieve validiteit is een onmisbaar begrip voor de praktijk van het voorspellend

testgebruik, o maar een test krijgt pas een werkelijk nuttige functie als met deze empirische correlaties

tevens een begripsanalyse gepaard gaat

8.4 Betekenis en begripsvaliditeit 8.4.1 Begripsvalidering

aan begripsvalidering gaat meestal een proces van betekenisanalyse vooraf

in de betekenisanalyse worden dezelfde fasen doorlopen als in de theorievorming en de toetsing van theorieën in algemene zin o beantwoording van de vraag wat een test/items zou kunnen betekenen begint met

creatieve fase hierin tracht men een theorie te vinden of op te stellen die testgedrag kan verklaren verklaring is hypothetisch dus voorlopig om de theorie te bevestigen (=proces van begripsvalidering) dient een concrete,

ondubbelzinnige voorspelling te worden geformuleerd van belang

creatief: er wordt gezocht naar plausibele verklaringen. De procedure en methode zijn niet voorgeschreven en bindend

voorspelling moet ondubbelzinnig te onderzoeken zijn er kan nooit definitief worden bewezen of een test al dan niet een bepaalde

theoretische betekenis heeft even belangrijk alternatieve hypothesen te kunnen verwerpen als

oorspronkelijke hypothese te kunnen accepteren

in betekenisanalyse gaat het dus om het vinden van een theorie/ theoretisch begrip als verklaring voor het testgedrag (hypothesevorming)

bij begripsvalidering gaat het om het empirisch bevestigen van deze verklaring (formuleren voorspellingen+ empirische toetsing o trekvalidering: in hoeverre kan het testgedrag verklaard worden met behulp van een

persoonlijkheidstrek of een geschiktheid (gaat niet noodzakelijk om theorie) o nomologische validering: testgedrag wordt verklaard vanuit een psychologische theorie

voordeel van inbedding van testgedrag in een nomologisch netwerk is dat de betekenis van de gevalideerde test in meer algemene psychologische termen kan worden beschreven

17

de mogelijkheid om testgedrag te relateren aan een nomologisch netwerk is groter naarmate de psychologie als wetenschap verder vordert en er meer nomologische netwerken ontstaan

o in de realiteit wordt testgedrag doorgaans gevalideerd in termen van trekvalidering en niet in termen van nomologische validering

o verschil tussen trekvalidering en nomologische validering is eerder gradueel dan principieel vaak ontbreekt een voldoende gedetailleerd en door onderzoek ondersteunde

theorie over een eigenschap zodat testconstructie een wat exploratiever karakter heeft

theorieën zijn vrijwel nooit af: de validering van de test kan een bijdrage leveren aan de verdere theorievorming en toetsing van een gegeven begrip bv. Stanford-Binet test: oorspronkelijk waren oordelen van leken het criterium,

daarna werd testgedrag op zich het doel elke test behoort tot een conceptueel netwerk

bv. Big five persoonlijkheidstest: niet puur een analyse van testgegevens, maar ook correlationeel en experimenteel onderzoek

theorie is vaak een deel van itemconstructie facetdesign (vragenlijst constructie in 2 stappen)

o onderscheiden van relevante eigenschappen o systematische constructie van items in gekruist design

tests spelen in psychologische theorievorming vaak zelfs een dominante rol

is eenmaal een trek/ nomologisch netwerk gekozen als potentiële verklaring van het testgedrag, dan start de fase van de begripsvalidering o voorspellingen formuleren om te toetsen of de vermoedens over de test juist zijn o twee soorten voorspellingen

confirmerende validering ( bevestigen oorspronkelijke hypothese) discriminante validering (alternatieve verklaringen verwerpen)

o begripsvalidering kan plaatsvinden doormiddel van correlationeel onderzoek of door experimenteel onderzoek

8.4.2 Betekenisanalyse: op zoek naar de betekenis

meestal heeft onderzoeker minstens vage vermoedens en verwachtingen omtrent de te meten eigenschap die aan de constructie van de items ten grondslag hebben gelegen o vormt de basis voor de theorievorming over het testgedrag

volgende stap in onderzoek is de test van begripsvalidering

geen standaardmethode voorgeschreven, maar 2 suggesties : structuur en relatie onderzoek

Structuuronderzoek o 2 manieren waarop een analyse van de structuurkenmerken van de test kan leiden tot

een hypothetisch inzicht in de betekenis van het testgedrag Psychologische analyse van de inhoud van de items

Bv. opdrachten zelf proberen op te lossen, proberen greep te krijgen op het oplossingsproces door proefpersonen hardop te laten denken, literatuur bestuderen, …

Leidt tot iets wat veel lijkt op indrukvaliditeit o Verschil is dat uit deze analyse slechts veronderstellingen voortkomen en geen

definitieve vaststellingen. Deze moeten verder getoetst worden De analyse van de formele kenmerken van de test

Bv. keuzeantwoorden/vrije antwoorden, snelheidskarakter van de test, doel van de test is doorzichtig,…

18

Correlatie tussen de testscores op twee verschillende tijdstippen geeft informatie over de stabiliteit van de testprestatie (en dus ook over de eigenschap die de test zou meten)

Relatieonderzoek (4 vormen) o Spreiding en normen

Gegevens over spreiding en normen verzamelen en in verschillende groepen bestuderen

Bv. verschil in variantie tussen 2 groepen; percentielnormen in twee groepen Levert vaak bruikbare indicaties op van wat de test meet

o Experimenteel onderzoek Bv. de test voorleggen onder meer/ minder strenge tijdscondities en nagaan wat de

effecten hiervan zijn op de testprestatie Effect van verschillende instructies op de testprestatie nagaan

o Factoranalyse Wordt vaak gebruikt als explorerende methode om de informatie die in een groot

aantal variabelen is vervat, samen te vatten in een geringer aantal nieuw te construeren variabelen

Doel: samenvatting van informatie Onvermijdelijk gaat informatie verloren, maar men streeft ernaar dit verlies te

minimaliseren Vereenvoudiging van gegevens leidt tot grotere mate van inzichtelijkheid Factor= gewogen soms van itemscores/testscores

Gewichten worden zodanig bepaald dat de gewogen somscore (=factorscore) zoveel mogelijk inzicht verschaft in de afzonderlijke items/tests

Bepaling van gewichten kan op diverse manieren tot stand komen Factoranalyse gaat uit van een tabel met correlaties/covarianties tussen e testscores

Indien deze ongeveer nul zijn, dan zijn de testprestaties onafhankelijk van elkaar Alle correlaties maximaal: testen vertonen veel overlap Meestal zijn correlaties groter dan nul maar aanzienlijk kleiner dan één Komt zelden voor dat slechts één factor alle tests kan vertegenwoordigen

Bij regressieanalyse worden de gewichten zodanig gekozen dat het criterium zo goed mogelijk wordt voorspeld, terwijl bij factoranalyse de gewichten zodanig worden gekozen dat de informatie in de testscores zo goed mogelijk wordt samengevat

3 soorten factoren Algemene factoren: vrijwel elke test hangt hier minder/ meer mee samen Groepsfactoren: vertegenwoordigen kleiner gedeelte van de tests Specifieke factoren: gekoppeld aan één test/ enkele items eruit

Factoranalyse van een verzameling testscores biedt een handige methode voor de exploratie van de betekenis van de tests Met welke factoren correleert een test relatief hoog/ laag Bv. zie blz. 380

Het resultaat van factoranalyse is afhankelijk van enkele voorwaarden en uitgangspunten De soort en de hoeveelheid van de variabelen die men in de analyse opneemt

o Uit factoranalyse kan nooit iets tevoorschijn komen wat men er van tevoren niet heeft ingestopt

De steekproef waarop de analyse is uitgevoerd o Naarmate de steekproef met betrekking tot de te meten eigenschappen

meer variatie vertoont, worden hogere correlaties tussen de testscores gevonden (spreiding hangt positief samen met correlatie)

o De structuur van correlaties van de tests met de factoren kan veranderen over leeftijdsgroepen

19

Enkele wiskundige en technische vooronderstellingen die vaak een sterk arbitrair karakter hebben o Bv. aantal factoren dat men identificeert, streeft men naar afhankelijke/

onafhankelijke factoren, minimale hoeveelheid info die men per factor nastreeft,…

o Hebben directe invloed op het resultaat en komen voort uit soms expliciete, maar vaak ook impliciete vooronderstellingen

o Omdat factoren constructies van de onderzoeker zijn, zijn dergelijke keuzes arbitrair en dienen zij expliciet gemaakt te worden

De interpretatie van de resultaten van de factoranalyse o Een weloverwogen naamgeving van factoren op basis van niet veel meer dan

een subjectieve inhoudsanalyse van de tests zelf o Kritiek op factoranalyse komt meestal neer op het verwijt dat de onderzoeker zich van de

vooronderstellingen en beperkingen te weinig bewust is o Voorspellende waarde van de test

Er is een wisselwerking tussen betekenisanalyse en predictieve validiteit Predictieve validiteit kan niet buiten de betekenisanalyse Voorspellingen geven aanleiding tot zinvolle veronderstellingen over de

testbetekenis Zowel het structuur onderzoek als het relatieonderzoek dragen bij tot een voorlopige

formulering van een antwoord op de betekenisvraag

8.4.3 Alternatieve verklaringen

Begripsvalidering vindt zowel plaats door een bevestiging van de oorspronkelijke hypothese als het verwerpen van concurrerende hypothesen die alternatieve verklaringen voor het testgedrag geven

Bij predictieve validiteit is een lage correlatie algemeen ongewenst, bij begripsvalidering is ze soms wel gewenst (bv. om uit te sluiten dat de test iets anders meet)

De waarde van het verwerpen van alternatieve verklaringen is niet altijd even groot o Hangt af van de precisie van het experimentele opzet

Bv. slordig opzet kan leiden tot verwerping goede alternatieve verklaringen o Hangt af van de plausibiliteit van de alternatieve verklaring

Wisselwerking tussen test en inhoudelijke theorie speelt een rol Bv. zie blz. 383

Samenhang met intelligentie o Verstandig zowel tests voor prestatieniveau als tests voor gedragswijze te correleren met

een intelligentietest

Sociale wenselijkheid als onbedoelde eigenschap o Kan vooral bij persoonlijkheidsvragenlijsten een probleem vormen o = de mate waarin respondenten zich over het algemeen bij de beantwoording van

testvragen laten leiden door wat zij sociaal wenselijk achten o Wanneer een test in sterke mate sociale wenselijkheid meet, kan worden gesteld dat de

test niet goed functioneert o Individuele sociale wenselijkheid= per individu variërende opvatting over wat sociaal

wenselijke antwoorden zijn = test attitude/ test-taking attitude Oplossing: bij elke vraag moet proefpersoon ook aangeven in welke mate hij de vraag

sociaal wenselijk acht. Correlatie berekenen tussen deze scores en antwoorden op de vragen correlatie geeft aan in welke mate dit verschijnsel een rol speelde in beantwoording van de vragen

20

Verschil tussen antwoorden in anonieme situatie en niet- anonieme situatie is indicatie van ernst van dit verschijnsel

Lastig te registreren fenomeen o Algemene sociale wenselijkheid= een algemeen aanvaarde opvatting over wat sociaal

wenselijke antwoorden zijn Oplossing: aparte groep proefpersonen de sociale wenselijkheid van de antwoorden

laten beoordelen en op basis hiervan een algemene sociale wenselijkheidsleutel te construeren per persoon totaal score van sociale wenselijkheid berekenen

o De neiging tot het geven van sociaal wenselijke antwoorden kan voor de voorspelling van allerlei ander gedrag relevant zijn en daardoor zijn de vragenlijsten toch praktisch bruikbaar

o In het algemeen wordt reductie van sociale wenselijkheid bevorderd door een grotere subtiliteit van het opzet van de vragenlijst en de procedure van afneming

Antwoordtendenties o =neiging tot een consistent keuzepatroon in het antwoorden op tests, los van de inhoud

van de vragen o Instemtendentie: overmatig instemmen met de richting van de vraag o Positievoorkeur: sommige posities bij antwoordmogelijkheden worden geprefereerd boven

andere (bv. neutrale middenpositie) o Semantische interpretatie: bij keuze uit antwoorden ‘altijd’, ‘vaak’, ‘zelden’,… is er variatie

in individuele interpretatie van deze verbale aanduidingen van frequentie o Sequentietendentie: tendentie tot het kiezen van een bepaalde verdeling over de

keuzemogelijkheden, of tot bepaalde regels in de opeenvolging van gemaakte keuzes (bv. evenveel ja en neen antwoorden, niet teveel dezelfde antwoorden achter elkaar, …)

o Snelheidstendentie vs. precisietendentie: nadruk leggen op snelheid en kwantiteit of juist op precisie en prestatie

o Uitvoerigheidstendentie: komt vooral voor bij vrije- antwoordentests en test waarbij het aantal te geven antwoorden/ oplossingen aan de proefpersoon worden voergelaten maar wel belangrijk is (bv. Rorscharch)

o Gistendentie o Voorkeur voor formele kenmerken: bv. neiging de langste optie te kiezen, voorkeur voor

opties met vreemde termen,… o Antwoordtendenties worden gezien als manieren van antwoorden die vooral door de vorm

van de vraag tot stand komen o Er valt pas rekening mee te houden indien ze een zeker mate van waarneembare

consistentie vertonen o Antwoordstijlen hangen maar matig samen met onafhankelijk gemeten criteria o Vele tests bieden aan het optreden van één/meer antwoordtendenties ruimschoots

gelegenheid. Dit betekent dat ze mede de betekenis van de test kunnen bepalen

EXTRA TEKST: de rol van data-analyse in het proces van testconstructie

Volledig proces van testconstructie bestaat uit volgende stappen (kern) o Verzamelen van items o Analyse van de gegevens verkregen door de test toe te passen o Aanpassing van de test afhankelijk van de analyseresultaten

3 methoden van testconstructie o Empirische methode

Vaak letterlijk een verzameling van items: verzameld uit verschillende bronnen en samengevoegd in 1 test

Analyse bestaat erin na te gaan in hoeverre de items differentiëren tussen een referentiegroep en één/meerdere targetgroepen

21

Items die goed een targetgroep differentiëren van een referentiegroep worden opgenomen in een subschaal voor de betreffende targetgroep

Kwaliteit van een item is er in gelegen dat het empirisch kan differentiëren tussen de betreffende targetgroep en de referentiegroep

o Factoranalytische methode Verzameling van items gebeurt op een meer deductieve manier (voor een gegeven

concept reeks items formuleren) Analyse: factoranalyse Items die hoog laden op een factor zonder hoog te laden op een andere, worden

opgenomen in een factoriële subschaal Kwaliteit van item is gelegen in zijn factoriële zuiverheid

o Deductieve methode Items worden gemaakt om goed te passen bij één/meerdere concepten of bij de

deelaspecten van een concept Analyse: itemanalyse/ factoranalyse

Doel om 1 concept te meten: hoge interne consistentie en of één factor volstaat om correlaties tussen items te verklaren

Doel om meerdere concepten te meten: factoranalyse meer aangewezen, gevolg door itemanalyse

Items die niet voldoen worden verwijderd en eventueel vervangen/aangepast Kwaliteit item: item dat goed het concept weergeeft

ITEMANALYSE

Wordt om 3 redenen uitgevoerd o Evaluatie van de meetschaal

Som van de items die bij een veronderstelde factor horen o Indicatie van betrouwbaarheid

Schatten van de coëfficiënt van interne consistentie (= homogeniteitscoëfficiënt) Coëfficiënt stijgt met de intercorrelatie tussen de items en met het aantal items

(drukt dus meer uit dan de interne consistentie en homogeniteit) α – coëfficiënt is een ondergrens van de betrouwbaarheidscoëfficiënt als men α en betrouwbaarheidscoëfficiënt wil laten stijgen, moet men test langer

maken verwachte coëfficiënt kan als volgt berekent worden:

α = (K (oude α )) / (1+(K-1) oude α ) met k= verlengingsfactor α hangt af van:

correlatie tussen de items (hangt op haar beurt af van de grootte van de systematische verschillen tussen personen)

het aantal items (hoe meer items, hoe hoger α ) o Verwijdering/aanpassing van items

Nagaan welke items onvoldoende beantwoorden aan het concept Voor elk item nagaan welke de waarde is van α als het item niet wordt meegerekend

α stijgt: geen goed item

α daalt: item draagt in positieve zin bij tot betrouwbaarheid

α stijgt/daalt niet: item schaadt niet, maar is in feite overbodig per item toont de itemanalyse hoe groot de correlatie is met de somscore waarin het

item niet is meegerekend

items die bij verwijdering α doen stijgen, hebben een lagere item-totaal correlatie

hogere correlaties zijn beter dan lagere (drukken beter uit wat er door het geheel van de items gemeten wordt)

22

als een item niet voldoet wordt het best verwijderd en al dan niet vervangen

regel: niet meer dan één item tegelijk weglaten

per verwijderd item de itemanalyse herhalen

voordelen: echte interne consistentie stijgt

nadeel: de betrouwbaarheid zou kunnen dalen als het aantal items kleiner is

het is mogelijk een proces op drift: de kern van de subschaal verschuift bij elke verwijdering en dat gebeurt in ongekende en ongecontroleerde richting

doel van de test om 1 concept te meten: alle items moeten tegelijk aan één gezamenlijke itemanalyse onderworpen worden

doel om meer concepten te meten: itemanalyse uitvoeren per groep van items die men samenneemt om er score uit af te leiden

FACTORANALYSE

doelstelling factoranalyse: o op basis van empirische gegevens komt tot achterliggende verschildimensies met behulp

van een statistisch model o Heel wat psychologische concepten verwijzen naar individuele verschillen o Die verschildimensies zijn samenvattingen van gedrag over verschillende situaties heen o Factoranalyse is een techniek die probeert om dergelijke ‘samenvattingen’ te maken

o.b.v. de similariteit in (antwoord)gedrag

De gegevens komen uit vragenlijsten met antwoorden op een reeks items

factorlading= correlatie van een item met de factor

eigenwaarde= som van de gekwadrateerde ladingen op een factor

communaliteit= het deel van de variantie van een item dat verklaard wordt door de gemeenschappelijke factoren

varimaxrotatie= rotatie naar de eenvoudige structuur (structuur met per factor slecht een beperkt aantal items en per item slechts één hoge lading)

factoranalyse vertrekt van de correlatie tussen de items

voor de diagonaal (correlatie van item met zichzelf)zijn er 2 mogelijkheden o 1 invullen

Zodat men met de factoranalyse 100% van de variantie van elke variabele wil verklaren

= methode van de principale componentenanalyse o Communialiteit invullen

Meestal wordt hiervoor methode van hoofdassen gebruikt

Factoranalyse levert eigenwaarde op en een ongeroteerde factoroplossing

De hoeveelheid variantie per factor wordt uitgedrukt in de eigenwaarden

Om te beslissen tot hoeveel factoren men moet besluiten, worden er verschillende criteria gebruikt

o Eigenwaarde gelijk aan 1 o Aantal factoren vlak voor de elleboog op scree plot o Aantal substantiële ladingen op een factor o Interpreteerbaarheid van een factor

Blijkt er slechts 1 factor te zijn en was het de bedoeling om 1 concept te meten, dan bevestigt de factoranalyse de bedoeling

Als er slechts 1 factor blijkt te zijn en het was de bedoeling meerdere concepten te meten, dan is niet voldaan aan het criterium van de divergente validiteit

Als er meerdere factoren zijn is een varimaxrotatie (orthogonale rotatie) aangewezen o Eenvoudige structuur is pas zichtbaar na rotatie o Men verwacht dat hierna de ladingen overeenkomen met de concepten/ aspecten van

een concept

23

Verschillende acties mogelijk o Itemanalyse: problematische items verwijderen/aanpassen o Item dat op verkeerde factor laadt, meerekenen met de groep van item van die factor o Een nieuwe groep item definiëren op grond van een onverwacht opgedoken factor

Factorschalen: items met een hoge lading op dezelfde factor optellen o Nadeel: mogelijk is er een correlatie tussen somscores

Factorscores: gewogen som (grootte ladingen, intercorrelaties)

Zwakte van factoranalyse: interpretatie van factoren is subjectief

Resultaat factoranalyse afhankelijk van o Soort en hoeveelheid variabelen in de analyse o Steekproef respondenten o Technische veronderstellingen en keuzes o Interpretatie van de factoren

Kruisvalidering o Dataset verdelen in 2 steekproeven o Per dataset een aparte analyse uitvoeren o Is het resultaat vergelijkbaar?

8.5 Nogmaals betrouwbaarheid en validiteit

De betrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor de betrouwbare testscore uit de klassieke testtheorie en de persoonsparameter uit de item-responstheorie o Interval geeft indicatie van de nauwkeurigheid van de meting

Lage betrouwbaarheid: test meet wel de eigenschap maar gaat gepaard met veel ruis o dus is nauwelijks valide o grote meetfout betekent ook dat de test laag correleert met andere variabelen o predictieve validiteit is gering

campbell en Fiske: multitrek-multimethodebenadering o belangrijk hier is het idee dat een test voor een bepaalde eigenschap zou kunnen worden

vervangen door een andere test die dezelfde eigenschap pretendeert te meten lukt niet perfectvariantie in testresultaten is voor een deel toe te schrijven aan

variantie van de onderzochte groep op de bedoelde eigenschap, maar ook aan de specifieke eigenschappen van de verschillende meetinstrumenten

o iedere test is een trek-methode-eenheid en de variantie van de testscore wordt bepaald door zowel variantie in de gemeten trek, als variantie in de methode (de test)

o er wordt geschat in hoeverre de variantie van de testscore bepaald wordt door de variantie in de bedoelde trek en juist niet door de variantie ten gevolge van de gebruikte methode/ de niet bedoelde trekken

o om dit vast te stellen dient de evaluatieprocedure van de test de meting van diverse trekken en het meten met verschillende methoden omvatten

o de matrix bevat de correlaties die op deze wijze uit alle combinaties van methoden en trekken ontstaan (zie figuur 8.5 blz. 390) B-waarden (centrale diagonaal): de correlaties voor dezelfde trekken en dezelfde

methoden (monotrek- monomethode overlap)= betrouwbaarheid V-waarden: correlaties voor dezelfde trekken gemeten met verschillende methoden

(monotrek- heteromethode overlap) =confirmerende validiteit M- waarden: correlaties voor dezelfde methode en verschillende trekken (heterotrek-

monomethode overlap)= methodevariantie D-waarden: correlaties voor verschillende trekken en verschillende methoden

(heterotrek- heteromethode overlap) o Met betrekking tot validiteit zijn 4 overwegingen van belang

V- waarden moeten significant verschillen van nul en voldoende hoog zijn

24

V-waarden moeten hoger zijn dan d-waarden Houdt in dat de validiteit van een variabele hoger is dan de correlatie tussen die

variabele en iedere andere variabele die noch inhoudelijk noch wat betreft methode iets te gemeen heeft met variabele in kwestie

V-waarde moet hoger zijn dan m-waarde Twee onafhankelijke maten van dezelfde trek moeten hoger correleren dan twee

verschillende trekken met dezelfde methode In de m-driehoeken en de d-driehoeken moeten ongeveer gelijke patronen van

correlaties gevonden worden Laatste 3 verwachtingen vormen basis voor discriminante validiteit

o Test hertest methode= dezelfde metingen van dezelfde eigenschap (b-waarden)

Hoofdstuk 9: de bijdrage van de test in het beslissingsproces Inleiding

Wetenschappelijke waarde van een test wordt bepaald door het wetenschappelijke belang van de eigenschap die door de test wordt gemeten

Praktische waarde van de test kan het best worden beoordeeld tegen de achtergrond van de beslissingen die met de test worden genomen

Bijdrage van de test: gaat om de verbetering in vergelijking met de situatie zonder test

Cronbach en Gleser stellen dat het reëler is de situatie met test te vergelijken met de a-prioristrategie (= het totaal aan voorspellingsmogelijkheid min de test)

Voor het bepalen van de bijdrage van de test mag men niet louter afgaan op de correlatie met het criterium, maar men moet nagaan hoezeer de correlatie in vergelijking met het a-prioriniveau wordt verhoogd door toevoeging van testinformatie = incremental validity

Voor een test is een sterke onafhankelijkheid van de reeds beschikbare informatie vaak belangrijker dan een hoge correlatie met het criterium zonder meer

De praktische waarde van een test kan slechts beoordeeld worden in de context van het specifieke beslissingsproces zelf

9.1 Taxonomie van beslissingen

Beslissing over mensen bevat altijd 3 elementen o Een individu waarvoor de beslissing geldt o Twee/meer behandelingen o Informatie die dient als basis voor beslissingen

Het kan gebeuren dat de informatie ontoereikend wordt geacht voor een definitieve beslissing en dat men besluit om eerst aanvullend onderzoek te doen

Beslissingsstrategie: samenstel van verscheidene beslissingsregels o Kan expliciet zijn en consequent worden gevolgd o Kan vaag en onduidelijk zijn en niet consequent worden gevolgd o Normatieve strategie: de strategie die gevolgd zou moeten worden volgens de strategie o Empirische strategie: de feitelijk gevolgde strategie

Indelingsprincipes met betrekking tot beslissingen over mensen 1. Onderscheid tussen individuele en institutionele beslissingen

Individuele beslissingen o Volledig gedacht vanuit het individu dat de beslissing moet nemen/ waarvoor de

beslissing geldt o Kansbepaling is a priori of o.b.v. testinformatie o Eenmalige beslissing o Rendement varieert per individu (omdat de waarde van de uitkomst van de beslissing

varieert per individu)

25

o Resultaat moet beoordeeld worden tegen de achtergrond van de eigen, persoonlijke waarden en voorkeuren van het individu

o Bv. beroepskeuze

Institutionele beslissingen o Een groot aantal gelijksoortige beslissingen nemen o Kansbepaling doorgaans o.b.v. testinformatie (correlatie tussen test en criterium/

verwachtingstabel of differentiële voorspelling) o Waardesysteem: een voor alle beslissingen geldend systeem, behorend tot het

instituut/ de organisatie waarvoor beslissingen worden genomen o Vaste serie beslisregels voor uiteenlopende gevallen o Totale rendement wordt bepaald door het gemiddelde rendement van de

afzonderlijke beslissingen (meestal met doel het rendement te maximaliseren) o Bv. toelatingsprocedure voor school, rijbewijsexamen,…

2. Onderlinge relatie van de te kiezen alternatieven

Heeft invloed op de aard van de te kiezen informatiebron

Univariate informatie: De alternatieven kunnen kwantitatief van elkaar verschillen, maar wel in één dimensie of in elkaars verlengde liggen o bv. toegepaste psychologie vs. psychologie op universiteit o omdat het uitsluitend om een niveau verschil gaat, kan men in principe dezelfde

informatie gebruiken voor de voorspelling van succes binnen de verschillende alternatieven

o beslissing: verschillen in strengheid

Multivariate informatie: keuze alternatieven die qua aard, en niet enkel qua niveau verschillend zijn (kwantitatieve en kwalitatieve verschillen) o Bv. psychologie of burgerlijk ingenieur o Testinformatie heeft ook een mutivariaat karakter o Beslissing: profielscores, verschilscores, scorepatronen o Het gaat om de mogelijkheid tot differentiële voorspellingen (welke gebaseerd is op

multivariate analyse) 3. Beslissingen waarbij het gaat om een keuze voor 1 behandeling vs. een keuze tussen

verschillende alternatieven

Het gebruik van univariate informatie is in het eerste geval gebaseerd op tweedeling ‘niet-wel’

In het tweede geval is ze gebaseerd op het indelen van twee of meer ‘klassen’

Op basis van deze 3 indelingsprincipes komen we tot een taxonomie van beslissingen

1. De twee soorten beslissingen (selectie en plaatsing in alternatieven die verschillen qua niveau) kunnen soms in één model worden gecombineerd

26

Komt veel voor in bedrijfs- en schoolpsychologie 2. Binnen de categorie van plaatsingsbeslissingen is het belangrijk of men rekening moet

houden met beperkingen van aantal kandidaten 3. Onderscheid tussen variabele en vaste treatments

Vaste treatments: men gaat uit van één/ meer van tevoren vastgelegde behandelingen, waartussen men een keuze kan maken

Variabele treatments: er bestaat een mogelijkheid om de behandeling weer bij te stellen zodat ze optimaal past bij het individu

4. Beslissing in één fase (single-stage / non- sequential decision) nemen of in meerdere fasen (sequential decisions)

9.2 Enkelvoudige selectie- c.q. afwijzingsmodel

Van enkelvoudige selectie is sprake indien individuen worden onderzocht met het oog op een enkel criterium, waarbij er slecht twee mogelijkheden zijn: men voldoet wel of niet aan de eisen

Klassieke geschiktheidsonderzoek

Het gaat hier om zoveel mogelijk ongeschikte kandidaten te weren

Institutionele beslissingen, gebruik maken van univariate informatie o !impliceert niet dat er slecht gebruik gemaakt wordt van één test (gebruikt men meerdere

testen, dan worden de scores gecombineerd tot een enkele predictorvariabele)

9.2.1 Het gebruik van een enkele test

Eerste vraag bij dit model is hoe hoog de correlatie met een criterium minstens moet zijn, wil de test in het selectieproces een zinvolle functie hebben

De effectiviteit van selectie hangt van meer factoren af dan enkel de validiteit van de test

A: personen die onterecht zijn afgewezen B: personen die terecht zijn aangenomen C: personen die terecht zijn afgewezen D: personen die onterecht zijn aangenomen A en D zijn missers (A: positieve missers/ D: negatieve missers)

B en C zijn treffers (B: positieve treffers/ C: negatieve treffers)

Verticale lijn= kritische testscore/aftest grens (erboven wordt men aangenomen, eronder afgewezen)

Horizontale lijn= kritische criteriumscore (erboven is voldoende, eronder is onvoldoende)

Selectieratio= percentage kandidaten dat wordt aangenomen 𝐵 + D

A + B + C + D

Toevalskans (= base rate/ antecedent probality): percentage geschikte kandidaten wanneer men niet zou selecteren maar volgens toeval (of allen) zou aannemen

o Bv. toevalskans van 0.75wanneer kandidaten aselect zouden worden toegewezen zou 75% in de aangenomen groep succesvol zijn

o Afhankelijk van de kwaliteit van het aanbod (hoe hoger kwaliteit, hoe meer volk in B) o Afhankelijk van de strengheid van beoordeling van de criteriumprestatie

𝐴 + 𝐵

A + B + C + D

27

Succesratio: percentage succesvolle kandidaten binnen de aangenomen groep (validiteit test) 𝐵

B + D

o Afhankelijk van de correlatie van de test met het criterium,

Hoe hoger de correlatie, hoe meer volk in B en C en hoe leger A en D+ succesratio wordt groter

o Succesratio wordt beïnvloed door toevalskans Indien A+B in verhouding tot het totaal groter zou worden, dan is dit ook het geval met

de succesratio o Succesratio wordt beïnvloed door selectieratio

Hoe meer personen worden afgewezen, hoe groter de succesratio wordt

Gevolgen van de genoemde relaties o Als er bij testen toch nog ongeschikte kandidaten worden aangenomen, hoeft dit niet te

wijten zijn aan de test Kan bv. ook liggen aan kwaliteit van het aanbod

o In beslissingsproces spelen ook oordelen en waardebepalingen een rol waarvoor noch de test noch de testpsycholoog zelf verantwoordelijk is Speelt ook een rol: aantal kandidaten dat moet worden aangenomen, succesratio die

men nastreeft Bij elke beslissing dient het belang van de verhouding van twee categorieën (positieve

en negatieve missers) worden afgewogen o Een gegeven validiteit geeft niet altijd dezelfde waarde voor de beslissing

Toevalskans (dicht bij) 1 geen zin om te testen Relatief weinig geschikte kandidaten in aanmeldingsgroep test met lage validiteit

heeft grote bijdrage o Bij zeer hoge waarden van de selectieratio, is bij constant blijven van de toevalskans een

veel hogere validiteit nodig om een bepaald effect te sorteren dan wanneer een strenge selectie mogelijk is en slechts een klein percentage hoeft te worden aangenomen

o Probleem: relatie tussen positieve en negatieve missers Strengere selectie meer kandidaten worden afgewezen die toch geschikt waren Overwegingen van belang:

Afhankelijk van vraag en aanbodproblemen zijn er situaties waarin een negatieve misser ernstige gevolgen heeft. In dergelijke situatie heeft men liever wat meer positieve missers

In andere situatie moeten positieve missers zo klein mogelijk zijn Situatie waarin beide groepen zo klein mogelijk moeten zijn

o In de puntenwolk bij een bepaalde positie van de horizontale lijn, de verticale lijn zodanig kiezen dat (A+D) zo klein mogelijk is

Het verschuiven van de aftastgrens op de predictorvariabele brengt dus een vermindering van het aantal missers van het ene type teweeg, terwijl het tegelijk het aantal missers van het andere type vergroot

o Probleem van selectie bij een zeer lage toevalskans Lage toevalskans heeft gevolgen voor de bijdrage van de test in het beslissingsproces

Duidelijk dat de absolute waarde van de validiteit van een test op zich weinig betekenis heeft

Zie formule Blz. 412

9.2.2 Het gelijktijdig gebruik van diverse tests

Meestal zal een zo hoog mogelijke validiteit bereikt worden door een verzameling van test die samen een testbatterij vormen

28

Testbatterij: serie testen die allen zo hoog mogelijk correleren met de criteriumprestatie maar onderling een zo laag mogelijke correlatie vertonen

Zowel bij de gefixeerde selectiescore (percentage te selecteren kandidaten ligt vast) als bij een gefixeerde succesratio (aangenomen kandidaten moeten min een bepaalde kans op succes hebben)kunnen de gewenste beslissingen op 2 manieren worden bereikt o Statistisch proces (actuarisch) o Niet-statistisch, intuïtief proces

Gaat vaak om een van situatie tot situatie fluctuerende combinatie van gegevens Men volt minder een vaste strategie dan bij het statistisch proces Allerlei vooroordelen, stereotypen, … spelen een rol. Men bepaald vaak ‘op het gevoel’

de diverse weegfactoren

Analytische methode: minimumvoorwaarden op elke test afzonderlijk (multiple cut off procedure) o Conjuctief: Voor elke test afzonderlijk wordt een kritische score vastgelegd, Op elke test

moet de kandidaat de norm halen o Compensatorisch: de ene test kan compenseren voor de andere test o Combinatie is ook mogelijk (voor elke test moest een bepaalde norm gehaald worden,

vanaf die norm is compensatie mogelijk) o Combinatie regel is nog nodig o Inhoudsvaliditeit (regel a priori bepaald) of predictieve validiteit (posteriori bepaald)

Globale methode

o Gewogen totaalscore met daarop een minimum norm o Lage score op 1 test kan gecompenseerd worden door hoge score op andere test o Statistische bepaling van de gewichten van elke test o Univariaat selectiemodel en predictieve validiteit

29

o Testen mogen zo weinig mogelijk overlappen

!! compensatorische regel= bepalen van een totaalscore waarop een minimumnorm wordt vooropgesteld

Compensatorische regel met a priori gewichten ≠ statistische manier voor het bepalen van een predictorscore

9.2.3 Selectie in een of meer fasen

Soms is het efficiënter op trapsgewijs, in verschillende fasen te testen

De basis waarop de voorselectie plaatsvindt dient valide te zijn met betrekking tot de criteriumprestatie

Voorselectie o.b.v. administratieve voorwaarden (bv. diploma, leeftijd) is meestal toegestaan

Voorselectie o.b.v. indruk van kandidaat (bv. sollicitatiebrief, handschrift, leeftijd, …) o Risico op onterecht afwijzen van goede kandidaten

Voorselectie o.b.v. een korte testprocedure o Gebruikte test kan ook nuttig zijn als hij minder betrouwbaar en valide is dan de

procedure die in een definitief selectieonderzoek wordt gebruikt o Voldoende is dat de toevalskans in de groep die voor een langdurig en kostbaar

onderzoek in aanmerking komt, door de voorselectie toeneemt

Sequentiële beslissingsmodellen kunnen ook gecompliceerder zijn en uit meer fasen bestaan dan enkel voorselectie

Trapsgewijze selectie is in de meeste gevallen superieur aan eenmalige selectie, aangezien meestal veel tijd en geld bespaard kan worden zonder dat er meer foutieve beslissingen vallen

9.3 Plaatsbepalingen

Beslissen is een proces waarbij waarden moeten worden toegekend aan zaken die niet kwantitatief te vergelijken zijn

Besliskunde veronderstelt de beschikbaarheid van een waardesysteem o Op basis van twee elementen (kansen en waarderingen) wordt de meest adequate

beslissing of beslissingsstrategie gekozen Kans op slagen voor elke optie moet bekend zijn

A priori: subjectieve inschatting A posteriori: empirisch gefundeerd (samenhang tussen test en criterium/

verwachtingstabel) De waarde van elke optie moet gekend zijn

Probleem: gewicht toekennen aan zaken die niet kwantitatief vergelijkbaar zijn Prioriteiten in waardensysteem Persoonlijke stellingname van betrokkene(n)

Deze twee waarden moeten onderling vergelijkbaar worden gemaakt/ rendement bepalen Volgens berekening van verwachte waarde van de verschillende uitkomsten Rendement maximaliseren

o Bij institutionele beslissingen worden de waarden van uitkomsten van beslissingen door de organisatie bepaald en zijn constant voor vele beslissingen

o Bij individuele beslissingen wordt de waarde door het individu bepaald en kan dus variëren over individuen

Bij het nemen van beslissingen gaat het erom dat dit niet gebeurt op een niet- rationele, impliciete en inconsistente manier, maar volgens een rationeel, expliciet en analyseerbaar proces

Bijdrage van test is evenredig aan validiteit

E (rendement)= P(A) x W(A) + P(-A) x W(-A) o Met P(A)= kans op slagen

30

o P(-A) kans op niet slagen o W(A) waarde van slagen o W(-A) waarde niet slagen

9.3.1 Plaatsing en niveauverschillen (univariate info)

Niveauverschillen o Geen kwalitatieve verschillen o De verschillende keuze keuzealternatieven zijn functie van dezelfde predictor

Waardesysteem: institutioneel

Kansen worden bepaald doormiddel van testinformatie

Voor elke testscore moet rendement bepaald wroden

Altijd A kiezen maakt geen verschil of je A of B kiest

Als predictor score onder X bij extreme predictorscores kies je B Kies je voor A anders voor B

Meest eenvoudige situatie: o Geen beperkingen of eisen wat betreft aantal kandidaten in elke optie o Elk individu krijgt keuze met maximaal rendement

Complexere situatie o Beperkt aantal plaatsen o Vereist aantal plaatsen (bv. opleiding moet elk jaar gevolgd worden door X aantal

personen) o Gevolg:

Niet iedereen volgt optie met maximaal rendement vanuit standpunt organisatie Rendement organisatie niet altijd gelijk aan individueel rendement bron van ontevredenheid

9.3.1 Plaatsing en kwalitatieve verschillen (multivariate info)

Eis: de kansen op succes in verschillende functies bepalen en de waarde van het goed vervullen van de functies vaststellen

Belangrijk verschil met het vorige is dat hier gebruik gemaakt wordt van multivariate informatie (bv. scorepatroon, profielscores)

Centraal: mogelijk tot differentiëring:

Testbatterij moet zich dus niet richten op wat de criteria verenigt maar op wat hen scheidt o Testbatterij bestaande uit test waarbij telkens een bepaalde configuratie van scores op

deeltests optimaal voorspelt voor één van de alternatieven

31

o Testen hebben met hoge correlatie op beide criteria o Maar ook testen die differentieel correleren met beide criteria

Niet enkel de correlatie met afzonderlijke criteria (validiteit) maar ook de differentiële validiteit is van belang

Differentiële voorspelling:

Hoe n individuen over n posities in M verschillende plaatsingen verdelen?

o Gebeurd vaak irrationeel o Cut and fit method

Meest bekwame individuen worden in best bij hen passende functies geplaatst Minst bekwame individuen worden aselect toegewezen in open gebleven functies Model niet altijd even goed uitvoerbaar (zie blz. 426-426 voor voorbeeld)

9.4 Individuele beslissingen

Beslissingen die worden genomen voor of door individuen met een eigen persoonlijk waarde systeem waardoor deze beslissingen veelal een uniek en eigensoortig karakter hebben

De evaluatie van de resultaten van beslissingen is een individuele en over individuen variërende zaak

Keuze kan kwantitatief en kwalitatief verschillende alternatieven betreffen o Kwalitatief: de informatie dient een hoge differentiële validiteit te bezitten

Er kan gebruik gemaakt worden van rationeel beslissingsmodel

Stappenplan o Beslissingsboom voor overlopen alle uitkomsten o Bepaling van kansen (niet zo eenvoudig) o Waardering van uitkomsten (allesbehalve eenvoudig) o Eventueel bijkomende variabele (bv. schadeposten) o Rendement bepalen

Taak van de psycholoog o Zoveel mogelijk analyseren en expliciteren o Model ligt vast (al dan niet de waarde van het falen en de kosten toevoegen) o Objectieve testinformatie (kansen)

De test draagt slecht objectieve informatie aan waardoor de beslissing beter wordt onderbouwd en dut tot betere resultaten kan leiden

Deel II

Meetniveaus 1. Kwantitatieve variabelen

= een variabele waarvan de waarden getallen zijn

De variabelen waar we mee werken (latent en vaststelbaar) zijn vaak kwantitatief

2. Meetniveaus

Fundamenteel probleem: getallen betekenen niet in elke context het zelfde o Oplossing: meetniveaus invoeren (betekenis van getallen is hiervan afhankelijk) o Minstens 5 meetniveaus

Nominaal Ordinaal Interval

32

Verschil Verhouding absoluut

o de getallen halen hun betekenis uit de toegestane transformaties enkel die aspecten die onveranderd blijven onder de toegestane transformatie hebben

betekenis we zullen dus telkens een aantal getallen op de X schaal omzetten naar een aantal

getallen op de Y schaal om te onderzoeken wat constant blijft y= f(X)

y= getransformeerde getallen f (x) functie van de getallen in X

we nemen de getallen X1, X2, X3 en X4 die horen bij de objecten 1,2,3,4 o gelijkheidsoperatie (G): g(X1,X2)=1 als X1=X2

g= 1 als de getallen gelijk zijn g=0 als de getallen niet gelijk zijn

o orderoperatie (O): o(X1,X2)=1 als X1>X2 o verhouding (ratio) van de verschillen (RV): rv(X1,X2,X3,X4)= (X1-X2)/ (X3-X4) o het verschil (V): v(X1,X2)= X1 – X2

de verhouding (ratio) (R): r(X1,X2) = X1/ X2

2.1 nominale schaal

1 op 1 transformatie: 2 getallen zijn gelijk, na transformatie blijven het 2 gelijke getallen

Als X1 = X2 dan f(X1)=f(X2)

Bv. f(X)= X2 ; f(X)=3X + 2 ; f(X) = -X

Gelijkheid heeft betekenis : o g(Y1,Y2) = g(X1,X2)

Orde heeft geen betekenis o O(Y1,Y2) ≠O(X1,X2) o Bv. f(x)= -X

Y1=2 Y2= 4 Dan X1 =-2 X2=-4 Y1<Y2 X1>X2

o De ordening hangt immers af van de schaal die we gebruiken

Het gaat hier louter om een classificatie van mensen/ objecten in niet geordende, elkaar uitsluitende groepen o Louter benoemen van categorieën o Bv. man (1) vrouw (2) o Moeten geen getallen zijn (ook andere symbolen zijn mogelijk)

Bv. de lengte van Jan is niet gelijk aan de lengte van Mieke, niet gelijk aan lengte bram, niet gelijk aan lengte An

Bv. rugnummer, etnische groep

2.2 Ordinale schaal

Monotoon stijgende transformatie

Als X1<X2 dan f(X1)<f(X2)

Bv. f(X)= X2 ; f(X)=3X+2

NIET f(X)= -X

Monotoon stijgende transformatie is een voorbeeld van een 1 op 1 transformatie o Gelijkheid heeft dus betekenis

Orde heeft ook betekenis o O(Y1,Y2)= o(X1,X2)

33

Verhouding van verschil heeft geen betekenis o Rv (Y1,Y2,Y3,Y4) ≠ rv(X1,X2,X3,X4) o Bv. F(x)= x2

Rv(y)= (A-B)/ (C-D) F(X)= (A2-B2)/ (C2-D2) = [(a-b)(a+b)] / [(c-d)(c+d)]

Het gaat om het rangordenen van mensen/ objecten volgens de mate waarin ze een bepaald kenmerk hebben

Bv. Jan is groter dan Mieke, is groter dan Bram, is groter dan An

Bv. mate van instemming met een item, opleidingsniveau

2.3 Intervalschaal

Positief lineaire transformatie

F(X)=ax+b (met a>0)

Bv. f(x)=3x+2

NIET f(x) = -x ; f(x) = X2

Is een voorbeeld van een monotoon stijgende transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis

Verhouding van verschil heeft betekenis o Rv (X1,X2,X3,X4) = rv (Y1,Y2,Y3,Y4)

= ((X1-X2)/ X3-X4) A* (Y1-Y2)/ A*(Y3-Y4) (Y1-Y2)/(Y3-Y4)

Verschil heeft geen betekenis o V(Y1,Y2) = Y1-Y2 = aX1+b – aX2 – b = a(X1-X2) = a *v(X1,X2) o ≠ v(X1,X2)

Verhouding heeft geen betekenis o R(Y1,Y2)= Y1/Y2 = (ax1+b)/(ax2+b) o ≠v(x1,x2)

We kunnen een eenheid toekennen: de afstand tussen twee waarden kan even groot zijn als die tussen twee andere waarden

Er is geen absoluut nulpunt: iets dat de waarde nul heeft, zou evengoed de waarde B kunnen krijgen (op een andere schaal)

Bv. (lengte Jan- lengte Mieke) = 2* (lengte Bram- lengte An)

Bv. temperatuur Celsius

2.4 Verschilschaal

Additieve transformatie

F(x) = X+b

Bv. f(X)= X+2

NIET f(x)=-x ; f(x)= x2

Is een voorbeeld van een positief lineaire transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis o Verhouding van verschil heeft betekenis

Verschil heeft betekenis o V (Y1,Y2) = Y1-Y2 = X1+b – X2+b = X1-X2 o =v(X1,X2)

Verhouding heeft geen betekenis o r(y1,y2) = y1/y2 = (x1+b)/(x2 + b) o ≠ r(x1,x2)

Bv. Jan is 6cm groter dan Mieke

34

2.5 Verhoudingsschaal

Multiplicatieve transformatie

F(x)=aX (met a>0)

Bv. f(x) = 3X

NIET f(x)= -X ; f(x) = x2

Is een voorbeeld van een positief lineaire transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis o Verhouding van verschil heeft betekenis

Verhouding heeft betekenis o r(y1,y2) = y1/y2 = a x1/a x2 = x1/x2 o = r(x1,x2)

Verschil heeft geen betekenis o v(y1,y2) = y1- y2 = a x1 – a x2 = a (x1- x2) = a v(x1,x2) o ≠ v(x1,x2)

We kunnen een eenheid en een nulpunt toekennen o Nulpunt ligt vast, krijgt dus betekenis o Iets dat waarde nul heeft zou ook op een andere schaal de waarde nul krijgen o Nulpunt reflecteert de totale afwezigheid van de eigenschap

Bv. Jan is 2maal zo groot als Bram

Bv. lengte, temperatuur Kelvin, massa

2.6 Absolute schaal

Identiteitstransformatie

(fX)=X

Geen enkele transformatie is toegestaan

Alle relaties hebben betekenis

Getallen zoals in rekenkunde 2.7 Opmerkingen

Je kan een bepaald gegeven in verschillende meetniveaus plaatsen, afhankelijk van de vraag o Bv. tombolaticket uitgedeeld met nummer 123

Nominaal: winnaar vs. verliezer Ordinaal: voor of na winnaar binnengekomen Verhouding: aantal aanwezigen

o Onderzoeker bepaalt zelf op welk meetniveau hij zijn operaties acht

Er zijn verschillende andere onderverdelingen van meetniveaus uitgewerkt door andere onderzoekers

2.8 Wiskundige operaties

De toegestane transformaties bepalen niet enkel de betekenis, maar ook welke wiskunde/ statistische operaties zinvol zijn en dus toegelaten zijn

Nominaal o Meeste rekenkundige operaties zijn niet zinvol o De modus is wel zinvol (meest voorkomende naam)

Ordinaal o Slechts beperkt aantal rekenkundige bewerkingen mogelijk o Bv. gemiddelde niet

Interval o Meeste rekenkundige bewerkingen bruikbaar o Nu is gemiddelde wel toegestaan

35

Verschil/verhouding o Meeste statistische procedures bruikbaar

Absoluut o Alle bewerkingen zijn toegestaan

Beoordeelaarsovereenstemming Inleiding

Van abstract latent (bv. intelligentie) operationaliseren naar concreet latent (bv. score op WISC)

Tijdstip verbijzonderen naar feitelijk manifest (bv. score WISC op tijdstip T)

Beoordelaar verbijzonderen (bv. score op WISC op tijdstip T door beoordeelaar B)

In omgekeerde richting gaat ook, dan ga je telkens meer veralgemenen o Veralgemening beoordelaar= betrouwbaarheid o Veralgemening tijdstip= nauwkeurigheid o Veralgemening operationalisatie= validiteit

Het mag niet uitmaken welke beoordelaar de antwoorden registreert en interpreteer o Interbeoordeelaarsovereenstemming!: mate waarin beoordelaars op eenzelfde manier scores

toekennen

1. overeenstemming voor nominale data: kappa van cohen

Elke persoon laten beoordelen door 2 verschillende psychologen

In welke mate komen ze overeen met elkaar?-->overeenstemmingstabel van aantallen opmaken (+ omzetten naar proporties)

Geobserveerde proportie overeenstemming: aantal keer dat ze het eens waren (diagonaal) delen

door aantal observaties. [ hier: 3/5 = 0.6] OF bij proportietabel de proporties overeenstemming met elkaar optellen

Proportie overeenstemming houdt geen rekening met toeval (personen die in dezelfde groep terechtkomen zonder dat dat iets te maken heeft met die personen zelf)

We kunnen berekenen hoe de overeenstemmingstabel eruit zou zien op basis van toeval als o Beoordelaars enkel oordelen op basis van hun eigen frequentieverdeling, niet op basis van de

persoon o Beoordelaars onafhankelijk van elkaar oordelen

Bij onafhankelijkheid mag je bij 2 gebeurtenissen de kansen vermenigvuldigen (productregel)

36

o Geobserveerde tabel: Verwachte aantallen overeenstemming door toeval berekenen

Verwachte proportie overeenstemming door toeval berekenen: proporties optellen en

delen door totaal aantal observaties. [hier: (0.6+0.6+0.2)/5=0.28] o Proportie tabel:

Verwachte proporties overeenstemming door toeval berekenen: 2 rijwaarden met elkaar vermenigvuldigen

Verwachte proportie overeenstemming door toeval berekenen: waarden met elkaar

optellen [ hier: 0.12+0.12+0.04 = 0.28]

Als we deze twee waarden (de geobserveerde overeenkomst en de overeenkomst op basis van toeval)berekend hebben, kunnen we kappa berekenen o Kapa= (PO-Pt)/(1-Pt) met PO= geobserveerde kans ; Pt= toevalskans

Als PO=1 (perfecte overeenstemming) kappa=1 Als PO=PT (alle waargenomen overeenstemming is toevalsovereenstemming) kappa =0

o Waarden van kappa met betekenis 0.00= arm 0.00-0.20 = gering 0.21-0.4 = reëel 0.41-0.6= gemiddeld 0.61-0.8= aanzienlijk 0.81-1.00= bijna perfect

2. overeenstemming voor ordinale data: gewogen kappa

Kijken we hier enkel naar de diagonaal, dan negeren we het feit dat er grotere verschillen kunnen zijn (bv. matig-uitstekend vs. matig-redelijk)

Ook partiële overeenstemming is van belang!

Geobserveerde gewogen proportie overeenstemming berekenen o Alle getallen vermenigvuldigd met hun gewicht optellen. Dit delen door totale aantal

observaties (gewichtenmatrix vermenigvuldigen met geobserveerde matrix)

Voor alle getallen de verwachte aantallen overeenstemming door toeval berekenen

37

Verwachte gewogen proportie overeenstemming door toeval berekenen (door gewichtenmatrix te vermenigvuldigen met matrix verwachte aantallen overeenstemming door toeval)

Gewichtenmatrix o Lineair: WIJ= 1- |i-j| / |c-1| met C= aantal beoordelaarscategorieën [hier:3] o Kwadratisch: WIJ= 1- (i-j)2 / (c-1)2 o Als i=j (kleinst mogelijke verschil) Wij=1 o Als i=1 (of c) en j=c (of 1) (grootst mogelijke verschil)Wij=0 o Als i-j=1

Lineair: (1-1)/2= .5 Kwadratisch: 1-1/4=.75

3. overeenstemming voor ordinale data: rho van spearmen

Stap 1= exacte scores om zetten in rangtabel o Per beoordelaar aangeven welke rang de beoordeling krijgt

o Di= rang van persoon i volgens beoordelaar 1 – rang van persoon i volgens beoordelaar 2 o N= aantal personen (/ aantal beoordelingen)

o Bij een volledige overeenstemming: rho = 1

o Bij een volledige omkering: rho = -1

Rho is de productmoment correlatie coëfficiënt tussen de ranks

De formule gaat enkel op als er niet veel ties (= gelijke scores) zijn binnen 1 beoordeelaar

Als er wel veel gelijke scores zijn, moet je gebruik maken van de productmomentcorrelatie coëfficiënt tussen de ranks o Rho verschilt van correlatie omdat die enkel rekening houdt met de rang en niet met de

exacte waarden

4. overeenstemming voor ordinale data: tau van kendall

Wederom werken met rangtabellen ipv met exacte waarden o Voor elk mogelijk koppel van beoordelingen bepaal je per beoordelaar kijken naar specifieke

rang tussen de twee items Bv. p1, p2 > p1 krijgt hogere rang dan p2

o Vervolgens bepaal je de mate van overeenstemming tussen de twee beoordeelaars Concordant: aantal keer dat ze zelfde volgorde tussen twee items hebben Discordant: aantal keer dat verschillende volgorde tussen twee items hebben

Tau= proportie concordante koppels- proportie discordante koppels (tau: Pc-Pd) o Pd= aantal discordante koppels/ aantal koppels in totaal

Bij volledige overeenstemming wordt deze term 0 dus tau: 1 o Pc= aantal concordante koppels/ aantal koppels in totaal

Bij volledige omkering wordt deze term 0 dus tau: -1 o Aantal koppels: n (n-1)/2

Oplossing voor wanneer een beoordelaar dezelfde score toekent aan verschillende beoordelingen o Bv. score 27, 27, 41, 40, 43. er is twee keer 27 gescoord. Deze zouden normaal rang 1 en rang

2 krijgen. Hier neem je het gemiddelde van (dus 1,5) dit is de rang dat beide waarden krijgen o Vervolgens terug discordantie en concordantie berekenen o Indien 2 items dezelfde rang hebben, kennen ze geen C of D maar krijgen ze X o Formule blijft dezelfde met die uitzondering dat

38

Aantal meetellende koppels= (aantal koppels – correctie 1) 0.5 * (aantal koppels – correctie 2) 0.5

correctie= met ti= aantal personen in tie groep i

Bv. Psycholoog A heeft 1 tiegroep van 2 personen T1 = 2 Dus correctie 1= 2* (2-1)/2= 1

Psycholoog B heeft 1 tiegroep van 2 personen T1 = 2

Dus correctie 1= 2* (2-1)/2= 1 Aantal meetellende koppels: (10-1) 0.5 * (10-1) 0.5 = 9

Bv. Psycholoog A heeft 2 tiegroepen van 2 personen en 3 personen T1 = 2 T2= 3 Dus correctie 1= 2* (2-1)/2+ =3*(3-1)/2= 4

Psycholoog B heeft 1 tiegroep van 2 personen T1 = 2

Dus correctie 1= 2* (2-1)/2= 1 Aantal meetellende koppels: (10-4) 0.5 * (10-1) 0.5 = 7,35

5. opmerkingen

Volledige objectiviteit is een na te streven ideaal. Volledige objectiviteit is onmenselijk

De mate van objectiviteit varieert naar gelang de testsoort o Moeilijker naarmate men zich meer richt op verklaring en interpretatie dan op beschrijving o Bv. interview, projectieve test,…

Objectiviteit is soms ten koste van de relevantie o Bv. TAT

Objectief: aantal antwoorden Relevant: mate van agressie

o Erg moeilijke afweging

Objectiviteit is niet altijd even belangrijk (bv. bij het genereren van hypotheses)

Lage overeenstemming vermijden o Voorafgaand training: stage, proefbeoordelingen o Merkbare controle o Kwaliteit beoordelaarsinstructies: duidelijke, welomschreven scoringsvoorschrift

kies een test(soort) die overeenstemming toelaat zorg dat je de scoringsvoorschriften kent hou je er aan de scoringsvoorschriften

o vermijd allerlei niet-systematische invloeden (schrijffouten, onoplettendheid, vermoeidheid, achtergrondlawaai) door bvb : goed uit te slapen, en een goed testlokaal te kiezen

2/)1(__

1

groepentieaantal

i

ii tt

39

klassieke test theorie 1. inleiding

betrouwbaarheid= herhaalbaarheid van metingen

het mag niet uitmaken welke beoordelaar de antwoorden registreert en interpreteert o interbeoordelaars overeenstemming: onderzoeken in hoeverre beoordelaars op eenzelfde

manier scores toekennen

het mag niet uitmaken op welk moment de test wordt afgenomen o maar vaak maakt het wel uit door allerlei storende factoren o deze storende factoren hebben een invloed op de nauwkeurigheid van de score

testscores te weten komen zonder de storende factoren die samenhangen met een bepaald testmoment o klassieke test theorie (KTT) o item respons theorie (IRT)

2. KTT: eerste poging

basisaanname: geobserveerde testscore bestaat uit een systematisch deel en toevallige invloeden

twee aannames o systematisch deel hangt niet af van het testmoment (= de ware+ foutloze/ systematische/

betrouwbare score) de betrouwbare score van een persoon i hangt niet af van het testmoment

Tij = Ti o de toevallige invloed hangt af van het testmoment en is niet systematisch ( = meetfout)

over heel veel testmomenten is de gemiddelde meetfout voor persoon i gelijk aan nul meetfouten heffen elkaar op

Gevolgen o Xij = Ti + Eij

betrouwbare score van persoon i (Ti) is (per aanname) onafhankelijk van het testmoment (geen index j)

we willen Ti uit Xij halen o

betrouwbare score van persoon i (Ti) is gemiddelde testscore van de persoon over heel veel testmomenten

testscore zonder storende factoren te weten komen: dezelfde test veel afnemen van dezelfde persoon en gemiddelde nemen

wie wil er zich zo vaak laten testen?

Niet altijd zinvol o Condities veranderen door geheugeneffecten, leereffecten, motivatie

effecten,…

Dus we zullen het met één enkele testscore moeten doen

3. KTT tweede poging

In plaats van te kijken naar individuen kijken naar een populatie van personen op een bepaald testmoment (T)

Persoon i en één testscore (waarbij j=t)

Xi,j=t = Ti + Ei,j=t o Xi = Ti + Ei

[6.4] 0

1

1

q

jij

Eq

Ei

q

j

ijqi XT1

1

40

Aanname 1 o Over heel veel personen is de gemiddelde meetfout gelijk aan nul

o

Aanname 2 o De correlatie tussen de meetfout en een willekeurige variabele Y score is nul o De meetfout is dus niet systematisch o

Gevolgen o De gemiddelde geobserveerde score is gelijk aan de gemiddelde betrouwbare score

o De correlatie tussen meetfout en betrouwbare score is nul

o De variantie van de geobserveerde score is gelijk aan de variantie van de betrouwbare score+ de variantie van de meetfout S(E) = standaardmeetfout

Voor praktisch testgebruik gaat men ervan uit dat de standaardmeetfout identiek is voor alle personen

Voor psychologische metingen is deze waarde tamelijk groot o En

4. schatting van betrouwbare scores

Xij = Ti + Eij

Schatting van betrouwbare score van persoon i is gemiddelde testscore van die persoon over meerdere testmomenten ONHAALBARE METHODE

Directe methode o Schatting van betrouwbare score van persoon i is gelijk aan de geobserveerde score van die

persoon (dus niets aantrekken van meetfout) o

Regressie methode o Gebruik maken van een regressiemodel op T te voorspellen op basis van X

o

Met

o

o De schatting van de betrouwbare score van persoon i is het gewogen gemiddelde van

de geobserveerde score (Xi) van die persoon en het groepsgemiddelde

Betrouwbaarheidsinterval van schatting T o

o Met S(T-^T)= standaardschattingsfout

= standaarddeviatie van de schattingsfout T-^T = Standaardfout van estimatie

o Directe methode

0

1

1

n

ji

En

E

0, YEr

TX

0, TEr

ESTSXS 222

TSTXS 2, ESEXS 2,

ˆii XT

])[,()(

)(ˆ TXXTXrXS

TST ii

XXS

TSX

XS

TST ii

)²(

)²(1

)²(

)²(ˆ

TTST ˆ96.1ˆ :BHI 95%

)()ˆ( ESTTS

41

Standaardschattingsfout= standaard meetfout

o Regressie methode Standaardschattingsfout = gewogen standaard meetfout

o De totale variantie van Y kan opgesplitst worden in een foutenstuk en een stuk verklaarde

variantie o Een goede maat van de kwaliteit van een regressie voorspelling is de verhouding van de

verklaarde totale variantie. o Bij optimale lineaire voorspelling geldt dat

Hieruit volgt dat S²(Y) = S²(Y.X) + r²(X,Y) S²(Y) Of nog dat S²(Y.X) = (1- r²(X,Y)) S²(Y) Toegepast in ons geval volgt: = (1- r²(X,T)) S²(T)

Uit 6.14 geldt dat: o Alles samen geeft ons dat de volgende resultaten, voor de gewone en de regressie

methode voor de schatting van betrouwbare scores

Definitie betrouwbaarheid

o Deze mysterieuze definitie geeft de volgende resultaten voor de gewone en de regressie

methode voor de schatting van betrouwbare scores Directe methode

Regressie methode

Dus de we kunnen de testscore te weten komen zonder de storende factoren door de betrouwbaarheid van de test te kennen

5. inzicht in betrouwbaarheid

Betrouwbaarheid

[D] )²(

)²(1

XS

TSXSES

)ˆ²( TTS

ii XT ˆ

1)ˆ( 'XXrXSTTS

XrXrT XXiXXi '' 1ˆ

1)ˆ( '' XXXX rXSrTTS

42

o = de proportie van de variantie van de geobserveerde testscores die systematisch is

o Indien S(T)=0, dan is rxx’ =0

Alle personen hebben dan dezelfde betrouwbare score Dit maakt dat: S²(X) = S²(E) Dus dat alle variantie in de geobserveerde score te wijten is aan meetfout

o Indien S(E)=0, dan S(T)= S(X) Alle personen hebben dezelfde meetfout Alle personen hebben een meetfout van 0 (over alle proefpersonen heen moet

meetfout sommeren tot nul) Xi=Ti De geobserveerde score is foutenvrij

o Indien rxx’ = 0 Alle varianti in de geobserveerde score is te wijten aan meetfout De geobserveerde score is puur toeval

o Indien rxx’= 1 De geobserveerde score is foutenvrij en is puur systematisch

o Rxx’ geeft dus aan in hoeverre de geobserveerde scores uit meetfout bestaat o Betrouwbaarheid ligt tussen 0 en 1

uit [A] volgt dat: o

o Of nog: o Betrouwbaarheidsindex= de correlatie tussen de geobserveerde score en de ware score o Deze index wordt niet veel gebruikt in realiteit maar geeft wel veel inzicht o hoe dicht ligt de geobserveerde score bij de ware score

6. relatie tussen directe en regressie methode

o Xi: geobserveerde score van een bepaald individu i o X: gemiddelde geobserveerde score o als rXX’ = 1 dan is de regressieschatter gelijk aan de gewone schatter

-veel vertrouwen in de geobserveerde score, dus weegt zwaar door komt overeen met de directe methode

o als rXX’ = 0 dan is de regressieschatter het populatiegemiddelde -niet veel vertrouwen in de geobserveerde score (puur te wijten aan meetfout)

rekenvoorbeelden zie slides (hoe breder BI, hoe minder nauwkeurig) o schatting op basis van regressie is altijd nauwkeuriger dan schatting op basis van directe

methode omdat deze meer relevante informatie gebruikt o de standaardschattingsfout aan de hand van regressiemethode is kleiner dan of gelijk aan de

standaardschattingsfout aan de hand van de directe methode

7. wanneer is er sprake van een goede betrouwbaarheid?

Bij een goede betrouwbaarheid liggen de waarden van de correlatie tussen 0 en 1

o Hoe groter de betrouwbaarheid, hoe kleiner de standaardmeetfout en hoe kleiner de

standaardschattingsfout o Standaardschattingsfout geeft een indruk van de onnauwkeurigheid van de schatting van Y

met behulp van X

),()(

,

)(

²TXr

TSXS

TXS

TSXS

TS

XS

TS

T)r(X, ' XXr

XrXrT XXiXXi '' 1ˆ

43

o Grotere steekproeven laten veel nauwkeurige schattingen van een parameter toe dan kleine steekproeven

Bij een betrouwbarheidsinterval van 1 krijg je maar 1 waarde

Acceptabele waarden voor betrouwbaarheid: o Wetenschappelijk onderzoek: rxx’>0.7 (individuele scoring staat niet centraal) o Individuele diagnostie rxx’>0.9 o ! let op dit zijn vuistregels, geen harde ondergrenzen

Hoe kunnen we nu de betrouwbaarheid van de test kennen? o Parallelvormmethode: herhaalde meting met verschillende testen o Test- hertest methode: herhaalde metingen met dezelfde test o Splitsingsmethode: eenmalige meting met twee helften o Interne- consistentiemethode: eenmalige meting met items

8. paralleltest

Twee testen zijn parallel als ze inwisselbaar zijn

Twee testen zijn parallel als : o Iedere persoon heeft op de twee tests een identieke betrouwbare scores

Dus als voor iedere persoon uit een specifieke populatie geldt dat TiI = TiII o De variantie van de geobserveerde testscores, genomen over alle personen die de populatie

vormen, zijn gelijk Dus dat voor de hele groep van personen geldt dat: S2(XI)= S2(XII)

Parallelle testen zijn moeilijk te maken

Voor parallelle testen moeten er aan 3 eigenschappen voldaan zijn o S2(XI)= S2(XII)

o o r(XI, Y)= r(XII, Y)

Hoe parallelliteit controleren? o S2(XI)= S2(XII) valt eenvoudig na te gaan adhv de geobserveerde testscores

o TiI = TiII valt niet na te gaan maar impliceert wel dat Maar door standaardisatie van de testscores kunnen we hier altijd voor zorgen

o Het kan aangetoond worden dat parallelliteit impliceert dat voor een willekeurige variabele Y geldt dat r(XI, Y)= r(XII, Y)

9. paralleltest en betrouwbaarheid

Er is een erg interessante relatie tussen paralleltest en betrouwbaarheid

Als testen I en II parallel zijn, dan geldt dat: o Dus de betrouwbaarheid van test I en test II zijn allebei gelijk aan de correlatie tussen de

geobserveerde scores op beide tests

Betrouwbaarheid bepalen door de betrouwbaarheid van andere testen (deeltesten): grote test opsplitsen in verschillende subtesten (splitsingsmethode) o Als we een test hebben met K delen

o Totaalscore = o Als de testdelen gelijke betrouwbare scores opleveren voor elke persoon (= equivalentie) dan

kan worden afgeleid dat:

o Als de geobserveerde score ook nog gelijke varianties hebben op alle testdelen (= de

deeltesten zijn parallel), dan volgt:

IIIXX XXrr ,'

XS

,YYS

K

Kr

hg hg

XX'21

44

met rDD’= de betrouwbaarheid van de deeltest

Stel, een test van k items heeft een betrouwbaarheid van rXX’ o Voeg parallelle testdelen toe zodat de nieuwe test uit K parallelle testdelen bestaat o De betrouwbaarheid van de verlengde test wordt dan genoteerd als rkk’ o Rkk’ kan berekend worden aan de hand van de spearman Brown formule

rKK’ = betrouwbaarheid verlengde test

rXX’ = betrouwbaarheid originele test

K = verlengingsfactor

Bij een verleningsfactor van 1 doe je niets, betrouwbaarheid blijft zelfde als originele test

Bij de eerste verleningen krijg je veel winst in betrouwbaarheid.

De betrouwbaarheid blijft stijgen maar de stijging wordt steeds minder krachtig o De betrouwbaarheid van de verlengde test is groter dan die van de oorspronkelijke test o Door de test te verlengen met parallelle delen krijgt de meetfout minder invloed op de

geobserveerde scores o Een testverlening is vooral zinvol als de oorspronkelijke test weinig items heeft en een niet al

te lage betrouwbaarheid heeft o Als K oneindig wordt, dan is de betrouwbaarheid gelijk aan 1

in theorie kunnen we dus perfecte betrouwbaarheid verkrijgen in de praktijk is een perfect betrouwbare test niet altijd haalbaar

het is niet altijd mogelijk om parallelle items toe te voegen o goede items (theoretisch probleem) o tijdsbeperkingen: testverlenging heeft uiteraard ook effect op test duur (praktisch probleem)

uit volgt o Dus we kunnen berekenen met hoeveel parallelle deeltests we een test moeten verlengen

om een om een gewenste betrouwbaarheid te bereiken o Voorbeeld zie slides

10. betrouwbaarheid bepalen

Als twee testen parallel zijn dan geldt: o Betrouwbaarheid: correlatie tussen twee parallelle testscores

Dit geeft ons een werkwijze om betrouwbaarheid te bepalen o Neem twee parallelle test af bij een grote groep representatieve proefpersonen met een

zeker tijdsinterval tussen de testen o Bereken de correlatie tussen de scores op de twee testen o Dit is de schatting van de betrouwbaarheid van elk van deze testen

Poging 1: construeer twee parallelle testen o =parallelvormmethode o Mar paralleltesten maken is niet eenvoudig. De items moeten gelijkwaardig zijn maar mogen

niet identiek zijn

Poging 2: een test is parallel aan zichzelf o Bij twee afnames van dezelfde test geldt dat de betrouwbaarheid gelijk is aan de correlatie

tussen de scores op de twee testmomenten o =test hertest methode o Werkwijze

'

''

)1(1 XX

XXKK

rK

Krr

'

''

)1(1 XX

XXKK

rK

Krr

)1(

)1(

''

'

KKXX

XXKK

rr

rrK

IIIXX XXrr ,'

45

Neem dezelfde tests af bij een grote groep representatieve personen met een zeker tijdsinterval tussen de afnames

Bereken de correlatie tussen de geobserveerde scores op de twee afnames van dezelfde test

Dit is de schatting van de betrouwbaarheid van elk van deze tests o Voordeel: je moet geen moeite doen om de parallel test te maken o Maar een test is alleen parallel aan zichzelf als de test exact dezelfde condities wordt

afgenomen Dit is bijna altijd onmogelijk bij psychologische testen (bv. leereffecten, motivatie

effecten,…) + hoe groot moet het tijdsinterval zijn tussen de twee afnames?

Poging 3: als we een test in twee gelijke delen splitsen, dan zijn deze testdelen misschien parallel aan elkaar o De betrouwbarheid van de halve test: o En de betrouwbaarheid van de hele test (via spearman brown met K=2): o = splitsingsmethode o Werkwijze: Neem de volledige test één keer af bij een grote representatieve groep personen Verdeel de test in twee helften met gelijk aantal items, en bereken voor iedere persoon

voor beide helften de test score (D1 en D2) Bereken de correlatie tussen de scores op helft 1 en de scores op helft 2 Corrigeer deze correlatie (= de betrouwbarheid van de halve test) om de

betrouwbaarheid van de hele test te schatten o Voorbeeld zie slides o Voordeel:

Je hebt slecht 1 test nodig: simple Er is slechts 1 afname nodig: geen geheugen of leereffecten

o Maar in de praktijk is het moeilijk om een test in echt parallelle helften te splisen o Verschillende splitsingen kunnen leiden tot andere betrouwbaarheden

Poging 4: neem het gemiddelde over alle mogelijke splitsingsbetrouwbaarheden o : Chronbach’s alpha

o

Met Yg= score op item G K= het aantal items in de test

o Voordeel: Je hebt slechts 1 test nodig Er is slechts 1 afname nodig Geen arbitraire splitsing in delen nodig

o Chronbach’s alpha is enkel gelijk aan de betrouwbaarheid als de items equivalente tests zijn, maar dat is vaak niet het geval

o Als de items niet equivalent zijn kan aangetoond worden dat rxx’ ≥α o Dus α kan het best gezien worden als de ondergrens van de betrouwbaarheid

11. betrouwbaarheid en validiteit

Wat is het effect van een verlening van een test met score X op de validiteit o rK(X,Y) = r(X,Y) √rKK’/rXX’

rK(X,Y)= de validiteit van de verlengde test r(X,Y)= validiteit van de oorspronkelijke test

o de validiteit neemt veel minder snel toe dan de betrouwbaarheid als gevolg van testverlenging

21' , DDrrDD

'

''

1

2

DD

DDXX

r

rr

XS

,YYS

k

k hg hg

21

46

o een hoge betrouwbaarheid is een noodzakelijke maat geen voldoende voorwaarde voor een goede validiteit

o als K oneindig is dan is rkk’=1 en X= Tx

geeft de maximale validiteit bij een testverlening tot oneindig + geeft de validiteit die we zouden gevonden hebben als X zonder meetfout werd

vastgesteld o Wat is de validiteit die we zouden gevonden hebben als X en Y zonder meetfout werden

vastgesteld?

Eerste term: de correlatie tussen de betrouwbare scores van X en Y Boven breuk: de correlatie tussen de geobserveerde scores van X en Y Onder breuk: de betrouwbaarheidscoëfficiënten van de testen die X en Y opleveren = correctie voor attenuatie (voorbeelden zie slides)

item respons theorie

1.inleiding

Van feitelijk manifeste variabelen naar concreet latente variabelen: nauwkeurigheid o Hoe zeker zijn we van onze schattingen

de klassieke testtheorie is zo goed als volledig vastgelegd. Ze wordt nog steeds veel gebruikt, maar er zijn een aantal problemen aan verbonden

de nieuwe psychometrie werd ontwikkeld in de jaren ’60, vond pas ingang in de jaren ‘80 o ze wordt vooral gehanteerd in de onderwijskunde o nog niet echt in de psychologie/ psychodiagnostiek o vooral bekend als item respons theorie (IRT) maar ook als latente trek theorie

2. tekortkomingen klassieke testtheorie

de betekenis van data hangt af van de schaal/ het meetniveau

het is niet duidelijk welke aspecten van de testscore we serieus mogen nemen (rangorde, grootte van verschillen, grootte van verhoudingen)

het is niet duidelijke welke betekenis we kunnen toekennen aan de testscores

betrouwbare scores kunnen enkel zinvol vergeleken worden als de personen exact dezelfde test gekregen hebben

oplossing o de nieuwe psychometrie stapt af van betrouwbare testscores maar wil de

vaardigheidsvariabelen bepalen

3. Guttman schaal

bv. rekentest met 5 items o items worden dichotoom gescoord: 1=juist / 0= fout o per persoon per item krijg je een score o we kunnen de personen ordenen op een schaal naarmate ze vaardigheid beheersen (dus:

van minst juiste antwoorden naar persoon met meeste juiste antwoorden) o items kunnen geordend worden naar moeilijkheidsgraad (van het vaakst juist beantwoord

naar het minst vaak juist beantwoord) o de moeilijkheidsgraad van de items en de vaardigheid van persoon kunnen geïntegreerd

worden in 1 schaal

interpretatie

47

o een persoon maakt een bepaald item zeker juist als zijn positie op de schaal rechts ligt van het item

o een persoon maakt een item zeker fout als zijn positie op de schaal links ligt van het item o een item wordt altijd correct beantwoord door alle personen wiens positie rechts van het

item ligt o een item wordt altijd fout beantwoord door alle personen wiens positie links van het item

ligt

cruciale idee: dus personen en items worden op één as gesitueerd, gebaseerd op o de vaardigheid van de persoon o de moeilijkheid van het item

itemrespons functie (IRF) o grafische voorstelling van de moeilijkheidsgraad voor 1 bepaald item

o X-as: vaardigheid die vereist is om een item op te lossen o Y-as correct antwoord (kan enkel waarde 0 of 1 aannemen) o Tot een bepaalde vaardigheid zal het item altijd fout beantwoord worden o Drempel= de plaats waar de grafiek overspringt van 0 naar 1

=moeilijkheidsgraad van het item Hoe moeilijker het item, hoe verder de drempel ligt op de X-as Geeft aan hoeveel vaardigheid je moet hebben om het item goed te beantwoorden

o Interpretatie Persoon maakt een item zeker juist als zijn positie rechts op de schaal ligt Persoon maakt item zeker fout als zijn positie links op de schaal ligt Een item wordt altijd correct beantwoord door alle personen die rechts van de

drempel liggen Een item wordt altijd fout beantwoord door alle personen die links van het item liggen

Guttman IRF is deterministisch o Het antwoord is altijd juist als de vaardigheid een bepaalde drempel overschrijdt o Het antwoord is altijd fout als de vaardigheid kleiner is dan de drempel

Guttman IRF is discontinu: er is een sprong op de drempelwaarde

De Guttman schaal is echter niet toepasbaar op alle data o We moeten rekening houden met het toevalaspect bij het beantwoorden van het item

KTT: meetfout toevoegen IRT: antwoord probalistisch maken (naar kans kijken)

o We maken een nieuwe schaal, de RASCH schaal, uitgaande van een probalistisch model

4. uitgangspunten

We kijken naar een score op een specifiek item, niet naar de hele test (persoon- item combinatie) o Bij KTT wordt er naar de hele test gekeken

Item en personen worden op eenzelfde schaal geplaatst

De schaal is gebaseerd op de vaardigheid van de persoon en de moeilijkheid van het item

De kans op een juist antwoord wordt nooit kleiner wanneer de vaardigheid toeneemt

48

Doordat het vooral ontwikkeld is in onderwijskunde, spreken we vooral over vaardigheden, moeilijkheden, correcte en foute antwoorden

Correcte en foute antwoorden kunnen vertaald worden als ‘wel’ en ‘niet’ van toepassing of ‘mee eens’ /’mee oneens’

Een vaardigheid kan vertaald worden naar persoonlijkheidstrekken, waarden, sterkte van symptomen,…

Een moeilijkheid kan gezien worden als ernst/hevigheid van het item, evocatiegraad,…

5. Rasch schaal

We gaan niet meer kijken naar de correcte antwoorden voor een item, maar we kijken naar de kans op een correct antwoord op dat item

=succeskans: monotoon stijgende functie van de vaardigheid o Hoe groter je vaardigheid, hoe groter de kans dat je juist antwoord

Itemresponsfunctie

o X-as: vaardigheid o Y-as: kans op een correct antwoord o Glijdende functie: geen sprong tussen nul en één o 0 en 1 zijn de limieten

Personen met een heel kleine vaardigheid zullen zo goed als zeker fout antwoorden Personen met een grote vaardigheid zullen zo goed als zeker juist antwoorden

o Drempel: de waarde van de vaardigheid die overeenkomt met een kans van 0.5 Geeft meest waarschijnlijke antwoord aan Komt overeen met de moeilijkheidsgraad van het item

Hoe meer de drempel naar rechts ligt, hoe moeilijker het item o Interpretatie

Een persoon heeft een kans op een bepaald item goed te beantwoorden Hoe meer zijn positie op de schaal naar rechts ligt, hoe groter de kans op een juist

antwoord Een item wordt meestal correct beantwoord door personen wiens positie recht van de

drempel ligt Een item wordt meestal fout beantwoord door personen wiens positie links op de

drempel ligt

Rasch IRf is stochastisch: niet alle kansen zijn 0 of 1 o Het antwoord is niet altijd juist als de vaardigheid een bepaalde drempel overschrijft o Het antwoord niet altijd fout als de vaardigheid kleiner is dan de drempel

Rasch IRF is continu: er is geen sprong op de drempelwaarde

6. kansverhouding

= kans op succes delen door kans op mislukking

Kansverhouding=odds=O

O= P(succes)/P(misslukking) = P(succes)/[1-P(succes)]

1= P(succes)+P(misslukking)

Bv. odds op succes: O.8/0.2=4 voor elke mislukking zijn er 4 successen

49

Dus: 0 ≤ P ≤ 1

En 0 ≤ O ≤ ∞

Een kans van 0.5 komt overeen met een odd van 1

7. het Rasch model

Persoon- item combinatie

Xip= het antwoord van persoon p op item i

Elke persoon heeft voor elk item een kans om dat item correct te beantwoorden

P(Xip=1) = kans dat persoon p een goed antwoord geeft op item i

P(Xip=0) = 1 - P(Xip=1)

Interpretatie van P(Xip=1) o Proportie goede antwoorden als item i heel vaak aan persoon p wordt aangeboden zonder

dat er leer of geheugeneffecten zijn Praktisch is dit niet zinvol

o Proportie van personen uit een grote groep met dezelfde vaardigheid als persoon p die een goed antwoord geeft op item i Hoe ga je personen met eenzelfde vaardigheid vinden?

o Het valt dus niet zomaar vast te stellen

Kansverhouding (odds) voor een persoon-item combinatie

o o Op basis van kanstabel van succes kan je kansverhoudingstabel maken (+ omgekeerd)

Volgens Rasch geldt dat:

o = o Basisformule van het model o Kansverhouding van persoon op item o Het vaardigheidspeil van een persoon en moeilijkheidspeil van een item worden expliciet

uit elkaar gehaald o kansverhouding stijgt als ξ stijgt (en ε constant)

kans op een goed antwoord neemt toe naarmate de persoon vaardiger is o kansverhouding stijgt als ε daalt (en ξ constant)

kans op goed antwoord stijgt als moeilijkheidsgraad item daalt

pi

p

i

p

i

p

ip

ipip

O

OXP

)1/(

1)1(

speciale gevallen o als de vaardigheid van de persoon gelijk is aan de moeilijkheidsgraad van het item

Oip = 1

)0(

)1(

ip

ipip

XP

XPO

50

Dus P(Xip=1) = 0.5 = P(Xip=0) o Als vaardigheid van de persoon groter is dan de moeilijkheidsgraad van het item

Oip>1 P(Xip=1) > 0.5 > P(Xip=0)

o Als vaardigheid van persoon kleiner is dan de moeilijkheidsgraad van het item Oip < 1 P(Xip=1) < 0.5 < P(Xip = 0)

o Als vaardigheid van persoon ∞ is Oip = ∞ P(Xip =1) = 1 en P(Xip=0) = 0 Onafhankelijk van de moeilijkheidsgraad van het item Dus het model veronderstelt dat de kans om een item fout te beantwoorden bijna

onmogelijk is voor personen die de onderliggende vaardigheid in zeer grote mate bezitten

o Als vaardigheid van persoon nul is Oip = 0 P(Xip = 1) = 0 en P(Xip=0) = 1 Onafhankelijk van de moeilijkheidsgraad van het item Dus het model veronderstelt dat de kans om een item juist te beantwoorden quasi

onbestaande is voor personen die de onderliggende vaardigheid in zeer geringe mate bezitten

o Als moeilijkheid van item ∞ is Oip = 0 P(Xip=1)=0 en P(Xip=0)=1 Onafhankelijk van de vaardigheid van persoon Dus het model veronderstelt dat de kans om een item juist te beantwoorden quasi

onbestaande is voor items die zeer moeilijk zijn o Als moeilijk van het item 0 is

Oip = ∞ P(Xip=1) =1 en P(Xip=0) = 0 Onafhankelijk van de vaardigheid van persoon Het model verondersteld dus dat de kans om een item fout te beantwoorden quasi

onbestaande is voor items die zeer makkelijk zijn

Voorbeelden op oddstabel en kans tabel te maken zie slides 60 en 61

Het vaststellen van de latente variabele= vaardigheidsniveauparameter van een persoon berekenen o Berekenen is in feite schatten op basis van de itemantwoorden van die persoon

(testgegevens) o Personen worden op een schaal uitgezet o In principe kan je data schatten, in praktijk is dit moeilijker

Hoe moeilijker item, hoe meer de grafiek opschuift naar rechts (vorm blijft gelijk)

51

Testen E en A zijn redelijk makkelijk (lage drempel) testen D en E moeilijk (hoge drempel)

Lijnen representeren de geschatte waarde voor elke persoon o Persoon 1 en 2 hebben een redelijke kans om E en a op te lossen, bijna geen kans om de

andere items op te lossen o Persoon 4 heeft redelijke kans om E, A en C op te lossen, kleine kans om B en C op te lossen o Persoon 5 en 6 hebben redelijke kans om alle items goed op te lossen

Kan ook op een lijn uitgezet worden

o o Persoon 3 heeft een grote kans om E en A correct te beantwoorden, geringe kans op C,D en

B correct te beantwoorden

Het maakt niet uit welke concrete items de personen juist beantwoorden om de vaardigheid te bepalen

Het maakt ook niet uit door welke personen de items juist worden beantwoord

Er is een sterk positieve relatie tussen de vaardigheid en de geschatte betrouwbare score

Waarom al deze moeite gedaan o We hebben zicht op de schaaleigenschappen (niet bij KTT) o We kunnen uitspraken doen over vaardigheid die onafhankelijk zijn van de moeilijkheid van

de items (niet bij KTT) o We kunnen nagaan of het model steek houdt o We kunnen een standaardschattingsfout bepalen die niet constant is voor elke waarde van

de latente variabele

7.1 alternatieve formulering van Rasch model

Verhoudingsversie

o

o

Verschilversie

o

o o Met exp(X)= eX o ξ = exp(θ) o ln(ξ) = θ o ε = exp(δ) o ln(ε) = δ

beide versies zijn volledig equivalent

de parameterwaardes uit de ene versie kunnen omgezet worden naar de parameterwaardes uit de tweede versie, zonder effect op de kans(verhouding)en o bv. zie slides

52

8. Schaaleigenschappen van het Rasch model

de toegestane transformaties zijn verschillend voor de verhoudingsversie en de verschilversie van het model

verhoudingsversie o een vermenigvuldiging met een constante levert dezelfde kansen en kansverhoudingen op o parameter waarden blijven gelijk na vermenigvuldiging met een constante o voor een willekeurig getal b geldt:

o Uit de formule valt af te leiden dat een multiplicatieve transformatie toegestaan is [f(x)=bx] o Rasch schaal kan dus gezien worden als een verhoudingsschaal waarbij de verhoudingen

tussen de vaardigheden betekenis hebben maar de verschillen niet o ! de verhoudingen volgen niet enkel uit de data (getallen) die gegeven zijn. het volgt uit de

getallen gegeven het feit dat het om een verhoudingsschaal gaat o Er mag enkel iets gezegd worden over de gemeten eigenschap (de concreet latente

variabele) en niet over de abstracte latente variabele Dus hier kan je uitspraken doen over verhoudingen van vaardigheden, maar

bijvoorbeeld niet over verhoudingen van intelligentie o De verhoudingen tussen de vaardigheden moeten we begrijpen in relatie tot de

kansverhouding Uit volgt dat Dus de verhouding van twee kansverhoudingen is gelijk aan de verhouding van de

vaardigheden tussen twee personen (de verhouding van de vaardigheden zegt iets over de verhouding van de kansverhoudingen)

Deze relatie geldt voor eender welk item De verhoudingen tussen de vaardigheden hebben dus betekenis los van de items

Verschilversie o Parameterwaarden veranderen niet nadat er een constante bij opgeteld is o Voor een willekeurig getal a geldt

o Uit de formule valt af te leiden dat een additieve transformatie toegestaan is [f(x)=x+a] o De Rasch schaal is hier dus een verschilschaal waarbij de verschillen tussen vaardigheden

een betekenis hebben maar de verhoudingen niet

dus de twee versie zijn equivalent, maar verschillen in hun toegestane meetniveaus

9. populatie onafhankelijk meten

Rasch model: de meetwaarde, verkregen met een makkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkere test gemaakt heeft

Wanneer alle items op dezelfde schaal liggen, dan kunnen de testprestaties van personen die verschillende testen afnamen met een andere moeilijkheidsgraad voor eenzelfde eigenschap, toch vergeleken worden

In KTT zouden we personen die een andere test afnamen niet kunnen vergelijken

Met het Rasch model gaat dit wel, maar niet rechtstreeks. We moeten eerst de items van beide testen op dezelfde schaal leggen o We stellen eerst een andere test om die zowel items van de eerste als de tweede test bevat o Vanuit deze schaal afleiden door som en verschil te nemen met de andere items van de

oorspronkelijke test waardoor zo één gemeenschappelijke schaal bekomen wordt

i

p

i

pip

b

bO

))()exp(()exp( aaO ipipip

i

pipO

q

p

iq

ip

O

O

53

o Als persoon 1 op test 1 een teta haalt van -1.5 wordt dit op test 3 een waarde van 1 o Als persoon 2 op test 2 een teta haalt van 1.5, wordt dit op test 3 een waarde van -1

Vaak krijgen modellen steun (dus wordt er evidentie voor gevonden) als de empirische data er goed bij passen

De redenen waarom we Rasch gebruiken zijn niet empirisch maar epistemologisch o Het model kan waardevolle dingen die andere modellen niet kunnen o Het Rasch model impliceert invariant comparision

the] comparison between two individuals should be independent of which particular stimuli within the class considered were instrumental for the comparison; and it should also be independent of which other individuals were also compared, on the same or some other occasion

10. nauwkeurigheid van de schatting

KTT: nauwkeurigheid van de meetresultaten = nauwkeurigheid waarmee de ware scores worden geschat o S(T-T^) o Elke schatting van T is even (on)nauwkeurig: dus elke schatting heeft zelfde schattingsfout o En de nauwkeurigheid is voor iedereen gelijk

Is het wel realistisch dat de nauwkeurigheid gelijk blijft? o Bv. als we een hele moeilijke test wiskunde hebben en iedereen scoort er ondermaat op.

Dan weten we dat de vaardigheid van iedereen tekort schoot maar we kunnen niets zeggen over de waarden die de vaardigheid aanneemt (idem met een te makkelijke test)

Niet elke test/ elk item geeft evenveel informatie over iemands vaardigheid o Item die te makkelijk/moeilijk zijn, geven niet veel info o De hoeveelheid info hangt af van het vaardigheidsniveau en de moeilijkheidsgraad o De hoeveelheid info wordt uitgedrukt in informatiefunctie

Iteminformatiefunctie: hoeveelheid informatie voor elk item afzonderlijk Testinformatiefunctie: soms van iteminformatiefuncties. Dus info over hele test

Een item levert maximale info op als de kans op succes 0.5 is o Deze kans maakt dat de uitkomst zeer onvoorspelbaar is o Dus de observatie van de uitkomst levert dan veel informatie op o Een item levert dus maximale info op als de waarde van de vaardigheid even groot is als de

waarde van de moeilijkheid

Het maximum van de informatie bevindt zich op de plaatsen van de moeilijkheid (figuur 7.8) o Op deze grafiek zien we dat er veel info verkregen wordt door de test bij een vaardigheid

van rond de nul. Maar weinig info voor vaardigheid van rond de -4

Als je informatie wil verkrijgen over mensen met verschillende niveaus van vaardigheid, moet je item toevoegen aan de test met verschillende moeilijkheid

Rasch: nauwkeurigheid van meetresultaten: nauwkeurigheid waarmee vaardigheidsparameter geschat wordt

54

o Dit gebeurt op basis van de hoeveelheid informatie waarop de parameterschatting gebaseerd is

o Hoe meer informatie een test of een item oplevert, hoe nauwkeuriger de meting is o Elke schatting van teta kan een andere nauwkeurigheid hebben! o De nauwkeurigheid wordt afzonderlijk berekend per waarde van het vaardigheidspeil. o De ene persoon kan dus met dezelfde test nauwkeuriger gemeten worden dan de andere

In de vooropgestelde visuele voorstelling (lijnstuk met personen en items op geplaats) wordt geen rekening gehouden om de zekerheid van de schatting aan te geven o Om de illusie van zekerheid te doorbreken, kunnen we het BI bepalen o Deze wordt bepaald door de iteminformatiefunctie o Hoe kleiner het BI, hoe nauwkeuriger de schatting o Nauwkeurigheid verschilt per geschatte waarde o Als de BI overlappen, dan is het item niet nauwkeurig om een onderscheid te maken tussen

de personen

11. Testen van het Rasch model

Als het model niet juist is, dan kunnen we de parameterwaarden niet schatten en zijn ze niet bruikbaar o We kunnen de parameters niet zinvol interpreteren o En er kan dus ook niet zinvol gemeten worden

Het is van belang na te gaan of aan de veronderstellingen van het model voldaan zijn, voor elke persoon afzonderlijk o Kan gebeuren via statistische toets, maar een zeer technische en ingewikkelde

aangelegenheid

! de geldigheid van het Rasch model mag nooit a priori worden aangenomen en moet steeds empirisch worden nagegaan

Als we alle moeilijkheden en vaardigheden geschat hebben, kunnen we voor elke item-persoon combinatie een kans op een correct antwoord berekenen o Als de kans op een correct antwoord hoog (>0.5) is en het antwoord is toch fout, dan is er

iets vreemd aan de hand o Als de kans op een correct antwoord laag (<0.5) is en het antwoord toch juist, dan is er iets

vreemd aan de hand o Visuele voorstelling zie slides

Als het model niet alle data goed kan reproduceren, past het niet bij de data en is het dus niet geldig o Subjectief aspect: hoeveel moet er fout zijn om het model te verwerpen

12. Redenen waarom Rasch niet voldoet

Het bestuderen van de redenen waarom het Raschmodel al dan niet voldoet kan bijvoorbeeld door te kijken naar verschillende item-respons functies

12.1 schending van unidimensionaliteit van personen

Rasch gaat ervan uit dat: o Alle items in de toets dezelfde vaardigheid meten o Een testresultaat slechts door één latente variabele bepaald wordt o Geen enkele andere eigenschap van de te meten personen een systematische invloed op de

antwoorden uitoefent o er is per persoon dus maar 1 persoonsparameter

MAAR het antwoord op de vragen kan bepaald worden door meerdere dimensies o Bv. een rekentest zou naast rekenvaardigheid ook een taalvaardigheid kunnen vereisen

55

Dit is vooral een probleem als de tweede dimensie ( datgene wat we niet willen meten) systematisch samenhangt met de groep waartoe men behoort vraagonzuiverheid/item bias/ differential item functioning (DIF)

Zuiver item: personen van een gelijke vaardigheid hebben dezelfde kans om een vraag goed te maken en halen dus dezelfde score. o Personen uit andere groepen kunnen (en moeten) andere scores krijgen als de vaardigheid

ongelijk verdeeld is naar afkomst, geslacht, sociale achtergrond,… o Rasch gaat uit van zuivere items

12.2 schending van limieten

Rasch gaat ervan uit dat bij zeer kleine vaardigheden de kans op een correct antwoord nul is

Maar bij gokken of spieken wordt deze kans groter, zelfs als de vaardigheid zeer klein is

Bv. gokken bij meerkeuze examen: kans van 0.25 op goed antwoord bij lage vaardigheid

12.3 schending van monotoniciteit

Rasch gaat ervan uit dat de item-responsfunctie monotoon stijgend is met de vaardigheid o Dus hoe hoger de vaardigheid, hoe hoger de kans

Al blijkt dit niet altijd het geval te zijn

IRF’s die niet stijgen komen vaak voor bij attituden bv. ‘vindt u di rupo een goede premier’ o De vaardigheid kan hier vertaald worden als de positie op het links-rechts continuüm

12.4 schending van unidimensionaliteit van item

Rasch gaat er van uit dat items maar op één dimensie verschillen, namelijk de moeilijkheid

er is per item maar één itemparameter

Maar items verschillen soms op meer dan enkel de moeilijkheidsgraad o Bv. ze kunnen verschillen in hun steilheid of in de discriminatiewaarden van de

verschillende items (hoe groter verschil tussen kansen van een zelfde item, hoe groter de discriminatieve waarde)

13. mogelijke acties als het Rasch model niet voldoet

Mogelijkheid 1: een nieuw model gebruiken o We zijn van Guttman schaal naar Rasch gegaan en kunnen zo ook naar een nieuw model gaan

dat bv. gokken of andere discriminatiewaarden toelaat o Maar het gevaar is dat interessante meeteigenschappen verloren gaan o Deze methoden wordt meestal in Amerika gehanteerd o We beschouwen dus de werkelijkheid als gegeven en zoeken een model dat bij de

werkelijkheid past

Mogelijkheid 2: nieuwe data gebruiken o Items verwijderen

Kan validiteit in gedrang brengen o Personen verwijderen

Kan generaliseerbaarheid naar populatie van personen in gedrag brengen o Testomstandigheden aanpassen (bv. minder tijdsdruk) o Test opsplitsen, deelschalen maken (als unidimensionaliteit geschonden is) o Een nieuwe test maken o Wordt meestal in EU gehanteerd o We beschouwen het model als gegeven en zoeken een werkelijkheid die bij de data past

(enkel data die aan het Rasch model voldoen kunnen aanleiding geven tot zinvol meten)

Beide methoden zijn een epistemologische keuze

56

14. vergelijking Rasch- KTT

RASCH KTT Meetmodel stelt strenge eisen Meetmodel stelt minder strenge eisen

Moeilijk om data te verzamelen die aan het model voldoen

Makkelijke om data te verzamelen die aan het model voldoen

Houdbaarheid van het model is testbaar, dus er is empirisch na te gaan of meten zinvol is (meten per implicatie)een meetniveau volgt uit het model. Er kan onderzocht worden of het model goed past bij gegevens.

Als het model opgaat, kennen we het meetniveau (meten per fiat) verondersteld een bepaald meetniveau wat niet kan gecontroleerd/aangetoond worden. De eigenschappen moeten aangenomen worden

Personen kunnen zinvol gemeten worden met verschillende test voor dezelfde eigenschap, zelfs als andere moeilijkheidsgraad

Meetfout voor elke meetwaarde afzonderlijk Meetfout voor alle meetwaardes dezelfde

Het model moet passen om zinvol te kunnen meten. Je moet dus goede data hebben.

Veel data nodig voor nauwkeurige schattingen te bekomen (voor schatten itemparameters)

Veel data nodig voor nauwkeurige schattingen te bekomen (om betrouwbaarheid te bepalen)

Minder eenvoudig/toegankelijk Eenvoudiger/toegankelijker

Minder bekend Bekender en dus makkelijker om over te rapporteren

Samenvatting psychometrie - Onderwijssite · 4 4.4 Kwantificering van antwoorden 4.4.1...

Documents

Transcript of Samenvatting psychometrie - Onderwijssite · 4 4.4 Kwantificering van antwoorden 4.4.1...