Kwantificering van volumes en prijzen van biobased en fossiele ...
Samenvatting psychometrie - Onderwijssite · 4 4.4 Kwantificering van antwoorden 4.4.1...
Transcript of Samenvatting psychometrie - Onderwijssite · 4 4.4 Kwantificering van antwoorden 4.4.1...
1
Samenvatting psychometrie
Deel I
Hoofdstuk 4: constructie van items en kwantificering van reacties 4.1 Van de respondent gevraagde activiteit
Basiskader psychologie: Gedrag= functie (persoon, situatie) o Persoon: niet observeerbare, psychologische eigenschappen o Situatie= items
Basiselementen van vragenlijsten= items o = de stimuli waarop de respondenten reageren
Uit hun reactie (observeerbare gedrag) trachten het niveau van de geteste persoon af te leiden op een niet- observeerbare psychologische eigenschap
Theoretische opdrachten o Bv. weg door doolhof, blokkenleggen, mentale rotatie ,… o Veel voorkomend in intelligentie testen o Rekenopdrachten en taalvraagstukken o Theoretische verkeersproblemen o Met behulp van theoretische opdrachten worden cognitieve capaciteiten en cognitieve
vaardigheden gemeten Capaciteiten: mentale vermogens met een duidelijk erfelijk component.
relatief stabiele kenmerken Vaardigheden: bevatten ook erfelijk component maar zijn voor belangrijk deel te leren
meer door oefening te beïnvloeden o Antwoorden zijn goed of fout en soms gedeeltelijk goed of fout
Stellingen o Onderzochte dient aan te geven of hij al dan niet akkoord gaat met de stelling of in hoeverre
hij ermee akkoord gaat o Meten van persoonlijkheidstrekken, opinies, houdingen en voorkeuren o Antwoorden zijn niet goed of fout maar geven de positie aan van de respondent op de schaal
van de veronderstelde eigenschap
Vragen o Meten van opinies, houdingen en voorkeuren o Open en gesloten vragen o Antwoorden bieden informatie over eigenschappen. Ze zijn niet goed of fout, amar geven
een standpunt/houding aan
Praktijkproeven o Meting van capaciteit en vaardigheden o Bv. psycholoog registreert en interpreteert de reacties van de sollicitant o Reacties te classificeren als fout/goed of als adequaat/ niet adequaat
Andere mogelijkheden o Projectietest:
persoonlijkheid in kaart brengen er wordt een zo vrij mogelijke reactie gevraagd
4.2 Vorm waarin het antwoord wordt gegeven
2 mogelijkheden o Respondent bepaalt geheel zelf hoe hij reageert
Open vraag, opdracht, essayvorm
2
o Respondent kiest uit een beperkt aantal door de testconstructeur geformuleerde reacties Gesloten vraag, multiple choice,
Veel voorkomende opinie: open vraagvorm superieur aan meerkeuze vraagvorm (face validity: open vragen zijn rijker dan gesloten vragen)
Open vragen Gesloten vragen Respondent kan laten zien wat hij kan/weet Doet primair beroep op geheugen
Antwoorden bieden meer informatie Antwoorden bieden minder informatie
Beoordelen en categoriseren van antwoorden is tijdrovend
Werken met categorisatiesysteem
Categoriseren is weinig tijdrovend
Interpretatie van onderzoek heeft grote invloed (subjectiviteit)
Minstens 2 onafhankelijke beoordeelaarsinterbeoordeelaars- betrouwbaarheid
Interpretatie van onderzoeker heeft geen rol (objectief)
Beantwoorden van vragen vergt veel tijd voor respondent
Beantwoorden gaat snel
Antwoorden zijn niet altijd relevant voor de meting van de bedoelde eigenschap
Geen kans om op irrelevante zaken in te gaan
Niet alle respondenten zijn evengoed in staat om gedachten op papier te zetten
Kans op verkeerd begrijpen van vragen Kans op verkeerd begrijpen van stellingen is kleiner
Dillema bij vragen: specifieke of algemene beschrijvingen
Lagere betrouwbaarheid (door subjectieve interpretatie)
Hogere betrouwbaarheid (want door snelheid zijn er meer vragen mogelijk)
Betere validiteit (Betere dekking van bedoelde eigenschap)
Uitvoerig vooronderzoek noodzakelijk - Moeilijkheid: bedenken van onjuiste
alternatieven - Inschatten van moeilijkheidsgraad items
lastig Veel aandacht besteden aan formulering vragen
Kans dat respondent louter door raden veel goede antwoorden heeft
- Correctie voor raden - Bv. 2 items kiezen uit 6 alternatieven,
beide moeten juist zijn opdat de vraag correct opgelost is
Meting van hogere cognitieve vaardigheden (maar mag niet worden overschat)
Enkel eenvoudige cognitieve vaardigheden kunnen gemeten worden (empirisch onderzoek bewijst tegendeel, vaak betere predictoren)
een effectieve open vraag o de vraag moet kort en helder zijn o instructie moet duidelijk maken dat antwoorden kort dienen te zijn
3
4.3 Itemvormen: het speciale geval van geprecodeerde items 4.3.1 Items voor prestatieniveautests
in prestatieniveautesten wordt vaak gebruik gemaakt van meerkeuze- items
aantal opinies is vrijwel nooit groter dan 5
doorgaans is 1 oplossing goed en zijn de andere fout
stam: eerste deel van item, wat een uitspraak bevat die aangevuld moet worden met een gegeven optie
gesleutelde respons: het goede antwoord
afleiders: de foute antwoorden
grote variantie binnen meerkeuze antwoordvorm (hier: 3 principes) o kiezen
eenvoudigste vorm= twee keuzevorm (bv. ja/nee, juist/fout) (in)correcte antwoordvorm: slechts één van de antwoorden is de (on)juiste Meest/minst juiste antwoordvorm: meest/ minst plausibele antwoord kiezen Verschillende antwoordvorm: uit een aantal antwoordmogelijkheden moet men
één/meer antwoorden kiezen die een juist antwoord zijn op de gestelde vraag Complexe vormen: o.a. gecombineerde antwoordvorm
2 stellingen (a en B) opgenomen die verbonden zijn door een conjunctie (C). Deelnemer moest zeggen welke (A, B, en/of C) juist is
o Rangschikken Keuzemogelijkheden plaatsen volgens de volgorde van juistheid, toepasbaarheid of
voorkeur Vooral bij meting van interesses en motieven Voordeel: verkrijgen van veel informatie (ook partiële informatie)
o Toeschrijven (= matching) 2 rijen met woorden, telkens moet de juiste combinatie gemaakt worden Voordeel: door de compacte vraagvorm wordt veel informatie door één opgave
verzameld Nadeel: keuzes zijn niet onafhankelijk van elkaar : hoe minder onzekere combinaties
overblijven, hoe meer kans op juistheid bij raden Oplossing: bij één van de rijen meer alternatieven aanbieden
4.3.2 items voor test voor gedragswijze
Gedragswijze: persoonlijkheidsvragenlijsten en attitudetests
Item is vaak een uitspraak waarbij de respondent kan aangeven in welke mate hij het met de uitspraak eens is
Aanwijzingen bij prestatievorm o Zorg dat respondent niet in verleiding kan komen kruisje te zetten tussen twee
keuzemogelijkheden in o Meest bekend: likert items (items met 5 antwoordmogelijkheden)
Kan worden gevarieerd Even aantal: geen neutrale categorie
Proefpersoon moet kleur bekennen, geen toevlucht in veilige optie Neutrale categorie kan nodig zijn indien geen mening op de stelling
o Men is doorgaans niet / nauwelijks in staat om meer dan 7 nuanceringen te onderscheiden
o Verbale aanduidingen Elke nuancering benoemen: kan door verschillende deelnemers verschillend
geïnterpreteerd worden Enkel de twee uitersten benoemen: meer kans op verschillende interpretatie
4
4.4 Kwantificering van antwoorden 4.4.1 Kwantificering, diverse informatiebronnen
Reacties van respondenten zijn in eerste instantie kwalitatief van aard o Moeilijk om systematisch onderzoek te doen naar de kwaliteit van de items/ vragenlijst
Kwalitatieve reacties dienen in getallen te worden omgezet o Getallen moeten een indicatie geven van de psychologische werkelijkheid met betrekking
tot de te meten eigenschap Bv. iemand die 3 aanduid op likert schaal, moet hogere score hebben dan iemand die
2 aanduid
Vervolgens door statistische berekeningen op deze scores vaststellen of er een voor een meting gewenste systematiek in het gedrag aanwezig is o Systematiek aanwezig: test heeft goede meeteigenschappen o Systematiek niet aanwezig: items hebben reacties ontlokt die geen zinvolle indicatie
vormen van de te meten eigenschap
Sommige stromingen in de psychologie verzette zich tegen kwantificering in het algemeen o Gebruikers van projectieve testen: kwantificering van gedrag zou leiden tot
onaanvaardbare reductie van de betekenis en relevantie van de reacties o Dit kan kloppen, maar de rijkdom kan ook het zich ontnemen van de relevantie
Kwantificering leidt tot reductie o Zo krijg je beter zicht op constante en systematische kenmerken van de respondent o Aangepast aan de vraagstelling
Alle informatiebronnen die voor een beslissing worden gebruikt dienen aan dezelfde kwaliteitseisen te voldoen
4.4.2 Itemscores
Kwalificering van kwalitatieve reacties op items: o Veronderstelling: de antwoordcategorieën van een item kunnen geordend worden op een
continuüm dat staat voor de psychologische eigenschap die met de test wordt gemeten o Vervolgens worden aan de categorieën getallen toegekend
Bv. juiste antwoord krijgt meer punten dan foute antwoorden Bv. laagste krijgt 1 punt, hoogste 5
Dichotoom item: item met twee antwoordcategorieën
Polytoom item: item met minstens 3 antwoordcategorieën o Richting van het continuüm is afhankelijk van de formulering van de stam van het item
! oneens zijn met een stelling kan indicatief zijn voor beide extremen op latente trek o Bv. “roken op café verbieden is goed”niet akkoord kan wijzen op:
‘ze mogen overal roken’ ‘ze mogen nergens openbaar roken’
Scores= de aan antwoordcategorieën toegekende getallen o Alleen de ordening is van belang, geen verhoudingen/ afstanden o Dus in principe enkel ordinaal maar in praktijk vaak gebruikt als intervalsschaal
Alle items uit dezelfde test krijgen dezelfde scores toegekend o Zo wordt voorkomen dat bij statistische analyse items verschillend gewogen wordt o Bij gelijke scoring zijn de items getalsmatig gelijk o Normaal wordt er gewerkt met gelijke gewichten, ongelijke gewichten enkel als theorie
dit staaft
Soms worden gewichten van items via statistische analyses uit de gegevens afgeleid o Bv. hoger gewicht naarmate het item hoger correleert met de somscore
5
4.5 Beoordeling van de kwaliteit van items in vooronderzoek
Test constructie onderzoek kent ruwweg twee fasen o Vooronderzoek: in een kleine steekproef worden de reacties van proefpersonen op de eerste
versie van de items geanalyseerd Steekproefgrootte ligt tussen de 20 en 100 proefpersonen Steekproef hoeft niet altijd representatief te zijn Slecht functionerende items kunnen verwijderd of vervangen worden Doel: eerste kwaliteitsscreening items
o Hoofdonderzoek Grote, representatieve steekproef Steekproefgrootte: 500 tot 2000 proefpersonen Populatie wordt vaak opgesplitst in verscheidene deelgroepen, welke allen groot genoeg
dienen te zijn Steekproef moet hele populatie representeren Ook als sommige deelgroepen van nature kleiner zijn dan de andere, verdient het
aanbeveling om uit elke groep een even grote steekproef te nemen Strata= de deelgroepen Gestratificeerde steekproef= steekproef met deelgroepen Er kunnen nog items uit de test wegvallen, maar minder dan in het vooronderzoek Hoofddoel: kwaliteit van de gehele test vaststellen in verband met het gebruik ervan in
de beoogde populatie Testprestatie voor gehele steekproef en voor de relevante deelgroepen worden
weergegeven in frequentieverdelingen waarmee de prestaties van individuen vergeleken kunnen worden
Doel: kwaliteitsbepaling items en test+ opstellen normen
4.5.1 vooronderzoek van Dichotome items
De frequentieverdeling van reacties op de items kan informatief zijn bij de beoordeling van de kwaliteit van het item o Vaak wordt gekeken naar de relatieve frequenties o P-waarde: relatieve frequentie op het goede antwoord o A-waarden: relatieve frequentie op de afleiders
Een item op de studietoets heeft goed gefunctioneerd indien de meeste respondenten het goede alternatief hebben gekozen en de afleiders door de overige respondenten ongeveer even vaak werden gekozen
De verdeling is informatief maar biedt niet het definitieve bewijs dat het item goed functioneert
Mogelijke verdelingen: o Juiste alternatief wordt het meest gekozen, men kiest de afleiders ongeveer evenveel
Ideale situatie o elk alternatief is evenveel gekozen : veel gegist
Als iemand gist heeft elk antwoord dezelfde kans om gekozen te worden Om te weten of er daadwerkelijk grootschalig gegist is, is aanvullende evidentie nodig
Evidentie kan worden verkregen van correlaties van het item met de andere items in de test (Volledig gegist: correlatie = 0)
Inspectie van inhoud item (Item kan te moeilijk zijn of slecht geformuleerd) o Overgrote deel kiest juiste alternatief
Item is te makkelijk of er wordt iets triviaals gevraagd (of bij examen: stof is goed gekend) Afleiders kunnen niet plausibel zijn
o Ene afleider wordt meer gekozen (.6) dan juiste antwoord (.1) en tweede afleider (.3)
6
Eén van de afleiders kan een valstrik bevatten (zijn vooral vragen naar curiositeit)
Bv. door naambekendheid een bepaalde afleider aanduiden De bewuste afleiders zouden juist kunnen zijn
4.5.2 vooronderzoek van polytome items
Zie boek Blz. 142 voor vb. frequentieverdeling
Verdeling I: meeste mensen zijn gematigd positief, alle antwoord categorieën worden benut o Er zijn respondenten die geen mening hebben o Er zijn grote voor en tegenstanders o Conclusie: item functioneert goed want er is een goede spreiding van respondenten over
de categorieën heen
Gemiddelde berekenen door een gewogen som van de itemscores o Per item de som van de itemscores berekenen waarbij elke score wordt gewogen met de
relatieve frequentie o Ligt gemiddelde score boven neutrale categorie: reactie is in het algemeen positief
Verdeling II: uitgesproken scheef o Items waarop personen zich niet van elkaar onderscheiden kunnen voor dit doel niet
gebruikt worde; het item dient verwijderd te worden o Item is te populair/makkelijk als iedereen er positief op antwoord, te impopulair/moeilijk
als iedereen er negatief op antwoord
Hoofdstuk 8: validiteit en betekenis Inleiding
Een test is valide als hij aan zijn doel beantwoord
Voor een goede validiteit is een goede betrouwbaarheid nodig, maar omgekeerd geldt dit niet o Valide test is betrouwbaar: Laag betrouwbare testscores kunnen niet valide zijn, ze geven
vooral meetfouten weer o Betrouwbare test is niet noodzakelijk valide: betrouwbare test kan onbedoeld iets anders
meten o Betrouwbaarheid is noodzakelijke maar niet voldoende voorwaarde voor de validiteit van
een test
Onderzoeker zal streven naar een test die en betrouwbaar en valide is
8.1 Het begrip validiteit
Begrip validiteit heeft nooit een eenduidige betekenis gehad, maar wel gemeenschappelijk basisprincipe te onderkennen is de veelheid aan definities
Validiteit= de mate waarin de test aan zijn doel beantwoord o Validiteit kan niet gezien worden als een eigenschap van de test zonder meer, maar
eigenschap van het gebruik van een test o Het is mogelijk dat een test voor het ene doel zeer valide is en voor een ander doel niet o Verschillende doelen, dus verschillende vormen van validiteit
Bij elke test gaan we ervan uit dat het testgedrag ons iets kan zeggen over ander gedrag dat buiten dit specifieke testgedrag ligt
Valideringsproces: proces van het verzamelen van evidentie voor de rechtvaardiging van overgang van testgedrag naar iets anders
Validiteit: mate waarin de rechtvaardiging is gevonden
Validiteit wordt gekoppeld aan het doel om te testen o 2 mogelijkheden: test als voorspeller of test als operationalisering
Test als voorspeller van ander gedrag
7
o Doel van het testen is primair de voorspelling van een bepaald gedrag of een prestatie buiten de testsituatie Voorspelling: het doen van uitspraken over feiten waarvoor we geen directe evidentie
hebben, maar waarover we een conclusie formuleren op basis van de kennis van gegevens waarvan we veronderstellen dat ze met de feiten samenhangen
Predictie: feiten liggen in de toekomst Paradictie: feiten liggen in het heden Postdictie: feiten liggen in het verleden
De term predictie wordt gebruikt als overkoepelende term: het doen van een uitspraak voer niet waargenomen gedrag buiten de testsituatie
o Ook al bestaat er een aantoonbare relatie tussen de begrippen, wanneer de test niet een zinvolle operationalisering is dan heeft de voorspelling weinig kans op slagen
o Alleen wanneer zowel de test als het te voorspellen gedrag uitingen zijn van eigenschappen waartussen een aantoonbare relatie bestaat, kan de test een adequate voorspelling opleveren
Test als operationalisering van een psychologisch begrip o Het gaat bij het testen expliciet om het theoretische begrip zelf
Men zal gebruik moeten maken van hypothetische begrippen Doel is in eerste instantie de meting van de begrippen (bv. persoonlijkheidstrekken,
attitude, …) o Wanneer de psychologische betekenis van de testprestatie wordt onderzocht, dan worden
daarbij ook relaties met operationaliseringen van andere psychologische begrippen in de beschouwing getrokken. Een dergelijk ander begrip kan ook een te voorspellen criterium zijn. Ook al is het niet het primair doel, toch levert dergelijk onderzoek onmiskenbaar
informatie op over het voorspellend vermogen van de test (bv. IQ- schoolprestaties)
Predictieve validiteit en begripsvaliditeit o Alle variëteiten in het validiteitsbegrip vallen binnen een van deze beide soorten validiteit o Onderscheid is principieel niet nodig, eerder een praktisch, methodologisch onderscheid o Predictieve validiteit
Voorspellend gebruik Centrale vraag: in hoeverre maakt de test daadwerkelijk en juiste voorspelling mogelijk
o Begripsvaliditeit Het meten van eigenschappen Centrale vraag: in hoeverre dekt de test het bedoelde psychologische begrip
o Testen als activiteit op zich heeft geen zin Onderscheid tussen predictieve en begripsvaliditeit niet altijd dwingend te maken (je
kan een begrip testen maar er zal altijd een relatie met iets ander mee gemoeid zijn) Predictieve validering zou gezien kunnen worden als een specifieke vorm van
begripsvalidering
8.2 Enkele andere onderscheidingen in validiteit 8.2.1 Vier belangrijke soorten validiteit
Predictive validity o Wordt vastgesteld door na te gaan in welke mate de voorspellingen worden bevestigd door
gegevens/ observaties verzameld op een later tijdstip o Bv. schoolkeuze, therapiekeuze, … o Het is heir voornamelijk temporeel (in toekomst) voorspellend opgevat o Predictieve validiteit in enge zin
Concurrent validity
8
o Wordt beoordeeld door na te gaan hoezeer de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens
o Bv. het valideren van een test door de testresultaten van leerlingen te vergelijken met gelijktijdige prestatiebeoordelingen
o Men moet vaak zijn toevlucht doen tot gelijktijdig criterium omdat het onmogelijk is om een toekomstig criterium te wachten Concurrent validiteit kan dus wel informatief zijn maar de betekenis is toch vaak
beperkt als de voorspelling gericht is op een toekomstig criterium
Inhoudsvaliditeit o Beoordelen hoezeer de inhoud van de test een geheel van situaties, kennisinhouden of
vaardigheden representeert, waaruit met vetrekking tot de onderzochte persoon conclusies moeten worden getrokken
o Vooral van toepassing bij onderwijskundig meten o Inhoudsvaliditeit is dus een indicatie van de mate waarin test het domein van mogelijke
items representeert o Welke onderwerpen/ vaardigheden moeten worden opgenomen in het corresponderende
itemdomein en wat is het gewicht van de diverse onderdelen ! best gebruik maken van interbeoordeelaars betrouwbaarheid
o Belangrijk bezwaar: empirisch onderzoek ontbreekt vaak Items vormen vaak de verzameling van eerder gebruikte testen Validering van een nieuwe test aan oude testen krijgt zo het karakter van een cirkel
redenering “mijn toets is valide want is vergelijkbaar met vroegere testen” o Het vaststellen van inhoudsvaliditeit is vooral een kwestie van oordeken o Komt dicht in de buurt van ‘face validiteit’ o Formele definitie: inhoudsvaliditeit= de sterkte van de samenhang tussen de testscore en
de totaalscore op het gehele itemdomein Totaalscore is in praktijk niet beschikbaar NIET
R(test1, test2) R(Testi1, criterium) R(antwoordvorm1, antwoordvorm2)
Deze definitie komt in feite neer op het bepalen van de samenhang tussen de scores op twee testen die verondersteld worden equivalent te zijn
Correlatie is schatting betrouwbaarheid van de twee afzonderlijke testen Maar is deze betrouwbaarheidsschatting ook op te vatten als de schatting van
de inhoudsvaliditeit? o Het is mogelijk dat beide testen niet representatief zijn
Constructvaliditeit o Cronbach en Meehl o Ruimer dan begripsvaliditeit o Wordt geëvalueerd door te onderzoeken welke psychologische eigenschappen door de test
worden gemeten Eigenschappen betreffen hypothetische constructen
o Bestaat uit 3 onderdelen Uitvinden welke eigenschappen een verklaring zouden kunnen geven van de
testprestatie Het afleiden van toetsbare hypothesen uit de theorie die het construct verklaart Het uitvoeren van empirisch onderzoek om de hypothese te toetsen
o Komt in de buurt van betekenisanalyse Betekenisanalyse impliceert voor een belangrijk deel exploratief onderzoek
o Van begripsvalidering is pas sprake wanneer vragen naar de betekenis van de test alleen beantwoord kunnen worden door een gericht, confirmatief onderzoek naar de relatie
9
tussen de testscore en andere operationaliseringen van hetzelfde beoogde begrip en naar relaties met andere verwante begrippen De definitie van begripsvalidering is dus enger dan die van construct validiteit
8.2.2 andere onderscheidingen in het begrip validiteit
Synthetische validiteit o Variant van begripsvaliditeit o Richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criteriumgedrag
in plaats van op het complexe criterium als geheel Bv. in plaats van op leidinggeven te richten, focussen op taak en doelgerichtheid
o Zo wordt het probleem opgelost dat men voor de validering van een test tegen een complexe en vaak unieke functie over veel te weinig proefpersonen kan beschikken om het valideringsonderzoek te verrichten
o Uit de afzonderlijke voorspellende elementen wordt vervolgens de voorspelling van de hele functie gesynthetiseerd
o Criterium blijft het doel, maar wel stap gedaan richting begripsvalidering (want de vraag welk psychologisch fenomeen door de test wordt gemeten is van belang)
Congruent validiteit o Geeft de mate aan waarin een test correleert met een andere test waarvan wordt
aangenomen dat die dezelfde eigenschap meet o Niet het doel te voorspellen, maar nagaan in welke mate de test de beoogde eigenschap
meet o Onderdeel van het proces van begripsvalidering
Face validiteit o Gemeten naar de subjectieve indruk van de leek/ psycholoog, lijkt de relatie tussen test
en criterium of de betekenis van de test zonder meer duidelijk o Deze indruk hoeft niet ondersteunt te worden door empirisch onderzoek o Men spreekt van indrukvaliditeit zolang hier nog geen empirische bevestiging van is
gevonden o Niet altijd een nuttige, soms zelf vrij gevaarlijke eigenschap van een test
Bv. Bourdon- Wiersma- test voor bepaling van epilepsie o Indien een test aantoonbaar voldoende predictieve of begripsvaliditeit heeft, is het zelfs
wenselijk dat dit voor iedereen ook wel duidelijk is Kan motiverend werken
o Lijkt op ‘transparantheid’ van een testprocedure Eerder een wenselijke dan een noodzakelijke eigenschap
Incrementele validiteit o Betreft de verbetering van de voorspelling met behulp van een test ten opzichte van
voorspellingen die kunnen worden gedaan op basis van veelal reeds aanwezige informatie o Biedt de test een meerwaarde
8.3 Predictieve validiteit
Er wordt uitgegaan van een gegeven criterium
Centrale vraag: hoe goed valt dit criterium te voorspellen o Criterium kan in toekomst, heden, verleden liggen o Meestal beschikt men niet over de criteriuminformatie, maar dient de test juist om die
informatie te schatten
Noodzakelijk om in een representatieve steekproef uit de beoogde populatie zowel testgegevens als criteriumgegevens te verzamelen en vervolgens de relatie tussen test en criterium vast te stellen
Basismodel:
10
o Op basis van het genoemde empirisch onderzoek in een representatieve steekproef wordt de relatie onderzocht tussen de testprestaties en de later verzamelde criteriumprestaties
o Bv. toegangsexamen (predictor) voorspelt prestatie in onderwijs (criterium) o Lineaire relatie is het eenvoudigste: Y=a+ b X
A (intercept) geeft het snijpunt aan met de Y-as B (regressiegewicht) geeft de richtingscoëfficiënt aan
o Voor het bepalen van de lineaire benadering wordt regressieanalyse gebruikt Bepalen van de rechte lijn die het beste past bij de punten wolk De gemiddelde gekwadrateerde verticale afstand van alle punten tot deze lijn is het
kleinst o ^Y=a + b X
X: de bekende testscore ^Y= de schatting van Y via de regressievergelijking Dus op basis van testprestatie kan een schatting gemaakt worden van criteriumprestatie
8.3.1 Nadere bepaling van criteriumbegrip
Uiteindelijk criterium o Het uiteindelijke doel van een concrete procedure o Bv. bij selectie van studenten geneeskundeprofessionele bijdrage aan medische zorg o Zelden of nooit beschikbaar
Tussentijdscriterium o Bv. prestaties op het eindexamen
Onmiddellijk criterium o Bv. totaal behaalde studiepunten op het einde van het 1ste jaar
2 problemen bij deze 3-deling o Probleem aangaande tijd
Uiteindelijk criterium ligt in de tijd ver verwijderd van het test tijdstip Andere 2 liggen er dichter bij
o Abstractieniveau In hoeverre is het criterium beschikbaar, (duurt het niet te lang? Is het niet te
veelomvattend) kan het worden geoperationaliseerd (is het meetbaar te maken?) of worden gekwantificeerd (is het nog zinvol in getallen uit te drukken?)
o tijd en abstractieniveau van de doelstelling worden vaak onvoldoende gescheiden
alternatief onderscheid: o uiteindelijke doel vallen rechtstreeks af te leiden uit de bestaansredenen van het instituut
waarbinnen het voorspellend testgebruik plaatsvindt doel als zodanig is niet- psychologisch
o conceptuele criterium ( meer concreet zichtbaar) een concretisering van het uiteindelijke organisatiedoel in termen van zichtbare
resultaten vertegenwoordigt het laagste niveau van abstractie
o criteriumgedrag o criteriummaat
afgeleid van conceptueel criterium expliciete, ondubbelzinnige uitspraken/ scores die betrekking hebben op
criteriumgedrag/-prestaties criteriumgedrag/-prestatie is waarneembaar en registreerbar en relevant voor het
conceptuele criterium criteriumgedrag is te operationaliseren tot criteriummaat criteriummaat= score op een bepaalde schaal van een bepaalde test
11
zijn vaak kwantitatieve operationaliseringen van het criteriumgedrag belangrijk is dat de meting van een criterium aan dezelfde eisen van betrouwbaarheid
en validiteit voldoet als de test waarmee dit criterium wordt vooropgesteld
(inhouds)validiteit: van het organisatiedoel tot het criteriumgedrag
validiteit wordt bepaald door de relatie tussen predictorscore (testscore) en criteriumscores vast te stellen o scores worden eerst gecorrigeerd voor onbetrouwbaarheid om daarna de relatie de
relatie tussen gecorrigeerde scores te nemen als indicatie van validiteit geeft vaak een sterk geflatteerd beeld van de werkelijke validiteit
relatie tussen criteriumgedrag en het achterliggende conceptuele criterium is niet voor empirisch onderzoek toegankelijk o pas nadat het criteriumgedrag is gekozen en de criteriummaat is vastgesteld, kan de
predictieve validiteit van de testprocedure worden bepaald
in de praktijk wil men vaak weten wat de relatie is tussen een dichtbij gelegen criterium en een prestatiecriterium op een later tijdstip o relatie is vaak zwak o kwestie van beleid wat het best als conceptueel criterium genomen wordt o probleem bij keuze van criteriumgedragingen: de betrouwbaarheid van de maten is vaak
omgekeerd evenredig aan hun relevantie
8.3.2 Opzet van een test of testbatterij met predictieve validiteit
fase 1: operationalisering van het criterium o het operationeel maken van het criteriumgedrag in een zo exact mogelijke criteriummaat
fase 2: Keuze en constructie van test o de keuze van de mogelijk geschikte test of de keuze of de constructie van mogelijk
geschikte items, waaruit één/meer test kunnen worden samengesteld o de wijze van testconstructie is afhankelijk van omstandigheden, mogelijkheden tot
verwerking en de theoretische aanpak van de onderzoeker
fase 3: proefafneming van bestaande of nieuwe tests o wordt vaak overgeslagen o proefafneming van de bestaande of de nieuw te construeren tests op diverse groepen
proefpersonen uit de populatie waarvoor de testprocedure wordt ontworpen bij een bestaande test is dit enkel nodig als de testprocedure plaatsvindt in een
populatie die afwijkt van de populatie waarvoor de test oorspronkelijk is geconstrueerd
onderzoek kan gevolgen hebben voor de bruikbaarheid van de test o populatie en steekproef
steekproef dient een zo getrouw mogelijke afspiegeling te zijn van de populatie waarvoor de test uiteindelijk zal worden gebruikt
afwijkingen tussen steekproeven en populatie qua gemiddelde minder erg dan que spreiding
betrouwbaarheid en validiteit zijn gevoelig voor variatie in spreiding, niet voor variatie in gemiddelde
representativiteit kan beter worden gegarandeerd als men vooraf rekening houdt met de samenstelling van de populatie naar voor de test belangrijke demografische en persoonlijke variabelen
bv. als het onderscheid 50- en 50+ relevant is voor de te meten eigenschap, moet dit ook in rekening gebracht worden in steekproef (evenveel in elke categorie)
=gestratificeerde steekproef
12
Stratificeren niet noodzakelijk als men aselect een grote steekproef uit de populatie trekt? (MAAR vaak zijn sommige deelgroepen minder makkelijk te bereiken)
Steekproeven zijn vaak niet representatief wat leeftijd betreft en worden daarmee de voor vele psychologische eigenschappen belangrijke ontwikkelingsaspecten genegeerd
Vooronderzoek: kleine steekproef die niet representatief hoeft te zijn is voldoende (bv. enkel de twee extreme leeftijdsgroepen)
Hoofdonderzoek: behoeft een grote representatieve steekproef o Itemanalyse
Bij het construeren van nieuwe testen Diverse aspecten van de test kunnen worden geanalyseerd (bv. moeilijkheidsgraad,
correlatie van items met totaal score,…) Extreem moeilijke/makkelijke items zijn enkel gewenst als de test in de populatie de
gehele schaal van de eigenschap dient te bestrijken en ook voor ‘extreme’ personen items dient te bevatten
Moeilijkheid van een item op zich heeft niets te maken met wat het item meet of hoe betrouwbaar het item dit doet
Homogene test verkrijgen door Factoranalyse De onderzoeker selecteert zelf rechtstreeks item op basis van hun onderlinge
correlatie Chronbach’s apha: ondergrens voor de betrouwbaarheid Op basis van de in de derde fase verzamelde gegevens wordt de test in zijn
definitieve vorm samengesteld
fase 4: validatie van de testprocedure o het valideringsonderzoek: voetangels en klemmen
de daadwerkelijke validatie van de test in plaats van voorspelling met toekomstig criterium wordt gekozen voor de opzet
met een gelijktijdig criterium men hoopt hierbij de gegevens te kunnen generaliseren naar het bedoelde
voorspellingsmodel longitudinaal onderzoek
duurt lang waardoor het kostbaar is van hoeveel personen gaan uiteindelijk de criteriumscores ter beschikking
komen? (bv. uitval) o gevolg: variatiebeperking op zowel predictor als criteriumvariabele o zowel betrouwbaarheid als validiteit zullen te laag worden geschat
Mogelijks kunnen de testuitslagen bij een latere beoordelaar bekend raken o Contact minimatie van het criterium= Als de beoordelaar zijn oordelen door
deze kennis laat beïnvloeden en zijn oordelen worden als criteriummaat in het valideringsonderzoek gebruikt, dan zijn testscores en criteriumscore niet meer onafhankelijk vastgesteld
Correlatie zal kunstmatig hoog uitvallen
Mogelijk restriction of range: extremen vallen wegbeperking in spreiding o vaststellen van de validiteit
valideitscoëfficiënt = correlatie tussen testscore en criteriumscore er wordt aangenomen dat het verband tussen predictor en criterium goed door een
rechte lijn kan worden benaderd uitzonderingen:
kromlijnige relatie o lage testscore gaat gepaard met lage criteriumscore
13
o hoge testscore gaat gepaard met hogere criteriumscore o maar zeer hoge testscore gaat gepaard met lagere criteriumscore o gevolg: correlatie zal laag zijn o er moet gebruik gemaakt worden van een correlatiemaat die onafhankelijk
is van vorm (bv. correlatieratio) heteroscedastische relatie
o er is een verband tussen de lagere waarden van twee andere variabelen, maar niet voor de hogere waarden
o bij zeer hoge waarden van X zijn bijna alle waarden van Y mogelijk o gebruik maken van correlatiecoëfficiënt die de gemiddelde relatie over de
verschillende niveaus van de testscore weergeeft o [homoscedastische relaties: relaties die overal even sterk zijn]
Tests kunnen voor voorspelling soms nuttig zijn als suppressor variabele ^Y= a+ bIXI-b2X2 criterium Y wordt voorspeld door testscore XI een positief gewicht bI te geven en
er een deel van X2 van af te trekken, namelijk het deel dat nul correleert met Y gewichten (b) worden bepaald door regressieanalyse Bv. taalvaardigheid speelt rol bij test voor rekenvaardigheid
Testscores kunnen functioneren als moderatorvariabele =variabele die zelf niet of nauwelijks hoeft te correleren met een criteriumscore
Y, maar die wel de relatie van andere variabelen met Y beïnvloedt Indien men er geen rekening mee houdt, lijkt de correlatie tussen test X en
criterium Y matig, maar in de afzonderlijke groepen (bv. mannen en vrouwen)ligt de relatie geheel anders
Ze verduidelijken de relatie tussen test en criterium en maken ook duidelijk dat tests soms maar in een beperkt aantal deelgroepen uit een populatie bruikbaar zijn om een criterium te voorspellen
Apart geval: 2 variabelen apart met een criteriumvariabele Y correleren en bovendien nog een interactie effect op Y hebben (=moderated regression)
Als beide variabele een hoge score te zien geven, wordt de correlatie met het criterium daardoor nog extra verhoogd
=moderated regression
fase 5: Samenstelling van de predictorbatterij o de tests waarvoor een goede validiteit is gevonden, worden gecombineerd in een
maximaal voorspellende testbatterij o veel gebruikte statistische methode: meervoudige regressieanalyse
testscores worden gewogen en opgeteld tot een voorspelling van criteriumscore Y ^Y = a + bIXI + b2X2 + … + bmXm Regressiegewicht is relatief groot als de test hoog correleert met criterium Y en laag
met de andere tests o Ideaal: een batterij van tests die onderling laag correleren en allen hoog correleren met Y o Mutlipele correlatie drukt het succes van de gehele testbatterij voor de voorspelling van Y
uit = de correlatie van de totaalscore gebaseerd op de hele testbatterij met het
geobserveerde criterium
fase 6: kruisvalidering o het statistische voorspellingsmodel (hier: regressiemodel) dat is gevonden op basis van de
steekproefgegevens, wordt gecontroleerd op een nieuwe representatieve steekproef van proefpersonen afkomstig uit dezelfde populatie als de eerste steekproef
o er wordt nagegaan of de geschatte regressiegewichten in beide steekproeven voldoende op elkaar lijken en of de multipele correlaties ongeveer gelijk zijn
o reden voor de controle:
14
het uiteindelijk gekozen regressiemodel komt vaak tot stand na veel trial and error naarmate de onderzoeks steekproef kleiner is, leunt dit proberen sterker op de
toevallige samenenstelling van deze steekproef en worden beslissingen over tussentijdse wijziging van het model genomen op basis van steeds onnauwkeuriger geschatte regressiegewichten
naarmate er meer foute beslissingen genomen worden, treedt er meer kanskapitalisatie op
bij een sterke mate van kanskapitalisatie past het gevonden regressiemodel heel goed bij de ene, toevallige steekproef, maar niet meer bij de populatie waaruit de steekproef is getrokken
o onderzoeker probeert dus te voorkomen dat hij zoveel mogelijk modellen probeert kan het beste door zoveel mogelijk uit te gaan van een theorie of een rationele
analyse o indruk krijgen van de mate waarin kanskapitalisatie zich heeft voorgedaan:
een nieuwe steekproef uit de populatie trekken die even groot is als de eerste steekproef (duur en tijdrovend)
de steekproef die men al heeft aselect opsplitsen in twee even grote deelsteekproeven
het op basis van de eerste steekproef gekozen definitieve regressiemodel wordt in de tweede steekproef gebruikt om voor elke proefpersoon een schatting te maken van diens criteriumscore
schatting wordt gecorreleerd met geobserveerde criteriumscore zodat een multipele correlatie wordt verkregen voor de tweede steekproef
deze correlatie wordt vergeleken met die van de eerste steekproef weinig verschil in correlatiekanskapitalisatie heet geringe rol gehad
o robuust model heeft meer kans om tot juiste beslissingen te leiden
8.3.3 Differentiatie in het criteriumonderzoek
tests met een geringe validiteit kunnen soms toch nog een zinvolle bijdrage aan de beslissingen leveren
een test met een behoorlijke validiteit heeft soms maar weinig effect
validiteit van testen zijn vaak maar matig
5 redenen waarom veel validiteitscoëfficiënten (correlatie tussen test en criterium) zo laag zijn: 1. Geringe betrouwbaarheid van het criterium
o Er wordt vaak veel aandacht besteed aan het maken van een betrouwbare test of testbatterij
o Maar voor de constructie van een betrouwbare criteriummaat bestaat meestal minder aandacht
o Probleem: men probeert met een betrouwbare predictor een criteriumscore te voorspellen die vooral uit meetfouten bestaat
2. Miskenning van een niet- lineaire relatie tussen predictor en criterium o Voordat de beslissing tot de aanname van lineariteit en homoscedasticiteit van de
relatie wordt genomen, moet eerst worden onderzocht of deze eigenschappen de relatie wel recht doet
o Kan het eenvoudigste door visuele inspectie van scatter plot o Het is beter om bijvoorbeeld voor elke waarde van de predictor variabele X uit de
bijhorende verdeling van criteriumvariabele Y de meest waarschijnlijke waarde als voorspelling te nemen voor nieuwe gevallen
3. Negeren van de complexe samenstelling van groepen o De relatie tussen predictor en criterium kan verschillen voor verschillende deelgroepen o Indien dit wordt genegeerd, kunnen ernstige voorspellingsfouten gemaakt worden
15
o Van belang de juiste moderatorvariabelen of covariaten te vinden o Het kan ook zijn dat de sterkte van het verband in twee deelgroepen gelijk is, terwijl
voor dezelfde predictorscore X de gemiddelde criteriumscore in de ene groep hoger is dan in de andere groep (zie figuur 8.4b Blz. 362) Twee verschillende voorspellingsmodellen zijn noodzakelijk
o In het algemeen gaat het hier om de vraag of er kan uitgegaan worden van één voorspellingsmodel voor alle groepen of dat er per relevante groep een apart model nodig is
4. Negeren van de variabele betekenis van het criterium in verschillende organisaties o Hetzelfde criterium kan in verschillende organisaties geheel verschillende betekenissen
hebben, terwijl de naam suggereert dat het om hetzelfde zou gaan Bv. zelfde type functie kan in verschillende organisaties anders worden ingevuld
o De voorspellingsmodellen dienen zowel uiteenlopende predictoren als uiteenlopende criteriummaten te bevatten
5. Onterechte vereenvoudiging van het criterium o Er wordt vaak uitgegaan van een te eenvoudig beeld van het criterium o Een meer gedifferentieerde benadering is dan nodig om tot betere voorspellingen te
komen o 2 mogelijkheden:
Gevarieerd en complex criteriumgedrag wordt soms samengevat in een globale criteriummaat
Elke nuance gaat verloren en een goede voorspelling van het criterium wordt lastig
Criteriumgedrag is aan het moment van de vaststelling en meting gebonden en niet zonder meer generaliseerbaar in de tijd
Eenvoudigste reden: mensen leren en ontwikkelen zich in de tijd
Het is van belang dat naast de inhoud ook het moment van meting van het criterium in ogenschouw wordt genomen
Ander aspect is dat men zich niet richt op een momentopname, maar op de veranderingen die optreden tussen 2 of meer momentopnamen
Er wordt dan een dynamisch ipv een statisch criterium voorspelt
8.3.5 beperkingen van predictieve validiteit
Predictoren die hoog correleren met het criterium en laag met andere predictoren krijgen een zwaar gewicht o Belangrijke vraag: leidt deze statistische selectie van predictoren ook altijd tot inzicht in
de vraag waarom een testbatterij het criterium goed voorspelt?
Soms zijn verbanden tussen tests en criteria erg doorzichtig (bv. rekenoefeningen voor rekenvaardigheid)
Soms worden relaties gevonden die zich volledig aan het oog onttrekken
Constructvaliditeit: doel: testpsychologie redden uit het slop van inhoudsloze correlatieberekeningen o Begripsvalidering met het oog op de wetenschappelijke onderbouwing van het meten
met behulp van tests is een onmisbaar onderdeel van testconstructie o Door middel van empirisch onderzoek achterhaalt men hier wat de test precies meet
Het blind toepassen van tests ter voorspelling van een criterium, zonder zich af te vragen waarom de voorspelling werkt, leidt niet noodzakelijk tot inzicht o Kritische en nieuwsgierige houding is voorwaarde voor verder onderzoek dat de
predictieve validiteit kan verbeteren
16
Het blind afgaan op de grootste correlaties impliceert dat men eigenlijk alle mogelijke predictoren zou moeten onderzoeken op hun geschiktheid voor de voorspelling van het criterium
Er kan sprake zijn van een unieke of zeldzame situatie, waarvoor niet of nauwelijks een criterium valt vast te stellen o Er bestaat weinig houvast voor voorspellingen op basis van testonderzoek o Er kunnen hypothesen worden gegenereerd over de mogelijke samenhang als de
psycholoog inzicht heeft in de betekenis van het testgedrag o Door deze inzichten te benutten zijn psychologische uitspraken over de onderzochte
mogelijk
De psycholoog die zonder theorie te werk gaat kan in de knel komen bij de vraag de onderzochte te beschrijven
Betekenisanalyse en begripsvaliditeit bieden een mogelijkheid om het ‘sacrosancte’ criterium van zijn voetstuk te halen en te analyseren
Een strikt empirische opvatting van voorspellen leidt nooit tot verder inzicht in de vraag wat het criterium precies meet
Conclusie: o predictieve validiteit is een onmisbaar begrip voor de praktijk van het voorspellend
testgebruik, o maar een test krijgt pas een werkelijk nuttige functie als met deze empirische correlaties
tevens een begripsanalyse gepaard gaat
8.4 Betekenis en begripsvaliditeit 8.4.1 Begripsvalidering
aan begripsvalidering gaat meestal een proces van betekenisanalyse vooraf
in de betekenisanalyse worden dezelfde fasen doorlopen als in de theorievorming en de toetsing van theorieën in algemene zin o beantwoording van de vraag wat een test/items zou kunnen betekenen begint met
creatieve fase hierin tracht men een theorie te vinden of op te stellen die testgedrag kan verklaren verklaring is hypothetisch dus voorlopig om de theorie te bevestigen (=proces van begripsvalidering) dient een concrete,
ondubbelzinnige voorspelling te worden geformuleerd van belang
creatief: er wordt gezocht naar plausibele verklaringen. De procedure en methode zijn niet voorgeschreven en bindend
voorspelling moet ondubbelzinnig te onderzoeken zijn er kan nooit definitief worden bewezen of een test al dan niet een bepaalde
theoretische betekenis heeft even belangrijk alternatieve hypothesen te kunnen verwerpen als
oorspronkelijke hypothese te kunnen accepteren
in betekenisanalyse gaat het dus om het vinden van een theorie/ theoretisch begrip als verklaring voor het testgedrag (hypothesevorming)
bij begripsvalidering gaat het om het empirisch bevestigen van deze verklaring (formuleren voorspellingen+ empirische toetsing o trekvalidering: in hoeverre kan het testgedrag verklaard worden met behulp van een
persoonlijkheidstrek of een geschiktheid (gaat niet noodzakelijk om theorie) o nomologische validering: testgedrag wordt verklaard vanuit een psychologische theorie
voordeel van inbedding van testgedrag in een nomologisch netwerk is dat de betekenis van de gevalideerde test in meer algemene psychologische termen kan worden beschreven
17
de mogelijkheid om testgedrag te relateren aan een nomologisch netwerk is groter naarmate de psychologie als wetenschap verder vordert en er meer nomologische netwerken ontstaan
o in de realiteit wordt testgedrag doorgaans gevalideerd in termen van trekvalidering en niet in termen van nomologische validering
o verschil tussen trekvalidering en nomologische validering is eerder gradueel dan principieel vaak ontbreekt een voldoende gedetailleerd en door onderzoek ondersteunde
theorie over een eigenschap zodat testconstructie een wat exploratiever karakter heeft
theorieën zijn vrijwel nooit af: de validering van de test kan een bijdrage leveren aan de verdere theorievorming en toetsing van een gegeven begrip bv. Stanford-Binet test: oorspronkelijk waren oordelen van leken het criterium,
daarna werd testgedrag op zich het doel elke test behoort tot een conceptueel netwerk
bv. Big five persoonlijkheidstest: niet puur een analyse van testgegevens, maar ook correlationeel en experimenteel onderzoek
theorie is vaak een deel van itemconstructie facetdesign (vragenlijst constructie in 2 stappen)
o onderscheiden van relevante eigenschappen o systematische constructie van items in gekruist design
tests spelen in psychologische theorievorming vaak zelfs een dominante rol
is eenmaal een trek/ nomologisch netwerk gekozen als potentiële verklaring van het testgedrag, dan start de fase van de begripsvalidering o voorspellingen formuleren om te toetsen of de vermoedens over de test juist zijn o twee soorten voorspellingen
confirmerende validering ( bevestigen oorspronkelijke hypothese) discriminante validering (alternatieve verklaringen verwerpen)
o begripsvalidering kan plaatsvinden doormiddel van correlationeel onderzoek of door experimenteel onderzoek
8.4.2 Betekenisanalyse: op zoek naar de betekenis
meestal heeft onderzoeker minstens vage vermoedens en verwachtingen omtrent de te meten eigenschap die aan de constructie van de items ten grondslag hebben gelegen o vormt de basis voor de theorievorming over het testgedrag
volgende stap in onderzoek is de test van begripsvalidering
geen standaardmethode voorgeschreven, maar 2 suggesties : structuur en relatie onderzoek
Structuuronderzoek o 2 manieren waarop een analyse van de structuurkenmerken van de test kan leiden tot
een hypothetisch inzicht in de betekenis van het testgedrag Psychologische analyse van de inhoud van de items
Bv. opdrachten zelf proberen op te lossen, proberen greep te krijgen op het oplossingsproces door proefpersonen hardop te laten denken, literatuur bestuderen, …
Leidt tot iets wat veel lijkt op indrukvaliditeit o Verschil is dat uit deze analyse slechts veronderstellingen voortkomen en geen
definitieve vaststellingen. Deze moeten verder getoetst worden De analyse van de formele kenmerken van de test
Bv. keuzeantwoorden/vrije antwoorden, snelheidskarakter van de test, doel van de test is doorzichtig,…
18
Correlatie tussen de testscores op twee verschillende tijdstippen geeft informatie over de stabiliteit van de testprestatie (en dus ook over de eigenschap die de test zou meten)
Relatieonderzoek (4 vormen) o Spreiding en normen
Gegevens over spreiding en normen verzamelen en in verschillende groepen bestuderen
Bv. verschil in variantie tussen 2 groepen; percentielnormen in twee groepen Levert vaak bruikbare indicaties op van wat de test meet
o Experimenteel onderzoek Bv. de test voorleggen onder meer/ minder strenge tijdscondities en nagaan wat de
effecten hiervan zijn op de testprestatie Effect van verschillende instructies op de testprestatie nagaan
o Factoranalyse Wordt vaak gebruikt als explorerende methode om de informatie die in een groot
aantal variabelen is vervat, samen te vatten in een geringer aantal nieuw te construeren variabelen
Doel: samenvatting van informatie Onvermijdelijk gaat informatie verloren, maar men streeft ernaar dit verlies te
minimaliseren Vereenvoudiging van gegevens leidt tot grotere mate van inzichtelijkheid Factor= gewogen soms van itemscores/testscores
Gewichten worden zodanig bepaald dat de gewogen somscore (=factorscore) zoveel mogelijk inzicht verschaft in de afzonderlijke items/tests
Bepaling van gewichten kan op diverse manieren tot stand komen Factoranalyse gaat uit van een tabel met correlaties/covarianties tussen e testscores
Indien deze ongeveer nul zijn, dan zijn de testprestaties onafhankelijk van elkaar Alle correlaties maximaal: testen vertonen veel overlap Meestal zijn correlaties groter dan nul maar aanzienlijk kleiner dan één Komt zelden voor dat slechts één factor alle tests kan vertegenwoordigen
Bij regressieanalyse worden de gewichten zodanig gekozen dat het criterium zo goed mogelijk wordt voorspeld, terwijl bij factoranalyse de gewichten zodanig worden gekozen dat de informatie in de testscores zo goed mogelijk wordt samengevat
3 soorten factoren Algemene factoren: vrijwel elke test hangt hier minder/ meer mee samen Groepsfactoren: vertegenwoordigen kleiner gedeelte van de tests Specifieke factoren: gekoppeld aan één test/ enkele items eruit
Factoranalyse van een verzameling testscores biedt een handige methode voor de exploratie van de betekenis van de tests Met welke factoren correleert een test relatief hoog/ laag Bv. zie blz. 380
Het resultaat van factoranalyse is afhankelijk van enkele voorwaarden en uitgangspunten De soort en de hoeveelheid van de variabelen die men in de analyse opneemt
o Uit factoranalyse kan nooit iets tevoorschijn komen wat men er van tevoren niet heeft ingestopt
De steekproef waarop de analyse is uitgevoerd o Naarmate de steekproef met betrekking tot de te meten eigenschappen
meer variatie vertoont, worden hogere correlaties tussen de testscores gevonden (spreiding hangt positief samen met correlatie)
o De structuur van correlaties van de tests met de factoren kan veranderen over leeftijdsgroepen
19
Enkele wiskundige en technische vooronderstellingen die vaak een sterk arbitrair karakter hebben o Bv. aantal factoren dat men identificeert, streeft men naar afhankelijke/
onafhankelijke factoren, minimale hoeveelheid info die men per factor nastreeft,…
o Hebben directe invloed op het resultaat en komen voort uit soms expliciete, maar vaak ook impliciete vooronderstellingen
o Omdat factoren constructies van de onderzoeker zijn, zijn dergelijke keuzes arbitrair en dienen zij expliciet gemaakt te worden
De interpretatie van de resultaten van de factoranalyse o Een weloverwogen naamgeving van factoren op basis van niet veel meer dan
een subjectieve inhoudsanalyse van de tests zelf o Kritiek op factoranalyse komt meestal neer op het verwijt dat de onderzoeker zich van de
vooronderstellingen en beperkingen te weinig bewust is o Voorspellende waarde van de test
Er is een wisselwerking tussen betekenisanalyse en predictieve validiteit Predictieve validiteit kan niet buiten de betekenisanalyse Voorspellingen geven aanleiding tot zinvolle veronderstellingen over de
testbetekenis Zowel het structuur onderzoek als het relatieonderzoek dragen bij tot een voorlopige
formulering van een antwoord op de betekenisvraag
8.4.3 Alternatieve verklaringen
Begripsvalidering vindt zowel plaats door een bevestiging van de oorspronkelijke hypothese als het verwerpen van concurrerende hypothesen die alternatieve verklaringen voor het testgedrag geven
Bij predictieve validiteit is een lage correlatie algemeen ongewenst, bij begripsvalidering is ze soms wel gewenst (bv. om uit te sluiten dat de test iets anders meet)
De waarde van het verwerpen van alternatieve verklaringen is niet altijd even groot o Hangt af van de precisie van het experimentele opzet
Bv. slordig opzet kan leiden tot verwerping goede alternatieve verklaringen o Hangt af van de plausibiliteit van de alternatieve verklaring
Wisselwerking tussen test en inhoudelijke theorie speelt een rol Bv. zie blz. 383
Samenhang met intelligentie o Verstandig zowel tests voor prestatieniveau als tests voor gedragswijze te correleren met
een intelligentietest
Sociale wenselijkheid als onbedoelde eigenschap o Kan vooral bij persoonlijkheidsvragenlijsten een probleem vormen o = de mate waarin respondenten zich over het algemeen bij de beantwoording van
testvragen laten leiden door wat zij sociaal wenselijk achten o Wanneer een test in sterke mate sociale wenselijkheid meet, kan worden gesteld dat de
test niet goed functioneert o Individuele sociale wenselijkheid= per individu variërende opvatting over wat sociaal
wenselijke antwoorden zijn = test attitude/ test-taking attitude Oplossing: bij elke vraag moet proefpersoon ook aangeven in welke mate hij de vraag
sociaal wenselijk acht. Correlatie berekenen tussen deze scores en antwoorden op de vragen correlatie geeft aan in welke mate dit verschijnsel een rol speelde in beantwoording van de vragen
20
Verschil tussen antwoorden in anonieme situatie en niet- anonieme situatie is indicatie van ernst van dit verschijnsel
Lastig te registreren fenomeen o Algemene sociale wenselijkheid= een algemeen aanvaarde opvatting over wat sociaal
wenselijke antwoorden zijn Oplossing: aparte groep proefpersonen de sociale wenselijkheid van de antwoorden
laten beoordelen en op basis hiervan een algemene sociale wenselijkheidsleutel te construeren per persoon totaal score van sociale wenselijkheid berekenen
o De neiging tot het geven van sociaal wenselijke antwoorden kan voor de voorspelling van allerlei ander gedrag relevant zijn en daardoor zijn de vragenlijsten toch praktisch bruikbaar
o In het algemeen wordt reductie van sociale wenselijkheid bevorderd door een grotere subtiliteit van het opzet van de vragenlijst en de procedure van afneming
Antwoordtendenties o =neiging tot een consistent keuzepatroon in het antwoorden op tests, los van de inhoud
van de vragen o Instemtendentie: overmatig instemmen met de richting van de vraag o Positievoorkeur: sommige posities bij antwoordmogelijkheden worden geprefereerd boven
andere (bv. neutrale middenpositie) o Semantische interpretatie: bij keuze uit antwoorden ‘altijd’, ‘vaak’, ‘zelden’,… is er variatie
in individuele interpretatie van deze verbale aanduidingen van frequentie o Sequentietendentie: tendentie tot het kiezen van een bepaalde verdeling over de
keuzemogelijkheden, of tot bepaalde regels in de opeenvolging van gemaakte keuzes (bv. evenveel ja en neen antwoorden, niet teveel dezelfde antwoorden achter elkaar, …)
o Snelheidstendentie vs. precisietendentie: nadruk leggen op snelheid en kwantiteit of juist op precisie en prestatie
o Uitvoerigheidstendentie: komt vooral voor bij vrije- antwoordentests en test waarbij het aantal te geven antwoorden/ oplossingen aan de proefpersoon worden voergelaten maar wel belangrijk is (bv. Rorscharch)
o Gistendentie o Voorkeur voor formele kenmerken: bv. neiging de langste optie te kiezen, voorkeur voor
opties met vreemde termen,… o Antwoordtendenties worden gezien als manieren van antwoorden die vooral door de vorm
van de vraag tot stand komen o Er valt pas rekening mee te houden indien ze een zeker mate van waarneembare
consistentie vertonen o Antwoordstijlen hangen maar matig samen met onafhankelijk gemeten criteria o Vele tests bieden aan het optreden van één/meer antwoordtendenties ruimschoots
gelegenheid. Dit betekent dat ze mede de betekenis van de test kunnen bepalen
EXTRA TEKST: de rol van data-analyse in het proces van testconstructie
Volledig proces van testconstructie bestaat uit volgende stappen (kern) o Verzamelen van items o Analyse van de gegevens verkregen door de test toe te passen o Aanpassing van de test afhankelijk van de analyseresultaten
3 methoden van testconstructie o Empirische methode
Vaak letterlijk een verzameling van items: verzameld uit verschillende bronnen en samengevoegd in 1 test
Analyse bestaat erin na te gaan in hoeverre de items differentiëren tussen een referentiegroep en één/meerdere targetgroepen
21
Items die goed een targetgroep differentiëren van een referentiegroep worden opgenomen in een subschaal voor de betreffende targetgroep
Kwaliteit van een item is er in gelegen dat het empirisch kan differentiëren tussen de betreffende targetgroep en de referentiegroep
o Factoranalytische methode Verzameling van items gebeurt op een meer deductieve manier (voor een gegeven
concept reeks items formuleren) Analyse: factoranalyse Items die hoog laden op een factor zonder hoog te laden op een andere, worden
opgenomen in een factoriële subschaal Kwaliteit van item is gelegen in zijn factoriële zuiverheid
o Deductieve methode Items worden gemaakt om goed te passen bij één/meerdere concepten of bij de
deelaspecten van een concept Analyse: itemanalyse/ factoranalyse
Doel om 1 concept te meten: hoge interne consistentie en of één factor volstaat om correlaties tussen items te verklaren
Doel om meerdere concepten te meten: factoranalyse meer aangewezen, gevolg door itemanalyse
Items die niet voldoen worden verwijderd en eventueel vervangen/aangepast Kwaliteit item: item dat goed het concept weergeeft
ITEMANALYSE
Wordt om 3 redenen uitgevoerd o Evaluatie van de meetschaal
Som van de items die bij een veronderstelde factor horen o Indicatie van betrouwbaarheid
Schatten van de coëfficiënt van interne consistentie (= homogeniteitscoëfficiënt) Coëfficiënt stijgt met de intercorrelatie tussen de items en met het aantal items
(drukt dus meer uit dan de interne consistentie en homogeniteit) α – coëfficiënt is een ondergrens van de betrouwbaarheidscoëfficiënt als men α en betrouwbaarheidscoëfficiënt wil laten stijgen, moet men test langer
maken verwachte coëfficiënt kan als volgt berekent worden:
α = (K (oude α )) / (1+(K-1) oude α ) met k= verlengingsfactor α hangt af van:
correlatie tussen de items (hangt op haar beurt af van de grootte van de systematische verschillen tussen personen)
het aantal items (hoe meer items, hoe hoger α ) o Verwijdering/aanpassing van items
Nagaan welke items onvoldoende beantwoorden aan het concept Voor elk item nagaan welke de waarde is van α als het item niet wordt meegerekend
α stijgt: geen goed item
α daalt: item draagt in positieve zin bij tot betrouwbaarheid
α stijgt/daalt niet: item schaadt niet, maar is in feite overbodig per item toont de itemanalyse hoe groot de correlatie is met de somscore waarin het
item niet is meegerekend
items die bij verwijdering α doen stijgen, hebben een lagere item-totaal correlatie
hogere correlaties zijn beter dan lagere (drukken beter uit wat er door het geheel van de items gemeten wordt)
22
als een item niet voldoet wordt het best verwijderd en al dan niet vervangen
regel: niet meer dan één item tegelijk weglaten
per verwijderd item de itemanalyse herhalen
voordelen: echte interne consistentie stijgt
nadeel: de betrouwbaarheid zou kunnen dalen als het aantal items kleiner is
het is mogelijk een proces op drift: de kern van de subschaal verschuift bij elke verwijdering en dat gebeurt in ongekende en ongecontroleerde richting
doel van de test om 1 concept te meten: alle items moeten tegelijk aan één gezamenlijke itemanalyse onderworpen worden
doel om meer concepten te meten: itemanalyse uitvoeren per groep van items die men samenneemt om er score uit af te leiden
FACTORANALYSE
doelstelling factoranalyse: o op basis van empirische gegevens komt tot achterliggende verschildimensies met behulp
van een statistisch model o Heel wat psychologische concepten verwijzen naar individuele verschillen o Die verschildimensies zijn samenvattingen van gedrag over verschillende situaties heen o Factoranalyse is een techniek die probeert om dergelijke ‘samenvattingen’ te maken
o.b.v. de similariteit in (antwoord)gedrag
De gegevens komen uit vragenlijsten met antwoorden op een reeks items
factorlading= correlatie van een item met de factor
eigenwaarde= som van de gekwadrateerde ladingen op een factor
communaliteit= het deel van de variantie van een item dat verklaard wordt door de gemeenschappelijke factoren
varimaxrotatie= rotatie naar de eenvoudige structuur (structuur met per factor slecht een beperkt aantal items en per item slechts één hoge lading)
factoranalyse vertrekt van de correlatie tussen de items
voor de diagonaal (correlatie van item met zichzelf)zijn er 2 mogelijkheden o 1 invullen
Zodat men met de factoranalyse 100% van de variantie van elke variabele wil verklaren
= methode van de principale componentenanalyse o Communialiteit invullen
Meestal wordt hiervoor methode van hoofdassen gebruikt
Factoranalyse levert eigenwaarde op en een ongeroteerde factoroplossing
De hoeveelheid variantie per factor wordt uitgedrukt in de eigenwaarden
Om te beslissen tot hoeveel factoren men moet besluiten, worden er verschillende criteria gebruikt
o Eigenwaarde gelijk aan 1 o Aantal factoren vlak voor de elleboog op scree plot o Aantal substantiële ladingen op een factor o Interpreteerbaarheid van een factor
Blijkt er slechts 1 factor te zijn en was het de bedoeling om 1 concept te meten, dan bevestigt de factoranalyse de bedoeling
Als er slechts 1 factor blijkt te zijn en het was de bedoeling meerdere concepten te meten, dan is niet voldaan aan het criterium van de divergente validiteit
Als er meerdere factoren zijn is een varimaxrotatie (orthogonale rotatie) aangewezen o Eenvoudige structuur is pas zichtbaar na rotatie o Men verwacht dat hierna de ladingen overeenkomen met de concepten/ aspecten van
een concept
23
Verschillende acties mogelijk o Itemanalyse: problematische items verwijderen/aanpassen o Item dat op verkeerde factor laadt, meerekenen met de groep van item van die factor o Een nieuwe groep item definiëren op grond van een onverwacht opgedoken factor
Factorschalen: items met een hoge lading op dezelfde factor optellen o Nadeel: mogelijk is er een correlatie tussen somscores
Factorscores: gewogen som (grootte ladingen, intercorrelaties)
Zwakte van factoranalyse: interpretatie van factoren is subjectief
Resultaat factoranalyse afhankelijk van o Soort en hoeveelheid variabelen in de analyse o Steekproef respondenten o Technische veronderstellingen en keuzes o Interpretatie van de factoren
Kruisvalidering o Dataset verdelen in 2 steekproeven o Per dataset een aparte analyse uitvoeren o Is het resultaat vergelijkbaar?
8.5 Nogmaals betrouwbaarheid en validiteit
De betrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor de betrouwbare testscore uit de klassieke testtheorie en de persoonsparameter uit de item-responstheorie o Interval geeft indicatie van de nauwkeurigheid van de meting
Lage betrouwbaarheid: test meet wel de eigenschap maar gaat gepaard met veel ruis o dus is nauwelijks valide o grote meetfout betekent ook dat de test laag correleert met andere variabelen o predictieve validiteit is gering
campbell en Fiske: multitrek-multimethodebenadering o belangrijk hier is het idee dat een test voor een bepaalde eigenschap zou kunnen worden
vervangen door een andere test die dezelfde eigenschap pretendeert te meten lukt niet perfectvariantie in testresultaten is voor een deel toe te schrijven aan
variantie van de onderzochte groep op de bedoelde eigenschap, maar ook aan de specifieke eigenschappen van de verschillende meetinstrumenten
o iedere test is een trek-methode-eenheid en de variantie van de testscore wordt bepaald door zowel variantie in de gemeten trek, als variantie in de methode (de test)
o er wordt geschat in hoeverre de variantie van de testscore bepaald wordt door de variantie in de bedoelde trek en juist niet door de variantie ten gevolge van de gebruikte methode/ de niet bedoelde trekken
o om dit vast te stellen dient de evaluatieprocedure van de test de meting van diverse trekken en het meten met verschillende methoden omvatten
o de matrix bevat de correlaties die op deze wijze uit alle combinaties van methoden en trekken ontstaan (zie figuur 8.5 blz. 390) B-waarden (centrale diagonaal): de correlaties voor dezelfde trekken en dezelfde
methoden (monotrek- monomethode overlap)= betrouwbaarheid V-waarden: correlaties voor dezelfde trekken gemeten met verschillende methoden
(monotrek- heteromethode overlap) =confirmerende validiteit M- waarden: correlaties voor dezelfde methode en verschillende trekken (heterotrek-
monomethode overlap)= methodevariantie D-waarden: correlaties voor verschillende trekken en verschillende methoden
(heterotrek- heteromethode overlap) o Met betrekking tot validiteit zijn 4 overwegingen van belang
V- waarden moeten significant verschillen van nul en voldoende hoog zijn
24
V-waarden moeten hoger zijn dan d-waarden Houdt in dat de validiteit van een variabele hoger is dan de correlatie tussen die
variabele en iedere andere variabele die noch inhoudelijk noch wat betreft methode iets te gemeen heeft met variabele in kwestie
V-waarde moet hoger zijn dan m-waarde Twee onafhankelijke maten van dezelfde trek moeten hoger correleren dan twee
verschillende trekken met dezelfde methode In de m-driehoeken en de d-driehoeken moeten ongeveer gelijke patronen van
correlaties gevonden worden Laatste 3 verwachtingen vormen basis voor discriminante validiteit
o Test hertest methode= dezelfde metingen van dezelfde eigenschap (b-waarden)
Hoofdstuk 9: de bijdrage van de test in het beslissingsproces Inleiding
Wetenschappelijke waarde van een test wordt bepaald door het wetenschappelijke belang van de eigenschap die door de test wordt gemeten
Praktische waarde van de test kan het best worden beoordeeld tegen de achtergrond van de beslissingen die met de test worden genomen
Bijdrage van de test: gaat om de verbetering in vergelijking met de situatie zonder test
Cronbach en Gleser stellen dat het reëler is de situatie met test te vergelijken met de a-prioristrategie (= het totaal aan voorspellingsmogelijkheid min de test)
Voor het bepalen van de bijdrage van de test mag men niet louter afgaan op de correlatie met het criterium, maar men moet nagaan hoezeer de correlatie in vergelijking met het a-prioriniveau wordt verhoogd door toevoeging van testinformatie = incremental validity
Voor een test is een sterke onafhankelijkheid van de reeds beschikbare informatie vaak belangrijker dan een hoge correlatie met het criterium zonder meer
De praktische waarde van een test kan slechts beoordeeld worden in de context van het specifieke beslissingsproces zelf
9.1 Taxonomie van beslissingen
Beslissing over mensen bevat altijd 3 elementen o Een individu waarvoor de beslissing geldt o Twee/meer behandelingen o Informatie die dient als basis voor beslissingen
Het kan gebeuren dat de informatie ontoereikend wordt geacht voor een definitieve beslissing en dat men besluit om eerst aanvullend onderzoek te doen
Beslissingsstrategie: samenstel van verscheidene beslissingsregels o Kan expliciet zijn en consequent worden gevolgd o Kan vaag en onduidelijk zijn en niet consequent worden gevolgd o Normatieve strategie: de strategie die gevolgd zou moeten worden volgens de strategie o Empirische strategie: de feitelijk gevolgde strategie
Indelingsprincipes met betrekking tot beslissingen over mensen 1. Onderscheid tussen individuele en institutionele beslissingen
Individuele beslissingen o Volledig gedacht vanuit het individu dat de beslissing moet nemen/ waarvoor de
beslissing geldt o Kansbepaling is a priori of o.b.v. testinformatie o Eenmalige beslissing o Rendement varieert per individu (omdat de waarde van de uitkomst van de beslissing
varieert per individu)
25
o Resultaat moet beoordeeld worden tegen de achtergrond van de eigen, persoonlijke waarden en voorkeuren van het individu
o Bv. beroepskeuze
Institutionele beslissingen o Een groot aantal gelijksoortige beslissingen nemen o Kansbepaling doorgaans o.b.v. testinformatie (correlatie tussen test en criterium/
verwachtingstabel of differentiële voorspelling) o Waardesysteem: een voor alle beslissingen geldend systeem, behorend tot het
instituut/ de organisatie waarvoor beslissingen worden genomen o Vaste serie beslisregels voor uiteenlopende gevallen o Totale rendement wordt bepaald door het gemiddelde rendement van de
afzonderlijke beslissingen (meestal met doel het rendement te maximaliseren) o Bv. toelatingsprocedure voor school, rijbewijsexamen,…
2. Onderlinge relatie van de te kiezen alternatieven
Heeft invloed op de aard van de te kiezen informatiebron
Univariate informatie: De alternatieven kunnen kwantitatief van elkaar verschillen, maar wel in één dimensie of in elkaars verlengde liggen o bv. toegepaste psychologie vs. psychologie op universiteit o omdat het uitsluitend om een niveau verschil gaat, kan men in principe dezelfde
informatie gebruiken voor de voorspelling van succes binnen de verschillende alternatieven
o beslissing: verschillen in strengheid
Multivariate informatie: keuze alternatieven die qua aard, en niet enkel qua niveau verschillend zijn (kwantitatieve en kwalitatieve verschillen) o Bv. psychologie of burgerlijk ingenieur o Testinformatie heeft ook een mutivariaat karakter o Beslissing: profielscores, verschilscores, scorepatronen o Het gaat om de mogelijkheid tot differentiële voorspellingen (welke gebaseerd is op
multivariate analyse) 3. Beslissingen waarbij het gaat om een keuze voor 1 behandeling vs. een keuze tussen
verschillende alternatieven
Het gebruik van univariate informatie is in het eerste geval gebaseerd op tweedeling ‘niet-wel’
In het tweede geval is ze gebaseerd op het indelen van twee of meer ‘klassen’
Op basis van deze 3 indelingsprincipes komen we tot een taxonomie van beslissingen
1. De twee soorten beslissingen (selectie en plaatsing in alternatieven die verschillen qua niveau) kunnen soms in één model worden gecombineerd
26
Komt veel voor in bedrijfs- en schoolpsychologie 2. Binnen de categorie van plaatsingsbeslissingen is het belangrijk of men rekening moet
houden met beperkingen van aantal kandidaten 3. Onderscheid tussen variabele en vaste treatments
Vaste treatments: men gaat uit van één/ meer van tevoren vastgelegde behandelingen, waartussen men een keuze kan maken
Variabele treatments: er bestaat een mogelijkheid om de behandeling weer bij te stellen zodat ze optimaal past bij het individu
4. Beslissing in één fase (single-stage / non- sequential decision) nemen of in meerdere fasen (sequential decisions)
9.2 Enkelvoudige selectie- c.q. afwijzingsmodel
Van enkelvoudige selectie is sprake indien individuen worden onderzocht met het oog op een enkel criterium, waarbij er slecht twee mogelijkheden zijn: men voldoet wel of niet aan de eisen
Klassieke geschiktheidsonderzoek
Het gaat hier om zoveel mogelijk ongeschikte kandidaten te weren
Institutionele beslissingen, gebruik maken van univariate informatie o !impliceert niet dat er slecht gebruik gemaakt wordt van één test (gebruikt men meerdere
testen, dan worden de scores gecombineerd tot een enkele predictorvariabele)
9.2.1 Het gebruik van een enkele test
Eerste vraag bij dit model is hoe hoog de correlatie met een criterium minstens moet zijn, wil de test in het selectieproces een zinvolle functie hebben
De effectiviteit van selectie hangt van meer factoren af dan enkel de validiteit van de test
A: personen die onterecht zijn afgewezen B: personen die terecht zijn aangenomen C: personen die terecht zijn afgewezen D: personen die onterecht zijn aangenomen A en D zijn missers (A: positieve missers/ D: negatieve missers)
B en C zijn treffers (B: positieve treffers/ C: negatieve treffers)
Verticale lijn= kritische testscore/aftest grens (erboven wordt men aangenomen, eronder afgewezen)
Horizontale lijn= kritische criteriumscore (erboven is voldoende, eronder is onvoldoende)
Selectieratio= percentage kandidaten dat wordt aangenomen 𝐵 + D
A + B + C + D
Toevalskans (= base rate/ antecedent probality): percentage geschikte kandidaten wanneer men niet zou selecteren maar volgens toeval (of allen) zou aannemen
o Bv. toevalskans van 0.75wanneer kandidaten aselect zouden worden toegewezen zou 75% in de aangenomen groep succesvol zijn
o Afhankelijk van de kwaliteit van het aanbod (hoe hoger kwaliteit, hoe meer volk in B) o Afhankelijk van de strengheid van beoordeling van de criteriumprestatie
𝐴 + 𝐵
A + B + C + D
27
Succesratio: percentage succesvolle kandidaten binnen de aangenomen groep (validiteit test) 𝐵
B + D
o Afhankelijk van de correlatie van de test met het criterium,
Hoe hoger de correlatie, hoe meer volk in B en C en hoe leger A en D+ succesratio wordt groter
o Succesratio wordt beïnvloed door toevalskans Indien A+B in verhouding tot het totaal groter zou worden, dan is dit ook het geval met
de succesratio o Succesratio wordt beïnvloed door selectieratio
Hoe meer personen worden afgewezen, hoe groter de succesratio wordt
Gevolgen van de genoemde relaties o Als er bij testen toch nog ongeschikte kandidaten worden aangenomen, hoeft dit niet te
wijten zijn aan de test Kan bv. ook liggen aan kwaliteit van het aanbod
o In beslissingsproces spelen ook oordelen en waardebepalingen een rol waarvoor noch de test noch de testpsycholoog zelf verantwoordelijk is Speelt ook een rol: aantal kandidaten dat moet worden aangenomen, succesratio die
men nastreeft Bij elke beslissing dient het belang van de verhouding van twee categorieën (positieve
en negatieve missers) worden afgewogen o Een gegeven validiteit geeft niet altijd dezelfde waarde voor de beslissing
Toevalskans (dicht bij) 1 geen zin om te testen Relatief weinig geschikte kandidaten in aanmeldingsgroep test met lage validiteit
heeft grote bijdrage o Bij zeer hoge waarden van de selectieratio, is bij constant blijven van de toevalskans een
veel hogere validiteit nodig om een bepaald effect te sorteren dan wanneer een strenge selectie mogelijk is en slechts een klein percentage hoeft te worden aangenomen
o Probleem: relatie tussen positieve en negatieve missers Strengere selectie meer kandidaten worden afgewezen die toch geschikt waren Overwegingen van belang:
Afhankelijk van vraag en aanbodproblemen zijn er situaties waarin een negatieve misser ernstige gevolgen heeft. In dergelijke situatie heeft men liever wat meer positieve missers
In andere situatie moeten positieve missers zo klein mogelijk zijn Situatie waarin beide groepen zo klein mogelijk moeten zijn
o In de puntenwolk bij een bepaalde positie van de horizontale lijn, de verticale lijn zodanig kiezen dat (A+D) zo klein mogelijk is
Het verschuiven van de aftastgrens op de predictorvariabele brengt dus een vermindering van het aantal missers van het ene type teweeg, terwijl het tegelijk het aantal missers van het andere type vergroot
o Probleem van selectie bij een zeer lage toevalskans Lage toevalskans heeft gevolgen voor de bijdrage van de test in het beslissingsproces
Duidelijk dat de absolute waarde van de validiteit van een test op zich weinig betekenis heeft
Zie formule Blz. 412
9.2.2 Het gelijktijdig gebruik van diverse tests
Meestal zal een zo hoog mogelijke validiteit bereikt worden door een verzameling van test die samen een testbatterij vormen
28
Testbatterij: serie testen die allen zo hoog mogelijk correleren met de criteriumprestatie maar onderling een zo laag mogelijke correlatie vertonen
Zowel bij de gefixeerde selectiescore (percentage te selecteren kandidaten ligt vast) als bij een gefixeerde succesratio (aangenomen kandidaten moeten min een bepaalde kans op succes hebben)kunnen de gewenste beslissingen op 2 manieren worden bereikt o Statistisch proces (actuarisch) o Niet-statistisch, intuïtief proces
Gaat vaak om een van situatie tot situatie fluctuerende combinatie van gegevens Men volt minder een vaste strategie dan bij het statistisch proces Allerlei vooroordelen, stereotypen, … spelen een rol. Men bepaald vaak ‘op het gevoel’
de diverse weegfactoren
Analytische methode: minimumvoorwaarden op elke test afzonderlijk (multiple cut off procedure) o Conjuctief: Voor elke test afzonderlijk wordt een kritische score vastgelegd, Op elke test
moet de kandidaat de norm halen o Compensatorisch: de ene test kan compenseren voor de andere test o Combinatie is ook mogelijk (voor elke test moest een bepaalde norm gehaald worden,
vanaf die norm is compensatie mogelijk) o Combinatie regel is nog nodig o Inhoudsvaliditeit (regel a priori bepaald) of predictieve validiteit (posteriori bepaald)
Globale methode
o Gewogen totaalscore met daarop een minimum norm o Lage score op 1 test kan gecompenseerd worden door hoge score op andere test o Statistische bepaling van de gewichten van elke test o Univariaat selectiemodel en predictieve validiteit
29
o Testen mogen zo weinig mogelijk overlappen
!! compensatorische regel= bepalen van een totaalscore waarop een minimumnorm wordt vooropgesteld
Compensatorische regel met a priori gewichten ≠ statistische manier voor het bepalen van een predictorscore
9.2.3 Selectie in een of meer fasen
Soms is het efficiënter op trapsgewijs, in verschillende fasen te testen
De basis waarop de voorselectie plaatsvindt dient valide te zijn met betrekking tot de criteriumprestatie
Voorselectie o.b.v. administratieve voorwaarden (bv. diploma, leeftijd) is meestal toegestaan
Voorselectie o.b.v. indruk van kandidaat (bv. sollicitatiebrief, handschrift, leeftijd, …) o Risico op onterecht afwijzen van goede kandidaten
Voorselectie o.b.v. een korte testprocedure o Gebruikte test kan ook nuttig zijn als hij minder betrouwbaar en valide is dan de
procedure die in een definitief selectieonderzoek wordt gebruikt o Voldoende is dat de toevalskans in de groep die voor een langdurig en kostbaar
onderzoek in aanmerking komt, door de voorselectie toeneemt
Sequentiële beslissingsmodellen kunnen ook gecompliceerder zijn en uit meer fasen bestaan dan enkel voorselectie
Trapsgewijze selectie is in de meeste gevallen superieur aan eenmalige selectie, aangezien meestal veel tijd en geld bespaard kan worden zonder dat er meer foutieve beslissingen vallen
9.3 Plaatsbepalingen
Beslissen is een proces waarbij waarden moeten worden toegekend aan zaken die niet kwantitatief te vergelijken zijn
Besliskunde veronderstelt de beschikbaarheid van een waardesysteem o Op basis van twee elementen (kansen en waarderingen) wordt de meest adequate
beslissing of beslissingsstrategie gekozen Kans op slagen voor elke optie moet bekend zijn
A priori: subjectieve inschatting A posteriori: empirisch gefundeerd (samenhang tussen test en criterium/
verwachtingstabel) De waarde van elke optie moet gekend zijn
Probleem: gewicht toekennen aan zaken die niet kwantitatief vergelijkbaar zijn Prioriteiten in waardensysteem Persoonlijke stellingname van betrokkene(n)
Deze twee waarden moeten onderling vergelijkbaar worden gemaakt/ rendement bepalen Volgens berekening van verwachte waarde van de verschillende uitkomsten Rendement maximaliseren
o Bij institutionele beslissingen worden de waarden van uitkomsten van beslissingen door de organisatie bepaald en zijn constant voor vele beslissingen
o Bij individuele beslissingen wordt de waarde door het individu bepaald en kan dus variëren over individuen
Bij het nemen van beslissingen gaat het erom dat dit niet gebeurt op een niet- rationele, impliciete en inconsistente manier, maar volgens een rationeel, expliciet en analyseerbaar proces
Bijdrage van test is evenredig aan validiteit
E (rendement)= P(A) x W(A) + P(-A) x W(-A) o Met P(A)= kans op slagen
30
o P(-A) kans op niet slagen o W(A) waarde van slagen o W(-A) waarde niet slagen
9.3.1 Plaatsing en niveauverschillen (univariate info)
Niveauverschillen o Geen kwalitatieve verschillen o De verschillende keuze keuzealternatieven zijn functie van dezelfde predictor
Waardesysteem: institutioneel
Kansen worden bepaald doormiddel van testinformatie
Voor elke testscore moet rendement bepaald wroden
Altijd A kiezen maakt geen verschil of je A of B kiest
Als predictor score onder X bij extreme predictorscores kies je B Kies je voor A anders voor B
Meest eenvoudige situatie: o Geen beperkingen of eisen wat betreft aantal kandidaten in elke optie o Elk individu krijgt keuze met maximaal rendement
Complexere situatie o Beperkt aantal plaatsen o Vereist aantal plaatsen (bv. opleiding moet elk jaar gevolgd worden door X aantal
personen) o Gevolg:
Niet iedereen volgt optie met maximaal rendement vanuit standpunt organisatie Rendement organisatie niet altijd gelijk aan individueel rendement bron van ontevredenheid
9.3.1 Plaatsing en kwalitatieve verschillen (multivariate info)
Eis: de kansen op succes in verschillende functies bepalen en de waarde van het goed vervullen van de functies vaststellen
Belangrijk verschil met het vorige is dat hier gebruik gemaakt wordt van multivariate informatie (bv. scorepatroon, profielscores)
Centraal: mogelijk tot differentiëring:
Testbatterij moet zich dus niet richten op wat de criteria verenigt maar op wat hen scheidt o Testbatterij bestaande uit test waarbij telkens een bepaalde configuratie van scores op
deeltests optimaal voorspelt voor één van de alternatieven
31
o Testen hebben met hoge correlatie op beide criteria o Maar ook testen die differentieel correleren met beide criteria
Niet enkel de correlatie met afzonderlijke criteria (validiteit) maar ook de differentiële validiteit is van belang
Differentiële voorspelling:
Hoe n individuen over n posities in M verschillende plaatsingen verdelen?
o Gebeurd vaak irrationeel o Cut and fit method
Meest bekwame individuen worden in best bij hen passende functies geplaatst Minst bekwame individuen worden aselect toegewezen in open gebleven functies Model niet altijd even goed uitvoerbaar (zie blz. 426-426 voor voorbeeld)
9.4 Individuele beslissingen
Beslissingen die worden genomen voor of door individuen met een eigen persoonlijk waarde systeem waardoor deze beslissingen veelal een uniek en eigensoortig karakter hebben
De evaluatie van de resultaten van beslissingen is een individuele en over individuen variërende zaak
Keuze kan kwantitatief en kwalitatief verschillende alternatieven betreffen o Kwalitatief: de informatie dient een hoge differentiële validiteit te bezitten
Er kan gebruik gemaakt worden van rationeel beslissingsmodel
Stappenplan o Beslissingsboom voor overlopen alle uitkomsten o Bepaling van kansen (niet zo eenvoudig) o Waardering van uitkomsten (allesbehalve eenvoudig) o Eventueel bijkomende variabele (bv. schadeposten) o Rendement bepalen
Taak van de psycholoog o Zoveel mogelijk analyseren en expliciteren o Model ligt vast (al dan niet de waarde van het falen en de kosten toevoegen) o Objectieve testinformatie (kansen)
De test draagt slecht objectieve informatie aan waardoor de beslissing beter wordt onderbouwd en dut tot betere resultaten kan leiden
Deel II
Meetniveaus 1. Kwantitatieve variabelen
= een variabele waarvan de waarden getallen zijn
De variabelen waar we mee werken (latent en vaststelbaar) zijn vaak kwantitatief
2. Meetniveaus
Fundamenteel probleem: getallen betekenen niet in elke context het zelfde o Oplossing: meetniveaus invoeren (betekenis van getallen is hiervan afhankelijk) o Minstens 5 meetniveaus
Nominaal Ordinaal Interval
32
Verschil Verhouding absoluut
o de getallen halen hun betekenis uit de toegestane transformaties enkel die aspecten die onveranderd blijven onder de toegestane transformatie hebben
betekenis we zullen dus telkens een aantal getallen op de X schaal omzetten naar een aantal
getallen op de Y schaal om te onderzoeken wat constant blijft y= f(X)
y= getransformeerde getallen f (x) functie van de getallen in X
we nemen de getallen X1, X2, X3 en X4 die horen bij de objecten 1,2,3,4 o gelijkheidsoperatie (G): g(X1,X2)=1 als X1=X2
g= 1 als de getallen gelijk zijn g=0 als de getallen niet gelijk zijn
o orderoperatie (O): o(X1,X2)=1 als X1>X2 o verhouding (ratio) van de verschillen (RV): rv(X1,X2,X3,X4)= (X1-X2)/ (X3-X4) o het verschil (V): v(X1,X2)= X1 – X2
de verhouding (ratio) (R): r(X1,X2) = X1/ X2
2.1 nominale schaal
1 op 1 transformatie: 2 getallen zijn gelijk, na transformatie blijven het 2 gelijke getallen
Als X1 = X2 dan f(X1)=f(X2)
Bv. f(X)= X2 ; f(X)=3X + 2 ; f(X) = -X
Gelijkheid heeft betekenis : o g(Y1,Y2) = g(X1,X2)
Orde heeft geen betekenis o O(Y1,Y2) ≠O(X1,X2) o Bv. f(x)= -X
Y1=2 Y2= 4 Dan X1 =-2 X2=-4 Y1<Y2 X1>X2
o De ordening hangt immers af van de schaal die we gebruiken
Het gaat hier louter om een classificatie van mensen/ objecten in niet geordende, elkaar uitsluitende groepen o Louter benoemen van categorieën o Bv. man (1) vrouw (2) o Moeten geen getallen zijn (ook andere symbolen zijn mogelijk)
Bv. de lengte van Jan is niet gelijk aan de lengte van Mieke, niet gelijk aan lengte bram, niet gelijk aan lengte An
Bv. rugnummer, etnische groep
2.2 Ordinale schaal
Monotoon stijgende transformatie
Als X1<X2 dan f(X1)<f(X2)
Bv. f(X)= X2 ; f(X)=3X+2
NIET f(X)= -X
Monotoon stijgende transformatie is een voorbeeld van een 1 op 1 transformatie o Gelijkheid heeft dus betekenis
Orde heeft ook betekenis o O(Y1,Y2)= o(X1,X2)
33
Verhouding van verschil heeft geen betekenis o Rv (Y1,Y2,Y3,Y4) ≠ rv(X1,X2,X3,X4) o Bv. F(x)= x2
Rv(y)= (A-B)/ (C-D) F(X)= (A2-B2)/ (C2-D2) = [(a-b)(a+b)] / [(c-d)(c+d)]
Het gaat om het rangordenen van mensen/ objecten volgens de mate waarin ze een bepaald kenmerk hebben
Bv. Jan is groter dan Mieke, is groter dan Bram, is groter dan An
Bv. mate van instemming met een item, opleidingsniveau
2.3 Intervalschaal
Positief lineaire transformatie
F(X)=ax+b (met a>0)
Bv. f(x)=3x+2
NIET f(x) = -x ; f(x) = X2
Is een voorbeeld van een monotoon stijgende transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis
Verhouding van verschil heeft betekenis o Rv (X1,X2,X3,X4) = rv (Y1,Y2,Y3,Y4)
= ((X1-X2)/ X3-X4) A* (Y1-Y2)/ A*(Y3-Y4) (Y1-Y2)/(Y3-Y4)
Verschil heeft geen betekenis o V(Y1,Y2) = Y1-Y2 = aX1+b – aX2 – b = a(X1-X2) = a *v(X1,X2) o ≠ v(X1,X2)
Verhouding heeft geen betekenis o R(Y1,Y2)= Y1/Y2 = (ax1+b)/(ax2+b) o ≠v(x1,x2)
We kunnen een eenheid toekennen: de afstand tussen twee waarden kan even groot zijn als die tussen twee andere waarden
Er is geen absoluut nulpunt: iets dat de waarde nul heeft, zou evengoed de waarde B kunnen krijgen (op een andere schaal)
Bv. (lengte Jan- lengte Mieke) = 2* (lengte Bram- lengte An)
Bv. temperatuur Celsius
2.4 Verschilschaal
Additieve transformatie
F(x) = X+b
Bv. f(X)= X+2
NIET f(x)=-x ; f(x)= x2
Is een voorbeeld van een positief lineaire transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis o Verhouding van verschil heeft betekenis
Verschil heeft betekenis o V (Y1,Y2) = Y1-Y2 = X1+b – X2+b = X1-X2 o =v(X1,X2)
Verhouding heeft geen betekenis o r(y1,y2) = y1/y2 = (x1+b)/(x2 + b) o ≠ r(x1,x2)
Bv. Jan is 6cm groter dan Mieke
34
2.5 Verhoudingsschaal
Multiplicatieve transformatie
F(x)=aX (met a>0)
Bv. f(x) = 3X
NIET f(x)= -X ; f(x) = x2
Is een voorbeeld van een positief lineaire transformatie o Gelijkheid heeft betekenis o Orde heeft betekenis o Verhouding van verschil heeft betekenis
Verhouding heeft betekenis o r(y1,y2) = y1/y2 = a x1/a x2 = x1/x2 o = r(x1,x2)
Verschil heeft geen betekenis o v(y1,y2) = y1- y2 = a x1 – a x2 = a (x1- x2) = a v(x1,x2) o ≠ v(x1,x2)
We kunnen een eenheid en een nulpunt toekennen o Nulpunt ligt vast, krijgt dus betekenis o Iets dat waarde nul heeft zou ook op een andere schaal de waarde nul krijgen o Nulpunt reflecteert de totale afwezigheid van de eigenschap
Bv. Jan is 2maal zo groot als Bram
Bv. lengte, temperatuur Kelvin, massa
2.6 Absolute schaal
Identiteitstransformatie
(fX)=X
Geen enkele transformatie is toegestaan
Alle relaties hebben betekenis
Getallen zoals in rekenkunde 2.7 Opmerkingen
Je kan een bepaald gegeven in verschillende meetniveaus plaatsen, afhankelijk van de vraag o Bv. tombolaticket uitgedeeld met nummer 123
Nominaal: winnaar vs. verliezer Ordinaal: voor of na winnaar binnengekomen Verhouding: aantal aanwezigen
o Onderzoeker bepaalt zelf op welk meetniveau hij zijn operaties acht
Er zijn verschillende andere onderverdelingen van meetniveaus uitgewerkt door andere onderzoekers
2.8 Wiskundige operaties
De toegestane transformaties bepalen niet enkel de betekenis, maar ook welke wiskunde/ statistische operaties zinvol zijn en dus toegelaten zijn
Nominaal o Meeste rekenkundige operaties zijn niet zinvol o De modus is wel zinvol (meest voorkomende naam)
Ordinaal o Slechts beperkt aantal rekenkundige bewerkingen mogelijk o Bv. gemiddelde niet
Interval o Meeste rekenkundige bewerkingen bruikbaar o Nu is gemiddelde wel toegestaan
35
Verschil/verhouding o Meeste statistische procedures bruikbaar
Absoluut o Alle bewerkingen zijn toegestaan
Beoordeelaarsovereenstemming Inleiding
Van abstract latent (bv. intelligentie) operationaliseren naar concreet latent (bv. score op WISC)
Tijdstip verbijzonderen naar feitelijk manifest (bv. score WISC op tijdstip T)
Beoordelaar verbijzonderen (bv. score op WISC op tijdstip T door beoordeelaar B)
In omgekeerde richting gaat ook, dan ga je telkens meer veralgemenen o Veralgemening beoordelaar= betrouwbaarheid o Veralgemening tijdstip= nauwkeurigheid o Veralgemening operationalisatie= validiteit
Het mag niet uitmaken welke beoordelaar de antwoorden registreert en interpreteer o Interbeoordeelaarsovereenstemming!: mate waarin beoordelaars op eenzelfde manier scores
toekennen
1. overeenstemming voor nominale data: kappa van cohen
Elke persoon laten beoordelen door 2 verschillende psychologen
In welke mate komen ze overeen met elkaar?-->overeenstemmingstabel van aantallen opmaken (+ omzetten naar proporties)
Geobserveerde proportie overeenstemming: aantal keer dat ze het eens waren (diagonaal) delen
door aantal observaties. [ hier: 3/5 = 0.6] OF bij proportietabel de proporties overeenstemming met elkaar optellen
Proportie overeenstemming houdt geen rekening met toeval (personen die in dezelfde groep terechtkomen zonder dat dat iets te maken heeft met die personen zelf)
We kunnen berekenen hoe de overeenstemmingstabel eruit zou zien op basis van toeval als o Beoordelaars enkel oordelen op basis van hun eigen frequentieverdeling, niet op basis van de
persoon o Beoordelaars onafhankelijk van elkaar oordelen
Bij onafhankelijkheid mag je bij 2 gebeurtenissen de kansen vermenigvuldigen (productregel)
36
o Geobserveerde tabel: Verwachte aantallen overeenstemming door toeval berekenen
Verwachte proportie overeenstemming door toeval berekenen: proporties optellen en
delen door totaal aantal observaties. [hier: (0.6+0.6+0.2)/5=0.28] o Proportie tabel:
Verwachte proporties overeenstemming door toeval berekenen: 2 rijwaarden met elkaar vermenigvuldigen
Verwachte proportie overeenstemming door toeval berekenen: waarden met elkaar
optellen [ hier: 0.12+0.12+0.04 = 0.28]
Als we deze twee waarden (de geobserveerde overeenkomst en de overeenkomst op basis van toeval)berekend hebben, kunnen we kappa berekenen o Kapa= (PO-Pt)/(1-Pt) met PO= geobserveerde kans ; Pt= toevalskans
Als PO=1 (perfecte overeenstemming) kappa=1 Als PO=PT (alle waargenomen overeenstemming is toevalsovereenstemming) kappa =0
o Waarden van kappa met betekenis 0.00= arm 0.00-0.20 = gering 0.21-0.4 = reëel 0.41-0.6= gemiddeld 0.61-0.8= aanzienlijk 0.81-1.00= bijna perfect
2. overeenstemming voor ordinale data: gewogen kappa
Kijken we hier enkel naar de diagonaal, dan negeren we het feit dat er grotere verschillen kunnen zijn (bv. matig-uitstekend vs. matig-redelijk)
Ook partiële overeenstemming is van belang!
Geobserveerde gewogen proportie overeenstemming berekenen o Alle getallen vermenigvuldigd met hun gewicht optellen. Dit delen door totale aantal
observaties (gewichtenmatrix vermenigvuldigen met geobserveerde matrix)
Voor alle getallen de verwachte aantallen overeenstemming door toeval berekenen
37
Verwachte gewogen proportie overeenstemming door toeval berekenen (door gewichtenmatrix te vermenigvuldigen met matrix verwachte aantallen overeenstemming door toeval)
Gewichtenmatrix o Lineair: WIJ= 1- |i-j| / |c-1| met C= aantal beoordelaarscategorieën [hier:3] o Kwadratisch: WIJ= 1- (i-j)2 / (c-1)2 o Als i=j (kleinst mogelijke verschil) Wij=1 o Als i=1 (of c) en j=c (of 1) (grootst mogelijke verschil)Wij=0 o Als i-j=1
Lineair: (1-1)/2= .5 Kwadratisch: 1-1/4=.75
3. overeenstemming voor ordinale data: rho van spearmen
Stap 1= exacte scores om zetten in rangtabel o Per beoordelaar aangeven welke rang de beoordeling krijgt
o Di= rang van persoon i volgens beoordelaar 1 – rang van persoon i volgens beoordelaar 2 o N= aantal personen (/ aantal beoordelingen)
o Bij een volledige overeenstemming: rho = 1
o Bij een volledige omkering: rho = -1
Rho is de productmoment correlatie coëfficiënt tussen de ranks
De formule gaat enkel op als er niet veel ties (= gelijke scores) zijn binnen 1 beoordeelaar
Als er wel veel gelijke scores zijn, moet je gebruik maken van de productmomentcorrelatie coëfficiënt tussen de ranks o Rho verschilt van correlatie omdat die enkel rekening houdt met de rang en niet met de
exacte waarden
4. overeenstemming voor ordinale data: tau van kendall
Wederom werken met rangtabellen ipv met exacte waarden o Voor elk mogelijk koppel van beoordelingen bepaal je per beoordelaar kijken naar specifieke
rang tussen de twee items Bv. p1, p2 > p1 krijgt hogere rang dan p2
o Vervolgens bepaal je de mate van overeenstemming tussen de twee beoordeelaars Concordant: aantal keer dat ze zelfde volgorde tussen twee items hebben Discordant: aantal keer dat verschillende volgorde tussen twee items hebben
Tau= proportie concordante koppels- proportie discordante koppels (tau: Pc-Pd) o Pd= aantal discordante koppels/ aantal koppels in totaal
Bij volledige overeenstemming wordt deze term 0 dus tau: 1 o Pc= aantal concordante koppels/ aantal koppels in totaal
Bij volledige omkering wordt deze term 0 dus tau: -1 o Aantal koppels: n (n-1)/2
Oplossing voor wanneer een beoordelaar dezelfde score toekent aan verschillende beoordelingen o Bv. score 27, 27, 41, 40, 43. er is twee keer 27 gescoord. Deze zouden normaal rang 1 en rang
2 krijgen. Hier neem je het gemiddelde van (dus 1,5) dit is de rang dat beide waarden krijgen o Vervolgens terug discordantie en concordantie berekenen o Indien 2 items dezelfde rang hebben, kennen ze geen C of D maar krijgen ze X o Formule blijft dezelfde met die uitzondering dat
38
Aantal meetellende koppels= (aantal koppels – correctie 1) 0.5 * (aantal koppels – correctie 2) 0.5
correctie= met ti= aantal personen in tie groep i
Bv. Psycholoog A heeft 1 tiegroep van 2 personen T1 = 2 Dus correctie 1= 2* (2-1)/2= 1
Psycholoog B heeft 1 tiegroep van 2 personen T1 = 2
Dus correctie 1= 2* (2-1)/2= 1 Aantal meetellende koppels: (10-1) 0.5 * (10-1) 0.5 = 9
Bv. Psycholoog A heeft 2 tiegroepen van 2 personen en 3 personen T1 = 2 T2= 3 Dus correctie 1= 2* (2-1)/2+ =3*(3-1)/2= 4
Psycholoog B heeft 1 tiegroep van 2 personen T1 = 2
Dus correctie 1= 2* (2-1)/2= 1 Aantal meetellende koppels: (10-4) 0.5 * (10-1) 0.5 = 7,35
5. opmerkingen
Volledige objectiviteit is een na te streven ideaal. Volledige objectiviteit is onmenselijk
De mate van objectiviteit varieert naar gelang de testsoort o Moeilijker naarmate men zich meer richt op verklaring en interpretatie dan op beschrijving o Bv. interview, projectieve test,…
Objectiviteit is soms ten koste van de relevantie o Bv. TAT
Objectief: aantal antwoorden Relevant: mate van agressie
o Erg moeilijke afweging
Objectiviteit is niet altijd even belangrijk (bv. bij het genereren van hypotheses)
Lage overeenstemming vermijden o Voorafgaand training: stage, proefbeoordelingen o Merkbare controle o Kwaliteit beoordelaarsinstructies: duidelijke, welomschreven scoringsvoorschrift
kies een test(soort) die overeenstemming toelaat zorg dat je de scoringsvoorschriften kent hou je er aan de scoringsvoorschriften
o vermijd allerlei niet-systematische invloeden (schrijffouten, onoplettendheid, vermoeidheid, achtergrondlawaai) door bvb : goed uit te slapen, en een goed testlokaal te kiezen
2/)1(__
1
groepentieaantal
i
ii tt
39
klassieke test theorie 1. inleiding
betrouwbaarheid= herhaalbaarheid van metingen
het mag niet uitmaken welke beoordelaar de antwoorden registreert en interpreteert o interbeoordelaars overeenstemming: onderzoeken in hoeverre beoordelaars op eenzelfde
manier scores toekennen
het mag niet uitmaken op welk moment de test wordt afgenomen o maar vaak maakt het wel uit door allerlei storende factoren o deze storende factoren hebben een invloed op de nauwkeurigheid van de score
testscores te weten komen zonder de storende factoren die samenhangen met een bepaald testmoment o klassieke test theorie (KTT) o item respons theorie (IRT)
2. KTT: eerste poging
basisaanname: geobserveerde testscore bestaat uit een systematisch deel en toevallige invloeden
twee aannames o systematisch deel hangt niet af van het testmoment (= de ware+ foutloze/ systematische/
betrouwbare score) de betrouwbare score van een persoon i hangt niet af van het testmoment
Tij = Ti o de toevallige invloed hangt af van het testmoment en is niet systematisch ( = meetfout)
over heel veel testmomenten is de gemiddelde meetfout voor persoon i gelijk aan nul meetfouten heffen elkaar op
Gevolgen o Xij = Ti + Eij
betrouwbare score van persoon i (Ti) is (per aanname) onafhankelijk van het testmoment (geen index j)
we willen Ti uit Xij halen o
betrouwbare score van persoon i (Ti) is gemiddelde testscore van de persoon over heel veel testmomenten
testscore zonder storende factoren te weten komen: dezelfde test veel afnemen van dezelfde persoon en gemiddelde nemen
wie wil er zich zo vaak laten testen?
Niet altijd zinvol o Condities veranderen door geheugeneffecten, leereffecten, motivatie
effecten,…
Dus we zullen het met één enkele testscore moeten doen
3. KTT tweede poging
In plaats van te kijken naar individuen kijken naar een populatie van personen op een bepaald testmoment (T)
Persoon i en één testscore (waarbij j=t)
Xi,j=t = Ti + Ei,j=t o Xi = Ti + Ei
[6.4] 0
1
1
q
jij
Eq
Ei
q
j
ijqi XT1
1
40
Aanname 1 o Over heel veel personen is de gemiddelde meetfout gelijk aan nul
o
Aanname 2 o De correlatie tussen de meetfout en een willekeurige variabele Y score is nul o De meetfout is dus niet systematisch o
Gevolgen o De gemiddelde geobserveerde score is gelijk aan de gemiddelde betrouwbare score
o De correlatie tussen meetfout en betrouwbare score is nul
o De variantie van de geobserveerde score is gelijk aan de variantie van de betrouwbare score+ de variantie van de meetfout S(E) = standaardmeetfout
Voor praktisch testgebruik gaat men ervan uit dat de standaardmeetfout identiek is voor alle personen
Voor psychologische metingen is deze waarde tamelijk groot o En
4. schatting van betrouwbare scores
Xij = Ti + Eij
Schatting van betrouwbare score van persoon i is gemiddelde testscore van die persoon over meerdere testmomenten ONHAALBARE METHODE
Directe methode o Schatting van betrouwbare score van persoon i is gelijk aan de geobserveerde score van die
persoon (dus niets aantrekken van meetfout) o
Regressie methode o Gebruik maken van een regressiemodel op T te voorspellen op basis van X
o
Met
o
o De schatting van de betrouwbare score van persoon i is het gewogen gemiddelde van
de geobserveerde score (Xi) van die persoon en het groepsgemiddelde
Betrouwbaarheidsinterval van schatting T o
o Met S(T-^T)= standaardschattingsfout
= standaarddeviatie van de schattingsfout T-^T = Standaardfout van estimatie
o Directe methode
0
1
1
n
ji
En
E
0, YEr
TX
0, TEr
ESTSXS 222
TSTXS 2, ESEXS 2,
ˆii XT
])[,()(
)(ˆ TXXTXrXS
TST ii
XXS
TSX
XS
TST ii
)²(
)²(1
)²(
)²(ˆ
TTST ˆ96.1ˆ :BHI 95%
)()ˆ( ESTTS
41
Standaardschattingsfout= standaard meetfout
o Regressie methode Standaardschattingsfout = gewogen standaard meetfout
o De totale variantie van Y kan opgesplitst worden in een foutenstuk en een stuk verklaarde
variantie o Een goede maat van de kwaliteit van een regressie voorspelling is de verhouding van de
verklaarde totale variantie. o Bij optimale lineaire voorspelling geldt dat
Hieruit volgt dat S²(Y) = S²(Y.X) + r²(X,Y) S²(Y) Of nog dat S²(Y.X) = (1- r²(X,Y)) S²(Y) Toegepast in ons geval volgt: = (1- r²(X,T)) S²(T)
Uit 6.14 geldt dat: o Alles samen geeft ons dat de volgende resultaten, voor de gewone en de regressie
methode voor de schatting van betrouwbare scores
Definitie betrouwbaarheid
o Deze mysterieuze definitie geeft de volgende resultaten voor de gewone en de regressie
methode voor de schatting van betrouwbare scores Directe methode
Regressie methode
Dus de we kunnen de testscore te weten komen zonder de storende factoren door de betrouwbaarheid van de test te kennen
5. inzicht in betrouwbaarheid
Betrouwbaarheid
[D] )²(
)²(1
XS
TSXSES
)ˆ²( TTS
ii XT ˆ
1)ˆ( 'XXrXSTTS
XrXrT XXiXXi '' 1ˆ
1)ˆ( '' XXXX rXSrTTS
42
o = de proportie van de variantie van de geobserveerde testscores die systematisch is
o Indien S(T)=0, dan is rxx’ =0
Alle personen hebben dan dezelfde betrouwbare score Dit maakt dat: S²(X) = S²(E) Dus dat alle variantie in de geobserveerde score te wijten is aan meetfout
o Indien S(E)=0, dan S(T)= S(X) Alle personen hebben dezelfde meetfout Alle personen hebben een meetfout van 0 (over alle proefpersonen heen moet
meetfout sommeren tot nul) Xi=Ti De geobserveerde score is foutenvrij
o Indien rxx’ = 0 Alle varianti in de geobserveerde score is te wijten aan meetfout De geobserveerde score is puur toeval
o Indien rxx’= 1 De geobserveerde score is foutenvrij en is puur systematisch
o Rxx’ geeft dus aan in hoeverre de geobserveerde scores uit meetfout bestaat o Betrouwbaarheid ligt tussen 0 en 1
uit [A] volgt dat: o
o Of nog: o Betrouwbaarheidsindex= de correlatie tussen de geobserveerde score en de ware score o Deze index wordt niet veel gebruikt in realiteit maar geeft wel veel inzicht o hoe dicht ligt de geobserveerde score bij de ware score
6. relatie tussen directe en regressie methode
o Xi: geobserveerde score van een bepaald individu i o X: gemiddelde geobserveerde score o als rXX’ = 1 dan is de regressieschatter gelijk aan de gewone schatter
-veel vertrouwen in de geobserveerde score, dus weegt zwaar door komt overeen met de directe methode
o als rXX’ = 0 dan is de regressieschatter het populatiegemiddelde -niet veel vertrouwen in de geobserveerde score (puur te wijten aan meetfout)
rekenvoorbeelden zie slides (hoe breder BI, hoe minder nauwkeurig) o schatting op basis van regressie is altijd nauwkeuriger dan schatting op basis van directe
methode omdat deze meer relevante informatie gebruikt o de standaardschattingsfout aan de hand van regressiemethode is kleiner dan of gelijk aan de
standaardschattingsfout aan de hand van de directe methode
7. wanneer is er sprake van een goede betrouwbaarheid?
Bij een goede betrouwbaarheid liggen de waarden van de correlatie tussen 0 en 1
o Hoe groter de betrouwbaarheid, hoe kleiner de standaardmeetfout en hoe kleiner de
standaardschattingsfout o Standaardschattingsfout geeft een indruk van de onnauwkeurigheid van de schatting van Y
met behulp van X
),()(
,
)(
²TXr
TSXS
TXS
TSXS
TS
XS
TS
T)r(X, ' XXr
XrXrT XXiXXi '' 1ˆ
43
o Grotere steekproeven laten veel nauwkeurige schattingen van een parameter toe dan kleine steekproeven
Bij een betrouwbarheidsinterval van 1 krijg je maar 1 waarde
Acceptabele waarden voor betrouwbaarheid: o Wetenschappelijk onderzoek: rxx’>0.7 (individuele scoring staat niet centraal) o Individuele diagnostie rxx’>0.9 o ! let op dit zijn vuistregels, geen harde ondergrenzen
Hoe kunnen we nu de betrouwbaarheid van de test kennen? o Parallelvormmethode: herhaalde meting met verschillende testen o Test- hertest methode: herhaalde metingen met dezelfde test o Splitsingsmethode: eenmalige meting met twee helften o Interne- consistentiemethode: eenmalige meting met items
8. paralleltest
Twee testen zijn parallel als ze inwisselbaar zijn
Twee testen zijn parallel als : o Iedere persoon heeft op de twee tests een identieke betrouwbare scores
Dus als voor iedere persoon uit een specifieke populatie geldt dat TiI = TiII o De variantie van de geobserveerde testscores, genomen over alle personen die de populatie
vormen, zijn gelijk Dus dat voor de hele groep van personen geldt dat: S2(XI)= S2(XII)
Parallelle testen zijn moeilijk te maken
Voor parallelle testen moeten er aan 3 eigenschappen voldaan zijn o S2(XI)= S2(XII)
o o r(XI, Y)= r(XII, Y)
Hoe parallelliteit controleren? o S2(XI)= S2(XII) valt eenvoudig na te gaan adhv de geobserveerde testscores
o TiI = TiII valt niet na te gaan maar impliceert wel dat Maar door standaardisatie van de testscores kunnen we hier altijd voor zorgen
o Het kan aangetoond worden dat parallelliteit impliceert dat voor een willekeurige variabele Y geldt dat r(XI, Y)= r(XII, Y)
9. paralleltest en betrouwbaarheid
Er is een erg interessante relatie tussen paralleltest en betrouwbaarheid
Als testen I en II parallel zijn, dan geldt dat: o Dus de betrouwbaarheid van test I en test II zijn allebei gelijk aan de correlatie tussen de
geobserveerde scores op beide tests
Betrouwbaarheid bepalen door de betrouwbaarheid van andere testen (deeltesten): grote test opsplitsen in verschillende subtesten (splitsingsmethode) o Als we een test hebben met K delen
o Totaalscore = o Als de testdelen gelijke betrouwbare scores opleveren voor elke persoon (= equivalentie) dan
kan worden afgeleid dat:
o Als de geobserveerde score ook nog gelijke varianties hebben op alle testdelen (= de
deeltesten zijn parallel), dan volgt:
IIIXX XXrr ,'
XS
,YYS
K
Kr
hg hg
XX'21
44
met rDD’= de betrouwbaarheid van de deeltest
Stel, een test van k items heeft een betrouwbaarheid van rXX’ o Voeg parallelle testdelen toe zodat de nieuwe test uit K parallelle testdelen bestaat o De betrouwbaarheid van de verlengde test wordt dan genoteerd als rkk’ o Rkk’ kan berekend worden aan de hand van de spearman Brown formule
rKK’ = betrouwbaarheid verlengde test
rXX’ = betrouwbaarheid originele test
K = verlengingsfactor
Bij een verleningsfactor van 1 doe je niets, betrouwbaarheid blijft zelfde als originele test
Bij de eerste verleningen krijg je veel winst in betrouwbaarheid.
De betrouwbaarheid blijft stijgen maar de stijging wordt steeds minder krachtig o De betrouwbaarheid van de verlengde test is groter dan die van de oorspronkelijke test o Door de test te verlengen met parallelle delen krijgt de meetfout minder invloed op de
geobserveerde scores o Een testverlening is vooral zinvol als de oorspronkelijke test weinig items heeft en een niet al
te lage betrouwbaarheid heeft o Als K oneindig wordt, dan is de betrouwbaarheid gelijk aan 1
in theorie kunnen we dus perfecte betrouwbaarheid verkrijgen in de praktijk is een perfect betrouwbare test niet altijd haalbaar
het is niet altijd mogelijk om parallelle items toe te voegen o goede items (theoretisch probleem) o tijdsbeperkingen: testverlenging heeft uiteraard ook effect op test duur (praktisch probleem)
uit volgt o Dus we kunnen berekenen met hoeveel parallelle deeltests we een test moeten verlengen
om een om een gewenste betrouwbaarheid te bereiken o Voorbeeld zie slides
10. betrouwbaarheid bepalen
Als twee testen parallel zijn dan geldt: o Betrouwbaarheid: correlatie tussen twee parallelle testscores
Dit geeft ons een werkwijze om betrouwbaarheid te bepalen o Neem twee parallelle test af bij een grote groep representatieve proefpersonen met een
zeker tijdsinterval tussen de testen o Bereken de correlatie tussen de scores op de twee testen o Dit is de schatting van de betrouwbaarheid van elk van deze testen
Poging 1: construeer twee parallelle testen o =parallelvormmethode o Mar paralleltesten maken is niet eenvoudig. De items moeten gelijkwaardig zijn maar mogen
niet identiek zijn
Poging 2: een test is parallel aan zichzelf o Bij twee afnames van dezelfde test geldt dat de betrouwbaarheid gelijk is aan de correlatie
tussen de scores op de twee testmomenten o =test hertest methode o Werkwijze
'
''
)1(1 XX
XXKK
rK
Krr
'
''
)1(1 XX
XXKK
rK
Krr
)1(
)1(
''
'
KKXX
XXKK
rr
rrK
IIIXX XXrr ,'
45
Neem dezelfde tests af bij een grote groep representatieve personen met een zeker tijdsinterval tussen de afnames
Bereken de correlatie tussen de geobserveerde scores op de twee afnames van dezelfde test
Dit is de schatting van de betrouwbaarheid van elk van deze tests o Voordeel: je moet geen moeite doen om de parallel test te maken o Maar een test is alleen parallel aan zichzelf als de test exact dezelfde condities wordt
afgenomen Dit is bijna altijd onmogelijk bij psychologische testen (bv. leereffecten, motivatie
effecten,…) + hoe groot moet het tijdsinterval zijn tussen de twee afnames?
Poging 3: als we een test in twee gelijke delen splitsen, dan zijn deze testdelen misschien parallel aan elkaar o De betrouwbarheid van de halve test: o En de betrouwbaarheid van de hele test (via spearman brown met K=2): o = splitsingsmethode o Werkwijze: Neem de volledige test één keer af bij een grote representatieve groep personen Verdeel de test in twee helften met gelijk aantal items, en bereken voor iedere persoon
voor beide helften de test score (D1 en D2) Bereken de correlatie tussen de scores op helft 1 en de scores op helft 2 Corrigeer deze correlatie (= de betrouwbarheid van de halve test) om de
betrouwbaarheid van de hele test te schatten o Voorbeeld zie slides o Voordeel:
Je hebt slecht 1 test nodig: simple Er is slechts 1 afname nodig: geen geheugen of leereffecten
o Maar in de praktijk is het moeilijk om een test in echt parallelle helften te splisen o Verschillende splitsingen kunnen leiden tot andere betrouwbaarheden
Poging 4: neem het gemiddelde over alle mogelijke splitsingsbetrouwbaarheden o : Chronbach’s alpha
o
Met Yg= score op item G K= het aantal items in de test
o Voordeel: Je hebt slechts 1 test nodig Er is slechts 1 afname nodig Geen arbitraire splitsing in delen nodig
o Chronbach’s alpha is enkel gelijk aan de betrouwbaarheid als de items equivalente tests zijn, maar dat is vaak niet het geval
o Als de items niet equivalent zijn kan aangetoond worden dat rxx’ ≥α o Dus α kan het best gezien worden als de ondergrens van de betrouwbaarheid
11. betrouwbaarheid en validiteit
Wat is het effect van een verlening van een test met score X op de validiteit o rK(X,Y) = r(X,Y) √rKK’/rXX’
rK(X,Y)= de validiteit van de verlengde test r(X,Y)= validiteit van de oorspronkelijke test
o de validiteit neemt veel minder snel toe dan de betrouwbaarheid als gevolg van testverlenging
21' , DDrrDD
'
''
1
2
DD
DDXX
r
rr
XS
,YYS
k
k hg hg
21
46
o een hoge betrouwbaarheid is een noodzakelijke maat geen voldoende voorwaarde voor een goede validiteit
o als K oneindig is dan is rkk’=1 en X= Tx
geeft de maximale validiteit bij een testverlening tot oneindig + geeft de validiteit die we zouden gevonden hebben als X zonder meetfout werd
vastgesteld o Wat is de validiteit die we zouden gevonden hebben als X en Y zonder meetfout werden
vastgesteld?
Eerste term: de correlatie tussen de betrouwbare scores van X en Y Boven breuk: de correlatie tussen de geobserveerde scores van X en Y Onder breuk: de betrouwbaarheidscoëfficiënten van de testen die X en Y opleveren = correctie voor attenuatie (voorbeelden zie slides)
item respons theorie
1.inleiding
Van feitelijk manifeste variabelen naar concreet latente variabelen: nauwkeurigheid o Hoe zeker zijn we van onze schattingen
de klassieke testtheorie is zo goed als volledig vastgelegd. Ze wordt nog steeds veel gebruikt, maar er zijn een aantal problemen aan verbonden
de nieuwe psychometrie werd ontwikkeld in de jaren ’60, vond pas ingang in de jaren ‘80 o ze wordt vooral gehanteerd in de onderwijskunde o nog niet echt in de psychologie/ psychodiagnostiek o vooral bekend als item respons theorie (IRT) maar ook als latente trek theorie
2. tekortkomingen klassieke testtheorie
de betekenis van data hangt af van de schaal/ het meetniveau
het is niet duidelijk welke aspecten van de testscore we serieus mogen nemen (rangorde, grootte van verschillen, grootte van verhoudingen)
het is niet duidelijke welke betekenis we kunnen toekennen aan de testscores
betrouwbare scores kunnen enkel zinvol vergeleken worden als de personen exact dezelfde test gekregen hebben
oplossing o de nieuwe psychometrie stapt af van betrouwbare testscores maar wil de
vaardigheidsvariabelen bepalen
3. Guttman schaal
bv. rekentest met 5 items o items worden dichotoom gescoord: 1=juist / 0= fout o per persoon per item krijg je een score o we kunnen de personen ordenen op een schaal naarmate ze vaardigheid beheersen (dus:
van minst juiste antwoorden naar persoon met meeste juiste antwoorden) o items kunnen geordend worden naar moeilijkheidsgraad (van het vaakst juist beantwoord
naar het minst vaak juist beantwoord) o de moeilijkheidsgraad van de items en de vaardigheid van persoon kunnen geïntegreerd
worden in 1 schaal
interpretatie
47
o een persoon maakt een bepaald item zeker juist als zijn positie op de schaal rechts ligt van het item
o een persoon maakt een item zeker fout als zijn positie op de schaal links ligt van het item o een item wordt altijd correct beantwoord door alle personen wiens positie rechts van het
item ligt o een item wordt altijd fout beantwoord door alle personen wiens positie links van het item
ligt
cruciale idee: dus personen en items worden op één as gesitueerd, gebaseerd op o de vaardigheid van de persoon o de moeilijkheid van het item
itemrespons functie (IRF) o grafische voorstelling van de moeilijkheidsgraad voor 1 bepaald item
o X-as: vaardigheid die vereist is om een item op te lossen o Y-as correct antwoord (kan enkel waarde 0 of 1 aannemen) o Tot een bepaalde vaardigheid zal het item altijd fout beantwoord worden o Drempel= de plaats waar de grafiek overspringt van 0 naar 1
=moeilijkheidsgraad van het item Hoe moeilijker het item, hoe verder de drempel ligt op de X-as Geeft aan hoeveel vaardigheid je moet hebben om het item goed te beantwoorden
o Interpretatie Persoon maakt een item zeker juist als zijn positie rechts op de schaal ligt Persoon maakt item zeker fout als zijn positie links op de schaal ligt Een item wordt altijd correct beantwoord door alle personen die rechts van de
drempel liggen Een item wordt altijd fout beantwoord door alle personen die links van het item liggen
Guttman IRF is deterministisch o Het antwoord is altijd juist als de vaardigheid een bepaalde drempel overschrijdt o Het antwoord is altijd fout als de vaardigheid kleiner is dan de drempel
Guttman IRF is discontinu: er is een sprong op de drempelwaarde
De Guttman schaal is echter niet toepasbaar op alle data o We moeten rekening houden met het toevalaspect bij het beantwoorden van het item
KTT: meetfout toevoegen IRT: antwoord probalistisch maken (naar kans kijken)
o We maken een nieuwe schaal, de RASCH schaal, uitgaande van een probalistisch model
4. uitgangspunten
We kijken naar een score op een specifiek item, niet naar de hele test (persoon- item combinatie) o Bij KTT wordt er naar de hele test gekeken
Item en personen worden op eenzelfde schaal geplaatst
De schaal is gebaseerd op de vaardigheid van de persoon en de moeilijkheid van het item
De kans op een juist antwoord wordt nooit kleiner wanneer de vaardigheid toeneemt
48
Doordat het vooral ontwikkeld is in onderwijskunde, spreken we vooral over vaardigheden, moeilijkheden, correcte en foute antwoorden
Correcte en foute antwoorden kunnen vertaald worden als ‘wel’ en ‘niet’ van toepassing of ‘mee eens’ /’mee oneens’
Een vaardigheid kan vertaald worden naar persoonlijkheidstrekken, waarden, sterkte van symptomen,…
Een moeilijkheid kan gezien worden als ernst/hevigheid van het item, evocatiegraad,…
5. Rasch schaal
We gaan niet meer kijken naar de correcte antwoorden voor een item, maar we kijken naar de kans op een correct antwoord op dat item
=succeskans: monotoon stijgende functie van de vaardigheid o Hoe groter je vaardigheid, hoe groter de kans dat je juist antwoord
Itemresponsfunctie
o X-as: vaardigheid o Y-as: kans op een correct antwoord o Glijdende functie: geen sprong tussen nul en één o 0 en 1 zijn de limieten
Personen met een heel kleine vaardigheid zullen zo goed als zeker fout antwoorden Personen met een grote vaardigheid zullen zo goed als zeker juist antwoorden
o Drempel: de waarde van de vaardigheid die overeenkomt met een kans van 0.5 Geeft meest waarschijnlijke antwoord aan Komt overeen met de moeilijkheidsgraad van het item
Hoe meer de drempel naar rechts ligt, hoe moeilijker het item o Interpretatie
Een persoon heeft een kans op een bepaald item goed te beantwoorden Hoe meer zijn positie op de schaal naar rechts ligt, hoe groter de kans op een juist
antwoord Een item wordt meestal correct beantwoord door personen wiens positie recht van de
drempel ligt Een item wordt meestal fout beantwoord door personen wiens positie links op de
drempel ligt
Rasch IRf is stochastisch: niet alle kansen zijn 0 of 1 o Het antwoord is niet altijd juist als de vaardigheid een bepaalde drempel overschrijft o Het antwoord niet altijd fout als de vaardigheid kleiner is dan de drempel
Rasch IRF is continu: er is geen sprong op de drempelwaarde
6. kansverhouding
= kans op succes delen door kans op mislukking
Kansverhouding=odds=O
O= P(succes)/P(misslukking) = P(succes)/[1-P(succes)]
1= P(succes)+P(misslukking)
Bv. odds op succes: O.8/0.2=4 voor elke mislukking zijn er 4 successen
49
Dus: 0 ≤ P ≤ 1
En 0 ≤ O ≤ ∞
Een kans van 0.5 komt overeen met een odd van 1
7. het Rasch model
Persoon- item combinatie
Xip= het antwoord van persoon p op item i
Elke persoon heeft voor elk item een kans om dat item correct te beantwoorden
P(Xip=1) = kans dat persoon p een goed antwoord geeft op item i
P(Xip=0) = 1 - P(Xip=1)
Interpretatie van P(Xip=1) o Proportie goede antwoorden als item i heel vaak aan persoon p wordt aangeboden zonder
dat er leer of geheugeneffecten zijn Praktisch is dit niet zinvol
o Proportie van personen uit een grote groep met dezelfde vaardigheid als persoon p die een goed antwoord geeft op item i Hoe ga je personen met eenzelfde vaardigheid vinden?
o Het valt dus niet zomaar vast te stellen
Kansverhouding (odds) voor een persoon-item combinatie
o o Op basis van kanstabel van succes kan je kansverhoudingstabel maken (+ omgekeerd)
Volgens Rasch geldt dat:
o = o Basisformule van het model o Kansverhouding van persoon op item o Het vaardigheidspeil van een persoon en moeilijkheidspeil van een item worden expliciet
uit elkaar gehaald o kansverhouding stijgt als ξ stijgt (en ε constant)
kans op een goed antwoord neemt toe naarmate de persoon vaardiger is o kansverhouding stijgt als ε daalt (en ξ constant)
kans op goed antwoord stijgt als moeilijkheidsgraad item daalt
pi
p
i
p
i
p
ip
ipip
O
OXP
)1/(
1)1(
speciale gevallen o als de vaardigheid van de persoon gelijk is aan de moeilijkheidsgraad van het item
Oip = 1
)0(
)1(
ip
ipip
XP
XPO
50
Dus P(Xip=1) = 0.5 = P(Xip=0) o Als vaardigheid van de persoon groter is dan de moeilijkheidsgraad van het item
Oip>1 P(Xip=1) > 0.5 > P(Xip=0)
o Als vaardigheid van persoon kleiner is dan de moeilijkheidsgraad van het item Oip < 1 P(Xip=1) < 0.5 < P(Xip = 0)
o Als vaardigheid van persoon ∞ is Oip = ∞ P(Xip =1) = 1 en P(Xip=0) = 0 Onafhankelijk van de moeilijkheidsgraad van het item Dus het model veronderstelt dat de kans om een item fout te beantwoorden bijna
onmogelijk is voor personen die de onderliggende vaardigheid in zeer grote mate bezitten
o Als vaardigheid van persoon nul is Oip = 0 P(Xip = 1) = 0 en P(Xip=0) = 1 Onafhankelijk van de moeilijkheidsgraad van het item Dus het model veronderstelt dat de kans om een item juist te beantwoorden quasi
onbestaande is voor personen die de onderliggende vaardigheid in zeer geringe mate bezitten
o Als moeilijkheid van item ∞ is Oip = 0 P(Xip=1)=0 en P(Xip=0)=1 Onafhankelijk van de vaardigheid van persoon Dus het model veronderstelt dat de kans om een item juist te beantwoorden quasi
onbestaande is voor items die zeer moeilijk zijn o Als moeilijk van het item 0 is
Oip = ∞ P(Xip=1) =1 en P(Xip=0) = 0 Onafhankelijk van de vaardigheid van persoon Het model verondersteld dus dat de kans om een item fout te beantwoorden quasi
onbestaande is voor items die zeer makkelijk zijn
Voorbeelden op oddstabel en kans tabel te maken zie slides 60 en 61
Het vaststellen van de latente variabele= vaardigheidsniveauparameter van een persoon berekenen o Berekenen is in feite schatten op basis van de itemantwoorden van die persoon
(testgegevens) o Personen worden op een schaal uitgezet o In principe kan je data schatten, in praktijk is dit moeilijker
Hoe moeilijker item, hoe meer de grafiek opschuift naar rechts (vorm blijft gelijk)
51
Testen E en A zijn redelijk makkelijk (lage drempel) testen D en E moeilijk (hoge drempel)
Lijnen representeren de geschatte waarde voor elke persoon o Persoon 1 en 2 hebben een redelijke kans om E en a op te lossen, bijna geen kans om de
andere items op te lossen o Persoon 4 heeft redelijke kans om E, A en C op te lossen, kleine kans om B en C op te lossen o Persoon 5 en 6 hebben redelijke kans om alle items goed op te lossen
Kan ook op een lijn uitgezet worden
o o Persoon 3 heeft een grote kans om E en A correct te beantwoorden, geringe kans op C,D en
B correct te beantwoorden
Het maakt niet uit welke concrete items de personen juist beantwoorden om de vaardigheid te bepalen
Het maakt ook niet uit door welke personen de items juist worden beantwoord
Er is een sterk positieve relatie tussen de vaardigheid en de geschatte betrouwbare score
Waarom al deze moeite gedaan o We hebben zicht op de schaaleigenschappen (niet bij KTT) o We kunnen uitspraken doen over vaardigheid die onafhankelijk zijn van de moeilijkheid van
de items (niet bij KTT) o We kunnen nagaan of het model steek houdt o We kunnen een standaardschattingsfout bepalen die niet constant is voor elke waarde van
de latente variabele
7.1 alternatieve formulering van Rasch model
Verhoudingsversie
o
o
Verschilversie
o
o o Met exp(X)= eX o ξ = exp(θ) o ln(ξ) = θ o ε = exp(δ) o ln(ε) = δ
beide versies zijn volledig equivalent
de parameterwaardes uit de ene versie kunnen omgezet worden naar de parameterwaardes uit de tweede versie, zonder effect op de kans(verhouding)en o bv. zie slides
52
8. Schaaleigenschappen van het Rasch model
de toegestane transformaties zijn verschillend voor de verhoudingsversie en de verschilversie van het model
verhoudingsversie o een vermenigvuldiging met een constante levert dezelfde kansen en kansverhoudingen op o parameter waarden blijven gelijk na vermenigvuldiging met een constante o voor een willekeurig getal b geldt:
o Uit de formule valt af te leiden dat een multiplicatieve transformatie toegestaan is [f(x)=bx] o Rasch schaal kan dus gezien worden als een verhoudingsschaal waarbij de verhoudingen
tussen de vaardigheden betekenis hebben maar de verschillen niet o ! de verhoudingen volgen niet enkel uit de data (getallen) die gegeven zijn. het volgt uit de
getallen gegeven het feit dat het om een verhoudingsschaal gaat o Er mag enkel iets gezegd worden over de gemeten eigenschap (de concreet latente
variabele) en niet over de abstracte latente variabele Dus hier kan je uitspraken doen over verhoudingen van vaardigheden, maar
bijvoorbeeld niet over verhoudingen van intelligentie o De verhoudingen tussen de vaardigheden moeten we begrijpen in relatie tot de
kansverhouding Uit volgt dat Dus de verhouding van twee kansverhoudingen is gelijk aan de verhouding van de
vaardigheden tussen twee personen (de verhouding van de vaardigheden zegt iets over de verhouding van de kansverhoudingen)
Deze relatie geldt voor eender welk item De verhoudingen tussen de vaardigheden hebben dus betekenis los van de items
Verschilversie o Parameterwaarden veranderen niet nadat er een constante bij opgeteld is o Voor een willekeurig getal a geldt
o Uit de formule valt af te leiden dat een additieve transformatie toegestaan is [f(x)=x+a] o De Rasch schaal is hier dus een verschilschaal waarbij de verschillen tussen vaardigheden
een betekenis hebben maar de verhoudingen niet
dus de twee versie zijn equivalent, maar verschillen in hun toegestane meetniveaus
9. populatie onafhankelijk meten
Rasch model: de meetwaarde, verkregen met een makkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkere test gemaakt heeft
Wanneer alle items op dezelfde schaal liggen, dan kunnen de testprestaties van personen die verschillende testen afnamen met een andere moeilijkheidsgraad voor eenzelfde eigenschap, toch vergeleken worden
In KTT zouden we personen die een andere test afnamen niet kunnen vergelijken
Met het Rasch model gaat dit wel, maar niet rechtstreeks. We moeten eerst de items van beide testen op dezelfde schaal leggen o We stellen eerst een andere test om die zowel items van de eerste als de tweede test bevat o Vanuit deze schaal afleiden door som en verschil te nemen met de andere items van de
oorspronkelijke test waardoor zo één gemeenschappelijke schaal bekomen wordt
i
p
i
pip
b
bO
))()exp(()exp( aaO ipipip
i
pipO
q
p
iq
ip
O
O
53
o Als persoon 1 op test 1 een teta haalt van -1.5 wordt dit op test 3 een waarde van 1 o Als persoon 2 op test 2 een teta haalt van 1.5, wordt dit op test 3 een waarde van -1
Vaak krijgen modellen steun (dus wordt er evidentie voor gevonden) als de empirische data er goed bij passen
De redenen waarom we Rasch gebruiken zijn niet empirisch maar epistemologisch o Het model kan waardevolle dingen die andere modellen niet kunnen o Het Rasch model impliceert invariant comparision
the] comparison between two individuals should be independent of which particular stimuli within the class considered were instrumental for the comparison; and it should also be independent of which other individuals were also compared, on the same or some other occasion
10. nauwkeurigheid van de schatting
KTT: nauwkeurigheid van de meetresultaten = nauwkeurigheid waarmee de ware scores worden geschat o S(T-T^) o Elke schatting van T is even (on)nauwkeurig: dus elke schatting heeft zelfde schattingsfout o En de nauwkeurigheid is voor iedereen gelijk
Is het wel realistisch dat de nauwkeurigheid gelijk blijft? o Bv. als we een hele moeilijke test wiskunde hebben en iedereen scoort er ondermaat op.
Dan weten we dat de vaardigheid van iedereen tekort schoot maar we kunnen niets zeggen over de waarden die de vaardigheid aanneemt (idem met een te makkelijke test)
Niet elke test/ elk item geeft evenveel informatie over iemands vaardigheid o Item die te makkelijk/moeilijk zijn, geven niet veel info o De hoeveelheid info hangt af van het vaardigheidsniveau en de moeilijkheidsgraad o De hoeveelheid info wordt uitgedrukt in informatiefunctie
Iteminformatiefunctie: hoeveelheid informatie voor elk item afzonderlijk Testinformatiefunctie: soms van iteminformatiefuncties. Dus info over hele test
Een item levert maximale info op als de kans op succes 0.5 is o Deze kans maakt dat de uitkomst zeer onvoorspelbaar is o Dus de observatie van de uitkomst levert dan veel informatie op o Een item levert dus maximale info op als de waarde van de vaardigheid even groot is als de
waarde van de moeilijkheid
Het maximum van de informatie bevindt zich op de plaatsen van de moeilijkheid (figuur 7.8) o Op deze grafiek zien we dat er veel info verkregen wordt door de test bij een vaardigheid
van rond de nul. Maar weinig info voor vaardigheid van rond de -4
Als je informatie wil verkrijgen over mensen met verschillende niveaus van vaardigheid, moet je item toevoegen aan de test met verschillende moeilijkheid
Rasch: nauwkeurigheid van meetresultaten: nauwkeurigheid waarmee vaardigheidsparameter geschat wordt
54
o Dit gebeurt op basis van de hoeveelheid informatie waarop de parameterschatting gebaseerd is
o Hoe meer informatie een test of een item oplevert, hoe nauwkeuriger de meting is o Elke schatting van teta kan een andere nauwkeurigheid hebben! o De nauwkeurigheid wordt afzonderlijk berekend per waarde van het vaardigheidspeil. o De ene persoon kan dus met dezelfde test nauwkeuriger gemeten worden dan de andere
In de vooropgestelde visuele voorstelling (lijnstuk met personen en items op geplaats) wordt geen rekening gehouden om de zekerheid van de schatting aan te geven o Om de illusie van zekerheid te doorbreken, kunnen we het BI bepalen o Deze wordt bepaald door de iteminformatiefunctie o Hoe kleiner het BI, hoe nauwkeuriger de schatting o Nauwkeurigheid verschilt per geschatte waarde o Als de BI overlappen, dan is het item niet nauwkeurig om een onderscheid te maken tussen
de personen
11. Testen van het Rasch model
Als het model niet juist is, dan kunnen we de parameterwaarden niet schatten en zijn ze niet bruikbaar o We kunnen de parameters niet zinvol interpreteren o En er kan dus ook niet zinvol gemeten worden
Het is van belang na te gaan of aan de veronderstellingen van het model voldaan zijn, voor elke persoon afzonderlijk o Kan gebeuren via statistische toets, maar een zeer technische en ingewikkelde
aangelegenheid
! de geldigheid van het Rasch model mag nooit a priori worden aangenomen en moet steeds empirisch worden nagegaan
Als we alle moeilijkheden en vaardigheden geschat hebben, kunnen we voor elke item-persoon combinatie een kans op een correct antwoord berekenen o Als de kans op een correct antwoord hoog (>0.5) is en het antwoord is toch fout, dan is er
iets vreemd aan de hand o Als de kans op een correct antwoord laag (<0.5) is en het antwoord toch juist, dan is er iets
vreemd aan de hand o Visuele voorstelling zie slides
Als het model niet alle data goed kan reproduceren, past het niet bij de data en is het dus niet geldig o Subjectief aspect: hoeveel moet er fout zijn om het model te verwerpen
12. Redenen waarom Rasch niet voldoet
Het bestuderen van de redenen waarom het Raschmodel al dan niet voldoet kan bijvoorbeeld door te kijken naar verschillende item-respons functies
12.1 schending van unidimensionaliteit van personen
Rasch gaat ervan uit dat: o Alle items in de toets dezelfde vaardigheid meten o Een testresultaat slechts door één latente variabele bepaald wordt o Geen enkele andere eigenschap van de te meten personen een systematische invloed op de
antwoorden uitoefent o er is per persoon dus maar 1 persoonsparameter
MAAR het antwoord op de vragen kan bepaald worden door meerdere dimensies o Bv. een rekentest zou naast rekenvaardigheid ook een taalvaardigheid kunnen vereisen
55
Dit is vooral een probleem als de tweede dimensie ( datgene wat we niet willen meten) systematisch samenhangt met de groep waartoe men behoort vraagonzuiverheid/item bias/ differential item functioning (DIF)
Zuiver item: personen van een gelijke vaardigheid hebben dezelfde kans om een vraag goed te maken en halen dus dezelfde score. o Personen uit andere groepen kunnen (en moeten) andere scores krijgen als de vaardigheid
ongelijk verdeeld is naar afkomst, geslacht, sociale achtergrond,… o Rasch gaat uit van zuivere items
12.2 schending van limieten
Rasch gaat ervan uit dat bij zeer kleine vaardigheden de kans op een correct antwoord nul is
Maar bij gokken of spieken wordt deze kans groter, zelfs als de vaardigheid zeer klein is
Bv. gokken bij meerkeuze examen: kans van 0.25 op goed antwoord bij lage vaardigheid
12.3 schending van monotoniciteit
Rasch gaat ervan uit dat de item-responsfunctie monotoon stijgend is met de vaardigheid o Dus hoe hoger de vaardigheid, hoe hoger de kans
Al blijkt dit niet altijd het geval te zijn
IRF’s die niet stijgen komen vaak voor bij attituden bv. ‘vindt u di rupo een goede premier’ o De vaardigheid kan hier vertaald worden als de positie op het links-rechts continuüm
12.4 schending van unidimensionaliteit van item
Rasch gaat er van uit dat items maar op één dimensie verschillen, namelijk de moeilijkheid
er is per item maar één itemparameter
Maar items verschillen soms op meer dan enkel de moeilijkheidsgraad o Bv. ze kunnen verschillen in hun steilheid of in de discriminatiewaarden van de
verschillende items (hoe groter verschil tussen kansen van een zelfde item, hoe groter de discriminatieve waarde)
13. mogelijke acties als het Rasch model niet voldoet
Mogelijkheid 1: een nieuw model gebruiken o We zijn van Guttman schaal naar Rasch gegaan en kunnen zo ook naar een nieuw model gaan
dat bv. gokken of andere discriminatiewaarden toelaat o Maar het gevaar is dat interessante meeteigenschappen verloren gaan o Deze methoden wordt meestal in Amerika gehanteerd o We beschouwen dus de werkelijkheid als gegeven en zoeken een model dat bij de
werkelijkheid past
Mogelijkheid 2: nieuwe data gebruiken o Items verwijderen
Kan validiteit in gedrang brengen o Personen verwijderen
Kan generaliseerbaarheid naar populatie van personen in gedrag brengen o Testomstandigheden aanpassen (bv. minder tijdsdruk) o Test opsplitsen, deelschalen maken (als unidimensionaliteit geschonden is) o Een nieuwe test maken o Wordt meestal in EU gehanteerd o We beschouwen het model als gegeven en zoeken een werkelijkheid die bij de data past
(enkel data die aan het Rasch model voldoen kunnen aanleiding geven tot zinvol meten)
Beide methoden zijn een epistemologische keuze
56
14. vergelijking Rasch- KTT
RASCH KTT Meetmodel stelt strenge eisen Meetmodel stelt minder strenge eisen
Moeilijk om data te verzamelen die aan het model voldoen
Makkelijke om data te verzamelen die aan het model voldoen
Houdbaarheid van het model is testbaar, dus er is empirisch na te gaan of meten zinvol is (meten per implicatie)een meetniveau volgt uit het model. Er kan onderzocht worden of het model goed past bij gegevens.
Als het model opgaat, kennen we het meetniveau (meten per fiat) verondersteld een bepaald meetniveau wat niet kan gecontroleerd/aangetoond worden. De eigenschappen moeten aangenomen worden
Personen kunnen zinvol gemeten worden met verschillende test voor dezelfde eigenschap, zelfs als andere moeilijkheidsgraad
Meetfout voor elke meetwaarde afzonderlijk Meetfout voor alle meetwaardes dezelfde
Het model moet passen om zinvol te kunnen meten. Je moet dus goede data hebben.
Veel data nodig voor nauwkeurige schattingen te bekomen (voor schatten itemparameters)
Veel data nodig voor nauwkeurige schattingen te bekomen (om betrouwbaarheid te bepalen)
Minder eenvoudig/toegankelijk Eenvoudiger/toegankelijker
Minder bekend Bekender en dus makkelijker om over te rapporteren