cursus statistiek

21
Statistiek Toegepaste Wetenschappen bachelor grafische en digitale media academiejaar 2008 - 2009 semester 1 Lector : Ing. Patrick Van Houtven [email protected] T +32 3 000 00 00

Transcript of cursus statistiek

StatistiekToegepaste Wetenschappenbachelor grafische en digitale media academiejaar 2008 - 2009 semester 1 Lector : Ing. Patrick Van Houtven [email protected] T +32 3 000 00 00

Inhoud Statistiek 2 1 Verzamelen, ordenen en voorstellen van gegevens1.1 1.21.2.1 1.2.2 1.2.3

22 55 6 7

Ordenen van informatie Grafische voorstelling van gegevensFrequentiediagrammen Frequentiediagrammen met ongelijke klassebreedte Tijdreeksgrafieken

22.12.1.1 2.1.2

Berekening van kengetallenKengetallen aangaande de centrale tendensDe mediaan (Me) De modus

777 13

artesis Statstiek

p 1 / 20

Statistiek1 Verzamelen, ordenen en voorstellen van gegevensBij het beantwoorden van een vraag op een examen ben je misschien gewend om zo veel mogelijk op te schrijven over het onderwerp. Je hoopt dat de lector het goede eruit zal halen en het overbodige niet als fout zal aanrekenen. Meestal hanteert de student het principe dat als hij maar genoeg opschrijft het wel goed zal zitten. Met die werkwijze kan je een schoolexamen misschien goed afleggen maar geeft je geen garantie dat het ook goed afloopt in je latere beroepsleven. Daar zal men doorgaans van je verlangen dat je doet wat is afgesproken of is opgedragen. Aan opschrijven wat je zomaar te binnen schiet tijdens het verwerken van je opdracht heb je niets. Het gaat er om enkel te antwoorden op het gevraagde en niet meer dan dat. Per opdracht /vraag zal je meestal meer dan n bron moeten bestuderen. Je kan best op volgende wijze handelen: Verzamel gegevens per bron Voeg daarna de gegevens samen die bij elkaar horen Vermeld van wie of waaruit je de informatie hebt

Een bron is meestal opgesteld vanuit een bepaald perspectief. De informatie van een bepaalde bron kan soms over alle te onderzoeken variabelen handelen, soms slechts over een gedeelte. Een variabele is een eigenschap of een karakteristiek van de te onderzoeken objecten. Voor offsetpersen kan een variabele bijvoorbeeld zijn de oplage die per uur gehaald kan worden. Beschik je slechts over informatie over een gedeelte van alle te onderzoeken elementen, dan is het van belang om de representatie van deze beperkte groep elementen na te gaan ten opzichte van de ganse groep. Maak je een statische studie over alle rotatiepersen en je bron heeft enkel informatie over offsetpersen dan kan je de bevindingen moeilijk voor alle rotatiepersen stellen. Naast offsetpersen bestaan er ook flexopersen die deel uitmaken van de groep rotatiepersen. Niet alle bevindingen voor offsetpersen gelden voor flexopersen en omgekeerd. Bijgevolg is je bron niet representatief genoeg voor je conclusies. Beperkt je onderzoek zich enkel over offsetpersen en je bronnen geven je informatie over bijvoorbeeld 30% van alle te onderzoeken offsetpersen , dan kan je informatie wel representatief zijn voor de ganse groep offsetpersen. Wanneer je onderzoek de totale verzameling omvat en deze kan afgebakend worden naar tijd, plaats en inhoud dan spreekt men over de populatie. Omvat jouw verzameling slecht een deel van de totale populatie, dan spreekt men van een steekproef.

1.1

Ordenen van informatie

Wat doe je zoal bij het ordenen van informatie? Je kan de informatie indelen in categorien. Dit houdt in dat je de informatie binnen elke deelvraag in een bepaalde categorie indeelt. Bijvoorbeeld naar tijd, gebied, thema, . Zo kan je een onderzoek verrichten naar klachten die een bepaalde uitgeverij ontvangt aangaande kwaliteit van boeken, facturatie, . Je kan dan je verzameling variabelen ordenen in categorien die de aard van de klacht omschrijven. Een categorie kan bijvoorbeeld weergeven hoeveel klachten er zijn over overdreven facturatie. Een andere categorie vertelt je hoeveel klachten er waren over laattijdige leveringen, Een andere manier van ordenen van je gegevens is ze ordenen volgens een bepaalde rangvolgorde. Zo kan je de informatie ordenen in verschillen van grootte, gewicht, Gegevens kunnen een continu verloop hebben of juist discontinu zijn. Een continu verloop houdt in dat we te maken hebben met rele getallen. De verzameling is overaftelbaar. Denk bijvoorbeeld aan een onderzoek naar het gewicht van bepaalde personen. Tussen bijvoorbeeld 50

artesis Statstiek

p 2 / 20

kg en 51 kg krijg je nog een continu verloop van 1000 gr. Bij een discontinu verloop hebben we bijvoorbeeld enkel te maken met gehele getallen zoals het aantal kinderen, het aantal keren gooien met een munt, .Een discontinue verzameling bevat een eindig aantal of een aftelbaar eindig aantal uitkomsten. In de praktijk worden continue waarden meestal afgerond zodat ze ook als discontinue waarden kunnen voorgesteld worden. Zo kunnen alle gewichtnotaties tussen 49,5 kg en 50,49 kg als 50 kg worden genoteerd. Waarom is ordenen nu zo belangrijk? Wel het geeft ons een overzicht van de begrippen, kenmerken, oorzaken, argumenten (voor of tegen), die een rol spelen bij elke deelvraag. Door een bepaalde volgorde of rangorde aan te brengen in de aangeleverde informatie verkrijg je inzicht in de samenhang en/of verbanden van de variabelen in je onderzoek. Om een goede ordening te bekomen begin je met de informatie per deelvraag overzichtelijk in categorien in te delen. De categorien zijn op een duidelijke en voor de hand liggende manier gerangschikt. Doe je een onderzoek naar de lengte van de eerstejaarsstudenten, dan kan je de lengtes onderverdelen in categorien zoals een categorie minder dan 1,50m, van 1,51 m tot 1,60 m, van 1,61 m tot 1,70 m , Hoe gaat het ordenen in zijn werk? Eerst ga je de gevonden informatie correct ordenen naar deelvraag. Daarna onderscheid je binnen elke deelvraag categorien. Zulk een categorie wordt statistisch meestal een klasse genoemd. Je kan een deelvraag bijvoorbeeld indelen naar thema (zoals begrippen, kenmerken, ontwikkelingen, oorzaken/gevolgen. Een andere mogelijkheid is dat je de deelvraag indeelt in tijd (chronologie of periodes) of in gebied (waar heeft iets plaatsgevonden?) Eens de informatie in ingedeeld is in klasses, plaats je ze vervolgens in een bepaalde rang- of volgorde. Zo kan je de gegevens ordenen van klein naar groot. Een andere mogeliijkheid is een indeling in oorzaak en gevolgen, van jong naar oud, van belangrijk naar onbelangrijk, Concreet gaat het ordenen van gegevens in zijn werk in het opstellen van tabellen die de informatie op een overzichtelijke wijze voorstellen. Vertrekkend van de verzamelde gegevens worden volgende stappen ondernomen: 1. 2. 3. Bepaal de grootste en de kleinste waarde: Xmax en Xmin Bereken het verschil of range: Xmax - Xmin. Is bij discrete kenmerken de range klein dan wordt er geen klasse-indeling gemaakt. In de andere gevallen moet een klassebreedte bepaalt worden. De breedte van de klasses worden meestal ingesteld via veelvouden van 3,5 of 10 naargelang de grootte van de range. Een andere vuistregel bestaat erin de integer van de vierkantswortel van het aantal elementen van de populatie of steekproef als klasse-aantal te nemen. Het aantal klasses (en bijgevolg ook de klassebreedte) worden in dit geval bekomen door de range te delen door de gevonden integer. 4. Bepaal de exacte klassegrenzen.Let op het feit dat de klassegrenzen niet mogen samenvallen met de gevonden variabelen. Indien dit wel zo zou zijn, kan een bepaalde variabele ondergebracht worden in twee klassen. Stel bijvoorbeeld dat je lengtes onderzoekt en een klassegrens hebt op 1,55 m. Dit betekent dat iedere persoon die een lengte heeft van 1,55 m zowel in de klasse 1,55m -1,65m kan gerekend worden als in de klassen 1,45m 1,55m. Een betere keuze zou in dit geval zijn : klassegrens op 1,549 m of 1,545 m. Dit laatste natuurlijk op voorwaarde dat de lengtes tot 1 cm nauwkeurig zijn opgegeven. Merk tenslotte op dat de laagste klassegrens lager moet zijn dan Xmin en de hoogste klassegrens hoger moet zijn dan Xmax.

artesis Statstiek

p 3 / 20

5.

Bepalen van het klassemidden. Dit kan gevonden worden via de benedengrens van de klasse plus de helft van het interval of via volgende formule: + 2

6.

Tellen: aanduiden hoeveel variabelen in elke klasse voorkomen. Zo wordt de frequentie bekomen, meebepaalt de absolute frequentie.

Voorbeeld: Een examen bestaat uit 10 waar of vals vragen die elk op 1 punt worden gekwoteerd. Voor de 25 deelnemende studenten leverde dit het onderstaande resultaat op. 6 7 3 6 7 8 7 8 6 8 4 8 7 7 8 5 7 8 10 8 2 9 9 9 4

De examenresultaten zijn gehele getallen en de verzameling bevat een eindig aantal uitkomsten. Hieruit kunnen we besluiten dat de verzameling bestaat uit discrete waarden. Er is geen continu verloop tussen twee waarden vermits er per vraag n punt te verdienen was. De punten verschillen in gewicht van cijfer. We hebben te maken met kwantitatieve of numerische variabelen. Stap 1 houdt in dat we het de grootste en de kleinste waarde bepalen. De grootste waarde Xmax is gelijk aan 10 en de kleinste waarde Xmin is gelijk aan 2. De range in dit voorbeeld is gelijk aan 10 2 = 8. De volgende stap houdt in dat we de klassebreedte gaan bepalen en het aantal klasses. Vermits het gering aantal mogelijke uitkomsten (gaande van 0 tot 10) is een onderverdeling in klasses niet nodig. We hebben 11 klasses of categorien in ons voorbeeld. Iedere klasse stelt een mogelijke score voor. We gaan vervolgens de resultaten ordenen in deze 11 klasses. Dit doen we door de punten te ordenen van klein naar groot en daarbij het gevonden aantal te schrijven. We verkrijgen onderstaand resultaat: Xi 0 1 2 3 4 5 6 7 8 9 10 fi 0 0 1 1 2 1 3 6 7 3 1 25 rel fi 0 0 0,04 0,04 0,08 0,04 0,12 0,24 0,28 0,12 0,04 1 rel Fk 0 0 0,04 0,08 0,16 0,2 0,32 0,56 0,84 0,96 1

Xi stelt de verschillende variabelen voor die voorkomen tijdens het onderzoek. In dit voorbeeld zijn de variabelen de mogelijk behaalde punten gaande van 0 tot en met 10. De frequentie hoe dikwijls een bepaalde variabele voorkomt in het onderzoek wordt voorgesteld door fi. Zo komt de score 7 op het examen van 25 studenten 6 keer voor waardoor voor de variabele 7 fi gelijk is aan 6.

artesis Statstiek

p 4 / 20

De relatieve frequentie rel fi geeft het aandeel van het totaal der waarnemingen die in een bepaalde klasse vallen. De som van alle relatieve frequenties is gelijk aan 1 ofwel 100 %. Voor de variabele (klasse) met waarde 8 zijn 7 studenten van de 25 die deze score behaald hebben. Dit komt overeen met 0,28 of 28% van het totaal aantal waarnemingen. Om een overzicht te krijgen van het totaal aantal waarnemingen dat tot en met een bepaalde klasse is omvat, is het begrip cumulatieve relatieve frequentie (rel Fk) in het leven geroepen. Deze geeft het percentage van hoeveel gegevens zijn voorgekomen tot en met een bepaalde categorie of klasse. In het voorbeeld heeft 20% (0,2) van de deelgenomen studenten een score gehaald die 5 of lager was.

1.21.2.1

Grafische voorstelling van gegevensFrequentiediagrammen

Histogram Figuur 1 stelt een histogram voor van het in vorige paragraaf beschreven voorbeeld. Zoals je hierin ziet bestaat een histogram uit een aantal rechthoeken die begrensd zijn door de exacte klassegrenzen. De oppervlakte van een rechthoek is recht evenredig met de frequentie van een klasse.

Fig.1: Histogram van het aantal studenten van een klas dat een bepaalde score heeft gehaald op een test

Polygoon Een polygoon wordt bekomen door in de klassemidden (denkbeeldige) loodlijnen te tekenen waarvan de lengte overeenkomt met de hoogte van de klommen van het overeenkomstig histogram. Vervolgens worden de toppunten van de loodlijnen door middel van lijnstukken met elkaar verbonden. Bij dit verbinden raken het begin- en eindpunt van deze polygoon de horizontale as.

Fig.2: Polygoon van het aantal studenten van een klas dat een bepaalde score heeft gehaald op een test

artesis Statstiek

p 5 / 20

Frequentiecurve Deze curve is analoog aan de polygoon met dit verschil dat de toppunten door een vloeiende lijn worden verbonden.

Fig.3: frequentiecurve van het aantal studenten van een klas dat een bepaalde score heeft gehaald op een test

Cumulatieve frequentiepolygoon Deze geeft de cumulatieve frequentie fk weer. Ook hier wordt terug vertrokken van de toppunten van de loodlijnen op de klassecenters.

Fig.4: cummulatieve frequentiepolygoon (rel Fk)van het aantal studenten van een klas dat een bepaalde score heeft gehaald op een test

Andere Bijvoorbeeld een cirkeldiagram.

1.2.2

Frequentiediagrammen met ongelijke klassebreedte

Je moet oppassen als je gebruik maakt van ongelijke klassebreedten. Opdat de oppervlakte van de kolommen rechtevenredig zou zijn met de frequentie van de klassen, wordt gebruik gemaakt van de frequentiedichtheid in plaats van de absolute frequentie. De frequentiedichtheid vinden we door de verhouding te nemen van absolute frequentie fi over de klassebreedte Ci. Stel volgend voorbeeld ter verduidelijking. Een stadswijk bevat 100 gezinnen. Onderzoek in deze stadswijk aangaande het maandelijks bruto inkomen van de gezinnen die er wonen levert volgend resultaat op.

artesis Statstiek

p 6 / 20

Klasse