cursus statistiek

Click here to load reader

  • date post

    19-Jun-2015
  • Category

    Documents

  • view

    1.209
  • download

    7

Embed Size (px)

Transcript of cursus statistiek

StatistiekToegepaste Wetenschappenbachelor grafische en digitale media academiejaar 2008 - 2009 semester 1 Lector : Ing. Patrick Van Houtven [email protected] T +32 3 000 00 00

Inhoud Statistiek 2 1 Verzamelen, ordenen en voorstellen van gegevens1.1 1.21.2.1 1.2.2 1.2.3

22 55 6 7

Ordenen van informatie Grafische voorstelling van gegevensFrequentiediagrammen Frequentiediagrammen met ongelijke klassebreedte Tijdreeksgrafieken

22.12.1.1 2.1.2

Berekening van kengetallenKengetallen aangaande de centrale tendensDe mediaan (Me) De modus

777 13

artesis Statstiek

p 1 / 20

Statistiek1 Verzamelen, ordenen en voorstellen van gegevensBij het beantwoorden van een vraag op een examen ben je misschien gewend om zo veel mogelijk op te schrijven over het onderwerp. Je hoopt dat de lector het goede eruit zal halen en het overbodige niet als fout zal aanrekenen. Meestal hanteert de student het principe dat als hij maar genoeg opschrijft het wel goed zal zitten. Met die werkwijze kan je een schoolexamen misschien goed afleggen maar geeft je geen garantie dat het ook goed afloopt in je latere beroepsleven. Daar zal men doorgaans van je verlangen dat je doet wat is afgesproken of is opgedragen. Aan opschrijven wat je zomaar te binnen schiet tijdens het verwerken van je opdracht heb je niets. Het gaat er om enkel te antwoorden op het gevraagde en niet meer dan dat. Per opdracht /vraag zal je meestal meer dan n bron moeten bestuderen. Je kan best op volgende wijze handelen: Verzamel gegevens per bron Voeg daarna de gegevens samen die bij elkaar horen Vermeld van wie of waaruit je de informatie hebt

Een bron is meestal opgesteld vanuit een bepaald perspectief. De informatie van een bepaalde bron kan soms over alle te onderzoeken variabelen handelen, soms slechts over een gedeelte. Een variabele is een eigenschap of een karakteristiek van de te onderzoeken objecten. Voor offsetpersen kan een variabele bijvoorbeeld zijn de oplage die per uur gehaald kan worden. Beschik je slechts over informatie over een gedeelte van alle te onderzoeken elementen, dan is het van belang om de representatie van deze beperkte groep elementen na te gaan ten opzichte van de ganse groep. Maak je een statische studie over alle rotatiepersen en je bron heeft enkel informatie over offsetpersen dan kan je de bevindingen moeilijk voor alle rotatiepersen stellen. Naast offsetpersen bestaan er ook flexopersen die deel uitmaken van de groep rotatiepersen. Niet alle bevindingen voor offsetpersen gelden voor flexopersen en omgekeerd. Bijgevolg is je bron niet representatief genoeg voor je conclusies. Beperkt je onderzoek zich enkel over offsetpersen en je bronnen geven je informatie over bijvoorbeeld 30% van alle te onderzoeken offsetpersen , dan kan je informatie wel representatief zijn voor de ganse groep offsetpersen. Wanneer je onderzoek de totale verzameling omvat en deze kan afgebakend worden naar tijd, plaats en inhoud dan spreekt men over de populatie. Omvat jouw verzameling slecht een deel van de totale populatie, dan spreekt men van een steekproef.

1.1

Ordenen van informatie

Wat doe je zoal bij het ordenen van informatie? Je kan de informatie indelen in categorien. Dit houdt in dat je de informatie binnen elke deelvraag in een bepaalde categorie indeelt. Bijvoorbeeld naar tijd, gebied, thema, . Zo kan je een onderzoek verrichten naar klachten die een bepaalde uitgeverij ontvangt aangaande kwaliteit van boeken, facturatie, . Je kan dan je verzameling variabelen ordenen in categorien die de aard van de klacht omschrijven. Een categorie kan bijvoorbeeld weergeven hoeveel klachten er zijn over overdreven facturatie. Een andere categorie vertelt je hoeveel klachten er waren over laattijdige leveringen, Een andere manier van ordenen van je gegevens is ze ordenen volgens een bepaalde rangvolgorde. Zo kan je de informatie ordenen in verschillen van grootte, gewicht, Gegevens kunnen een continu verloop hebben of juist discontinu zijn. Een continu verloop houdt in dat we te maken hebben met rele getallen. De verzameling is overaftelbaar. Denk bijvoorbeeld aan een onderzoek naar het gewicht van bepaalde personen. Tussen bijvoorbeeld 50

artesis Statstiek

p 2 / 20

kg en 51 kg krijg je nog een continu verloop van 1000 gr. Bij een discontinu verloop hebben we bijvoorbeeld enkel te maken met gehele getallen zoals het aantal kinderen, het aantal keren gooien met een munt, .Een discontinue verzameling bevat een eindig aantal of een aftelbaar eindig aantal uitkomsten. In de praktijk worden continue waarden meestal afgerond zodat ze ook als discontinue waarden kunnen voorgesteld worden. Zo kunnen alle gewichtnotaties tussen 49,5 kg en 50,49 kg als 50 kg worden genoteerd. Waarom is ordenen nu zo belangrijk? Wel het geeft ons een overzicht van de begrippen, kenmerken, oorzaken, argumenten (voor of tegen), die een rol spelen bij elke deelvraag. Door een bepaalde volgorde of rangorde aan te brengen in de aangeleverde informatie verkrijg je inzicht in de samenhang en/of verbanden van de variabelen in je onderzoek. Om een goede ordening te bekomen begin je met de informatie per deelvraag overzichtelijk in categorien in te delen. De categorien zijn op een duidelijke en voor de hand liggende manier gerangschikt. Doe je een onderzoek naar de lengte van de eerstejaarsstudenten, dan kan je de lengtes onderverdelen in categorien zoals een categorie minder dan 1,50m, van 1,51 m tot 1,60 m, van 1,61 m tot 1,70 m , Hoe gaat het ordenen in zijn werk? Eerst ga je de gevonden informatie correct ordenen naar deelvraag. Daarna onderscheid je binnen elke deelvraag categorien. Zulk een categorie wordt statistisch meestal een klasse genoemd. Je kan een deelvraag bijvoorbeeld indelen naar thema (zoals begrippen, kenmerken, ontwikkelingen, oorzaken/gevolgen. Een andere mogelijkheid is dat je de deelvraag indeelt in tijd (chronologie of periodes) of in gebied (waar heeft iets plaatsgevonden?) Eens de informatie in ingedeeld is in klasses, plaats je ze vervolgens in een bepaalde rang- of volgorde. Zo kan je de gegevens ordenen van klein naar groot. Een andere mogeliijkheid is een indeling in oorzaak en gevolgen, van jong naar oud, van belangrijk naar onbelangrijk, Concreet gaat het ordenen van gegevens in zijn werk in het opstellen van tabellen die de informatie op een overzichtelijke wijze voorstellen. Vertrekkend van de verzamelde gegevens worden volgende stappen ondernomen: 1. 2. 3. Bepaal de grootste en de kleinste waarde: Xmax en Xmin Bereken het verschil of range: Xmax - Xmin. Is bij discrete kenmerken de range klein dan wordt er geen klasse-indeling gemaakt. In de andere gevallen moet een klassebreedte bepaalt worden. De breedte van de klasses worden meestal ingesteld via veelvouden van 3,5 of 10 naargelang de grootte van de range. Een andere vuistregel bestaat erin de integer van de vierkantswortel van het aantal elementen van de populatie of steekproef als klasse-aantal te nemen. Het aantal klasses (en bijgevolg ook de klassebreedte) worden in dit geval bekomen door de range te delen door de gevonden integer. 4. Bepaal de exacte klassegrenzen.Let op het feit dat de klassegrenzen niet mogen samenvallen met de gevonden variabelen. Indien dit wel zo zou zijn, kan een bepaalde variabele ondergebracht worden in twee klassen. Stel bijvoorbeeld dat je lengtes onderzoekt en een klassegrens hebt op 1,55 m. Dit betekent dat iedere persoon die een lengte heeft van 1,55 m zowel in de klasse 1,55m -1,65m kan gerekend worden als in de klassen 1,45m 1,55m. Een betere keuze zou in dit geval zijn : klassegrens op 1,549 m of 1,545 m. Dit laatste natuurlijk op voorwaarde dat de lengtes tot 1 cm nauwkeurig zijn opgegeven. Merk tenslotte op dat de laagste klassegrens lager moet zijn dan Xmin en de hoogste klassegrens hoger moet zijn dan Xmax.

artesis Statstiek

p 3 / 20

5.

Bepalen van het klassemidden. Dit kan gevonden worden via de benedengrens van de klasse plus de helft van het interval of via volgende formule: + 2

6.

Tellen: aanduiden hoeveel variabelen in elke klasse voorkomen. Zo wordt de frequentie bekomen, meebepaalt de absolute frequentie.

Voorbeeld: Een examen bestaat uit 10 waar of vals vragen die elk op 1 punt worden gekwoteerd. Voor de 25 deelnemende studenten leverde dit het onderstaande resultaat op. 6 7 3 6 7 8 7 8 6 8 4 8 7 7 8 5 7 8 10 8 2 9 9 9 4

De examenresultaten zijn gehele getallen en de verzameling bevat een eindig aantal uitkomsten. Hieruit kunnen we besluiten dat de verzameling bestaat uit discrete waarden. Er is geen continu verloop tussen twee waarden vermits er per vraag n punt te verdienen was. De punten verschillen in gewicht van cijfer. We hebben te maken met kwantitatieve of numerische variabelen. Stap 1 houdt in dat we het de grootste en de kleinste waarde bepalen. De grootste waarde Xmax is gelijk aan 10 en de kleinste waarde Xmin is gelijk aan 2. De range in dit voorbeeld is gelijk aan 10 2 = 8. De volgende stap houdt in dat we de klassebreedte gaan bepalen en het aantal klasses. Vermits het gering aantal mogelijke uitkomsten (gaande van 0 tot 10) is een onderverdeling in klasses niet nodig. We hebben 11 klasses of categorien in ons voorbeeld. Iedere klasse stelt een mogelijke score voor. We gaan vervolgens de resultaten ordenen in deze 11 klasses. Dit doen we door de punten te ordenen van klein naar groot en daarbij het gevonden aantal te schrijven. We verkrijgen onderstaand resultaat: Xi 0 1 2 3 4 5 6 7 8 9 10 fi 0 0 1 1 2 1 3 6 7 3 1 25 rel fi 0 0 0,04 0,04 0,08 0,04 0,12 0,24 0,28 0,12 0,04 1 rel Fk 0 0 0,04 0,08 0,16 0,2 0,32 0,56 0,84 0,96 1

Xi stelt de verschillende variabelen voor die voorkomen tijdens het onderzoek. In dit voorbeeld zijn de variabelen de mogelijk behaalde punten gaande van 0 tot en met 10. De frequentie hoe dikwijls een bepaalde