ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων...

36
ΣΤΑΤΙΣΤΙΚΗ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΟΡΓΑΝΙΣΜΩΝ, ΜΑΡΚΕΤΙΝΓΚ & ΤΟΥΡΙΣΜΟΥ

Transcript of ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων...

Page 1: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Σ ΤΑΤ Ι Σ Τ Ι Κ Η

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΟΡΓΑΝΙΣΜΩΝ, ΜΑΡΚΕΤΙΝΓΚ & ΤΟΥΡΙΣΜΟΥ

Page 2: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Τι κάνει η Στατιστική

Page 3: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Στατιστική (Statistics)

Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία.

Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες φορές, με την χρήση και την επεξεργασία ενός μοναδικού δείγματος.

Παρέχει μεθόδους για τη συνοπτική παρουσίαση των αριθμητικών δεδομένων.

Βοηθά στην εξαγωγή αξιόπιστων συμπερασμάτων.

Οδηγεί σε ασφαλείς προβλέψεις που αφορούν τις επιχειρηματικές δραστηριότητες.

Συμβάλλει στη λήψη αποφάσεων για τη βελτίωση των επιχειρηματικών διαδικασιών.

Μαρίνα Σύρπη (2020) 3

Page 4: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Οι δύο κύριοι κλάδοι της Στατιστικής

Περιγραφική (Descriptive)

Το σύνολο των μεθόδων που χρησιμοποιούμε για την οργάνωση, την παρουσίαση και την ανάλυση ενός συνόλου δεδομένων.

Επαγωγική (Inferential)

Το σύνολο των μεθόδων που χρησιμοποιούμε, ώστε από τα δεδομένα μιας μικρής ομάδας να εξάγουμε συμπεράσματα για μια μεγαλύτερη ομάδα.

Μαρίνα Σύρπη (2020)

4

Page 5: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Το βασικό

λεξιλόγιο της Στατιστικής

Page 6: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Πληθυσμός (Population)

Το σύνολο όλων των οντοτήτων που επιθυμούμε να μελετήσουμε ως προς ένα ή περισσότερα χαρακτηριστικά του.

Δείγμα (sample)

Μέρος του πληθυσμού που επιλέγεται για την ανάλυση.

Μαρίνα Σύρπη (2020) 6

Πληθυσμός στόχος Δείγμα

Page 7: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Μαρίνα Σύρπη (2020) 7

Πληθυσμός - Παραδείγματα

• Το σύνολο των εργαζομένων γυναικών στην Ελλάδα.

• Το σύνολο των τουριστών, που επισκέφτηκαν την Ελλάδα

το 2019.

• Το σύνολο των τουριστών, που επισκέφτηκαν την Ελλάδα

κατά τους θερινούς μήνες του 2019.

• Το σύνολο των φοιτητών του ΔΙ.ΠΑ.Ε.

• Το σύνολο των φοιτητών, του τμήματος Δ.Ο.Μ.Τ.

• Το σύνολο των ταξί σε μία πόλη.

• Το σύνολο των κινητών τηλεφώνων που παράγει μία εταιρεία.

• Το σύνολο των διαφημιστικών εταιρειών στην Ελλάδα.

• Το σύνολο των μεγάλων ξενοδοχειακών μονάδαων της Ευρώπης

• Οι τιμές της θερμοκρασίας των μήνα Ιούλιο

Page 8: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Μεταβλητή (Variable)

Κάθε χαρακτηριστικό ενός αντικειμένου ή ενός ατόμου.

Δεδομένα (Data)

Οι τιμές που καταγράφονται για μία μεταβλητή. Οι μεταβλητές είναι τα χαρακτηριστικά των ατόμων ή των αντικειμένων τα οποία ενδιαφερόμαστε να μελετήσουμε. Διαφοροποιούνται από άτομο σε άτομο, από αντικείμενο σε αντικείμενο, από περιοχή σε περιοχή ή αλλάζουν με το πέρασμα του χρόνου.

Οι τιμές που συλλέγουμε όταν παρατηρούμε τα αντικείμενα αποτελούν τα δεδομένα της μεταβλητής ή, με άλλα λόγια, τα δεδομένα που πρόκειται να αναλυθούν.

Μαρίνα Σύρπη (2020) 8

Page 9: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Μαρίνα Σύρπη (2020) 9

Μεταβλητές - Παραδείγματα

Έρευνα: Οι εξοχικές κατοικίες στην Ελλάδα Πληθυσμός: Οι πολίτες της Ελλάδας Μεταβλητές X: Μέγεθος κατοικίας, σε m2 Υ: Διάρκεια διαμονής, σε ημέρες / έτος Ζ: Κόστος συντήρησης, σε €/ έτος W: Είδος κατοικίας (Συγκρότημα - Μονοκατοικία) Q: Ποιότητα διαμονής (Άριστη - Πολύ Καλή - Μέτρια) P: Το ποσοστό των πολιτών που κατέχουν εξοχική κατοικία (%)

Page 10: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Παράμετρος πληθυσμού (parameter)

Μέτρο, που περιγράφει (συνοψίζει) κάποιο χαρακτηριστικό του πληθυσμού.

Η αριθμητική του τιμή υπολογίζεται από το σύνολο του πληθυσμού και είναι μοναδική.

Στατιστικό ή στατιστική δείγματος (statistic)

Μέτρο, που περιγράφει (συνοψίζει) κάποιο χαρακτηριστικό του δείγματος.

Η αριθμητική του τιμή υπολογίζεται από το δείγμα. Διαφορετικά δείγματα αποδίδουν, κατά κανόνα, διαφορετική τιμή σε ένα στατιστικό.

Μαρίνα Σύρπη (2020) 10

Page 11: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Παράμετρος vs. Στατιστικό

Πληθυσμός

Στην παλέτα υπάρχουν 100 χάρτινες καρδούλες, 20 από τις οποίες είναι καφέ.

Επομένως, στον πληθυσμό, η αναλογία για τις καφέ καρδούλες είναι

Η αναλογία π στον πληθυσμό είναι μία παράμετρος του πληθυσμού.

Δείγμα 1

Στο δείγμα, η αναλογία για τις καφέ καρδούλες είναι

Η αναλογία p στο δείγμα, είναι ένα στατιστικό δείγματος. Η τιμή του στατιστικού p1 = 0,18 που υπολογίζεται από το δείγμα, είναι μία εκτίμηση της αντίστοιχης παραμέτρου π στον πληθυσμό.

Μαρίνα Σύρπη (2020) 11

200,20

100

1

20,18

11p

Page 12: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Παράμετρος – Στατιστικό – Εκτίμηση Ας υποθέσουμε ότι από τον προηγούμενο πληθυσμό (παλέτα) επιλέγουμε ένα δεύτερο δείγμα.

Πληθυσμός Δείγμα 2

Η τιμή της αναλογίας π στον πληθυσμό, για τις καφέ καρδούλες, παραμένει ίδια. Παρατηρούμε όμως, ότι η τιμή της αναλογίας p στο δείγμα είναι διαφορετική.

Η τιμή p2 = 0,21 είναι επίσης μία εκτίμηση της παραμέτρου π.

Η τιμή μιας παραμέτρου είναι μοναδική, αλλά συνήθως άγνωστη.

Η τιμή ενός στατιστικού είναι διαφορετική από δείγμα σε δείγμα.

Η τιμή ενός στατιστικού είναι μια εκτίμηση της πραγματικής, αλλά συνήθως άγνωστης τιμής, της αντίστοιχης παραμέτρου στον πληθυσμό.

Διαφορετικά δείγματα δίνουν διαφορετικές εκτιμήσεις για την ίδια παράμετρο.

Η στατιστική εγγυάται ότι, όποιο και αν είναι το δείγμα που θα επιλέξουμε, η τιμή του στατιστικού θα είναι η βέλτιστη εκτίμηση της παραμέτρου.

Μαρίνα Σύρπη (2020) 12

2

30,21

14p

Page 13: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Είδη Μεταβλητών

Κλίμακες Μέτρησης

Page 14: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Είδη μεταβλητών

Ποσοτικές (Quantitative) ή Αριθμητικές (Numerical)

Αντιστοιχούν στα χαρακτηριστικά που μπορούν να μετρηθούν, με την κοινή έννοια του όρου.

Κατηγορικές (Categorical) ή Ποιοτικές (qualitative)

Καταγράφουν κάποιο ποιοτικό (μη μετρήσιμο) χαρακτηριστικό.

Τιμή μεταβλητής

Το αποτέλεσμα που προκύπτει από τη μέτρηση ή την καταγραφή της.

Μαρίνα Σύρπη (2020) 14

Page 15: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Ποσοτικές μεταβλητές

Διακριτές (discrete)

Τιμές από αριθμήσιμο σύνολο (πεπερασμένο ή άπειρο)

Χ: Το πλήθος των μαθημάτων

που μπορεί να δηλώσει ένας φοιτητής.

Τιμές από το σύνολο {1, 2, ….,8}

Υ: Το πλήθος των αυτοκινήτων που παιρνούν από μία διαστάυρωση σε μία ημέρα.

Τιμές από το σύνολο {0, 1, 2, ….}

Συνεχείς (continuous)

Τιμές από ένα διάστημα πραγματικών αριθμών.

T: Η διάρκεια λειτουργίας ενός ηλεκτρικού λαμπτήρα ( σε h)

Τιμές στο διάστημα (0, 10.000)

Η τιμή που καταγράφουμε όταν μετρούμε μία συνεχή μεταβλητή είναι, τις περισσότερες φορές, μία προσέγγιση της πραγματικής τιμής η οποία εξερτάται από την ακρίβεια του οργάνου μέτρησης.

Μαρίνα Σύρπη (2020) 15

Page 16: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Ποιοτικές μεταβλητές

Ονομαστικές (nominal)

Οι τιμές τους είναι λέξεις, δηλαδή «χαρακτηρισμοί» ή «ετικέτες», και μεταξύ τους δεν υπάρχει καμιά σχέση ιεραρχίας. W: Το χρώμα των μαλλιών

Τιμές από το σύνολο {ξανθό, καστανό, μαύρο}

και μεταξύ των χρωμάτων δεν έχει νόημα να θεωρήσουμε κάποια ιεραρχία.

Διατακτικές (ordinal)

Οι τιμές τους είναι και πάλι λέξεις, αλλά μεταξύ τους υπάρχει ιεραρχία. Q: Ποιότητα διαμονής σε ένα

τουριστικό θέρετρο.

Τιμές από το σύνολο {κακή, μέτρια, καλή, εξαιρετική}

και η ιεραχία μεταξύ των χαρακτηρισμών έχει νόημα.

Μαρίνα Σύρπη (2020) 16

Page 17: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Οργάνωση και παρουσίαση

ποσοτικών δεδομένων (ομαδοποίηση)

Page 18: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Τίποτα καλύτερο από ένα παράδειγμα….

3,7 6,7 4,4 6,2 4,1 6,0 5,1 5,3 2,8

5,3 5,3 1,4 5,4 7,5 3,0 6,6 1,1 4,7

1,6 1,7 4,4 5,5 3,0 9,4 6,5 1,4 5,5

5,4 5,8 6,8 4,2 6,0 2,4 6,1 5,6 6,8

5,6 5,8 6,0 7,4 2,5 6,2 3,9 4,7 3,1

Μαρίνα Σύρπη (2020) 18

Κάναμε μια έρευνα, για να μελετήσουμε το ύψος της ατομικής δαπάνης (έξοδα μετακίνησης, καφέδες, τσιγάρα, κ.λ.π.) των εργαζομένων. Για το σκοπό αυτό, ρωτήσαμε 45 εργαζόμενους και πήραμε τις παρακάτω απαντήσεις.

Μπορείτε, κοιτάζοντας τα παραπάνω δεδομένα, να πείτε κάτι για την ατομική δαπάνη των εργαζομένων; Μάλλον, όχι. Χρειαζόμαστε μια «οργανωμένη» παρουσίαση των δεδομένων και αυτή, στην περίπτωση των ποσοτικών δεδομένων, λέγεται ομαδοποίηση.

Page 19: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Πίνακας συχνοτήτων

Ατομική

Δαπάνη

€/ημέρα

[ )

Κέντρο

Συχνότητα

Αθροιστική

Συχνότητα

Σχετική

Συχνότητα

%

Σχετική Αθροιστική

Συχνότητα

%

1,0 – 2,5 1,75 6 6 13,33 13,33

2,5 – 4,0 3,25 7 13 15,56 28,89

4,0 – 5,5 4,75 12 25 26,67 55,56

5,5 – 7,0 6,25 17 42 37,78 93,33

7,0 – 8.5 7,75 2 44 4,44 97,78

8,5 – 10 9,25 1 45 2,22 100,00

ΣΥΝΟΛΑ n = 45 100,00

Μαρίνα Σύρπη (2020) 19

ix if

• 12 από τους 45 εργαζόμενους δαπανούν 4 έως 5,5 €/ημέρα. • 26,67% των εργαζομένων που ρωτήθηκαν, δαπανούν 4 έως 5,5 €/ημέρα. • 25 από τους 45 εργαζόμενους που ρωτήθηκαν, δαπανούν λιγότερα από 5,5 €/ημέρα • 55,56% των εργαζομένων που ρωτήθηκαν, δαπανούν λιγότερα από 5,5 €/ημέρα. • 100 – 55,56 = 44,44% των εργαζομένων που ρωτήθηκαν, δαπανούν 5,5 έως 10 €/ημέρα.

Page 20: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Ιστόγραμμα Σχετικών Συχνοτήτων

Μαρίνα Σύρπη (2020) 20

13,33 15,56

26,67

37,78

4,44 2,22

0

5

10

15

20

25

30

35

40

1,0 – 2,5 2,5 – 4,0 4,0 – 5,5 5,5 – 7,0 7,0 – 8.5 8,5 – 10

Σχετ

ική

Συ

χνό

τητα

%

Ατομική Δαπάνη (€/ημέρα)

Κατασκευάζεται από τη στήλη των % σχετικών συχνοτήτων του πίνακα συχνοτήτων. Επομένως, μας δίνει τις ίδιες πληροφορίες. Αναπαριστά τον τρόπο με τον οποίο οι τιμές της μεταβλητής στο δείγμα κατανέμονται στις κλάσεις. Το ιστόγραμμα που κατασκευάζεται από το δείγμα είναι ένα «αποτύπωμα», μια «ακτινογραφία» του πληθυσμού, είναι το «παράθυρο μας στον κόσμο».

Page 21: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων

Μαρίνα Σύρπη (2020) 21

13,33

28,89

55,56

93,33 97,78 100

0

10

20

30

40

50

60

70

80

90

100

1,0 – 2,5 2,5 – 4,0 4,0 – 5,5 5,5 – 7,0 7,0 – 8.5 8,5 – 10

Σχετ

ική

Αθ

ρο

ιστι

κή Σ

υχν

ότη

τα %

Ατομική Δαπάνη (€/ημέρα)

Κατασκευάζεται από τη στήλη των % σχετικών αθροιστικών συχνοτήτων του πίνακα συχνοτήτων. Επομένως, μας δίνει τις ίδιες πληροφορίες. Αναπαριστά τον τρόπο, την «ταχύτητα» με τον οποίο οι τιμές της μεταβλητής στο δείγμα συσσωρεύονται σταδιακά στις κλάσεις.

Page 22: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Συνεχείς Τυχαίες Μεταβλητές

Ιστογράμματα και Πολύγωνα

Συναρτήσεις Κατανομής

Page 23: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Πίνακας Συχνοτήτων για το βάρος των παραγόμενων απορριμάτων στις 28 χώρες της Ευρωπαϊκής Ένωσης, το 2013. (ΠΗΓΗ: EUROSTAT)

Μαρίνα Σύρπη (2020) 23

Βάρος

παραγόμενων

απορριμάτων

Kgr/κεφαλή

[ )

Κέντρο

Συχνότητα

Αθροιστική

Συχνότητα

Σχετική

Συχνότητα

%

Σχετική Αθροιστική

Συχνότητα

%

250 – 350 300 6 6 21,43 21,43

350 – 450 400 8 14 28,57 50,00

450 – 550 500 7 21 25,00 75,00

550 – 650 600 5 26 17,86 92,86

650 – 750 700 2 28 7,14 100

ΣΥΝΟΛΑ n = 28 100,00

ix if

ΜΕΤΑΒΛΗΤΗ Χ: Το βάρος των παραγόμενων απορριμάτων (Kgr/κεφαλή) ΠΛΗΘΥΣΜΟΣ Οι 28 χώρες της Ευρωπαϊκής Ένωσης

Page 24: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Το ιστόγραμμα των συχνοτήτων (frequency histogram) απεικονίζει το σχήμα, τη μορφή της κατανομής. Για ισοπλατείς κλάσεις, και λαμβάνοντας ως μονάδα μέτρησης το εύρος τους, το ύψος ενός ορθογωνίων είναι ίσο με τη συχνότητα της αντίστοιχης κλάσης. Το συνολικό εμβαδό των ορθογωνίων είναι 1 (ή 100).

21,43

28,57

25,00

17,86

7,14

0,00

5,00

10,00

15,00

20,00

25,00

30,00

250 - 350 350 - 450 450 - 550 550 - 650 650 - 750

Σχετ

ική

Συ

χνό

τητα

(%

)

Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) ΠΗΓΗ: EUROSTAT

Παρατηρούμε την αυξημένη συγκέντρωση τιμών στις κλάσεις 350–450 και 450–550. Η κατανομή εμφανίζει μία μόνον κορυφή. Φαίνεται επίσης να μην είναι συμμετρική, καθώς οι παρατητήσεις εκτείνονται προς τα δεξιά περισσότερο απ’ ότι προς τα αριστερά.

Μαρίνα Σύρπη (2020) 24

Page 25: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Το πολύγωνο των συχνοτήτων (frequency polygon) μας επιτρέπει να κατανοήσουμε το σχήμα της κατανομής. Είναι ιδιαίτερα χρήσιμο όταν θέλουμε να συγκρίνουμε σύνολα δεδομένων.

Στο πολύγωνο των συχνοτήτων τα κέντρα των κλάσεων χρησιμοποιούνται ως «αντιπρόσωποι» των κλάσεων και, μαζί με δύο υποθετικά κέντρα μηδενικής συχνότητας στα αριστερά της πρώτης κλάσης και στα δεξιά της τελευταίας κλάσης, συνδέονται με ευθύγραμμα τμήματα, σχηματίζοντας το πολύγωνο των συχνοτήτων.

Μαρίνα Σύρπη (2020) 25

ΠΗΓΗ: EUROSTAT

21,43

28,57

25,00

17,86

7,14

0,00

5,00

10,00

15,00

20,00

25,00

30,00

300 400 500 600 700

Σχετ

ική

Συ

χνό

τητα

(%

)

Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή)

Page 26: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Κάτω από το πολύγωνο των συχνοτήτων

Μαρίνα Σύρπη (2020) 26

Χωρίζουμε τώρα το πολύγωνο σε τραπέζια και δύο ορθογώνια τρίγωνα. Το εμβαδό καθενός από αυτά τα χωρία, χρησιμοποιώντας πάντα ως μονάδα μέτρησης το εύρος των κλάσεων, είναι μια εκτίμηση του ποσοστού συγκέντρωσης (της πυκνότητας) των τιμών της μεταβλητής στην αντίστοιχη κλάση. Το άθροισμα όλων των εμβαδών είναι ίσο με 1 (ή 100%). Στο 26,785 % περίπου, των χωρών της Ε.Ε. το βάρος των παραγόμενων απορριμάτων είναι 400 – 500 Kgr/κεφαλή.

Page 27: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Συνάρτηση Κατανομής ( ή Πυκνότητας) Πιθανότητας Probability Distribution (Density) Function

Μαρίνα Σύρπη (2020) 27

-5,00

0,00

5,00

10,00

15,00

20,00

25,00

30,00

250 300 400 500 600 700 750

Σχετ

ική

Συ

χνό

τητα

(%

)

Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) ΠΗΓΗ: ΕΛΣΤΑΤ

Τέλος, πάνω στο πολύγωνο συχνοτήτων μιας συνεχούς μεταβλητής προσαρμόζουμε μια λεία καμπύλη. Αυτή η καμπύλη δεν είναι τίποτα άλλο παρά η γραφική παράσταση μιας συνάρτης f(x). Μια τέτοια συνάρτηση ονομάζεται συνάρτηση κατανομής πιθανότητας (probability distribution function) ή συνάρτηση πυκνότητας πιθανότητας (probability density function) της συνεχούς τυχαίας μεταβλητής Χ.

f(x)

Page 28: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Συναρτήσεις πυκνότητας και υπολογισμός πιθανοτήτων

Μαρίνα Σύρπη (2020) 28

Είδαμε παραπάνω πώς, χρησιμοποιώντας το πολύγωνο των συχνοτήτων, μπορούμε να υπολογίσουμε (για την ακρίβεια να εκτιμήσουμε) το ποσοστό των τιμών της μεταβλητής που συγκεντρώνονται σε κάθε μια από τις κλάσεις που έχουμε ορίσει. Αυτό το ίδιο ποσοστό, είναι ταυτόχρονα και μία εκτίμηση της πιθανότητας η μεταβλητής μας να παίρνει τιμή στο συγκεκριμένο διάστημα. Για παράδειγμα, η πρόταση «Στο 26,785 % περίπου, των χωρών της Ε.Ε. το βάρος των παραγόμενων απορριμάτων είναι από 400 – 500 Kgr/κεφαλή» είναι ισοδύναμη με την πρόταση «Η πιθανότητα για μια χώρα της Ε.Ε. το βάρος των παραγόμενων απορριμάτων να είναι 400 – 500 Kgr/κεφαλή, εκτιμάται σε 0,26785 (ή 26,785%). Το μειονέκτημα με το πολύγωνο των συχνοτήτων είναι ότι δεν μπορούμε να δώσουμε εύκολα τις απαντήσεις για κάθε διάστημα, αλλά μόνον για τα διαστήματα που ορίζονται από τις κλάσεις. Πώς λοιπόν μπορούμε να απαντήσουμε στην ερώτηση «Ποιά η πιθανότητα για μια χώρα της Ε.Ε., το βάρος των παραγόμενων απορριμάτων να είναι 520 – 630 Kgr/ κεφαλή;»

Page 29: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Συναρτήσεις πυκνότητας και υπολογισμός πιθανοτήτων

Μαρίνα Σύρπη (2020) 29

f x

Η ζητούμενη πιθανότητα, υπολογίζεται από το εμβαδόν του χωρίου Α που ορίζεται από τη γραφική παράσταση της συνάρτησης πυκνότητας f(x) , τον οριζόντιο άξονα και τα κάθετα ευθύγραμμα τμήματα στα σημεία 520 και 630. Έτσι, το πρόβλημα ανάγεται στον υπολογισμό ενός ορισμένου ολοκληρώματος, δηλαδή

f x

630

520

520 630P X A f x dx

630

520

520 630P X A f x dx

A

Page 30: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Ιδιότητες των συναρτήσεων πυκνότητας πιθανότητας

Μαρίνα Σύρπη (2020) 30

Οι συναρτήσεις πυκνότητας πιθανότητας που περιγράφουν την κατανομή μιας συνεχούς τυχαίας μεταβλητής έχουν τις παρακάτω ιδιότητες.

1) Το συνολικό εμβαδόν κάτω από μία καμπύλη πυκνότητας πιθανότητας είναι ίσο με 1.

Δηλαδή

2) Μια συνάρτηση πυκνότητας πιθανότητας παίρνει μόνον μη αρνητικές τιμές, και επομένως η γραφική της παράσταση βρίσκεται πάνω από τον οριζόντιο άξονα. Δηλαδή

f x

1E

0f x

1f x dx

Page 31: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Υπολογισμός πιθανοτήτων από τη συνάρτηση πυκνότητας

Μαρίνα Σύρπη (2020) 31

1) Για μια συνεχή τυχαία μεταβλητή Χ, η πιθανότητα να πάρει ακριβώς μία συγκεκριμένη τιμή είναι 0 ,δηλαδή 0P X a

2) Η πιθανότητα να έχει τιμές σε ένα διάστημα (α, b), υπολογίζεται από το εμβαδόν κάτω από την καμπύλη της πυκνότητας που ορίζεται από τα άκρα του διαστήματος, δηλαδή

b

a

P a X b f x dx f x

3) Η πιθανότητα να έχει τιμές μικρότερες από έναν έναν αριθμό α, υπολογίζεται από το εμβαδόν κάτω από την καμπύλη της πυκνότητας στα αριστερά του α, δηλαδή

f x

α

a

P X a f x dx

Page 32: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Το ιστόγραμμα των αθροιστικών συχνοτήτων (cumulative percentage histogram) μας δείχνει τον τρόπο με τον οποίο συγκεντρώνονται οι τιμές της μεταβλητής.

Μαρίνα Σύρπη (2020) 32

21,43

50,00

75,00

92,86

100,00

0,00

10,00

20,00

30,00

40,00

50,00

60,00

70,00

80,00

90,00

100,00

Σετι

κή Α

θρ

οισ

τική

Συ

χν΄τ

ητα

( %

)

Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) ΠΗΓΗ: EUROSTAT

250 350 450 550 650 750

Παρατηρούμε ότι ήδη μέχρι την την δεύτερη κλάση έχει συγκεντρωθεί το 50% των τιμών της μεταβλητής. Αυτό σημαίνει ότι στο 50% του δείγματος οι τιμές της μεταβλητής είναι μικρότρες από το άνω άκρο της δεύτερης κλάσης. Επομένως, για το έτος 2013 στις μισές χώρες της Ε.Ε. το βάρος των παραγόμενων απορριμάτων ήταν μικρότερο από 450 Kgr/ κεφαλή.

Page 33: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Το πολύγωνο των αθροιστικών συχνοτήτων (cumulative percentage polygon ή ogive) μας δίνει τις ίδιες πληροφορίες με το ιστόγραμμα των αθροιστικών συχνοτήτων. Επίσης, χρησιμεύει όταν θέλουμε να συγκρίνουμε σύνολα δεδομένων

Μαρίνα Σύρπη (2020) 33

21,43

50,00

75,00

92,86

100,00

0,00

10,00

20,00

30,00

40,00

50,00

60,00

70,00

80,00

90,00

100,00

250 350 450 550 650 750

Σχετ

ική

Αθ

ρο

ιστι

κή Σ

υχν

ότη

τα (

% )

Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) ΠΗΓΗ: EUROSTAT

Για την κατασκευή του χρησιμοποιούμε τα άνω δεξιά άκρα των κλάσεων και το κάτω αριστερό άκρο της πρώτης κλάσης, τα οποία συνδέονται με εθύγραμμα τμήματα. Μεγάλη κλίση ενός τμήματος φανερώνει αυξημένη και απότομη συγκέντρωση τιμών στην κλάση που ορίζεται από τα άκρα του.

Page 34: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Η χρησιμότητα της αθροιστικής συνάρτησης κατανομής

Μαρίνα Σύρπη (2020) 34

250 350 450 550 650 750

Βάρος παραγόμενων απορριμάτων (Kgr/κεφαλή) ΠΗΓΗ: EUROSTAT

F

Η συνάρτηση αθροιστικής κατανομής μας επιτρέπει να υπολογίσουμε την πιθανότητα η μεταβλητής μας να παίρνει τιμές μικρότερες ή ίσες από έναν δοσμένο αριθμό. Για παράδειγμα, η πιθανότητα για μια χώρα της Ε.Ε. το βάρος των παραγόμενων απορριμάτων να είναι το πολύ 600 Kgr/ είναι

600 600 0.85P X F

600

F(600)=0.85

Page 35: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια

Υπολογισμός πιθανοτήτων από την αθροιστική συνάρτηση κατανομής.

Μαρίνα Σύρπη (2020) 35

1) Για μια συνεχή τυχαία μεταβλητή, η πιθανότητα να έχει τιμές μικρότερες ή ίσες ενός αριθμού α, υπολογίζεται από την τιμή της αθροιστικής συνάρτησης κατανομής στο α, δηλαδή

2) Η πιθανότητα να έχει τιμές σε ένα διάστημα (α, b) υπολογίζεται από τη

διαφορά των τιμών της αθροιστικής συνάρτησης στα άκρα του διαστήματος, δηλαδή

F (x)

P X a F a

x α b

F(α)

F(b)

P a x b F b F a

F(b) – F(α)

Page 36: ΣΤΑΤΙΣΤΙΚΗ · 2020. 3. 5. · Κάω από ο πολύγωνο ων σχνοή ων Μαρίνα Σύρπη (2020) 26 Χωρίζομε ώρα ο πολύγωνο σε ραπέζια