Statistik für Prozesswissenschaften - TU Berlin2019/04/01 · 1. Beschreibende und explorative...
Transcript of Statistik für Prozesswissenschaften - TU Berlin2019/04/01 · 1. Beschreibende und explorative...
Statistik für Prozesswissenschaften
U. Römischhttp:// www.lmtc.tu-berlin.de/angewandte_statistik_und_consulting
Varianten:
1. VL (2 SWS) + Ü am PC (2 SWS) → 4 LP (Abschluss: Klausur)2. VL (2 SWS) + Ü am PC ( 2SWS)
+ Projekt mit PA → 6 LP (Abschluss: Klausur +Projektarbeit)
Wahlpflicht oder Freie Wahlfür Studenten der LMT, BT, BGT, TUS, WW, EPT, EVT, EGT
Literatur und Software zur LV „Statistik für PW“
/1/ Autorenkollektiv (2004): Einführung in die Biometrie.2. Aufl., Saphir- Verl. Ribbesbüttel
/2/ Backhaus, K., Erichson, B., Plinke,W., Weiber,R . (2011)Multivariate Analysemethoden. 10. Aufl. Springer- Verl Berlin
/2/ Bärlocher, F. (2008):Biostatistik.2. Aufl., Thieme Verl. Stuttgart
/3/ Bortz, J., G. A. Lienert u. K. Boehnke (1990):Verteilungsfreie Methoden in der Biostatistik.Springer- Verl. Berlin
/4/ Fahrmeir, L., R. Künstler, I. Pigeot u. G. Tutz (2004):Statistik- Der Weg zur Datenanalyse.5. Aufl., Springer- Verl. Berlin
/5/ Hartung, J. u. a. (1989):Statistik. Lehr- und Handbuch der angewandten Statis tik. 7. Aufl., Oldenbourg Verl. München
/6/ Kleppmann, W. (2006):Taschenbuch Versuchsplanung4. Auflage Hanser Verl. München
/7/* Precht, M. u. R. Kraft (1992)Biostatistik 1 und 2. 5. Aufl., Oldenbourg Verl. München
/8/ Rudolf, M. u. W. Kuhlisch (2008)Biostatistik- Eine Einführung für Biowissenschaftler . Pearson Studium, München
/9/ Sachs, L. u. Hedderich, J. (2006)Angewandte Statistik- Methodensammlung mit R12. Aufl., Springer Verl. Berlin
/10/ Stahel, W. (1999):Statistische Datenanalyse - Eine Einführung für Natu rwissenschaftler. 2. Aufl., Vieweg Verl. Braunschweig/ Wiesbaden
/11/ Timischl, W. (2000)Biostatistik- Eine Einführung für Biologen und Medizi ner.2. Aufl., Springer Verl. Berlin
/12/ Statgraphics centurion XVI von STATPOINT Technologies Inc./13/ Statistica Vers. 12 von StatSoft Inc.
Inhaltsverzeichnis
EINLEITUNG
1. Was versteht man unter Statistik, Biometrie, Chemometrie,
Ökonometrie und Technometrie?
2. Wie lügt man mit Statistik?
● Umfragen
● Mittelwert- und Streuungsmaße
● Grafiken
● Signifikanzaussagen bei stat. Tests
1. Beschreibende und explorative Statistik
1.1. Charakterisierung von Merkmalen
1.2. Grundgesamtheit und Stichprobe
1.3. Die Häufigkeitsverteilung diskreter und stetige r ein-
dimensionaler Merkmale
- absolute u. relative Häufigkeiten und ihre grafische
Darstellung
- empirische Verteilungsfunktion
1.4 Lage- und Streuungsmaße, Schiefe und Exzeß
- arithm. Mittel, Median, gestutztes Mittel, Modalwert,
geometrisches Mittel, α- Quantil
- Spannweite, Medianabstand, Quartilsabstand, Varianz, Standardabweichung, Standardfehler des arithm. Mittelwertes, Variationskoeffizient, Box- und Whisker Plots - Schiefe und Exzess
1.5. Zweidimensionale Merkmale
- grafische Darstellung (Scatterplot)
- Häufigkeitsverteilung (Vierfeldertafel, Kontingenztafel,
2- dim. Häufigkeitstabelle, graf. Darstellungen)
- Zusammenhangsmaße (Assoziations-,Kontingenz-,
Maßkorrelations- und Rangkorrelationskoeff.)
- lineare Regression (einf. und multiple lineare Regression
und polynomiale Regression)
2. Wahrscheinlichkeitsrechnung
2.1. Zufällige Ereignisse, Ereignisfeld, Wahrschein lichkeit
- Regeln für die Berechnung von Wahrscheinlichkeiten
2.2. Zufallsgrößen (ZG)
- Arten von Zufallsgrößen und ihre Verteilungen (diskrete
und stetige Zufallsgrößen)
- Kenngrößen von Zufallsgrößen (Erwartungswert u. Varianz)
2.3. Spezielle Verteilungen
- Binomial-, Hypergeometrische-, Poisson- und
Normalverteilung
- Prüfverteilungen (Chi2-, t- u. F- Verteilung), Funktionen
von Zufallsgrößen
2.4. Grenzwertsätze
3. Schließende STATISTIK
3.1. Statistische Schätzverfahren- Schätzmethoden, Stichprobenfunktion, Punkt-schätzungen
- Konfidenz- und Toleranzintervalle, Kontrollkarten 3.2. Statistische Tests
- Parametrische Tests für Mittelwerte u. Varianzen bei 1- und 2- Stichprobenproblemen
- Varianzanalyse und multiple Vergleiche - Verteilungsfreie Methoden (Verteilungsanpassung, verteilungsfreie Tests)
- Induktive Methoden bei der Regressionsanalyse (Test der Parameter u. des Modells, Residualanalyse, Konfidenz- u. Prognoseintervalle)
4. Komplexe Projektbeispiele
4.1 Stat. Versuchsplanung bei der Herstellung eines glutenfreien
und ballaststoffangereicherten Gebäckes
4.2 Stat. Versuchsplanung zur Optimierung des Fermentations-
prozesses zur Ethanolgewinnung auf der Basis der
Gärsubstrate Zuckerrübenextrakt und – dicksaft
4.3 Stat. Selektionsverfahren zur Auswahl der Mutante mit der
höchsten Enzymaktivität aus einer Menge von Mutanten der
Species Aspergillus niger
4.4 Multivariate Datenanalyse zur Herkunftsbestimmung von Weinen aus verschiedenen Ländern auf der Basis von 100 chemischen Analysenparametern
In der Übung mit PC- Praktikum werden mit Statistikp rogrammen
konkrete Fragestellungen aus den Fachgebieten behan delt.
EINLEITUNG
1. Was ist Statistik?
Statistik ist die Wissenschaft des Sammelns, Analys ierens und Interpretierens von Daten.
Sie beantwortet die Fragen:
1. Wie sollen welche Daten gewonnen werden?2. Wie soll man Daten beschreiben? und3. Welche Schlüsse kann man aus Daten ziehen?
Teilgebiete:
Beschreibende StatistikWahrscheinlichkeitstheorie Stat. DA
Stochastik Schliessende Statistik Stat. VP
2. Wie lügt man mit Statistik?
Bsp. 1: Wie lügt man mit Umfragen ?
Bsp. 2: Verwendung falscher Mittelwert- undStreuungsmaße
Bsp. 3: Vorsicht bei der Interpretation vonGrafiken!
Bsp. 4: Falsche Interpretation der Ergebnisse statistischer Tests, Stichproben -umfangproblem
1. Beschreibende und explorative Methoden
Die Beschreibende und explorative Statistikdient der Beschreibung, Strukturierung undVerdichtung umfangreichen Datenmaterials.
Wie erhält man nun Daten und welcher Art sind die D aten?
Erhebungen und Versuche
Ziel: Kenntnisse über die Eigenschaften bestimmter Objekte(z.B. Anlagen, Messmethoden, Weinproben, Hefestämme) oder Individuen (z.B. Personen, Tiere, Pflanzen) zu erhalten
• Erhebungen ⇒⇒⇒⇒ Ist- Standsanalysen
• Versuche ⇒⇒⇒⇒ - Vergleich von Gruppen - Untersuchung von Zusammenhängen zwischen Merkmalen
Die Objekte/ Individuen, an denen Beobachtungen vorge-nommen werden, heißen Beobachtungseinheiten(Merkmalsträger).Dabei ist kein Objekt/ Individuum mit einem anderen identisch. Diese Unterschiedlichkeit nennt man Variabilität . Die Variabilität biologischer Objekte/ Individuen ist häufig genetisch oder umweltbedingt.
- Die Größen oder Eigenschaften, auf die sich die Beobachtungen beziehen, heißen Merkmale .
- Jedes Objekt/ Individuum ist durch eine spezielle Merkmals-ausprägung gekennzeichnet.
- Alle beobachteten Werte eines Merkmals heißen Merkmalswerte .
1.1. Charakterisierung von Merkmalen
Merkmale
(Unterscheidung durch Art)
Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma
Klassifizierung von Merkmalen
(Unterscheidung durch Größe)
Bsp.: Alter, Gewicht, Masse, Länge, Volumen, Einkommen, Wasser- u. Lufttemperatur, Konzentration,Zellzahl
1.
2.
Diskrete Merkmale Stetige Merkmale
Merkmale
(endlich viele oder abzählbar unendlich viele Merkmalsausprägungen)
Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma, Zellzahl
(überabzählbar unendlich viele Aus-prägungen, d.h. Werte im reellen Zahlenintervall)
Bsp.: Alter, Gewicht, Masse, …
Qualitative Merkmale Quantitative Merkmale
Merkmale
Nominalskalierte Merkmale
Ordinalskalierte Merkmale
Metrisch skalierteMerkmale
3.
(Skala mit niedrigstemNiveau, keine Vergleichbarkeit oder Rangfolge zwischen den Werten)
Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma
(Skala mit höherem Niveau, Werte unter-scheiden sich in ihrer Intensität, ermöglichen eine Rangfolge-ordnung, jedoch keine Interpretation der Abstände zwischen den Rängen)
Bsp.: Aroma, Härtegrad,sensor. Parameter, Zensuren
(Skala mit höchstem Niveau, Abstände zwischen den Werten sind interpretierbar)
Bsp.: Alter, Gewicht, Masse, Länge, Volumen, Ein-kommen, Wasser- u. Lufttemperatur, Zell-zahl, Konzentration,
Intervallskala Proportions-skala
Intervallskala (Einheitenskala) :
• Die Skala besteht aus Zahlen, zwischen denen gleich große Intervalle bestimmbar sind.
• Der Nullpunkt wird willkürlich festgelegt (relativ).• Es sind nur Differenzen von Messwerten sinnvoll
interpretierbar.
Bsp.: Temperaturskala nach Celsius, tägl. Zunahme der Körpermasse, bei logar. Transformation der Messwerte
Proportionalskala (Ratioskala) :
• Zusätzlich zur Intervallskala wird ein absoluter Nullpunktdefiniert, so dass auch Quotienten von Messwerten sinnvoll interpretierbar sind.
Bsp.: Temperaturskala nach Kelvin (eine Verdoppelung der Temperatur entspricht der Verdoppelung des Gasvolumens), Gewicht, Masse, Volumen, Zellzahl
Daten kann man durch Befragung von Personen (Erhebungen)oder durch Experimente (Messungen) gewinnen.
Experimente
Passive Experimente Aktive Experimente
Alle Beobachtungswerte ergeben sich zufällig während des Versuches!
Aktive Planung der Experimente vor deren Durchführung, Planung der Versuchsbedingungen
Kombinierte Experimente
Anwendung der Methoden der statistischen
Versuchsplanung (SVP)!
1.2. Grundgesamtheit und Stichprobe
Problem
3 (4) Versuchsetappen:
Planung
Durchführung
Auswertung
Methoden der statistischen Versuchsplanung
Ziel: Erzielen von Ergebnissen mit ausreichender Sicherheit und Genauigkeit bei minimaler Anzahl von Versuchen
Grundprinzipien der Stat. Versuchsplanung
• Wiederholen und Mehrfachrealisieren von Versuchs-punkten (um Mess- und Versuchsfehler zu bestimmen)
• Zufallsreihenfolge und Randomisierung (um Störeinflüsse auszuschalten)
• Blockbildung (um Störeinflüsse als Blockfaktor zu erfassen)
• Symmetrie der Versuchsanordnungen
• Vermengen
• Sequentielles Experimentieren
Arten von Versuchsplänen
Faktorielle Versuchspläne (Box):
• Plackett- Burman- VP
• Vollst. und fraktionierte VP 1. Ordnung vom Typ 2k und 2k-p
• Vollst. und fraktionierte VP 2. Ordnung vom Typ 3k und 3k-p
• Kombinierte VP vom Typ 2k und 3k‘ bzw 2k-p und 3k‘-p‘
• Box- Behnken- VP
• Zentral zusammengesetzte VP
Mischungspläne (Scheffé)
• Simplex- Gitter und Zentroid- Pläne
Optimale Versuchspläne (Kiefer):A,- D,- G-, I- optimale Versuchspläne
Bsp.1: Herstellung einer Chemikalie [s. /6/]
PROBLEM:Zur Herstellung einer Chemikalie werden mehrere Ausgangsstoffe einschließlich Katalysator vermischt und über längere Zeit erhitzt. Dabei erfolgt eine Reaktion und das Reaktionsprodukt wird abgetrennt.
ZIEL:Erhöhung der Ausbeute durch eine Untersuchung der Wirkung der Einflussgrößen :- Temperatur [120-140°C]- Reaktionszeit [2-4h] und- Katalysatormenge [0,1-0,5%]und ihrer Wechselwirkungen
Faktorieller Versuchsplan
Bsp.: 3 Einflussgrößen, y = f(x 1,x2,x3)
8 Würfelpunktversuche
1 Zentralpunktversuch
x1
x3
x2
(+ - -)
(- + +)(- - +)
(+ + -)
(+ - +)
Fakt. VP vom Typ 2 3 (in 2 Blöcken):
Vers. Nr.j
BEinflussg
rößen2-fakt. WW 3-fakt.
WWZielgrößen
X1 X2 X3X1X2 X1X3 X2X3 X1X2X3
BY1 Y2
1 - - - - + + + -
2 + + - - - - + +
3 + - + - - + - +
4 - + + - + - - -
5 + - - + + - - +
6 - + - + - + - -
7 - - + + - - + -
8 + + + + + + + +
9-14 0 0 0
Fakt. VP vom Typ 2 4-1 (in 2 Blöcken):
Vers. Nr.j
BEinflussgrößen 2-fakt. WW Zielgrößen
X1 X2 X3 X4X1X2X3
X1X2X3X4
X1X3X2X4
X2X3X1X4
B
Y1 Y2
1 + - - - - + + +
2 + + - - + - - +
3 - - + - + - + -
4 - + + - - + - -
5 - - - + + + - -
6 - + - + - - + -
7 + - + + - - - +
8 + + + + + + + +
9-14 0 0 0 0
Bsp1.: Herstellung einer Chemikalie (/6/, /13/)
Mittelwerte der Ausbeute mit Konfidenzintervall
68,887 (67,35,70,42)
68,012 (66,48,69,55)
61,813 (60,28,63,35)
62,387 (60,85,63,92)
56,112 (54,58,57,65)
55,387 (53,85,56,92)
53,287 (51,75,54,82)
54,012 (52,48,55,55)68,887 (67,35,70,42)
68,012 (66,48,69,55)
61,813 (60,28,63,35)
62,387 (60,85,63,92)
56,112 (54,58,57,65)
55,387 (53,85,56,92)
53,287 (51,75,54,82)
54,012 (52,48,55,55)Katalysator
Zeit Temperatur
27
Bsp.2: Herstellung eines glutenfreien und ballaststoffangereicherten Gebäcks
Problem:Unzureichende Versorgung von an „Zöliakie“ erkrankten Menschen mit glutenfreien Backwaren hinsichtlich des Sortiments und Umfangs
Aufgaben:1. Entwicklung eines glutenfreien Gebäckes →→→→ Fakt. VP2. Untersuchung von Ballaststoffpräparaten verschiedenen
Ursprungs (Leguminosen, Gemüse und Obst) auf ihre funktionelle Eignung für glutenfreie Gebäcke
3. Ermittlung einer optimalen Kombination derBallaststoffe , die zu einer max. Volumenausbeute bei guten Teig- und Gebäckeigenschaften führt
→→→→ Mischungsplan
3.) Simplex- Zentroid Mischungsplan für 4 Komponente n(Opt. Mischung von Ballaststoffpräparaten in Gebäcken)
29
3.) Visualisierung des stat. Modells (Vol.ausbeute) und Optimierung mittels Contour- und Surface Plot (/13/)
(Ballaststoffpräparate: BS2, BS3 und BS4)
BS 2BS 3
BS 4
Vol.ausbeute
Erhebungen
Ungeplante, nicht kontrollierbare Erhebungen
Geplante Erhebungen
Bsp.: Erhebungen zur Preisent-wicklung eines Produktes oder zur Bevölkerungsentwicklung
(Die Zeit läßt sich nicht zurückdrehen, die Störeinflüsse lassen sich nicht ausschalten, politische Entschei-dungen können nicht rückgängig gemacht werden!)
Bsp.: Befragungen zur Einkommens-struktur oder zum Kauf-verhalten.
(Die Planung derartiger Erhebungen erfolgt nach einem so genannten Stichprobenplan!)
Man wählt z.B. bei Befragungen zur Einkommensstruktur der deutschen Bevölkerung eine repräsentative Teilmenge, genannt Stichprobe , aller Einkommen beziehenden Personen, genannt Grundgesamtheit , aus.
Def.: Die Menge aller möglichen Werte eines Merkmals nennt man Grundgesamtheit .Eine endliche Teilmenge der Grundgesamtheit nennt man Stichprobe .Besteht die Teilmenge aus n Elementen, so heißt n Stichprobenumfang .
Def.: Der Gesamtheit der Merkmalswerte entspricht eindeutig eine Gesamtheit von Beobachtungseinheiten (Merkmalsträgern), die man ebenfalls als Grundgesamt-heit oder Population bezeichnet.
Die Grundgesamtheit muss bei jeder Aufgabenstellun g festgelegt werden!
Bsp.: Die Füllhöhe von 50 Bierflaschen (Stichprobe) der Tagesproduktion (Grundgesamtheit) einer Brauerei soll untersucht werden.
Mathematische Statistik
Stichprobe Grundgesamtheit
Induktionsschluss
Deduktionsschluss
Beschreibende Statistik
Wahrscheinlichkeits-rechnung
SchließendeStatistik
Was ist bei einer Stichprobenentnahme zubeachten?
Die Stichprobenauswahl muss so erfolgen, dass dieStichprobe die Grundgesamtheit repräsentiert!
1. Zufälligkeit der Stichprobe
2. Vermeiden systematischer Fehler
3. Umfang der StichprobeOptimaler Stichprobenumfang ist abhängig von :- zeitlichen, arbeitstechnischen und finanziellen Faktoren- Wahl des statistischen Modells- Genauigkeit der Ergebnisse- Umfang der Grundgesamtheit
4. Homogenität und gleiche Genauigkeit
5. Vergleichbarkeit
1.3. Die Häufigkeitsverteilung diskreter und stetiger eindim. Merkmale
Bei einem Versuch wird an n Beobachtungseinheiten ein Merkmal X beobachtet, d.h. an jeder Einheit wird die Ausprägung dieses Merkmals festgestellt.
Sind a1,...,am die möglichen Ausprägungen des Merkmals X , so wird also der i-ten Beobachtungseinheit (i=1,...n) seine Ausprägung aj als Merkmalswert xi zugeordnet:
x i = aj (i)
Beobachtungseinheit
AusprägungMerkmalswertBsp.: n = 100 Bierflaschen
X = Biersortea1 = Radebergera2 = Paulanera3 = Kindl
Schritte der Datenerfassung und -aufbereitung:
1. Schritt: Erfassung der Daten eines oder mehrerer Merkmale
Stichprobe (ungeordnete Urliste): Merkmalswerte x1,...,xn
Variationsreihe (geordnete Urliste): x(1) ,...,x(n) ,
wobei x(1) ≤... ≤ x(n)
Skalierung der Ausprägungen: a1,…,am
Nr.i
LandL
ArtA
RebsorteR
HistamingehaltH [mg/l]
ButandiolgehaltB [g/l]
1 l1 a1 r1 h1 b1
… … … … … …
7 l7 = 5 a7 = 2 r7 = 2 h7 = 0,4 b7 = 0,49
… … … … … …
n ln an rn hn bn
Bsp.: Weindaten
Skalierung:
Land:li = 1 = „Deutschland“
2 = „Bulgarien“3 = „Österreich“4 = „Frankreich“5 = „Australien“
Art: ai = 1 = „Rotwein“
2 = „Weißwein“3 = „Roséwein“
Rebsorte: ri = 1 = „Cabernet Sauvignon“
2 = „Chardonnay“3 = „Merlot“ 4 = „Riesling“
2. Schritt: Ermittlung der abs. und rel. Häufigkeite n
2.1. (Primäre) Häufigkeitsverteilung bei diskreten Merkmalen (ohne Klassenbildung)
Def.: Beobachtet man an n Beobachtungseinheiten ein Merkmal X, das in m Ausprägungen a1,...,amvorkommt, so heißt
fn(aj) = "Anzahl der Fälle, in denen aj auftritt" für j=1,...,m absolute Häufigkeit der Ausprägung a j.
Bem.: - ΣΣΣΣ fn(aj) = n
- Die abs. Häufigkeiten hängen vom Stichproben-umfang n ab
- Die Folge der absoluten Häufigkeiten fn(a1),...,fn(am) heißt abs. Häufigkeitsverteilung des Merkmals X.
Def.: Die relative Häufigkeit
hn(aj) = (1/n) fn(aj) für j=1,...,m
gibt den Anteil der Beobachtungseinheiten bezogen auf n an, die die Ausprägung aj haben.
Bem.: - ΣΣΣΣ hn(aj) = 1
- 0 ≤ hn(aj) ≤ 1
- Die Folge der relativen Häufigkeiten hn(a1),...,hn(am) heißt rel. Häufigkeitsverteilung des Merkmals X.
2.2. (Sekundäre) Häufigkeitsverteilung bei stetigen Merkmalen (mit Klassenbildung)
- Da stetige Merkmale in sehr vielen Ausprägungen auftreten, fasst man verschiedene Ausprägungen in Klassen zusammen.
- Man zerlegt das Intervall, in dem alle Beobachtungswerte liegen in m Klassen K1,...,Km ,wobei Kj = (yj-1; yj] für j=1,...,m mit den Klassengrenzen yj-1 und yjund den Klassenmitten xj = (yj-1+yj) /2
- Die Anzahl der Klassen wählt man (od. 5 ≤ m ≤ 20), wobei n der Stichprobenumfang ist.
- Der Abstand dj =yj - yj-1 für j=1,...,m heißt Klassenbreite .
Wenn dj = d j=1,...,m , spricht man von äquidistantenKlassen .
Bem.: Durch die Angabe der unteren Anfangsklassengrenze y0 und die Klassenbreite d oder durch y0, ym und m wird eine Klasseneinteilung eindeutig bestimmt .
nm ≤
Def.: Als absolute Klassenhäufigkeit bezeichnet man fn(xj) = "Anzahl der Beobachtungswerte in der j- ten
Klasse mit der Klassenmitte xj" (j=1,...,m)
Def.: Als relative Klassenhäufigkeit bezeichnet manhn(xj) = (1/n) · fn(xj)
Bem.: Die Folge der relativen Häufigkeiten hn(x1),...,hn(xm) heißt rel. Häufigkeitsverteilung des stet. Merkmals X.
Bem.: Bildet man zu wenig Klassen, können charakteristische Eigenschaften der HV verloren gehen, bildet man zu viele Klassen, können kleine Zufallsschwankungen eine Interpretation der HV erschweren.
3. Schritt: Graphische Darstellungen
- Häufigkeitspolygon
● erhält man durch Verbindung der End-punkte der Strecken des Stabdiagramms,
● besonders zur Darstellung zeitlicher Verläufe geeignet, z.B.: monatliche Entwicklung der Arbeits-
losenzahlen
- Stabdiagramm (Strecken- oder Linien-diagramm)
● über jeder Ausprägung auf der Abszisse wird die zugehörige Häufigkeit als senkrechte Strecke abgetragen,
● besonders für diskrete Merkmale geeignet,z.B.: Anzahl der Stillstände einer Anlage,
Aromastufen
hn(aj)
hn(aj)
aj
aj
13%
17%57%
13%
- Histogramm
● Häufigkeiten werden als aneinanderstoßende Rechtecke dargestellt, deren Flächen proportional den Häufigkeiten sind,
● besonders für stetige Merkmale geeignet
- Flächendiagramme, z.B.: Kreisdiagramme
● Häufigkeiten werden durch Flächen repräsentiert,
● zur Strukturdarstellung geeignet,z.B.: Anzahl der Beschäftigten in ver-
schiedenen Wirtschaftszweigen,Wahlergebnisse
hn(Kj)
Kj
4. Schritt: Ermittlung der empirischen Verteilungsfu nktion
4.1. (Primäre) Häufigkeitsverteilung bei diskreten, nicht nominalskalierten Merkmalen (ohne Klassenbildung)
Def.: Die absolute Summenhäufigkeit der j- ten Ausprägung aj ist die Anzahl der Beobachtungseinheiten, bei denen eine Ausprägung ≤ aj beobachtet wurde, d.h.
fn(a1) + ... + fn(aj) = ; j=1,...,m∑=
j
1kkn )a(f
Def.: Die relative Summenhäufigkeit der j- ten Ausprägung gibt den Anteil der Beobachtungseinheiten an, bei denen eine Ausprägung ≤ aj beobachtet wurde, d.h.
hn(a1) + ... + hn(aj) = ; j=1,…,m ∑=
j
1kkn )a(h
Durch die Folge der relativen Summenhäufigkeiten wi rd die empirische Verteilungsfunktion des Merkmals X besti mmt.
Def.: Die empirische Verteilungsfunktion des Merkmals X ist eine Funktion über dem Bereich der reellen Zahlen R
≥
=<≤
<
= +=∑
m
1jj
j
1kkn
1
n
ax;1
m,...,1jaxa;)a(h
ax;0
)x(F
(x∈R)
Bem.: Die empirische Verteilungsfunktion ist auf jedem Intervall [aj,aj+1) konstant und springt bei aj+1 um den Wert hn(aj+1) nach oben. Die erste Sprungstelle liegt bei der kleinsten, die letzte bei der größten beobachteten Merkmalsausprägung (hier: a5).
)x(Fn
x
1
hn(a1)
a1 a2 a5
∑=
j
1kkn )x(f
∑=
j
1kkn )x(h
4.2. (Sekundäre) Häufigkeitsverteilung (HV) bei ste tigen Merkmalen (mit Klassenbildung)
Def.: Die absolute Klassensummenhäufigkeit der j- ten Klasse ist die Anzahl der Beobachtungswerte, die in einer Klasse mit einer Klassenmitte ≤ xj liegen, d.h.
Def.: Die relative Klassensummenhäufigkeit der j- ten Klasse gibt den Anteil der Beobachtungswerte an, die in einer Klasse mit der Klassenmitte ≤ xj liegen, d.h.
Durch die Folge der relativen Klassensummenhäufigke iten wird die empirische Verteilungsfunktion von X besti mmt!
; j=1,...,mfn(x1) + ... + fn(xj) =
; j=1,...,mhn(x1) + ... + hn(xj) =
Def.: Die empirische Verteilungsfunktion des Merkmals X, deren Beobachtungswerte in Klassen vorliegen, hat folgende Gestalt:
≥
=<≤
<
= +=∑
m
1jj
j
1kkn
1
n
xx;1
m,...,1jxxx;)x(h
xx;0
)x(F
Bem.: Die empirische Verteilungsfunktion an der Stelle x ist die Summe der relativen Häufigkeiten aller Klassen, deren Mitten xj ≤ x sind. Als Sprungstellen werden jetzt die Klassenmitten verwendet.
Kl.Nr. Kl.grenzen Kl.mitte abs.Häuf. rel.H äuf. abs.K.S.H. rel.K.S.H.j (y j-1 ; y j] x j fn(K j) hn(K j)
------------------------------------------------------------------------------------------------------0 (- ∞ ; 0] 1 (0 ; 0,25] 0,125 f1 h1 f1 h12 (0,25 ; 0,45] 0,35 f2 h2 f1+f2 h1+h2
M
7 (1,45 ; 1,65] 1,55 f7 h7 n 1(1,65 ; ∞)
Bsp.: Weindaten - stet. Merkmal Butandiolgehalt
Sekundäre Verteilungstabelle (y0 = 0 ; d = 0,25):
MMM
Bem.: Die empirische Verteilungsfunktion ist auf jedem Intervall [xj,xj+1) konstant und springt bei xj+1 um den Wert hn(xj+1) nach oben. Die erste Sprungstelle liegt bei der kleinsten, die letzte bei der größten Klassenmitte.
)x(Fn
x
1
hn(x1)
x1 x2
Klassenmitten
hn(x1)+ hn(x2)
Bsp.3: Kolonien von Mikroorganismen (s. /8/, /11/)
Aufgabe: Untersuchung der Eigenschaften von Mikro-organismen in der Luft
Versuch: Nährboden auf Agarplatte wurde 30 min. bei Zimmertemperatur offen im Raum stehen gelassen,nach Inkubation über 3 Tage waren 40 Pilz- bzw.Bakterienkolonien gewachsen, von denen derDurchmesser, die Antibiotikaresistenz, sowie dieFarbe bestimmt wurden.
1. Frage: Wie kann man die Verteilung der Merkmalebeschreiben?Unterscheiden sich die Verteilungen der Durch-messer zwischen den Kolonien unterschiedlicher Farbe?
2. Schritt: Erfassung der Daten und Codierung(Stichprobe)
Nr. i Durchmesser x i Resistenz y i yi cod Farbe z i zi
cod
1 0,5 sehr sensitiv 1 gelb 1
2 4,1 sensitiv 2 gelb 1
… … … … … …
14 2,1 resistent 4 weißlich 2
… … … … … …
1.Schritt: Datenerfassung und Merkmalsklassifizierung
X: Durchmesser [mm] – quantitativ, stetig, metrisch skaliert
Y: Antibiotikaresistenz [-] – qualitativ, diskret, ordinal skaliert
Z: Farbe [-] – qualitativ, diskret, nominal skaliert
Frequency Tabulation for Durchmesser
--------------------------------------------------- -----------------------------
Lower Upper Rel ative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Fre quency Frequency Frequency
--------------------------------------------------- -----------------------------
at or below 0,0 0 0,0000 0 0,0000
1 0,0 2,0 1,0 3 0,0750 3 0,0750
2 2,0 4,0 3,0 7 0,1750 10 0,2500
3 4,0 6,0 5,0 10 0,2500 20 0,5000
4 6,0 8,0 7,0 10 0,2500 30 0,7500
5 8,0 10,0 9,0 7 0,1750 37 0,9250
6 10,0 12,0 11,0 3 0,0750 40 1,0000
above 12,0 0 0,0000 40 1,0000
--------------------------------------------------- -----------------------------
Box-and-Whisker Plot
Dur
chm
esse
r0
2
4
6
8
10
12
3. Schritt: Bestimmung der empir. Häufigkeitsverteil ungmit Statgraphics /11/Merkmal X: Durchmesser
Histogram (abs. frequencies)
Durchmesser
freq
uenc
y
0 2 4 6 8 10 120
2
4
6
8
10
Piechart for Antibiotikaresistenz
Antibiotikaresistenzintermediärresistentsehr resistentsehr sensitivsensitiv
20,00%
15,00%
10,00%32,50%
22,50%
Barchart for Antibiotikaresistenz
0
3
6
9
12
15
freq
uenc
y
intermediär resistent sehr resistentsehr sensitiv sensitiv
Merkmal Y: Antibiotikaresistenz (Ausprägungen hier nicht codiert!)Frequency Table for Antibiotikaresistenz
------------------------------------------------------------------------
Relative Cumulative Cum. Rel.
Class Value Frequency Frequency Frequency Frequency
------------------------------------------------------------------------
1 intermediär 8 0,2000 8 0,2000
2 resistent 6 0,1500 14 0,3500
3 sehr resistent 4 0,1000 18 0,4500
4 sehr sensitiv 13 0,3250 31 0,7750
5 sensitiv 9 0,2250 40 1,0000
------------------------------------------------------------------------
Kategorien weisen hier keine Ordnung auf!
Merkmal Y: Antibiotikaresistenz (Ausprägungen hier numerisch codiert!) Frequency Tabulation for Antibiotikaresistenz_1
--------------------------------------------------- -----------------------------
Lower Upper Rel ative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Fre quency Frequency Frequency
--------------------------------------------------- -----------------------------
at or below 0,5 0 0,0000 0 0,0000
1 0,5 1,5 1,0 13 0,3250 13 0,3250
2 1,5 2,5 2,0 9 0,2250 22 0,5500
3 2,5 3,5 3,0 8 0,2000 30 0,7500
4 3,5 4,5 4,0 6 0,1500 36 0,9000
5 4,5 5,5 5,0 4 0,1000 40 1,0000
above 5,5 0 0,0000 40 1,0000
--------------------------------------------------- -----------------------------
Histogram
Antibiotikaresistenz_1
freq
uenc
y
0 1 2 3 4 5 60
3
6
9
12
15
Dot Diagram
0 1 2 3 4 5
Antibiotikaresistenz_1
0
13
Fre
quen
cy
Ausprägungen
Ordnung zwischen den Kategorien
Piechart for Farbe
Farbebraunfarblosgelbgrünorangerosaweißlich
2,50%10,00%
32,50%
5,00%5,00%10,00%
35,00%
Frequency Table for Farbe
--------------------------------------------------- ---------------------
Relative Cumulative Cum. Rel.
Class Value Frequency Frequency Frequency Frequency
--------------------------------------------------- ---------------------
1 braun 1 0,0250 1 0,0250
2 farblos 4 0,1000 5 0,1250
3 gelb 13 0,3250 18 0,4500
4 grün 2 0,0500 20 0,5000
5 orange 2 0,0500 22 0,5500
6 rosa 4 0,1000 26 0,6500
7 weißlich 14 0,3500 40 1,0000
--------------------------------------------------- ---------------------
Merkmal Z: Farbe (Ausprägungen hier nicht codiert!)
Barchart for Farbe
freq
uenc
y
0
3
6
9
12
15
braunfarblos gelb grün orange rosaweißlich
Kategorien weisen keine Ordnung auf!
Histogram
Durchmesser der weißlichen Kolonien
perc
enta
ge
0 2 4 6 8 10 120
5
10
15
20
25
30
Histogram
Durchmesser der gelben Kolonien
perc
enta
ge
0 2 4 6 8 10 120
10
20
30
40
Histogram
Durchmesser der sonstigen Kolonien
perc
enta
ge
-1 1 3 5 7 9 110
10
20
30
40
Vergleich der rel. Häufigkeitsverteilungen der Durc hmesser zwischen den Kolonien unterschiedlicher Farbe
1.4. Lage- und Streuungsmaße, Schiefe und Exzeß
1.4.1 Lagemaße
1. Mittelwertmaße
Mittelwertmaße geben an, wo sich das Zentrum einer Häufigkeitsverteilung befindet.
2. Frage: Wie kann man mittels statistischer Maßzahlen einen quantitativen Vergleich der Häufigkeitsverteilungen vornehmen? Wie unterscheiden sich die mittleren Durchmesserzwischen den Kolonien unterschiedlicher Farbe, wie stark streuen die Werte?
● Arithmetischer Mittelwert
Seien x1, ... ,xn die beobachteten Merkmalswerte des Merkmals X mit den Ausprägungen a1, ... ,am
∑∑==
==m
1jjnj
n
1ii )a(fa
n1
xn1
x
Vorteile: - der arithm. Mittelwert einer Stichprobe ist ein unverzerrter Schätzwert für den Mittelwert einernormalverteilten Grundgesamtheit und gut geeignet bei eingipfligen Häufigkeitsverteilungen
- alle Informationen der Stichprobe werden ausgeschöpft
Nachteile: - das arithm. Mittel ist unbrauchbar bei schiefen oder mehrgipfligen Verteilungen
- das arithm. Mittel ist nicht robust gegenüber Ausreißern
● Median (Zentralwert)
- Der Median ist dadurch charakterisiert, dass jeweils 50 % der Beobachtungswerte einen Wert ≤ und 50 % einen Wert ≥ dem Median haben.
- Wir ordnen daher die Beobachtungswerte der Größe nach und erhalten die Variationsreihe x(1) , ... ,x(n) mit
x(1) ≤ ... ≤ x(n)
k2n
1k2n
für
für
;
;
2
xxx
x~ )1k()k(
)1k(
5,0 =+=
+= +
+
Vorteile: - der Median ist auch bei asymmetrischen und mehrgipfligen Verteilungen verwendbar
- er ist zu bevorzugen bei nur wenigen Messwertenund ordinalskalierten Beobachtungsmerkmalen
- er ist robust gegenüber Ausreißern
Nachteile: - es werden nicht alle Informationen der Stichprobeausgeschöpft (nicht alle Messwerte gehen in die Berechnung des Medianes ein)
- bei normalverteilten Merkmalen hat er schlechtereSchätzeigenschaften als das arithm. Mittel
● Gestutztes Mittel
- Wir ordnen wieder die Stichprobe der Größe nach und streichen dann die m untersten und die m obersten Merkmalswerte.
- Dann erhält man das (m/n) 100 % - gestutzte Mittel, indem man das arithmetische Mittel aus den verbleibenden n - 2m Merkmalswerten bildet.
)x...x(m2n
1x )mn()1m(
nm −+ ++
−=
• Vorteil: - das gestutzte Mittel ist robust gegenüber Aus-reißern und basiert im Vergleich zum Median auf einer größeren Anzahl von Werten
• Nachteil: - es besitzt bei Normalverteilung schlechtere Schätz-eigenschaften als das arithm. Mittel und schöpftnicht alle Informationen der Stichprobe aus
● Modalwert (Dichtemittel, Modus)
Bei eingipfligen Verteilungen gibt das Dichtemittel die Ausprägung mit der größten Häufigkeit in der Messreihe an.
Bei klassierten Daten (stet. Merkmale) gibt es die Klassen-mitte der Klasse mit der größten Klassenhäufigkeit an.
fn (xmod) ≥ fn (aj) ∀aj j=1,...,m
Vorteile: - das Dichtemittel ist auch bei nominal- und ordinal-skalierten Merkmalen anwendbar
- bei mehrgipfligen Verteilungen gibt man neben dem Median auch die lokalen Dichtemittel an
- das Dichtemittel ist robust gegenüber AusreißernNachteile: - bei Normalverteilung hat das Dichtemittel
schlechtere Eigenschaften als das arithm. Mittel- nicht alle Beobachtungswerte gehen in die Berechnung des Dichtemittels ein
● Geometrisches Mittel
- Sind die Merkmalswerte relative Änderungen (Zuwachsraten, Produktionssteigerungen), so wird das geometrische Mittel verwendet, da die Gesamtänderung nicht durch eine Summe, sondern durch ein Produkt beschrieben wird.
- Die Bezeichnung geom. Mittel ist ein Hinweis auf Zähl- oder Messdaten, die statt der arithm. eine geometr. Zahlenfolge bilden (z.B. bei Verdünnungsreihen).
- Es wird verwendet bei Zähldaten, von denen bekannt ist, dass sie durch multiplikative Wirkungen entstanden sind und deren Werte sehr unterschiedliche Größenordnungen aufweisen, sowie fast immer eine stark asymmetrische Häufigkeits-verteilung aufweisen (z.B. Keimzahlen in flüssigen Medien, wie Milch und Gülle).
- das geom. Mittel findet auch Anwendung bei logarithmischen Daten (z.B. Spektralanalyse)
nn1g xxx ⋅⋅= K 1xg −
∑=
=n
1iig xlg
n1
xlg xlg xlgg 10x =
ng AEx = 1x g −
1. Seien x1, ... ,xn Beobachtungswerte (rel. Änderungen, bez. auf 1 = 100%) mit xi ≥ 0 für i=1,...,n und r die durch-schnittliche Zuwachsrate.
und r =
2. Manche Analysenmethoden liefern die Logarithmen der gesuchten Gehalte (z.B. Spektralanalyse).
=
3. Wenn sich eine Anfangsmenge A in einer Zeiteinheit um eine konstante Zuwachsrate r erhöht, dann erhält man nach n Zeiteinheiten die Endmenge E: E = A(1+r)n
und r =
Es gibt folgende Möglichkeiten der Berechnung des g eom. Mittels und der durchschnittlichen Zuwachsrate :
Bsp.: In einer best. Kultur erhöhte sich in 3 Tagen die Zahlder Bakterien pro Einheit von 100 auf 500. Wie groß ist die durchschnittliche tägliche Zunahme?
Lösung: %7171,01AE1xr ng ==−=−=
Bsp.: Bei 12 Milchproben wurden folgende Keimzahlen in [103]gemessen:5150 26900 285 265 4750 60900 1410 3950 2150 8250 30500 295Wie groß ist die mittlere Keimzahl?
Lösung: Da die Werte über mehrere Zehnerpotenzen schwanken, wird das geom. Mittel bestimmt.
(Im Vergleich: )
998.433.31010x 5358,6xlgg ===
083.067.12x =
2. Weitere Lagemaße:
● αααα - Quantil
Wir betrachten die Variationsreihe x (1) , ... ,x (n) . Dann sind αααα % der Merkmalswerte ≤ und (1- αααα) % der Merkmalswerte ≥ dem αααα - Quantil.
( )
( ) ( ) .Z.g
.Z.gkeine
n
n
falls
falls
,nk
),nint(k
;
;
2
xxx
x~ 1kk
1k
α⋅α⋅
α⋅=α⋅=
+= +
+
α
(int = ganzer Teil)
Wenn
Quartil
Quartil
oberes
unteres
Median
75,0
25,0
5,0
⇒
⇒
⇒
=α
● Spannweite (Range, Variationsbreite)
Einfachstes Streuungsmaß, gibt den Streubereich einer HV an, d.h. den Bereich, in dem alle Merkmalswerte liegen. Sei x(1), ... ,x(n) eine Variationsreihe, dann gilt:
R = x(n) - x(1) .
Vorteil: - Einfach zu bestimmendes Streuungsmaß, einfach interpretierbar
Nachteile: - R ist nicht robust gegenüber Ausreißern- R besitzt keine guten stat. Schätzeigenschaften
1.4.2 Streuungsmaße
Maße, die die Abweichung der Beobachtungswerte vom Zentrum einer Häufigkeitsverteilung beschreiben, heißen Streuungs- oder Dispersionsmaße.
● Quartilsabstand (Interquartile range)
- Der Quartilsabstand gibt den Bereich zwischen oberem und unterem Quartil einer Messreihe an.
- Er enthält 50 % aller Merkmalswerte.
I = 25,075,0 x~x~ −
Vorteile: - I ist robust gegenüber Ausreißern- I ist anschaulich und besitzt bessere statistische Schätzeigenschaften als die Spannweite
Nachteil: - nicht alle Informationen der Stichprobe gehen in die Berechnung ein
∑=
−=n
1i5,0i x~x
n1
d
∑∑==
−≤−n
1ii
n
1i5,0i cxx~x
● Mittlere absolute Abweichung vom Median
Man wählt hier als Bezugsgröße für die Abweichung der Merkmalswerte vom Zentrum der Häufigkeitsverteilung den Median.
Es gilt die Minimumeigenschaft des Medians:
∀c ∈ R
Vorteile: - d ist robust gegenüber Ausreißern- d ist gut geeignet bei schiefen Häufigkeits-verteilungen
Nachteil: - bei Normalverteilung ist die empir. Varianz das bessere Schätzmaß
5,0i x~x −5,0y~ 5,0i x~x −
● Median der absoluten Abweichungen der Werte vom Median
) = yi = mad = med (
Vorteile: - d ist robust gegenüber Ausreißern- d ist gut geeignet bei schiefen Häufigkeits-verteilungen
Nachteil: - bei Normalverteilung ist die empir. Varianz das bessere Schätzmaß
● Stichprobenvarianz und Standardabweichung
- Wir betrachten nun als Bezugsgröße für das Zentrum der HVdas arithmetische Mittel.
- Dann ist die Stichprobenvarianz die durchschnittliche quadratische Abweichung der Messwerte vom arithmetischen Mittelwert.
- Dabei wird jedoch durch den Faktor (n-1), d.h. die Anzahl der voneinander unabhängigen Abweichungen, genannt Freiheitsgrad, dividiert.
- Der Stichprobenumfang n sollte mindestens 6 betragen!
⋅−
−=−
−= ∑∑
==
2n
1i
2i
2n
1ii
2 xnx1n
1)xx(
1n1
s
)xn)x((1n
1)xx(
1n1
s 2n
1i
2i
n
1i
2i −
−=−
−= ∑∑
==
n
ssx =
sx ± s3x ⋅±
- Als Standardabweichung s bezeichnet man:
- Der Standardfehler des arithm. Mittelwertes bezieht sich auf den Stichprobenumfang:
Vorteile: - Die Varianz s2 hat die besten Schätzeigenschaften bei Normalverteilung
- Die Standardabweichung s hat die gleiche Dimension wie die Messwerte und der arithm. Mittelwert, man kann daher Intervalle der Form
bzw.
Nachteil: - s2 ist nicht robust gegenüber Ausreißern
angeben.
Vorteil: - v ist gut geeignet zum Vergleich von Streuungen von Beobachtungsreihen mit unterschiedlichemMittelwert
xx
%]100[IxI
sv ⋅=
- Variationskoeffizient
Der Variationskoeffizient ist ein von
misst.maß, das das Verhältnis von s und
bereinigtes Streuungs-
Grafische Darstellung von Lage- und Streuungsmaßen:
Box & Whisker Plot(Enzymaktivitäten)
Median 25%-75% Min-Max
1 2 3 4 5 6 7 8
Mutanten
20
25
30
35
40
45
50
55
60
65
70
75
Enz
ymko
nzen
tra
tione
n
1. Box- und Whisker Plots (/11/ u./12/)
Enzymaktivitäten von 8 Mutanten Vanadiumgehalt (log) von Weinen
Multipler Box- Whisker Plot für Vanadium
Land
Van
adiu
m
Median 25%-75% Non-Outlier Range
Weisswein
Cz
ech
Re
pu
blic
Hu
ng
ary
Ro
ma
nia
So
uth
Afr
ica
-1 ,5
-1 ,0
-0 ,5
0 ,0
0 ,5
1 ,0
1 ,5
2 ,0
2 ,5
3 ,0
Rotwein
Cz
ech
Re
pu
blic
Hu
ng
ary
Ro
ma
nia
So
uth
Afr
ica
Grafische Darstellung von Lage- und Streuungsmaßen:
Mittelwertplot (Enzymaktivitäten von Mutanten)
arithm . Mittelwert MW + - 95%-iges Konfidenzintervall Extremwerte
1 2 3 4 5 6 7 8
Mutanten
20
25
30
35
40
45
50
55
60
65
70
75
Enz
ymko
nzen
tra
tione
n
2. Mittelwertplots
Enzymaktivitäten von 8 Mutanten
Mittelwertplot (Enzymaktivitäten)
arithm. MW Mean±0,95*SD
1 2 3 4 5 6 7 8
Mutanten
25
30
35
40
45
50
55
60
65
70
Enz
ymko
nzen
tra
tione
n
Bem.: - Die Standardabweichung ist das Streuungsmaß, das z.B. in der analytischen Chemie verwendet wird, um den Zufallsfehler von Analysemethoden (nicht von Einzelwerten!) zu charakterisieren.
- Bei log. Verteilungen wird die Stichprobenvarianz aus den Logarithmen der Messwerte berechnet.
- Der minimale Stichprobenumfang zur Bestimmung von Stichprobenvarianz und Standardabweichung sollte mindestens n = 6 betragen.
=
Bem.: - Falls z.B. bei chem.- analytischen Untersuchungen nur < 6 Mehrfachbestimmungen an einer Probe durchgeführt werden können, dafür aber mehrere Bestimmungswerte an Proben unterschiedlichen Gehaltes vorliegen (Vor.: die Varianz ist unabhängig vom Gehalt der Probe!), kann man die Gesamt-stichprobenvarianz bzw. -standardabweichung wie folgt berechnen:
wobei m - Anz. der Proben und nj - Anz. der Mehrfachbestimmungen der j- ten Probe
2j
m
1j
n
1iji
2 )xx(mn
1s
j
−−
= ∑∑= =
2ss =
Mittelwertmaße:
Merkmal X: Durchmesser (metrisch)
Stichprobe Verteilungsform Arithm. MW Median Vergleich
Alle Kolonien (40) symmetrisch 5,9 6,0 ≈
Gelbe Kolonien (13) rechtssteil 7,1 7,7 <
Weißliche Kolonien (14) symmetrisch 6,0 6,0 =
Sonstige Kolonien (13) linkssteil 4,5 4,2 >
Merkmal Y: Antibiotikaresistenz (ordinal)
Median: (sensitiv) (13 · „1“, 10 · „2“, 8 · „3“, 5 · „4“, 4 · „5“ )
Modalwert: D = 1 (sehr sensitiv)
Merkmal Z: Farbe (nominal)
Modalwert: D = 2 (weißlich ist die am häufigsten auftretende Farbe)
2x~ 5,0 =
Bsp.3: 40 Kolonien von Mikroorganismen (s. /8/, /11/)
braunfarblosgelb grünorangerosaweißlich
Box-and-Whisker Plot
0
2
4
6
8
10
12
Dur
chm
esse
r
Farbe
Streuungsmaße:
Merkmal X: Durchmesser
StichprobeSpann-weite
VarianzStand.abw.
Quartils-abst.
Var.koeff.
Alle Kolonien (40) 11,7 8,71 2,95 4,3 0,50
Gelbe Kolonien (13) 11,4 8,77 2,96 3,6 0,41
Weißliche Kolonien (14) 8,0 7,50 2,74 3,8 0,45
Sonstige Kolonien (13) 9,9 7,62 2,76 3,4 0,61
Box-and-Whisker Plot
Dur
chm
esse
r
Farbgruppegelb sonstige weißlich
0
2
4
6
8
10
12
1.4.3. Schiefe und Exzess
1. Schiefe
- Wenn der Median und der Modalwert vom arithmetischen Mittel abweichen, bezeichnet man eine Verteilung als schief .
- Man charakterisiert schiefe Verteilungen außer durch Lage-und Streuungsmaße auch durch die Schiefe g1 als Maß für die Schiefheit und ihre Richtung .
- Echt schiefe Verteilungen liegen vor, wenn bei Vorliegen einer genügend großen Anzahl von Beobachtungswerten und nach allen messtechnischen und mathematischen Möglichkeiten der Transformation der Daten in symmetrische Verteilungen die Schiefe der Verteilung bestehen bleibt.
- Keine echte Schiefe liegt vor, wenn man schiefe Verteilungen durch Transformationen (z.B. Logarithmieren) in symmetrische überführen kann.
Bsp.: Auftreten log. Verteilungen bei:• Analyse sehr niedriger Gehalte (z.B. Spurenanalyse)• Merkmalen mit sehr großer Spannweite (mehrere
Zehnerpotenzen)• sehr großem Zufallsfehler (z.B. halbquantitative
Spektralanalyse)
∑∑
∑
=
=
=
−=−
−=
n
1i
3
i
n
1i
32i
n
1i
3i
1 sxx
n1
))xx(n1
(
)xx(n1
g
mod5,0 xx~x == 0g1 =Eine HV ist symmetrisch , wenn und
Eine HV ist linksschief oder rechtssteil , wenn mod5,0 xx~x <<und 0g1 <
Eine HV ist rechtsschief oder linkssteil , wenn mod5,0 xx~x >>und 0g1 >
2. Exzeß und Kurtosis
- Mängel in den gewählten Versuchsbedingungen können zu einer Überhöhung (Streckung) oder Unterhöhung(Stauchung) der Häufigkeitsverteilung führen.Derartig verzerrte Verteilungen werden durch den Exzeß g2charakterisiert.
- Der Exzeß gibt an, ob das absolute Maximum der Häufigkeitsverteilung (bei annähernd gleicher Varianz) größer oder kleiner dem Maximum der Normalverteilungs-dichte ist.
3'g3s
xxn1
3
)xx(n1
)xx(n1
g 2
4
i2
2i
4i
2 −=−
−=−
−
−= ∑
∑
∑
g2‘ heißt Kurtosis .
Wenn g2 = 0 ⇒ Häufigkeitsverteilung entspricht der NV
Wenn g2 < 0 ⇒ abs. Häufigkeitsmaximum < Maximum der NV- Dichte (HV ist flachgipfliger), d.h. die Anzahl „größerer“ Abweichungen von ist geringer als bei der NV bei gleicher Varianz.
Wenn g2 > 0 ⇒ abs. Häufigkeitsmaximum > Maximum der NV- Dichte (HV ist steilgipfliger), d.h. die Anzahl „größerer“ Abweichungen von ist größer als bei der NV bei gleicher Varianz.
x
x
Als k- tes Moment bezeichnet man: ∑=
n
1i
kix
n1
und als k-tes zentriertes Moment : ∑=
−n
1i
ki )xx(
n1
Bem.: Damit stellen der arithm. Mittelwert das 1. Moment und die empirische Varianz das 2. zentrierte Moment dar, während Schiefe und Exzeß auf dem 3. bzw. 4. zentrierten Moment basieren.
Wir haben bisher überwiegend Aufgabenstellungen betrachtet, bei denen an jeder Beobachtungseinheit nur ein einziges Merkmal beobachtet wurde.
- Bei vielen praktischen Problemen wirken jedoch Merkmale nicht nur einzeln, sondern auch im Komplex. Es interessiert dann der Zusammenhang zwischen zwei oder mehreren Merkmalen.
- Wir bezeichnen einen Komplex von Merkmalen auch als mehrdimensionales Merkmal (od. Merkmalsvektor) und schreiben: (X1,...,Xn), bzw. (X,Y) bei einem zwei-dimensionalen Merkmal.
1.5. Mehrdimensionale Merkmale
Beispiele:
1. X- Lagerzeit von Zuckerrüben (X- deterministische d.h.
Y- Saccharosegehalt von Zuckerrüben einstellbare Einflussgröße, Y- zufällige Zielgröße)
2. X- Kaliumgehalt von Weinen (X und Y - zufällige Größen,
Y- Aschegehalt von Weinen jede kann als Einfluss- bzw. Zielgröße betrachtet werden)
3. Prozess des Nass-Salzens von Hartkäse(X1,X2,X3 - determ.
X1- Natriumchloridgehalt im Salzbad Einflussgrößen,
X2- Temperatur des Salzbades Y1,Y2 - zufällige
X3- Salzdauer Zielgrößen)
Y1- Masseausbeute des Käses nach dem SalzenY2- Sensorischer Qualitätsparameter
WICHTIG: Erfassung aller für den zu untersuchenden Sach-verhalt (Produkt, Prozess) wesentlichen Merkmale!
5 Fragestellungen sind von Interesse:
1. Welche Art von Merkmalen werden betrachtet?(Klassifizierung, Einflussgröße einstellbar oder zufällig?)
2. Wie lassen sich zweidimensionale Merkmale grafisch darstellen? (Punktwolke, Streudiagramm, XY- Scatterplot)
3. Wie sieht die Häufigkeitsverteilung (tabellarisch und grafisch) eines zweidimensionalen Merkmals aus?(2-dim. Häufigk.tabelle, Kontingenztafel, 3-dim. Histogramm)
4. Wie stark ist der Zusammenhang zwischen 2 Merkmalen X und Y und welche Richtung hat er?(Assoziations-, Kontingenz-, Maßkorrelations- oder Rangkorrelationskoeffizient)
5. In welcher Form lässt sich der Zusammenhangdarstellen?(Kontingenztafel-, Varianz- u. Regressionsanalyse)
zu 1.) Streudiagramm (XY- Scatterplot)
x
y
x
y
Rezipr. Transf.
1/x
y
Bsp.: Fallhöhe und Schwingungsfrequenz von Wasserfällen
annähernd linearer Zusammenhang
Hyperbel
zu 2.) Häufigkeitsverteilung
Zur Darstellung von Häufigkeitsverteilungen dienen Häufigkeitstabellen (Vierfeldertafeln, Kontingenztafeln) und grafische Darstellungen durch dreidimensionale Histogramme oder Polygone.
1. Fall:- Sei (X,Y) ein nominalskaliertes 2- dim. Merkmal mit je 2 Ausprägungen (aj,bk) j,k=1,2 (z.B.: ja/ nein, vorhanden, nicht
vorhanden)
Vierfeldertafel (2 x 2):
YSumme
vorhanden nicht vorhanden
X vorhandennicht vorh.
f11 f12 f11+f12
f21 f22 f21+f22
Summe f11+f21 f12+f22 n
Bsp.4: Untersuchung von 227 Tieren auf Milbenbefall der Spezies A und B
Vierfeldertafel (2 x2):
Spezies A Summe
vorhanden nicht vorhanden
Spezies vorhanden B nicht vorhanden
44 23 67
75 85 160
Summe 119 108 227
- Die Randsummen geben Aufschluss darüber, wie viele der Tiere eine der beiden Milben beherbergen bzw. nicht beher-bergen, unabhängig davon, ob die andere Spezies vorhanden ist oder nicht, d.h. sie geben die eindimensionalen Häufigkeits-verteilungen an.
Ergebnis:
- Der Anteil der Träger von A- Milben unter den Trägern von B-Milben ist größer als in der Gesamtprobe, denn nur auf etwa der Hälfte aller 227 Tiere kamen A- Milben vor (Randsumme 119), aber in der Teilmenge der 67 Ratten, die B- Milben beherbergen, befinden sich 44 Träger von A- Milben. Umgekehrt gilt dasselbe.
- Zwischen dem A- Milbenbefall und dem B- Milbenbefall scheint also ein statistischer Zusammenhang zu bestehen.
Bem.: - In einer Vierfeldertafel erkennt man einen statisti-schen Zusammenhang daran, dass die abs. Häufig-keiten einer Reihe bzw. Spalte im Tafelinnern nicht proportional zu den entsprechenden Randsummen sind (44/23 ≠ 119/108 bzw. 75/85 ≠ 119/108, analog die Verhältnisse zur Zeilensumme!)
- aber: bei kleinen abs. Häufigkeiten können durch Zufall Disproportionalitäten vorgetäuscht sein, d.h. die Sicherheit für das Vorhanden sein eines statistischen Zusammenhanges ist entsprechend gering!
2. Fall:
- Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, bei dem jede Komponente auf einer Rangskala gemessen wird, d.h. als Merkmalsausprägung eine Rangzahl hat.
- Vorliegen einer Tabelle der Rangzahlen (keine Häufigkeits-tabelle!)
Tabelle der Rangzahlen:
i R(x i) R(yi) d i d i2
1 R(x1) R(y1) d1 d12
... ... ... ... ...
n R(xn) R(yn) dn dn2
- dabei ist di = R(xi) - R(yi) die Differenz der Rangzahlen deri- ten Komponente von X und Y
Bei einer Weinverkostung sollen 8 Weinsorten hinsichtlich ihres Aromas in eine Rangordnung gebracht werden. 2 Prüfer sollen unabhängig voneinander die Sorten begutachten, wobei die Sorte mit dem schwächsten Aroma die Rangzahl 1 und die Sorte mit dem stärksten Aroma die Rangzahl 8 erhalten soll.
i Sorte Prüfer 1 R(x i)
Prüfer 2R(yi)
d i
1 A 6 5 1
2 B 3 2 1
3 C 8 8 0
4 D 2 4 -2
5 E 1 1 0
6 F 7 6 1
7 G 4 3 1
8 H 5 7 -2
Tabelle der Rangzahlen:
Bsp.5: Weinverkostung
Ergebnis:
- Nur bei 2 Sorten gab es Übereinstimmung in der Bewertung, bei allen übrigen Sorten gab es Differenzen, die aber nicht mehr als 2 Rangzahlen betragen.
- Man kann einen statistischen Zusammenhang vermuten, denn je höher im allgemeinen die Rangzahl des 1. Prüfers ist, desto höher ist im allgemeinen auch die Rangzahl des 2. Prüfers.
- Die Weinsorten scheinen also Aromaunterschiede aufzuweisen und beide Prüfer waren in der Lage, diese zu erkennen.
3. Fall:
- Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, deren Ausprägungen (aj,bk) mit den absoluten Häufigkeiten fjk und den relativen Häufigkeiten hjk für j=1,...,l und k=1,...,m auftreten.
Kontingenztafel (l x m):
Yb1 b2 ... bm
Summe
a1 f11 f12 ... f1m f1.
X a2 f21 f22 ... f2m f2.
... ... ... ... ...
al fl1 fl2 flm fl .
Summe f.1 f.2 ... f.m n
Bsp.6: Untersuchung der Noten von 32 Studenten in Mathematik und Statistik (2 ordinalskal. Merkmale)
Kontingenztafel (5 x 5):
Note in Mathematik1 2 3 4 5 Summe
NoteinStatistik
1 1 1 0 0 0 2
2 0 2 3 0 0 5
3 0 2 10 4 0 16
4 0 0 2 4 0 6
5 0 0 1 1 1 3
Summe 1 5 16 9 1 32
Ergebnis:
- Je besser im allgemeinen die Note in Mathematik ist, desto besser ist im allgemeinen auch die Note in Statistik und umgekehrt.
- Man kann also einen statistischen Zusammenhang zwischen den Noten vermuten, den man daran erkennt, dass die in der Nähe der Diagonalen (von links oben nach rechts unten) gelegenen Felder der Kontingenztafel die höchsten absoluten Häufigkeiten (Besetzungszahlen) aufweisen.
Bsp.7: Untersuchung des Zusammenhangs von Haar- und Augenfarbe von Frauen (Nominalskala) (Lebart, L. u.a.,1995)
Haar-farbe
Augen-farbe
schwarz braun rot blond ΣΣΣΣ
dunkel-braun
68 119 26 7 220
hell-braun
15 54 14 10 93
grün 5 29 14 16 64
blau 20 84 17 94 215
ΣΣΣΣ 108 286 71 127 592
4. Fall:
- Sei (X,Y) ein metrisch skaliertes Merkmal, für deren Komponenten X und Y eine Klasseneinteilung vorliegt
Häufigkeitstabelle (analog Kontingenztafel!) (l x m):
Klassen-grenzen (y 0;y1]
Y(y1;y2] ... (ym-1;ym] Summe
(x0;x 1] f11 f12 ... f1m f1.
X (x1;x 2] f21 f22 ... f2m f2.
... ... ... ... ...
(x l-1;x l] fl1 fl2 flm fl⋅Summe f.1 f.2 ... f.m n
Bsp.: Untersuchung des Zusammenhangs zwischen dem Kalium- und Aschegehalt bei Weinen
Bsp.: Weindaten (2- dim.Histogramm, /12/)
2- dim. Histogramm (Weine aus Ungarn und Tschechien)
2- dim. Histogramm(Weine aus Ungarn und Tschechien)
zu 3.) Zusammenhangsmaße
Art der Merkmale Häufigkeitsvert. Zusammenhangsmaß
nominalskaliert Vierfeldertafel Assoziationskoeff. von Cramér , Cole, and Yule, Kontingenzkoeff. von Pearson
nominal- oder (und) ordinalskaliert
Kontingenztafel Assoziationskoeff. von Cramér und Kontingenz-koeff. von Pearson
ordinalskaliert (Tab. von Rangzahlen)
Rangkorrelationskoeff. von Spearman und Kendall
metrisch skaliert 2- dim. Häufigkeitstabelle (Kontingenztafel)
Vor.: X,Y zufällige MerkmaleLin. Abhängigkeit → Maß-korrelationskoeff. von Bravais/ PearsonMon. Abhängigkeit → Rang-korrelationskoeff. von Spearman
1. Kontingenzkoeffizient C von Pearson:
- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes diskretes Merkmal, das in den Ausprägungen (aj, bk) für j = 1,…l und k = 1,…,m mit den abs. Häufigkeiten fjk auftritt.
- Der Kontingenzkoeffizient ist ein Maß für die Stärke des stochastischen Zusammenhanges zwischen 2 diskreten Merkmalen.
nC 2
2
+χχ=
∑∑= = ⋅⋅
⋅⋅
⋅
⋅−
=χl
1j
m
1k kj
2
kjjk
2
n
ffn
fff
wobei
Bem.: - Der Kontingenzkoeffizient C nimmt Werte im Intervall
( )( )m,lmin
1m,lminC0
−≤≤
nC 2
2
+χχ= und 0 ≤ C ≤ 0,707
an.
- Der maximale Wert von C (d.h. vollständige Kontingenz)ist von der Tafelgröße (Zeilen- bzw. Spaltenzahl l und m)abhängig und nähert sich für große l bzw. m gegen 1. ⇒⇒⇒⇒ besser: korrigierter Kontingenzkoeffizient von
Pearson C corr
- Für die Vierfeldertafel gilt:
kein Zusammenhang
vollst. Zusammenhang
Bem.: - Der korrigierte Kontingenzkoeffizient Ccorr wird berechnet nach:
( )( ) 1m,lmin
m,lminn
C 2
2
corr −⋅
+χχ=
und es gilt nun: 0 ≤ Ccorr ≤ 1 ,
d.h. bei vollständiger Kontingenz wird immer der Wert 1 angenommen, unabhängig von der Größe der Kontingenztafel.
2. Assoziationskoeffizient von Cramér (Cramér‘s V):
- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes diskretes Merkmal, das in den Ausprägungen (aj, bk) für j = 1,…l und k = 1,…,m mit den abs. Häufigkeiten fjk auftritt.
- Der Assoziationskoeffizient ist ebenfalls ein Maß für dieStärke des stochastischen Zusammenhanges zwischen 2 diskreten Merkmalen.
( )( )1m,lminnV
2
−χ=
∑∑= = ⋅⋅
⋅⋅
⋅
⋅−
=χl
1j
m
1k kj
2
kjjk
2
n
ffn
fff
wobei
mit 0 ≤ V ≤ 1
kein Zusammenhangvollst. Zusammenhang
Bsp.4: Ratten
V = 0,17
3. Rangkorrelationskoeffizient r s von SPEARMAN:
- Sei (X,Y) ein 2- dim. , ordinal oder metrisch skaliertes Merkmal , bei dem jede Komponente Merkmalswerte mit einer eindeutigen Rangfolge hat (rangskaliert).
- Wir beobachten an den n Beobachtungseinheiten die Merkmalswerte (xi,yi) für i=1,...,n
- Wir ordnen nun jedem Beobachtungswert xi bzw. yi für i=1,...,n eine Rangzahl R(xi) bzw. R(yi) zu, wobei gilt:R(x(i)) = i für i=1,...,n und x(1) ≤ x(2) ≤ ... ≤ x(n)
- Tritt eine Ausprägung mehrfach auf („Bindungen“), so ordnet man diesen gleichen Werten als Rang das arithmetische Mittel der Ränge zu, die sie einnehmen.
- Bsp.: x(1)=2; x(2)=4; x(3) =4; x(4) =6; x(5) =9
→ R(x(1))=1; R(x(2))=2,5; R(x(3))=2,5; R(x(4))=4; R(x(5))=5
Formel für den Rangkorrelationskoeffizienten r s:
- Der Rangkorrelationskoeffizient ist ein Maß für die Stärke und Richtung eines monotonen stochastischen Zusammen-hanges zwischen 2 rangskalierten Merkmalen.
Bsp.5: Weinverkostung durch 2 Prüfer
Der Rangkorrelationskoeffizient von rs = 0,86 deutet auf einen recht starken, monoton wachsenden stochastischen Zusammenhang hin.
Wenn keine „Bindungen“ vorliegen, d.h. wenn xi ≠ xj für i ≠ j und yi ≠ yj für i ≠ j gilt:
( )1nn
d61r 2
n
1i
2i
s −⋅
⋅−=
∑= , wobei ( ) ( )iii yRxRd −=
i=1,…,nBem.: Für den Rangkorrelationskoeffizienten gilt:
● Wenn rs < 0 → neg. RangkorrelationWenn rs > 0 → pos. Rangkorrelation
● -1 ≤ rs ≤ +1
● |rs| = 1 , wenn X und Y monoton zusammenhängenrs = 1 , wenn die x- Ränge mit den y- Rängen
übereinstimmenrs = -1 , wenn die x- und y- Ränge genau
entgegengesetzte Rangfolgen ergeben.
Formel für den Maßkorrelationskoeffizienten r XY:
( ) ( )
( )( ) ( )( )∑∑
∑
−⋅−−
−⋅−−= =
2i
2i
i
n
1ii
XYyyxx)1n(
yyxx)1n(r
4. Maßkorrelationskoeffizient r XY von BRAVAIS- PEARSON:
- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal , deren Merkmalswerte (xi,yi) , i=1,...,n, einen näherungsweise linearen Zusammenhang zwischen X und Y vermuten lassen.
- Wir beobachten an den n Beobachtungseinheiten die Merkmalswerte (xi,yi) für i=1,...,n
- Der Maßkorrelationskoeffizient ist ein Maß für die Stärke und Richtung eines linearen stochast. Zusammenhanges zwischen 2 metrisch skalierten Merkmalen.
Bem.: Für den Maßkorrelationskoeffizienten rXY gilt:
● Wenn rXY < 0 → negative KorrelationWenn rXY > 0 → positive Korrelation
● -1 ≤ rXY ≤ +1
● |rXY| = 1 , wenn X und Y linear zusammenhängen
● Wenn rXY = 0 → Unkorreliertheit zwischen X und YWenn rXY = 0 und (X,Y) 2- dim. normalverteilt
→ Unabhängigkeit zwischen X und Y
● Der Korrelationskoeffizient ist nicht imstande, nichtlineare Zusammenhänge zwischen Merkmalen zu erkennen.
● Man beachte Schein- und Unsinnkorrelationen!
Bem.: ● Merkmale mit sehr schiefen Häufigkeitsverteilungen können mitunter auch einen Korrelationskoeffizienten nahe 0 haben, obwohl ein statistischer Zusammen-hang zwischen ihnen besteht.
● B = rXY2 heißt Bestimmtheitsmaß. Es gibt den Anteil
der Variation der y- Werte an, der durch den linearen Zusammenhang zwischen X und Y bestimmt wird.
● Bei der Untersuchung von linearen Abhängigkeiten zwischen mehr als 2 Merkmalen gibt es:- partielle Korrelationskoeffizienten,- multiple Korrelationskoeffizienten und - kanonische Korrelationskoeffizienten.
Zu 4.) Form der statistischen Abhängigkeit
- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal mit den Merkmalswerten (xi,yi) für i=1,...,n.
- Es interessiert die Form der Abhängigkeit eines Merkmals Y(abhängiges Merkmal, Zielgröße, Regressand) von einem Merkmal X (unabh. Merkmal, Einflussgröße, Regressor).
- Alle kontrollierbaren Einflussgrößen werden konstant gehalten.
- Wir beschränken uns auf den Fall des Modells I der einfachen linearen Regression (1Einflussgröße, lineare Abhängigkeit).
Vor.: ● Y zuf. Merkmal,
→ RM I● X
zuf. Merkmal
zuf. Merkmal, mit kleinem Fehler messbareinstellbares Merkmal
→ RM II
● Streudiagramm (XY- Scatterplot) →
Annahme eines linearen Modells für die Abhängigkeit zwischen X und Y in der Grundgesamtheit:
y = β0 + β1 x, genannt lineare Regressionsgleichung.
Dann gilt für die zuf. Beobachtungen der Zielgröße:Yi = β0 + β1 xi + εi i=1,…,n
Residuen,wobei εi unabhängig und identischverteilt mit Eεi =0 und D2εi = σ2
und σ2 unabhängig von den Messpunkten xi
Bem.: Wenn εi ~ N(0, σ2) → bei RM I : Yi~ N(β0 + β1 xi, σ2)
bzw. Y~ N(β0 + β1 x, σ2)
Regressionsanalyse:
1. Schätzung der empirischen linearen Regressionsgleichung(Ausgleichsgerade) nach der Methode der kleinsten Quadrate (MkQ, LS):
( ) ( ) ( )( )∑ ∑∑= ==
→ε=⋅β+β−=−=ββn
1i
n
1i
2i
2i10i
n
1i
2ii10 minˆ
n1
xyn1
yyn1
,Q
Die Werte von β0 und β1, für die Q(β0, β1) ihr Minimum annimmt, nennt man Kleinste-Quadrate-Schätzer . 10
ˆundˆ ββ
Beobachtungswerte Modellwerte
geschätzte Residuen
Durch Nullsetzen der partiellen Ableitungen von Q nach β0und β1 erhält man ein Normalgleichungssystem, das zu lösen ist.
Bem.:
( ) ( )
( ) X
XYn
1i
2i
i
n
1ii
1 SQSP
xx
yyxxb =
−
−⋅−=
∑
∑
=
=
Die auf der Basis der konkreten Stichprobe ermittelten Schätzwerte für β0 und β1 bezeichnet man mit b0 und b1.
und xbyb 10 ⋅−=
→ geschätzte lineare Regressionsgleichung:
xbb)b,b(y 1010 ⋅+=
( ) ( ) XYi
n
1iiXY SP
1n1
yyxx1n
1s ⋅
−=−⋅−
−= ∑
=
heißt Kovarianz zwischen X und Y und
( ) X
n
1i
2i
2X SQ
1n1
xx1n
1s ⋅
−=−
−= ∑
=Varianz von X.
oder:X
YXY1 s
srb =
2. Zeichnen der Regressionsgerade ins Streudiagramm:
x
yxbby 10 ⋅+=
yi
iy
0
b0
xi
iε
( ) ( )( )∑ ∑∑= ==
ε−
=⋅+−−
=−−
=n
1i
n
1i
2i
2i10i
n
1i
2ii
2R ˆ
2n1
xbby2n
1yy
2n1
s
R2
R SQ2n
1s ⋅
−=
Restquadratsumme
3. Güte des Regressionsmodells- Beurteilung der Güte der Modellvorhersage für jeden Mess-wert mit Hilfe der geschätzten Residuen , i=1,…, n
- Maß für die Variation der Stichprobenwerte um die geschätzte Regressionsgerade: Restvarianz
geschätzte Residuen
iii yyˆ −=ε
- Streuungszerlegung (Zerlegung der Quadratsummen!):
( ) ( ) ( )∑ ∑∑= ==
−+−=−n
1i
n
1i
2i
2ii
n
1i
2i yyyyyy
MRT SQSQSQ += durch den Modellzusammenhang erklärte „Streuung“
„Gesamtstreuung“ „Reststreuung“
FG
Erklärte Streuung: Darstellung der Variation der y- Werte, die auf den linearen Zusammenhang
SQM zwischen X und Y zurückzuführen ist, d.h. sie enthält die Variation der Werte
auf der Geraden um den Mittelwert .
Reststreuung: Verbleibender Rest der Variation der y-SQR Werte
Bem.: ● Liegen alle beobachteten Werte exakt auf einer Geraden, so sind die Residuen 0 und ebenso die Reststreuung. Dann ließe sich die gesamte Variation von Y durch den linearen Modellzusammenhang mit X erklären (funktionaler linearer Zusammenhang).
● Je größer die Reststreuung ist, desto schlechterbeschreibt das Modell die Daten.
y
- Als Maßzahl für die Güte der Modellanpassungverwendet man häufig das Bestimmtheitsmaß B. Es gibt den Anteil an der Gesamtstreuung der y- Werte an, der durch die Regression von Y auf X erklärt wird und ist der Quotient aus erklärter und Gesamtstreuung.
( )
( )
( )
( )∑
∑
∑
∑
=
=
=
=
−
−−=
−
−== n
1i
2i
n
1i
2ii
n
1i
2i
n
1i
2i
T
M
yy
yy1
yy
yy
SQSQ
B
0 ≤ B ≤ 1
B = rXY2
funktionaler linearer Zusammenhangkein linearer Zusammenhang
Für Vorhersagen sollte das Bestimmtheits-maß möglichst ≥ 0,8 sein!
Aber: B ist bei RM I vom Versuchsplan abhängig!
- Tests zur Prüfung der Modelladäquatheit (F- Test der Varianzanalyse) und zur Prüfung der Modellparameter(t- Tests, Konfidenzintervalle) im Rahmen der schließenden Statistik
4. Residualanalyse
- Prüfen der Modellvoraussetzungen über den Zufallsfehler(ε ~ N(0, σ2) und σ2 unabhängig von den Messpunkten xi)
- Residualplots
iii yyˆ −=ε → normierte Residuenε
ε=ˆ
ii s
ˆd
y x y
+3
-3
00 0
idealer Verlauf
d dd
ungleiche Varianzen
Ausreißer
3d i > →→→→ Ausreißer
XY- Scatterplot ( Lanthanum, Gadolinum)y = -0,7128 + ,91690 * x
Korrelationskoeffizient: r = 0,98136
-4 -3 -2 -1 0 1 2
Lanthanum
-5
-4
-3
-2
-1
0
1
Gad
olin
um
95% Konfigenzgrenzen
Bsp.: Weindaten, Abhängigkeit zwischen den seltenen Erden-Parametern Lanthanum und Gadolinum (RM II) (/12/)
Normierte Residuen
-5 -4 -3 -2 -1 0 1
Geschätzte Werte für Gadolinum
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Nor
mie
rte
Res
idu
en
Geschätzte gegen beobachtete Werte (Gadolinum)
-5 -4 -3 -2 -1 0 1
Geschätzte Werte
-5
-4
-3
-2
-1
0
1B
eoba
chte
te W
erte
95% Konfidenzgrenzen
Bsp.: Weindaten - Matrixplot (Box- Whisker Plot und Scatterplot) für Alkalität, Asche und Kalium (transformiert ) (/11/)
Matrix der Maßkorrelationskoeffizienten:Alkalität Asche Kalium
Alkalität 0,7643 0,7258Asche 0,7643 0,9600Kalium 0,7258 0,9600
Geschätzte lin. Regressionsgerade: Kalium = -134,05 + 413,633*Asche
Bsp.: Weindaten (Matrix Plot) (/12/)
Matrix Plot (Histogramm, Scatterplot und lin.Regressionsgerade)
für Alkalität, Asche und Kalium (transformiert) Alkalität
Asche
Kalium