Statistik für Prozesswissenschaften - TU Berlin2019/04/01 · 1. Beschreibende und explorative...

Statistik für Prozesswissenschaften

U. Römischhttp:// www.lmtc.tu-berlin.de/angewandte_statistik_und_consulting

Varianten:

1. VL (2 SWS) + Ü am PC (2 SWS) → 4 LP (Abschluss: Klausur)2. VL (2 SWS) + Ü am PC ( 2SWS)

+ Projekt mit PA → 6 LP (Abschluss: Klausur +Projektarbeit)

Wahlpflicht oder Freie Wahlfür Studenten der LMT, BT, BGT, TUS, WW, EPT, EVT, EGT

Literatur und Software zur LV „Statistik für PW“

/1/ Autorenkollektiv (2004): Einführung in die Biometrie.2. Aufl., Saphir- Verl. Ribbesbüttel

/2/ Backhaus, K., Erichson, B., Plinke,W., Weiber,R . (2011)Multivariate Analysemethoden. 10. Aufl. Springer- Verl Berlin

/2/ Bärlocher, F. (2008):Biostatistik.2. Aufl., Thieme Verl. Stuttgart

/3/ Bortz, J., G. A. Lienert u. K. Boehnke (1990):Verteilungsfreie Methoden in der Biostatistik.Springer- Verl. Berlin

/4/ Fahrmeir, L., R. Künstler, I. Pigeot u. G. Tutz (2004):Statistik- Der Weg zur Datenanalyse.5. Aufl., Springer- Verl. Berlin

/5/ Hartung, J. u. a. (1989):Statistik. Lehr- und Handbuch der angewandten Statis tik. 7. Aufl., Oldenbourg Verl. München

/6/ Kleppmann, W. (2006):Taschenbuch Versuchsplanung4. Auflage Hanser Verl. München

/7/* Precht, M. u. R. Kraft (1992)Biostatistik 1 und 2. 5. Aufl., Oldenbourg Verl. München

/8/ Rudolf, M. u. W. Kuhlisch (2008)Biostatistik- Eine Einführung für Biowissenschaftler . Pearson Studium, München

/9/ Sachs, L. u. Hedderich, J. (2006)Angewandte Statistik- Methodensammlung mit R12. Aufl., Springer Verl. Berlin

/10/ Stahel, W. (1999):Statistische Datenanalyse - Eine Einführung für Natu rwissenschaftler. 2. Aufl., Vieweg Verl. Braunschweig/ Wiesbaden

/11/ Timischl, W. (2000)Biostatistik- Eine Einführung für Biologen und Medizi ner.2. Aufl., Springer Verl. Berlin

/12/ Statgraphics centurion XVI von STATPOINT Technologies Inc./13/ Statistica Vers. 12 von StatSoft Inc.

Inhaltsverzeichnis

EINLEITUNG

1. Was versteht man unter Statistik, Biometrie, Chemometrie,

Ökonometrie und Technometrie?

2. Wie lügt man mit Statistik?

● Umfragen

● Mittelwert- und Streuungsmaße

● Grafiken

● Signifikanzaussagen bei stat. Tests

1. Beschreibende und explorative Statistik

1.1. Charakterisierung von Merkmalen

1.2. Grundgesamtheit und Stichprobe

1.3. Die Häufigkeitsverteilung diskreter und stetige r ein-

dimensionaler Merkmale

- absolute u. relative Häufigkeiten und ihre grafische

Darstellung

- empirische Verteilungsfunktion

1.4 Lage- und Streuungsmaße, Schiefe und Exzeß

- arithm. Mittel, Median, gestutztes Mittel, Modalwert,

geometrisches Mittel, α- Quantil

- Spannweite, Medianabstand, Quartilsabstand, Varianz, Standardabweichung, Standardfehler des arithm. Mittelwertes, Variationskoeffizient, Box- und Whisker Plots - Schiefe und Exzess

1.5. Zweidimensionale Merkmale

- grafische Darstellung (Scatterplot)

- Häufigkeitsverteilung (Vierfeldertafel, Kontingenztafel,

2- dim. Häufigkeitstabelle, graf. Darstellungen)

- Zusammenhangsmaße (Assoziations-,Kontingenz-,

Maßkorrelations- und Rangkorrelationskoeff.)

- lineare Regression (einf. und multiple lineare Regression

und polynomiale Regression)

2. Wahrscheinlichkeitsrechnung

2.1. Zufällige Ereignisse, Ereignisfeld, Wahrschein lichkeit

- Regeln für die Berechnung von Wahrscheinlichkeiten

2.2. Zufallsgrößen (ZG)

- Arten von Zufallsgrößen und ihre Verteilungen (diskrete

und stetige Zufallsgrößen)

- Kenngrößen von Zufallsgrößen (Erwartungswert u. Varianz)

2.3. Spezielle Verteilungen

- Binomial-, Hypergeometrische-, Poisson- und

Normalverteilung

- Prüfverteilungen (Chi2-, t- u. F- Verteilung), Funktionen

von Zufallsgrößen

2.4. Grenzwertsätze

3. Schließende STATISTIK

3.1. Statistische Schätzverfahren- Schätzmethoden, Stichprobenfunktion, Punkt-schätzungen

- Konfidenz- und Toleranzintervalle, Kontrollkarten 3.2. Statistische Tests

- Parametrische Tests für Mittelwerte u. Varianzen bei 1- und 2- Stichprobenproblemen

- Varianzanalyse und multiple Vergleiche - Verteilungsfreie Methoden (Verteilungsanpassung, verteilungsfreie Tests)

- Induktive Methoden bei der Regressionsanalyse (Test der Parameter u. des Modells, Residualanalyse, Konfidenz- u. Prognoseintervalle)

4. Komplexe Projektbeispiele

4.1 Stat. Versuchsplanung bei der Herstellung eines glutenfreien

und ballaststoffangereicherten Gebäckes

4.2 Stat. Versuchsplanung zur Optimierung des Fermentations-

prozesses zur Ethanolgewinnung auf der Basis der

Gärsubstrate Zuckerrübenextrakt und – dicksaft

4.3 Stat. Selektionsverfahren zur Auswahl der Mutante mit der

höchsten Enzymaktivität aus einer Menge von Mutanten der

Species Aspergillus niger

4.4 Multivariate Datenanalyse zur Herkunftsbestimmung von Weinen aus verschiedenen Ländern auf der Basis von 100 chemischen Analysenparametern

In der Übung mit PC- Praktikum werden mit Statistikp rogrammen

konkrete Fragestellungen aus den Fachgebieten behan delt.

EINLEITUNG

1. Was ist Statistik?

Statistik ist die Wissenschaft des Sammelns, Analys ierens und Interpretierens von Daten.

Sie beantwortet die Fragen:

1. Wie sollen welche Daten gewonnen werden?2. Wie soll man Daten beschreiben? und3. Welche Schlüsse kann man aus Daten ziehen?

Teilgebiete:

Beschreibende StatistikWahrscheinlichkeitstheorie Stat. DA

Stochastik Schliessende Statistik Stat. VP

2. Wie lügt man mit Statistik?

Bsp. 1: Wie lügt man mit Umfragen ?

Bsp. 2: Verwendung falscher Mittelwert- undStreuungsmaße

Bsp. 3: Vorsicht bei der Interpretation vonGrafiken!

Bsp. 4: Falsche Interpretation der Ergebnisse statistischer Tests, Stichproben -umfangproblem

1. Beschreibende und explorative Methoden

Die Beschreibende und explorative Statistikdient der Beschreibung, Strukturierung undVerdichtung umfangreichen Datenmaterials.

Wie erhält man nun Daten und welcher Art sind die D aten?

Erhebungen und Versuche

Ziel: Kenntnisse über die Eigenschaften bestimmter Objekte(z.B. Anlagen, Messmethoden, Weinproben, Hefestämme) oder Individuen (z.B. Personen, Tiere, Pflanzen) zu erhalten

• Erhebungen ⇒⇒⇒⇒ Ist- Standsanalysen

• Versuche ⇒⇒⇒⇒ - Vergleich von Gruppen - Untersuchung von Zusammenhängen zwischen Merkmalen

Die Objekte/ Individuen, an denen Beobachtungen vorge-nommen werden, heißen Beobachtungseinheiten(Merkmalsträger).Dabei ist kein Objekt/ Individuum mit einem anderen identisch. Diese Unterschiedlichkeit nennt man Variabilität . Die Variabilität biologischer Objekte/ Individuen ist häufig genetisch oder umweltbedingt.

- Die Größen oder Eigenschaften, auf die sich die Beobachtungen beziehen, heißen Merkmale .

- Jedes Objekt/ Individuum ist durch eine spezielle Merkmals-ausprägung gekennzeichnet.

- Alle beobachteten Werte eines Merkmals heißen Merkmalswerte .

1.1. Charakterisierung von Merkmalen

Merkmale

(Unterscheidung durch Art)

Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma

Klassifizierung von Merkmalen

(Unterscheidung durch Größe)

Bsp.: Alter, Gewicht, Masse, Länge, Volumen, Einkommen, Wasser- u. Lufttemperatur, Konzentration,Zellzahl

1.

2.

Diskrete Merkmale Stetige Merkmale

Merkmale

(endlich viele oder abzählbar unendlich viele Merkmalsausprägungen)

Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma, Zellzahl

(überabzählbar unendlich viele Aus-prägungen, d.h. Werte im reellen Zahlenintervall)

Bsp.: Alter, Gewicht, Masse, …

Qualitative Merkmale Quantitative Merkmale

Merkmale

Nominalskalierte Merkmale

Ordinalskalierte Merkmale

Metrisch skalierteMerkmale

3.

(Skala mit niedrigstemNiveau, keine Vergleichbarkeit oder Rangfolge zwischen den Werten)

Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma

(Skala mit höherem Niveau, Werte unter-scheiden sich in ihrer Intensität, ermöglichen eine Rangfolge-ordnung, jedoch keine Interpretation der Abstände zwischen den Rängen)

Bsp.: Aroma, Härtegrad,sensor. Parameter, Zensuren

(Skala mit höchstem Niveau, Abstände zwischen den Werten sind interpretierbar)

Bsp.: Alter, Gewicht, Masse, Länge, Volumen, Ein-kommen, Wasser- u. Lufttemperatur, Zell-zahl, Konzentration,

Intervallskala Proportions-skala

Intervallskala (Einheitenskala) :

• Die Skala besteht aus Zahlen, zwischen denen gleich große Intervalle bestimmbar sind.

• Der Nullpunkt wird willkürlich festgelegt (relativ).• Es sind nur Differenzen von Messwerten sinnvoll

interpretierbar.

Bsp.: Temperaturskala nach Celsius, tägl. Zunahme der Körpermasse, bei logar. Transformation der Messwerte

Proportionalskala (Ratioskala) :

• Zusätzlich zur Intervallskala wird ein absoluter Nullpunktdefiniert, so dass auch Quotienten von Messwerten sinnvoll interpretierbar sind.

Bsp.: Temperaturskala nach Kelvin (eine Verdoppelung der Temperatur entspricht der Verdoppelung des Gasvolumens), Gewicht, Masse, Volumen, Zellzahl

Daten kann man durch Befragung von Personen (Erhebungen)oder durch Experimente (Messungen) gewinnen.

Experimente

Passive Experimente Aktive Experimente

Alle Beobachtungswerte ergeben sich zufällig während des Versuches!

Aktive Planung der Experimente vor deren Durchführung, Planung der Versuchsbedingungen

Kombinierte Experimente

Anwendung der Methoden der statistischen

Versuchsplanung (SVP)!

1.2. Grundgesamtheit und Stichprobe

Problem

3 (4) Versuchsetappen:

Planung

Durchführung

Auswertung

Methoden der statistischen Versuchsplanung

Ziel: Erzielen von Ergebnissen mit ausreichender Sicherheit und Genauigkeit bei minimaler Anzahl von Versuchen

Grundprinzipien der Stat. Versuchsplanung

• Wiederholen und Mehrfachrealisieren von Versuchs-punkten (um Mess- und Versuchsfehler zu bestimmen)

• Zufallsreihenfolge und Randomisierung (um Störeinflüsse auszuschalten)

• Blockbildung (um Störeinflüsse als Blockfaktor zu erfassen)

• Symmetrie der Versuchsanordnungen

• Vermengen

• Sequentielles Experimentieren

Arten von Versuchsplänen

Faktorielle Versuchspläne (Box):

• Plackett- Burman- VP

• Vollst. und fraktionierte VP 1. Ordnung vom Typ 2k und 2k-p

• Vollst. und fraktionierte VP 2. Ordnung vom Typ 3k und 3k-p

• Kombinierte VP vom Typ 2k und 3k‘ bzw 2k-p und 3k‘-p‘

• Box- Behnken- VP

• Zentral zusammengesetzte VP

Mischungspläne (Scheffé)

• Simplex- Gitter und Zentroid- Pläne

Optimale Versuchspläne (Kiefer):A,- D,- G-, I- optimale Versuchspläne

Bsp.1: Herstellung einer Chemikalie [s. /6/]

PROBLEM:Zur Herstellung einer Chemikalie werden mehrere Ausgangsstoffe einschließlich Katalysator vermischt und über längere Zeit erhitzt. Dabei erfolgt eine Reaktion und das Reaktionsprodukt wird abgetrennt.

ZIEL:Erhöhung der Ausbeute durch eine Untersuchung der Wirkung der Einflussgrößen :- Temperatur [120-140°C]- Reaktionszeit [2-4h] und- Katalysatormenge [0,1-0,5%]und ihrer Wechselwirkungen

Faktorieller Versuchsplan

Bsp.: 3 Einflussgrößen, y = f(x 1,x2,x3)

8 Würfelpunktversuche

1 Zentralpunktversuch

x1

x3

x2

(+ - -)

(- + +)(- - +)

(+ + -)

(+ - +)

Fakt. VP vom Typ 2 3 (in 2 Blöcken):

Vers. Nr.j

BEinflussg

rößen2-fakt. WW 3-fakt.

WWZielgrößen

X1 X2 X3X1X2 X1X3 X2X3 X1X2X3

BY1 Y2

1 - - - - + + + -

2 + + - - - - + +

3 + - + - - + - +

4 - + + - + - - -

5 + - - + + - - +

6 - + - + - + - -

7 - - + + - - + -

8 + + + + + + + +

9-14 0 0 0

Fakt. VP vom Typ 2 4-1 (in 2 Blöcken):

Vers. Nr.j

BEinflussgrößen 2-fakt. WW Zielgrößen

X1 X2 X3 X4X1X2X3

X1X2X3X4

X1X3X2X4

X2X3X1X4

B

Y1 Y2

1 + - - - - + + +

2 + + - - + - - +

3 - - + - + - + -

4 - + + - - + - -

5 - - - + + + - -

6 - + - + - - + -

7 + - + + - - - +

8 + + + + + + + +

9-14 0 0 0 0

Bsp1.: Herstellung einer Chemikalie (/6/, /13/)

Mittelwerte der Ausbeute mit Konfidenzintervall

68,887 (67,35,70,42)

68,012 (66,48,69,55)

61,813 (60,28,63,35)

62,387 (60,85,63,92)

56,112 (54,58,57,65)

55,387 (53,85,56,92)

53,287 (51,75,54,82)

54,012 (52,48,55,55)68,887 (67,35,70,42)

68,012 (66,48,69,55)

61,813 (60,28,63,35)

62,387 (60,85,63,92)

56,112 (54,58,57,65)

55,387 (53,85,56,92)

53,287 (51,75,54,82)

54,012 (52,48,55,55)Katalysator

Zeit Temperatur

27

Bsp.2: Herstellung eines glutenfreien und ballaststoffangereicherten Gebäcks

Problem:Unzureichende Versorgung von an „Zöliakie“ erkrankten Menschen mit glutenfreien Backwaren hinsichtlich des Sortiments und Umfangs

Aufgaben:1. Entwicklung eines glutenfreien Gebäckes →→→→ Fakt. VP2. Untersuchung von Ballaststoffpräparaten verschiedenen

Ursprungs (Leguminosen, Gemüse und Obst) auf ihre funktionelle Eignung für glutenfreie Gebäcke

3. Ermittlung einer optimalen Kombination derBallaststoffe , die zu einer max. Volumenausbeute bei guten Teig- und Gebäckeigenschaften führt

→→→→ Mischungsplan

3.) Simplex- Zentroid Mischungsplan für 4 Komponente n(Opt. Mischung von Ballaststoffpräparaten in Gebäcken)

29

3.) Visualisierung des stat. Modells (Vol.ausbeute) und Optimierung mittels Contour- und Surface Plot (/13/)

(Ballaststoffpräparate: BS2, BS3 und BS4)

BS 2BS 3

BS 4

Vol.ausbeute

Erhebungen

Ungeplante, nicht kontrollierbare Erhebungen

Geplante Erhebungen

Bsp.: Erhebungen zur Preisent-wicklung eines Produktes oder zur Bevölkerungsentwicklung

(Die Zeit läßt sich nicht zurückdrehen, die Störeinflüsse lassen sich nicht ausschalten, politische Entschei-dungen können nicht rückgängig gemacht werden!)

Bsp.: Befragungen zur Einkommens-struktur oder zum Kauf-verhalten.

(Die Planung derartiger Erhebungen erfolgt nach einem so genannten Stichprobenplan!)

Man wählt z.B. bei Befragungen zur Einkommensstruktur der deutschen Bevölkerung eine repräsentative Teilmenge, genannt Stichprobe , aller Einkommen beziehenden Personen, genannt Grundgesamtheit , aus.

Def.: Die Menge aller möglichen Werte eines Merkmals nennt man Grundgesamtheit .Eine endliche Teilmenge der Grundgesamtheit nennt man Stichprobe .Besteht die Teilmenge aus n Elementen, so heißt n Stichprobenumfang .

Def.: Der Gesamtheit der Merkmalswerte entspricht eindeutig eine Gesamtheit von Beobachtungseinheiten (Merkmalsträgern), die man ebenfalls als Grundgesamt-heit oder Population bezeichnet.

Die Grundgesamtheit muss bei jeder Aufgabenstellun g festgelegt werden!

Bsp.: Die Füllhöhe von 50 Bierflaschen (Stichprobe) der Tagesproduktion (Grundgesamtheit) einer Brauerei soll untersucht werden.

Mathematische Statistik

Stichprobe Grundgesamtheit

Induktionsschluss

Deduktionsschluss

Beschreibende Statistik

Wahrscheinlichkeits-rechnung

SchließendeStatistik

Was ist bei einer Stichprobenentnahme zubeachten?

Die Stichprobenauswahl muss so erfolgen, dass dieStichprobe die Grundgesamtheit repräsentiert!

1. Zufälligkeit der Stichprobe

2. Vermeiden systematischer Fehler

3. Umfang der StichprobeOptimaler Stichprobenumfang ist abhängig von :- zeitlichen, arbeitstechnischen und finanziellen Faktoren- Wahl des statistischen Modells- Genauigkeit der Ergebnisse- Umfang der Grundgesamtheit

4. Homogenität und gleiche Genauigkeit

5. Vergleichbarkeit

1.3. Die Häufigkeitsverteilung diskreter und stetiger eindim. Merkmale

Bei einem Versuch wird an n Beobachtungseinheiten ein Merkmal X beobachtet, d.h. an jeder Einheit wird die Ausprägung dieses Merkmals festgestellt.

Sind a1,...,am die möglichen Ausprägungen des Merkmals X , so wird also der i-ten Beobachtungseinheit (i=1,...n) seine Ausprägung aj als Merkmalswert xi zugeordnet:

x i = aj (i)

Beobachtungseinheit

AusprägungMerkmalswertBsp.: n = 100 Bierflaschen

X = Biersortea1 = Radebergera2 = Paulanera3 = Kindl

Schritte der Datenerfassung und -aufbereitung:

1. Schritt: Erfassung der Daten eines oder mehrerer Merkmale

Stichprobe (ungeordnete Urliste): Merkmalswerte x1,...,xn

Variationsreihe (geordnete Urliste): x(1) ,...,x(n) ,

wobei x(1) ≤... ≤ x(n)

Skalierung der Ausprägungen: a1,…,am

Nr.i

LandL

ArtA

RebsorteR

HistamingehaltH [mg/l]

ButandiolgehaltB [g/l]

1 l1 a1 r1 h1 b1

… … … … … …

7 l7 = 5 a7 = 2 r7 = 2 h7 = 0,4 b7 = 0,49

… … … … … …

n ln an rn hn bn

Bsp.: Weindaten

Skalierung:

Land:li = 1 = „Deutschland“

2 = „Bulgarien“3 = „Österreich“4 = „Frankreich“5 = „Australien“

Art: ai = 1 = „Rotwein“

2 = „Weißwein“3 = „Roséwein“

Rebsorte: ri = 1 = „Cabernet Sauvignon“

2 = „Chardonnay“3 = „Merlot“ 4 = „Riesling“

2. Schritt: Ermittlung der abs. und rel. Häufigkeite n

2.1. (Primäre) Häufigkeitsverteilung bei diskreten Merkmalen (ohne Klassenbildung)

Def.: Beobachtet man an n Beobachtungseinheiten ein Merkmal X, das in m Ausprägungen a1,...,amvorkommt, so heißt

fn(aj) = "Anzahl der Fälle, in denen aj auftritt" für j=1,...,m absolute Häufigkeit der Ausprägung a j.

Bem.: - ΣΣΣΣ fn(aj) = n

- Die abs. Häufigkeiten hängen vom Stichproben-umfang n ab

- Die Folge der absoluten Häufigkeiten fn(a1),...,fn(am) heißt abs. Häufigkeitsverteilung des Merkmals X.

Def.: Die relative Häufigkeit

hn(aj) = (1/n) fn(aj) für j=1,...,m

gibt den Anteil der Beobachtungseinheiten bezogen auf n an, die die Ausprägung aj haben.

Bem.: - ΣΣΣΣ hn(aj) = 1

- 0 ≤ hn(aj) ≤ 1

- Die Folge der relativen Häufigkeiten hn(a1),...,hn(am) heißt rel. Häufigkeitsverteilung des Merkmals X.

2.2. (Sekundäre) Häufigkeitsverteilung bei stetigen Merkmalen (mit Klassenbildung)

- Da stetige Merkmale in sehr vielen Ausprägungen auftreten, fasst man verschiedene Ausprägungen in Klassen zusammen.

- Man zerlegt das Intervall, in dem alle Beobachtungswerte liegen in m Klassen K1,...,Km ,wobei Kj = (yj-1; yj] für j=1,...,m mit den Klassengrenzen yj-1 und yjund den Klassenmitten xj = (yj-1+yj) /2

- Die Anzahl der Klassen wählt man (od. 5 ≤ m ≤ 20), wobei n der Stichprobenumfang ist.

- Der Abstand dj =yj - yj-1 für j=1,...,m heißt Klassenbreite .

Wenn dj = d j=1,...,m , spricht man von äquidistantenKlassen .

Bem.: Durch die Angabe der unteren Anfangsklassengrenze y0 und die Klassenbreite d oder durch y0, ym und m wird eine Klasseneinteilung eindeutig bestimmt .

nm ≤

Def.: Als absolute Klassenhäufigkeit bezeichnet man fn(xj) = "Anzahl der Beobachtungswerte in der j- ten

Klasse mit der Klassenmitte xj" (j=1,...,m)

Def.: Als relative Klassenhäufigkeit bezeichnet manhn(xj) = (1/n) · fn(xj)

Bem.: Die Folge der relativen Häufigkeiten hn(x1),...,hn(xm) heißt rel. Häufigkeitsverteilung des stet. Merkmals X.

Bem.: Bildet man zu wenig Klassen, können charakteristische Eigenschaften der HV verloren gehen, bildet man zu viele Klassen, können kleine Zufallsschwankungen eine Interpretation der HV erschweren.

3. Schritt: Graphische Darstellungen

- Häufigkeitspolygon

● erhält man durch Verbindung der End-punkte der Strecken des Stabdiagramms,

● besonders zur Darstellung zeitlicher Verläufe geeignet, z.B.: monatliche Entwicklung der Arbeits-

losenzahlen

- Stabdiagramm (Strecken- oder Linien-diagramm)

● über jeder Ausprägung auf der Abszisse wird die zugehörige Häufigkeit als senkrechte Strecke abgetragen,

● besonders für diskrete Merkmale geeignet,z.B.: Anzahl der Stillstände einer Anlage,

Aromastufen

hn(aj)

hn(aj)

aj

aj

13%

17%57%

13%

- Histogramm

● Häufigkeiten werden als aneinanderstoßende Rechtecke dargestellt, deren Flächen proportional den Häufigkeiten sind,

● besonders für stetige Merkmale geeignet

- Flächendiagramme, z.B.: Kreisdiagramme

● Häufigkeiten werden durch Flächen repräsentiert,

● zur Strukturdarstellung geeignet,z.B.: Anzahl der Beschäftigten in ver-

schiedenen Wirtschaftszweigen,Wahlergebnisse

hn(Kj)

Kj

4. Schritt: Ermittlung der empirischen Verteilungsfu nktion

4.1. (Primäre) Häufigkeitsverteilung bei diskreten, nicht nominalskalierten Merkmalen (ohne Klassenbildung)

Def.: Die absolute Summenhäufigkeit der j- ten Ausprägung aj ist die Anzahl der Beobachtungseinheiten, bei denen eine Ausprägung ≤ aj beobachtet wurde, d.h.

fn(a1) + ... + fn(aj) = ; j=1,...,m∑=

j

1kkn )a(f

Def.: Die relative Summenhäufigkeit der j- ten Ausprägung gibt den Anteil der Beobachtungseinheiten an, bei denen eine Ausprägung ≤ aj beobachtet wurde, d.h.

hn(a1) + ... + hn(aj) = ; j=1,…,m ∑=

j

1kkn )a(h

Durch die Folge der relativen Summenhäufigkeiten wi rd die empirische Verteilungsfunktion des Merkmals X besti mmt.

Def.: Die empirische Verteilungsfunktion des Merkmals X ist eine Funktion über dem Bereich der reellen Zahlen R

≥

=<≤

<

= +=∑

m

1jj

j

1kkn

1

n

ax;1

m,...,1jaxa;)a(h

ax;0

)x(F

(x∈R)

Bem.: Die empirische Verteilungsfunktion ist auf jedem Intervall [aj,aj+1) konstant und springt bei aj+1 um den Wert hn(aj+1) nach oben. Die erste Sprungstelle liegt bei der kleinsten, die letzte bei der größten beobachteten Merkmalsausprägung (hier: a5).

)x(Fn

x

1

hn(a1)

a1 a2 a5

∑=

j

1kkn )x(f

∑=

j

1kkn )x(h

4.2. (Sekundäre) Häufigkeitsverteilung (HV) bei ste tigen Merkmalen (mit Klassenbildung)

Def.: Die absolute Klassensummenhäufigkeit der j- ten Klasse ist die Anzahl der Beobachtungswerte, die in einer Klasse mit einer Klassenmitte ≤ xj liegen, d.h.

Def.: Die relative Klassensummenhäufigkeit der j- ten Klasse gibt den Anteil der Beobachtungswerte an, die in einer Klasse mit der Klassenmitte ≤ xj liegen, d.h.

Durch die Folge der relativen Klassensummenhäufigke iten wird die empirische Verteilungsfunktion von X besti mmt!

; j=1,...,mfn(x1) + ... + fn(xj) =

; j=1,...,mhn(x1) + ... + hn(xj) =

Def.: Die empirische Verteilungsfunktion des Merkmals X, deren Beobachtungswerte in Klassen vorliegen, hat folgende Gestalt:

≥

=<≤

<

= +=∑

m

1jj

j

1kkn

1

n

xx;1

m,...,1jxxx;)x(h

xx;0

)x(F

Bem.: Die empirische Verteilungsfunktion an der Stelle x ist die Summe der relativen Häufigkeiten aller Klassen, deren Mitten xj ≤ x sind. Als Sprungstellen werden jetzt die Klassenmitten verwendet.

Kl.Nr. Kl.grenzen Kl.mitte abs.Häuf. rel.H äuf. abs.K.S.H. rel.K.S.H.j (y j-1 ; y j] x j fn(K j) hn(K j)

------------------------------------------------------------------------------------------------------0 (- ∞ ; 0] 1 (0 ; 0,25] 0,125 f1 h1 f1 h12 (0,25 ; 0,45] 0,35 f2 h2 f1+f2 h1+h2

M

7 (1,45 ; 1,65] 1,55 f7 h7 n 1(1,65 ; ∞)

Bsp.: Weindaten - stet. Merkmal Butandiolgehalt

Sekundäre Verteilungstabelle (y0 = 0 ; d = 0,25):

MMM

Bem.: Die empirische Verteilungsfunktion ist auf jedem Intervall [xj,xj+1) konstant und springt bei xj+1 um den Wert hn(xj+1) nach oben. Die erste Sprungstelle liegt bei der kleinsten, die letzte bei der größten Klassenmitte.

)x(Fn

x

1

hn(x1)

x1 x2

Klassenmitten

hn(x1)+ hn(x2)

Bsp.3: Kolonien von Mikroorganismen (s. /8/, /11/)

Aufgabe: Untersuchung der Eigenschaften von Mikro-organismen in der Luft

Versuch: Nährboden auf Agarplatte wurde 30 min. bei Zimmertemperatur offen im Raum stehen gelassen,nach Inkubation über 3 Tage waren 40 Pilz- bzw.Bakterienkolonien gewachsen, von denen derDurchmesser, die Antibiotikaresistenz, sowie dieFarbe bestimmt wurden.

1. Frage: Wie kann man die Verteilung der Merkmalebeschreiben?Unterscheiden sich die Verteilungen der Durch-messer zwischen den Kolonien unterschiedlicher Farbe?

2. Schritt: Erfassung der Daten und Codierung(Stichprobe)

Nr. i Durchmesser x i Resistenz y i yi cod Farbe z i zi

cod

1 0,5 sehr sensitiv 1 gelb 1

2 4,1 sensitiv 2 gelb 1

… … … … … …

14 2,1 resistent 4 weißlich 2

… … … … … …

1.Schritt: Datenerfassung und Merkmalsklassifizierung

X: Durchmesser [mm] – quantitativ, stetig, metrisch skaliert

Y: Antibiotikaresistenz [-] – qualitativ, diskret, ordinal skaliert

Z: Farbe [-] – qualitativ, diskret, nominal skaliert

Frequency Tabulation for Durchmesser

--------------------------------------------------- -----------------------------

Lower Upper Rel ative Cumulative Cum. Rel.

Class Limit Limit Midpoint Frequency Fre quency Frequency Frequency

--------------------------------------------------- -----------------------------

at or below 0,0 0 0,0000 0 0,0000

1 0,0 2,0 1,0 3 0,0750 3 0,0750

2 2,0 4,0 3,0 7 0,1750 10 0,2500

3 4,0 6,0 5,0 10 0,2500 20 0,5000

4 6,0 8,0 7,0 10 0,2500 30 0,7500

5 8,0 10,0 9,0 7 0,1750 37 0,9250

6 10,0 12,0 11,0 3 0,0750 40 1,0000

above 12,0 0 0,0000 40 1,0000

--------------------------------------------------- -----------------------------

Box-and-Whisker Plot

Dur

chm

esse

r0

2

4

6

8

10

12

3. Schritt: Bestimmung der empir. Häufigkeitsverteil ungmit Statgraphics /11/Merkmal X: Durchmesser

Histogram (abs. frequencies)

Durchmesser

freq

uenc

y

0 2 4 6 8 10 120

2

4

6

8

10

Piechart for Antibiotikaresistenz

Antibiotikaresistenzintermediärresistentsehr resistentsehr sensitivsensitiv

20,00%

15,00%

10,00%32,50%

22,50%

Barchart for Antibiotikaresistenz

0

3

6

9

12

15

freq

uenc

y

intermediär resistent sehr resistentsehr sensitiv sensitiv

Merkmal Y: Antibiotikaresistenz (Ausprägungen hier nicht codiert!)Frequency Table for Antibiotikaresistenz

------------------------------------------------------------------------

Relative Cumulative Cum. Rel.

Class Value Frequency Frequency Frequency Frequency

------------------------------------------------------------------------

1 intermediär 8 0,2000 8 0,2000

2 resistent 6 0,1500 14 0,3500

3 sehr resistent 4 0,1000 18 0,4500

4 sehr sensitiv 13 0,3250 31 0,7750

5 sensitiv 9 0,2250 40 1,0000

------------------------------------------------------------------------

Kategorien weisen hier keine Ordnung auf!

Merkmal Y: Antibiotikaresistenz (Ausprägungen hier numerisch codiert!) Frequency Tabulation for Antibiotikaresistenz_1

--------------------------------------------------- -----------------------------

Lower Upper Rel ative Cumulative Cum. Rel.

Class Limit Limit Midpoint Frequency Fre quency Frequency Frequency

--------------------------------------------------- -----------------------------

at or below 0,5 0 0,0000 0 0,0000

1 0,5 1,5 1,0 13 0,3250 13 0,3250

2 1,5 2,5 2,0 9 0,2250 22 0,5500

3 2,5 3,5 3,0 8 0,2000 30 0,7500

4 3,5 4,5 4,0 6 0,1500 36 0,9000

5 4,5 5,5 5,0 4 0,1000 40 1,0000

above 5,5 0 0,0000 40 1,0000

--------------------------------------------------- -----------------------------

Histogram

Antibiotikaresistenz_1

freq

uenc

y

0 1 2 3 4 5 60

3

6

9

12

15

Dot Diagram

0 1 2 3 4 5

Antibiotikaresistenz_1

0

13

Fre

quen

cy

Ausprägungen

Ordnung zwischen den Kategorien

Piechart for Farbe

Farbebraunfarblosgelbgrünorangerosaweißlich

2,50%10,00%

32,50%

5,00%5,00%10,00%

35,00%

Frequency Table for Farbe

--------------------------------------------------- ---------------------

Relative Cumulative Cum. Rel.

Class Value Frequency Frequency Frequency Frequency

--------------------------------------------------- ---------------------

1 braun 1 0,0250 1 0,0250

2 farblos 4 0,1000 5 0,1250

3 gelb 13 0,3250 18 0,4500

4 grün 2 0,0500 20 0,5000

5 orange 2 0,0500 22 0,5500

6 rosa 4 0,1000 26 0,6500

7 weißlich 14 0,3500 40 1,0000

--------------------------------------------------- ---------------------

Merkmal Z: Farbe (Ausprägungen hier nicht codiert!)

Barchart for Farbe

freq

uenc

y

0

3

6

9

12

15

braunfarblos gelb grün orange rosaweißlich

Kategorien weisen keine Ordnung auf!

Histogram

Durchmesser der weißlichen Kolonien

perc

enta

ge

0 2 4 6 8 10 120

5

10

15

20

25

30

Histogram

Durchmesser der gelben Kolonien

perc

enta

ge

0 2 4 6 8 10 120

10

20

30

40

Histogram

Durchmesser der sonstigen Kolonien

perc

enta

ge

-1 1 3 5 7 9 110

10

20

30

40

Vergleich der rel. Häufigkeitsverteilungen der Durc hmesser zwischen den Kolonien unterschiedlicher Farbe

1.4. Lage- und Streuungsmaße, Schiefe und Exzeß

1.4.1 Lagemaße

1. Mittelwertmaße

Mittelwertmaße geben an, wo sich das Zentrum einer Häufigkeitsverteilung befindet.

2. Frage: Wie kann man mittels statistischer Maßzahlen einen quantitativen Vergleich der Häufigkeitsverteilungen vornehmen? Wie unterscheiden sich die mittleren Durchmesserzwischen den Kolonien unterschiedlicher Farbe, wie stark streuen die Werte?

● Arithmetischer Mittelwert

Seien x1, ... ,xn die beobachteten Merkmalswerte des Merkmals X mit den Ausprägungen a1, ... ,am

∑∑==

==m

1jjnj

n

1ii )a(fa

n1

xn1

x

Vorteile: - der arithm. Mittelwert einer Stichprobe ist ein unverzerrter Schätzwert für den Mittelwert einernormalverteilten Grundgesamtheit und gut geeignet bei eingipfligen Häufigkeitsverteilungen

- alle Informationen der Stichprobe werden ausgeschöpft

Nachteile: - das arithm. Mittel ist unbrauchbar bei schiefen oder mehrgipfligen Verteilungen

- das arithm. Mittel ist nicht robust gegenüber Ausreißern

● Median (Zentralwert)

- Der Median ist dadurch charakterisiert, dass jeweils 50 % der Beobachtungswerte einen Wert ≤ und 50 % einen Wert ≥ dem Median haben.

- Wir ordnen daher die Beobachtungswerte der Größe nach und erhalten die Variationsreihe x(1) , ... ,x(n) mit

x(1) ≤ ... ≤ x(n)

k2n

1k2n

für

für

;

;

2

xxx

x~ )1k()k(

)1k(

5,0 =+=

+= +

+

Vorteile: - der Median ist auch bei asymmetrischen und mehrgipfligen Verteilungen verwendbar

- er ist zu bevorzugen bei nur wenigen Messwertenund ordinalskalierten Beobachtungsmerkmalen

- er ist robust gegenüber Ausreißern

Nachteile: - es werden nicht alle Informationen der Stichprobeausgeschöpft (nicht alle Messwerte gehen in die Berechnung des Medianes ein)

- bei normalverteilten Merkmalen hat er schlechtereSchätzeigenschaften als das arithm. Mittel

● Gestutztes Mittel

- Wir ordnen wieder die Stichprobe der Größe nach und streichen dann die m untersten und die m obersten Merkmalswerte.

- Dann erhält man das (m/n) 100 % - gestutzte Mittel, indem man das arithmetische Mittel aus den verbleibenden n - 2m Merkmalswerten bildet.

)x...x(m2n

1x )mn()1m(

nm −+ ++

−=

• Vorteil: - das gestutzte Mittel ist robust gegenüber Aus-reißern und basiert im Vergleich zum Median auf einer größeren Anzahl von Werten

• Nachteil: - es besitzt bei Normalverteilung schlechtere Schätz-eigenschaften als das arithm. Mittel und schöpftnicht alle Informationen der Stichprobe aus

● Modalwert (Dichtemittel, Modus)

Bei eingipfligen Verteilungen gibt das Dichtemittel die Ausprägung mit der größten Häufigkeit in der Messreihe an.

Bei klassierten Daten (stet. Merkmale) gibt es die Klassen-mitte der Klasse mit der größten Klassenhäufigkeit an.

fn (xmod) ≥ fn (aj) ∀aj j=1,...,m

Vorteile: - das Dichtemittel ist auch bei nominal- und ordinal-skalierten Merkmalen anwendbar

- bei mehrgipfligen Verteilungen gibt man neben dem Median auch die lokalen Dichtemittel an

- das Dichtemittel ist robust gegenüber AusreißernNachteile: - bei Normalverteilung hat das Dichtemittel

schlechtere Eigenschaften als das arithm. Mittel- nicht alle Beobachtungswerte gehen in die Berechnung des Dichtemittels ein

● Geometrisches Mittel

- Sind die Merkmalswerte relative Änderungen (Zuwachsraten, Produktionssteigerungen), so wird das geometrische Mittel verwendet, da die Gesamtänderung nicht durch eine Summe, sondern durch ein Produkt beschrieben wird.

- Die Bezeichnung geom. Mittel ist ein Hinweis auf Zähl- oder Messdaten, die statt der arithm. eine geometr. Zahlenfolge bilden (z.B. bei Verdünnungsreihen).

- Es wird verwendet bei Zähldaten, von denen bekannt ist, dass sie durch multiplikative Wirkungen entstanden sind und deren Werte sehr unterschiedliche Größenordnungen aufweisen, sowie fast immer eine stark asymmetrische Häufigkeits-verteilung aufweisen (z.B. Keimzahlen in flüssigen Medien, wie Milch und Gülle).

- das geom. Mittel findet auch Anwendung bei logarithmischen Daten (z.B. Spektralanalyse)

nn1g xxx ⋅⋅= K 1xg −

∑=

=n

1iig xlg

n1

xlg xlg xlgg 10x =

ng AEx = 1x g −

1. Seien x1, ... ,xn Beobachtungswerte (rel. Änderungen, bez. auf 1 = 100%) mit xi ≥ 0 für i=1,...,n und r die durch-schnittliche Zuwachsrate.

und r =

2. Manche Analysenmethoden liefern die Logarithmen der gesuchten Gehalte (z.B. Spektralanalyse).

=

3. Wenn sich eine Anfangsmenge A in einer Zeiteinheit um eine konstante Zuwachsrate r erhöht, dann erhält man nach n Zeiteinheiten die Endmenge E: E = A(1+r)n

und r =

Es gibt folgende Möglichkeiten der Berechnung des g eom. Mittels und der durchschnittlichen Zuwachsrate :

Bsp.: In einer best. Kultur erhöhte sich in 3 Tagen die Zahlder Bakterien pro Einheit von 100 auf 500. Wie groß ist die durchschnittliche tägliche Zunahme?

Lösung: %7171,01AE1xr ng ==−=−=

Bsp.: Bei 12 Milchproben wurden folgende Keimzahlen in [103]gemessen:5150 26900 285 265 4750 60900 1410 3950 2150 8250 30500 295Wie groß ist die mittlere Keimzahl?

Lösung: Da die Werte über mehrere Zehnerpotenzen schwanken, wird das geom. Mittel bestimmt.

(Im Vergleich: )

998.433.31010x 5358,6xlgg ===

083.067.12x =

2. Weitere Lagemaße:

● αααα - Quantil

Wir betrachten die Variationsreihe x (1) , ... ,x (n) . Dann sind αααα % der Merkmalswerte ≤ und (1- αααα) % der Merkmalswerte ≥ dem αααα - Quantil.

( )

( ) ( ) .Z.g

.Z.gkeine

n

n

falls

falls

,nk

),nint(k

;

;

2

xxx

x~ 1kk

1k

α⋅α⋅

α⋅=α⋅=

+= +

+

α

(int = ganzer Teil)

Wenn

Quartil

Quartil

oberes

unteres

Median

75,0

25,0

5,0

⇒

⇒

⇒

=α

● Spannweite (Range, Variationsbreite)

Einfachstes Streuungsmaß, gibt den Streubereich einer HV an, d.h. den Bereich, in dem alle Merkmalswerte liegen. Sei x(1), ... ,x(n) eine Variationsreihe, dann gilt:

R = x(n) - x(1) .

Vorteil: - Einfach zu bestimmendes Streuungsmaß, einfach interpretierbar

Nachteile: - R ist nicht robust gegenüber Ausreißern- R besitzt keine guten stat. Schätzeigenschaften

1.4.2 Streuungsmaße

Maße, die die Abweichung der Beobachtungswerte vom Zentrum einer Häufigkeitsverteilung beschreiben, heißen Streuungs- oder Dispersionsmaße.

● Quartilsabstand (Interquartile range)

- Der Quartilsabstand gibt den Bereich zwischen oberem und unterem Quartil einer Messreihe an.

- Er enthält 50 % aller Merkmalswerte.

I = 25,075,0 x~x~ −

Vorteile: - I ist robust gegenüber Ausreißern- I ist anschaulich und besitzt bessere statistische Schätzeigenschaften als die Spannweite

Nachteil: - nicht alle Informationen der Stichprobe gehen in die Berechnung ein

∑=

−=n

1i5,0i x~x

n1

d

∑∑==

−≤−n

1ii

n

1i5,0i cxx~x

● Mittlere absolute Abweichung vom Median

Man wählt hier als Bezugsgröße für die Abweichung der Merkmalswerte vom Zentrum der Häufigkeitsverteilung den Median.

Es gilt die Minimumeigenschaft des Medians:

∀c ∈ R

Vorteile: - d ist robust gegenüber Ausreißern- d ist gut geeignet bei schiefen Häufigkeits-verteilungen

Nachteil: - bei Normalverteilung ist die empir. Varianz das bessere Schätzmaß

5,0i x~x −5,0y~ 5,0i x~x −

● Median der absoluten Abweichungen der Werte vom Median

) = yi = mad = med (

Vorteile: - d ist robust gegenüber Ausreißern- d ist gut geeignet bei schiefen Häufigkeits-verteilungen

Nachteil: - bei Normalverteilung ist die empir. Varianz das bessere Schätzmaß

● Stichprobenvarianz und Standardabweichung

- Wir betrachten nun als Bezugsgröße für das Zentrum der HVdas arithmetische Mittel.

- Dann ist die Stichprobenvarianz die durchschnittliche quadratische Abweichung der Messwerte vom arithmetischen Mittelwert.

- Dabei wird jedoch durch den Faktor (n-1), d.h. die Anzahl der voneinander unabhängigen Abweichungen, genannt Freiheitsgrad, dividiert.

- Der Stichprobenumfang n sollte mindestens 6 betragen!

⋅−

−=−

−= ∑∑

==

2n

1i

2i

2n

1ii

2 xnx1n

1)xx(

1n1

s

)xn)x((1n

1)xx(

1n1

s 2n

1i

2i

n

1i

2i −

−=−

−= ∑∑

==

n

ssx =

sx ± s3x ⋅±

- Als Standardabweichung s bezeichnet man:

- Der Standardfehler des arithm. Mittelwertes bezieht sich auf den Stichprobenumfang:

Vorteile: - Die Varianz s2 hat die besten Schätzeigenschaften bei Normalverteilung

- Die Standardabweichung s hat die gleiche Dimension wie die Messwerte und der arithm. Mittelwert, man kann daher Intervalle der Form

bzw.

Nachteil: - s2 ist nicht robust gegenüber Ausreißern

angeben.

Vorteil: - v ist gut geeignet zum Vergleich von Streuungen von Beobachtungsreihen mit unterschiedlichemMittelwert

xx

%]100[IxI

sv ⋅=

- Variationskoeffizient

Der Variationskoeffizient ist ein von

misst.maß, das das Verhältnis von s und

bereinigtes Streuungs-

Grafische Darstellung von Lage- und Streuungsmaßen:

Box & Whisker Plot(Enzymaktivitäten)

Median 25%-75% Min-Max

1 2 3 4 5 6 7 8

Mutanten

20

25

30

35

40

45

50

55

60

65

70

75

Enz

ymko

nzen

tra

tione

n

1. Box- und Whisker Plots (/11/ u./12/)

Enzymaktivitäten von 8 Mutanten Vanadiumgehalt (log) von Weinen

Multipler Box- Whisker Plot für Vanadium

Land

Van

adiu

m

Median 25%-75% Non-Outlier Range

Weisswein

Cz

ech

Re

pu

blic

Hu

ng

ary

Ro

ma

nia

So

uth

Afr

ica

-1 ,5

-1 ,0

-0 ,5

0 ,0

0 ,5

1 ,0

1 ,5

2 ,0

2 ,5

3 ,0

Rotwein

Cz

ech

Re

pu

blic

Hu

ng

ary

Ro

ma

nia

So

uth

Afr

ica

Grafische Darstellung von Lage- und Streuungsmaßen:

Mittelwertplot (Enzymaktivitäten von Mutanten)

arithm . Mittelwert MW + - 95%-iges Konfidenzintervall Extremwerte

1 2 3 4 5 6 7 8

Mutanten

20

25

30

35

40

45

50

55

60

65

70

75

Enz

ymko

nzen

tra

tione

n

2. Mittelwertplots

Enzymaktivitäten von 8 Mutanten

Mittelwertplot (Enzymaktivitäten)

arithm. MW Mean±0,95*SD

1 2 3 4 5 6 7 8

Mutanten

25

30

35

40

45

50

55

60

65

70

Enz

ymko

nzen

tra

tione

n

Bem.: - Die Standardabweichung ist das Streuungsmaß, das z.B. in der analytischen Chemie verwendet wird, um den Zufallsfehler von Analysemethoden (nicht von Einzelwerten!) zu charakterisieren.

- Bei log. Verteilungen wird die Stichprobenvarianz aus den Logarithmen der Messwerte berechnet.

- Der minimale Stichprobenumfang zur Bestimmung von Stichprobenvarianz und Standardabweichung sollte mindestens n = 6 betragen.

=

Bem.: - Falls z.B. bei chem.- analytischen Untersuchungen nur < 6 Mehrfachbestimmungen an einer Probe durchgeführt werden können, dafür aber mehrere Bestimmungswerte an Proben unterschiedlichen Gehaltes vorliegen (Vor.: die Varianz ist unabhängig vom Gehalt der Probe!), kann man die Gesamt-stichprobenvarianz bzw. -standardabweichung wie folgt berechnen:

wobei m - Anz. der Proben und nj - Anz. der Mehrfachbestimmungen der j- ten Probe

2j

m

1j

n

1iji

2 )xx(mn

1s

j

−−

= ∑∑= =

2ss =

Mittelwertmaße:

Merkmal X: Durchmesser (metrisch)

Stichprobe Verteilungsform Arithm. MW Median Vergleich

Alle Kolonien (40) symmetrisch 5,9 6,0 ≈

Gelbe Kolonien (13) rechtssteil 7,1 7,7 <

Weißliche Kolonien (14) symmetrisch 6,0 6,0 =

Sonstige Kolonien (13) linkssteil 4,5 4,2 >

Merkmal Y: Antibiotikaresistenz (ordinal)

Median: (sensitiv) (13 · „1“, 10 · „2“, 8 · „3“, 5 · „4“, 4 · „5“ )

Modalwert: D = 1 (sehr sensitiv)

Merkmal Z: Farbe (nominal)

Modalwert: D = 2 (weißlich ist die am häufigsten auftretende Farbe)

2x~ 5,0 =

Bsp.3: 40 Kolonien von Mikroorganismen (s. /8/, /11/)

braunfarblosgelb grünorangerosaweißlich


0

2

4

6

8

10

12

Dur

chm

esse

r

Farbe

Streuungsmaße:

Merkmal X: Durchmesser

StichprobeSpann-weite

VarianzStand.abw.

Quartils-abst.

Var.koeff.

Alle Kolonien (40) 11,7 8,71 2,95 4,3 0,50

Gelbe Kolonien (13) 11,4 8,77 2,96 3,6 0,41

Weißliche Kolonien (14) 8,0 7,50 2,74 3,8 0,45

Sonstige Kolonien (13) 9,9 7,62 2,76 3,4 0,61


Dur

chm

esse

r

Farbgruppegelb sonstige weißlich

0

2

4

6

8

10

12

1.4.3. Schiefe und Exzess

1. Schiefe

- Wenn der Median und der Modalwert vom arithmetischen Mittel abweichen, bezeichnet man eine Verteilung als schief .

- Man charakterisiert schiefe Verteilungen außer durch Lage-und Streuungsmaße auch durch die Schiefe g1 als Maß für die Schiefheit und ihre Richtung .

- Echt schiefe Verteilungen liegen vor, wenn bei Vorliegen einer genügend großen Anzahl von Beobachtungswerten und nach allen messtechnischen und mathematischen Möglichkeiten der Transformation der Daten in symmetrische Verteilungen die Schiefe der Verteilung bestehen bleibt.

- Keine echte Schiefe liegt vor, wenn man schiefe Verteilungen durch Transformationen (z.B. Logarithmieren) in symmetrische überführen kann.

Bsp.: Auftreten log. Verteilungen bei:• Analyse sehr niedriger Gehalte (z.B. Spurenanalyse)• Merkmalen mit sehr großer Spannweite (mehrere

Zehnerpotenzen)• sehr großem Zufallsfehler (z.B. halbquantitative

Spektralanalyse)

∑∑

∑

=

=

=

−=−

−=

n

1i

3

i

n

1i

32i

n

1i

3i

1 sxx

n1

))xx(n1

(

)xx(n1

g

mod5,0 xx~x == 0g1 =Eine HV ist symmetrisch , wenn und

Eine HV ist linksschief oder rechtssteil , wenn mod5,0 xx~x <<und 0g1 <

Eine HV ist rechtsschief oder linkssteil , wenn mod5,0 xx~x >>und 0g1 >

2. Exzeß und Kurtosis

- Mängel in den gewählten Versuchsbedingungen können zu einer Überhöhung (Streckung) oder Unterhöhung(Stauchung) der Häufigkeitsverteilung führen.Derartig verzerrte Verteilungen werden durch den Exzeß g2charakterisiert.

- Der Exzeß gibt an, ob das absolute Maximum der Häufigkeitsverteilung (bei annähernd gleicher Varianz) größer oder kleiner dem Maximum der Normalverteilungs-dichte ist.

3'g3s

xxn1

3

)xx(n1

)xx(n1

g 2

4

i2

2i

4i

2 −=−

−=−

−

−= ∑

∑

∑

g2‘ heißt Kurtosis .

Wenn g2 = 0 ⇒ Häufigkeitsverteilung entspricht der NV

Wenn g2 < 0 ⇒ abs. Häufigkeitsmaximum < Maximum der NV- Dichte (HV ist flachgipfliger), d.h. die Anzahl „größerer“ Abweichungen von ist geringer als bei der NV bei gleicher Varianz.

Wenn g2 > 0 ⇒ abs. Häufigkeitsmaximum > Maximum der NV- Dichte (HV ist steilgipfliger), d.h. die Anzahl „größerer“ Abweichungen von ist größer als bei der NV bei gleicher Varianz.

x

x

Als k- tes Moment bezeichnet man: ∑=

n

1i

kix

n1

und als k-tes zentriertes Moment : ∑=

−n

1i

ki )xx(

n1

Bem.: Damit stellen der arithm. Mittelwert das 1. Moment und die empirische Varianz das 2. zentrierte Moment dar, während Schiefe und Exzeß auf dem 3. bzw. 4. zentrierten Moment basieren.

Wir haben bisher überwiegend Aufgabenstellungen betrachtet, bei denen an jeder Beobachtungseinheit nur ein einziges Merkmal beobachtet wurde.

- Bei vielen praktischen Problemen wirken jedoch Merkmale nicht nur einzeln, sondern auch im Komplex. Es interessiert dann der Zusammenhang zwischen zwei oder mehreren Merkmalen.

- Wir bezeichnen einen Komplex von Merkmalen auch als mehrdimensionales Merkmal (od. Merkmalsvektor) und schreiben: (X1,...,Xn), bzw. (X,Y) bei einem zwei-dimensionalen Merkmal.

1.5. Mehrdimensionale Merkmale

Beispiele:

1. X- Lagerzeit von Zuckerrüben (X- deterministische d.h.

Y- Saccharosegehalt von Zuckerrüben einstellbare Einflussgröße, Y- zufällige Zielgröße)

2. X- Kaliumgehalt von Weinen (X und Y - zufällige Größen,

Y- Aschegehalt von Weinen jede kann als Einfluss- bzw. Zielgröße betrachtet werden)

3. Prozess des Nass-Salzens von Hartkäse(X1,X2,X3 - determ.

X1- Natriumchloridgehalt im Salzbad Einflussgrößen,

X2- Temperatur des Salzbades Y1,Y2 - zufällige

X3- Salzdauer Zielgrößen)

Y1- Masseausbeute des Käses nach dem SalzenY2- Sensorischer Qualitätsparameter

WICHTIG: Erfassung aller für den zu untersuchenden Sach-verhalt (Produkt, Prozess) wesentlichen Merkmale!

5 Fragestellungen sind von Interesse:

1. Welche Art von Merkmalen werden betrachtet?(Klassifizierung, Einflussgröße einstellbar oder zufällig?)

2. Wie lassen sich zweidimensionale Merkmale grafisch darstellen? (Punktwolke, Streudiagramm, XY- Scatterplot)

3. Wie sieht die Häufigkeitsverteilung (tabellarisch und grafisch) eines zweidimensionalen Merkmals aus?(2-dim. Häufigk.tabelle, Kontingenztafel, 3-dim. Histogramm)

4. Wie stark ist der Zusammenhang zwischen 2 Merkmalen X und Y und welche Richtung hat er?(Assoziations-, Kontingenz-, Maßkorrelations- oder Rangkorrelationskoeffizient)

5. In welcher Form lässt sich der Zusammenhangdarstellen?(Kontingenztafel-, Varianz- u. Regressionsanalyse)

zu 1.) Streudiagramm (XY- Scatterplot)

x

y

x

y

Rezipr. Transf.

1/x

y

Bsp.: Fallhöhe und Schwingungsfrequenz von Wasserfällen

annähernd linearer Zusammenhang

Hyperbel

zu 2.) Häufigkeitsverteilung

Zur Darstellung von Häufigkeitsverteilungen dienen Häufigkeitstabellen (Vierfeldertafeln, Kontingenztafeln) und grafische Darstellungen durch dreidimensionale Histogramme oder Polygone.

1. Fall:- Sei (X,Y) ein nominalskaliertes 2- dim. Merkmal mit je 2 Ausprägungen (aj,bk) j,k=1,2 (z.B.: ja/ nein, vorhanden, nicht

vorhanden)

Vierfeldertafel (2 x 2):

YSumme

vorhanden nicht vorhanden

X vorhandennicht vorh.

f11 f12 f11+f12

f21 f22 f21+f22

Summe f11+f21 f12+f22 n

Bsp.4: Untersuchung von 227 Tieren auf Milbenbefall der Spezies A und B

Vierfeldertafel (2 x2):

Spezies A Summe

vorhanden nicht vorhanden

Spezies vorhanden B nicht vorhanden

44 23 67

75 85 160

Summe 119 108 227

- Die Randsummen geben Aufschluss darüber, wie viele der Tiere eine der beiden Milben beherbergen bzw. nicht beher-bergen, unabhängig davon, ob die andere Spezies vorhanden ist oder nicht, d.h. sie geben die eindimensionalen Häufigkeits-verteilungen an.

Ergebnis:

- Der Anteil der Träger von A- Milben unter den Trägern von B-Milben ist größer als in der Gesamtprobe, denn nur auf etwa der Hälfte aller 227 Tiere kamen A- Milben vor (Randsumme 119), aber in der Teilmenge der 67 Ratten, die B- Milben beherbergen, befinden sich 44 Träger von A- Milben. Umgekehrt gilt dasselbe.

- Zwischen dem A- Milbenbefall und dem B- Milbenbefall scheint also ein statistischer Zusammenhang zu bestehen.

Bem.: - In einer Vierfeldertafel erkennt man einen statisti-schen Zusammenhang daran, dass die abs. Häufig-keiten einer Reihe bzw. Spalte im Tafelinnern nicht proportional zu den entsprechenden Randsummen sind (44/23 ≠ 119/108 bzw. 75/85 ≠ 119/108, analog die Verhältnisse zur Zeilensumme!)

- aber: bei kleinen abs. Häufigkeiten können durch Zufall Disproportionalitäten vorgetäuscht sein, d.h. die Sicherheit für das Vorhanden sein eines statistischen Zusammenhanges ist entsprechend gering!

2. Fall:

- Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, bei dem jede Komponente auf einer Rangskala gemessen wird, d.h. als Merkmalsausprägung eine Rangzahl hat.

- Vorliegen einer Tabelle der Rangzahlen (keine Häufigkeits-tabelle!)

Tabelle der Rangzahlen:

i R(x i) R(yi) d i d i2

1 R(x1) R(y1) d1 d12

... ... ... ... ...

n R(xn) R(yn) dn dn2

- dabei ist di = R(xi) - R(yi) die Differenz der Rangzahlen deri- ten Komponente von X und Y

Bei einer Weinverkostung sollen 8 Weinsorten hinsichtlich ihres Aromas in eine Rangordnung gebracht werden. 2 Prüfer sollen unabhängig voneinander die Sorten begutachten, wobei die Sorte mit dem schwächsten Aroma die Rangzahl 1 und die Sorte mit dem stärksten Aroma die Rangzahl 8 erhalten soll.

i Sorte Prüfer 1 R(x i)

Prüfer 2R(yi)

d i

1 A 6 5 1

2 B 3 2 1

3 C 8 8 0

4 D 2 4 -2

5 E 1 1 0

6 F 7 6 1

7 G 4 3 1

8 H 5 7 -2

Tabelle der Rangzahlen:

Bsp.5: Weinverkostung

Ergebnis:

- Nur bei 2 Sorten gab es Übereinstimmung in der Bewertung, bei allen übrigen Sorten gab es Differenzen, die aber nicht mehr als 2 Rangzahlen betragen.

- Man kann einen statistischen Zusammenhang vermuten, denn je höher im allgemeinen die Rangzahl des 1. Prüfers ist, desto höher ist im allgemeinen auch die Rangzahl des 2. Prüfers.

- Die Weinsorten scheinen also Aromaunterschiede aufzuweisen und beide Prüfer waren in der Lage, diese zu erkennen.

3. Fall:

- Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, deren Ausprägungen (aj,bk) mit den absoluten Häufigkeiten fjk und den relativen Häufigkeiten hjk für j=1,...,l und k=1,...,m auftreten.

Kontingenztafel (l x m):

Yb1 b2 ... bm

Summe

a1 f11 f12 ... f1m f1.

X a2 f21 f22 ... f2m f2.

... ... ... ... ...

al fl1 fl2 flm fl .

Summe f.1 f.2 ... f.m n

Bsp.6: Untersuchung der Noten von 32 Studenten in Mathematik und Statistik (2 ordinalskal. Merkmale)

Kontingenztafel (5 x 5):

Note in Mathematik1 2 3 4 5 Summe

NoteinStatistik

1 1 1 0 0 0 2

2 0 2 3 0 0 5

3 0 2 10 4 0 16

4 0 0 2 4 0 6

5 0 0 1 1 1 3

Summe 1 5 16 9 1 32

Ergebnis:

- Je besser im allgemeinen die Note in Mathematik ist, desto besser ist im allgemeinen auch die Note in Statistik und umgekehrt.

- Man kann also einen statistischen Zusammenhang zwischen den Noten vermuten, den man daran erkennt, dass die in der Nähe der Diagonalen (von links oben nach rechts unten) gelegenen Felder der Kontingenztafel die höchsten absoluten Häufigkeiten (Besetzungszahlen) aufweisen.

Bsp.7: Untersuchung des Zusammenhangs von Haar- und Augenfarbe von Frauen (Nominalskala) (Lebart, L. u.a.,1995)

Haar-farbe

Augen-farbe

schwarz braun rot blond ΣΣΣΣ

dunkel-braun

68 119 26 7 220

hell-braun

15 54 14 10 93

grün 5 29 14 16 64

blau 20 84 17 94 215

ΣΣΣΣ 108 286 71 127 592

4. Fall:

- Sei (X,Y) ein metrisch skaliertes Merkmal, für deren Komponenten X und Y eine Klasseneinteilung vorliegt

Häufigkeitstabelle (analog Kontingenztafel!) (l x m):

Klassen-grenzen (y 0;y1]

Y(y1;y2] ... (ym-1;ym] Summe

(x0;x 1] f11 f12 ... f1m f1.

X (x1;x 2] f21 f22 ... f2m f2.

... ... ... ... ...

(x l-1;x l] fl1 fl2 flm fl⋅Summe f.1 f.2 ... f.m n

Bsp.: Untersuchung des Zusammenhangs zwischen dem Kalium- und Aschegehalt bei Weinen

Bsp.: Weindaten (2- dim.Histogramm, /12/)

2- dim. Histogramm (Weine aus Ungarn und Tschechien)

2- dim. Histogramm(Weine aus Ungarn und Tschechien)

zu 3.) Zusammenhangsmaße

Art der Merkmale Häufigkeitsvert. Zusammenhangsmaß

nominalskaliert Vierfeldertafel Assoziationskoeff. von Cramér , Cole, and Yule, Kontingenzkoeff. von Pearson

nominal- oder (und) ordinalskaliert

Kontingenztafel Assoziationskoeff. von Cramér und Kontingenz-koeff. von Pearson

ordinalskaliert (Tab. von Rangzahlen)

Rangkorrelationskoeff. von Spearman und Kendall

metrisch skaliert 2- dim. Häufigkeitstabelle (Kontingenztafel)

Vor.: X,Y zufällige MerkmaleLin. Abhängigkeit → Maß-korrelationskoeff. von Bravais/ PearsonMon. Abhängigkeit → Rang-korrelationskoeff. von Spearman

1. Kontingenzkoeffizient C von Pearson:

- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes diskretes Merkmal, das in den Ausprägungen (aj, bk) für j = 1,…l und k = 1,…,m mit den abs. Häufigkeiten fjk auftritt.

- Der Kontingenzkoeffizient ist ein Maß für die Stärke des stochastischen Zusammenhanges zwischen 2 diskreten Merkmalen.

nC 2

2

+χχ=

∑∑= = ⋅⋅

⋅⋅

⋅

⋅−

=χl

1j

m

1k kj

2

kjjk

2

n

ffn

fff

wobei

Bem.: - Der Kontingenzkoeffizient C nimmt Werte im Intervall

( )( )m,lmin

1m,lminC0

−≤≤

nC 2

2

+χχ= und 0 ≤ C ≤ 0,707

an.

- Der maximale Wert von C (d.h. vollständige Kontingenz)ist von der Tafelgröße (Zeilen- bzw. Spaltenzahl l und m)abhängig und nähert sich für große l bzw. m gegen 1. ⇒⇒⇒⇒ besser: korrigierter Kontingenzkoeffizient von

Pearson C corr

- Für die Vierfeldertafel gilt:

kein Zusammenhang

vollst. Zusammenhang

Bem.: - Der korrigierte Kontingenzkoeffizient Ccorr wird berechnet nach:

( )( ) 1m,lmin

m,lminn

C 2

2

corr −⋅

+χχ=

und es gilt nun: 0 ≤ Ccorr ≤ 1 ,

d.h. bei vollständiger Kontingenz wird immer der Wert 1 angenommen, unabhängig von der Größe der Kontingenztafel.

2. Assoziationskoeffizient von Cramér (Cramér‘s V):

- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes diskretes Merkmal, das in den Ausprägungen (aj, bk) für j = 1,…l und k = 1,…,m mit den abs. Häufigkeiten fjk auftritt.

- Der Assoziationskoeffizient ist ebenfalls ein Maß für dieStärke des stochastischen Zusammenhanges zwischen 2 diskreten Merkmalen.

( )( )1m,lminnV

2

−χ=

∑∑= = ⋅⋅

⋅⋅

⋅

⋅−

=χl

1j

m

1k kj

2

kjjk

2

n

ffn

fff

wobei

mit 0 ≤ V ≤ 1

kein Zusammenhangvollst. Zusammenhang

Bsp.4: Ratten

V = 0,17

3. Rangkorrelationskoeffizient r s von SPEARMAN:

- Sei (X,Y) ein 2- dim. , ordinal oder metrisch skaliertes Merkmal , bei dem jede Komponente Merkmalswerte mit einer eindeutigen Rangfolge hat (rangskaliert).

- Wir beobachten an den n Beobachtungseinheiten die Merkmalswerte (xi,yi) für i=1,...,n

- Wir ordnen nun jedem Beobachtungswert xi bzw. yi für i=1,...,n eine Rangzahl R(xi) bzw. R(yi) zu, wobei gilt:R(x(i)) = i für i=1,...,n und x(1) ≤ x(2) ≤ ... ≤ x(n)

- Tritt eine Ausprägung mehrfach auf („Bindungen“), so ordnet man diesen gleichen Werten als Rang das arithmetische Mittel der Ränge zu, die sie einnehmen.

- Bsp.: x(1)=2; x(2)=4; x(3) =4; x(4) =6; x(5) =9

→ R(x(1))=1; R(x(2))=2,5; R(x(3))=2,5; R(x(4))=4; R(x(5))=5

Formel für den Rangkorrelationskoeffizienten r s:

- Der Rangkorrelationskoeffizient ist ein Maß für die Stärke und Richtung eines monotonen stochastischen Zusammen-hanges zwischen 2 rangskalierten Merkmalen.

Bsp.5: Weinverkostung durch 2 Prüfer

Der Rangkorrelationskoeffizient von rs = 0,86 deutet auf einen recht starken, monoton wachsenden stochastischen Zusammenhang hin.

Wenn keine „Bindungen“ vorliegen, d.h. wenn xi ≠ xj für i ≠ j und yi ≠ yj für i ≠ j gilt:

( )1nn

d61r 2

n

1i

2i

s −⋅

⋅−=

∑= , wobei ( ) ( )iii yRxRd −=

i=1,…,nBem.: Für den Rangkorrelationskoeffizienten gilt:

● Wenn rs < 0 → neg. RangkorrelationWenn rs > 0 → pos. Rangkorrelation

● -1 ≤ rs ≤ +1

● |rs| = 1 , wenn X und Y monoton zusammenhängenrs = 1 , wenn die x- Ränge mit den y- Rängen

übereinstimmenrs = -1 , wenn die x- und y- Ränge genau

entgegengesetzte Rangfolgen ergeben.

Formel für den Maßkorrelationskoeffizienten r XY:

( ) ( )

( )( ) ( )( )∑∑

∑

−⋅−−

−⋅−−= =

2i

2i

i

n

1ii

XYyyxx)1n(

yyxx)1n(r

4. Maßkorrelationskoeffizient r XY von BRAVAIS- PEARSON:

- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal , deren Merkmalswerte (xi,yi) , i=1,...,n, einen näherungsweise linearen Zusammenhang zwischen X und Y vermuten lassen.

- Wir beobachten an den n Beobachtungseinheiten die Merkmalswerte (xi,yi) für i=1,...,n

- Der Maßkorrelationskoeffizient ist ein Maß für die Stärke und Richtung eines linearen stochast. Zusammenhanges zwischen 2 metrisch skalierten Merkmalen.

Bem.: Für den Maßkorrelationskoeffizienten rXY gilt:

● Wenn rXY < 0 → negative KorrelationWenn rXY > 0 → positive Korrelation

● -1 ≤ rXY ≤ +1

● |rXY| = 1 , wenn X und Y linear zusammenhängen

● Wenn rXY = 0 → Unkorreliertheit zwischen X und YWenn rXY = 0 und (X,Y) 2- dim. normalverteilt

→ Unabhängigkeit zwischen X und Y

● Der Korrelationskoeffizient ist nicht imstande, nichtlineare Zusammenhänge zwischen Merkmalen zu erkennen.

● Man beachte Schein- und Unsinnkorrelationen!

Bem.: ● Merkmale mit sehr schiefen Häufigkeitsverteilungen können mitunter auch einen Korrelationskoeffizienten nahe 0 haben, obwohl ein statistischer Zusammen-hang zwischen ihnen besteht.

● B = rXY2 heißt Bestimmtheitsmaß. Es gibt den Anteil

der Variation der y- Werte an, der durch den linearen Zusammenhang zwischen X und Y bestimmt wird.

● Bei der Untersuchung von linearen Abhängigkeiten zwischen mehr als 2 Merkmalen gibt es:- partielle Korrelationskoeffizienten,- multiple Korrelationskoeffizienten und - kanonische Korrelationskoeffizienten.

Zu 4.) Form der statistischen Abhängigkeit

- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal mit den Merkmalswerten (xi,yi) für i=1,...,n.

- Es interessiert die Form der Abhängigkeit eines Merkmals Y(abhängiges Merkmal, Zielgröße, Regressand) von einem Merkmal X (unabh. Merkmal, Einflussgröße, Regressor).

- Alle kontrollierbaren Einflussgrößen werden konstant gehalten.

- Wir beschränken uns auf den Fall des Modells I der einfachen linearen Regression (1Einflussgröße, lineare Abhängigkeit).

Vor.: ● Y zuf. Merkmal,

→ RM I● X

zuf. Merkmal

zuf. Merkmal, mit kleinem Fehler messbareinstellbares Merkmal

→ RM II

● Streudiagramm (XY- Scatterplot) →

Annahme eines linearen Modells für die Abhängigkeit zwischen X und Y in der Grundgesamtheit:

y = β0 + β1 x, genannt lineare Regressionsgleichung.

Dann gilt für die zuf. Beobachtungen der Zielgröße:Yi = β0 + β1 xi + εi i=1,…,n

Residuen,wobei εi unabhängig und identischverteilt mit Eεi =0 und D2εi = σ2

und σ2 unabhängig von den Messpunkten xi

Bem.: Wenn εi ~ N(0, σ2) → bei RM I : Yi~ N(β0 + β1 xi, σ2)

bzw. Y~ N(β0 + β1 x, σ2)

Regressionsanalyse:

1. Schätzung der empirischen linearen Regressionsgleichung(Ausgleichsgerade) nach der Methode der kleinsten Quadrate (MkQ, LS):

( ) ( ) ( )( )∑ ∑∑= ==

→ε=⋅β+β−=−=ββn

1i

n

1i

2i

2i10i

n

1i

2ii10 minˆ

n1

xyn1

yyn1

,Q

Die Werte von β0 und β1, für die Q(β0, β1) ihr Minimum annimmt, nennt man Kleinste-Quadrate-Schätzer . 10

ˆundˆ ββ

Beobachtungswerte Modellwerte

geschätzte Residuen

Durch Nullsetzen der partiellen Ableitungen von Q nach β0und β1 erhält man ein Normalgleichungssystem, das zu lösen ist.

Bem.:

( ) ( )

( ) X

XYn

1i

2i

i

n

1ii

1 SQSP

xx

yyxxb =

−

−⋅−=

∑

∑

=

=

Die auf der Basis der konkreten Stichprobe ermittelten Schätzwerte für β0 und β1 bezeichnet man mit b0 und b1.

und xbyb 10 ⋅−=

→ geschätzte lineare Regressionsgleichung:

xbb)b,b(y 1010 ⋅+=

( ) ( ) XYi

n

1iiXY SP

1n1

yyxx1n

1s ⋅

−=−⋅−

−= ∑

=

heißt Kovarianz zwischen X und Y und

( ) X

n

1i

2i

2X SQ

1n1

xx1n

1s ⋅

−=−

−= ∑

=Varianz von X.

oder:X

YXY1 s

srb =

2. Zeichnen der Regressionsgerade ins Streudiagramm:

x

yxbby 10 ⋅+=

yi

iy

0

b0

xi

iε

( ) ( )( )∑ ∑∑= ==

ε−

=⋅+−−

=−−

=n

1i

n

1i

2i

2i10i

n

1i

2ii

2R ˆ

2n1

xbby2n

1yy

2n1

s

R2

R SQ2n

1s ⋅

−=

Restquadratsumme

3. Güte des Regressionsmodells- Beurteilung der Güte der Modellvorhersage für jeden Mess-wert mit Hilfe der geschätzten Residuen , i=1,…, n

- Maß für die Variation der Stichprobenwerte um die geschätzte Regressionsgerade: Restvarianz

geschätzte Residuen

iii yyˆ −=ε

- Streuungszerlegung (Zerlegung der Quadratsummen!):

( ) ( ) ( )∑ ∑∑= ==

−+−=−n

1i

n

1i

2i

2ii

n

1i

2i yyyyyy

MRT SQSQSQ += durch den Modellzusammenhang erklärte „Streuung“

„Gesamtstreuung“ „Reststreuung“

FG

Erklärte Streuung: Darstellung der Variation der y- Werte, die auf den linearen Zusammenhang

SQM zwischen X und Y zurückzuführen ist, d.h. sie enthält die Variation der Werte

auf der Geraden um den Mittelwert .

Reststreuung: Verbleibender Rest der Variation der y-SQR Werte

Bem.: ● Liegen alle beobachteten Werte exakt auf einer Geraden, so sind die Residuen 0 und ebenso die Reststreuung. Dann ließe sich die gesamte Variation von Y durch den linearen Modellzusammenhang mit X erklären (funktionaler linearer Zusammenhang).

● Je größer die Reststreuung ist, desto schlechterbeschreibt das Modell die Daten.

y

- Als Maßzahl für die Güte der Modellanpassungverwendet man häufig das Bestimmtheitsmaß B. Es gibt den Anteil an der Gesamtstreuung der y- Werte an, der durch die Regression von Y auf X erklärt wird und ist der Quotient aus erklärter und Gesamtstreuung.

( )

( )

( )

( )∑

∑

∑

∑

=

=

=

=

−

−−=

−

−== n

1i

2i

n

1i

2ii

n

1i

2i

n

1i

2i

T

M

yy

yy1

yy

yy

SQSQ

B

0 ≤ B ≤ 1

B = rXY2

funktionaler linearer Zusammenhangkein linearer Zusammenhang

Für Vorhersagen sollte das Bestimmtheits-maß möglichst ≥ 0,8 sein!

Aber: B ist bei RM I vom Versuchsplan abhängig!

- Tests zur Prüfung der Modelladäquatheit (F- Test der Varianzanalyse) und zur Prüfung der Modellparameter(t- Tests, Konfidenzintervalle) im Rahmen der schließenden Statistik

4. Residualanalyse

- Prüfen der Modellvoraussetzungen über den Zufallsfehler(ε ~ N(0, σ2) und σ2 unabhängig von den Messpunkten xi)

- Residualplots

iii yyˆ −=ε → normierte Residuenε

ε=ˆ

ii s

ˆd

y x y

+3

-3

00 0

idealer Verlauf

d dd

ungleiche Varianzen

Ausreißer

3d i > →→→→ Ausreißer

XY- Scatterplot ( Lanthanum, Gadolinum)y = -0,7128 + ,91690 * x

Korrelationskoeffizient: r = 0,98136

-4 -3 -2 -1 0 1 2

Lanthanum

-5

-4

-3

-2

-1

0

1

Gad

olin

um

95% Konfigenzgrenzen

Bsp.: Weindaten, Abhängigkeit zwischen den seltenen Erden-Parametern Lanthanum und Gadolinum (RM II) (/12/)

Normierte Residuen

-5 -4 -3 -2 -1 0 1

Geschätzte Werte für Gadolinum

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Nor

mie

rte

Res

idu

en

Geschätzte gegen beobachtete Werte (Gadolinum)

-5 -4 -3 -2 -1 0 1

Geschätzte Werte

-5

-4

-3

-2

-1

0

1B

eoba

chte

te W

erte

95% Konfidenzgrenzen

Bsp.: Weindaten - Matrixplot (Box- Whisker Plot und Scatterplot) für Alkalität, Asche und Kalium (transformiert ) (/11/)

Matrix der Maßkorrelationskoeffizienten:Alkalität Asche Kalium

Alkalität 0,7643 0,7258Asche 0,7643 0,9600Kalium 0,7258 0,9600

Geschätzte lin. Regressionsgerade: Kalium = -134,05 + 413,633*Asche

Bsp.: Weindaten (Matrix Plot) (/12/)

Matrix Plot (Histogramm, Scatterplot und lin.Regressionsgerade)

für Alkalität, Asche und Kalium (transformiert) Alkalität

Asche

Kalium

Statistik für Prozesswissenschaften - TU Berlin2019/04/01 · 1. Beschreibende und explorative...

Documents

Transcript of Statistik für Prozesswissenschaften - TU Berlin2019/04/01 · 1. Beschreibende und explorative...