Material zur Veranstaltung
Lineare Modelle in der Statistik
von
Gerhard Osius
.ß~/to·:· ....... .At o
Juni 2011 Fachbereich Mathematik/Informatik
Universität Bremen
Material zur Veranstaltung
Lineare Modelle in der Statistik
von
Gerhard Osius
.ß~/to·:· ....... .At o
Juni 2011 Fachbereich Mathematik/Informatik
Universität Bremen
Vorwort 1.6.11 V-I
Vorwort
Dieses Manuskript ist aus Materialien zu statistischen Lehrveranstaltungen über Generalisierte Lineare Modelle im Laufe der letzten Jahre entstanden und hier liegt der Teil I über Lineare Modelle in einer neuen (veränderten und erweiterten) Auflage vor, in der er auch im Sommersemester 2005 einer Vorlesung zu Grunde lag (wobei dort aus Zeitgründen einige Abschnitte teilweise oder vollständig ausgelassen wurden). Der Text ist in erster Linie als Begleit- und Referenz-Material für die Kursteilnehmer gedacht und nicht primär als Einführung in diese Materie im Selbststudium angelegt. Insbesondere fehlen hier (noch) die im Kurs und den Übungen ausführlicher behandelten Analysen ausgewählter Datensätze.
Der Kurs ))Lineare Modelle in der Statistik!! ist für fortgeschrittene Studierende der Mathematik mit Grundkenntnissen in Wahrscheinlichkeitsrechnung und Statistik vorgesehen. Ziel des Kurses ist es, eine mathematisch fundierte Einführung in die Theorie der Linearen Modelle zu geben, wobei die anwendungsrelevanten Methoden stärker betont werden. Der Schwerpunkt lag hierbei mehr in der Herleitung der Schätz- und Testverfahren - und ihrer "geometrischen" Interpretationen - und weniger in Untersuchungen ihrer Optimalitätseigenschaften.
Die Beweise zu den Resultaten des vorliegenden Textes sind in einem separaten Beweis-Band zusammengestellt. Das (historisch bedingte) Abtrennen der Beweise vom eigentlichen Text erscheint mir sinnvoll, weil dadurch einerseits die Ausführungen nicht durch Beweise unterbrochen werden, und man andererseits die Beweise parallel zum Text nachvollziehen kann (was besonders bei den zahlreichen Rückverweisen praktisch ist). Diverse verwendete speziellere Resultate (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) sind der Vollständigkeit halber in einem ebenfalls separat erhältlichen Exkurs-Band zusammengestellt.
Der Stoff über Lineare Modelle ist wie folgt gegliedert. Nach einer Einführung in die Modellierung und Verteilungs modelle im Kapitell wird im Kapitel 2 das GaussMarkov-Modell mit konstanten Varianzen behandelt. Als Schätzverfahren wird die geometrisch motivierte Methode der minimalen Quadrate verwendet und deren Eigenschften hergeleitet, die im Klassischen Linearen Modell (mit normalverteilten Beobachtungen) mit der Maximum-Likelihood-Schätzung übereinstimmt. Im klassischen lineareren Modell werden dann der t-Test (für Linearkombinationen des Parametervektors) und der F-Test (für lineare Hypothesen) behandelt, wobei auch auf die für die Praxis wichtige Testschärfe näher eingegangen wird.
Im Kapitel 3 werden einige grundsätzliche Methoden zur Modellbildung besprochen und einige elementare Modelle (Regressionsanalyse einer Variablen, einfache Varianz- und Covarianz-Analyse) behandelt.
Das Kapitel 4 enthält die Verallgemeinerungen des 2. Kapitels vom Gauß-Markovauf das Aitken-Modell, d.h. mit beliebiger und - bis auf einen unbekannten Skalenfaktor - bekannter Covarianzstruktur der Beobachtungen. Obwohl sich das AitkenModell vollständig auf das Gauß-Markov-Modell zurückführen läßt, werden die Methoden und Resultate trotzdem ausführlich formuliert und dabei auch auf den (in der Praxis nie auszuschließenden) Fall erweitert, daß das der Analyse zugrunde ge-
Vorwort 1.6.11 V-I
Vorwort
Dieses Manuskript ist aus Materialien zu statistischen Lehrveranstaltungen über Generalisierte Lineare Modelle im Laufe der letzten Jahre entstanden und hier liegt der Teil I über Lineare Modelle in einer neuen (veränderten und erweiterten) Auflage vor, in der er auch im Sommersemester 2005 einer Vorlesung zu Grunde lag (wobei dort aus Zeitgründen einige Abschnitte teilweise oder vollständig ausgelassen wurden). Der Text ist in erster Linie als Begleit- und Referenz-Material für die Kursteilnehmer gedacht und nicht primär als Einführung in diese Materie im Selbststudium angelegt. Insbesondere fehlen hier (noch) die im Kurs und den Übungen ausführlicher behandelten Analysen ausgewählter Datensätze.
Der Kurs ))Lineare Modelle in der Statistik!! ist für fortgeschrittene Studierende der Mathematik mit Grundkenntnissen in Wahrscheinlichkeitsrechnung und Statistik vorgesehen. Ziel des Kurses ist es, eine mathematisch fundierte Einführung in die Theorie der Linearen Modelle zu geben, wobei die anwendungsrelevanten Methoden stärker betont werden. Der Schwerpunkt lag hierbei mehr in der Herleitung der Schätz- und Testverfahren - und ihrer "geometrischen" Interpretationen - und weniger in Untersuchungen ihrer Optimalitätseigenschaften.
Die Beweise zu den Resultaten des vorliegenden Textes sind in einem separaten Beweis-Band zusammengestellt. Das (historisch bedingte) Abtrennen der Beweise vom eigentlichen Text erscheint mir sinnvoll, weil dadurch einerseits die Ausführungen nicht durch Beweise unterbrochen werden, und man andererseits die Beweise parallel zum Text nachvollziehen kann (was besonders bei den zahlreichen Rückverweisen praktisch ist). Diverse verwendete speziellere Resultate (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) sind der Vollständigkeit halber in einem ebenfalls separat erhältlichen Exkurs-Band zusammengestellt.
Der Stoff über Lineare Modelle ist wie folgt gegliedert. Nach einer Einführung in die Modellierung und Verteilungs modelle im Kapitell wird im Kapitel 2 das GaussMarkov-Modell mit konstanten Varianzen behandelt. Als Schätzverfahren wird die geometrisch motivierte Methode der minimalen Quadrate verwendet und deren Eigenschften hergeleitet, die im Klassischen Linearen Modell (mit normalverteilten Beobachtungen) mit der Maximum-Likelihood-Schätzung übereinstimmt. Im klassischen lineareren Modell werden dann der t-Test (für Linearkombinationen des Parametervektors) und der F-Test (für lineare Hypothesen) behandelt, wobei auch auf die für die Praxis wichtige Testschärfe näher eingegangen wird.
Im Kapitel 3 werden einige grundsätzliche Methoden zur Modellbildung besprochen und einige elementare Modelle (Regressionsanalyse einer Variablen, einfache Varianz- und Covarianz-Analyse) behandelt.
Das Kapitel 4 enthält die Verallgemeinerungen des 2. Kapitels vom Gauß-Markovauf das Aitken-Modell, d.h. mit beliebiger und - bis auf einen unbekannten Skalenfaktor - bekannter Covarianzstruktur der Beobachtungen. Obwohl sich das AitkenModell vollständig auf das Gauß-Markov-Modell zurückführen läßt, werden die Methoden und Resultate trotzdem ausführlich formuliert und dabei auch auf den (in der Praxis nie auszuschließenden) Fall erweitert, daß das der Analyse zugrunde ge-
Vorwort 1.6.11 V-2
legte Modell nicht korrekt sapezifiziert ist. Weiter werden mehrdimensionale Konfidenzbereiche und simultane (eindimensionale) Konfidenzintervalle konstruiert.
Im Kapitel 5 werden weitere Analysen für das Gauß-Markov-Modell vorgestellt. Zunächst werden die Auswirkungen einer Fehlspezijikation des Modelle untersucht und für einfache Modellklassen (Regression einer Variabeln und Varianzanalyse) wird gezeigt, daß sich die Fehlspezifikation unter gewissen Bedingungen durch eine Randomisierung bei der Datenerhebung vermeiden läßt. Für die Modellüberprüfung wird ein Anpassungsstest angegeben und die Analyse der Residuen kurz vorgestellt. Zur Modellsuche werden sequentielle Testprozeduren und Modell-Suchverfahren angegeben.
Das Kapitel 6 ist asymptotische Resultaten im Gauß-Markov-Modell gewidmet. Hier wird für eine geeignete Asymptotik gezeigt, daß die für normalverteilte Beobachtungen entwickelten t-Tests, F-Tests und Konfidenzbereiche auch bei beliebigen Verteilung (der Fehlervariablen) das vorgegebene Niveau asymptotisch einhalten.
In der vorliegende Fassung ist gegenüber der Auflage vom Juli 2010 neben Druckfehler-Korrekturen nur das Kapitel 6 (bis inklusive 6.2) leicht umformuliert und erwei
tert.
Bei der Zusammenstellung dieses Skripts habe ich auf zahlreiche (im Literaurverzeichnis zusammengestellte) Quellen zurückgegriffen, die allerdings - dem Charakter eines Skriptes entsprechend - nur gelegentlich im Text explizit erwähnt sind. Hervorzuheben sind dabei zwei Monographien, die hier einen besonders starken Einfluß ausgeübt haben. In erster Linie ist hier Haberman (1974) zu erwähnen, dessen Ideen an vielen Stellen - insbesondere bei den Darstellungen via Projektionen bzgl. eines anderen Skalarproduktes - eingeflossen sind. Weiter hat das Buch von Seber (1977) die Ausführungen unterschiedlich stark beeinflußt.
Mein besonderer Dank gilt Frau Heidi Eckl für die Erstellung der Rohfassungen der Texte.
Bremen, im Juni 2011 Gerhard Osius
Vorwort 1.6.11 V-2
legte Modell nicht korrekt sapezifiziert ist. Weiter werden mehrdimensionale Konfidenzbereiche und simultane (eindimensionale) Konfidenzintervalle konstruiert.
Im Kapitel 5 werden weitere Analysen für das Gauß-Markov-Modell vorgestellt. Zunächst werden die Auswirkungen einer Fehlspezijikation des Modelle untersucht und für einfache Modellklassen (Regression einer Variabeln und Varianzanalyse) wird gezeigt, daß sich die Fehlspezifikation unter gewissen Bedingungen durch eine Randomisierung bei der Datenerhebung vermeiden läßt. Für die Modellüberprüfung wird ein Anpassungsstest angegeben und die Analyse der Residuen kurz vorgestellt. Zur Modellsuche werden sequentielle Testprozeduren und Modell-Suchverfahren angegeben.
Das Kapitel 6 ist asymptotische Resultaten im Gauß-Markov-Modell gewidmet. Hier wird für eine geeignete Asymptotik gezeigt, daß die für normalverteilte Beobachtungen entwickelten t-Tests, F-Tests und Konfidenzbereiche auch bei beliebigen Verteilung (der Fehlervariablen) das vorgegebene Niveau asymptotisch einhalten.
In der vorliegende Fassung ist gegenüber der Auflage vom Juli 2010 neben Druckfehler-Korrekturen nur das Kapitel 6 (bis inklusive 6.2) leicht umformuliert und erwei
tert.
Bei der Zusammenstellung dieses Skripts habe ich auf zahlreiche (im Literaurverzeichnis zusammengestellte) Quellen zurückgegriffen, die allerdings - dem Charakter eines Skriptes entsprechend - nur gelegentlich im Text explizit erwähnt sind. Hervorzuheben sind dabei zwei Monographien, die hier einen besonders starken Einfluß ausgeübt haben. In erster Linie ist hier Haberman (1974) zu erwähnen, dessen Ideen an vielen Stellen - insbesondere bei den Darstellungen via Projektionen bzgl. eines anderen Skalarproduktes - eingeflossen sind. Weiter hat das Buch von Seber (1977) die Ausführungen unterschiedlich stark beeinflußt.
Mein besonderer Dank gilt Frau Heidi Eckl für die Erstellung der Rohfassungen der Texte.
Bremen, im Juni 2011 Gerhard Osius
Inhaltsverzeichnis 8.7.10 1
Inhalt (Seiten pro Kapitel)Kapitel - Seite
Die mit * markierten Abschnitte werden im Folgenden nicht benötigt und werden deshalb im
Kurs ganz oder teilweise ausgelassen.
o Einführung (1)1 Modellierung und Verteilungsmodelle (9)
1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung 1 - 11.2 Varianz und Verteilung einer Einzelbeobachtung 1 - 31.3 Das Lineare Modell für mehrere Beobachtungen 1 - 6
2 Das Gauß-Markov-Modell (40)2.1. Minimale-Quadrate-Schätzung 2 - 3
2.1.1 Lineare Regression mit einer Variablen 2 - 52.1.2 Polynomregression mit einer Variablen 2 - 6
2.2 Eigenschaften der Minimale-Quadrate-Schätzung 2 - 72.3 Residuen und Schätzung der Varianz 2 - 92.4 Das klassische lineare Modell 2 - 132.5 Tests für Linearkombinationen des Parameters 2 - 16
2.5.1 Testen einzelner Komponenten des Parameters 2 - 162.5.2 Testen von Linearkombinationen des Parameters 2 - 192.5.3 Schärfe der Tests 2 - 212.5.4 Lineare Regression mit einer Variablen 2 - 26
2.6 Testen von linearen Hypothesen 2 - 282.6.1 Herleitung des F-Tests 2 - 282.6.2 Schärfe des F-Tests 2 - 35
2.7* Schätzung von Nichtzentralität und Testschärfe 2 - 362.7.1 Schätzungen für den t-Test 2 - 362.7.2 Schätzungen für den F-Test 2 - 38
3 Elementare Modelle und Analysen (30)3.1 quantitative Covariablen und Faktoren 3 - 13.2 Modelle für eine beobachtete Covariable 3 - 3
3.2.1 Das konstante Modell 3 - 33.2.2 Modelle für eine quantitative Variable 3 - 43.2.3 Das vollständige Modell für einen Faktor 3 - 63.2.4 Schätzungen im vollständigen Modell für einen Faktor 3 - 93.2.5 Einfache Varianzanalyse 3 - 133.2.6 Schärfe des F-Tests bei der balancierten Varianzanalyse 3 - 16
3.3 Modelle für zwei beobachtete Covariablen 3 - 183.3.1 Einfache Covarianz-Analyse 3 - 183.3.2 Modelle für zwei quantitative Variablen 3 - 243.3.3 Modelle für zwei Faktoren 3 - 28
Inhaltsverzeichnis 8.7.10 1
Inhalt (Seiten pro Kapitel) Kapitel - Seite
Die mit * markierten Abschnitte werden im Folgenden nicht benötigt und werden deshalb im
Kurs ganz oder teilweise ausgelassen.
o Einführung (1) 1 Modellierung und Verteilungsmodelle (9)
1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung 1 - 1 1.2 Varianz und Verteilung einer Einzelbeobachtung 1 - 3 1.3 Das Lineare Modell für mehrere Beobachtungen 1 - 6
2 Das Gauß-Markov-Modell (40) 2.1. Minimale-Quadrate-Schätzung 2 - 3
2.1.1 Lineare Regression mit einer Variablen 2 - 5 2.1.2 Polynomregression mit einer Variablen 2 - 6
2.2 Eigenschaften der Minimale-Quadrate-Schätzung 2 - 7 2.3 Residuen und Schätzung der Varianz 2 - 9 2.4 Das klassische lineare Modell 2 - 13 2.5 Tests für Linearkombinationen des Parameters
2.5.1 Testen einzelner Komponenten des Parameters 2.5.2 Testen von Linearkombinationen des Parameters 2.5.3 Schärfe der Tests 2.5.4 Lineare Regression mit einer Variablen
2.6 Testen von linearen Hypothesen 2.6.1 Herleitung des F-Tests 2.6.2 Schärfe des F-Tests
2.7* Schätzung von Nichtzentralität und Testschärfe 2.7.1 Schätzungen für den t-Test 2.7.2 Schätzungen für den F-Test
3 Elementare Modelle und Analysen 3.1 quantitative Covariablen und Faktoren 3.2 Modelle für eine beobachtete Covariable
3.2.1 Das konstante Modell 3.2.2 Modelle für eine quantitative Variable 3.2.3 Das vollständige Modell für einen Faktor 3.2.4 Schätzungen im vollständigen Modell für einen Faktor 3.2.5 Einfache Varianzanalyse 3.2.6 Schärfe des F-Tests bei der balancierten Varianzanalyse
3.3 Modelle für zwei beobachtete Covariablen 3.3.1 Einfache Covarianz-Analyse 3.3.2 Modelle für zwei quantitative Variablen 3.3.3 Modelle für zwei Faktoren
2 - 16 2 - 16 2 - 19 2 - 21 2 - 26 2 - 28 2 - 28 2 - 35 2 - 36 2 - 36 2 - 38
(30) 3 - 1 3-3 3-3 3-4 3-6 3-9
3 - 13 3 - 16 3 - 18 3 - 18 3 - 24
3 - 28
Inhaltsverzeichnis 8.7.10 2
4 Das lineare Aitken-Modell (33)4.1 Das gewichtete Gauß-Markov-Modell 4-24.2 Transformation des Aitken-Modells in ein Gauss-Markov-Modell 4-3
4.2.1 Gewichtetes Gauß-Markov-Modell 4-44.3 Verallgemeinerte Minimale-Quadrate-Schätzung 4-5
4.3.1 Gewichtetes Gauß-Markov-Modell 4-84.4 Das Aitken-Modell mit normalverteilten Beobachtungen 4-94.5 Tests für Linearkombinationen des Erwartungswerts
bei normalverteilten Beobachtungen 4 - 124.5.1 Formulierung der Hypothesen 4 - 124.5.2 Der ein- und zweiseitige t-Test 4 - 134.5.3 Die Schärfe des einseitigen t-Tests 4 - 154.5.4 Die Schärfe des zweiseitigen t-Tests 4 - 164.5.5 Konfidenzgrenzen für Linearkombinationen 4 - 174.5.6 Linearkombinationen des Parameters 4 - 18
4.6 Testen von linearen Hypothesen bei normalverteiltenBeobachtungen 4 - 194.6.1 Lineare Hypothesen über den Erwartungswert 4 - 194.6.2 Lineare Hypothesen über den Parameter 4 - 224.6.3 Schärfebetrachtungen beim F-Test 4 - 24
4.7 Konstruktion von Konfidenzbereichen 4 - 264.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor 4 - 264.7.2 Simultane Konfidenzintervalle nach Bonferroni 4 - 284.7.3 Simultane Konfidenzintervalle nach Scheffe 4 - 30
5. Weitere Analysen im Gauss-Markov-Modell (33)5.1 Fehlspezifikation des Modells 5 - 2
5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse 5-65.1.2 Einfache Varianzanalyse mit Randomisierung 5-75.1.3 Fehlspezifikation bei linearer Regression einer Variablen 5 - 105.1.4 Lineare Regression einer Variablen mit Randomisierung 5 - 11
5.2 Anpassungstests für lineare Modelle 5 - 145.3 Residuenanalyse 5 - 195.4 Modellsuche 5 - 23
5.4.1 Sequentielle Testprozeduren 5 - 235.4.2 Modell-Suchverfahren 5 - 285.4.3 Das Vorwärts-Suchverfahren 5 - 305.4.4 Das Rückwärts-Suchverfahren 5 - 315.4.5 Modifizierte Suchverfahren 5 - 32
Inhaltsverzeichnis 8.7.10 2
4 Das lineare Aitken-Modell (33) 4.1 Das gewichtete Gauß-Markov-Modell 4-2 4.2 Transformation des Aitken-Modells in ein Gauss-Markov-Modell 4-3
4.2.1 Gewichtetes Gauß-Markov-Modell 4-4 4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 4-5
4.3.1 Gewichtetes Gauß-Markov-Modell 4-8 4.4 Das Aitken-Modell mit normalverteilten Beobachtungen 4-9 4.5 Tests für Linearkombinationen des Erwartungswerts
bei normalverteilten Beobachtungen 4 - 12 4.5.1 Formulierung der Hypothesen 4 - 12 4.5.2 Der ein- und zweiseitige t-Test 4 - 13 4.5.3 Die Schärfe des einseitigen t-Tests 4 - 15 4.5.4 Die Schärfe des zweiseitigen t-Tests 4 - 16 4.5.5 Konfidenzgrenzen für Linearkombinationen 4 - 17 4.5.6 Linearkombinationen des Parameters 4 - 18
4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen 4 - 19 4.6.1 Lineare Hypothesen über den Erwartungswert 4 - 19 4.6.2 Lineare Hypothesen über den Parameter 4 - 22 4.6.3 Schärfebetrachtungen beim F-Test 4 - 24
4.7 Konstruktion von Konfidenzbereichen 4 - 26 4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor 4 - 26 4.7.2 Simultane Konfidenzintervalle nach Bonferroni 4 - 28 4.7.3 Simultane Konfidenzintervalle nach Scheffe 4 - 30
5. Weitere Analysen im Gauss-Markov-Modell (33) 5.1 Fehlspezifikation des Modells 5 - 2
5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse 5-6 5.1.2 Einfache Varianzanalyse mit Randomisierung 5-7 5.1.3 Fehlspezifikation bei linearer Regression einer Variablen 5 - 10 5.1.4 Lineare Regression einer Variablen mit Randomisierung 5 - 11
5.2 Anpassungstests für lineare Modelle 5 - 14 5.3 Residuenanalyse 5 - 19 5.4 Modellsuche 5 - 23
5.4.1 Sequentielle Testprozeduren 5 - 23 5.4.2 Modell-Suchverfahren 5 - 28 5.4.3 Das Vorwärts-Suchverfahren 5 - 30 5.4.4 Das Rückwärts-Suchverfahren 5 - 31 5.4.5 Modifizierte Suchverfahren 5 - 32
Inhaltsverzeichnis 8.7.10 3
6. Asymptotische Resultate im Gauß-Markov-Modell6.1 Grundlagen der Asymptotik6.2 Asymptotische Verteilung der Schätzer6.3 Asymptotische Test für Linearkombinationen
6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests6.3.2 Asymptotische Eigenschaften des t-Tests6.3.3 Schärfeapproximation für den asymptotischen t-Test6.3.4 Asymptotische Konfidenzbereiche
6.4 Asymptotische Test für lineare Hypothesen
LiteraturIndex
(16)6-26-8
6 - 106 - 106 - 116 - 136 - 146 - 15
(1)(3)
Inhaltsverzeichnis 8.7.10
6. Asymptotische Resultate im Gauß-Markov-Modell 6.1 Grundlagen der Asymptotik 6.2 Asymptotische Verteilung der Schätzer 6.3 Asymptotische Test für Linearkombinationen
6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests 6.3.2 Asymptotische Eigenschaften des t-Tests 6.3.3 Schärfeapproximation für den asymptotischen t-Test 6.3.4 Asymptotische Konfidenzbereiche
6.4 Asymptotische Test für lineare Hypothesen
Literatur Index
3
(16) 6-2 6-8
6 - 10 6 - 10 6 - 11 6 - 13 6 - 14 6 - 15
(1) (3)
Einführung 25.7.05 0 - 1
0 Einführung
Die von Nelder und Wedderburn (1972) eingeführte Theorie der Generalisierten Line-
aren Modelle (engl.: Generalized Linear Models, abgekürzt: GLM) bildet einen gemeinsa-
men Rahmen für die Behandlung zahlreicher wichtiger statistische Verfahren, die
zuvor isoliert betrachtet wurden, darunter in erster Linie
Lineare Modelle: Regressions-, Varianz- und Covarianz-Analyse für normalver-
teilte Beobachtungsdaten,
Quantal-Response Modelle für binomialverteilte Beobachtungsdaten,
Log-lineare Modelle für Poisson-verteilte Beobachtungsdaten.
Bei diesen statistischen Verfahren geht es um Modellierung der Abhängigkeit einer
beobachteten Zufallsvariablen Y - der Zielvariablen (z.B. ein Krankheitszustand auf
einer geeigneten Skala) von einem zusätzlichen Covariablen-Vektor X = (xl, ... ,xs),
der die möglichen Einflussvariablen (z.B. Art der Behandlung, Alter und Geschlecht
des Patienten etc.) enthält und als fest vorgegeben angesehen wird. Wenn der Covari-
ablen-Vektor X auch zufällig, d.h. Realisierung eines Zufallsvektors X ist, so wird
die Analyse auf die beobachteten Covariablen-Werte X = X bedingt. Die einzelnen
Covariablen-Komponenten X können hierbei stetige Variablen (mit Werten aus ei- S
nem Intervall reeller Zahlen), Faktoren (mit ganzzahligen Werten, sogenannten Stu-
fen) oder auch Indikatoren (mit Werten 0 oder 1) sein.
Es ist zweckmäßig, die Modellbildung in eine deterministische und eine stochastische
Komponente zu zerlegen. Im deterministischen Teil wird der Einfluß der Covari-
ablen X auf den Erwartungswert der Zielvariablen Y parametrisch modelliert, wäh-
rend der stochastische Teil die Streuung der Zielvariablen Y um ihren Erwartungs-
wert ,L durch die Angabe einer Verteilungsklasse für Y präzisiert wird. Im folgenden
charakterierisieren wir nur die Klasse der Linearen Modelle indem wir ihre beiden
Komponenten separat beschreiben. Hierbei ist es zweckmäßig, zunächst nur eine
Einzelbeobachtung (x,Y) zu betrachten und erst danach auf einen Datensatz
( X . , Y .) von j = 1, ... ,J Beobachtungen einzugehen. 3 3
Einführung 25.7.05 0-1
o Einführung
Die von NeIder und Wedderburn (1972) eingeführte Theorie der Generalisierten Line
aren Modelle (engl.: Generalized Linear Models) abgekürzt: GLM) bildet einen gemeinsa
men Rahmen für die Behandlung zahlreicher wichtiger statistische Verfahren, die
zuvor isoliert betrachtet wurden, darunter in erster Linie
• Lineare Modelle: Regressions-, Varianz- und Covarianz-Analyse für normalver
teilte Beobachtungsdaten,
• Quantal-Response Modelle für binomialverteilte Beobachtungsdaten,
• Log-lineare Modelle für Poisson-verteilte Beobachtungsdaten.
Bei diesen statistischen Verfahren geht es um Modellierung der Abhängigkeit einer
beobachteten Zufallsvariablen Y - der Zielvariablen (z.B. ein Krankheitszustand auf
einer geeigneten Skala) von einem zusätzlichen Covariablen-Vektor x = (xl' ... ,xS
)'
der die möglichen Einflussvariablen (z.B. Art der Behandlung, Alter und Geschlecht
des Patienten etc.) enthält und als fest vorgegeben angesehen wird. Wenn der Covari
ablen-Vektor x auch zufällig, d.h. Realisierung eines Zufallsvektors X ist, so wird
die Analyse auf die beobachteten Covariablen-Werte X = x bedingt. Die einzelnen
Covariablen-Komponenten x können hierbei stetige Variablen (mit Werten aus ei-s
nem Intervall reeller Zahlen), Faktoren (mit ganzzahligen Werten, sogenannten Stu-
fen) oder auch Indikatoren (mit Werten 0 oder 1) sein.
Es ist zweckmäßig, die Modellbildung in eine deterministische und eine stochastische
Komponente zu zerlegen. Im deterministischen Teil wird der Einfluß der Covari
ablen x auf den Erwartungswert der Zielvariablen Y parametrisch modelliert, wäh
rend der stochastische Teil die Streuung der Zielvariablen Y um ihren Erwartungs
wert f-L durch die Angabe einer Verteilungsklasse für Y präzisiert wird. Im folgenden
charakterierisieren wir nur die Klasse der Linearen Modelle indem wir ihre beiden
Komponenten separat beschreiben. Hierbei ist es zweckmäßig, zunächst nur eine
Einzelbeobachtung (x) Y) zu betrachten und erst danach auf einen Datensatz
(x. , Y.) von j = 1, ... ,J Beobachtungen einzugehen. ] ]
1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1-1
1. Modellierung und Verteilungsmodelle
1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung
S Ausgangspunkt ist ein Covariablen-Vektor X = (X . X ) E R und eine davon abhän- 1'
gende reelle Zufallsvariable Y = Y(x). Der deterministische Teil des Linearen Mo-
dells beschreibt die Abhängikeit des Erwartungswert E(Y(x)) vom Covariablenvek-
tor X unter Verwendung eines unbekannten Parameter-Vektors B = (Bl, ... , BS) E R S
wie folgt
d.h. jede einzelne Covariablenkomponente X E R wirkt über den Summanden B X S S S
T additiv auf den Erwartungswert. Der Erwartungswert P(X) = X 0 ist sowohl linear
im Parameter 8 (daher kommt der Name Lineares Modell) als auch linear im Cova-
riablenvektor X.
Unter Verwendung der Abweichung vom Erwartungswert
(I> &(X) = Y(.) - E(Y(x)) (Zentrierung, Fehlervariable)
- auch Fehlervariable genannt - lässt sich das Modell äquivalent beschreiben durch
(LM)E T Y(X) = 6 + &(X) mit E(E(x)) = 0.
Man beachte, daß wir hier - und später - stets davon ausgehen, daß der Covari-
ablen-Vektor X fest vorgegeben und somit keine Zufallsvariable ist. Wir wollen aber
kurz darauf eingehen, wie man die Methoden der Lineare Modelle auch bei zufälli-
gen Covariablen verwenden kann. Hierbei gehen wir von einem S-dimensionalen
Zufallsvektor X von Covariablen aus und betrachten das zu (LM)' analoge Zufäl- E lige Lineare Modell
T Y = X B + & mit E(&) = 0
wobei die Fehlervariable e von X stochastisch unabhängig ist. Dieses Modell besagt,
daß die Zielvariable Y bis auf einen zufälligen Fehler e durch die Covariable X be-
1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06
1. Modellierung und Verteilungsmodelle
1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung
1-1
Ausgangspunkt ist ein Covariablen-Vektor x = (xl' ... , XS
) E IRS und eine davon abhän
gende reelle Zufallsvariable Y = Y(x). Der deterministische Teil des Linearen Mo
dells beschreibt die Abhängikeit des Erwartungswert E(Y(x)) vom Covariablenvek
tor x unter Verwendung eines unbekannten Parameter-Vektors () = (()l' ... , () 5) E IRS
wie folgt
d.h. jede einzelne Covariablenkomponente x E IR wirkt über den Summanden () x s s s
additiv auf den Erwartungswert. Der Erwartungswert p,(x) = x T() ist sowohl linear
im Parameter () (daher kommt der Name Lineares Modell) als auch linear im Cova
riablenvektor x.
Unter Verwendung der Abweichung vom Erwartungswert
(1) c(x) = Y(x) - E(Y(x)) (Zentrierung) Fehlervariable)
- auch Fehlervariable genannt - lässt sich das Modell äquivalent beschreiben durch
mit E(c(x)) = o.
Man beachte, daß wir hier - und später - stets davon ausgehen, daß der Covari
ablen-Vektor x fest vorgegeben und somit keine Zufallsvariable ist. Wir wollen aber
kurz darauf eingehen, wie man die Methoden der Lineare Modelle auch bei zufälli
gen Covariablen verwenden kann. Hierbei gehen wir von einem S-dimensionalen
Zufallsvektor X von Covariablen aus und betrachten das zu (LM)'E analoge Zufäl
lige Lineare Modell
mit E(c) = 0
wobei die Fehlervariable c von X stochastisch unabhängig ist. Dieses Modell besagt,
daß die Zielvariable Y bis auf einen zufälligen Fehler c durch die Covariable X be-
1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1 - 2
stimmt ist. Wenn man nur die Abhängikeit der Zielvariablen Y von X untersuchen
will und nicht an der Verteilung der Covariablen X interessiert ist, so genügt es, die
bedingte Verteilung .d(Y I X = X) zu betrachten (vgl. Exkurs BV Bedingte Verteilun-
gen), wobei X der konkret beobachtete Covariablenvektor ist. Wegen der Unabhän-
gigkeit von X und e ergibt sich der bedingten Erwartungswert von Y zu
Folglich gilt das Lineare Modell (LM) für den bedingten Erwartungswert, d.h. es E ist
(BLM)E ,L(x):= E ( Y I X = x ) (Bedingtes Lineares Modell).
In diesem Sinn lassen sich die hier zu entwickelnden Methoden für Lineare Modelle
mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei dann ,L(x)
als bedingter Erwartungswert zu interpretieren ist. Konkret wird die Analyse bei zu-
fälligem X auf den beobachteten Wert X bedingt.
Genau genommen, umfaßt das bedingte Modell (BLM) sogar das Modell (LM)E E für den Fall, daß X eine Einpunktverteilung im vorgegebenen Wert X hat, d.h.
P{X = X) = 1.
1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1- 2
stimmt ist. Wenn man nur die Abhängikeit der Zielvariablen Y von X untersuchen
will und nicht an der Verteilung der Covariablen X interessiert ist, so genügt es, die
bedingte Verteilung L(YI X = x) zu betrachten (vgl. Exkurs BV Bedingte Verteilun
gen), wobei x der konkret beobachtete Covariablenvektor ist. Wegen der Unabhän
gigkeit von X und c ergibt sich der bedingten Erwartungswert von Y zu
Folglich gilt das Lineare Modell (LM)E für den bedingten Erwartungswert, d.h. es
ist
p,(x) : = E(YI X = x) (Bedingtes Lineares Modell).
In diesem Sinn lassen sich die hier zu entwickelnden Methoden für Lineare Modelle
mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei dann p,(x)
als bedingter Erwartungswert zu interpretieren ist. Konkret wird die Analyse bei zu
fälligem X auf den beobachteten Wert x bedingt.
Genau genommen, umfaßt das bedingte Modell (BLM)E sogar das Modell (LM)E
für den Fall, daß X eine Einpunktverteilung im vorgegebenen Wert x hat, d.h.
P{X=x}=1.
1.2 Verteilungsmodelle für eine Einzelbeobachtung 11.8.05 1 - 3
1.2 Varianz und Verteilung einer Einzelbeobachtung
Der stochastische Teil des Linearen Modells fordert zunächst nur, daß die Varianz
der Zufallsvariablen Y(x) homogen d.h. unabhängig vom Covariablenvektor X ist
( H V a r M ) E ~ a r ( ~ ( x ) ) = a2 (homogenes Varianzmodell der Einzelbeobachtung)
2 mit a > 0 als Skalen- oder Dispersions-Parameter. Zusammen mit dem deterministi-
schen Teil wird hierdurch die Verteilung von Y(x) bereits wesentlich eingeschränkt.
Wenn Y(x) z.B. eine Bernoulli-Verteilung ~ ( 1 , ,L(x)) oder eine Poisson-Verteilung
~ o i s ( ~ ( x ) ) hat, so hängt ihre Varianz vom Erwartunsgwert ,L(x) und somit auch
von X ab, und das obige Varianzmodell gilt nicht für diese Verteilungen.
Im sogenannten Klassischen Linearen Modell wird zusätzlich noch die Verteilung von
Y(x) als Normalverteilung postuliert
( W E Y(x) ist normalverteilt (Normalverteilung der Einzelbeobachtung),
wobei der Erwartungswert durch (LM) und die Varianz durch (VarM) gegeben E E sind. Insgesamt läßt sich das Klassische Lineare Modell daher charakterisieren
durch
( K W E Y(x) - ~ ( x ~ e , a2) (Klassisches Lineares Modell).
Unter Verwendung der Fehlervariablen &(X) ergeben sich die äquivalenten Fassun-
gen
( W h &(X) ist normalverteilt,
T (KLM)E Y(x) = X B + E ( x ) mit &(X) - N(0, a2).
Man beachte, daß die Verteilung N(0, a2) der Fehlervariablen &(X) hier nicht mehr
vom Covariablenvektor X abhängt.
Die Normalverteilungsannahme ist eine wesentliche Einschränkung, die sich in der
Praxis nicht immer rechtfertigen lässt. Deshalb ist es sinnvoll möglichst viele Re-
sultate ohne diese Annahme zu erzielen. Wir werden deshalb die Bedingung (NV) E nicht generell voraussetzen, sondern sie nur bei Bedarf explizit fordern.
1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1- 3
1.2 Varianz und Verteilung einer Einzelbeobachtung
Der stochastische Teil des Linearen Modells fordert zunächst nur, daß die Varianz
der Zufallsvariablen Y(x) homogen d.h. unabhängig vom Covariablenvektor x ist
(HVarM)E Var(Y(x)) = 0-2 (homogenes Varianzmodell der Einzelbeobachtung)
mit 0-2> 0 als Skalen- oder Dispersions-Parameter. Zusammen mit dem deterministi
schen Teil wird hierdurch die Verteilung von Y(x) bereits wesentlich eingeschränkt.
Wenn Y(x) z.B. eine Bernoulli-Verteilung B(l, ,u(x)) oder eine Poisson-Verteilung
Pois(,u( x)) hat, so hängt ihre Varianz vom Erwartunsgwert ,u( x) und somit auch
von x ab, und das obige Varianzmodell gilt nicht für diese Verteilungen.
Im sogenannten Klassischen Linearen Modell wird zusätzlich noch die Verteilung von
Y(x) als Normalverteilung postuliert
Y(x) ist normalverteilt (Normalverteilung der Einzelbeobachtung) ,
wobei der Erwartungswert durch (LM)E und die Varianz durch (Var M)E gegeben
sind. Insgesamt läßt sich das Klassische Lineare Modell daher charakterisieren
durch
(Klassisches Lineares Modell).
Unter Verwendung der Fehlervariablen c(x) ergeben sich die äquivalenten Fassun
gen
(NV)~
(KLM)'E
c(x) ist normalverteilt,
mit
Man beachte, daß die Verteilung N(O, 0-2
) der Fehlervariablen c(x) hier nicht mehr
vom Covariablenvektor x abhängt.
Die Normalverteilungsannahme ist eine wesentliche Einschränkung, die sich in der
Praxis nicht immer rechtfertigen lässt. Deshalb ist es sinnvoll möglichst viele Re
sultate ohne diese Annahme zu erzielen. Wir werden deshalb die Bedingung (NV)E
nicht generell voraussetzen, sondern sie nur bei Bedarf explizit fordern.
1.2 Verteilungsmodelle für eine Einzelbeobachtung 11.8.05 1 - 4
Eine geringfügige - aber sehr zweckmässige - Verallgemeinerung des homogenen
Varianzmodells besteht darin, die Varianz unter Verwendung eines belcannten und
von X abhängigen Gewichtsfaktors w(x) > 0 wie folgt zu modellieren
0 2
(GVarM)E ~ a r ( ~ ( x ) ) = - (gewichtetes Varianzmodell der Einzelbeob.). w(x>
Eine Varianz dieser Form liegt z.B. dann vor, wenn die Beobachtung Y(x) bereits
ein Mittelwert aus n unabhängigen Einzelwerten ist, wobei dann w(x) = n ist. X X
Das Gewichtete Lineare Modell - bestehend aus dem gewichteten Varianzmodell
(GVarM) zusammen mit (LM) - läßt sich durch Übergang auf die umskalierten E E Variablen
auf das homogene Modell zurückführen, weil
Prinzipiell genügt es daher, das homogene Modell (VarM) zu betrachten, was wir E auch zunächst (im Kapitel 2) tun werden. Im Hinblick auf die Verallgemeinerungen
zu Generalisierten Linearen Modellen ist es jedoch zweckmäßig, auch das gewich-
tete Lineare Modell näher zu betrachten (in Kapitel 4 und 5) - ohne es auf das ho-
mogene Modell zurückzuführen.
Wir wollen noch kurz auf das Zufällige Lineare Modell mit zufälligem Covariablen-
Vektor X eingehen
T Y = X B + & mit E(&) = 0
wobei e und X voneinander unabhängig sind. Für die auf X = X bedingte Varianz
von Y - d.h. die Varianz der bedingten Verteilung .d(Y I X = X) - ergibt sich dann
2 Setzen wir a = Var(&), so gilt das bedingte homogene Varianzmodell
1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1-4
Eine geringfügige - aber sehr zweckmässige - Verallgemeinerung des homogenen
Varianzmodells besteht darin, die Varianz unter Verwendung eines bekannten und
von x abhängigen Gewichtsfaktors w( x) > 0 wie folgt zu modellieren
2 (GVarM)E Var(Y(x)) = ~x) (gewichtetes Varianzmodell der Einzelbeob.).
Eine Varianz dieser Form liegt z.B. dann vor, wenn die Beobachtung Y(x) bereits
ein Mittelwert aus nunabhängigen Einzelwerten ist, wobei dann w( x) = n ist. x x
Das Gewichtete Lineare Modell - bestehend aus dem gewichteten Varianz modell
(GVarM)E zusammen mit (LM)E - läßt sich durch Übergang auf die umskalierten
Variablen
(1) Y*(x) x* Jw(x)·x,
auf das homogene Modell zurückführen, weil
(2)
Prinzipiell genügt es daher, das homogene Modell (VarM)E zu betrachten, was wir
auch zunächst (im Kapitel 2) tun werden. Im Hinblick auf die Verallgemeinerungen
zu Generalisierten Linearen Modellen ist es jedoch zweckmäßig, auch das gewich
tete Lineare Modell näher zu betrachten (in Kapitel 4 und 5) - ohne es auf das ho
mogene Modell zurückzuführen.
Wir wollen noch kurz auf das Zufällige Lineare Modell mit zufälligem Covariablen
Vektor X eingehen
mit E(c) = 0
wobei c und X voneinander unabhängig sind. Für die auf X = x bedingte Varianz
von Y - d.h. die Varianz der bedingten Verteilung L(Y I X = x) - ergibt sich dann
(3) Var(YI X = x) = Var(c).
Setzen wir 0-2 = Var(c), so gilt das bedingte homogene Varianz modell
1.2 Verteilungsmodelle für eine Einzelbeobachtung 11.8.05 1 - 5
(BHVarM)E Var(Y1 X = X ) = o 2 für alle X
(bedingtes homogenes Varianzmodell der Einzelbeobachtung).
Insbesondere besteht hier keine Notwendigkeit ein gewichtetes Varianzmodell zu be-
trachten.
Anstelle der Normalverteilung in ( N V ) tritt hier die bedingte Normalverteilung E
(BNV)E .d(Y I X = X ) ist eine Normalverteilung
(Bedingte Normalverteilung der Einzelbe~bachtun~).
Diese Normalverteilungsannahme ist z.B. dann erfüllt, wenn die gemeinsame Vertei-
lung von (X,Y') eine Normalverteilung ist, was natürlich höchstens dann der Fall
sein kann, wenn alle Komponenten X von X normalverteilt - also insbesondere S
auch stetige Zufallsvariable - sind.
Und das Bedingte Klassische Lineare Modell ist gegeben durch
T 2 (BKLNQE .d(Y 1 X = X ) = N ( x B, o )
(Bedingtes Klassisches Lineares Modell).
Wie schon in 1.1, gelangt man auch hier bei zufälligen Covariablen X durch Über-
gang auf die bedingte Verteilung .d(Y I X = X ) zu den dem entsprechenden Modell
mit vorgegebener Covariablen X . Folglich lassen sich die Methoden für Lineare Mo-
delle mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei man
lediglich Y(x) als eine Zufallsvariable mit der (bedingten) Verteilung .d(Y I X = X )
zu interpretieren hat.
1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1-5
(BHVarM)E Var(YI X = x) = 0-2 für alle x
(bedingtes homogenes Varianzmodell der Einzelbeobachtung).
Insbesondere besteht hier keine Notwendigkeit ein gewichtetes Varianzmodell zu be
trachten.
Anstelle der Normalverteilung in (NV)E tritt hier die bedingte Normalverteilung
L(YI X = x) ist eine Normalverteilung
(Bedingte Normalverteilung der Einzelbeobachtung).
Diese Normalverteilungsannahme ist z.B. dann erfüllt, wenn die gemeinsame Vertei
lung von (X, Y) eine Normalverteilung ist, was natürlich höchstens dann der Fall
sein kann, wenn alle Komponenten X von X normalverteilt - also insbesondere s
auch stetige Zufallsvariable - sind.
Und das Bedingte Klassische Lineare Modell ist gegeben durch
(Bedingtes Klassisches Lineares Modell).
Wie schon in 1.1, gelangt man auch hier bei zufälligen Covariablen X durch Über
gang auf die bedingte Verteilung L(Y I X = x) zu den dem entsprechenden Modell
mit vorgegebener Covariablen x. Folglich lassen sich die Methoden für Lineare Mo
delle mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei man
lediglich Y(x) als eine Zufallsvariable mit der (bedingten) Verteilung L(Y I X = x)
zu interpretieren hat.
1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 6
1.3 Das Lineare Modell für mehrere Beobachtungen
Wir wollen jetzt das Lineare Modell für einen Datensatz mit J> 0 Beobachtungen
betrachten , d.h. für jedes j = 1, ..., J ist ein S-dimensionaler Covariablen-Vektor X . = S 3
(xjl, ..., X . ) E IR und eine relle Zufallsvariable Y. = Y(x .) gegeben. Hierbei soll S < J 3 s 3 3
-
gelten, damit die Anzahl der Beoachtungen mindestens so groß ist wie die Anzahl
der unbekannten Parameter-Komponenten von 8.
Wir beschreiben zunächst den deterministischen Teil des Modells, d.h. die Modellie-
rung der Erwartungswerte ,LL . = E(Y .) , die wie in 1.1 modelliert werden durch - wo- 3 3
bei wir zur Vereinfachung ,LL. = ,LL(X .) setzen - 3 3
S mit einem gemeinsamen S-dimensionalen Parameter-Vektor 8 = (8 ..., BS) E IR . Wir 1'
fassen nun alle Beobachtungen Y. zu einem J-dimensionalen Beobachtungs-Vektor 3
zusammen, der dann folgenden Erwartungs-Vektor hat
Und die Covariablen-Vektoren fassen wir zu einer JxS-Matrix zusammen
T deren j-te Zeile gerade der transponierte Covariablen-Vektor X . ist. Die Matrix X 1
wird auch als Covariablen-, Struktur- oder Design-Matrix bezeichnet. Der Vektor der
Erwartungswerte ist dann
Um zu einer „parameterfreienn Formulierung des Modells zu gelangen, betrachten
wir den von den Spalten der Covariablen-Matrix X erzeugten linearen Teilraum
1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1- 6
1.3 Das Lineare Modell für mehrere Beobachtungen
Wir wollen jetzt das Lineare Modell für einen Datensatz mit J> 0 Beobachtungen
betrachten, d.h. für jedes j = 1, ... , J ist ein S-dimensionaler Covariablen-Vektor x. = J
(x.1
, ... , x ·5) E IRS und eine relle Zufallsvariable Y. = Y( x.) gegeben. Hierbei soll S < J J J J J -
gelten, damit die Anzahl der Beoachtungen mindestens so groß ist wie die Anzahl
der unbekannten Parameter-Komponenten von ().
Wir beschreiben zunächst den deterministischen Teil des Modells, d.h. die ModelIie
rung der Erwartungswerte p,. = E(Y.), die wie in 1.1 modelliert werden durch - wo-J J
bei wir zur Vereinfachung p,. = p,( x.) setzen -J J
(LM). J
T p,. = E(Y.) = x. () J J J
mit einem gemeinsamen S-dimensionalen Parameter-Vektor () = (()1' ... , () 5) E IRS. Wir
fassen nun alle Beobachtungen Y. zu einem J-dimensionalen Beobachtungs-Vektor J
(1) J Y = (Y1, .... , Y
J) E IR
zusammen, der dann folgenden Erwartungs-Vektor hat
(2)
Und die Covariablen-Vektoren fassen wir zu einer JxS-Matrix zusammen
(3) X=(x.). JS JS
deren j-te Zeile gerade der transponierte Covariablen-Vektor x! ist. Die Matrix X J
wird auch als Covariablen-) Struktur- oder Design-Matrix bezeichnet. Der Vektor der
Erwartungswerte ist dann
(4) p,=X().
Um zu einer "parameterfreien" Formulierung des Modells zu gelangen, betrachten
wir den von den Spalten der Covariablen-Matrix X erzeugten linearen Teilraum
1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 7
und können das Modell dann äquivalent in der Form schreiben
Dieses Modell schränkt also die Variabilität des Erwartungsvektors ,!L ein auf den
linearen Modellraum A des Erwartungswert (Dies ist der eigentliche Grund, warum
man von einem Linearen Modell spricht).
Die parameterfreie Darstellung des Modells hat viele theoretische Vorzüge, weil sie
nur noch den Modellraum A, aber nicht mehr seine explizite Parametrisierung
verwendet. Dies spielt insbesondere dann eine Rolle, wenn der Parameter 8 nicht
eindeutig durch (LM) bestimmt ist. Um sicherzustellen, daß der Parameter 8 ein-
deutig bestimmt ist, genügt es, die folgende Rangbedingung zu fordern
(RB) Die Spalten von X sind linear unabhängig sind, d.h. es gilt
Rang X = S (Rang bedingung) .
Unter der Rangbedingung besitzt die Matrix X folgende Links-Inverse
T -1 T (8) X P : = ( X X ) X falls (RB) gilt,
J und folglich ist die lineare Abbildung X: IRs+ IR mit A = Bild X injektiv und S hat die lineare Abbildung X-: IRJ+ IR als Links-Inverse. Und dann ist der Para-
meter 8 eindeutig durch den Erwartungsvektor ,!L = X8 bestimmt:
(9) p = ~ 8 ~ = x - P falls (RB) gilt.
Falls die Rangbedingung jedoch nicht gilt, so ist 8 in (LM) nur durch zusätzliche
Bedingungen eindeutig bestimmt. Da die Rangbedingung für parameterfreie For-
mulierungen nicht erforderlich ist, wollen wir sie nicht generell voraussetzen, son-
dern bei Bedarf als Zusatzvoraussetzung erwähnen.
Wir wollen jetzt den stochastischen Teil des Modells beschreiben, indem wir Vertei-
lungsmodelle für den Beobachtungsvektor Y formulieren. Eine grundlegende For-
derung ist die Unabhängiglceit der Einzelbeobachtungen:
1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1-7
(6) vft =vft(X) := { X() I ()E IRS } C IR] ,
und können das Modell dann äquivalent in der Form schreiben
(LM) ,
Dieses Modell schränkt also die Variabilität des Erwartungsvektors Jl ein auf den
linearen Modellraum vft des Erwartungswert (Dies ist der eigentliche Grund, warum
man von einem Linearen Modell spricht).
Die parameterfreie Darstellung des Modells hat viele theoretische Vorzüge, weil sie
nur noch den Modellraum vft, aber nicht mehr seine explizite Parametrisierung
verwendet. Dies spielt insbesondere dann eine Rolle, wenn der Parameter () nicht
eindeutig durch (LM) bestimmt ist. Um sicherzustellen, daß der Parameter () ein
deutig bestimmt ist, genügt es, die folgende Rangbedingung zu fordern
(RB) Die Spalten von X sind linear unabhängig sind) d.h. es gilt
Rang X = S (Rang bedingung) .
Unter der Rangbedingung besitzt die Matrix X folgende Links-Inverse
(8) falls (RB) gilt,
und folglich ist die lineare Abbildung X: IRS -----t IR] mit vft = Bild X injektiv und
hat die lineare Abbildung X-: IR] -----t IRS als Links-Inverse. Und dann ist der Para
meter () eindeutig durch den Erwartungsvektor Jl = X() bestimmt:
(9) Jl = X() falls (RB) gilt.
Falls die Rangbedingung jedoch nicht gilt, so ist () in (LM) nur durch zusätzliche
Bedingungen eindeutig bestimmt. Da die Rangbedingung für parameterfreie For
mulierungen nicht erforderlich ist, wollen wir sie nicht generell voraussetzen, son
dern bei Bedarf als Zusatzvoraussetzung erwähnen.
Wir wollen jetzt den stochastischen Teil des Modells beschreiben, indem wir Vertei
lungsmodelle für den Beobachtungsvektor Y formulieren. Eine grundlegende For
derung ist die Unabhängigkeit der Einzelbeobachtungen:
1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 8
(Unab) Yl, ..., YJ sind stochastisch unabhängig,
die wir allerdings nicht generell vorrausetzen wollen, da sich die meisten Resultate
(mit Ausnahme von Ver te i l~n~saussa~en) bereits aus der schwächeren Unkorrelier-
theit der Beobachtungen herleiten lassen:
(Unkor) Y1, ..., YJ sind paarweise unkorreliert, d.h. die JxJ-Covarianzmatrix
von Y hat Diagonalgestalt:
Cov(Y) := (COV(Y., Y ~ ) ) . = Diag { Var(Y .) } . 3 3k 3 3
Im (linearen) Aitken-Modell werden wir allgemeiner auch korrelierte Beobachtun-
gen betrachten, weil sich diese durch eine lineare Transformation wieder auf un-
korrelierte Beobachtungen zurückführen lassen. Generell wollen wir aber, wenn
nicht explizit etwas anderes gesagt ist, die Unkorreliertheit (Unkor) voraussetzten
und bei Bedarf die Unabhängigkeit als zusätzliche Vorraussetzung angeben.
Darüberhinaus soll das gewichtete Varianz-Modell aus 1.2 für jede Beobachtung Y. 3
gelten
2 (GVarM). Var(Y.) = W . (gewichtetes Varianz-Modell).
3 3 3
2 mit einem gemeinsamen Dispersions-Parameter a >0, aber individuellen Gewichten
W . = w(x .) > 0. Zusammen mit der Unkorreliertheit ergibt sich somit das folgende 3 3
Modell für die Covarianz-Struktur des Beobachtungsvektors
(CovM) Cov(Y) = a2 . ~ i a ~ - l {W} (Covarianz-Model l),
J wobei Diag{w} die JxJ Diagonal-Matrix mit Diagonale W = (W ..., wJ E IR be- 1'
zeichnet. Man beachte, daß das Covarianz-Modell (CovM) äquivalent zu den beiden
Bedingungen (Unkor) und (VarM) . für alle j ist. 3
Da durch (LM) nur der Erwartungsvektor E(Y) und durch (CovM) nur die Cova-
rianz-Matrix Cov(Y) des Beobachtungsvektors modelliert werden, so ergeben sich
ingsgesamt nur Bedingungen an die Momente von Y bis zur zweiten Ordnung.
Die Herleitung von exakten Verteilungsaussagen (z.B. für Teststatistiken) erfordert
zusätzlich noch eine Verteilungsannahme für den Beobachtungsvektor Y. Wenn
dies erforderlich ist, so werden wir neben der Unabhängigkeit (Unab) noch voraus-
1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1- 8
(Unab) Y1, ... , Y
J sind stochastisch unabhängig)
die wir allerdings nicht generell vorrausetzen wollen, da sich die meisten Resultate
(mit Ausnahme von Verteilungsaussagen) bereits aus der schwächeren Unkorrelier
theit der Beobachtungen herleiten lassen:
(Unkor) Y1, ... , Y
J sind paarweise unkorreliert) d.h. die lxl-Covarianzmatrix
von Y hat Diagonalgestalt:
Cov(Y) := (Cov(Y., Yk)) 'k = Diag {Var(Y.) .} . J J J J
Im (linearen) Aitken-Modell werden wir allgemeiner auch korrelierte Beobachtun
gen betrachten, weil sich diese durch eine lineare Transformation wieder auf un
korrelierte Beobachtungen zurückführen lassen. Generell wollen wir aber, wenn
nicht explizit etwas anderes gesagt ist, die Unkorreliertheit (Unkor) voraussetzten
und bei Bedarf die Unabhängigkeit als zusätzliche Vorraussetzung angeben.
Darüberhinaus soll das gewichtete Varianz-Modell aus 1.2 für jede Beobachtung Y. ]
gelten
(GVarM). J
2 Var(Y.) = !!...-
J W· ]
(gewichtetes Varianz-ModelV.
mit einem gemeinsamen Dispersions-Parameter 0'2> 0, aber individuellen Gewichten
w. = w(x.) > O. Zusammen mit der Unkorreliertheit ergibt sich somit das folgende J J
Modell für die Covarianz-Struktur des Beobachtungsvektors
(CovM) Cov(Y) = 0'2. Diag -1 {w} (Covarianz-ModelV)
J wobei Diag{w} die lxl Diagonal-Matrix mit Diagonale w = (w1, ... , w) E IR be-
zeichnet. Man beachte, daß das Covarianz-Modell (Cov M) äquivalent zu den beiden
Bedingungen (Unkor) und (Var M) . für alle j ist. ]
Da durch (LM) nur der Erwartungsvektor E(Y) und durch (CovM) nur die Cova
rianz-Matrix Cov(Y) des Beobachtungsvektors modelliert werden, so ergeben sich
ingsgesamt nur Bedingungen an die Momente von Y bis zur zweiten Ordnung.
Die Herleitung von exakten Verteilungsaussagen (z.B. für Teststatistiken) erfordert
zusätzlich noch eine Verteilungsannahme für den Beobachtungsvektor Y. Wenn
dies erforderlich ist, so werden wir neben der Unabhängigkeit (Unab) noch voraus-
1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 9
setzen, daß alle Beobachtung normalverteilt sind
(NV) Y . ist normalverteilt für alle j = 1, ..., J. 3
Die Bedingungen (LM), (CovM) und (NV) zusammen definieren das sogenannte
Klassische Lineare Modell mit Gewichten, welches sich unter Verwendung der multi-
variaten Normalverteilung auch wie folgt äquivalent beschreiben lässt
(KLMG) Y - N ~ ( X8 , o2 ~ i a ~ - ' { W))
(Klassisches Lineares Modell mit Gewichten).
Wir wollen die Normalverteilungsannahme jedoch nicht generell voraussetzen, son-
dern bei Bedarf explizit als Voraussetzung erwähnen.
Nachdem wir die deterministische und stochastische Komponente des Linearen
Modells beschrieben haben, lassen sich die Aufgaben einer statistischen Analyse im
Rahmen dieser Modelle wie folgt charakterisieren:
Modellbildung: Wahl von X bzw. 4,
2 Schätzung der Modellparameter 8 (bzw. ,u) und o sowie gegebenenfalls weiterer
Funktionen dieser Parameter,
Bestimmung der Verteilung der Schätzer 8, P, und 82 (exakt oder asympto-
tisch),
Testen von Hypothesen über die Modellparameter,
Konstruktion von Konfidenzbereichen für die Modellparameter,
Überprüfung der Modellanpassung.
1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen
setzen, daß alle Beobachtung normalverteilt sind
(NV) Y. ist normalverteilt für alle j = 1, ... , 1. ]
11.8.05 1- 9
Die Bedingungen (LM), (CovM) und (NV) zusammen definieren das sogenannte
Klassische Lineare Modell mit Gewichten, welches sich unter Verwendung der multi
variaten Normalverteilung auch wie folgt äquivalent beschreiben lässt
(KLMG) Y '" N j xe , 0-2 Diag -1 { w } )
(Klassisches Lineares Modell mit Gewichten).
Wir wollen die Normalverteilungsannahme jedoch nicht generell voraussetzen, son
dern bei Bedarf explizit als Voraussetzung erwähnen.
Nachdem WIr die deterministische und stochastische Komponente des Linearen
Modells beschrieben haben, lassen sich die Aufgaben einer statistischen Analyse im
Rahmen dieser Modelle wie folgt charakterisieren:
• Modellbildung: Wahl von X bzw. A,
• Schätzung der Modellparameter e (bzw. Jl) und 0-2 sowie gegebenenfalls weiterer
Funktionen dieser Parameter,
• Bestimmung der Verteilung der Schätzer 0, {1" und 52 (exakt oder asympto
tisch),
• Testen von Hypothesen über die Modellparameter,
• Konstruktion von Konfidenzbereichen für die Modellparameter,
• Überprüfung der Modellanpassung.
2. Das Gauß-Markov-Modell 11.8.05 2 - 1
2 Das Gauß-Markov-Mode11
In diesem Kapitel soll das lineare Modell mit homogenen Varianzen untersucht wer-
den. Ausgangspunkt ist also ein Datensatz (X, Y) mit dem J-dimensionalen Be-
~bachtun~svektor
und der JxS-Covariablen-Matrix
für das lineare Modell gilt
(LM) p = E(Y) = X e .
Weiter sollen die Beobachtungen unkorrelliert sein, d.h. es gilt
(Unkor) Y1, ..., YJ sind paarweise unkorreliert, d.h. die Jd-Covarianzmatrix
vonY hat Diagonalgestalt:
Cov(Y) := (COV(Y., Y ~ ) ) . = Diag {Var(Y .) } , 3 3k 3 3
und die Varianzen sollen 1 homogen sein, d.h.
(HVar) Var(Y.) = a 2 für j = 1, ..., J (homogene Varianzen) . 3
Die letzten beiden Voraussetzungen lassen sich zusammenfassen zu
2 (GMC) Cov(Y) = a . lIJ (Gauj3-Markov-Covarianzstruktur)
wobei lIJ die J x J Einheitsmatrix bezeichnet. Das durch (LM) und (GMC) festge-
legte Modell wird auch als Gauj3-Markov-Modell (mit homogenen Varianzen) bezeich-
net.
Unter Verwendung der Abweichung vom Erwartungswert
(3> & = Y - E ( Y ) = Y - p (Fehler- oder Resiuduemvektor)
wird das lineare Modell auch in der Form geschrieben
2. Das Gauß-Markov-Modell 11.8.05 2-1
2 Das Gauß-Markov-Modell
In diesem Kapitel soll das lineare Modell mit homogenen Varianzen untersucht wer
den. Ausgangspunkt ist also ein Datensatz (X, Y) mit dem J-dimensionalen Be
obachtungsvektor
(1) J Y = (Y1, .... , Y
J) E IR
und der JxS-Covariablen-Matrix
(2) X=(x.). JS JS
für das lineare Modell gilt
(LM) Jl = E(Y) = X() .
Weiter sollen die Beobachtungen unkorrelliert sein, d.h. es gilt
(Unkor) Y1' ... , Y
J sind paarweise unkorreliert) d.h. die JxJ-Covarianzmatrix
von Y hat Diagonalgestalt:
Cov(Y) := (Cov(Y., Yk)).k = Diag{Var(Y.).} , J J J J
und die Varianzen sollen 1 homogen sein, d.h.
(HVar) Var(Y.) = 0-2
J für j = 1, ... , J (homogene Varianzen).
Die letzten beiden Voraussetzungen lassen sich zusammenfassen zu
(GMC) Cov(Y) = 0-2
. 11 J (Gauß-Markov-Covarianzstruktur)
wobei 11J
die JxJ Einheitsmatrix bezeichnet. Das durch (LM) und (GMC) festge
legte Modell wird auch als Gauß-Markov-Modell (mit homogenen Varianzen) bezeich
net.
Unter Verwendung der Abweichung vom Erwartungswert
(3) c; = Y - E(Y) = Y - Jl (Fehler- oder Resiuduemvektor)
wird das lineare Modell auch in der Form geschrieben
2. Das Gauß-Markov-Modell 11.8.05 2 - 2
und die Gauß-Markov-Covarianzstruktur lautet äquivalent
2 (GMC)' COV(E) = a . II J .
Bei der Untersuchung des Gauß-Markov-Modell gehen wir wie folgt vor. Zuerst wer-
den die Schätzungen für 8 und ,U nach der Methode der minimalen Quadrate be-
stimmt, deren Eigenschaften hergeleitet, und im Anschluß daran geben wir einen 2 Schätzer für die Varianz a an. Für die Konstruktion von (exakten) Tests über 8
bzw. ,U benötigen wir (in 2.5-2.6) zusätzlich die Normalverteilungs-Annahme und
betrachten daher zuvor (in 2.4) das Klassische Lineare Modell (mit homogenen Va-
rianzen), welches gegeben ist durch
(KLM) Y - N ~ ( X e , a2 I IJ ) (Klassisches Lineares Modell) .
Es zeigt sich dann, daß der bisherige Minimal-Quadrate-Schätzer für 8 bzw. ,U auch 2 der Maximum-Likelihood-Schätzer ist (für den Schätzer von a gilt dies nicht
exakt, aber zumindest asymptotisch).
Im Klassische Lineare Modell behandeln wir dann zunächst den t-Test für Nullhy- T pothesen über eine Linearkombination C 8 des Parameters 8 und anschließend den
F-Test für lineare Nullhypothesen über 8 bzw. ,U.
2. Das Gauß-Markov-Modell 11.8.05 2-2
(LM)" y = x() + c,
und die Gauß-Markov-Covarianzstruktur lautet äquivalent
(GMC) , Cov(c) = 0-2
. 11 J.
Bei der Untersuchung des Gauß-Markov-Modell gehen wir wie folgt vor. Zuerst wer
den die Schätzungen für () und Jl nach der Methode der minimalen Quadrate be
stimmt, deren Eigenschaften hergeleitet, und im Anschluß daran geben wir einen
Schätzer für die Varianz 0-2 an. Für die Konstruktion von (exakten) Tests über ()
bzw. Jl benötigen wir (in 2.5-2.6) zusätzlich die Normalverteilungs-Annahme und
betrachten daher zuvor (in 2.4) das Klassische Lineare Modell (mit homogenen Va
rianzen), welches gegeben ist durch
(Klassisches Lineares ModelV.
Es zeigt sich dann, daß der bisherige Minimal-Quadrate-Schätzer für () bzw. Jl auch
der Maximum-Likelihood-Schätzer ist (für den Schätzer von 0-2 gilt dies nicht
exakt, aber zumindest asymptotisch).
Im Klassische Lineare Modell behandeln wir dann zunächst den t-Test für Nullhy
pothesen über eine Linearkombination cT () des Parameters () und anschließend den
F-Test für lineare Nullhypothesen über () bzw. Jl.
2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 3
2.1. Minimale-Quadrate-Schätzung
Wir wollen uns zuerst mit der Schätzung des Erwartungswerts p E & beschäftigen.
Da wir die Verteilungsklasse des Beobachtsvektors Y zunächst nicht vollständig
spezifizieren wollen (das erfolgt erst in 2.4), steht das Maximum-Likelihood-Ver-
fahren nicht zur Verfügung. Wir verwenden daher das Prinzip der Minimalen Qua-
drate, welches bereits von C. F. Gauß (1777-1855) für die Analyse astronomischer
Beobachtungsdaten eingesetzt wurde.
Die minimale Quadrate-Schätzung (kurz: MQ-Schätzung) für den Erwartungswert p ist
definiert als Minimalstelle fi von
bzgl. PE &. Mit der orthogonalen Projektion PA : IRJ J, & auf den linearen Teil-
raum & läßt sich diese Minimalstelle fi schreiben als
Eine
(4)
bzgl.
Abb. 1: Die Schätzung fi als orthogonale Projektion der Beobachtung Y
M&-Schätzung 4 für den Parameter B ist eine Minimalstelle von
SQ(XSIY) = I I Y - X B I I ~ .
e E IR', d.h. es gilt
2.1 Minimale-Quadrate-Schätzung 31.7.06 2-3
2.1. Minimale-Quadra te-Schätzung
Wir wollen uns zuerst mit der Schätzung des Erwartungswerts Jl E .At beschäftigen.
Da wir die Verteilungsklasse des Beobachtsvektors Y zunächst nicht vollständig
spezifizieren wollen (das erfolgt erst in 2.4), steht das Maximum-Likelihood-Ver
fahren nicht zur Verfügung. Wir verwenden daher das Prinzip der Minimalen Qua
drate) welches bereits von C. F. Gauß (1777-1855) für die Analyse astronomischer
Beobachtungsdaten eingesetzt wurde.
Die minimale Quadrate-Schätzung (kurz: MQ-Schätzung) für den Erwartungswert Jl ist
definiert als Minimalstelle fi, von
(2)
bzgl. JlE.At. Mit der orthogonalen Projektion P c4: IR] -----+ .At auf den linearen Teil
raum .At läßt sich diese Minimalstelle fi, schreiben als
Y Y-fi,
.. vi(
Abb. 1: Die Schätzung fi, als orthogonale Projektion der Beobachtung Y.
Eine MQ-Schätzung () für den Parameter () ist eine Minimalstelle von
(4) SQ(X()IY) = IIY-X()11 2.
bzgl. () E IRS, d.h. es gilt
(5) 4 = X().
2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 4
Zur Bestimmung von 8 setzen wir zunächst die Rangbedingung voraus
(RB) Rang(X) = S (Rang bedingung) .
T Dann ist X X eine nichtsinguläre SxS Matrix und die Matrix
ist eine Linksinverse von X, d.h. es gilt
(7) X-X = n,. Folglich ist die Parameterschätzung 8 durch fi eindeutig bestimmt:
(8) 8 = xg mit 1 T X- = (xTx)- X .
Zur expliziten Berechnung von 8 setzen wir die Ableitung von SQ(X0I Y) nach 0
gleich Null und erhalten die Normalen-Gleichung für 8
(9) (xTx)8=xTy (Normalen-Gleichung) .
Die MQ-Schätzungen ergeben sich dann explizit
(10) 8 = $Y) = X-Y ,
(11) fi = fi(Y) = X X - Y mit T -1 T X - = ( X X) X .
Für die orthogonale Projektion P, auf den linearen Raum .L& erhält man folgende
Darstellung als J x J Matrix
(12) T -1 T P , = X X = X ( X X) X .
Allgemein gilt für eine beliebige Matrix B, deren Spalten eine Basis von .L& sind
(13) T -1 T P, = B(B B) B .
Folglich kann fi = P,Y unter Verwendung einer beliebigen Basis von .L& bestimmt
werden, und der Parameter 8 ergibt sich aus (5) und ist unter der Rangbedingung
(RB) eindeutig bestimmt.
Falls die Rangbedingung (RB) nicht gilt, so besitzt die Normalengleichung keine
eindeutige Lösung 8, aber jede Lösung 8 ist eine MQ-Schätzung für 0 und (5) liefert
2.1 Minimale-Quadrate-Schätzung 31.7.06 2-4
Zur Bestimmung von () setzen wir zunächst die Rangbedingung voraus
(RB) Rang(X) = S (Rang bedingung) .
Dann ist X T X eine nichtsinguläre SxS Matrix und die Matrix
ist eine Linksinverse von X, d.h. es gilt
Folglich ist die Parameterschätzung () durch (i, eindeutig bestimmt:
(8) mit
Zur expliziten Berechnung von () setzen wir die Ableitung von SQ(XO I Y) nach 0
gleich Null und erhalten die Normalen-Gleichung für ()
(9)
Die MQ-Schätzungen ergeben sich dann explizit
(10)
(11)
()(Y)
mit
(Normalen-Gleichung) .
Für die orthogonale Projektion P c4 auf den linearen Raum .At erhält man folgende
Darstellung als lxl Matrix
Allgemein gilt für eine beliebige Matrix B, deren Spalten eine Basis von .At sind
Folglich kann (i, = P c4 Y unter Verwendung einer beliebigen Basis von .At bestimmt
werden, und der Parameter () ergibt sich aus (5) und ist unter der Rangbedingung
(RB) eindeutig bestimmt.
Falls die Rangbedingung (RB) nicht gilt, so besitzt die Normalengleichung keine
eindeutige Lösung (), aber jede Lösung () ist eine MQ-Schätzung für 0 und (5) liefert
2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 5
die (eindeutige) MQ-Schätzung fi = XB für den Erwartungswert p. Unter Verwen- T - T dung einer beliebigen verallgemeinerten Inversen (X X) von (X X) ergibt sich die
orthogonale Projektion zu:
(14) PA = X ( X ~ X ) xT wobei (xTx) . (X T X) - . (xTx) = (xTx).
Hierbei ist eine verallgemeinerte oder generalisierte Inverse (kurz: g-Inverse) einer IxJ
Matrix A definiert als eine beliebige J x I Matrix A- mit AA-A = A. Jede Matrix A
besitzt mindestens eine verallgemeinerte Inverse. Falls A eine Inverse, oder eine
Links- oder Rechts-Inverse besitzt, so ist diese stets auch eine g-Inverse. Speziell ist
die Linksinverse X- aus (6) auch eine g-Inverse von X.
Die MQ-Schätzung für den Erwartungswert p besitzt dann die Darstellung
T - T (15) fi = X(X X) X Y
und eine MQ-Schätzung für den Parameter 8 ist:
T - T (16) B = ( x X) X Y.
Die orthogonale Projektion ist symmetrisch und idempotent
2.1.1 Lineare Regression mit einer Variablen
Für S= 2 sei X. = 1 eine konstante (formale) Covariable und X. = X. eine beobachtete 31 32 3
Covariable. Dann beschreibt (LM) das lineare Regressionsmodell in einer Variablen X
(I> p . = E(Y.) = Bl+B X. für alle j. 3 3 2 3
Die Modell-Matrix X besteht aus zwei Spalten
(2) X = (e+ , X) mit
2.1 Minimale-Quadrate-Schätzung 31.7.06 2-5
die (eindeutige) MQ-Schätzung (i, = XO für den Erwartungswert J-L. Unter Verwen
dung einer beliebigen verallgemeinerten Inversen (XT Xr von (XT X) ergibt sich die
orthogonale Projektion zu:
(14) wobei
Hierbei ist eine verallgemeinerte oder generalisierte Inverse (kurz: g-Inverse) einer Ixl
Matrix A definiert als eine beliebige lxI Matrix A - mit AA - A = A. Jede Matrix A
besitzt mindestens eine verallgemeinerte Inverse. Falls A eine Inverse, oder eine
Links- oder Rechts-Inverse besitzt, so ist diese stets auch eine g-Inverse. Speziell ist
die Linksinverse X- aus (6) auch eine g-Inverse von X.
Die MQ-Schätzung für den Erwartungswert J-L besitzt dann die Darstellung
und eine MQ-Schätzung für den Parameter () ist:
Die orthogonale Projektion ist symmetrisch und idempotent
(17)
(18)
T Pc4 = Pc4
Pc4
.Pc4
= Pc4
(Symmetrie),
(Idem potenz).
2.1.1 Lineare Regression mit einer Variablen
Für S = 2 sei x·1
= 1 eine konstante ( formale) Covariable und x.2
= x. eine beobachtete J J J
Covariable. Dann beschreibt (LM) das lineare Regressionsmodell in einer Variablen x
(1) J-L. = E(Y.) = ()1 + ()2x . J J J
für alle j.
Die Modell-Matrix X besteht aus zwei Spalten
(2)
(3)
X=(e+,x) mit
J J x = (x1
, ... ,xJ) EIR , e+ = (1, ... ,1) EIR .
2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 6
J Allgemein bezeichnet e . E IR den j-ten Einheitsvektor mit den Komponenten 3
(4) e . = 6. 3h 3h (6 ist das Kronecker-Symbol),
und es ist
Die Rangbedingung RangX = 2 ist genau dann erfüllt, wenn nicht alle Covari-
ablenwerte X ..., X gleich sind. Der Raum 4 wird von e+ und X aufgespannt 1' J
Unter Verwendung der Bezeichnungen
(Summe der X- Werte),
(Summe der Y- Werte),
(9) - -1 1 X = J X = - E x .
t J j I (Mittelwert der X-Werte), -
(10) 1 1 Y = J - Y = J C Y . t (Mittelwert der Y-Werte),
(11) sxx = C (X.-q2 2 = C x . - ' ( ~ x . ) ~
j J j 3 J j 3
(12) SXY = C (X.-z)(Y.-Y) 3 = CX.Y.-'(cx.)(cY~) j 3 3 J j 3 3 j 3
(13) S Y Y = C ( Y . - F ) ~ = CY: - ' ( cY. )~ j 3 3 J j s
läßt sich die MQ-Schätzung 8 = (Q1, Q2) explizit angeben:
SxY 1 (14) Q = - , 2 sxx
2.1.2 Polynomregression mit einer Variablen
Das Polynomregressionsmodell in einer Variablen X ergibt sich aus (LM) wenn für je- s -1 des s = 1 ,..., S gilt X . = X . bzw. wenn gilt
3s 3
(I) P . = 3 E(Y.) 3 = Q1 + Q x . + Q x2 + ... + QsxS-I für alle j.. 2 3 3 3
Die Modellmatrix X besteht aus den S Spalten
(2) 0 1 2 X = (X , X , X , ... , xs-l) mit
2.1 Minimale-Quadrate-Schätzung 31.7.06
Allgemein bezeichnet e. E lRJ den j-ten Einheitsvektor mit den Komponenten J
(4)
und es ist
(5) e+ = I; e .. . J J
(5 ist das Kronecker-Symbol),
2-6
Die Rangbedingung RangX 2 ist genau dann erfüllt, wenn nicht alle Covari
ablenwerte xl' ... , xJ
gleich sind. Der Raum.At wird von e+ und x aufgespannt
Unter Verwendung der Bezeichnungen
(7) T I;x. (Summe der x-Werte), x+ x e+ j J
(8) Y+ T I;Y. (Summe der Y-Werte), Y e+
J J
(9) - r 1 _ 1 (Mittelwert der x-Werte), x - J x.
J J
(10) Y J-1 y 1 Y. (Mittelwert der Y-Werte), + J J J
(11) Sxx ~ (xj-x)2 2 }(~x)2 I;x.
J j J J
(12) SxY - ~ (xj - x)(Yj - Y) I;xY. - } (I;x.)(I;Y.) . J J . J . J J J J J
(13) SYY = 'E (Y. y)2 'Ey~ l(I;Y.? . J J J j J J J
läßt sich die MQ-Schätzung e = (°1, 02) explizit angeben:
(14)
2.1.2 Polynomregression mit einer Variablen
Das Polynomregressionsmodell in einer Variablen x ergibt sich aus (LJ\1) wenn für je
des sI, ... , S gilt x. = x~-l bzw. wenn gilt JS J
(1) E( ) e e e 2 e 5-1 /-L.= Y. = 1 2x .+ 3 x . + ... + x
J J J J S
Die Modellmatrix X besteht aus den S Spalten
(2)
(3)
( 0 1 2 5-1) X- x,x1x, ... ,x
k (k k) J x - xl' ... , x J E lR ,
mit
für alle j ..
2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2 - 7
2.2 Eigenschaften der Minimale-Quadrate-Schätzung
Es sollen jetzt diejenigen Eigenschaften der MQ-Schätzung fi = fi(Y) hergeleitet
werden, die keine weiteren Verteilungsannahmen über Y benötigen. Insbesondere
wird (im Gauß-Markov-Theorem) eine Optimalitätseigenschaft von fi(Y) gezeigt.
Zunächst ist die MQ-Schätzfunktion fi(Y) = PA Y eine lineare Funktion der Zielva-
riablen Y, und hieraus ergibt sich ihr Erwartungswert und ihre Covarianz-Matrix:
(1) ~(fi(Y)) = P, (fi ist erwartungstreu für ,U)
2 (2) cov(p (y ) )=D .PA
Falls die Rangbedingung (RB) gilt, so ist die Parameterschätzung 1 T ~ = B ( Y ) = (xTx)- X Y eindeutig definiert und ebenfalls eine lineare Funktion
von Y. Hieraus ergibt sich
(3) E ( ~ Y ) ) = 6, (B ist erwartungstreu für B)
(4) cov(B(y)) = D2 . (xTx)-'.
Neben dem Erwartungswert p sind auch dessen Linearkombinationen
(5) T
C p = C c p . mit j~
c ~ d
J von Interesse. Bezeichnet e . E IR den j-ten Einheitsvektor mit den Komponenten e. 3 3h
= 6. (6 ist das Kronecker-Symbol), so lassen sich z.B. einzelne Komponenten des 3h
Erwartungswerts p oder des Parameters B als Linearkombination darstellen
(6) T p . = e . p für j = 1, ..., J
3 3
(7) T T -1 T 8 . = e . B =(x(x X) ej) p für s = 1, ..., S.
3 3 T Und die Prognose des Erwartungswerts E(y(x0)) = xoB der Zielvariablen Y(xo)
S für einen „neuenn Covariablenwert X E IR ist auch eine Linearkombination von p 0
(8) x;e = ( X ( X ~ X ) - ~ ~ ~ ) ~ ~
T Die MQ-Schätzung einer (beliebigen) Linearkombination C p ist die entsprechende Li-
nearkombination der Schätzung fi
(9) T T
C p = c P Y . A
2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2-7
2.2 Eigenschaften der Minimale-Quadra te-Schätzung
Es sollen jetzt diejenigen Eigenschaften der MQ-Schätzung 4 = 4(Y) hergeleitet
werden, die keine weiteren Verteilungsannahmen über Y benötigen. Insbesondere
wird (im Gauß-Markov-Theorem) eine Optimalitätseigenschaft von 4(Y) gezeigt.
Zunächst ist die MQ-Schätzfunktion 4(Y) = P c4 Y eine lineare Funktion der Zielva
riablen Y, und hieraus ergibt sich ihr Erwartungswert und ihre Covarianz-Matrix:
(1) E(4(Y)) = Jl, (4 ist erwartungstreu für Jl)
(2) Cov(4(Y)) = 0-2
. P uf{
Falls die Rangbedingung (RB) gilt, so ist die Parameterschätzung
0= O(Y) = (XTXr1X Ty eindeutig definiert und ebenfalls eine lineare Funktion
von Y. Hieraus ergibt sich
(3) E( O(Y)) = (), (0 ist erwartungstreu für ())
Neben dem Erwartungswert Jl sind auch dessen Linearkombinationen
(5) cT
Jl = ~ CjJ.Lj mit cE IR] ]
von Interesse. Bezeichnet e. E IR] den j-ten Einheitsvektor mit den Komponenten e.k ] ]
= 6jk (6 ist das Kronecker-Symbol), so lassen sich z.B. einzelne Komponenten des
Erwartungswerts Jl oder des Parameters () als Linearkombination darstellen
(6)
(7)
T J.L.=e.Jl
] ]
T (( T )-1 )T (). = e. () = X X X e. Jl ] ] ]
für j = 1, ... , J
für s = 1, ... , S.
Und die Prognose des Erwartungswerts E(Y(xo)) = x~() der Zielvariablen Y(xo)
für einen "neuen" Covariablenwert X o E IRS ist auch eine Linearkombination von Jl
Die MQ-Schätzung einer (beliebigen) Linearkombination cT Jl ist die entsprechende Li
nearkombination der Schätzung 4
(9) TA Tp Y cJl=C c4.
2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2 - 8
T Diese Schätzung ist auch linear i n Y und somit erwartungstreu für C p
und ihre Varianz ist
W i r wollen jetzt zeigen, d a ß der MQ-Schätzer der beste Schätzer i n einer gewissen
Klasse v o n erwartungstreuen Schätzern ist. Hierzu definieren wir zunächst, w a n n
ein erwartungstreuer Schätzer besser ist als ein anderer.
Definition: Sind fil(Y) und fil'(Y) zwei erwartungstreue Schätzer für p, d.h.
E k f i l ( Y ) ) = El"(fil '(Y)) = P für alle p E A,
so heij't fil(Y) besser als fil'(Y), wenn die Varianz jeder Linearkombination von
fil(Y) ist nicht gröj'er als die der entsprechenden Linearkombination von fil'(Y),
d.h. wenn für alle p E A gilt
(12) TA''
V a r ( c T f i ' ( y ) ) < ~ a r k c p (Y)) für alle C E R J , bzw. P
T T C . ~ o v k f i ' ( ~ ) ) . C < C . ~ o v k f i " ( ~ ) ) . C für alle C E IR J , bzw.
c0vkfi1(y)) < c o v k f i " ( y ) ) ,
wobei die letzte Formulierung eine ablcürzende Schreibweise bzw. die Definition einer
Ordnung für positiv-semidefinite Matrizen ist. Der Index p in E etc. soll an die P
Abhängigkeit des jeweiliegen Wertes von p erinnern.
W i r zeigen jetzt, d a ß der MQ-Schätzer fi(Y) unter allen i n Y linearen und erwar-
tungstreuen Schätzern für p der beste Schätzer. Oder i n englisch: der MQ-Schätzer ist
ein Best Linear Unbiased Estimator (abgekürzt: BLUE):
Gau$-Markou-Theorem: Der MQ-SchätzeKr fi(Y) ist besser als jeder andere
Schätzer fi"(Y), der in Y linear, d.h. von der Form
(13) fil'(Y)=AY mit einer JxJ-Matrix A,
und erwartungstreu für p ist, d.h.
(14) ~ I " ( f i " ( ~ ) ) = p f ü r j e d e s p ~ A .
Ist umgekehrt auch fi"(Y) besser als fi(Y), so ist fil'(Y) bereits der MQ-Schätzer,
d.h. es gilt fil'(Y) =f i . (Y) .
2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2-8
Diese Schätzung ist auch linear in Y und somit erwartungstreu für cT Jl
und ihre Varianz ist
Wir wollen jetzt zeigen, daß der MQ-Schätzer der beste Schätzer in einer gewissen
Klasse von erwartungstreuen Schätzern ist. Hierzu definieren wir zunächst, wann
ein erwartungstreuer Schätzer besser ist als ein anderer.
Definition: Sind fi,'(Y) und fi,"(Y) zwei erwartungstreue Schätzer für Jl, d.h.
E (fi,'(Y)) = E (fi,"(Y)) = Jl JL JL
für alle Jl E ~
so heißt fi,'(Y) besser als fi,"(Y), wenn die Varianz jeder Linearkombination von
fi,'(Y) ist nicht größer als die der entsprechenden Linearkombination von fi,"(Y),
d.h. wenn für alle Jl E .At gilt
(12) Var)cTfi,'(Y)) < VarJL(cTfi,"(Y))
cT. Cov JL(fi,'(Y)). c < cT. Cov JL(fi,"(Y)). c
Cov JL(fi,'(Y)) < Cov JL(fi,"(Y)),
für alle cE IRJ ,
für alle cE IRJ,
bzw.
bzw.
wobei die letzte Formulierung eine abkürzende Schreibweise bzw. die Definition einer
Ordnung für positiv-semidefinite Matrizen ist. Der Index Jl in E etc. soll an die fL
Abhängigkeit des jeweiliegen Wertes von Jl erinnern.
Wir zeigen jetzt, daß der MQ-Schätzer fi,(Y) unter allen in Y linearen und erwar
tungstreuen Schätzern für Jl der beste Schätzer. Oder in englisch: der MQ-Schätzer ist
ein Best Linear Unbiased Estimator (abgekürzt: BLUE):
Gauß-Markov-Theorem: Der MQ-SchätzeKr fi,(Y) ist besser als jeder andere
Schätzer fi,"(Y), der in Y linear, d.h. von der Form
(13) fi,"(Y) = A Y mit einer lxl-Matrix A,
und erwartungstreu für Jl ist, d.h.
(14) E (fi," (Y)) = Jl JL
für jedes Jl E.At.
Ist umgekehrt auch fi,"(Y) besser als fi,(Y), so ist fi,"(Y) bereits der MQ-Schätzer,
d.h. es gilt fi,"(Y) =fi,.(Y).
2.3 Residuen und Schätzung der Varianz 31.7.06 2 - 9
2.3 Residuen und Schätzung der Varianz
Nachdem wir bisher nur den Erwartungswert ,U bzw. den Parameter 8 geschätzt ha-
ben, wollen wir uns jetzt der Schätzung der Varianz o2 zuwenden. Den Ausgang-
spunkt der Betrachtungen bildet hierfür die Abweichung der Beobachtung Y vom
geschätzten Erwartungswert fi, der sogenannte Residuenvektor
(I> R = Y - f i = P Al ly (Residuum).
Hierbei bezeichnet AL das orthogonale Komplement des linearen Modellraums A,
und PA, = II - PA ist die orthogonale Projektion auf AL. J
Das Minimum der quadratischen Form SQ(- I Y) auf A läßt sich unterschiedlich
darstellen und wird auch als Deviance (Abweichung, kurz: Dev) oder Residual Sum of
Squares (RSS) für das Modell A bezeichnet:
(2) Dev(A) = 1 1 ~ - f i 1 1 ~ = C(Y.-fi.) 2 (Deviance von 4, j J J
= 1 1 ~ 1 1 ~ T = Y .PAll.Y,
= 1 1 ~ 1 1 ~ - llfi112
= R S S ( 4 (Residual Sum of Squares).
Abb. 2: Darstel luq von Ekobachiuq Y, Erwartuqswert p, Schatzuq fiund Residuum R =Y- fi
2.3 Residuen und Schätzung der Varianz 31.7.06 2-9
2.3 Residuen und Schätzung der Varianz
Nachdem wir bisher nur den Erwartungswert Jl bzw. den Parameter () geschätzt ha
ben, wollen wir uns jetzt der Schätzung der Varianz 0-2 zuwenden. Den Ausgang
spunkt der Betrachtungen bildet hierfür die Abweichung der Beobachtung Y vom
geschätzten Erwartungswert 4, der sogenannte Residuenvektor
(1) R=Y-4=Pc4~Y (Residuum) .
Hierbei bezeichnet .At~ das orthogonale Komplement des linearen Modellraums .At,
und P c4 ~ = 11 J- P c4 ist die orthogonale Projektion auf .At~
Das Minimum der quadratischen Form SQ(-I Y) auf .At läßt sich unterschiedlich
darstellen und wird auch als Deviance (Abweichung) kurz: Dev) oder Residual Sum of
Squares (RSS) für das Modell .At bezeichnet:
(2) Dev(.At) = 11 Y - 4112
=IIRI1 2
= IIY11 2 -11411 2
= RSS(.At)
(Deviance von u«))
(Residual Sum of Squares).
.. : . : . : . : . : . : . : . : 0 ~: .. ":"~":" .~ .. ~ ... ~ .. ~ ... ~ ... ~ .. JL~ . .. ~ .. ~ ... ~ ... ~ ... ~ .......... .
""" ".;«"""""""""""""""""""":""""""""""""""""""""""""""""""""""""""""
..................................
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Residuen und Schätzung der Varianz 31.7.06 2- 10
Da das Residuum R = Y - E AL orthogonal zur Differenz P-,U E A ist, ergibt
sich (mit dem ,,Pythagoras'? folgende wichtige Zerlegung
(3) S Q ( , U I Y ) = D ~ V ( ~ + I I P - P I I ~ bzw.
1 1 Y-P 1 1 2 = 1 1 Y-P 1 1 2 + IIP-P112 .
Es ist intuitiv naheliegend die Varianz a2 unter Verwendung der Abweichung
1 1 Y-P 1 1 2 ZU schätzen. Hierzu wollen wir die Erwartungswerte der quadratischen
Formen in (3) bestimmen und zeigen zuerst das folgende Resultat.
Theorem 1 (Erwartungswerte quadratischer Formen)
Sei U ein I-dimensionaler Zufallsvektor für den E(U) und Cov(U) existieren, und T A sei eine symmetrische 1x1-Matrix. Dann hat die quadratische Form U A U den
Erwartungswert
(4) E( u T A U) = spur(A . COV(U)) + E(U) T . ~ .E(U) , wobei ,,Spur" bezeichnet den Spur-Operator für quadratische Matrizen bezeichnet.
Weiter benutzen wir, daß bei einer orthogonaler Projektion die Spur gleich dem
Rang und somit gleich der Dimension des Bildraumes ist:
(5> Spur(PA) = Rang(PA) = Dim (.L&').
Mit diesen Vorbereitungen ergeben sich folgende Erwartungswerte
(6) 2
~(lly-,Ull~) = 0 . J ,
(7> E(llfi-,~11~) = a 2 . ~ i m ( & ) ,
[SI ~ ( ~ ~ Y - f i l l ~ ) = E ( ~ e v ( 4 ) = a 2 . F ~ mit
(9> FG = F G ( A ) = ~ i r n ( A ' ) (Freiheitsgrad des Modells A)
= J- Dim(.,$Z).
Wir definieren daher die MQ-Schätzung für a2 durch
2.3 Residuen und Schätzung der Varianz 31.7.06 2-10
Da das Residuum R = Y - (1, E.At~ orthogonal zur Differenz (1,- Jl E.At ist, ergibt
sich (mit dem ,'pythagoras") folgende wichtige Zerlegung
(3) SQ(JlIY) = Dev(.At) + 11(1,-JlI12
IIY-JlI12
= IIY-(1,112+ 11(1,-JlI1
2.
bzw.
Es ist intuitiv naheliegend die Varianz 0-2 unter Verwendung der Abweichung
11 Y - (1, 11 2 zu schätzen. Hierzu wollen wir die Erwartungswerte der quadratischen
Formen in (3) bestimmen und zeigen zuerst das folgende Resultat.
Theorem 1 (Erwartungswerte quadratischer Formen)
Sei U ein I-dimensionaler Zufallsvektor für den E(U) und Cov(U) existieren) und
A sei eine symmetrische lxI-Matrix. Dann hat die quadratische Form U T AU den
Erwartungswert
(4) E(UT AU) = Spur(A. Cov(U)) + E(U)T. A ·E(U) )
wobei )ßpur!! bezeichnet den Spur-Operator für quadratische Matrizen bezeichnet.
Weiter benutzen wir, daß bei einer orthogonaler Projektion die Spur gleich dem
Rang und somit gleich der Dimension des Bildraumes ist:
(5) Spur(P c4) = Rang(P c4) = Dirn (.At).
Mit diesen Vorbereitungen ergeben sich folgende Erwartungswerte
E(IIY - Jl11 2) = 0-2. J ,
E( 11(1,- Jl112
) = 0-2
. Dim(Jt) ,
E( 11 Y - (1, 112
) = E( Dev(.At)) = 0-2
. FG mit
(6)
(7)
(8)
(9) FG = FG(.At) = Dim(.At~) (Freiheitsgrad des Modells .At)
= J - Dim(.At).
Wir definieren daher die MQ-Schätzung für 0-2 durch
(10) Dev(.At)
FG(.At)
2.3 Residuen und Schätzung der Varianz 31.7.06 2- 11
die allerdings nur dann wohldefiniert ist, wenn die Dimension des Modells & echt
kleiner ist als die Anzahl J der Beobachtungen ist , d.h. wenn gilt
(11> Dirn(&) < J bzw. FG(&) = Dirn(&') > 0
Im Fall D i m ( 4 =J ist fi = Y (weil dann &= IRJ ist) und somit sind Zähler und
Nenner in (10) gleich 0, d.h. 8 ist undefiniert. Wir wollen daher Dirn(&) <J bzw.
&S IRJ immer dann (implizit) voraussetzen, wenn wir die Varianzschätzung 8
verwenden. Man beachte, daß unter der (hier nicht vorausgesetzten) Rangbedingung
stets Dim(~d!) = S gilt. Unter (11) ist die Schätzung 8 ist erwartungstreu
Bevor wir die Varianz der Schätzung 8 2 ( ~ ) bestimmen, notieren wir noch einige
Eigenschaften des Residuums. Der Erwartungsvektor des Residuums ist der Null-
vektor
und die Covarianzmatrix des Residuenvektors lautet
Ferner sind das Residuum R und die Schätzung fi unkorreliert zueinander, d.h. es
gilt
Zur Bestimmung der Varianz der Schätzung 82 verwenden wir folgendes Theorem
aus Seber (1977, Thm. 1.8), das wir hier nicht beweisen wollen.
2.3 Residuen und Schätzung der Varianz 31.7.06 2 -11
die allerdings nur dann wohldefiniert ist, wenn die Dimension des Modells vft echt
kleiner ist als die Anzahl J der Beobachtungen ist, d.h. wenn gilt
(11) Dim(vft) < J bzw. FG(vft) = Dim(vft~) > 0 .
Im Fall Dim(vft) = J ist (i, = Y (weil dann vft = IR] ist) und somit sind Zähler und
Nenner in (10) gleich 0, d.h. 5 ist undefiniert. Wir wollen daher Dim(vft) <J bzw.
vft:;= IR] immer dann (implizit) voraussetzen, wenn wir die Varianzschätzung 5
verwenden. Man beachte, daß unter der (hier nicht vorausgesetzten) Rangbedingung
stets Dim(Jt) =S gilt. Unter (11) ist die Schätzung 5 ist erwartungstreu
Bevor wir die Varianz der Schätzung 52(y) bestimmen, notieren wir noch einige
Eigenschaften des Residuums. Der Erwartungsvektor des Residuums ist der Null
vektor
(13) E(R) = 0,
und die Covarianzmatrix des Residuenvektors lautet
Ferner sind das Residuum R und die Schätzung (i, unkorreliert zueinander, d.h. es
gilt
(15) Cov( R, (i,) = 0 .
Zur Bestimmung der Varianz der Schätzung 52 verwenden wir folgendes Theorem
aus Seber (1977, Thm. 1.8), das wir hier nicht beweisen wollen.
2.3 Residuen und Schätzung der Varianz 31.7.06 2- 12
Theorem 2 (Varianzen quadratischer Formen)
Sei U = (Ul, ..., UI) ein I-dimensionaler Vektor unabhängiger Zufallsvariablen
U1, ..., UI mit Erwartungswert X = E(U) und gemeinsamen zentralen Momenten
(16) m k = E{[u.-x.]S < oo für k = 2, 3, 4 und i = l , ..., I. 2 2
I Ist A eine symmetrische 1x1-Matrix mit der Diagonalen a = Diag(A) E IR , so gilt:
T (17) Var {U AU} =
T (m4-3mf)~~a112 + 2 m f s p u r ( ~ % ) + 4 m 2 ~ ~ ~ X 1 1 2 + 4 m 3 a AX..
Für die Anwendung des Theorems auf U = Y und A = PA, benötigen wir zusätz-
lich zur Homogenität (HVar) der Varianzen auch die Homogenität der zentralen Mo-
mente bis zur 4. Ordnung:
(HMom4) Y1, ..., YJ haben gleiche zentrale Momente 3. und 4. Ordnung: k
pk:=E{[Yj-131 } < CO für k = 3, 4 und j = 1, ..., J
(Homogenität der zentralen Momente 3. und 4. Ordnung).
Wir wollen diese Bedingung jedoch nicht generell voraussetzen, sondern sie nur bei
Bedarf explizit erwähnen. Nach diesen Vorbereitungen ergibt sich
(18) V - } =
4 2 4 2 T (p4-30 ) 11all + 2 0 Dirn(&') + 402 11~~~1.4 + 4p3 a PA,p
mit a = Di%(PA,), falls (HMom4) gilt.
Man beachte, daß dieses Resultat auch dann gilt, wenn das Modell &nicht korrekt
spezifiziert ist, d.h. auch für pSf &. Wenn jedoch P E & gilt, so verschwinden die
beiden letzten Summanden in (18).
Die Varianz der Schätzung 8 2 ( ~ ) ergibt sich dann mit (18) und
2.3 Residuen und Schätzung der Varianz 31.7.06 2 -12
Theorem 2 (Varianzen quadratischer Formen)
Sei U = (U1, ... , U
1) ein I-dimensionaler Vektor unabhängiger Zujallsvariablen
U1, ... , U
1 mit Erwartungswert >. = E(U) und gemeinsamen zentralen Momenten
(16) mk = E{[U.- >. .l'J. < 00 jür k = 2, 3, 4 und i = 1 , ... ,1. z z
Ist A eine symmetrische lxI-Matrix mit der Diagonalen a = Diag( A) E IRI) so gilt:
(17) Var{UTA U} =
(m4-3m;)llaI12 + 2m;Spur(A2) + 4m211A>'112 + 4m3 a
TA>. ..
Für die Anwendung des Theorems auf U = Y und A = P c4...L benötigen wir zusätz
lich zur Homogenität (HVar) der Varianzen auch die Homogenität der zentralen Mo
mente bis zur 4. Ordnung:
(HMom4) Y1, ... , Y
J haben gleiche zentrale Momente 3. und 4. Ordnung:
J-Lk := E{[Y.- J-L·lk } < 00 für k = 3,4 undj = 1, ... ,l
J J (Homogenität der zentralen Momente 3. und 4. Ordnung).
Wir wollen diese Bedingung jedoch nicht generell voraussetzen, sondern sie nur bei
Bedarf explizit erwähnen. Nach diesen Vorbereitungen ergibt sich
(18) Var{IIY-4112} =
(J-L 4 -30"4) 11 al12 + 20"
4 Dim(...4~) + 40"2
11 P c4...LJ-L 112 + 4J-L3 a Tp c4...L J-L
mit a = Diag(Pc4...L), falls (HMom4) gilt.
Man beachte, daß dieses Resultat auch dann gilt, wenn das Modell ...4 nicht korrekt
spezifiziert ist, d.h. auch für J-L t/:..At. Wenn jedoch J-L E...4 gilt, so verschwinden die
beiden letzten Summanden in (18).
Die Varianz der Schätzung a2(y) ergibt sich dann mit (18) und
(19)
2.4 Das klassische lineare Modell 31.7.06 2- 13
2.4 Das klassische lineare Modell
Bisher haben wir keine expliziten Verteilungsannahmen über den Beobachtungsvek-
tor Y vereinbart, sondern nur seinen Erwartungsvektor ,u=E(Y) durch (LM) und
seine Covarianzmatrix Cov(Y) durch die Gauß-Markov-Covarianzstruktur (GMC)
modelliert. Für den Rest dieses Kapitels wollen wir zusätzlich voraussetzen, daß die
Y multivariat normalverteilt ist:
(NVY) Y ist J-dimensional normalverteilt:
-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y').
Das bisherige Gauß-Markov-Modell zusammen mit dieser Normalverteilungsan-
nahme wird das Klassische Lineare Modell (kurz: KLM) genannt. Der deterministi-
sche Teil des klassischen linearen Modells beschreibt also die Modellierung des Er-
wartungswerts durch das lineare Modell (LM), und der stochastische Teil ist gege-
ben durch die Gauß-Markov-Covarianzstruktur (GMC) und die Normalverteilung-
sannahme (NVY), die man äquivalent zusammenfassen kann zu
(SKLM) 2(Y) = NJ(,u,02nJ) (Stochastischer Teil des KLhl).
Man beachte, daß unter der Normalverteilungsannahme (NVY) die Komponenten
Y1, ..., YJ genau dann stochastisch unabhängig sind, wenn sie paarweise unkorreliert
sind, d.h. die Bedingungen (UnAb) ist äquivalent zu (UnKor), falls (NVY) gilt.
Folglich sind im klassischen linearen Modell die Beobachtungen stets voneinander
unabhängig, d.h. (UnAb) gilt.
Die Einschränkung auf das klassische lineare Modell hat zu Folge, daß wir jetzt
auch die Verteilungen der M&-Schätzer angeben können. Die Schätzungen fi und 8 sowie das Residuum R sind als lineare Funktionen der normalverteilten Beobach-
tung Y ebenfalls wieder normalverteilt:
(1) 4fi) = ~ J ( , u , o ~ p ~ ) ,
(2) 4 8 ) = NSB, o2 (xTx)-') falls (RB) gilt,
2 (3) J (R)=NJ(o ,o PA,) mit R=Y-fi .
2.4 Das klassische lineare Modell 31.7.06 2-13
2.4 Das klassische lineare Modell
Bisher haben wir keine expliziten Verteilungsannahmen über den Beobachtungsvek
tor Y vereinbart, sondern nur seinen Erwartungsvektor Jl=E(Y) durch (LM) und
seine Covarianzmatrix Cov(Y) durch die Gauß-Markov-Covarianzstruktur (GMC)
modelliert. Für den Rest dieses Kapitels wollen wir zusätzlich voraussetzen, daß die
Y multivariat normalverteilt ist:
(NVY) Y ist i-dimensional normalverteilt:
L(Y) = NJ
( E(Y) , Cov(Y)) (Normalverteilung von Y).
Das bisherige Gauß-Markov-Modell zusammen mit dieser Normalverteilungsan
nahme wird das Klassische Lineare Modell (kurz: KLM) genannt. Der deterministi
sche Teil des klassischen linearen Modells beschreibt also die Modellierung des Er
wartungswerts durch das lineare Modell (LM), und der stochastische Teil ist gege
ben durch die Gauß-Markov-Covarianzstruktur (GMC) und die Normalverteilung
sannahme (NVY), die man äquivalent zusammenfassen kann zu
(SKLM) L(Y) = N jJl, a 2 11) (Stochastischer Teil des KLM).
Man beachte, daß unter der Normalverteilungsannahme (NVY) die Komponenten
Y1, ... , Y
J genau dann stochastisch unabhängig sind, wenn sie paarweise unkorreliert
sind, d.h. die Bedingungen (UnAb) ist äquivalent zu (UnKor), falls (NVY) gilt.
Folglich sind im klassischen linearen Modell die Beobachtungen stets voneinander
unabhängig, d.h. (UnAb) gilt.
Die Einschränkung auf das klassische lineare Modell hat zu Folge, daß wir jetzt
auch die Verteilungen der MQ-Schätzer angeben können. Die Schätzungen {1, und ()
sowie das Residuum R sind als lineare Funktionen der normalverteilten Beobach
tung Y ebenfalls wieder normalverteilt:
(1)
(2)
(3)
L({1,) = N jJl, a2 P.At) ,
L(()) = Njß,a2(XT Xf1)
L(R) =NjO,a2p.At~)
falls (RB) gilt,
mit R = Y -(1, .
2.4 Das klassische lineare Modell 31.7.06 2- 14
2 Für die Deviance bzw. die Schätzung 82 ergibt sich eine umskalierte X -Verteilung
(4) 1 ~ e v ( j l ~ ) = $ 1 1 ~ - f i 1 1 ~ ist xFU-verteilt 2 bzw. D2
FG . 82 = Dev (A) ist a2 .X2 verteilt mit FG-
FG = FG(A) = D i m ( A L ) = J- Dirn(&)
Aus der Unkorreliertheit von Schätzung fi und Residuum R, vgl. 2.3(15), folgt im
klassischen linearen Modell sogar deren stochastzsche Unabhängzlcezt:
(5) fi ist von R - und somit auch von 82 - stochastisch unabhängig.
Man beachte, daß die Schätzungen fi und 82 zwar stochastisch unabhängig sind, aber
dennoch beide funktional von der Beobachtung Y abhängen. Die stochastische
Unabhängigkeit von fi und 82 ist ein zentrales Resultat im klassischen linearen
Modell, aus dem sich später (in 2.5-6) relativ einfach die Verteilungen von Teststa-
tistiken herleiten lassen.
Da im klassischen linearen Modell die Verteilung der Beobachtung Y bis auf die 2 unbekannten Parameter ,U und a vollständig spezifiziert ist, kann (und sollte) man
die Parameter nach der Maximum-Likelihood-Methode schätzen, weil dieses Verfah-
ren in mehrerer Hinsicht optimal ist. Ausgangspunkt ist hierbei das sogenannte Li-
kelihood, d.h. die Dichte der Beobachtung Y, aufgefaßt als eine Funktion der unbe-
kannten Parameter:
2 Die Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) f i , 62 von ,U, a ist definiert
als Maximalstelle des Likelihoods L(,u, a2 IY) bzw. des Kerns des Log-Likelihoods
bzgl. ,U EA und a2> 0.
2 Die Maximierung von [ bzgl. ,U entspricht (unabhängig von a ) genau der Minimie-
rung von llY-,~11~, und folglich stimmt die ML-Schätzung des Erwartungswert ,U
mit der MQ-Schätzung überein:
2.4 Das klassische lineare Modell 31.7.06 2-14
Für die Deviance bzw. die Schätzung 0-2 ergibt sich eine umskalierte X2 -Verteilung
(4) ist X~G-verteilt bzw.
. 2 2 ·1 1st 17 . xFG
-vertel t mit
FG = FG(vft) = Dim(vft~) = J - Dim(vft)
Aus der Unkorreliertheit von Schätzung (i, und Residuum R, vgl. 2.3(15), folgt im
klassischen linearen Modell sogar deren stochastische Unabhängikeit:
(5) (i, ist von R - und somit auch von 0-2 - stochastisch unabhängig.
Man beachte, daß die Schätzungen (i, und 0-2 zwar stochastisch unabhängig sind, aber
dennoch beide funktional von der Beobachtung Y abhängen. Die stochastische
Unabhängigkeit von (i, und 0-2 ist ein zentrales Resultat im klassischen linearen
Modell, aus dem sich später (in 2.5-6) relativ einfach die Verteilungen von Teststa
tistiken herleiten lassen.
Da im klassischen linearen Modell die Verteilung der Beobachtung Y bis auf die
unbekannten Parameter Jl und 172 vollständig spezifiziert ist, kann (und sollte) man
die Parameter nach der Maximum-Likelihood-Methode schätzen, weil dieses Verfah
ren in mehrerer Hinsicht optimal ist. Ausgangspunkt ist hierbei das sogenannte Li
kelihood, d.h. die Dichte der Beobachtung Y, aufgefaßt als eine Funktion der unbe
kannten Parameter:
(6)
Die Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) jJ, , 0-2 von Jl, 172 ist definiert
als Maximalstelle des Likelihoods L(Jl, 172 IY) bzw. des Kerns des Log-Likelihoods
(7) e(Jl, a21Y) = - ~ [J . log 172 + :JY -Jl11 2 ]
bzgl. JlEvft und 172>0.
Die Maximierung von e bzgl. Jl entspricht (unabhängig von (72
) genau der Minimie
rung von IIY - Jl11 2, und folglich stimmt die ML-Schätzung des Erwartungswert Jl
mit der MQ-Schätzung überein:
2.4 Das klassische lineare Modell 31.7.06 2 - 15
Aber die ML-Schätzung für die Varianz a2 (die man durch Differenzieren von 2 nach a erhält) unterscheidet sich von der MQ-Schätzung um einen Faktor < 1
(9) - 2 1 2 FG - 2 - 2 0 = JIIY-fiII = 7 . 0 < 0 .
Die ML-Schätzung 62 ist also nicht erwartungstreu für a2, und man kann die MQ-
Schätzung 82 als erzuartungstreue Korrektur der ML-Schätzung auffassen.
Die geometrisch motiviert Schätzmethode der Minimalen Quadrate für ,U erweist
sich also bei normalverteilten Beobachtungen als äquivalent zur Maximum-Likeli-
hood-Methode.
2.4 Das klassische lineare Modell 31.7.06 2 -15
Aber die ML-Schätzung für die Varianz a 2 (die man durch Differenzieren von e nach a 2 erhält) unterscheidet sich von der MQ-Schätzung um einen Faktor< 1
(9) ~ 2 _ 1 IIY -11 2 _ FG A2 < A2 a- J -Jl -T· a a.
Die ML-Schätzung 0-2 ist also nicht erwartungstreu für a 2, und man kann die MQ
Schätzung 0-2 als erwartungstreue Korrektur der ML-Schätzung auffassen.
Die geometrisch motiviert Schätzmethode der Minimalen Quadrate für Jl erweist
sich also bei normalverteilten Beobachtungen als äquivalent zur Maximum-Likeli
hood-Methode.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 16
2.5 Tests für Linearkombinationen des Parameters
Nachdem wir die Verteilungen der MQ-Schätzungen bestimmt haben, sind wir jetzt
in der Lage, Hypothesen über den Parametervektor 8 zu testen. Da dies nur sinnvoll
ist, wenn der Parameter 8 eindeutig bestimmt ist, wollen wir in diesem Abschnitt
generell die Rangbedingung (RB) voraussetzen.
2.5.1 Testen einzelner Komponenten des Parameters
In konkreten Anwendungen sind die einzelnen Komponenten von 8 interpretierbare
Größen und für eine feste Komponente 1 < - s <S - sind Hypothesen über den zur Co-
variablenkomponente X gehörigen Parameter 8 von Interesse. Insbesondere inte- S S
ressiert hierbei, ob dieser Wert gleich Null ist (und somit die Covariable xs keinen
Einfluß auf den Erwartungswert der Zielvariablen hat), d.h man betrachtet das
Testproblem
Nullhypothese: I9 = 0 (Covariable X hat keinen Einflug) VS. S S
Alternative: I9 r 0 (Covariable X hat Einflug). S S
Etwas allgemeiner ist der Fall, daß man den Parameter Bs mit einem beliebigen fest
vorgegebenen Referenzwert $0 E IR vergleichen will mit den Hypothesen
(1) Nullhypothese H-: 8 = 8 VS. s so
Alternative Hz: I9 r BSo . S
Statt der zweiseitigen Alternative Hz können auch die einseitigen Alternativen von
Interesse sein mit den Hypothesen
(2) Nullhypothese H,: QS 5 Bs0 VS. Alternative H>: 5 > BSo , -
Nullhypothese H>: QS > BSo VS. Alternative H<: 5 < $0 . -
Zur Überprüfung dieser Hypothesen wird man zunächst die Schätzung von I9 be- S
trachten, d.h. die s-te Komponente ds der Parameter-Schätzung 8. Diese Schätzung
ist eindimensional normalverteilt
(3) 4 4 s = N1 (Ps, 0;) mit o2 s = o2 [(xTx)-l] ss und
T -1 T T -le [(X X) Iss = es (X X) s
T -1 s-tes Diagonalelement von (X X) .
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-16
2.5 Tests für Linearkombinationen des Parameters
Nachdem wir die Verteilungen der MQ-Schätzungen bestimmt haben, sind wir jetzt
in der Lage, Hypothesen über den Parametervektor () zu testen. Da dies nur sinnvoll
ist, wenn der Parameter () eindeutig bestimmt ist, wollen wir in diesem Abschnitt
generell die Rangbedingung (RB) voraussetzen.
2.5.1 Testen einzelner Komponenten des Parameters
In konkreten Anwendungen sind die einzelnen Komponenten von () interpretierbare
Größen und für eine feste Komponente 1 < s < S sind Hypothesen über den zur Co
variablenkomponente x gehörigen Parameter () von Interesse. Insbesondere inte-8 8
ressiert hierbei, ob dieser Wert gleich Null ist (und somit die Covariable x keinen 8
Einfluß auf den Erwartungswert der Zielvariablen hat), d.h man betrachtet das
Testproblem
Nullhypothese: () = 0 (Covariable x hat keinen Einfluß) vs. 8 8
Alternative: () ;= 0 (Covariable x hat Einfluß). 8 8
Etwas allgemeiner ist der Fall, daß man den Parameter () mit einem beliebigen fest 8
vorgegebenen Referenzwert () 80 E IR vergleichen will mit den Hypothesen
(1) vs. Alternative H : () ;= () 0 . :;z':: 8 8
Statt der zweiseitigen Alternative H können auch die einseitigen Alternativen von :;z'::
Interesse sein mit den Hypothesen
(2) Nullhypothese H<: ()8 < ()80
Nullhypothese H>: ()8 2:: ()80
vs.
vs. Alternative H <: () 8 < () 80 .
Zur Überprüfung dieser Hypothesen wird man zunächst die Schätzung von () be-8
trachten, d.h. die s-te Komponente B der Parameter-Schätzung B. Diese Schätzung 8
ist eindimensional normalverteilt
(3) A 2 L(() ) = N
1(() ,17 )
8 8 8 mit und
s-tes Diagonalelement von (X T X) -1.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 17
4 ist stochastisch unabhängig von der Varianz-Schätzung 82. Es ist naheliegend, die S
standardisierte Abweichung der Schätzung dS vom Referenzwert Bso als Teststatistik
zu verwenden:
(4) T = 8s - O s 0 mit 82 s = 2 [(xTx)-l] SS'
6 s
Die Verteilung der Teststatistik ist eine nichtzentrale t-Verteilung
(5) J 0 1 = tFG(y) mit
Y = 8s - O s 0 und FG = F G ( A ) = J-S.
0 s
Die Nichtzentralität y ist ein Maß für die Abweichung von der Nullhypothese H-, die -
sich äquivalent schreiben läßt als H P : y = 0. Man beachte, daß sich y von T nur da- -
durch unterscheidet, daß es die wahren Parameter statt deren Schätzungen enthält.
Insbesondere ist die Teststatistik T unter der Nullhypothese H- daher @entral) -
tFG-verteilt. Da groj3e Werte von I T I eher für die zweiseitige Alternative Hz als für
die Nullhypothese H- sprechen, wird man H- zugunsten dieser Alternative ableh- - -
nen, wenn I T leinen kritischen Wert übersteigt. Dies führt auf folgenden Test:
(6) Zweiseitiger t-Test von H vs. H zum Niveau a: - f
Ablehnung von H- -
U I T l 2 t„,:7
U 2@, I T I ) < a. FG
Hierbei ist @ die Verteilungsfunktion der zentralen tFG-Verteilung. Für den be- ,FG
obachteten Testwert t (als Realisierung von T) wird die Wahrscheinlichkeit
L @ , (-ltl) = P{ lt„ I2 l t l ) FG
auch als zweiseitiger P-Wert oder zweiseitiges Signifikanzniveau des beobachteten Test-
werts t oder als P-Wert bzw. P-Level bezeichnet . Folglich lehnt der Test die Nullhy-
pothese ab, wenn das Signifikanzniveau der Beobachtung nicht größer ist als das
Testniveau a.
Durch analoge Überlegungen ergeben sich die einseitigen Tests:
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-17
e ist stochastisch unabhängig von der Varianz-Schätzung 52. Es ist naheliegend, die s
standardisierte Abweichung der Schätzung e vom Referenzwert e 0 als Teststatistik s s
zu verwenden:
(4) mit
Die Verteilung der Teststatistik ist eine nichtzentrale t-Verteilung
(5) mit
und FG = FG(vft) = J-5.
Die Nichtzentralität '"Y ist ein Maß für die Abweichung von der Nullhypothese H_, die
sich äquivalent schreiben läßt als H _: '"Y = o. Man beachte, daß sich '"Y von T nur da
durch unterscheidet, daß es die wahren Parameter statt deren Schätzungen enthält.
Insbesondere ist die Teststatistik T unter der Nullhypothese H_ daher (zentraV
tFG-verteilt. Da große Werte von I T I eher für die zweiseitige Alternative H:;zt. als für
die Nullhypothese H_ sprechen, wird man H_ zugunsten dieser Alternative ableh-- -
nen, wenn I T leinen kritischen Wert übersteigt. Dies führt auf folgenden Test:
(6) Zweiseitiger t-Test von H = vs. H:;zt. zum Niveau a:
Ablehnung von H_ ITI > tFG 9" , 2
2 Pt ( -I TI) < a. FG
Hierbei ist Pt die Verteilungsfunktion der zentralen tFG-Verteilung. Für den beFG
obachteten Testwert t (als Realisierung von T) wird die Wahrscheinlichkeit
2 Pt ( -I t I) = P { I t FG I > I tl } FG
auch als zweiseitiger P-Wert oder zweiseitiges SigniJikanzniveau des beobachteten Test
werts t oder als P-Wert bzw. P-Level bezeichnet. Folglich lehnt der Test die Nullhy
pothese ab, wenn das Signifikanzniveau der Beobachtung nicht größer ist als das
Testniveau a.
Durch analoge Überlegungen ergeben sich die einseitigen Tests:
2.5 Tes ts für Linearkombinationen des Parameters 31.7.06 2 - 18
(7) Einseitiger t-Test von H< vs. H> zum Niveau u: -
Ablehnung von H< U - T t ~ ~ , a
U m (-T) 5 C)L. t~~
(8) Einseitiger t-Test von H> vs. H< zum Niveau u: -
Ablehnung von H> U T <-tFGla , -
U ( T ) < u . FG
Für den beobachteten Testwert t wird die Wahrscheinlichkeit
G (Pt) = P { tFG > t ) ~ Z W . (t) = p { t F G < t ) t~~ t~~
wieder als einseitiges Signifikanzniveau des beobachteten Testwerts t oder als P-Wert
bzw. P-Level bezeichnet.
2 Unter Verwendung der Darstellung von tn = F als F-Verteilung (vgl. Exkurs V l1n
3.1) ergibt sich eine äquivalente Darstellung des zweiseitigen t-Tests als F-Test
(9) Zweiseitiger F-Test von H vs. H zum Niveau a: - f
Ablehnung von H- U 2 T Fi, FG, a.
einseitiger Test Testentscheidung für
zweiseitiger Test Testentscheidung für
0 t FG, a
Abb. 1: Dichte der Teststatistik T des t-Tests unter der Nullhypothese mit den Ableh- nungsbereichen des Tests.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-18
(7) Einseitiger t-Test von H< vs. H> zum Niveau a:
Ablehnung von H<
P (-T) < a· tFG
(8) Einseitiger t-Test von H> vs. H< zum Niveau a:
Ablehnung von H>
Für den beobachteten Testwert t wird die Wahrscheinlichkeit
bzw.
wieder als einseitiges SigniJikanzniveau des beobachteten Testwerts t oder als P-Wert
bzw. P-Level bezeichnet.
Unter Verwendung der Darstellung von t2 = Fl
als F-Verteilung (vgl. Exkurs V n ,n
3.1) ergibt sich eine äquivalente Darstellung des zweiseitigen t-Tests als F-Test
(9) Zweiseitiger F-Test von H= vs. H:;z::. zum Niveau a:
Ablehnung von H_
einseitiger Test Testentscheidung für
zweiseitiger Test Testentscheidung für
H< H> H H H :;z::. = :;z::.
l-a Q
2 l-a
o tpG -tpG 0 0 +tpG 0 ,Q '2'2
Q
2
Abb. 1: Dichte der Teststatistik T des t-Tests unter der Nullhypothese mit den Ablehnungsbereichen des Tests.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 19
Aus der Verteilung der Teststatistik T lassen sich auch Konfidenzgrenzen für die
Parameter-Komponente I9 herleiten. Die einseitige untere bzw. obere Konfidenzgrenzen S
für I9 zum Niveau ci! ergibt sich zu S
(10) 4 - A (untere Grenze) S
bzw. 4 + A (obere Grenze) S
mit ~ = a . t ~ ~ , a .
2.5.2 Testen von Linearkombinationen des Parameters
Als Verallgemeinerung der Hypothesen über eine einzelne Komponente des Para- T S metervektors B betrachten wir jetzt eine feste Linearkombination C B für C E R mit
C r 0, die wir mit einem fest vorgegeben Referenzwert c E R (etwa c = 0) verglei- 0 0
chen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme sind
T (1) Nullhypothese H-: C B = c VS. T
0 Alternative Hz: C B r co ,
T (2) Nullhypothese H<: C B 5 co VS. T Alternative H>: C B > co .
-
T T Das andere einseitige Testproblem H>: C B 5 co vs. H<: C B < co brauchen wir nicht -
extra zu behandeln, weil es sich aus (2) durch den Übergang von C auf - C ergibt.
Speziell mit C = es als s-tem Einheitsvektor und co = $0 ergibt sich das bisherige
Testproblem aus 2.5.1 mit den dortigen Hypothesen (1) und (2). Als weiteres Bei-
spiel läßt sich die Gleicheit I9 = I9 zweier Parameterkomponenten mit C = e -e s t s t
und co = 0 als Nullhypothese der Form H darstellen.
Zur Überprüfung der Hypothesen schätzern wir zunächst die Linearkombination T T A
C B durch die zugehörige Linearkombination C 8 der Parameterschätzung, die ein-
dimensional normalverteilt
(3) q c T d ) = N , ( C ~ B , 02) c mit D 2 = D c C ( X x ) - ~ c > o 2 T T
und stochastisch unabhängig von der Varianz-Schätzung a2 ist. Als Teststatistik ver-
wendet man wieder die standardisierte Abweichung der Schätzung cTd vom Refe-
renzwert c 0
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-19
Aus der Verteilung der Teststatistik T lassen sich auch Konfidenzgrenzen für die
Parameter-Komponente B herleiten. Die einseitige untere bzw. obere KonJidenzgrenzen s
Jür B zum Niveau a ergibt sich zu s
(10) e - L1 (untere Grenze) s
bzw. e + L1 (obere Grenze) s
mit L1 = 0- . tpG . s ,a
2.5.2 Testen von Linearkombinationen des Parameters
Als Verallgemeinerung der Hypothesen über eine einzelne Komponente des Para
metervektors () betrachten wir jetzt eine feste Linearkombination cT () für cE IRS mit
c:;= 0, die wir mit einem fest vorgegeben ReJerenzwert Co E IR (etwa Co = 0) verglei
chen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme sind
(1)
(2)
T Nullhypothese H=: c () = Co
T Nullhypothese H<: c () < Co
vs.
vs.
Alternative H:;zt.: cT () :;= Co '
Alternative H>: cT () > co.
Das andere einseitige Testproblem H >: cT () < Co vs. H <: cT () < Co brauchen wir nicht
extra zu behandeln, weil es sich aus (2) durch den Übergang von c auf - cergibt.
Speziell mit c = es als s-tem Einheitsvektor und Co = Bso ergibt sich das bisherige
Testproblem aus 2.5.1 mit den dortigen Hypothesen (1) und (2). Als weiteres Bei
spiel läßt sich die Gleicheit Bs=Bt zweier Parameterkomponenten mit c=es -et
und Co = 0 als Nullhypothese der Form H= darstellen.
Zur Überprüfung der Hypothesen schätzern wir zunächst die Linearkombination
cT () durch die zugehörige Linearkombination cT e der Parameterschätzung, die ein
dimensional normalverteilt
(3) mit
und stochastisch unabhängig von der Varianz-Schätzung 0-2 ist. Als Teststatistik ver
wendet man wieder die standardisierte Abweichung der Schätzung cT e vom Refe
renzwert Co
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 20
T A e - C o mit n 2 T T (4) T = e 2 = o C (X X)-%.
C C
Und die Teststatistik besitzt eine nichtzentrale t-Verteilung
(5) J(T) = tFG(y) mit
T 7 = und FG = F G ( A ) = J-S.
gc
Die Nichtzentralität y (man beachte wieder die formale Ähnlichkeit zu S) ist ein T Maß für die Abweichung der Linearkombination C B vom Referenzwert co und die
Hypothesen lassen sich äquivalent formulieren als
(1)' Nullhypothese H-: - y = 0 VS. Alternative Hz: y t 0 ,
(2)' Nullhypothese H<: y 5 0 VS. Alternative H>: y > 0 . -
Aus der Verteilung (5) der Teststatistik T ergeben sich formal dieselben t-Tests wie
zuvor in 2.5.1:
(6) Zweiseitiger t-Test von H vs. Hz zum Niveau u: -
Ablehnung von H- P U I TI 2 tFG,; 7
U 2@, I T I ) i FG
(7) Einseitiger t-Test von H< vs. H> zum Niveau u: -
Ablehnung von H< U - T 2 t ~ ~ , o r
U @ (-T) 5 u. ,FG
T Einseitige untere bzw. obere Konfidenzgrenzen für C B zum Niveau u lassen sich eben-
falls wieder aus der Verteilung der Teststatistik herleiten:
(8) cTd - A (untere Grenze) bzw. cTd + A (obere Grenze)
mit A = & . C t ~ ~ , a .
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 20
(4) mit A2 A2 T(XTX)-l 17 =17 C c. c
Und die Teststatistik besitzt eine nichtzentrale t-Verteilung
(5) mit
und FG = FG(JIf) = J-5.
Die Nichtzentralität '"Y (man beachte wieder die formale Ähnlichkeit zu T) ist ein
Maß für die Abweichung der Linearkombination cT () vom Referenzwert Co und die
Hypothesen lassen sich äquivalent formulieren als
(1) I
(2) I
Nullhypothese H_: '"Y = 0
Nullhypothese H<: '"Y < 0
vs.
vs.
Alternative H : '"Y :;= 0 , :;z:
Alternative H>: '"Y > o.
Aus der Verteilung (5) der Teststatistik T ergeben sich formal dieselben t-Tests wie
zuvor in 2.5.1:
(6) Zweiseitiger t-Test von H= vs. H:;z: zum Niveau a:
Ablehnung von H_ ITI > tFG 9" , 2
2 Pt ( -I TI) < a. FG
(7) Einseitiger t-Test von H< vs. H> zum Niveau a:
Ablehnung von H<
P (-T) < a· tFG
Einseitige untere bzw. obere Konjidenzgrenzen jür cT () zum Niveau a lassen sich eben
falls wieder aus der Verteilung der Teststatistik herleiten:
(8) TA
C () - L1 (untere Grenze) bzw. cT () + L1 (obere Grenze)
mit L1 = a . tFG
. C ,a
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 21
2.5.3 Schärfe der Tests
Die Schärfe (oder Güte, engl.: Power) eines Tests ist definiert als die Wahrscheinlich-
keit für die Ablehnung der Nullhypothese:
(I> Schärfe = Power = P{ Test lehnt die Nullhypothese ab } bzw.
(2) 1 - Schärfe = 1 - Power = P{ Test lehnt die Nullhypothese nicht ab } .
Unter der Nullhypothese beschreibt die Schärfe also das Fehlerrisiko 1. Art (f" ur eine
falsch-positive Entscheidung), und unter der Alternativen ist die komplementäre
Schärfe (2) gerade das Fehlerrisiko 2. Art (für eine falsch-negative Entscheidung).
Beim einseitigen t-Test hängt die Testschärfe von der Nichtzentralität y, dem Test-
niveau a und dem Freiheitsgrad FG wie folgt ab:
(3) (Schärfe: einseitig)
= 1 - ( t ) tFG(7) FG, a
ist streng monoton wachsend sowohl in y als auch in a.
Dabei ist @ die Verteilungsfunktion der nichtzentralen tFG(y)-Verteilung Die t ~ ~ ( 7 )
Funktion Powl(-,a) wird auch als Gütefunktion des einseitigen Tests bezeichnet.
Speziell ergibt sich das Testniveau a als maximales Fehlerrisiko 1. Art unter der
Nullhypothese H< -
(4) a = POW~(O, a) = sup POW (y, a) 7 5 0 1
Und als Grenzwerte für y + f CO ergeben sich aus (3)
(5) POW 1 (- CO,^) = 0, POW 1 (+ CO,^) = I.
Die Schärfe des zweiseitigen t-Test hängt nur über 1 y I von y ab und läßt sich wie
folgt darstellen:
(6) Pow2(y,a) )= P o w l ( l ~ l i ~ ) + P o w l ( - l ~ l i ~ ) (Schärfe: zweiseitig).
Nach (3) ist der erste Summand ist streng wachsend in 1 yl und größer als der
zweite Summand, der streng fallend in 1 y 1 ist und nach (5) sogar für 1 y 1 + CO gegen
0 konvergiert. Folglich läßt sich die Summe für nicht zu geringes 1 y 1 durch den er-
sten Summanden approximieren
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 21
2.5.3 Schärfe der Tests
Die Schärfe (oder Güte! engl.: Power) eines Tests ist definiert als die Wahrscheinlich
keit für die Ablehnung der Nullhypothese:
(1) Schärfe Power P { Test lehnt die Nullhypothese ab } bzw.
(2) 1 - Schärfe 1- Power P { Test lehnt die Nullhypothese nicht ab } .
Unter der Nullhypothese beschreibt die Schärfe also das Fehlerrisiko 1. Art (für eine
falsch-positive Entscheidung), und unter der Alternativen ist die komplementäre
Schärfe (2) gerade das Fehlerrisiko 2. Art (für eine falsch-negative Entscheidung).
Beim einseitigen t-Test hängt die Testschärfe von der Nichtzentralität "f, dem Test
niveau a und dem Freiheitsgrad FG wie folgt ab:
(3) (Schärfe: einseitig)
ist streng monoton wachsend sowohl in "f als auch in a.
Dabei ist P tFG(-y) die Verteilungsfunktion der nichtzentralen tpG("{)-Verteilung. Die
Funktion Pow1( -,a) wird auch als Gütefunktion des einseitigen Tests bezeichnet.
Speziell ergibt sich das Testniveau a als maximales Fehlerrisiko 1. Art unter der
Nullhypothese H<
(4) a = Pow1 (O,a) = sup Pow
1 (,,{,a)
1'::;0
Und als Grenzwerte für "f ---+ ± 00 ergeben sich aus (3)
(5) Pow1 (-oo,a) = 0, Pow
1 (+ oo,a) = 1.
Die Schärfe des zweiseitigen t-Test hängt nur über l"f I von "f ab und läßt sich wie
folgt darstellen:
(6) (Schärfe: zweiseitig).
Nach (3) ist der erste Summand ist streng wachsend in h 1 und größer als der
zweite Summand, der streng fallend in 1 "f 1 ist und nach (5) sogar für 1 "f 1---+ 00 gegen
° konvergiert. Folglich läßt sich die Summe für nicht zu geringes I "f I durch den er
sten Summanden approximieren
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 22
(7) PowZ (7, a) Powl ( 17 1 , :), falls 1 y I „nicht zu gering" ,
wobei die Approximation für wachsendes 1 y 1 immer besser wird. In diesem Sinn
entspricht die Schärfe des zweiseitigen Test ungefähr (und mindestens) der des ein-
seitigen Tests zum halben Niveau.
Interpretiert man den zweiseitigen t-Test als F-Test, so ergibt sich für die Schärfe
2 (7) Pow2 (Y, a) = P{ F1, FG(y F1, FG, )J
= 1 - @ (F FllFG(r2) l ,FG,a 1
2 ist streng wachsend sowohl in a als auch in ly I bzw. y ,
mit @ 2 als Verteilungsfunktion von F1,FG(Y ). Fll FG(r2)
Wenn bei einem konkreten Datensatz der (ein- oder zweiseitige) t-Test die Nullhy-
pothese nicht abgelehnt hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man
durch Schärfebetrachtungen quantifizieren sollte. Hierzu kann man einerseits die
Schärfe für verschiedene hypothetische (und praktisch relevante) Werte von y be-
stimmen, da ja das wahre y unbekannt ist. Eine solche Schärfebetrachtung sollte
eigentlich schon im Rahmen einer Versuchsplanung zur Bestimmung des erforderli-
chen Mindeststichprobenumfang J erfolgt sein.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 22
(7) falls 1 '"Y 1 "nicht zu gering" ,
wobei die Approximation für wachsendes I '"Y I immer besser wird. In diesem Sinn
entspricht die Schärfe des zweiseitigen Test ungefähr (und mindestens) der des ein
seitigen Tests zum halben Niveau.
Interpretiert man den zweiseitigen t-Test als F-Test, so ergibt sich für die Schärfe
(7)
ist streng wachsend sowohl in a als auch in I'"Y 1 bzw. '"Y 2,
mit Pp (2) als Verteilungsfunktion von Fl
PG(2). 1,FG'"Y ,
Wenn bei einem konkreten Datensatz der (ein- oder zweiseitige) t-Test die Nullhy
pothese nicht abgelehnt hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man
durch Schärfebetrachtungen quantifizieren sollte. Hierzu kann man einerseits die
Schärfe für verschiedene hypothetische (und praktisch relevante) Werte von '"Y be
stimmen, da ja das wahre '"Y unbekannt ist. Eine solche Schärfebetrachtung sollte
eigentlich schon im Rahmen einer Versuchsplanung zur Bestimmung des erforderli
chen Mindeststichprobenumfang J erfolgt sein.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 23
Abb. 2: Die Schärfe Powl(yp) des einseitigen t-Test als Funktion der Nichtzentra- lität y für verschiedene Testniveaus ci! und Freiheitsgrade FG.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 23
1.0
0,9
0,8 FG= 16
0,7
0,6 0,5 a= 10% 5% 1%
0,4
0,3
0,2
O'~l 0 1 2 3 4 5 r
1.0
0,9 a=5% 0,8
0,7
0,6 0,5 FG= 16 4 2
0,4
0,3
0,2
0,1
o'~l 0 1 2 3 4 5 r
Abb.2: Die Schärfe Pow 1 ('Y,a) des einseitigen t-Test als Funktion der Nichtzentra-lität 'Y für verschiedene Testniveaus a und Freiheitsgrade FG.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 24
Abb. 3: Die Schärfe Pow2(y,u) des zweiseitigen t-Test als Funktion der Nichtzen- tralität y für verschiedene Testniveaus ci! und Freiheitsgrade FG.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 24
0,9
0,8 FG= 16
0,7
0,6 0,5 a = 10%
0,4
0,3
0,2
o,q~--- -4 -3 -2 -1 o 1 2 3 4 5 r
1.0
a=5%
0,5 FG= 16 2
0,4
0,3
0,2
0,1
o,q5 -4 -3 -2 -1 0 1 2 3 4 5 r Abb. 3: Die Schärfe Pow 2 ( 'Y,a) des zweiseitigen t-Test als Funktion der Nichtzen
tralität 'Y für verschiedene Testniveaus a und Freiheitsgrade FG.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 25
Abb. 4: Schärfevergleich des zweiseitigen mit dem einseitigen t-Tests zum gleichen (Bild oben) bzw. halben Niveau (Bild unten) für ci! = 5% und FG = 16.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 25
1.0 Powly,a) Pow1h', a) 0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0'~5 -4 -3 -2 -1 2 3 4 5 r
1.0 Powly,a)
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2 0,1 Pow1h', ~)
0'~5 -4 -3 -2 -1 0 1 2 3 4 5 r
Abb. 4: Schärfevergleich des zweiseitigen mit dem einseitigen t-Tests zum gleichen (Bild oben) bzw. halben Niveau (Bild unten) für a = 5% und FG = 16.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 26
2.5.4 Lineare Regression mit einer Variablen
Wir knüpfen direkt an den Abschnitt 2.1.1 an. Die Hypothesen über 19, sind hier wie
folgt interpretierbar:
H-: B, = 0 (Die Covariable X hat keinen Einfluß)
H,: 8, > 0 (Die Covariable X hat einen positiven Einfluß)
H,: 8, < 0 (Die Covariable X hat einen negativen Einfluß)
Hz: 19, r 0 (Die Covariable X hat einen Einfluß) .
Die Deviance von A u n d die Schätzung 82 ergeben sich zu
1 = S W - ~ , . S ~ Y = m - - ( s x q 2 sxx
(2) 8 2 - -
D e v ( A ) (Streuung der Y- Werte um die Regressionsgerade) .
J- 2
Und die Teststatistik aus 2.5.1 mit s= 2 und Bzo = 0 ergibt sich zu
Die für die Testschärfe wichtige Nichtzentralität aus (5) lautet
Die Nichtzentralität 7 und damit die Schärfe P O W ~ ( ~ , u) wächst bei steigender 2 Streuung Sxx der X-Werte und fällt bei wachsender Varianz a der Y-Werte.
Die Prognose auf den Erwartungswert für einen „neuenn Covriablenwert X EIR ist 0
gegeben durch den Funktionswert
(5) T f (xJ = Bl+B2x0 = coB mit C T = (1 X ) .
0 0 A A
Die Schätzung f(xO) :=B1+ BzxO hierfür ist normalverteilt
(6) ~ ( f ( x J ) = N(f (x0), a2(x0)) mit
2 Diese Varianz a (X ) ist einerseits proportional zur Varianz a2 der Beobachtungen 0
und umgekehrt proportional zu der Anzahl J der Beobachtungen und hängt ande-
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 26
2.5.4 Lineare Regression mit einer Variablen
Wir knüpfen direkt an den Abschnitt 2.1.1 an. Die Hypothesen über e2
sind hier wie
folgt interpretierbar:
H=:e2 =0
H>: e2 > 0
H<: e2 < 0
H:;zt.: e2
:;=0
(Die Covariable x hat keinen Einfluß)
(Die Covariable x hat einen positiven Einfluß)
(Die Covariable x hat einen negativen Einfluß)
(Die Covariable x hat einen Einfluß) .
Die Deviance von vft und die Schätzung 0-2 ergeben sich zu
(1)
(2)
Dev(vft) (
A A )2 ~ Yj - (e 1 + e 2 x) ]
A 1 ( 2 Syy - e ·SxY = SYY -- SxY) 2 Sxx
Dev(vft) J-2
(Streuung der Y-Werte um die Regressionsgerade).
Und die Teststatistik aus 2.5.1 mit s = 2 und e 20 = 0 ergibt sich zu
A JSxx (3) T = e2 0-2 .
Die für die Testschärfe wichtige Nichtzentralität aus (5) lautet
(4) 'Y = e2 JS~~ .
Die Nichtzentralität 'Y und damit die Schärfe Pow 1 ('Y, a) wächst bei steigender
Streuung Sxx der x-Werte und fällt bei wachsender Varianz 0-2 der Y-Werte.
Die Prognose auf den Erwartungswert für einen "neuen" Covriablenwert Xo E IR ist
gegeben durch den Funktionswert
(5)
(6) mit
(7) 2 0-
2 [
0- (xJ = J. 1 +
Diese Varianz 0-2(xO
) ist einerseits proportional zur Varianz 0-2 der Beobachtungen
und umgekehrt proportional zu der Anzahl J der Beobachtungen und hängt ande-
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 27
rerseits vom zweiten Summanden der Klammer [ ...I in (7) ab. Dieser Summand
wächst mit dem Abstand I x o - ~ l und fällt bei steigender mittlerer Streuung (empiri-
scher Varianz) I S x x der X-Werte. J
Die einseitige obere bzw. untere Konfidenzgrenze für ,L zum Niveau a ist 0
(8) f U (xJ = f (xJ - A,(xo) bzw. fo(xJ = f (.J + A,(xo) mit
Die „Abweichungn A,(xo) hängt neben a noch ab von der Streuung 82 der Be-
obachtungen um die geschätzte Gerade und von dem Ausdruck [ ... ] unter der Wur-
zel, der bereits oben erläutert wurde.
2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 27
rerseits vom zweiten Summanden der Klammer [ ... ] in (7) ab. Dieser Summand
wächst mit dem Abstand Ixo -xl und fällt bei steigender mittlerer Streuung (empiri
scher Varianz) } Sxx der x-Werte.
Die einseitige obere bzw. untere Konfidenzgrenze für /-La zum Niveau a ist
(9) A J [ 1 (xo _x)2]
~ (xo) = tJ_
2 . a . - + .
Q ,Q J Sxx
Die "Abweichung" L1a (xo) hängt neben a noch ab von der Streuung 0-2 der Be
obachtungen um die geschätzte Gerade und von dem Ausdruck [ ... ] unter der Wur
zel, der bereits oben erläutert wurde.
2.6 Testen von linearen Hypothesen 5.5.10 2- 28
2.6 Testen von linearen Hypothesen
2.6.1 Herleitung des F-Tests
Bei der Auswahl eines geeigneten Modells für beobachtete Daten sind generell zwei
Kriterien zu beachten:
• die Modell-Anpassung: das Modell soll die Bebachtungen möglichst gut beschreiben,
• die Einfachheit (Sparsamkeit) des Modells: das Modell soll möglichst wenig unbekannte Parameter bzw. einen möglichst großen Freiheitsgrad haben.
Leider beeinflussen sich Anpassung und Einfachheit in entgegegesetzter Richtung:
bei Vereinfachung des Modells wird die Anpassung schlechter bzw. bei Hinzunahme
weiterer Modellparameter wird die Anpassung besser.
Für das vollständige Modell vft= lRJ ergibt sich z.B. eine perfekte Anpassung weil
(J, = Y gilt, aber sein Freiheitgrad ist FG(lRJ ) = 0, und folglich läßt sich 0-2 nicht
mehr schätzen. Auf der anderen Seite hat das nulldimensionale Modell vft= {O} zwar
den maximal möglichen Freiheitsgrad FG({O})=J, aber dafür ist die Schätzung
(J, = 0 völlig unabhängig von der Beobachtung Y und somit die Anpassung extrem
schlecht.
Um zu einem sinnvollen Komprorniß zwischen Anpassung und Einfachheit zu ge
langen, will man oft überprüfen, ob sich ein bisher betrachtetes Modell vft noch
weiter vereinfachen läßt zu einem echten Untermodell vftoC vft, ohne daß dabei die
Anpassung wesentlich schlechter wird. Dies führt uns auf das lineare Testproblem
mit den linearen Hypothesen
(LH) Nullhypothese: (Untermodell vfto gilt) ,
Alternative: H: Jlt1.vfto' JlEvft (Untermodell vfto gilt nicht ).
Dieses Problem ist auch aus umgekehrter Sicht sinnvoll: man hat bereits ein Modell
vfto
betrachtet, und will wissen, ob ein umfassenderes Obermodell vft::::> vfto besser
geeignet ist.
In der Praxis wird das Modell vft von den Spalten der Covariablen-Matrix X er-
2.6 Testen von linearen Hypothesen 5.5.10 2- 28
2.6 Testen von linearen Hypothesen
2.6.1 Herleitung des F-Tests
Bei der Auswahl eines geeigneten Modells für beobachtete Daten sind generell zwei
Kriterien zu beachten:
• die Modell-Anpassung: das Modell soll die Bebachtungen möglichst gut beschreiben,
• die Einfachheit (Sparsamkeit) des Modells: das Modell soll möglichst wenig unbekannte Parameter bzw. einen möglichst großen Freiheitsgrad haben.
Leider beeinflussen sich Anpassung und Einfachheit in entgegegesetzter Richtung:
bei Vereinfachung des Modells wird die Anpassung schlechter bzw. bei Hinzunahme
weiterer Modellparameter wird die Anpassung besser.
Für das vollständige Modell vft = lRJ ergibt sich z.B. eine perfekte Anpassung weil
(i, = Y gilt, aber sein Freiheitgrad ist FG(lRJ ) = 0, und folglich läßt sich 0-2 nicht
mehr schätzen. Auf der anderen Seite hat das nulldimensionale Modell vft = {O} zwar
den maximal möglichen Freiheitsgrad FG({O})=J, aber dafür ist die Schätzung
(i, = 0 völlig unabhängig von der Beobachtung Y und somit die Anpassung extrem
schlecht.
Um zu einem sinnvollen Komprorniß zwischen Anpassung und Einfachheit zu ge
langen, will man oft überprüfen, ob sich ein bisher betrachtetes Modell vft noch
weiter vereinfachen läßt zu einem echten Untermodell vfto c vft, ohne daß dabei die
Anpassung wesentlich schlechter wird. Dies führt uns auf das lineare Testproblem
mit den linearen Hypothesen
(LH) Nullhypothese: (Untermodell vfto gilt) ,
Alternative: H: Jlt1.vfto' JlEvft (Untermodell vfto gilt nicht ).
Dieses Problem ist auch aus umgekehrter Sicht sinnvoll: man hat bereits ein Modell
vfto
betrachtet, und will wissen, ob ein umfassenderes Obermodell vft::::> vfto besser
geeignet ist.
In der Praxis wird das Modell vft von den Spalten der Covariablen-Matrix X er-
2.6 Testen von linearen Hypothesen 5.5.10 2- 29
zeugt, und man erhält durch Weglassen einzelner Covariabeln (d.h. durch Streichen
mehrerer Spalten in X) eine reduzierte Jx50-Matrix XO
' deren Spalten das Unter
modell .AtO
erzeugen. Ist umgekehrt das Modell .AtO
durch eine Covariablen-Matrix
X ogegeben, so kann man durch Hinnahme weiterer Covariablen (d.h. durch Hinzu
fügen von Spalten in X o) eine erweiterte Jx5-Matrix erhalten, die das umfassende
Modell .At erzeugt. In beiden Situationen liegt eine Zerlegung X = (Xo' Xl) vor,
und die Spalten von X oerzeugen den Teilraum .AtO
.
Für die Behandlung des Testproblems müssen wir generell folgendes über die Di
mensionen bzw. Freiheitsgrade der Modelle voraussetzen:
(Dirn) 50 = Dirn (.Ato) < 5 = Dim(.At) < J
o < FG(.At) = (J-5) < FG(.Ato) = (J-5J .
bzw.
Neben der MQ-Schätzung 4 von !-L für das Modell .At ist jetzt auch die MQ-Schät
zung 40 von !-L für das Modell .Ato(d.h. unter der Nullhypothese HJ von Interesse:
Man beachte, daß 40 von der Beobachtung Y nur noch über 4 = pc4Y abhängt. Da
Y- 4 im orthogonalen Komplement .Atl.- von .At liegt und somit zu 4-40E.At or
thogonal ist, läßt sich die Abweichung der Beobachtung vom Modell .AtO
wie folgt
zerlegen (vgl. Abb. 1)
(2) IIY-40 11 2
Dev(.Ato) Dev (.At) + L,Dev mit
Intuitiv wird man HO ablehnen, falls in dieser Aufteilung die Abweichung 114- 40 11 2
der Schätzung 4 vom Untermodell .AtO
deutlich größer ist als die Abweichung
IIY - 411 2 der Beobachtung Y vom Modell .At. Um zu einer Teststatistik zu gelan
gen, bestimmen wir die Verteilung von 114 - 40 11 2 für das klassische lineare Modell
d.h. unter Normalverteilungsannahme (NVY). Danngilt
2.6 Testen von linearen Hypothesen 5.5.10 2- 29
zeugt, und man erhält durch Weglassen einzelner Covariabeln (d.h. durch Streichen
mehrerer Spalten in X) eine reduzierte Jx50-Matrix X o' deren Spalten das Unter
modell .AtO
erzeugen. Ist umgekehrt das Modell .AtO
durch eine Covariablen-Matrix
X o gegeben, so kann man durch Hinnahme weiterer Covariablen (d.h. durch Hinzu
fügen von Spalten in X o) eine erweiterte Jx5-Matrix erhalten, die das umfassende
Modell .At erzeugt. In beiden Situationen liegt eine Zerlegung X = (Xo' Xl) vor,
und die Spalten von X o erzeugen den Teilraum .AtO
.
Für die Behandlung des Testproblems müssen wir generell folgendes über die Di
mensionen bzw. Freiheitsgrade der Modelle voraussetzen:
(Dirn) 50 = Dirn (.Ato) < 5 = Dim(.At) < J bzw.
o < FG(.At) = (J -5) < FG(.Ato) = (J -5J .
Neben der MQ-Schätzung 4 von J-L für das Modell .At ist jetzt auch die MQ-Schät
zung 40 von J-L für das Modell .Ato (d.h. unter der Nullhypothese HJ von Interesse:
Man beachte, daß 40 von der Beobachtung Y nur noch über 4 = p c4 Y abhängt. Da
Y - 4 im orthogonalen Komplement .At~ von .At liegt und somit zu 4 -40 E.At or
thogonal ist, läßt sich die Abweichung der Beobachtung vom Modell .AtO
wie folgt
zerlegen (vgl. Abb. 1)
(2) IIY-40 11 2
Dev(.Ato) Dev (.At) + L,Dev mit
Intuitiv wird man HO ablehnen, falls in dieser Auf teilung die Abweichung 114 - 40 11 2
der Schätzung 4 vom Untermodell .AtO
deutlich größer ist als die Abweichung
IIY - 411 2 der Beobachtung Y vom Modell .At. Um zu einer Teststatistik zu gelan
gen, bestimmen wir die Verteilung von 114 - 40 11 2 für das klassische lineare Modell
d.h. unter Normalverteilungsannahme (NVY). Danngilt
2.6 Testen von linearen Hypothesen 5.5.10 2- 30
mit(4)
(5)
L,Dev = 114 - 40 11 2 ist 0-2
.X~FG(rr)-verteilt
MG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto= 5 -SO > 0,
"( = \ IIJ-L - Pc4 J-L 11 2 > O.a 0
..........................
.ß~/to·:·vft...... • 0
O· .•.•.•.•.• ·{LO· .. . . . . . . . . . . . . . . . . . .
", ", . ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ",
Abb. 1: Die Beobachtung Y mit den Schätzungen für die Modelle vft und vftO
.
Die Nichtzentralität "( ist ein Maß für die Abweichung von der Nullhypothese, und
die linearen Hypothesen lassen sich äquivalent formulieren als:
(LH) , H:"(>O.
Von entscheidender Bedeutung ist folgende Unabhängigkeit:
(6) L,Dev = 114 - 40
112 und Dev(vft) = IIY - 411 2 sind stochastisch unabhängig.
Die Streuungszerlegung (2) läßt sich in einer Tabelle (vgl. Tab. 1) zusammenfassen,
in deren Zeilen die jeweilige Abweichung - die hier eine Summe von Quadraten ist
und deshalb auch mit SQ abgekürzt wird- zusammen mit dem Freiheitsgrad FG
und dem zugehörigem sogenannten mittleren Quadrat MQ = SQ/FG angegeben sind.
2.6 Testen von linearen Hypothesen 5.5.10 2- 30
(4) L,Dev = 114 - 40 11 2 ist 0-
2. X~FG(rr)-verteilt mit
MG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto = 5 -SO > 0,
(5)
.ß~/to·:· vft ...... • 0
Abb. 1: Die Beobachtung Y mit den Schätzungen für die Modelle vft und vftO
.
Die Nichtzentralität '"Y ist ein Maß für die Abweichung von der Nullhypothese, und
die linearen Hypothesen lassen sich äquivalent formulieren als:
(LH) ,
Von entscheidender Bedeutung ist folgende Unabhängigkeit:
(6) L,Dev = 114 - 40
11 2 und Dev(vft) = IIY - 411 2 sind stochastisch unabhängig.
Die Streuungszerlegung (2) läßt sich in einer Tabelle (vgl. Tab. 1) zusammenfassen,
in deren Zeilen die jeweilige Abweichung - die hier eine Summe von Quadraten ist
und deshalb auch mit SQ abgekürzt wird- zusammen mit dem Freiheitsgrad FG
und dem zugehörigem sogenannten mittleren Quadrat MQ = SQ/FG angegeben sind.
2.6 Testen von linearen Hypothesen 5.5.10 2- 31
Streuung (Ursache) Dev =5Q FG MQ=5Q/FG
Abweichung von HO LiDev = 114-40 11 2 MG =5-5 LiDev/LiFG0
um das Modell vft Dev (.At) = 11 Y - 411 2 FG(vft) =J-5 A217
um das Modell vfto Dev (vfto)= 11 Y - 40 11 2 FG(vfto)=J-50
A217
0
Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vftoc .At.
Hierbei ist a~ die Schätzung von 172 für das Modell vfto' d.h. unter der Nullhypo
these HO. Die mittleren Quadrate MQ in der Tab. 1 sind jeweils (erwartungstreue)
Schätzungen von 172 unter der Nullhypothese. Als Teststatistik verwendet man nun
den Quotienten der durch die Abweichung von der Nullhypothese HO bewirkten
Streuung zur Streuung um das Modell .At:
(7)LiDev / MG
F=114- 40 11 2 / (5-5JIIY - 4112
/( J-S)(F-5tatistik) .
Diese Teststatistik hat eine einJach-nichtzentrale F-Verteilung
(8) L(F) = FZFG NFG ("( ),ZFG=MG=5-50'
mit Nichtzentralität "( aus (5) und
NFG = FG(.At) = J -5.
Speziell unter der Nullhypothese HO ist die Teststatistik also zentral F-verteilt. Da
große Werte der Teststatistik gegen HO sprechen, ergibt sich folgender Test:
(9) F-Test zum Niveau a:
Ablehnung von Ho F > FZFG,NFG,a
{} 1 - PF
(F) < a.m,n
Dabei ist F das a-Quantil und PF die Verteilungsfunktion der zentralenm,n,a mn
F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierungm,n 0 S
von F) wird die Wahrscheinlichkeit
2.6 Testen von linearen Hypothesen 5.5.10 2- 31
Streuung (Ursache) Dev =5Q FG MQ=5Q/FG
Abweichung von HO ~Dev = 114-40 11 2 MG =5-5 0
~Dev/~FG
um das Modell vft Dev (.At) = 11 Y - 411 2 FG(vft) =J-5 A2 17
um das Modell vfto Dev (vfto) = 11 Y - 40 11 2 FG(vfto) =J-50
A2 17
0
Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vfto c .At.
Hierbei ist a~ die Schätzung von 172 für das Modell vfto' d.h. unter der Nullhypo
these HO. Die mittleren Quadrate MQ in der Tab. 1 sind jeweils (erwartungstreue)
Schätzungen von 172 unter der Nullhypothese. Als Teststatistik verwendet man nun
den Quotienten der durch die Abweichung von der Nullhypothese HO bewirkten
Streuung zur Streuung um das Modell .At:
(7) ~Dev / MG
F= 114- 40 11 2 / (5 -5J IIY - 4112
/( J-S)
Diese Teststatistik hat eine einfach-nichtzentrale F-Verteilung
(F-5tatistik) .
(8) L(F) = F ZFG NFG ('"Y ) mit Nichtzentralität '"Y aus (5) und , ZFG=MG=5-5 0' NFG = FG(.At) = J -5.
Speziell unter der Nullhypothese HO ist die Teststatistik also zentral F-verteilt. Da
große Werte der Teststatistik gegen HO sprechen, ergibt sich folgender Test:
(9) F-Test zum Niveau a:
Ablehnung von Ho
{} 1 - PF
(F) < a. m,n
Dabei ist F das a-Quantil und P F die Verteilungsfunktion der zentralen m,n,(X mn
F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierung m,n 0 S
von F) wird die Wahrscheinlichkeit
2.6 Testen von linearen Hypothesen 5.5.10 2- 32
auch als P-Wert oder Signijikanzniveau des beobachteten Testwerts F b bezeichnet.o s
Testentscheidung fürNullhypothese HO Alternative H
1- a
o FZFG,NFG,a
Abb. 2: Dichte der Teststatistik des F-Tests unter der Nullhypothese mit a-Quantilund Entscheidungsbereichen.
Der F-Test ist ein Likelihood-Quotienten-Test, weil die F-Statistik eine streng mono
tone Transformation des zugehörigen Likelihood-Quotienten ist.
Durch den Übergang von einfacheren Untermodell .ACO
zum umfassenden übermo
delI .AC wird der folgende Anteil der Streuung Dev(.ACo) um .ACo zusätzlich "er
klärt":
(10) R2 (,/,/ ,/,/) = L:,Dev = 114 - 40 112
= [1 + NFG ] -1 [ ]JI"(O,JI"( 2 E 0,1 .
Dev(.ACo) 11 y - 4011 F· ZFG
Dieser Anteil ist eine streng wachsende Funktion der F-Statistik und je höher er ist,
desto besser ist die Modellanpassung von .AC im Vergleich zu der des Modells .ACO
.
Speziell für das vom konstanten Einser-Vektor e+= (1) erzeugte konstante Modell
.ACo= {J-L 1 J-L1
= J-L2
= ... =J-LJ} ist die Schätzunmg 40
= Ye+ der Mittelwertsvektor
von Y, und
(11)
wird auch das Bestimmtheitsmaß jür das Modell .AC bezeichnet.
2.6 Testen von linearen Hypothesen 5.5.10 2- 32
auch als P-Wert oder SigniJikanzniveau des beobachteten Testwerts F b bezeichnet. o s
Testentscheidung für Nullhypothese HO Alternative H
1- a
o F ZFG,NFG,a
Abb. 2: Dichte der Teststatistik des F-Tests unter der Nullhypothese mit a-Quantil und Entscheidungsbereichen.
Der F-Test ist ein Likelihood-Quotienten-Test, weil die F-Statistik eine streng mono
tone Transformation des zugehörigen Likelihood-Quotienten ist.
Durch den Übergang von einfacheren Untermodell .AtO
zum umfassenden übermo
dell .At wird der folgende Anteil der Streuung Dev(.Ato) um .Ato zusätzlich "er
klärt":
(10) R2 (.Ato
,.At) = L:,Dev = 114 - 40 11: = [1 + NFG ]-1 E [0,1] . Dev(.Ato) 11 y - 4011 F· ZFG
Dieser Anteil ist eine streng wachsende Funktion der F-Statistik und je höher er ist,
desto besser ist die Modellanpassung von .At im Vergleich zu der des Modells .AtO
.
Speziell für das vom konstanten Einser-Vektor e + = (1) erzeugte konstante Modell
.Ato = {J-L 1 J-L1
= J-L2
= ... =J-L J} ist die Schätzunmg 40
= Ye + der Mittelwertsvektor
von Y, und
(11)
2.6 Testen von linearen Hypothesen 5.5.10 2- 33
Wir wollen jetzt die Hypothesen unter Verwendung des Parametervektors () (statt
des Erwartungsvektors Jl) formulieren und setzen hierzu für den Rest dieses Ab
schnitts die Rangbedingung (RB) voraus. Dann entspricht jedem Teilraum
.ACOC.AC für den Erwartungswert Jl eindeutig ein Teilraum f?TOClRS für den Para
meter () mit gleicher Dimension:
(12) f?To = {() ElRS I X()E.ACo}'
(13) .ACo = {X() I ()E f?To},
(14) Dirn f?To= Dirn .ACo.
Und die Hypothesen lassen sich dann äquivalent formulieren als
(LH) "
In der Praxis ist die Nullhypothese oft durch ein lineares Gleichungssystem gege
ben:
H:B();=O
wobei B;= 0 eine QxS-Matrix ist mit 1 < Q = Rang(B) < S. Der zur Nullhypothese
gehörige eingeschränkte Parameterraum ist dann
und es gilt
(17) Dirn f?To= S - Rang(B) bzw. ~FG = Rang (B).
Die für den F-Test relevanten Größen lassen sich dann unter Verwendung der Ma
trizen X und B explizit angeben:
(18)
(19)
~Dev () TBT(B [XTX] -lB T)-l B ()
\ () TBT(B [XTX] -lB T)-l B ().a
Man beachte, daß in der Darstellung (18) die Schätzung von () unter der Nullhypo
these nicht benötigt wird.
2.6 Testen von linearen Hypothesen 5.5.10 2- 33
Wir wollen jetzt die Hypothesen unter Verwendung des Parametervektors () (statt
des Erwartungsvektors Jl) formulieren und setzen hierzu für den Rest dieses Ab
schnitts die Rangbedingung (RB) voraus. Dann entspricht jedem Teilraum
.ACO C.AC für den Erwartungswert Jl eindeutig ein Teilraum f?TO ClRS für den Para
meter () mit gleicher Dimension:
(12) f?To = {() ElRS I X()E.ACo}'
(13) .ACo = {X() I ()E f?To },
(14) Dirn f?To = Dirn .ACo.
Und die Hypothesen lassen sich dann äquivalent formulieren als
(LH)"
In der Praxis ist die Nullhypothese oft durch ein lineares Gleichungssystem gege
ben:
H:B();=O
wobei B;= 0 eine QxS-Matrix ist mit 1 < Q = Rang(B) < S. Der zur Nullhypothese
gehörige eingeschränkte Parameterraum ist dann
und es gilt
(17) Dirn f?To = S - Rang(B) bzw. ~FG = Rang (B).
Die für den F-Test relevanten Größen lassen sich dann unter Verwendung der Ma
trizen X und B explizit angeben:
(18)
(19)
~Dev () TBT(B [XTX]-lBT)-l B ()
\ () TBT(B [XTX]-lBT)-l B (). a
Man beachte, daß in der Darstellung (18) die Schätzung von () unter der Nullhypo
these nicht benötigt wird.
2.6 Testen von linearen Hypothesen 5.5.10 2- 34
Beispiel 1: Eindimensionale Nullhypothese
Ist B = cT:;= 0 ein Zeilenvektor, d.h. cEIRS, so ist die lineare Hypothese (LH)'" von
der im Abschnitt 2.5 betrachteten Form mit der Nullhypothese HO: cT() = 0 und der
zweiseitigen Alternative H:;z=: cT():;= o. Zwischen der t-Teststatistik Taus 2.5 und der
F-Teststatistik besteht dann der Zusammenhang F = T2 und somit ist der zweisei
tige t-Test in dieser Situation äquivalent zum F-Test. D
Beispiel 2: Testen von mehrerer Parameterkomponenten
Oft wird das lineare Modell .At so parametrisiert, daß die interessierenden linearen
Hypothesen sich formulieren lassen als
(20) für alle s E A,
wobei Ac {I, ..., S} eine vorgegebene (nichtleere) Auswahl von Parameterkompo
nenten ist. Solche Nullhypothesen sind von der obigen Form HO: B () = 0, wobei die
Zeilen von B genau die Einheitsvektoren e für alle sE A sind, d.h.s
T(21) B = (e ) A.s sE
Die Matrix B [XTX] -lB T m (18) und (19) ist dann diejenige Teilmatrix von
[XTX] -1, die sich durch Weglassen aller Zeilen und Spalten ergibt, deren Index
nicht inA liegt. Wenn speziellA={l, ...,SO} ist mitSO<S, so ist B[XTX]-lB T die
obere So x SO-Blockmatrix von [XTX] -1. D
2.6 Testen von linearen Hypothesen 5.5.10 2- 34
Beispiel 1: Eindimensionale Nullhypothese
Ist B = cT :;= 0 ein Zeilenvektor, d.h. cEIRS, so ist die lineare Hypothese (LH)'" von
der im Abschnitt 2.5 betrachteten Form mit der Nullhypothese HO: cT () = 0 und der
zweiseitigen Alternative H7:-: cT ():;= o. Zwischen der t-Teststatistik Taus 2.5 und der
F-Teststatistik besteht dann der Zusammenhang F = T2 und somit ist der zweisei-
tige t-Test in dieser Situation äquivalent zum F-Test. D
Beispiel 2: Testen von mehrerer Parameterkomponenten
Oft wird das lineare Modell .At so parametrisiert, daß die interessierenden linearen
Hypothesen sich formulieren lassen als
(20) für alle s E A,
wobei Ac {I, ... , S} eine vorgegebene (nichtleere) Auswahl von Parameterkompo
nenten ist. Solche Nullhypothesen sind von der obigen Form HO: B () = 0, wobei die
Zeilen von B genau die Einheitsvektoren e für alle sE A sind, d.h. s
(21) T B = (e ) A. s sE
Die Matrix B [XT X]-IB T m (18) und (19) ist dann diejenige Teilmatrix von
[XT Xl-I, die sich durch Weglassen aller Zeilen und Spalten ergibt, deren Index
nicht inA liegt. Wenn speziellA={I, ... ,SO} ist mitSO<S, so ist B[XTX]-IB T die
obere So x SO-Blockmatrix von [XT Xl-I. D
2.6 Testen von linearen Hypothesen
2.6.2 Schärfe des F-Tests
5.5.10 2- 35
Wir betrachten jetzt die Schärfe des F-Tests. Aus der Verteilungsaussage 2.6.1 (8)
ergibt sich folgende Darstellung der Schärfe
(1) Pow(rr,a)
1-p (F )Fm nb) m, n, (X,
mit m=ZFG, n=NFG.
Hierbei ist PF () die Verteilungsfunktion der nichtzentralen F ("f)-Verteilung.mn 7 ~n
Die Schärfe hängt also nur noch über die Nichtzentralität "f vom Erwartungsvektor
Jl ab, und es gilt:
(2) Pow("f, a) ist streng monoton wachsend sowohl in "f > 0 als auch in a E (0,1).
Als Grenzwert für "f ---+ 00 ergibt sich
(3) Pow(oo,a) = 1 für O<a<l.
Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt
hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach
tungen quantifizieren sollte. Hierzu kann man einerseits die Schärfe für verschie
dene hypothetische (und praktisch relevante) Werte von "f bestimmen, da ja das
wahre "f unbekannt ist. Eine solche Schärfebetrachtung sollte eigentlich schon im
Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindeststich
probenumfang J erfolgt sein.
2.6 Testen von linearen Hypothesen 5.5.10 2- 35
2.6.2 Schärfe des F-Tests
Wir betrachten jetzt die Schärfe des F-Tests. Aus der Verteilungsaussage 2.6.1 (8)
ergibt sich folgende Darstellung der Schärfe
(1) Pow(rr,a)
1-p (F ) Fm nb) m, n, (X ,
mit m=ZFG, n=NFG.
Hierbei ist P F () die Verteilungsfunktion der nichtzentralen F ("f)-Verteilung. mn 7 ~n
Die Schärfe hängt also nur noch über die Nichtzentralität "f vom Erwartungsvektor
Jl ab, und es gilt:
(2) Pow( "f, a) ist streng monoton wachsend sowohl in "f > 0 als auch in a E (0,1).
Als Grenzwert für "f ---+ 00 ergibt sich
(3) Pow(oo,a) = 1 für O<a<1.
Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt
hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach
tungen quantifizieren sollte. Hierzu kann man einerseits die Schärfe für verschie
dene hypothetische (und praktisch relevante) Werte von "f bestimmen, da ja das
wahre "f unbekannt ist. Eine solche Schärfebetrachtung sollte eigentlich schon im
Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindeststich
probenumfang J erfolgt sein.
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 36
2.7* Schätzung von Nichtzentralität und Testschärfe
Beim t- bzw. F-Test hat Teststatistik eine (einfach) nichtzentrale t- bzw. F-Vertei-
lung, wobei die Nichtzentralität y die Abweichung von der Nullhypothese charakte-
risiert und die Schärfe des jeweiligen Test bestimmt. Wir wollen jetzt die unbe-
kannte Nichtzentralität y schätzen und Konfidenzgrenzen für y angeben. Hieraus leiten
wir dann für die Testschärfe eine Schätzung zusammen mit Konfidenzgrenzen her.
2.7.1 Schätzungen für den t-Test
Wir betrachten den einseitigen t-Test aus 2.5.2 mit den Hypothesen
T Nullhypothese H<: C B 5 co VS. T Alternative H>: C B > co .
-
Die Nichtzentralität
T mit 2 2 T T
(I) Y = Dc = D C ( X x)-lC Dc
läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt
T A e - c 2 ) r = O = T mit
- 2 T T & ; = D C ( X X)-lc.
&C
Diese Schätzung hat die nichtzentrale t-Verteilung tFG(y). Wir wollen hieraus eine
einseitige obere Konfidenzgrenze zur Sicherheit 1 - a' für die Nichtzentralität y o, a'
konstruieren. In der Regel wird hierbei a' mit dem Testniveau a übereinstimmen,
aber das ist nicht zwingend notwendig. Ausgangspunkt ist die Verteilungsfunktion
' t F G ( 7 ) (X) von tFG(y), die wir als Funktion in y betrachten wollen. Setzen wir
(3) H(y I FG, X) = (X) = P { tFG(y) 5 X ) für y, X E IR, t ~ ~ ( 7 )
so ist H(y I FG, X) nach Exkurs V 2.2 streng monoton fallend in y mit
(4> H(-00 I FG, X) = 1, H(+ 00 I FG, X) = 0.
Folglich gibt es zu jedem 0 < a' < 1 genau ein Y. = ro(T I a') mit
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 36
2.7* Schätzung von Nichtzentralität und Testschärfe
Beim t- bzw. F-Test hat Teststatistik eine (einfach) nichtzentrale t- bzw. F-Vertei
lung, wobei die Nichtzentralität "( die Abweichung von der Nullhypothese charakte
risiert und die Schärfe des jeweiligen Test bestimmt. Wir wollen jetzt die unbe
kannte Nichtzentralität "( schätzen und KonJidenzgrenzen für "( angeben. Hieraus leiten
wir dann für die Testschärfe eine Schätzung zusammen mit Konfidenzgrenzen her.
2.7.1 Schätzungen für den t-Test
Wir betrachten den einseitigen t-Test aus 2.5.2 mit den Hypothesen
T Nullhypothese H<: c () < Co
Die Nichtzentralität
(1) T c () - Co
"(=
vs.
mit 2 2 T(XTX)-l 0" = 0" C C c
läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt
(2) mit A2 A2 T(XTX)-l 0" =0" C C. c
Diese Schätzung hat die nichtzentrale t-Verteilung tFG
( "(). Wir wollen hieraus eine
einseitige obere Konfidenzgrenze 1 I zur Sicherheit 1- a ' für die Nichtzentralität "( 0,0:
konstruieren. In der Regel wird hierbei a ' mit dem Testniveau a übereinstimmen,
aber das ist nicht zwingend notwendig. Ausgangspunkt ist die Verteilungsfunktion
Pt ()(x) von tFG
(,,(), die wir als Funktion in "( betrachten wollen. Setzen wir FG'"Y
(3) für ,,(, x E IR,
so ist H( "( I FG, x) nach Exkurs V 2.2 streng monoton fallend in "( mit
(4) H(-oo IFG, x) = 1, H(+oo IFG,x) = o.
Folglich gibt es zu jedem 0< a ' < 1 genau ein 1 = 1 (T I a ' ) mit o 0
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 37
(5) H(+ IFG,T) = a l 0, a'
(Definition der oberen Grenze 01 / )
^ ,ist eine einseitige obere Konfidenzgrenze für y zur Sicherheit 1- al, d. h. es gilt Yo, a
Anolog läßt sich eine einseitige untere Konfidenzgrenze Y für y zur Sicherheit U, a'
1 - a' definieren durch
(7) H(+ U, a' I F G , T ) = l - a 1 bzw. - Tu, a1 - 70, 1-a1
und es gilt
Wir betrachten jetzt die einseitige Schärfe und erhalten aus der Schätzung Y fol-
gende Schätzung der Schärfe
(9) P0w1 (Y, U) = 1 - @ t,<i 1 (geschätzte einseitige Schärfe).
Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be-
obachteten Abweichung Y = T entspricht.
Da die Schärfe Powl(y,a) streng wachsend in y ist, erhält man aus der oberen
Konfidenzgrenze zur Sicherheit 1-a1 auch die folgende obere Konfidenz- 0, a'
grenze der Testschärfe zur gleichen Sicherheit
(10) Powl( ?o,al , a ) )= 1 - H( Y o, a' I FG, t ~ ~ , a ) (obere Grenze der Schärfe).
Falls der einseitige t-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem
Fall ist eine Schätzung der Schärfe von Interesse), so ist die obere Konfidenzgrenze
der Schärfe kleiner als 1- al. Genauer gilt
Die einseitige untere Konfidenzgrenze Pow (Y a ) der Schärfe ist nicht von prak- 1 u ,a"
tischem Interesse. Sie ist bei Nicht-Ablehnung der Nullhypothese sogar kleiner als a':
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 37
(5) H(1 ,IFG, T) = a ' 0,0:
(Definition der oberen Grenze 1 ,) 0,0:
1 ,ist eine einseitige obere Konfidenzgrenze für '"Y zur Sicherheit 1- a ' , d. h. es gilt 0,0:
Anolog läßt sich eine einseitige untere Konfidenzgrenze 1 ,für '"Y zur Sicherheit u,o:
1- a ' definieren durch
(7) H(1 ,IFG, T) = I-a' bzw. A A
'"Y U 0:' = '"Yo 1-0:' U,O: , ,
und es gilt
(8) P{ A <} 1- a '. '"Y U 0:' - '"Y ,
Wir betrachten jetzt die einseitige Schärfe und erhalten aus der Schätzung 1 fol
gende Schätzung der Schärfe
(9) Pow1(1,a) = I-Pt (A)(tpG ) FG'"'( ,0:
(geschätzte einseitige Schärfe).
Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be
obachteten Abweichung 1 = T entspricht.
Da die Schärfe Pow1 (,,(,a) streng wachsend in '"Y ist, erhält man aus der oberen
Konfidenzgrenze 1 ,zur Sicherheit 1- a ' auch die folgende obere Konfidenz-0,0:
grenze der Testschärfe zur gleichen Sicherheit
(10) Pow1( 1 "a) = 1- H( 1 ,I FG, tpG ) (obere Grenze der Schärfe).
0,0: 0, 0: ,0:
Falls der einseitige t-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem
Fall ist eine Schätzung der Schärfe von Interesse), so ist die obere Konfidenzgrenze
der Schärfe kleiner als 1- a ' . Genauer gilt
(11) Pow1(1 "a) < I-a' 0,0:
Die einseitige untere Konfidenzgrenze Pow1( 1 "a) der Schärfe ist nicht von prak
u,o: tischem Interesse. Sie ist bei Nicht-Ablehnung der Nullhypothese sogar kleiner als a /:
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 38
Die Schärfe des zweiseitigen t-Test kann man bei Nicht-Ablehnung der Nullhypo-
these analog zur einseitigen Schärfe durch Pow2(?,w) schätzen. Konfidenzgrenzen
der zweiseitigen Schärfe werden in 2.6 für beliebige F-Tests entwickelt und sind
auch auf den zweiseitigen t-Test anwendbar, wenn dieser als F-Test interpretiert
wird.
2.7.2 Schätzungen für den F-Test
Wir betrachten den F-Test aus 2.6.1 mit den Hypothesen
(LH) Nullhypothese: Ho: p € A o (Untermodell 4 gilt) ,
Alternative: H : p @ A o , p p ~ A (Untermodell Ao gilt nicht ).
Die Nichtzentralität y des F-Tests
läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt
Diese Schätzung hat die skalierte nichtzentrale F-Verteilung m .F (y) mit r n l n
m = AFG = FG(Ao) - F G ( 4 , n = F G ( 4 .
Wir wollen jetzt eine einseitige obere Konfidenzgrenze zur Sicherheit 1- w' für 0, a'
die Nichtzentralität y konstruieren. In der Regel wird hierbei w' mit dem Testni-
veau w übereinstimmen, aber das ist nicht zwingend notwendig. Ausgangspunkt ist
die Verteilungsfunktion @F (7)
(X) von F (y), die wir als Funktion in y betrach- m,n m,n
ten wollen. Setzen wir
(3) H(ylm,n,x) = @ (X) = P { Frn,n(y) 5 X ) für y, X 2 0, Fm, n(7)
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 38
(12)
Die Schärfe des zweiseitigen t-Test kann man bei Nicht-Ablehnung der Nullhypo
these analog zur einseitigen Schärfe durch Pow 2 (1, a) schätzen. Konfidenzgrenzen
der zweiseitigen Schärfe werden in 2.6 für beliebige F-Tests entwickelt und sind
auch auf den zweiseitigen t-Test anwendbar, wenn dieser als F-Test interpretiert
wird.
2.7.2 Schätzungen für den F-Test
Wir betrachten den F-Test aus 2.6.1 mit den Hypothesen
(LH) Nullhypothese: (Untermodell ...40
gilt) ,
Alternative: H: Jlt1....40
' JlE...4 (Untermodell ...40 gilt nicht ).
Die Nichtzentralität r des F-Tests
läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt
(2)
Diese Schätzung hat die skalierte nichtzentrale F-Verteilung m . F ('Y) mit m,n
n = FG(JIt).
Wir wollen jetzt eine einseitige obere Konfidenzgrenze 1 I zur Sicherheit 1- a' für 0,0:
die Nichtzentralität 'Y konstruieren. In der Regel wird hierbei a' mit dem Testni-
veau a übereinstimmen, aber das ist nicht zwingend notwendig. Ausgangspunkt ist
die Verteilungsfunktion Pp ()(x) von F (')'), die wir als Funktion in 'Y betrach-mn"( m,n
ten wollen. Setzen wir '
(3) H(')' Im, n, x) = PPm
nb)(x) = p{ F m,n(')') < x} ,
für 'Y, x > 0,
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 39
so läßt sich die obere Grenze für y zur Sicherheit 1 - a' definieren durch
(4) Y O l a 1 = i n f { y > ~ I ~ ( y I m , n , ~ ) a a 1 ) > ~
(Definition der oberen Grenze Y /) 0,
Da H(y I m, n, X) nach Exkurs V 3.2 für X > 0 streng fallend in y ist mit
(5> inf H = H(oo I m, n, X) = 0, sup H = H(0 I m, n, X),
ist die Abbildung H(- I m,n,x) : (0, oo) + (0, sup H) bijektiv. Unter Verwendung der
Inversen HP'( - 1 m, n, X) : (0, sup H) + (0, oo) ergibt sich folgende Darstellung
-i ~ - l ( a ' ~ m , n , ~ ) > O f ü r a ' < H ( ~ I m , n , F ) b z w . F > F m, n, 1-a' (6) Yo,a' - für al>H(O Im,n, F) bzw. F<F
m, n, 1-a'
Insbesondere folgt in jedem der beiden Fälle in (6)
(7) ?o,a' = min { y > 0 I H ( y I m , n , F ) < a ' ) .
Nach diesen Vorbereitungen 1äß sich nun zeigen, daß Y eine einseitige obere 0, a'
Konfidenzgrenze für y zur Sicherheit 1 - U', d. h. es gilt
Man beachte,daß hier „<" statt „<" steht, weil die Grenze Y im Punkt 0 nicht 0, a'
stetig verteilt ist, da
Allerdings erhält man aus (8) sofort die Abschätzung
die aber unter der Nullhypothese H : y = 0 trivial ist, weil dann gilt 0
Wir betrachten jetzt die Schärfe und erhalten aus der Schätzung Y folgende Schät-
zung der Schärfe
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 39
so läßt sich die obere Grenze für r zur Sicherheit 1- a' definieren durch
(4) 10
(x' = inf { l' > 0 I Hb Im, n, F) < a'} > 0 , (Definition der oberen Grenze 1 ,)
0, (X
Da H( l' Im, n, x) nach Exkurs V 3.2 für x> 0 streng fallend in l' ist mit
(5) inf H = H( 00 I m, n, x) = 0, sup H = H(O Im, n, x),
ist die Abbildung H( -I m,n,x): (0, (0) -----+ (0, supH) bijektiv. Unter Verwendung der
Inversen H-\ -I m, n,x) : (0, supH) -----+ (0, (0) ergibt sich folgende Darstellung
(6) für a' <H(O Im, n, F) bzw. F>F 1 '} m,n, -(X
für a' > H(O Im, n, F) bzw. F<F mn 1-(X' • , ,
Insbesondere folgt in jedem der beiden Fälle in (6)
(7) 10
(x' = min { l' > 0 I Hb I m, n, F) < a'} . ,
Nach diesen Vorbereitungen läß sich nun zeIgen, daß 1 ,eme einseitige obere 0, (X
Konfidenzgrenze für l' zur Sicherheit 1- a', d. h. es gilt
(8) P{ l' < 1 ,} = 1- a'. 0, (X
Man beachte,daß hier ,,<" statt ,,<" steht, weil die Grenze 10
(x' im Punkt 0 nicht , stetig verteilt ist, da
(9) P{ 1 ,=O} = Pp ()(F 1- ,) E (O,a'] 0, (X m, n "( m, n, (X
Allerdings erhält man aus (8) sofort die Abschätzung
(10) P{I'<10
(X'} > l-a', , die aber unter der Nullhypothese HO: l' = 0 trivial ist, weil dann gilt
P{ l' < 10
(x' } = 1 für l' = o. ,
Wir betrachten jetzt die Schärfe und erhalten aus der Schätzung 1 folgende Schät
zung der Schärfe
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 40
(11) Pow(+, a) = 1 - @ Fm, n(?)(Fm, n, 1 (geschätzte Schärfe)
Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be-
obachteten Abweichung Y entspricht.
Für die (in y streng monotone) Schärfe Pow(y, a) erhält man nun folgende einsei-
tige obere Konfidenzgrenze zur Sicherheit 1 - a'
(12) Pow(+ a) = 1-H(+ 0, a' ' O, a' I m, Fm, n, a ) (obere Grenze der Schärfe).
Falls der F-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem Fall ist
eine Schärfe-Schätzung von Interesse), so ist die obere Konfidenzgrenze der Schärfe 1 kleiner als 1- a', sofern a' < 1- a gilt, was z. B. für a' = a < - stets der Fall ist. 2
Genauer gilt
2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 40
(11) Pow(1,a) = 1- Pp (A)(F ) m,n"( m,n,Ct
(geschätzte Schärfe)
Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be
obachteten Abweichung 1 entspricht.
Für die (in '"Y streng monotone) Schärfe Pow( '"Y ,a) erhält man nun folgende einsei
tige obere Konfidenzgrenze zur Sicherheit 1- a'
(12) Pow( 1 , , a) = 1 - H( 1 ,I m, n, F ) (obere Grenze der Schärfe). O,Ct O,Ct m,n,Ct
Falls der F-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem Fall ist
eine Schärfe-Schätzung von Interesse), so ist die obere Konfidenzgrenze der Schärfe
kleiner als 1- a', sofern a' < 1- a gilt, was z. B. für a' = a< ~ stets der Fall ist.
Genauer gilt
(13) Für a' < 1- a ist: Pow(1 "a) < l-a' {} O,Ct
F< F m,n,Ct
3.1 Quantitative Covariablen und Faktoren 18.7.05 3 - 1
3 Elementare Modelle und Analysen
Wir wollen jetzt einige grundlegende Prinzipien der Modellbildung erläutern und
die sich daraus ergebenden Analysen für eine oder zwei beobachtete Covariable un-
tersuchen:
die Regressz~nsanal~se für eine und zwei Variablen,
die einfache Varianzanalyse für einen Faktor,
die einfache Covarianzanalyse für eine Variable und einen Faktor.
Aus Gründen der Übersicht werden die jeweiligen Modelle in der Regel zuerst für
eine Einzelbeobachtung Y und dann später für den Vektor Y = (Y1, ..., YJ) aller J Be-
obachtungen formuliert.
3.1 Quantitative Covariablen und Faktoren
Ausgangspunkt ist eine einzelne Beobachtung, also eine reelle Zufallsvariable Y mit
Gesucht ist eine Modellierung des Erwartungswertes ,LL durch beobachtete Covari-
ablen. Bei den beobachteten Covariablen unterscheidet man zwischen quantitativen
und qualztatzven Variablen.
Quantitative Variablen sind solche, deren Werte durch reelle Zahlen gegeben sind,
wie z.B. Messwerte (Zeitdauer, Gewicht etc.) oder Anzahlen (Geschwister, Therapie-
anwendungen etc.). Zur Bezeichnung quantitativer Variable werden wir bevorzugt
die Kleinbuchstaben z, U, v ... verwenden.
Demgegenüber sind qualitative Variablen oder Faktoren dadurch charakterisiert, daß
sie nur endlich viele Zustände annnehmen, die im allgemeinen nicht durch Zahlen
gegeben sind, wie z.B. das Geschlecht mit den beiden Zuständen weiblich und männ-
lich, oder ein Krankheitsstatus mit den drei Zuständen gesund, leicht erkrankt, schwer
erkrankt. sind. Faktoren werden wir bevorzugt mit den Großbuchstaben A, B, ... be-
zeichnen.
Bei einem Faktor A mit insgesamt K> 2 möglichen Zuständen ist es zweckmäßig,
diese formal (und meist willkürlich) durch die Zahlen 1, ..., K zu codieren, die man
3.1 quantitative Covariablen und Faktoren 18.7.05 3-1
3 Elementare Modelle und Analysen
Wir wollen jetzt einige grundlegende Prinzipien der Modellbildung erläutern und
die sich daraus ergebenden Analysen für eine oder zwei beobachtete Covariable un
tersuchen:
die Regressionsanalyse für eine und zwei Variablen,
die einfache Varianzanalyse für einen Faktor,
die einfache Covarianzanalyse für eine Variable und einen Faktor.
Aus Gründen der Übersicht werden die jeweiligen Modelle in der Regel zuerst für
eine Einzelbeobachtung Y und dann später für den Vektor Y = (Y1, ... , Y
J) aller J Be
obachtungen formuliert.
3.1 Quantitative Covariablen und Faktoren
Ausgangspunkt ist eine einzelne Beobachtung, also eine reelle Zufallsvariable Y mit
(1) fl = E(Y) E M, 9(fl) E IH.
Gesucht ist eine Modellierung des Erwartungswertes fl durch beobachtete Covari
ablen. Bei den beobachteten Covariablen unterscheidet man zwischen quantitativen
und qualitativen Variablen.
Quantitative Variablen sind solche, deren Werte durch reelle Zahlen gegeben sind,
wie z.B. Messwerte (Zeitdauer, Gewicht etc.) oder Anzahlen (Geschwister, Therapie
anwendungen etc.). Zur Bezeichnung quantitativer Variable werden wir bevorzugt
die Kleinbuchstaben z) u, v ... verwenden.
Demgegenüber sind qualitative Variablen oder Faktoren dadurch charakterisiert, daß
sie nur endlich viele Zustände annnehmen, die im allgemeinen nicht durch Zahlen
gegeben sind, wie z.B. das Geschlecht mit den beiden Zuständen weiblich und männ
lich, oder ein Krankheitsstatus mit den drei Zuständen gesund) leicht erkrankt) schwer
erkrankt. sind. Faktoren werden wir bevorzugt mit den Großbuchstaben A, B, ... be
zeichnen.
Bei einem Faktor A mit insgesamt K> 2 möglichen Zuständen ist es zweckmäßig,
diese formal (und meist willkürlich) durch die Zahlen 1, ... , K zu codieren, die man
3.1 Quantitative Covariablen und Faktoren 18.7.05 3 - 2
als Stufen des Faktors bezeichnet. Für die formale Beschreibung bei der Modellbil-
dung identifiziert man die Zustände des Faktors mit den dazugehörigen Stufen, d.h.
man geht der Einfachheit halber davon aus, daß der Faktor A die Stufen 1, ..., K an- A nimmt. Dann wird für jede Stufe 6 = 1, ..., K eine Indibatorvariable Ik für das Ereig-
nis {A = lc)eingeführt:
Da der Faktor A E (1, ..., K ) genau eine Stufe annimmt, gilt
A A Die Stufe des Faktors A ist durch die Angabe aller K Indikatorvariablen 11, ... IK
eindeutig bestimmt, und nach (3) sogar durch irgendeine Auswahl von K-1 dieser In- A dikatoren. In der Praxis bleibt typischerweise der erste Indikator I außer Betracht. 1
Ob eine beobachtete Variable als quantitative Variable oder als Faktor bei der Mo-
dellbildung berücksichtigt werden soll, hängt von den Intentionen der Analyse ab.
So kann man etwa eine quantitative Variable nach einer Klassifizierung ihrer Werte
in einen Faktor überführen, dessen Zustände den Klassen entsprechen, z.B bei einer
Klassifikation des Alters in drei Zustände (Kind, Jugendlicher, Erwachsener) oder
der Klassifikation einer Dosis (gering, mittel, hoch). - Andererseits kann man einen
Faktor auch als quantitative Variable ansehen, wenn die durch die Codierung gege-
bene Anordnung der Stufen mit berücksichtigt werden soll, z.B ist die Identifizierung
der Kalendermonate (Januar, ..., Dezember) durch die Stufen 1, ..., 12 sinnvoll, wenn
die durch sie gegebene zeitliche Anordnung mitbrücksichtigt werden soll.
3.1 quantitative Covariablen und Faktoren 18.7.05 3-2
als Stufen des Faktors bezeichnet. Für die formale Beschreibung bei der Modellbil
dung identifiziert man die Zustände des Faktors mit den dazugehörigen Stufen, d.h.
man geht der Einfachheit halber davon aus, daß der Faktor A die Stufen 1, ... , K an
nimmt. Dann wird für jede Stufe k = 1, ... , Keine Indikatorvariable 11 für das Ereig
nis {A = k }eingeführt:
(2) falls A = k sonst
Da der Faktor A E {I, ... ,K} genau eine Stufe annimmt, gilt
(3)
Die Stufe des Faktors A ist durch die Angabe aller K Indikatorvariablen 11, ... 1~ eindeutig bestimmt, und nach (3) sogar durch irgendeine Auswahl von K-1 dieser In
dikatoren. In der Praxis bleibt typischerweise der erste Indikator 11 außer Betracht.
Ob eine beobachtete Variable als quantitative Variable oder als Faktor bei der Mo
dellbildung berücksichtigt werden soll, hängt von den Intentionen der Analyse ab.
So kann man etwa eine quantitative Variable nach einer Klassifizierung ihrer Werte
in einen Faktor überführen, dessen Zustände den Klassen entsprechen, z.B bei einer
Klassifikation des Alters in drei Zustände (Kind, Jugendlicher, Erwachsener) oder
der Klassifikation einer Dosis (gering, mittel, hoch). - Andererseits kann man einen
Faktor auch als quantitative Variable ansehen, wenn die durch die Codierung gege
bene Anordnung der Stufen mit berücksichtigt werden soll, z.B ist die Identifizierung
der Kalendermonate (Januar, ... , Dezember) durch die Stufen 1, ... , 12 sinnvoll, wenn
die durch sie gegebene zeitliche Anordnung mitbrücksichtigt werden soll.
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-3
3.2 Modelle für eine beobachtete Covariable
Wir betrachten die Situation daß neben der Zielvariablen Y nur noch eine weitere
(quantiative oder qualitative) Variable beobachtet wurde. Zuerst behandeln wir das
das konstante Modell, in dem die Variable keinen Einfluß auf den Erwartungswert
von Y hat und danach betrachten wir Modelle die einen Einfluß der Variablen mo
dellieren, wobei wir unterscheiden, ob es sich um eine quantitative Variable z oder
um einen Faktor A handelt.
3.2.1 Das konstante Modell
Wir betrachten jetzt wieder 1 Beobachtungen mit dem zugehörigen Vektor
Y = (Yl, ..., Y
J) der Zielvariablen. Das konstante Modell für den Erwartungsvektor
Jl = E(Y) ist dadurch charakterisiert, daß die Erwartungswerte p,. = E(Y.) für alle] ]
Beobachtungen j = 1, ...,1 konstant sind
(KM)
Dies ist ein eindimensionales allgemeines lineares Modell der Form
(KM)' p,.=e]
für alle j = 1, ..., 1.
mit Parameter eE IR und einer formalen (und konstanten) Covariable x. = 1. Da der]
Parameter und die Covariable hier eindimensional sind (d.h. S = 1) verzichten wir auf
die Indizierung der jeweils einzigen Komponente, d.h. wir schreiben e statt el
und
x. statt x .1. Die zugehörige Modellmatrix lautet] ]
(1) X = e+ = (1, ..., l)T EIRJ lxI-Matrix,
mit dem (konstanten) Vektor e+ als Summe aller Einheitsvektoren ef
Der Modell
raum für den Erwartungswert Jl = ee+ ist
(2)
(3)
vft=~J' wobei
(Diagonale von IRJ).
Damit läßt sich das konstante Modell auch wie folgt formulieren:
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-3
3.2 Modelle für eine beobachtete Covariable
Wir betrachten die Situation daß neben der Zielvariablen Y nur noch eine weitere
(quantiative oder qualitative) Variable beobachtet wurde. Zuerst behandeln wir das
das konstante Modell, in dem die Variable keinen Einfluß auf den Erwartungswert
von Y hat und danach betrachten wir Modelle die einen Einfluß der Variablen mo
dellieren, wobei wir unterscheiden, ob es sich um eine quantitative Variable z oder
um einen Faktor A handelt.
3.2.1 Das konstante Modell
Wir betrachten jetzt wieder 1 Beobachtungen mit dem zugehörigen Vektor
Y = (Yl, ... , Y
J) der Zielvariablen. Das konstante Modell für den Erwartungsvektor
Jl = E(Y) ist dadurch charakterisiert, daß die Erwartungswerte p,. = E(Y.) für alle ] ]
Beobachtungen j = 1, ... , 1 konstant sind
(KM)
Dies ist ein eindimensionales allgemeines lineares Modell der Form
(KM)' p,.=B ]
für alle j = 1, ... , 1.
mit Parameter BE IR und einer formalen (und konstanten) Covariable x. = 1. Da der ]
Parameter und die Covariable hier eindimensional sind (d.h. S = 1) verzichten wir auf
die Indizierung der jeweils einzigen Komponente, d.h. wir schreiben B statt Bl
und
x. statt x .1. Die zugehörige Modellmatrix lautet ] ]
(1) X = e + = (1, ... , l)T EIRJ lxI-Matrix,
mit dem (konstanten) Vektor e + als Summe aller Einheitsvektoren ef
Der Modell
raum für den Erwartungswert Jl = Be + ist
(2)
(3)
vft=~J' wobei
(Diagonale von IRJ).
Damit läßt sich das konstante Modell auch wie folgt formulieren:
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-4
(KM)"
Für YE IR] ist die orthogonale Projektion PD. Y gegeben durchJ
mit
(Mittelwert von y).
P - (- -) IR]D.JY = y. e+ = y, ..., Y E
- 1 'I\"Y = J ~ Yj
JHieraus erhält man die expliziten Darstellungen der Schätzungen für eund p,:
(4)
(5)
(6)
(7) 4=Y·e+
J1 2: Y.
. JJ
- - ]= (Y, ..., Y) E IR
(Mittelwert von Y)!
Die Deviance
2 - 2(8) Dev(L:,J) = 11 Y - 411 = 2: (Y.- Y) =: SYY
. JJ
ist der Summe der quadratischen Abweichungen aller Beobachtungen von ihrem
Mittelwert. Die Schätzung für 0-2 ist daher die übliche empirische Varianz der Be
obachtungen Y1' ..., Y]
(9) A2 _ 1 'I\" (Y y-)20- - J-1 ~ j- .
JUnd die Varianz der Schätzung B= Y ergibt sich mit 2.2 (4) aus J = XTX zu
(10) Var(B) = } 0-2
3.2.2 Modelle für eine quantitative Variable
Wir betrachten jetzt wieder eine Einzelbeobachtung und gehen davon aus, daß ne
ben der Zielvariablen Y nur eine weitere quantitative Covariable Z beobachtet wird,
wobei der Erwartungswert p, = E(Y) nur vom Wert z dieser Covariablen Z abhängt
(1) P, = p,(z) := E(Y IZ = z) .
Für diese Situation haben wir bereits in 2.1.1 (dort mit der Variablen x statt z) das
lineare Regressionsmodell
und in 2.2.1 das Polynomregressionsmodell
3.2 Modelle für eine beobachtete Covariable 7.7.10
(KM)"
Für Y E IR] ist die orthogonale Projektion PD. Y gegeben durch J
(4) P - (- -) IR] D.JY = y. e + = y, ... , Y E mit
- 1 'I\"' Y = J ~ Yj
J
(5) (Mittelwert von y).
Hieraus erhält man die expliziten Darstellungen der Schätzungen für e und p,:
(6)
(7) 4=Y·e +
J1 2: Y.
. J J
- - ] = (Y, ... , Y) E IR
(Mittelwert von Y)!
Die Deviance
(8) 2 - 2 Dev(~J) = 11 Y - 411 = 2: (Y.- Y) =: SYY
. J J
3-4
ist der Summe der quadratischen Abweichungen aller Beobachtungen von ihrem
Mittelwert. Die Schätzung für 0-2 ist daher die übliche empirische Varianz der Be
obachtungen Y1' ... , Y]
A2 _ 1 'I\"' (Y y-)2 0- - J-1 ~ j- .
J
(9)
Und die Varianz der Schätzung B = Y ergibt sich mit 2.2 (4) aus J = XTX zu
(10) Var(B) = } 0-2
3.2.2 Modelle für eine quantitative Variable
Wir betrachten jetzt wieder eine Einzelbeobachtung und gehen davon aus, daß ne
ben der Zielvariablen Y nur eine weitere quantitative Covariable Z beobachtet wird,
wobei der Erwartungswert p, = E(Y) nur vom Wert z dieser Covariablen Z abhängt
(1) P, = p,(z) : = E(Y I Z = z) .
Für diese Situation haben wir bereits in 2.1.1 (dort mit der Variablen x statt z) das
lineare Regressionsmodell
und in 2.2.1 das Polynomregressionsmodell
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-5
kennengelernt. Letztes ist ein lineares Modell, wobei der zugehörige Covariablen
vektor x = (1, z, z2, ... , zS-l) E IRS eine Funktion x = h(z) des beobachteten Wertes z
ist. Man erhält nun eine etwas allgemeinere Klassen von Linearen Modellen, indem
man einen formalen Covariablenvektor x betrachtet, dessen Komponenten über vor
gegebene Funktionen h von dem beobachteten Wert z abhängens
(2) x = h(z) bzw. x = h (z)s s
für s = 1, ...,5.
Beispiele für solche Funktionen h sind:s
• h (z) = 1, d.h. x = 1 (konstante Covariable)s s
• h (z) = z, d.h. x =z (identische Transformation)s s
• h (z) = log z, d.h. x = log z (log-Transformation)s s
• h (z) = z1 d.h. x = z1 (Potenz-Transformation)s s
wobei im letzten Fall der Parameter "( E IR fest vorgegeben sein muß (wenn "( ein zu
sätzlicher unbekannter Parameter ist, so liegt kein Lineares Modell mehr vor).
Das zugehörige Modell lautet dann
(3)
Betrachten jetzt wieder einen Vektor Y = (Yl, ..., Y
J) von J Beoabchtungen mit der
zugehörigen J x S Covariablen-Matrix so lautet das Lineare Modell für den Erwar
tungsvektor Jl = E(Y)
(4) Jl = X() bzw. 5Jl E Jt'= X [IR ].
Es zweckmäßig, das Modell so zu wählen, daß es das konstante Modell ~J umfaßt
weil dann die - typischerweise interessierende - lineare Hypothese
(d.h. die Covariable z hat keinen Einfluß)
mit dem F-Test überprüfen werden kann. Aus diesem Grund wird meist die erste
Modellvariable xl konstant = 1 gesetzt zu wählen (d.h. hl
= 1 ist konstant), und (3)
reduziert dann zu
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-5
kennengelernt. Letztes ist ein lineares Modell, wobei der zugehörige Covariablen
vektor x = (1, z, z2, ... , zS--l) E IRS eine Funktion x = h(z) des beobachteten Wertes z
ist. Man erhält nun eine etwas allgemeinere Klassen von Linearen Modellen, indem
man einen formalen Covariablenvektor x betrachtet, dessen Komponenten über vor
gegebene Funktionen h von dem beobachteten Wert z abhängen s
(2) x = h(z) bzw. x = h (z) s s
für s = 1, ... ,5.
Beispiele für solche Funktionen h sind: s
• h (z) = 1, d.h. x = 1 (konstante Covariable) s s
• h (z) = z, d.h. x =z (identische Transformation) s s
• h (z) = log z, d.h. x = log z (log-Transformation) s s
• h (z) = z'"Y d.h. x =z'"Y (Potenz-Transformation) s s
wobei im letzten Fall der Parameter '"Y E IR fest vorgegeben sein muß (wenn '"Y ein zu
sätzlicher unbekannter Parameter ist, so liegt kein Lineares Modell mehr vor).
Das zugehörige Modell lautet dann
(3)
Betrachten jetzt wieder einen Vektor Y = (Yl, ... , Y
J) von J Beoabchtungen mit der
zugehörigen J x S Covariablen-Matrix so lautet das Lineare Modell für den Erwar
tungsvektor Jl = E(Y)
(4) Jl = X() bzw. 5 Jl E Jt'= X [IR ].
Es zweckmäßig, das Modell so zu wählen, daß es das konstante Modell ~ J umfaßt
weil dann die - typischerweise interessierende - lineare Hypothese
(d.h. die Covariable z hat keinen Einfluß)
mit dem F-Test überprüfen werden kann. Aus diesem Grund wird meist die erste
Modellvariable xl konstant = 1 gesetzt zu wählen (d.h. hl = 1 ist konstant), und (3)
reduziert dann zu
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-6
(6) p,.J
für j = 1, ...,1.
Beipiel: Das lineare Regressionsmodell (in transformierter Variable)
Speziell für S = 2 ergibt sich aus (6) das lineare Regressionsmodell in der transformier
ten Variablen x
(7) für j = 1, ... ,J,
bei dem der Erwartungswert eine lineare Funktion in x = h(z) mit fest vorgegebener
Funktion h ist (der Index ,,2" bei x und h ist hier unterdrückt). Die zugehörige Re
gressionsanalyse haben wir bereits in 2.5.4 behandelt.. D
Beispiel: Das Polynom-Regressionsmodell (in transformierter Variable)
Eine Erweiterung des linearen Regressionsmodells ist das Polynom-Regressionsmo
dell in der transformierten Variablen x
(8) für j = 1, ...,J
bei dem der der Erwartungswert ein Polynom in einer (vorgegebenen) Funktion
x= h(z) der beobachteten Covariablen z ist. D
3.2.3 Das vollständige Modell für einen Faktor
Wir gehen jetzt davon aus, daß neben der Zielvariablen Y nur ein weiterer (codier
ter) Faktor A E {I, ...,K} mit K Stufen beobachtet wird, und der Erwartungswert ei
ner Einzelbeobachtung Y nur von der beobachteten Stufe k des Faktors A abhängt
(1) p, = p,(k) := E(Y IA = k) .
Das allgemeinste Modell für einen Faktor besagt, daß der Erwartungswert einer Ein
zelbeobachtung Y auf beliebige Weise vom Faktor A abhängen kann, d. h.
für k = 1, ..., K
mit beliebigen Parametern el , ... , eK
E IR. Der Parameter ek
ist hier direkt interpre-
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-6
(6) J-L. J
für j = 1, ... ,1.
Beipiel: Das lineare Regressionsmodell (in transformierter Variable)
Speziell für S = 2 ergibt sich aus (6) das lineare Regressionsmodell in der transformier
ten Variablen x
(7) für j = 1, ... ,l,
bei dem der Erwartungswert eine lineare Funktion in x = h(z) mit fest vorgegebener
Funktion h ist (der Index ,,2" bei x und h ist hier unterdrückt). Die zugehörige Re-
gressionsanalyse haben wir bereits in 2.5.4 behandelt .. D
Beispiel: Das Polynom-Regressions modell (in transformierter Variable)
Eine Erweiterung des linearen Regressionsmodells ist das Polynom-Regressionsmo
dell in der transformierten Variablen x
(8) für j = 1, ... ,l
bei dem der der Erwartungswert ein Polynom in einer (vorgegebenen) Funktion
x = h(z) der beobachteten Covariablen z ist. D
3.2.3 Das vollständige Modell für einen Faktor
Wir gehen jetzt davon aus, daß neben der Zielvariablen Y nur ein weiterer (codier
ter) Faktor A E {I, ... , K} mit K Stufen beobachtet wird, und der Erwartungswert ei
ner Einzelbeobachtung Y nur von der beobachteten Stufe k des Faktors A abhängt
(1) J-L = J-L(k) : = E(Y I A = k) .
Das allgemeinste Modell für einen Faktor besagt, daß der Erwartungswert einer Ein
zelbeobachtung Y auf beliebige Weise vom Faktor A abhängen kann, d. h.
für k = 1, ... , K
mit beliebigen Parametern el , ... , eK
E IR. Der Parameter ek
ist hier direkt interpre-
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-7
tierbar als Erwartungswert der Beoabchtung Y bei gegebener Stufe k des Faktors A.
Bezeichnet A. E { 1, ...,K} die Stufe des Faktors A für die Beobachtung j = 1, ... ,1, so]
lautet das Modell für alle 1 Beobachtungen
(MIF) falls k =A.J
für alle j, k.
A=k ,
Unter Verwendung der Indikatorvariablen I~ = I{A = k} mit
AI k = 1(2)
läßt sich das Modell äquivalent schreiben als
(MIF)~
Dies ist ein Lineares Modell mit S = K Parametern und dem Parametervektor
(3) (direkte Parametrisierung).
In Vektorschreibweise lautet das Modell für 1 Beobachtungen
(MIF) ,
wobei die zugehörige lxK-Modellmatrix IA = (I~j ) nur Nullen und Einsen als
Komponenten hat. Die j-te Zeile von I A ist der k-te Einheitsvektor ek
E IRK, wobei
k = A. die zugehörige Stufe ist. Der Rang von IA ist die Anzahl aller verschiedenen]
beobachteten Stufen
(4) Rang (I A) = # {A. Ij = 1, ...,l}.]
Folglich gilt die Rangbedingung Rang (I A) = K genau dann, wenn jede Stufe
k = 1, ...,K auch mindestens einmal beobachtet wurde. Wir setzen dies jetzt ohne Be
schränkung der Allgemeinheit voraus, denn wenn dies nicht erfüllt ist, kann man
die Stufen auf alle beobachteten Stufen reduzieren und die Codierung entsprechend
ändern.
Aus der Nebenbedingung an die Indikatorvariablen
(5)
ergibt sich die äquivalente Modelldarstellung
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-7
tierbar als Erwartungswert der Beoabchtung Y bei gegebener Stufe k des Faktors A.
Bezeichnet A. E { 1, ... , K} die Stufe des Faktors A für die Beobachtung j = 1, ... ,1, so ]
lautet das Modell für alle 1 Beobachtungen
(MIF) falls k =A. J
für alle j, k.
Unter Verwendung der Indikatorvariablen I~ = I{A = k} mit
A I k = 1 (2) A=k ,
läßt sich das Modell äquivalent schreiben als
(MIF)~
Dies ist ein Lineares Modell mit S = K Parametern und dem Parametervektor
(3) (direkte Parametrisierung).
In Vektorschreibweise lautet das Modell für 1 Beobachtungen
(MIF) ,
wobei die zugehörige lxK-Modellmatrix IA = (I~j ) nur Nullen und Einsen als
Komponenten hat. Die j-te Zeile von I A ist der k-te Einheitsvektor ek
E IRK, wobei
k = A. die zugehörige Stufe ist. Der Rang von IA ist die Anzahl aller verschiedenen ]
beobachteten Stufen
(4) Rang (I A) = # { A. I j = 1, ... ,l}. ]
Folglich gilt die Rangbedingung Rang (I A) = K genau dann, wenn jede Stufe
k = 1, ... , K auch mindestens einmal beobachtet wurde. Wir setzen dies jetzt ohne Be
schränkung der Allgemeinheit voraus, denn wenn dies nicht erfüllt ist, kann man
die Stufen auf alle beobachteten Stufen reduzieren und die Codierung entsprechend
ändern.
Aus der Nebenbedingung an die Indikatorvariablen
(5)
ergibt sich die äquivalente Modelldarstellung
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-8
(MIF)~ mit
für k = 2, ..., K.
Dies ist eine Kontrast-Parametrisierung mit der Referenzstufe 1) weil die Parameter e~,
...,e~ jeweils den Kontrast zur Stufe 1 angeben, die man in diesem Zusammenhang
als Referenzstufe interpretiert. Die inhaltliche Interpretation dieser Parameter er
gibt sich aus
(6) e{ = E(YIA = 1),
e~ = E(YIA =k) - E(YIA = 1) für k = 2, ..., K.
Der Vektor eder direkten Parametrisierung ergibt sich aus e' wie folgt:
(7) für k = 2, ..., K.
In Vektorschreibweise lautet das Modell
(MIF) " Jl = xe'
wobei die JxK-Modellmatrix folgende Spaltendarstellung besitzt
d.h. X enthält als erste Spalte den konstanten Vektor e+und stimmt in den restli
chen Spalten mit der Matrix I A überein.
Da die Modellformulierungen (MIF) 1 und (MIF) 11 äquivalent sind, stimmen die
von den Spalten von IA bzw. X erzeugten Modellräume überein
In "parameterfreier" Schreibweise lautet das Modell
(MIF)* Jl E .At
und hieraus erkennt man, daß die direkte bzw. die Kontrast-Parametrisierung den
Modellraum .At lediglich durch andere Koordinaten beschreiben. Das Modell .At
umfaßt das konstante Modell für e1 = e2 = ... = eJ bzw. e~ = ... = e; = 0, d.h.
Umgekehrt betrachtet, ergibt sich das Modell .At aus dem konstanten Modell ~J
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-8
(MIF)~ mit
für k = 2, ... , K.
Dies ist eine Kontrast-Parametrisierung mit der Referenzstufe 1) weil die Parameter e~,
... , e~ jeweils den Kontrast zur Stufe 1 angeben, die man in diesem Zusammenhang
als Referenzstufe interpretiert. Die inhaltliche Interpretation dieser Parameter er
gibt sich aus
(6) e{ = E(YIA = 1),
e~ = E(YIA =k) - E(YIA = 1) für k = 2, ... , K.
Der Vektor e der direkten Parametrisierung ergibt sich aus e' wie folgt:
(7) für k = 2, ... , K.
In Vektorschreibweise lautet das Modell
(MIF) " Jl = X e'
wobei die lxK-Modellmatrix folgende Spaltendarstellung besitzt
d.h. X enthält als erste Spalte den konstanten Vektor e + und stimmt in den restli
chen Spalten mit der Matrix I A überein.
Da die Modellformulierungen (MIF) 1 und (MIF) 11 äquivalent sind, stimmen die
von den Spalten von IA bzw. X erzeugten Modellräume überein
In "parameterfreier" Schreibweise lautet das Modell
(MIF) * Jl E .At
und hieraus erkennt man, daß die direkte bzw. die Kontrast-Parametrisierung den
Modellraum .At lediglich durch andere Koordinaten beschreiben. Das Modell .At
umfaßt das konstante Modell für e 1 = e 2 = ... = e J bzw. e ~ = ... = e; = 0, d.h.
Umgekehrt betrachtet, ergibt sich das Modell .At aus dem konstanten Modell ~ J
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-9
durch Hinzufügen der K-1 Indikatorvariablen 11, ...,I~ für die Stufen 2, ..., K von A.
Die - typischerweise interessierende - lineare Hypothese
(d.h. der Faktor A hat keinen Einfluß)
läßt sich dann - unter der Normalverteilungsannahme (NVY) - mit dem F-Test im
Rahmen einer sogenannten Varianzanalyse überprüfen (vgl. Abschnitt 3.2.4).
Eine weitere äquivalente Modelldarstellung ergibt sich analog (MIF)" wenn man
statt der Stufe 1 eine beliebige Stufe rE {I, ...,K} als Referenzstufe wählt:
für alle j.
Dies ist ebenfalls ein Lineares Modell mit S = K und den Parametern
(11) B' = Br r' für k :;z= r.
Hierdurch ergeben sich aber keine prinzipiell neuen Aspekte, weil man durch eine
geeignete Umnumerierung (Umcodierung) der Stufen wieder die Form (MIF)" er
halten kann.
Da die Kontrast-Parametrisierung einige Vorzüge gegenüber der direkten Parame
trisierung hat (speziell bei der Betrachtung mehreren Faktor-Variablen, vgl. 3.3),
wird sie in statistischen Programm-Paketen,meist automatisch gewählt wenn man
dort Faktoren für ein Modell definiert.
3.2.4 Schätzungen im vollständigen Modell für einen Faktor
Zur Bestimmung der Schätzungen im vollständigen Modell ist es übersichtlicher
davon auszugehen, daß die Beobachtungen (Y.,A.) nach den Stufen A. sortiert sind,] ] ]
d.h. es gibt Indizes
(1)
(2)
Dann ist
{} A. = k]
mit
für alle j und k.
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-9
durch Hinzufügen der K-1 Indikatorvariablen 11, ... , I~ für die Stufen 2, ... , K von A.
Die - typischerweise interessierende - lineare Hypothese
(d.h. der Faktor A hat keinen Einfluß)
läßt sich dann - unter der Normalverteilungsannahme (NVY) - mit dem F-Test im
Rahmen einer sogenannten Varianz analyse überprüfen (vgl. Abschnitt 3.2.4).
Eine weitere äquivalente Modelldarstellung ergibt sich analog (MIF)" wenn man
statt der Stufe 1 eine beliebige Stufe rE {I, ... , K} als Referenzstufe wählt:
für alle j.
Dies ist ebenfalls ein Lineares Modell mit S = K und den Parametern
(11) B' = B r r' für k ;z= r.
Hierdurch ergeben sich aber keine prinzipiell neuen Aspekte, weil man durch eine
geeignete Umnumerierung (Umcodierung) der Stufen wieder die Form (MIF)" er
halten kann.
Da die Kontrast-Parametrisierung einige Vorzüge gegenüber der direkten Parame
trisierung hat (speziell bei der Betrachtung mehreren Faktor-Variablen, vgl. 3.3),
wird sie in statistischen Programm-Paketen,meist automatisch gewählt wenn man
dort Faktoren für ein Modell definiert.
3.2.4 Schätzungen im vollständigen Modell für einen Faktor
Zur Bestimmung der Schätzungen im vollständigen Modell ist es übersichtlicher
davon auszugehen, daß die Beobachtungen (Y.,A.) nach den Stufen A. sortiert sind, ] ] ]
d.h. es gibt Indizes
(1)
(2)
Dann ist
{} A. = k ]
mit
für alle j und k.
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-10
die Anzahl aller Beobachtungen bei denen der Faktor A die Stufe k hat. Anstelle
des Einzel-Index j verwendet man auch den Doppelindex (k, i), bei dem k die Stufe
von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe
k ist. Formal setzt man
für alle 1 < k < K, 1 < i < I(k).YkO:=YJ 0
z k+z-1
Für jede Stufe k enthält dann der I(k)-dimensionale Zufallsvektor
(4)
alle Beobachtungen der Stufe k, und der gesamte Beobachtungsvektor läßt sich in
Blockgestalt schreiben als
Diese Schreibweise mit Doppelindizes entspricht einer Darstellung des J
dimensionalen Raumes IRJ als Produkt aller I(k)-dimensionalen Räume IR1(k)
K(7) IRJ = IR1(1) x IR1(2) x ... x IR1(K) = TI IR1(k) .
k=l
Das vollständige Modell (MIF) für einen Faktor mit direkter Parametrisierung läßt
sich unter Verwendung der Doppelindizes schreiben als
(MIF)' für alle 1 < k < K, 1 < i < I(k).
Dieses Modell hat die Dimension S = K und besagt, daß der Erwartungswert nur
von der Stufe des Faktors abhängt.
Wir wollen jetzt die Schätzungen (), (i, und 52 explizit angeben. Bezeichnet
(8) mit 8 als Kronecker-Symbol
den (k, i)-ten Einheitsvektor, so hat der ))k-te Summenvektor"
(9)
genau an den Komponenten (k',i') eine Eins (und Nullen sonst) die der Stufe k ent
sprechen, d.h. wo k' = k ist. Die JxK Modellmatrix X hat gerade ek+als k-te Spalte
und läßt sich daher in Spaltendarstellung schreiben als
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-10
die Anzahl aller Beobachtungen bei denen der Faktor A die Stufe k hat. Anstelle
des Einzel-Index j verwendet man auch den Doppelindex (k, i), bei dem k die Stufe
von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe
k ist. Formal setzt man
(4) Yk·:=YJ . z k+z-1 für alle 1 < k < K, 1 < i < I(k).
Für jede Stufe k enthält dann der I(k)-dimensionale Zufallsvektor
alle Beobachtungen der Stufe k, und der gesamte Beobachtungsvektor läßt sich in
Blockgestalt schreiben als
Diese Schreibweise mit Doppelindizes entspricht einer Darstellung des J
dimensionalen Raumes IRJ als Produkt aller I(k)-dimensionalen Räume IR1(k)
K (7) IRJ = IR1(1) x IR1(2) x ... x IR1(K) = TI IR1(k) .
k=l
Das vollständige Modell (MIF) für einen Faktor mit direkter Parametrisierung läßt
sich unter Verwendung der Doppelindizes schreiben als
(MIF)' für alle 1 < k < K, 1 < i < I(k).
Dieses Modell hat die Dimension S = K und besagt, daß der Erwartungswert nur
von der Stufe des Faktors abhängt.
Wir wollen jetzt die Schätzungen (), (i, und 0-2 explizit angeben. Bezeichnet
(8) mit 8 als Kronecker-Symbol
den (k, i)-ten Einheitsvektor, so hat der ))k-te Summenvektor"
(9)
genau an den Komponenten (k',i') eine Eins (und Nullen sonst) die der Stufe k ent
sprechen, d.h. wo k' = k ist. Die JxK Modellmatrix X hat gerade ek + als k-te Spalte
und läßt sich daher in Spaltendarstellung schreiben als
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-11
Hieraus ergibt sich sofort die Gültigkeit der Rangbedingung (RB), d.h.
(11) Rang X = K.
Der zugehörige Modellraum .At läßt sich wie folgt darstellenK
(11) .At = {k'f1
Bkek+ 1 B=(Bl' .... ,BK)EIRK
}
{ J.L E IR] 1 fLki = fLkl für alle 1 < k < Kund i, l = 1, ..., I(k) }K
D.1(1) x D.1(2) x ... x D.1(K) = kD1
D.1(k)
mit D.1(k) C IR1(k) als Diagonale des IR1(k\ vgl. 3.2.1 (3).
Die Spalten von X sind wegen
(12) für alle k, l = 1, ... ,K
paarweise orthogonal und folglich läßt sich die orthogonale Projektion Pc4 für be
liebiges y E IR] leicht bestimmen zu
K(13) P y- 2: Yk+· ek+, wobeic4 -
k=l
(14) (y , ek+) / 11 ek+ 112 1
(y-Mittelwert für Stufe k).Yk+ := I(k) 2; Ykiz
Hieraus ergeben sich die Schätzungen () und (i, in Doppelindex-Schreibweise
(15)
(16)
(Mittelwert aller Beobachtungen der Stufe k)
Die Deviance
I (17)
ist die Summe aller quadratischen Abweichungen der Beobachtungen Yki von ih
rem Stufen-Mittelwert Yk +" Hieraus ergibt sich die Schätzung von 0-2 zu
3.2 Modelle für eine beobachtete Covariable 7.7.10
Hieraus ergibt sich sofort die Gültigkeit der Rangbedingung (RB), d.h.
(11) Rang X = K.
Der zugehörige Modellraum .At läßt sich wie folgt darstellen K
(11) .At = {k'f1
Bkek+ 1 B=(Bl' .... ,BK)EIRK
}
{ J.L E IR] 1 fLki = fLkl für alle 1 < k < Kund i, l = 1, ... , I(k) } K
D.1(1) x D.1(2) x ... x D.1(K) = k D1
D.1(k)
mit D.1(k) C IR1(k) als Diagonale des IR1(k\ vgl. 3.2.1 (3).
Die Spalten von X sind wegen
(12) für alle k, l = 1, ... ,K
3-11
paarweise orthogonal und folglich läßt sich die orthogonale Projektion P c4 für be
liebiges y E IR] leicht bestimmen zu
K (13) P y- 2: Yk+· ek+, wobei c4 -
k=l
(14) (y , ek+) / 11 ek+ 112 1
(y-Mittelwert für Stufe k). Yk+ := I(k) 2; Yki z
Hieraus ergeben sich die Schätzungen () und (i, in Doppelindex-Schreibweise
(15) A - 1 Bk = Y k+ = I(k) 2; Yki
z (Mittelwert aller Beobachtungen der Stufe k)
Die Deviance
I (17)
ist die Summe aller quadratischen Abweichungen der Beobachtungen Yki von ih
rem Stufen-Mittelwert Y k +" Hieraus ergibt sich die Schätzung von 0-2 zu
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-12
(18)
(19)
1 - 2J-K 2: 2: (Yki - Y kt )
k i
J~K 2: [I(k) -1] 5~k
1 - 2I(k)-l ~ (Yki - Y kt )
z
mit
(empirische Varianz der Stufe k)
für k = 1, ...,K. Hierbei ist 5~ die Schätzung von 0-2 unter ausschließlicher Verwen
dung der Beobachtungen Y k = ( Y k1 ' ... , YkI(k) ) der Stufe k. Nach der zweiten
Darstellung in (18) ist somit die Schätzung 52 ein gewichteter Mittelwert der Schät
zungen 5~ aus den Daten Y k mit I(k) -1 als Gewichtungsfaktor.
Folglich lassen sich alle zur Bestimmung der Schätzungen relevanten Größen auch
ohne Kenntnis der Einzelwerte (Yki ) berechnen, wenn die Stufenumfänge I(k) , die
Stufen-Mittelwerte Yk t sowiedie empirischen Varianzen 5~ aller K Gruppen vorliegen.
Wir wollen jetzt noch die Covarianzmatrix des Schätzers () angeben. Aus
ergibt sich
d.h. die Komponenten von () sind paarweise unkorreliert mit
(22)
Hieraus ergibt sich die Varianz einer Linearkombination cT() für festes cE IRK
2 TA 2 1 2(23) 0-c = Var(c 0) = 0- .~ I(k) ck '
und speziell für den Unterschied ()k -()Z = Ykt
- YZt
zweier Komponenten ist
(24) für k;= l .
3.2 Modelle für eine beobachtete Covariable
(18) 1 - 2
J-K 2: 2: (Yki - Y kt ) k i
J~K 2: [I(k) -1] 5~ k
7.7.10 3-12
mit
(19) 1 - 2 I(k)-l ~ (Yki - Y kt ) (empirische Varianz der Stufe k)
z
für k = 1, ... , K. Hierbei ist 5~ die Schätzung von 0-2 unter ausschließlicher Verwen
dung der Beobachtungen Y k = ( Y k1 ' ... , YkI(k) ) der Stufe k. Nach der zweiten
Darstellung in (18) ist somit die Schätzung 52 ein gewichteter Mittelwert der Schät
zungen 5~ aus den Daten Y k mit I(k) -1 als Gewichtungsfaktor.
Folglich lassen sich alle zur Bestimmung der Schätzungen relevanten Größen auch
ohne Kenntnis der Einzelwerte (Yki ) berechnen, wenn die Stufenumfänge I(k) , die
Stufen-Mittelwerte Y k t sowiedie empirischen Varianzen 5~ aller K Gruppen vorliegen.
Wir wollen jetzt noch die Covarianzmatrix des Schätzers () angeben. Aus
ergibt sich
d.h. die Komponenten von () sind paarweise unkorreliert mit
(22)
Hieraus ergibt sich die Varianz einer Linearkombination cT() für festes cE IRK
(23)
und speziell für den Unterschied ()k -()Z = Ykt
- YZt
zweier Komponenten ist
(24) für k;= l .
3.2 Modelle für eine beobachtete Covariable
3.2.5 Einfache Varianzanalyse
7.7.10 3-13
Wir setzen die Ausführungen des letzten Abschnitts, wobei wir jetzt zusätzlich die
Normalverteilung (NVY) der Beobachtung voraussetzen. Unter dem Modell vollstän
digen Modell (M1F) gilt dann
(1) für alle 1 < k < K, 1 < i < I(k),
und alle Einzelbeobachtungen Yki
sind stochastisch unabhängig voneinander. Die
zentrale Frage ist, ob die Stufen des Faktors einen Einfluß auf den Erwartungswert
haben oder nicht, und dies läßt sich mit linearen Hypothesen wie folgt formulieren:
(2)
(3)
Nullhypothese
Alternative
Ho: B1 = B2 = ... = BK
(kein Unterschied bzgl. der Faktorstufen) !
H: Bk :;= BZ für mindestens ein Paar k:;= l .
(Unterschiede bei mindestens zwei Stufen k!V.
Die Nullhypothese beschreibt gerade das konstante Modell mit den Modellräumen
für den Parameter bzw. Erwartungswert
(4)
(5)
q-O =~K = {BEIRK
IB1 =···=BK }
J...40 = ~J = {J.L E IR 1!-L1 = ... = !-LJ} .
bzw.
Das durch (M1F) gegebene Modell ...4 umfaßt ...40
und folglich können wir das
Testproblem mit dem F-Test aus Abschnitt 2.6 entscheiden. Die hierfür zusätzlich
erforderliche Schätzung tlo bzw. 00 unter der Nullhypothese HO (d.h. für das kon
stante Modell) ist nach 3.2.1 gegeben durch
(6)
(7)
tlOki = 00k = Y ++ mit
- 1 1-Y ++:= J 2( t Y ki = J 2( I(k)· Y k+ (Mittelwert aller Beobachtungen).
Die bei der Zerlegung der Modellabweichung um ...40
auftretenden Größen werden
im hiesigen Zusammenhang oft suggestiv wie folgt bezeichnet:
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-13
3.2.5 Einfache Varianzanalyse
Wir setzen die Ausführungen des letzten Abschnitts, wobei wir jetzt zusätzlich die
Normalverteilung (NVY) der Beobachtung voraussetzen. Unter dem Modell vollstän
digen Modell (M1F) gilt dann
(1) für alle 1 < k < K, 1 < i < I(k),
und alle Einzelbeobachtungen Yki
sind stochastisch unabhängig voneinander. Die
zentrale Frage ist, ob die Stufen des Faktors einen Einfluß auf den Erwartungswert
haben oder nicht, und dies läßt sich mit linearen Hypothesen wie folgt formulieren:
(2) Nullhypothese Ho: B1 = B2 = ... = BK
(kein Unterschied bzgl. der Faktorstufen) !
(3) Alternative H: Bk :;= BZ für mindestens ein Paar k:;= l .
(Unterschiede bei mindestens zwei Stufen k!V.
Die Nullhypothese beschreibt gerade das konstante Modell mit den Modellräumen
für den Parameter bzw. Erwartungswert
(4)
(5)
q-O =~K = {BEIRK
IB1 =···=BK }
J ...40 = ~ J = {J.L E IR I /-L1 = ... = /-L J} .
bzw.
Das durch (M1F) gegebene Modell ...4 umfaßt ...40
und folglich können wir das
Testproblem mit dem F-Test aus Abschnitt 2.6 entscheiden. Die hierfür zusätzlich
erforderliche Schätzung tlo bzw. 00 unter der Nullhypothese HO (d.h. für das kon
stante Modell) ist nach 3.2.1 gegeben durch
(6)
(7)
tlOki = 00k = Y ++ mit
- 1 1-Y ++:= J 2( t Y ki = J 2( I(k)· Y k+ (Mittelwert aller Beobachtungen).
Die bei der Zerlegung der Modellabweichung um ...40
auftretenden Größen werden
im hiesigen Zusammenhang oft suggestiv wie folgt bezeichnet:
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-14
(8)
(9)
(10)
2 - 2SQT:=Dev(JtJ = IIY - 40 11 = 2:= 2:= (Yk · - Y++)
k i Z
(Summe gewichteter Abweichungs-Quadrate: TotaV.
A 2 - 2SQ! := Dev(Jt) = IIY - JL 11 = 2:= 2:= (Yk · - Y k +)
k i Z
(Summe gewichteter Abweichungs-Quadrate: Innerhalb der Gruppen),
A A 2 - - 2SQZ:= L:,Dev = IIJL- JLO 11 = 2:= !(k) (Yk +- Y++)
k(Summe gewichteter Abweichungs-Quadrate: Zwischen den Gruppen),
Die zugehörige Zerlegung der Modellabweichungen lautet dann
(11) SQT = SQ! + SQZ .
und die F-Statistik ergibt sich zu:
(12) F=SQZ /(K-l)
SQ! /( J-K)(F-Statistik) !
Die für die Berechnung erforderlichen Größen werden in der sogenannten Tafel der
Varianzanalyse zusammengestellt.
Streuung (Ursache) Dev =SQ FG MQ=SQ/FG
Zwischen den Gruppen L:,Dev =SQZ MG =K-l SQZ/(K-l)
In den Gruppen Dev(Jt) = SQ! FG(Jt) =J-K SQ!/ (J- K) = 0-2
Total Dev(Jto) =SQT FG(Jto)=J-l SQT/ (J-l) = o-~
Tab. 1: Tafel der (einfachen) Varianzanalyse
Die Nichtzentralitäten "( und 8 aus 2.6.1 (5) der zugehörigen F-Verteilung vereinfa
chen sich hier zu
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-14
(8) 2 - 2 SQT:=Dev(JtJ = IIY - 40 11 = 2:= 2:= (Yk · - Y++)
k i Z
(Summe gewichteter Abweichungs-Quadrate: TotaV.
(9) A 2 - 2 SQ! := Dev(Jt) = IIY - JL 11 = 2:= 2:= (Yk · - Y k +)
k i Z
(Summe gewichteter Abweichungs-Quadrate: Innerhalb der Gruppen),
(10) SQZ := L,Dev
(Summe gewichteter Abweichungs-Quadrate: Zwischen den Gruppen),
Die zugehörige Zerlegung der Modellabweichungen lautet dann
(11) SQT = SQ! + SQZ .
und die F-Statistik ergibt sich zu:
(12) F= SQZ /(K-1)
SQ! /( J-K) (F-Statistik) !
Die für die Berechnung erforderlichen Größen werden in der sogenannten Tafel der
Varianzanalyse zusammengestellt.
Streuung (Ursache) Dev =SQ FG MQ=SQ/FG
Zwischen den Gruppen L,Dev =SQZ MG =K-1 SQZj(K-1)
In den Gruppen Dev( Jt) = SQ! FG(Jt) =J-K SQ! /(J-K) = 52
Total Dev(Jto) =SQT FG(Jto)=J-1 SQT /(J-1) = 5~
Tab. 1: Tafel der (einfachen) Varianzanalyse
Die Nichtzentralitäten '"Y und 8 aus 2.6.1 (5) der zugehörigen F-Verteilung vereinfa
chen sich hier zu
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-15
(13)
(14)
"( = -.l11J-L - P J-L 11 2 = -.l ~ I(k)·(B _e)2 mita 2 .At 0 a2 k k
e:= j ~ I(k)· Bk (gewichtetes Mittel der Erwartungswerte)k
Insbesondere bei einer Ablehnung der Nullhypothese durch den F-Test wird man
sich für die Gruppenunterschiede Bk - BZfür k:;= l interessieren, um festzustellen, wel
che Unterschiede für eine Ablehnung verantwortlich sind. Da sich die Gruppenun
terschiede unter Verwendung der Einheitsvektoren ek
als Linearkombinationen
(17)
des Parameters B darstellen lassen, lassen sich Konfidenzintervalle und Tests für
diese Unterschiede gemäß Abschnitt 2.5.2 konstruieren. Die hierfür erforderliche
Varianz des geschätzten Unterschieds (\-eZ haben wir in 3.2.4 (24) schon angege
ben.
Spezialfall: K = 2 Stufen
Wenn der Faktor nur K = 2 Stufen hat, so lauten die Hypothesen (2) und (3) äqui
valent
vs.
Dies ist ein Testproblem über die Linearkombination B1
- B2
des Parameters Bund
läßt sich mit dem zweiseitigen t-Test aus 2.5 überprüfen und die F-Statistik ist ge
nau das Quadrat der zugehörigen t-Statistik Taus 2.5, d.h. F = T2. - Die Varianza
nalyse reduziert sich hier also auf den zweiseitigen Vergleich zweier Erwartungs
wert B1und B2
in zwei Stichproben (Y1i) und (Y2
) mit gleicher Varianz 0.2.
3.2 Modelle für eine beobachtete Covariable 7.7.10
(13)
(14)
'"Y = -.l11J-L - P J-L 11 2 = -.l ~ I(k)·(B _B)2 mit a 2 .At 0 a2 k k
- 1 B:= J ~ I(k)· Bk (gewichtetes Mittel der Erwartungswerte)
k
3-15
Insbesondere bei einer Ablehnung der Nullhypothese durch den F-Test wird man
sich für die Gruppenunterschiede Bk - BZ für k:;= l interessieren, um festzustellen, wel
che Unterschiede für eine Ablehnung verantwortlich sind. Da sich die Gruppenun
terschiede unter Verwendung der Einheitsvektoren ek
als Linearkombinationen
(17)
des Parameters B darstellen lassen, lassen sich Konfidenzintervalle und Tests für
diese Unterschiede gemäß Abschnitt 2.5.2 konstruieren. Die hierfür erforderliche
Varianz des geschätzten Unterschieds (\ -eZ haben wir in 3.2.4 (24) schon angege
ben.
Spezialfall: K = 2 Stufen
Wenn der Faktor nur K = 2 Stufen hat, so lauten die Hypothesen (2) und (3) äqui
valent
vs.
Dies ist ein Testproblem über die Linearkombination B1
- B2
des Parameters Bund
läßt sich mit dem zweiseitigen t-Test aus 2.5 überprüfen und die F-Statistik ist ge
nau das Quadrat der zugehörigen t-Statistik Taus 2.5, d.h. F = T2. - Die Varianza
nalyse reduziert sich hier also auf den zweiseitigen Vergleich zweier Erwartungs
wert B1 und B2
in zwei Stichproben (Y1i) und (Y2
) mit gleicher Varianz 0.2.
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-16
3.2.6 Schärfe des F-Tests bei der Varianzanalyse
Wir wollen jetzt die Schärfe des F-Tests bei der einfachen Varianzanalyse genauer
untersuchen, wobei wir zuerst das (in der Praxis bevorzugte) balancierte Design be
trachten und den allgemeinen unbalancierten Fall nur kurz abhandeln. Beim balancier
ten Design ist die Anzahl der Beobachtungen für die Stufe k ist für alle Stufen
gleich
(1) l(k) = l für k = 1, ..., K (balanciertes Design).
Dann ist J = l K die Gesamtzahl der Beobachtungen und die Nichtzentralität ver
einfacht sich zu
(2) mit- 1e:= K 2: ek (Mittelwert).
k
Nach 2.6.2 ist die Schärfe des F-Tests
(3) Pow(rr,a) = P{ F (rr) > F }m,n m,n,et
mit m = K-l, n = K(I-l).
bei vorgegebenen Werten für K, l und a streng wachsend in "i, und für eine Analyse
der Schärfe ist gleichbedeutend mit einer Analyse der Nichtzentralität "(. Zur Unter
suchung von "i ordnen wir die unbekannten Parameter nach ihrer Größe an
und betrachten den maximalen Unterschied
Die Nichtzentralität läßt sich dann wie folgt abschätzen:
(6) "imin < "i < "imax(I() wobei
"imax(I()
l·K· L1~ax
4a2
l· (K2 -1) . L12max
für gerades K
für ungerades K
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-16
3.2.6 Schärfe des F-Tests bei der Varianzanalyse
Wir wollen jetzt die Schärfe des F-Tests bei der einfachen Varianzanalyse genauer
untersuchen, wobei wir zuerst das (in der Praxis bevorzugte) balancierte Design be
trachten und den allgemeinen unbalancierten Fall nur kurz abhandeln. Beim balancier
ten Design ist die Anzahl der Beobachtungen für die Stufe k ist für alle Stufen
gleich
(1) l(k) = l für k = 1, ... , K (balanciertes Design).
Dann ist J = l K die Gesamtzahl der Beobachtungen und die Nichtzentralität ver
einfacht sich zu
(2) I - 2 "i = - 2: (B -B)
a 2 k k
mit - 1 B : = K 2: Bk (Mittelwert).
k
Nach 2.6.2 ist die Schärfe des F-Tests
(3) Pow("{,a) = P{F ("{) > F } m,n m,n,Ct
mit m = K-l, n = K(I-l).
bei vorgegebenen Werten für K, l und a streng wachsend in "i, und für eine Analyse
der Schärfe ist gleichbedeutend mit einer Analyse der Nichtzentralität "(. Zur Unter
suchung von "i ordnen wir die unbekannten Parameter nach ihrer Größe an
und betrachten den maximalen Unterschied
Die Nichtzentralität läßt sich dann wie folgt abschätzen:
(6) "imin
l·K· .j~ax
4a2
l. (K2 -1) . .j2 max
< "i
für gerades K
für ungerades K
wobei
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-17
Diese Abschätzung ist scharf. Die untere Schranke I . wird angenommen wennmm
die restlichen Parameter mit dem Mittelwert von B(l) und B(K) übereinstimmen:
(7) I = Imin·
Und die obere Schranke wird angenommen, wenn alle restlichen Parameter entwe
der mit B(l) oder B(K) übereinstimmen, wobei für gerades K = 2M genau M Parameter
mit B(1) übereinstimmen müssen und für ungerades K = 2M+1 genau M Parameter
mit B(1) oder mit B(K) übereinstimmen müssen:
(8) B(k) = B(l) , B(l) = B(K) für 1 < k < ~ < K~2 < l < K
Im Rahmen einer Versuchplanung sucht man den erforderlichen MindestumJang 1
pro Stufe, bei dem die Schärfe für einen vorgegebenen relevanten maximalen Unter
schied L1 und vorgegebenes 17 einen vorgegebenen Wert 1- ß erreicht (ß istmax
dann das Fehlerrisiko 2. Art für diesen Unterschied). Die zu I . gehörige minimalemm
Schärfe ist dann
(9) Pow(r . ,a) = P{F (1·8) > F } mit m = K-1, n = K(l-l)mzn m,n - m,n,Ct
8 = ~ (L1;ax )2.
Zur Bestimmung des gesuchten Mindestumfangs 1 pro Stufe berechnet man schritt
weise für 1= 2, 3, ... die minimale Schärfe (9) solange bis diese erstmals > 1-ß ist.
Wir betrachten noch kurz das unbalancierte Design) bei dem die Anzahlen lk: = l(k)
mit k variieren können (aber nicht müssen). Das Minimum der Nichtzentralität I
aus 3.2.5 (13) hängt jetzt von den zugehörigen Anzahlen 1(1) bzw. 1(K) der Stufen mit
dem kleinsten bzw. größten Parameter B(1) bzw. B(K) ab und ergibt sich zu
(10) Imin[1(1) +1(10] 1(K1) [1-1(K1)] . L1~ax
172mit
Das Minimum wird - analog (7) - auch angenommen für
(11) B(k) = [1-1(K1)] B(l) +1(K1) B(K) für alle 1< k < K.
Bei festem 1(1) +1(K) wird Imin maximal bzgl. 1(K1) für 1(K1) = ~, d.h. für 1(1) = 1(K). Da
die Indizes ,,(1)" und ,,(K)" unbekannt sind, ist das balancierte Design hier optimal.
3.2 Modelle für eine beobachtete Covariable 7.7.10 3-17
Diese Abschätzung ist scharf. Die untere Schranke I . wird angenommen wenn mm
die restlichen Parameter mit dem Mittelwert von B(l) und B(K) übereinstimmen:
(7) I = 'min·
Und die obere Schranke wird angenommen, wenn alle restlichen Parameter entwe
der mit B(l) oder B(K) übereinstimmen, wobei für gerades K = 2M genau M Parameter
mit B(1) übereinstimmen müssen und für ungerades K = 2M + 1 genau M Parameter
mit B(1) oder mit B(K) übereinstimmen müssen:
(8) B(k) = B(l) , B(l) = B(K) für 1 < k < ~ < K~2 < l < K
Im Rahmen einer Versuchplanung sucht man den erforderlichen Mindestumfang 1
pro Stufe, bei dem die Schärfe für einen vorgegebenen relevanten maximalen Unter
schied L1 und vorgegebenes 17 einen vorgegebenen Wert 1- ß erreicht (ß ist max
dann das Fehlerrisiko 2. Art für diesen Unterschied). Die zu I . gehörige minimale mm
Schärfe ist dann
(9) Pow(r . ,a) = P{F (1·8) > F } mit m = K-1, n = K(l-l) mzn m,n - m,n,Ct
Zur Bestimmung des gesuchten Mindestumfangs 1 pro Stufe berechnet man schritt
weise für 1 = 2, 3, ... die minimale Schärfe (9) solange bis diese erstmals > 1-ß ist.
Wir betrachten noch kurz das unbalancierte Design, bei dem die Anzahlen lk: = l(k)
mit k variieren können (aber nicht müssen). Das Minimum der Nichtzentralität I
aus 3.2.5 (13) hängt jetzt von den zugehörigen Anzahlen 1(1) bzw. 1(K) der Stufen mit
dem kleinsten bzw. größten Parameter B(1) bzw. B(K) ab und ergibt sich zu
(10) Imin [1(1) +1(10 l 1(K1) [1-1(K1)l· L1~ax
172 mit
Das Minimum wird - analog (7) - auch angenommen für
(11) B(k) = [1-1(K1)l B(l) +1(K1) B(K) für alle 1< k < K.
Bei festem 1(1) + 1(K) wird 'min maximal bzgl. 1(K1) für 1(K1) = ~, d.h. für 1(1) = 1(K). Da
die Indizes ,,(1)" und ,,(K)" unbekannt sind, ist das balancierte Design hier optimal.
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 18
3.3 Modelle für zwei beobachtete Covariablen
Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch zwei weitere Co-
variablen gegeben. Das einfachste Modell ist wieder das konstante Modell (KM) aus
3.2, welches hier besagt, daß beide Covariablen keinen Einfluß haben. Hat nur eine
der beiden Covariablen einen Einfluß (und die andere keinen Einfluß), so kann das
mit den Modellen aus 3.2 beschrieben werden . Wir betrachten jetzt nur noch sol-
che Modelle, die einen Einfluß beider Covariablen berücksichtigen. Hierbei unter-
scheiden wir danach, ob eine oder beide Covariablen quantitative Variablen oder
Faktoren sind.
3.3.1 Einfache Covarianz-Analyse
Bei der einfachen Varianzanalyse haben wir Modelle für einen beobachteten Faktor A
betrachtet und dazu Tests und Konfidenzbereiche konstruiert. Wir wollen diese
Methoden jetzt auf Situationen erweitern, bei denen zusätzlich eine quantitative Co-
variable z beobachtet wird. Der Faktor A habe wieder insgesamt K> 1 Stufen, und
wir setzen ohne Beschränkung der Allgemeinheit voraus, daß jede Faktor-Stufe bei
mindestens einer Beobachtung j vorkommt. Den Beobachtungsindex j = 1, ..., J wollen
wir wieder (wie in 3.2.3) durch den Doppelindex (k, i) ersetzen, bei dem k = A . die 3
Stufe von A angibt und 1 5 i 5 I(k) der laufende Beobachtungsindex innerhalb der
Stufe k ist. Dementsprechend bezeichnet zBi den Wert der Variablen z für die Be-
obachtung (k, i). Der gesamte Beobachtungsvektor Y und sein Erwartungsvektor
,u = E(Y) lassen sich dann in Blockgestalt darstellen als
(9 Y = (Y,, . . . , YK) mit Yk = ('ki)i=l, ..., I(k) ,
r = (4 > . . . > r K ) mit = ('ki)i = 1, ..., I(k) .
Wie beim linearen Regressionsmodell in 3.2.2 gehen wir von einer formalen Co-
avariblen X = h(z) aus, die eine feste Funktion der beobachteten Covariablen z ist.
Das lineare Regressionsmodell mit einem Faktor besagt nun, daß bei festgehaltener
Stufe k des Faktors A ein lineares Regressionsmodell in X vorliegt, dessen Parame-
ter allerdings von der Stufe k abhängen. In Doppelindizes-Notation lautet dieses
Modell
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3-18
3.3 Modelle für zwei beobachtete Covariablen
Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch zwei weitere Co
variablen gegeben. Das einfachste Modell ist wieder das konstante Modell (KM) aus
3.2, welches hier besagt, daß beide Covariablen keinen Einfluß haben. Hat nur eine
der beiden Covariablen einen Einfluß (und die andere keinen Einfluß), so kann das
mit den Modellen aus 3.2 beschrieben werden. Wir betrachten jetzt nur noch sol
che Modelle, die einen Einfluß beider Covariablen berücksichtigen. Hierbei unter
scheiden wir danach, ob eine oder beide Covariablen quantitative Variablen oder
Faktoren sind.
3.3.1 Einfache Covarianz-Analyse
Bei der einfachen Varianz analyse haben wir Modelle für einen beobachteten Faktor A
betrachtet und dazu Tests und Konfidenzbereiche konstruiert. Wir wollen diese
Methoden jetzt auf Situationen erweitern, bei denen zusätzlich eine quantitative Co
variable z beobachtet wird. Der Faktor A habe wieder insgesamt K> 1 Stufen, und
wir setzen ohne Beschränkung der Allgemeinheit voraus, daß jede Faktor-Stufe bei
mindestens einer Beobachtung j vorkommt. Den Beobachtungsindex j = 1, ... , J wollen
wir wieder (wie in 3.2.3) durch den Doppelindex (k, i) ersetzen, bei dem k =A. die ]
Stufe von A angibt und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der
Stufe k ist. Dementsprechend bezeichnet zki den Wert der Variablen z für die Be
obachtung (k, i). Der gesamte Beobachtungsvektor Y und sein Erwartungsvektor
Jl = E(Y) lassen sich dann in Blockgestalt darstellen als
(1) Y
Jl
(Y1 ,···, Y K)
(Jl1 ' ... , JlK )
mit Y k = (Yki ) i = 1, ... ,I(k) ,
mit Jlk = (Yki )i=1, ... ,I(k)·
Wie beim linearen Regressionsmodell in 3.2.2 gehen wir von einer formalen Co
avariblen x = h(z) aus, die eine feste Funktion der beobachteten Covariablen z ist.
Das lineare Regressionsmodell mit einem Faktor besagt nun, daß bei festgehaltener
Stufe k des Faktors A ein lineares Regressionsmodell in x vorliegt, dessen Parame
ter allerdings von der Stufe k abhängen. In Doppelindizes-Notation lautet dieses
Modell
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 19
(LRIF) Pki=Xk+ßkXki f Ü r a l l e l < k < K , l < i < I ( k ) ,
(Lineares Regressionsmodell mit einem Faktor)
mit dem 2 K-dimensionalen Parametervektor
(2) e=(el, . . . , B ~ ) E R 2~ wobei ek = ( x ~ , pk) E IR^.
Das Modell wird als Intra-Class-Regressionsmodel und seine statistische Analyse als
Covarianz-Analyse (Varianzanalyse mit einer Covariablen) bezeichnet. Unter Verwen-
dung des Kronecker-Symbols bkl läßt sich das Modell äquivalent schreiben als
Die zugehörige Jx2K-Covariablenmatrix X hat eine Block-Diagonalgestalt
(3> X = Diag {xl , . . . , xK} ,
wobei der k-te Block Xk - analog der linearen Regression in 2.1.1 - eine I(k)x2-Ma-
trix ist
(4) Xk = ( 1 , xk ) mit den Spalten 1 = (l)i , xk = (xki)i E IR'(k).
Wir setzen die Gültigkeit des Modells (LRIF) jetzt voraus und wollen zuerst die
Schätzungen der Parameter herleiten. Damit diese eindeutig bestimmt sind, setzen
wir die Rangbedingung (RB) voraus, die hier besagt, daß es für jede Stufe k minde-
stens zwei verschiedene X-Werte xki f X gibt. Für die Minimierung von rcj
genügt es offensichtlich, für jede Stufe k die quadratischen Abweichungen
zu minimieren. Mit den Bezeichnungen
(Mittelwert der X-Werte aus Stufe k),
(Mittelwert der Y-Werte aus Stufe k),
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3-19
(LR1F) für alle 1 < k < K, 1 < i < I(k) ,
(Lineares Regressionsmodell mit einem Faktor)
mit dem 2K-dimensionalen Parametervektor
(2) wobei
Das Modell wird als Intra-Class-Regressionsmodel und seine statistische Analyse als
Co varianz-Analyse (Varianzanalyse mit einer Covariablen) bezeichnet. Unter Verwen
dung des Kronecker-Symbols 6kZ
läßt sich das Modell äquivalent schreiben als
(LR1F), für alle 1 < k < K, 1 < i < I(k) ,
Die zugehörige Jx2K-Covariablenmatrix X hat eine Block-Diagonalgestalt
wobei der k-te Block Xk
- analog der linearen Regression in 2.1.1 - eine I(k)x2-Ma
trix ist
(4) mit den Spalten I(k) 1 = (1) . , xk
= (xk
.) . E lR . z z z
Wir setzen die Gültigkeit des Modells (LR1F) jetzt voraus und wollen zuerst die
Schätzungen der Parameter herleiten. Damit diese eindeutig bestimmt sind, setzen
wir die Rangbedingung (RB) voraus, die hier besagt, daß es für jede Stufe k minde
stens zwei verschiedene x-Werte xki
:;= xkj
gibt. Für die Minimierung von
genügt es offensichtlich, für jede Stufe k die quadratischen Abweichungen
I(k) (6) SQ(J-LkIYk) = IIYk -J-LkI12 = i~l (Yki - ['\ + ßkxkJ?
zu minimieren. Mit den Bezeichnungen
(7)
(8)
(Mittelwert der x-Werte aus Stufe k)!
(Mittelwert der Y-Werte aus Stufe k)!
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 20
ergeben sich die Schätzungen durch Anwendung des linearen Regressionsmodells
aus 2.1.1 auf den Beobachtuntsvektor Yk = (Yki) der Stufe k wie folgt 2
Da die Schätzung dk = (Xk,ßk) eine lineare Funktion von Yk ist, ergibt sich aus der
paarweisen Unkorreliertheit von Y ..., YK sofort: 1'
(13) dl, ..., dK sind paarweise unkorreliert.
Insbesondere sind auch ß ..., ß paarweise unkorreliert, und ihre Varianzen lauten 1' K
0 2
(14) var(ßk) = - für k = 1 ,..., K. S,XX
Im Hinblick auf die Parameterschätzung d genügt es also, den Beobachtungsvektor
Y in die K Stufen des Faktors A zu zerlegen und die zugehörige Parameterkompo-
nente Ok = (Xk, ßk) aus dem entsprechenden Teildatensatz der Stufe k zu schätzen.
Lediglich die Deviance des betrachteten Modells (LRIF) - desssen Modellraum für
,u wir mit A bezeichnen - hängt von allen J Beobachtungen ab und ergibt sich (vgl.
2.5.4)
2 Hieraus erhält man die Schätzung von a als
Nachdem wir die Schätzungen angegeben haben, wollen wir jetzt interessierende
Untermodelle bzw. die zugehörigen linearen Hypothesen betrachten. In erster Linie
interessiert man sich dafür, ob eine Wechselwirkung zwischen der Covariablenz und
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 20
(9) SkxX ~ (xki -xk)2 ~xii I(k) .x/ z z
(10) SkxY ~ (xki - x k)(Yki - Yk) 2: xk Y k · . z z I(k) .xk·Yk Z z
(11) SkYY - 2
~ (Yki - Yk) ~Yfi I(k) . Yk2
z z ergeben sich die Schätzungen durch Anwendung des linearen Regressionsmodells
aus 2.1.1 auf den Beobachtuntsvektor Y k = (Yk ) i der Stufe k wie folgt
(12) ~ k = Yk - ß k x k .
Da die Schätzung 0k = (~k,ßk) eine lineare Funktion von Y k ist, ergibt sich aus der
paarweisen Unkorreliertheit von Y l' ... , Y K sofort:
(13) 01' ... , 0K sind paarweise unkorreliert.
Insbesondere sind auch ß1, ... , ß
K paarweise unkorreliert, und ihre Varianzen lauten
(14) für k = 1 , ... , K.
Im Hinblick auf die Parameterschätzung ° genügt es also, den Beobachtungsvektor
Y in die K Stufen des Faktors A zu zerlegen und die zugehörige Parameterkompo
nente ()k = (A k, ßk) aus dem entsprechenden Teildatensatz der Stufe k zu schätzen.
Lediglich die Deviance des betrachteten Modells (LR1F) - desssen Modellraum für
Jl wir mit vft bezeichnen - hängt von allen J Beobachtungen ab und ergibt sich (vgl.
2.5.4)
(15) Dev(vft) t y (Yki - [~k + ßkxki ])2
2: (SkYY - ß~ .Skxx ). k
Hieraus erhält man die Schätzung von 0-2 als
(16) Dev(vft) J-2K·
Nachdem wir die Schätzungen angegeben haben, wollen wir jetzt interessierende
Untermodelle bzw. die zugehörigen linearen Hypothesen betrachten. In erster Linie
interessiert man sich dafür, ob eine Wechselwirkung zwischen der Covariablenz und
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 21
dem Faktor A besteht, d. h. ob der durch den Parameter ßL quantifizierte (lineare)
Einfluß von X von der Stufe k des Faktors A abhängt oder nicht. Hierzu testet man
die lineare Nullhypothese
(17) H : ß =ß = . . . = ß K 0 1 2
bzw. P E A K
(Der lineare Einfluj3 von z ist für alle Stufen von A konstant)
gegen ihre Negation als Alternative. Die Einschränkung des Modells (LRIF) durch
Ho ergibt das folgende Untermodell
(PRIF) p k i = X k + ß x k i f ü r a l l e l < k < K , l < i < I ( k ) ,
(Paralleles Regressionsmodell mit einem Faktor).
mit dem (K+l)-dimensionalen Parametervektor
(18) K+1
( X , ß ) = ( x l , " ' , X K ~ ß ) E I R '
Bezeichnen wir den zum Modell (PRIF) zugehörigen Modellraum für ,U mit Ao,
so gilt
und wir können die Nullhypothese Ho mit dem F-Test (aus 4.6) überprüfen, sofern
As IRJ ist d.h. die Dimensionsbedingung gilt
die wir jetzt auch voraussetzen wollen. Man beachte, daß A s A wegen K > 1 0
stets gilt.
Die Parameter-Schätzungen für das Modell (PRIF) bzw. unter H ergeben sich zu 0
Die zweite Darstellung von ß zeigt, daß die Schätzung ß ein gewichteter Mittelwert 0 0
der Schätzungen 4, ..., ßK ist, wobei der jeweilige Gewichtungsfaktor SLxx von ßL
umgekehrt proportional zur Varianz (14) von ßL ist. Die Deviance für das Modell 2 Ao und die Schätzung von D lassen sich wie folgt darstellen
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 21
dem Faktor A besteht, d. h. ob der durch den Parameter ßk quantifizierte (lineare)
Einfluß von x von der Stufe k des Faktors A abhängt oder nicht. Hierzu testet man
die lineare Nullhypothese
(17) bzw.
(Der lineare Einfluß von z ist für alle Stufen von A konstant)
gegen ihre Negation als Alternative. Die Einschränkung des Modells (LRIF) durch
HO ergibt das folgende Untermodell
(PRIF) für alle 1 < k < K, 1 < i < I(k) ,
(Paralleles Regressionsmodell mit einem Faktor).
mit dem (K + 1) -dimensionalen Parametervektor
Bezeichnen wir den zum Modell (PRIF) zugehörigen Modellraum für Jl mit .At0'
so gilt
(19)
und wir können die Nullhypothese HO mit dem F-Test (aus 4.6) überprüfen, sofern
.At:;= IR] ist d.h. die Dimensionsbedingung gilt
(20) 2K <J= ~I(k), k
die wir jetzt auch voraussetzen wollen. Man beachte, daß .AtO:;=.At wegen K> 1
stets gilt.
Die Parameter-Schätzungen für das Modell (PRIF) bzw. unter HO ergeben sich zu
(21) ~SkxY
ßo= ...!-".k __ ~SkxX k
~Ok = Yk - ßo x k ! k = 1 , ... , K.
Die zweite Darstellung von ßo zeigt, daß die Schätzung ßo ein gewichteter Mittelwert
der Schätzungen ß1, ... , ß
K ist, wobei der jeweilige Gewichtungsfaktor SkxX von ß
k umgekehrt proportional zur Varianz (14) von ß
k ist. Die Deviance für das Modell
.AtO und die Schätzung von 0-2 lassen sich wie folgt darstellen
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 22
Der Unterschied beider Modellabweichungen läßt sich vereinfachen zu
(24) ADev = Dev(Ao) - Dev(~d!) = C Skxx (ßk - ß0l2 L
und stellt eine gewichtete Streuung der Parameter ß ..., ßK um ihren gewichteten 1'
Mittelwert ßo dar - mit den Gewichtsfaktoren Skxx.
Die für den F-Test erforderlichen Größen stellt man wieder in einer Tafel der Cova-
rzanzanalyse zusammen.
Tab. 1: Tafel der (einfachen) Covarianzanalyse
Die für die Schärfe des F-Tests entscheidende Nichtzentralität
Streuung (Ursache)
Anstiege der Einzelgeraden
Um die Einzelgeraden
Um die parallelen Geraden
E [skxx 'ßk ] (25) Y = $ ~ ~ ~ ~ ~ ( ß ~ - ß ~ ) ~ mit Po = L
k E Skxx L
ist - bis auf den Faktor 1 - eine gewichtete quadratische Abweichung der Parame- 0 2
ter ßl, ..., ßK um ihren gewichteten Mittelwert ßo.
Dev = SQ
ADev
Dev(A)
Dev(Ao)
Wenn der F-Test die Hypothese Ho bzw. das Teilmodell 4 abgelehnt hat, so inte-
ressiert man sich für die Unterschiede ßL-ßl der Anstiege verschiedener Stufen k
und I. Hierzu kann man einerseits ein Konfidenzintervall für ß -ß konstruieren L 1
FG
a F G = K - l
F G ( A ) =J- 2K
FG(Ao) = J- K- 1
SQ /FG
ADev/(K- 1)
A 2 0
A 2 0
0
3.3 Modelle für zwei beobachtete Covariablen
(22)
(23)
Dev(...4o) = t y (Yki - [~Ok + ßOxki ])2
A2 = 2: SkYY - ßo .2: Skxx ,
k k
A2 Dev(...4o) 0"0 J-K-l·
11.8.05 3- 22
Der Unterschied beider Modellabweichungen läßt sich vereinfachen zu
(24)
und stellt eine gewichtete Streuung der Parameter ß1, ... , ß
K um ihren gewichteten
Mittelwert ßo dar - mit den Gewichtsfaktoren Skxx.
Die für den F-Test erforderlichen Größen stellt man wieder in einer Tafel der Cova
rianzanalyse zusammen.
Streuung (Ursache) Dev = SQ FG SQ/FG
Anstiege der Einzelgeraden ~Dev MG =K-l ~Dev/(K-l)
Um die Einzelgeraden Dev(...4) FG(...4) =J-2K A2 0"
Um die parallelen Geraden Dev(...4o) FG(...4o)=J-K-l A2 0"0
Tab. 1: Tafel der (einfachen) Covarianzanalyse
Die für die Schärfe des F-Tests entscheidende Nichtzentralität
(25) mit ßo =
ist - bis auf den Faktor ~ - eine gewichtete quadratische Abweichung der Paramea
ter ßl' ... , ßK um ihren gewichteten Mittelwert ßo·
Wenn der F-Test die Hypothese HO bzw. das Teilmodell ...40
abgelehnt hat, so inte
ressiert man sich für die Unterschiede ßk - ßZ der Anstiege verschiedener Stufen k
und l. Hierzu kann man einerseits ein Konfidenzintervall für ßk
- ßZ
konstruieren
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 23
oder einen Test auf Gleichheit der Anstiege durchführen mit der Nullhypothese
P I Hokl : ßk-ßl = 0 (z hat auf den Stufen k und 1 denselben Einflug.
'I' Da der Unterschied ßk-ßl eine Linearkombination C B des Parameters B ist, kön-
nen wir die in 2.5.2 angegebenen Tests und Konfidenzintervalle verwenden. Die 2 hierzu erforderliche Varianz D der Schätzung cTd vereinfacht sich im vorliegenden C
Fall wegen der Unkorreliertheit von ßk und ßl nach (12) zu
für k s 1.
Testet man R von den insgesamt möglichen ;K(K+l) Nullhypothesen der Form
Hokl zum Niveau a', so hat der simultane Test aller R Nullhypothesen nicht mehr
das Niveau a'. Nach Bonferroni ist das Niveau dieser simultanen (multiplen) Tests
aber < a' R - und somit < a, wenn man a' = L a wählt (vgl. Exkurs Simultane Tests R und Konfidenzbereiche). Entsprechend muß das Niveau a' der einzelnen Konfidenzin-
tervalle für ßk-ßl gewählt werden, wenn die insgesamt R Konfidenzintervalle ein
simultanes Niveau 5 a haben sollen.
Lehnt dagegen der F-Test die Hypothese Ho bzw. das Teilmodell Ao nicht ab, so
will man meistens noch wissen, ob sich das Modell Ao nicht durch zusätzliche Hy-
pothesen weiter vereinfachen läßt. Hierbei interessiert dann in erster Linie, ob die
Covariable z oder der Faktor A überhaupt einen Einfluß auf den Erwartungswert
der Beobachtung Y haben, d.h. man will die Hypothesen testen
P I H : ß = O (Covariable z hat keinen Einflug,
(Faktor A hat keinen Einflug.
Der zugehörige Modellraum Aoz bzw. AoA ist wieder ein Teilraum von A und
man wird daher jeder der beiden linearen Hypothesen Hozbzw. HOA einzeln mit dem
F-Test überprüfen. Wenn der F-Test die Hypothese HOA ablehnt, so interessiert man
sich wieder für die Unterschiede X - X zwischen zwei Faktor-Stufen k s 1 und L 1 kann analog oben (jetzt mit dem Parametervektor X statt P) diese Unterschiede
(simultan) testen und (simultane) Konfidenzbereiche konstruieren.
Bei den oben beschriebenen Verfahren der Covarianzanalyse haben wir das lineare
Regressionsmodell (LRIF) als gültig vorausgesetzt. Da man sich aber nie ganz si-
cher sein kann, ob ein gewähltes Modell korrekt ist, sollte man auch die Gültigkeit
des Modells A hinterfragen. Hierzu kann man z.B. das lineare Regressionsmodell
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 23
oder einen Test auf Gleichheit der Anstiege durchführen mit der Nullhypothese
(26) (z hat auf den Stufen kund l denselben Einfluß).
Da der Unterschied ßk - ßZ eine Linearkombination cT () des Parameters () ist, kön
nen wir die in 2.5.2 angegebenen Tests und Konfidenzintervalle verwenden. Die
hierzu erforderliche Varianz 0-2 der Schätzung cT() vereinfacht sich im vorliegenden c
Fall wegen der Unkorreliertheit von ßk
und ßZ
nach (12) zu
(27) Var(ß -ß) = 0- . -+-A A 2[ 1 1] k Z SkxX Szxx
für k;= l.
Testet man R von den insgesamt möglichen tK(K+1) Nullhypothesen der Form
HOkZ zum Niveau a ' , so hat der simultane Test aller R Nullhypothesen nicht mehr
das Niveau a ' . Nach Bonferroni ist das Niveau dieser simultanen (multiplen) Tests
aber < a ' R - und somit < a, wenn man a ' = ~a wählt (vgl. Exkurs Simultane Tests
und Konfidenzbereiche). Entsprechend muß das Niveau a ' der einzelnen Konfidenzin
tervalle für ßk
- ßZ
gewählt werden, wenn die insgesamt R Konfidenzintervalle ein
simultanes Niveau< a haben sollen.
Lehnt dagegen der F-Test die Hypothese HO bzw. das Teilmodell .AC0
nicht ab, so
will man meistens noch wissen, ob sich das Modell .AC0
nicht durch zusätzliche Hy
pothesen weiter vereinfachen läßt. Hierbei interessiert dann in erster Linie, ob die
Covariable z oder der Faktor A überhaupt einen Einfluß auf den Erwartungswert
der Beobachtung Y haben, d.h. man will die Hypothesen testen
(28)
(29)
HOz
: ß=O
HOA : \=A2 =···=AK
(Covariable z hat keinen Einfluß)!
(Faktor A hat keinen Einfluß).
Der zugehörige Modellraum .ACoz bzw . .ACOA
ist wieder ein Teilraum von .AC und
man wird daher jeder der beiden linearen Hypothesen Hozbzw. HOA
einzeln mit dem
F-Test überprüfen. Wenn der F-Test die Hypothese HOA
ablehnt, so interessiert man
sich wieder für die Unterschiede Ak - AZ zwischen zwei Faktor-Stufen k ;= l und
kann analog oben (jetzt mit dem Parametervektor A statt ß) diese Unterschiede
(simultan) testen und (simultane) Konfidenzbereiche konstruieren.
Bei den oben beschriebenen Verfahren der Covarianzanalyse haben wir das lineare
Regressionsmodell (LRIF) als gültig vorausgesetzt. Da man sich aber nie ganz si
cher sein kann, ob ein gewähltes Modell korrekt ist, sollte man auch die Gültigkeit
des Modells .AC hinterfragen. Hierzu kann man z.B. das lineare Regressionsmodell
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 24
.,&E im Rahmen eines umfassenden Obermodells .,&E > .,&E mit dem F-Test überprü- 1
fen. Als ein mögliches Obermodell bietet sich das quadratische Regressionsmodell
2 (QRIF) Pki = X k + ßk xki + Yk xki f Ü r a l l e l < k < K , l < i < I ( k ) ,
(Quadratisches Regressionsmodell mit einem Faktor).
mit dem 3K-dimensionalen Parametervektor
Dieses Modell postuliert auf jeder festen Stufe k eine quadratische Abhängigkeit des
Erwartungswerts p, von der Covariablen X. Das lineare Regressionsmodell (LRIF)
ergibt sich aus quadratischen Modells (QRIF) unter der zusätzlichen Nullhypo-
these
Hor: 7 = 0 bzw. y = y =...=Y = O . 1 2 K
Für 3 K < J kann diese Hypothese im Rahmen des umfassenden Modells .,&El mit
dem F-Test überprüft werden.
3.3.2 Modelle für zwei quantitative Variablen
Wir gehen davon aus, daß neben der Zielvariablen Y zwei weitere quantitative Co-
variablen Z1 und Z2 beobachtet werden, und der Erwartungswert einer Einzelbe-
obachtung Y nur von den beobachteten Werten zl, z2 dieser Covariablen Z1, Z2 ab-
hängen
Eine naheliegende Verallgemeinerung des linearen Regressionsmodells in einer Va-
riablen ist das lineare Regressionsmodell in zwei Variablen (zl und z2)
(2) p,(zl, z2) = Qo + Q1 z1 + 8222.
Dieses Modell besagt, daß bei fixiertem z2 ein lineares Regessionsmodell in zl vor-
liegt
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 24
.At im Rahmen eines umfassenden übermodells .Atl
::::>.At mit dem F-Test überprü
fen. Als ein mögliches übermodell bietet sich das quadratische Regressionsmodell
an
(QRIF) für alle 1 < k < K, 1 < i < I(k) ,
(Quadratisches Regressionsmodell mit einem Faktor).
mit dem 3K-dimensionalen Parametervektor
Dieses Modell postuliert auf jeder festen Stufe k eine quadratische Abhängigkeit des
Erwartungswerts J-L von der Covariablen x. Das lineare Regressionsmodell (LRIF)
ergibt sich aus quadratischen Modells (QRIF) unter der zusätzlichen Nullhypo
these
(31) bzw.
Für 3 K< J kann diese Hypothese im Rahmen des umfassenden Modells .Atl
mit
dem F-Test überprüft werden.
3.3.2 Modelle für zwei quantitative Variablen
Wir gehen davon aus, daß neben der Zielvariablen Y zwei weitere quantitative Co
variablen Zl und Z2 beobachtet werden, und der Erwartungswert einer Einzelbe
obachtung Y nur von den beobachteten Werten zl' z2 dieser Covariablen Zl' Z2 ab
hängen
Eine naheliegende Verallgemeinerung des linearen Regressionsmodells in einer Va
riablen ist das lineare Regressionsmodell in zwei Variablen (zl und z,)
Dieses Modell besagt, daß bei fixiertem z2 ein lineares Regessionsmodell in zl vor
liegt
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 25
~ ~ ( z ~ , z ~ ) = QO(z2) + Qlzl mit QO(z2) = Qo + Q2z2
wobei der Achsenabschnitt QO(z2) aber nicht der Anstiegsparameter Q2 vom fixier-
ten Wert z2 abhängt (analog ergibt sich ein lineare Regressionsmodell in z2 bei fi-
xiertem zl). Will man dagegen in (2)' auch zulassen, daß der Achsenabschnitt Q1 in
von z2 abhangt, so kann man dies auf einfache (und lineare) Weise erreichen, in-
dem man das Modell (2) um eine sogenannte Wechselwirkung erweitert zu
(3) p(z 1' z ) 2 = Qo +Q1zl + Q2z2 +Q12z1z2.
Dann ergibt sich bei fixiertem z das lineare Regressionsmodell in z 2 1
(3) ' "(zl, z2) = QO(z2) + Q;(z2) z1 mit Q'(z 1 2 ) = Ql + Q12.z2.
2 2 3 3 Diese Modelle lassen sich durch Hinzunahme von Potenzen zl, z2, zl, z2, ... schritt-
weise erweitern.
Wir wollen dies jetzt in allgemeiner Form beschreiben, indem wir zur Formulierung S eines Lineares Modells wieder einen Vektor X = h(zl,z2) E IR sogenannter formaler
Modell-Covariablen betrachten, dessen Komponenten über vorgegebene Funktionen
h von den beobachteten Werten zl, z2 abhängen. Hierbei ist es zweckmäßig, die erste S
Komponente von X konstant =1 zu wählen, damit das resultierende lineare Modell
das konstante Modell (in dem beide Variablen Zl und Z2 keinen Einfluß haben) um-
faßt. Die restliche Komponenten von X zerlegen wir in drei Teile, wobei der erste
Teil xl = h (z ) nur von z und der zweite Teil X = h (z ) nur von z abhangt. Le- 1 1 1 2 2 2 2
diglich der dritte Wechselwirkungs-Teil x12 = h (z , z ) hängt von beiden Werten z1 12 1 2
und z ab. 2
Zuerst betrachten wir das Modell ohne Wechselwirkungen mit folgendem formalen
Covariablenvektor
x = ( l , x l , x 2 ) T mit
wobei die Komponenten-Funktionen his von hi wieder fest vorgeben sind (und ins-
besondere keine unbekannten Parameter enthalten). Das zugehörige Lineare Modell
lautet dann
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 25
(2)' mit
wobei der Achsenabschnitt B~(z2) aber nicht der Anstiegsparameter B2 vom fixier
ten Wert z2 abhängt (analog ergibt sich ein lineare Regressionsmodell in z2 bei fi
xiertem zl). Will man dagegen in (2)' auch zulassen, daß der Achsenabschnitt Bl in
von z2 abhängt, so kann man dies auf einfache (und lineare) Weise erreichen, in
dem man das Modell (2) um eine sogenannte Wechselwirkung erweitert zu
Dann ergibt sich bei fixiertem z2 das lineare Regressionsmodell in zl
(3)' mit
Diese Modelle lassen sich durch Hinzunahme von Potenzen z~, z~, z~, z~, ... schritt
weise erweitern.
Wir wollen dies jetzt in allgemeiner Form beschreiben, indem wir zur Formulierung
eines Lineares Modells wieder einen Vektor x = h(zl' z2) E IR5 sogenannter formaler
Modell-Covariablen betrachten, dessen Komponenten über vorgegebene Funktionen
h s von den beobachteten Werten zl' z2 abhängen. Hierbei ist es zweckmäßig, die erste
Komponente von x konstant =1 zu wählen, damit das resultierende lineare Modell
das konstante Modell (in dem beide Variablen Zl und Z2 keinen Einfluß haben) um
faßt. Die restliche Komponenten von x zerlegen wir in drei Teile, wobei der erste
Teil xl = hl(zl) nur von zl und der zweite Teil x 2 = hiz2) nur von z2 abhängt. Le
diglich der dritte Wechselwirkungs-Teil x l2 = h l2(zl' z2) hängt von beiden Werten zl
und z2 ab.
Zuerst betrachten WIr das Modell ohne Wechselwirkungen mit folgendem formalen
Covariablenvektor
(4)
wobei die Komponenten-Funktionen h. von h. wieder fest vorgeben sind (und ins-zs z
besondere keine unbekannten Parameter enthalten). Das zugehörige Lineare Modell
lautet dann
51 52 (5) B 0 + s;;/lSXlS + s;;/2SX2S
T T Bo + xl Bl + x 2 B2
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 26
mit dem Parametervektor
der Dimension 1 +S1 +S2.
Wie bereits erwähnt wirken die beobachteten Werte z1 und z der Variablen Z1 und 2
Z2 im Modell (5) nur separat über die beiden Summen. Will man dagegen auch
Wechselwirkungen (oder Interaktionen) beider Variablen modellieren, so müssen noch
weitere Terme hinzugefügt werden, die von beiden Werten z1 und z2 abhängen. Dies
erreicht man durch eine Erweiterung des Covariablenvektors (4) durch Hinzu-
nahme eines Wechselwirkungsterms
mit
Jede Wechselwirkungskomponente x12s = h12s(z1,z2) ist dabei typischerweise ein
Produkt einer Komponente X von X mit einer Komponente X von X ls1 1 2 ~ 2 2
wie dies z.B. auch in (3) - mit z statt X bzw. hl und h als Identität - der Fall ist.
Das zu (7) gehörige Wechselwirkungsmodell ist dann gegeben durch
mit dem Parametervektor
der Dimension S = 1 +S1 +S2 + S12. Das umfassendste Wechselwirkungsmodel1 dieser
Form liegt für S12 =S S vor und enthält alle Produkte der Form (8) für sl = 1, ..., S1 1 2
und s = 1, ..., S2 als Wechselwirkungsterme. 2
Betrachten wir nun (statt einer Einzelbeobachtung Y) alle J Beobachtungen
Y = (Y1, ..., YJ) und indizieren bei der j-ten Beobachtung mit dem Index j, so ergibt
sich die JxS-Modellmatrix für das Wechselwirkungsmodel1 (9) zu
Das Wechselwirkungsmodel1 enthält unter anderem folgende interessierende line-
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 26
mit dem Parametervektor
der Dimension 1 +Sl +S2·
Wie bereits erwähnt wirken die beobachteten Werte zl und z2 der Variablen Zl und
Z2 im Modell (5) nur separat über die beiden Summen. Will man dagegen auch
Wechselwirkungen (oder Interaktionen) beider Variablen modellieren, so müssen noch
weitere Terme hinzugefügt werden, die von beiden Werten zl und z2 abhängen. Dies
erreicht man durch eine Erweiterung des Covariablenvektors (4) durch Hinzu
nahme eines Wechselwirkungsterms
(7) mit
Jede Wechselwirkungskomponente x12s = h12/z1,z2) ist dabei typischerweise em
Produkt einer Komponente x1S1
von xl mit einer Komponente x2S2
von x2
(8) x12s = h12/z1,z2) = x1S1 · x2S2'
wie dies z.B. auch in (3) - mit z statt x bzw. h1 und h 2 als Identität - der Fall ist.
Das zu (7) gehörige Wechselwirkungsmodell ist dann gegeben durch
51 52
(9) B 0 + s"f./1Sx1S + s"f./2Sx2S +
T T = Bo + Xl B1 + x 2 B2 +
mit dem Parametervektor
5 12
s"f.1 B12sx12s
T x 12 B12
der Dimension S = 1 +Sl +S2 + S12. Das umfassendste Wechselwirkungsmodell dieser
Form liegt für S12 = Sl S2 vor und enthält alle Produkte der Form (8) für sl = 1, ... , Sl
und s2 = 1, ... ,S2 als Wechselwirkungsterme.
Betrachten wir nun (statt einer Einzelbeobachtung Y) alle J Beobachtungen
Y = (Y1, ... , Y
J) und indizieren bei der j-ten Beobachtung mit dem Index j, so ergibt
sich die JxS-Modellmatrix für das Wechselwirkungsmodell (9) zu
Das Wechselwirkungsmodell enthält unter anderem folgende interessierende line-
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 27
are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:
~ , : e = o 12
(keine Wechselwirkungen zwischen Zl und Z2)
H : e = e = O 0 1 12
(Zl hat keinen Einfluß)
H : e = e = O 0 2 12
(Z2 hat keinen Einfluß)
H : e = e = e = O 0 1 1 1 2
(konstantes Modell: Zl und Z2 haben keinen Einfluß)
Beispiel: Das Wechselwirkungsmodel11. Ordnung
Das Wechselwirkungs-Modell 1. Ordnung in den transformierten Variablen xl und x2
lautet analog (3)
und die Bemerkungen zum Modell (3) gelten entsprechend.
Beispiel: Das Wechselwirkungsmodel12. Ordnung
Das Wechselwirkungs-Modell 2. Ordnung in den transformierten Variablen xl und x2
ist eine Erweiterung des Wechselwirkungsmodells 1. Ordnung um die Quadrate der
Covariablen X und X 1 2
Bei fixiertem z ergibt sich ein quadratisches Regressionsmodell bzgl. z 2 1
(14) 2
p(z1> z2) = X(x2) + ß(~2) . x1 + Y . x1 mit
Man beachte, daß der Krümmungs-Parameter y unabhängig von z ist, was man al- 2
2 lerdings - falls gewünscht - durch Hinzunahme höherer Wechselwirkungen xl x2, 2 2 2 xlx2 sowie xl x2 in (13) erreichen könnte. Üblicherweise beschränkt man sich je-
doch auf das Modell (13). - Analog (14) ergibt sich bei fixiertem z ein quadratisches 1
Regressionsmodell bzgl. z 2'
3.3 Modelle für zwei beobachtete Covariablen 11.8.05
are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:
HO :()l2=O
Ho: ()l =()l2=O
HO :()2=()l2=O
(keine Wechselwirkungen zwischen Zl und Z2)
(Zl hat keinen Einfluß)
(Z2 hat keinen Einfluß)
3- 27
Ho : ()l = ()1 = ()l2 = 0 (konstantes Modell: Zl und Z2 haben keinen Einfluß)
Beispiel: Das Wechselwirkungs modell 1. Ordnung
Das Wechselwirkungs-Modell 1. Ordnung in den transformierten Variablen xl und x2
lautet analog (3)
und die Bemerkungen zum Modell (3) gelten entsprechend. D
Beispiel: Das Wechselwirkungs modell 2. Ordnung
Das Wechselwirkungs-Modell 2. Ordnung in den transformierten Variablen xl und x2
ist eine Erweiterung des Wechselwirkungsmodells 1. Ordnung um die Quadrate der
Covariablen xl und x2
Bei fixiertem z2 ergibt sich ein quadratisches Regressionsmodell bzgl. zl
(14) mit
Man beachte, daß der Krümmungs-Parameter "( unabhängig von z2 ist, was man al
lerdings - falls gewünscht - durch Hinzunahme höherer Wechselwirkungen xi x2
!
Xl x~ sowie xi x~ in (13) erreichen könnte. Üblicherweise beschränkt man sich je
doch auf das Modell (13). - Analog (14) ergibt sich bei fixiertem zl ein quadratisches
Regressionsmodell bzgl. z2. D
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 28
3.3.3 Modelle für zwei Faktoren
Wir gehen jetzt davon aus, daß neben der Zielvariablen Y zwei (codierte) Faktoren
A E {I, ..., K } mit K Stufen und B E {I, ..., L } mit L Stufen beobachtet werden, wobei
der Erwartungswert einer Einzelbeobachtung Y nur von den beobachteten Stufen 5
und 1 dieser Faktoren A und B abhängen soll
Das Modell ohne Wechselwirkung beider Faktoren A und B ist von der Form
Man beachte, daß Bi nur von der Stufe 6 des ersten Faktors A und ßl nur von der
Stufe 1 des zweiten Faktors B abhängt.
Unter Verwendung der Indikatorvariablen I: = I{A = k.) B und I, = I {B = g mit
(3) A IL = 1 U A = k ,
B I = 1 1 U B = 1 ,
läßt sich das Modell äquivalent schreiben als
Die K+ L Parameter Q1, ..., 19 ß ..., ßL sind wegen der Nebenbedingungen K ' 1'
(5) A L B C I = l = C I ,
L=l k 1 =1
nicht eindeutig bestimmt, und die zugehörige Modellmatrix X hat einen Rang A < K + L - 1. Ersetzt man unter Verwendung von (5) jeweils die Indikatoren Il und
B Il der 1. Stufe, so ergibt sich
K L
(6) p, = Q o + C ~ k ~ : + C ß i ~ ; mit k=2 1 =2
(7) I90 = I91 + ß, , 19; = Bk - o1 , ß; = P, - ßl .
Dies ist ein allgemeines lineares Modell mit dem Parametervektor
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 28
3.3.3 Modelle für zwei Faktoren
Wir gehen jetzt davon aus, daß neben der Zielvariablen Y zwei (codierte) Faktoren
A E {I, ... , K} mit K Stufen und BE {I, ... , L} mit L Stufen beobachtet werden, wobei
der Erwartungswert einer Einzelbeobachtung Y nur von den beobachteten Stufen k
und 1 dieser Faktoren A und B abhängen soll
Das Modell ohne Wechselwirkung beider Faktoren A und B ist von der Form
Man beachte, daß Bk nur von der Stufe k des ersten Faktors A und ßZ
nur von der
Stufe 1 des zweiten Faktors B abhängt.
Unter Verwendung der Indikatorvariablen It = I{A = k} und If = I{B = l} mit
A I k = 1 (3) A =k ,
B = 1 ,
läßt sich das Modell äquivalent schreiben als
(4)
Die K +L Parameter B1, ... , BK ,ßl' ... , ßL sind wegen der Nebenbedingungen
K ALB (5) 2:= I k = 1 = 2:= I Z
k=1 Z =1
nicht eindeutig bestimmt, und die zugehörige Modellmatrix X hat einen Rang
< K + L -1. Ersetzt man unter Verwendung von (5) jeweils die Indikatoren If und
I~ der 1. Stufe, so ergibt sich
(6)
(7)
K L J-L = Bo + 2:= B~ It + 2:= ßfIf
k=2 Z =2
Bo = B1 + ß1 ' B~ = Bk - B1 '
mit
Dies ist ein allgemeines lineares Modell mit dem Parametervektor
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 29
der Dimension S = K + L - I. Man beachte die formale Ähnlichkeit des Modells (6) mit dem Modellen 3.3.2 (5),
wenn man dort die X -Terme durch die Indikatoren für A und die X -Terme durch 1 2
die Indikatoren für B ersetzt.
Bezeichnen A . E { 1, ..., K) und B1 E { 1, ..., L) die Stufen der Faktoren A und B für die 3
Beobachtung j= 1, ..., J, so lautet die zugehörige Modell-Matrix aller J Beobachtun-
gen
Diese Matrix enthält nur Nullen und Einsen und hat z.B. dann vollen Rang S wenn
jede der K. L möglichen Faktorkombinationen (k,1) mindestens einmal beobachtet
wird.
Wir erweitern jetzt das Modell (6) zu einem Modell mit Wechselwirkungen
Wegen der Nebenbedingungen (5) sind die Parameter 6 E IRK, PE IRL und 7 E IRKL B (10) nicht eindeutig bestimmt. Ersetzt man wieder die Indikatoren I; und Il der 1.
Stufe , so ergibt sich eine Kontrast-Parametrisierung der Form
dessen Parametervektor
sich aus dem Parametervektoren 8, ß und 7 aus (10) ergibt. Die Parameter lassen
sich hierbei wie folgt interpretieren. 19 ist der Erwartungswert der Faktor-Kombi- 0
nation (1,1), die aus den jeweiliegen „Referenz-Stufen" beider Faktoren besteht:
Bei fester 1. Stufe (Referenzstufe) des Faktors B beschreibt 19; den Kontrast der Stufe
5 > 1 des Faktors A zur Referenz-Stufe 1 dieses Faktors:
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 29
(8) (J = ((Jo' (J;, ... , (J~, ß;, ... , ß~)
der Dimension S = K + L - 1.
Man beachte die formale Ähnlichkeit des Modells (6) mit dem Modellen 3.3.2 (5),
wenn man dort die xl-Terme durch die Indikatoren für A und die x2-Terme durch
die Indikatoren für B ersetzt.
Bezeichnen Aj
E { 1, ... , K} und BZ E { 1, ... , L} die Stufen der Faktoren A und B für die
Beobachtung j = 1, ... ,l, so lautet die zugehörige Modell-Matrix aller 1 Beobachtun-
gen
Diese Matrix enthält nur Nullen und Einsen und hat z.B. dann vollen Rang S wenn
jede der K· L möglichen Faktorkombinationen (k, l) mindestens einmal beobachtet
wird.
Wir erweitern jetzt das Modell (6) zu einem Modell mit Wechselwirkungen
(10) p, = p,(k, l)
Wegen der Nebenbedingungen (5) sind die Parameter (JE IRK, ßE IRL und 'Y E IRKL
(10) nicht eindeutig bestimmt. Ersetzt man wieder die Indikatoren It und If der 1.
Stufe, so ergibt sich eine Kontrast-Parametrisierung der Form
dessen Parametervektor
sich aus dem Parametervektoren (J, ß und 'Y aus (10) ergibt. Die Parameter lassen
sich hierbei wie folgt interpretieren. (Ja ist der Erwartungswert der Faktor-Kombi
nation (1,1), die aus den jeweiliegen "Referenz-Stufen" beider Faktoren besteht:
(13) (JO = E(YIA=l! B=l).
Bei fester 1. Stufe (Referenzstufe) des Faktors B beschreibt (J~ den Kontrast der Stufe
k> 1 des Faktors A zur Referenz-Stufe 1 dieses Faktors:
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 30
Analog beschreibt ß1 den Kontrast der Stufe 1 > 1 zur Referenzstufe 1 des Faktors B 1
bei fester 1. Stufe (Referenzstufe) des Faktors A:
Und bei beliebigen Stufen k > 1 und 1 > 1 der Faktoren A und B beschreibt den
zusätzlichen Effekt, der durch die Faktorkombination (k,1) entsteht
Das Wechselwirkungs-Mode11 (11) hat S = K . L Parameter. Wenn jede der K . L Fak-
torkombinationen mindestens einmal beobachtet worden ist, so hat die Modellma-
trix den vollen Rang S. Faßt man in diesem Fall beide Faktoren zu einem neuen
Kombinationsfaktor C = (A, B) mit K . L Stufen zusammen, so beschreibt (11) das
vollständige Modell für den Faktor C aus 2.2.3.
Das Wechselwirkungsmodel1 enthält unter anderem folgende interessierende line-
are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:
I H o : ? = O (keine Wechselwirkungen der Faktoren A und B)
I I H o : ? =ß = O (Faktor B hat keinen Einfluß)
I I = B = O (Faktor A hat keinen Einfluß)
I I I H ~ : ? = ß = B = O (konstantes Modell: beide Faktoren haben keinen Einf luß).
3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 30
(14) e~ = E(YIA=k) B=l) - E(YIA=l) B=l).
Analog beschreibt ß; den Kontrast der Stufe l> 1 zur Referenzstufe 1 des Faktors B
bei fester 1. Stufe (Referenzstufe) des Faktors A:
(15) ß; = E(YIA = 1) B= l) - E(YIA = 1) B= 1).
Und bei beliebigen Stufen k> 1 und l> 1 der Faktoren A und B beschreibt '~l den
zusätzlichen Effekt, der durch die Faktorkombination (k, l) entsteht
(16) ,
'kl E(YIA = k) B=l) - E(YIA = 1) B= 1) - e~ - ßf E(YIA=k) B=l) + E(YIA=l) B=l)
- E(YIA = 1) B= l) - E(YIA = k) B= 1).
Das Wechselwirkungs-Modell (11) hat S=K·L Parameter. Wenn jede der K·L Fak
torkombinationen mindestens einmal beobachtet worden ist, so hat die Modellma
trix den vollen Rang S. Faßt man in diesem Fall beide Faktoren zu einem neuen
Kombinationsfaktor C = (A, B) mit K· L Stufen zusammen, so beschreibt (11) das
vollständige Modell für den Faktor C aus 2.2.3.
Das Wechselwirkungsmodell enthält unter anderem folgende interessierende line
are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:
HO:'Y'=O
HO: 'Y' = ß' = 0
Ho:'Y'=e'=o
Ho:'Y'=ß'=e'=o
(keine Wechselwirkungen der Faktoren A und B)
(Faktor B hat keinen Einfluß)
(Faktor A hat keinen Einfluß)
(konstantes Modell: beide Faktoren haben keinen Einfluß).
4. Das lineare Aitken-Modell 11.8.05 4 - 1
4 Das lineare Aitken-Modell
In diesem Kapitel wollen wir die Resultate über das lineare Gauß-Markov-Modell
auf das lineare Aitken-Modell verallgemeinern und ergänzen. Die Verallgemeine-
rung betrifft hierbei einerseits die Covarianzstruktur des Beobachtungsvektors Y,
die im Gauß-Markov-Modell durch
2 (GMC) Cov(Y) = D . f l J (GauJ3-Markov-Covarianzstruktur)
gegeben war, und hier nach Aitken verallgemeinert wird zu
(AC) C O V ( Y ) = D ~ . V (Aitken-Covarianzstruktur),
wobei V eine beliebige, aber fest vorgegebene positiv-definite JxJ Matrix ist. Eine nahe-
liegende Verallgemeinerung dieser Covarianzstruktur (die wir hier nicht untersu-
chen werden) besteht darin, daß die Matrix V auch noch zusätzliche unbekannte
Parameter enthalten darf, wie z.B. bei sogenannten longitudinalen Daten der Fall ist,
vgl. z.B. Fahrmeir und Tutz (1994), Diggle, Liang and Zeger (1994).
Obwohl sich in 4.2 herausstellen wird, daß man Aitken-Modell vollständig auf das
Gauß-Markov-Modell zurückführen kann, wollen wir dennoch alle wichtigen Resul-
tate des Gauß-Markov-Modells auch für das Aitken-Modell explizit formulieren.
Dabei sollen die Resultate gleichzeitig auf den Fall erweitert werden, daß das zu-
grunde liegende lineare Modell
nicht zutrifft, d.h. wir untersuchen auch den Fall pSf &. Dies ist insofern von Be-
deutung, als man in der Praxis nie sicher sein kann, ob das verwendete Modell &
korrekt spezifiziert ist, und daher auch die Eigenschaften der Schätzer und Tests
für den Fall von Interesse sind, daß das Modell & nicht gilt.
Als wichtigster Spezialfall des Aitken-Modells wird zunächst in 4.1 das gewichtete
Gauß-Markov-Modell eingeführt.
4. Das lineare Aitken-Modell 11.8.05 4-1
4 Das lineare Aitken-Modell
In diesem Kapitel wollen wir die Resultate über das lineare Gauß-Markov-Modell
auf das lineare Aitken-Modell verallgemeinern und ergänzen. Die Verallgemeine
rung betrifft hierbei einerseits die Covarianzstruktur des Beobachtungsvektors Y,
die im Gauß-Markov-Modell durch
(GMC) Cov(Y) = 0-2
. 11 J (Gauß-Markov-Covarianzstruktur)
gegeben war, und hier nach Aitken verallgemeinert wird zu
(AC) Cov(Y) = 0-2 . V (Aitken-Covarianzstruktur) )
wobei V eine beliebige) aber fest vorgegebene positiv-definite lxl Matrix ist. Eine nahe
liegende Verallgemeinerung dieser Covarianzstruktur (die wir hier nicht untersu
chen werden) besteht darin, daß die Matrix V auch noch zusätzliche unbekannte
Parameter enthalten darf, wie z.B. bei sogenannten longitudinalen Daten der Fall ist,
vgl. z.B. Fahrmeir und Tutz (1994), Diggle, Liang and Zeger (1994).
Obwohl sich in 4.2 herausstellen wird, daß man Aitken-Modell vollständig auf das
Gauß-Markov-Modell zurückführen kann, wollen wir dennoch alle wichtigen Resul
tate des Gauß-Markov-Modells auch für das Aitken-Modell explizit formulieren.
Dabei sollen die Resultate gleichzeitig auf den Fall erweitert werden, daß das zu
grunde liegende lineare Modell
(LM)
nicht zutrifft, d.h. wir untersuchen auch den Fall Jl t/:..At. Dies ist insofern von Be
deutung, als man in der Praxis nie sicher sein kann, ob das verwendete Modell vft
korrekt spezifiziert ist, und daher auch die Eigenschaften der Schätzer und Tests
für den Fall von Interesse sind, daß das Modell vft nicht gilt.
Als wichtigster Spezialfall des Aitken-Modells wird zunächst in 4.1 das gewichtete
Gauß-Markov-Modell eingeführt.
4.1 Das gewichtete Gauß-Markov-Modell 7.7.10 4-2
4.1 Das gewichtete Gauß-Markov-Modell
Ein wichtiger Spezialfall des Aitken-Modells liegt vor, wenn die Beobachtungen Y.J
unkorTeliert sind, d.h. (UnKor) gilt. Dann hat V Diagonalgestalt
(1) V = Diag(v) mit v. = 12
Var(Y.) > 0J a J
für alle j.
Unter Verwendung sogenannter Gewichtsfaktoren (engl.: weights)
(2) -1w.=v. >0
J Jbzw. Var(Y.) = _1 0-
2J w·]
erhält man die Darstellung
(3) bzw. V-1 = Diag{w} .
Die Gewichtsfaktoren sind umgekehrt proportional zu den Varianzen der Beobach
tungen
(4) für alle j ,k = 1, ...,1.
Dieses Modells liegt zum Beispiel dann vor, wenn Y. ein Mittelwert aus EinzelbeJ
obachtungen YjZ
mit l = 1, ...,L(j) ist, wobei alle Einzelbeobachtungen YjZ
unkorreliert
sind und gleiche Varianz haben:
L0)(5) Y. = Ir;) 2: Y·Z mit Var(Y
J·Z) = 0-
2 für alle j, l .J v Z =1 J
In diesem Fall entspricht der Gewichtsfaktor w. = L(j) der Anzahl der Einzel-BeJ
obachtungen in der j-ten Gruppe.
Man bezeichnet diesen Spezialfall des Aitken-Modells mit der Covarianzstruktur
(GGMC) Cov(Y) = 0-2 . Diag-1{w} (gewichtete Gauß-Markov-Covarianz)
auch als gewichtetes Gauß-Markov-Modell für die gewichteten Beobachtungsdaten
(Y.,x., w.) mit j = 1, ...,1. Im Gegegnsatz zur allgemeinen Formulierung (AC) desJ J J
Aitken-Modells ist das gewichtete Gauß-Markov-Modell (GGMC) ein direkter
Spezialfall des Covarianz-Modells (CMod) aus 1.3.
4.1 Das gewichtete Gauß-Markov-Modell 7.7.10 4-2
4.1 Das gewichtete Gauß-Markov-Modell
Ein wichtiger Spezialfall des Aitken-Modells liegt vor, wenn die Beobachtungen Y. J
unkorTeliert sind, d.h. (UnKor) gilt. Dann hat V Diagonalgestalt
(1) V = Diag(v) mit v. = 12
Var(Y.) > 0 J a J
für alle j.
Unter Verwendung sogenannter Gewichtsfaktoren (engl.: weights)
(2) -1 w.=v. >0
J J
erhält man die Darstellung
(3)
bzw.
bzw.
Var(Y.) = _1 0-2
J w· ]
V-1 = Diag{w} .
Die Gewichtsfaktoren sind umgekehrt proportional zu den Varianzen der Beobach
tungen
(4) für alle j ,k = 1, ... ,1.
Dieses Modells liegt zum Beispiel dann vor, wenn Y. ein Mittelwert aus EinzelbeJ
obachtungen YjZ
mit l = 1, ... , L(j) ist, wobei alle Einzelbeobachtungen YjZ
unkorreliert
sind und gleiche Varianz haben:
L0) (5) Y. = Ir;) 2: Y·Z mit Var(Y
J·Z) = 0-
2 für alle j, l . J v Z =1 J
In diesem Fall entspricht der Gewichtsfaktor w. = L(j) der Anzahl der Einzel-BeJ
obachtungen in der j-ten Gruppe.
Man bezeichnet diesen Spezialfall des Aitken-Modells mit der Covarianzstruktur
(GGMC) Cov(Y) = 0-2 . Diag -1{w} (gewichtete Gauß-Markov-Covarianz)
auch als gewichtetes Gauß-Markov-Modell für die gewichteten Beobachtungsdaten
(Y.,x., w.) mit j = 1, ... ,1. Im Gegegnsatz zur allgemeinen Formulierung (AC) des J J J
Aitken-Modells ist das gewichtete Gauß-Markov-Modell (GGMC) ein direkter
Spezialfall des Covarianz-Modells (CMod) aus 1.3.
4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 3
4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Mode11
Das Aitken-Modell läßt sich vollständig auf das Gauß-Markov-Modell zurückfüh-
ren. Hierzu verwenden wir den Begriff der Wurzel einer Matrix. Ist v1l2 eine (belie-
bige) Wurzel von V, so gilt
(1) V = V 112 . V Tl2 1 T/2 v-1/2 7 V- = V - . 7
mit T/2 -1 v -T /2= [ V ]
Bezeichnet D die Inverse von V, so ergibt sich
Wir transformieren jetzt die Situation mit dem linearen Isomorphismus J D T/2 : IRJ + IR und erhalten
(3> Y* = D T/2 Y (transformierte Beobachtung),
(4) * * T12 p = E ( Y ) = D p (transformierter Erwartungswert),
(5) *
& = DT12 [ ~ k q (transformierter Modellraum),
(6) X* = D T 1 2 ~ (transformierte Covariablenmatrix),
* wobei die Spalten der transformierten Matrix X den transformierten (linearen)
Raum J&? erzeugen
Der Rang bzw. die Dimension sind invariant unter der Transformation
* Die transformierte Beobachtung Y erfüllt die Voraussetzungen des Gauß-Mar-
kov-Modell, d.h.
Und das lineare Modell (LM) gilt für (Y,A~') genau dann, wenn es für die Transfor-
mation (Y*,&? gilt, d.h.
4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 3
4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell
Das Aitken-Modell läßt sich vollständig auf das Gauß-Markov-Modell zurückfüh
ren. Hierzu verwenden wir den Begriff der Wurzel einer Matrix. Ist Y 1/2 eine (belie
bige) Wurzel von Y, so gilt
(1) Y = y 1/ 2 . y T/2 , y-1 = y-T/2. y-1/2
mit y-T/2 = [yT/2j-1
Bezeichnet D die Inverse von Y, so ergibt sich
(2) D :=y-1 = D 1/2 . D T/2
D1/2 = y-T/2
wobei
bzw.
,
Wir transformieren jetzt die Situation mit dem linearen Isomorphismus
D T/2 : IR] -----+ IR] und erhalten
(3) y* = D T/2 y (transformierte Beobachtung)!
(4) Jl* = E(Y*) = D T/2 Jl (transformierter Erwartungswer-t)!
(5) vft* = D T/2 [c.4] (transformierter Modellraum) !
(6) X* = D T/2X (transformierte Covariablenmatrix)!
wobei die Spalten der transformierten Matrix X* den transformierten (linearen)
Raum vi! erzeugen
Der Rang bzw. die Dimension sind invariant unter der Transformation
(8) S =Rang(X) = Dim(vft) = Dim(vft*) = Rang(X) .
Die transformierte Beobachtung y* erfüllt die Voraussetzungen des Gauß-Mar
kov-Modell, d.h.
(9) * 2 Cov(Y ) = a .11]"
Und das lineare Modell (LM) gilt für (Y,vft) genau dann, wenn es für die Transfor
mation (y*,vft) gilt, d.h.
4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 4
Aufgrund dieser Transformation kann das allgemeinere Aitken-Modell vollständig
auf das Gauß-Markov-Modell zurückgeführt werden, wobei. der Parameter 8 nach
(11) sogar invariant gegenüber dieser Transformation ist. Wir werden im folgenden
die Eigenschaften des Aitken-Modells aus den bereits bekannten Eigenschaften des
transformierten Gauß-Markov-Modells herleiten.
4.2.1 Gewichtetes Gauß-Markov-Modell
Hier ist D die Diagonalmatrix der Gewichtsfaktoren
und die Wurzeln sind ebenfalls (symmetrische) Diagonalmatrizen
(2) D1/2=DT/2- - Diag{+ ) mit
(3) v1l2 = V T/2 = D ~ ~ ~ - ' { \ T 1 .
J Die Transformation DTl2 :IRJ -+ IR bewirkt hier lediglich eine Streclczlng aller
Komponenten:
für E d.
4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 4
(10)
(11) Jl=X()
* ;I< Jl Evft ,
Jl* = X* ().
Aufgrund dieser Transformation kann das allgemeinere Aitken-Modell vollständig
auf das Gauß-Markov-Modell zurückgeführt werden, wobei. der Parameter () nach
(11) sogar invariant gegenüber dieser Transformation ist. Wir werden im folgenden
die Eigenschaften des Aitken-Modells aus den bereits bekannten Eigenschaften des
transformierten Gauß-Markov-Modells herleiten.
4.2.1 Gewichtetes Gauß-Markov-Modell
Hier ist D die Diagonalmatrix der Gewichtsfaktoren
(1) D = Diag{w} ,
und die Wurzeln sind ebenfalls (symmetrische) Diagonalmatrizen
(2) D 1/ 2 = D T/2 = Diag{y'W} mit y'W=(~). ] ]
(3) y1/2 = yT/2 = Diag- 1{y'W}.
Die Transformation D T/2 : IR] -----+ IR] bewirkt hier lediglich eine Streckung aller
Komponenten:
(4) T/2 _ (~ ) D y- yW;·y .. ] ] ]
f ·· IR] ur yE .
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 - 5
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung
Der sogenannte verallgemeinerte Minimale Quadrate-Schätzer (kurz: VMQ-Schätzer) fi von ,u im Aitken-Modell ( Y , d ist definiert als die Rück-Transformation der
* * * * MQ-Schätzungen fi von ,u für im Gauß-Markov-Modell (Y ,.,&E ):
(1) , := D- T/2 A* A * P bzw. D T/2 fi = p, mit
Wir wollen diese verallgemeinerte MQ-Schätzunge noch anders beschreiben und J definieren hierzu ein Skalarprodukt auf IR durch:
T (2) ( u , v ) ~ = u D v
= ( u , D v ) = ( D ~ u , v ) = ( D ~ ~ ~ ~ , D ~ ~ ~ ~ ) für U, V E IR J
mit der dazugehörigen Norm
Die D-orthogonale Projektion P; : IRJ + .,&E auf .,&E ist dann definiert als die or-
thogonale Projektion bzgl des Skalarproduktes (-,-)D. ES gilt die Darstellung
T T mit einer beliebigen verallgemeinerten Inversen ( X DX)- von X DX, die unter der
Rangbedingung (RB), d.h. Spalten von X sind eine Basis von .,&E, wieder die übli-
che Inverse (xTDx)-l ist.
Die durch (1) gegebene verallgemeinerte MQ-Schätzung fi ist die Minimalstelle der
quadratischen Form
bzgl. PE&, d.h. fl ist die D-orthogonale Projektion der Beobachtung Y auf den
Modellraum .,&E
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-5
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung
Der sogenannte verallgemeinerte Minimale Quadrate-Schätzer (kurz: VMQ-Schätzer) {1,
von Jl im Aitken-Modell (Y, Jt) ist definiert als die Rück-Transformation der
MQ-Schätzungen {1,* von Jl * für im Gauß-Markov-Modell (y*,...4*):
(1) " D- T'/2 ,,* Jl:= Jl
,,* P y* Jl =.At* .
bzw. D T,/2 " ,,* Jl=Jl mit
Wir wollen diese verallgemeinerte MQ-Schätzunge noch anders beschreiben und
definieren hierzu ein Skalarprodukt auf lR] durch:
(2) (u,v)D = uTDv
= (u, Dv) = (DTu, v) = (D T/2u , D T/2 v )
mit der dazugehörigen Norm
(3)
f ·· lR] ur u, vE
f ·· lR] ur uE .
Die D-orthogonale Projektion p! : lR] -----+ ...4 auf ...4 ist dann definiert als die or
thogonale Projektion bzgl. des Skalarproduktes ( -, - )D. Es gilt die Darstellung
(4)
mit einer beliebigen verallgemeinerten Inversen (XT DXr von X T DX, die unter der
Rangbedingung (RB), d.h. Spalten von X sind eine Basis von ...4, wieder die übli
che Inverse (XTDX)-l ist.
Die durch (1) gegebene verallgemeinerte MQ-Schätzung (1, ist die Minimalstelle der
quadratischen Form
(5) SQD(Jl ,Y) = 11 Y - JlII t = (Y - Jl) T D (Y - Jl )
bzgl. Jl E...4, d.h. {1, ist die D-orthogonale Projektion der Beobachtung Y auf den
Modellraum .At:
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 - 6
S 2 Die Parameter B E IR und a > 0 sind invariant gegenüber der Transformation
Als VMQ-Schätzungen d und 82 von B und a2 im Aitken-Modell (Y, A, X) verwen-
det man daher die MQ-Schätzungen d und 82 des Gauß-Markov-Modells
(Y*, J&?, X*), d.h. unter der Rangbedigung (RB) ist
(VMQ-Schätzung von B),
(7) *T * -1 *T d = ( x X ) X Y*
1 T = (x~Dx)- X D Y
(8) 8 2 - - 1 * * 2
-IlY -fi I 1 J-S
- - 1 2 - 1 1 Y-fi I I D J-S (VMQ-Schätzung von aZ))
- D e v ( A ) -E@q wobei
(9> D e v ( A ) = ~ ~ ~ - f i l l S >
das Minimum von SQD(- ,Y) auf A ist, und
wie bisher den Freiheitsgrad des Modellraums bezeichnet.
Die Eigenschaften der VMQ-Schätzer im Aitken-Modell (Y, A, X) lassen sich ent- * * *
weder durch Übergang auf das Gauß-Markov-Modell (Y , A , X ) aus den dorti-
gen Eigenschaften für den MQ-Schätzer herleiten oder direkt durch eine Verallge-
meinerung der jeweiligen Schlußweisen im Gauß-Markov-Modell auf das Aitken-
Modell zeigen. Zunächst bestimmen wir den Erwartungsvektor und die Covarianz-
matrix des Schätzungen, wobei wir (für spätere Anwendungen) erstmals die Gültig-
keit des Linearen Modells
nicht generell voraussetzen wollen. Dann ist:
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-6
(6) 4=4(Y)=P~Y.
Die Parameter () E IRS und 0-2 > 0 sind invariant gegenüber der Transformation
(Y,vIt,X) * ,.-* * (Y,Ja ,X ).
Als VMQ-Schätzungen () und 0-2 von () und 0-2 im Aitken-Modell (Y, vIt, X) verwen
det man daher die MQ-Schätzungen () und 0-2 des Gauß-Markov-Modells
(Y*, JIt, X*), d.h. unter der Rangbedigung (RB) ist
(7)
(8)
(9) Dev(vIt)
(X*TX*)-l X*T y *
(XTDX)-l X T Dy
-l-IIY* -4*11 2 J-s
J~s IIY-41It
FG(~) Dev( vIt)
IIY-41It
das Minimum von SQD( - ,V) auf vIt ist, und
(10) FG(vIt) = J - Dim(vIt)
(VMQ-Schätzung von ())!
(VMQ-Schätzung von 0-2)!
wobei
wie bisher den Freiheitsgrad des Modellraums bezeichnet.
Die Eigenschaften der VMQ-Schätzer im Aitken-Modell (Y, vIt, X) lassen sich ent-.. * * * weder durch Ubergang auf das Gauß-Markov-Modell (Y ,vIt ,X ) aus den dorti-
gen Eigenschaften für den MQ-Schätzer herleiten oder direkt durch eine Verallge
meinerung der jeweiligen Schlußweisen im Gauß-Markov-Modell auf das Aitken
Modell zeigen. Zunächst bestimmen wir den Erwartungsvektor und die Covarianz
matrix des Schätzungen, wobei wir (für spätere Anwendungen) erstmals die Gültig
keit des Linearen Modells
(LM) /lEvit
nicht generell voraussetzen wollen. Dann ist:
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 - 7
D (11) E( f i )=pAP auch falls (LM) nicht gilt,
= P falls (LM) gilt.
D (12) Cov(fi) = 02. P . D-l "4%' auch falls (LM) nicht gilt.
1 T (13) E(B) = ( X ~ D X ) - X D bzw X E(B) = ~ ( f i ) auch falls (LM) nicht gilt,
E(B) = e falls (LM) gilt.
(14) cov(B) = o2 . (XTDX) auch falls (LM) nicht gilt.
Insbesondere sind die VMQ-Schätzer also erwartungstreu, sofern das Modell (LM)
zutrifft. Wenn das Modell nicht gilt, so ist der Parameter 8 zunächst überhaupt
nicht definiert, weil dann ,U @ A. Man kann 8 aber immer definieren als zugehörigen D Parameter der Projektion PA p E A, dd..
Die Eindeutigkeit von 8 wird erst durch die Rangbedingung (RB) garantiert und
dann läßt sich 8 explizit darstellen als
1 T e = (x~Dx)- X D P falls (RB) gilt.
Der Schätzer B ist dann nach (13) stets erwartungstreu.
Mit dem D-orthogonalen Komplement M= A 'D von A ergibt sich das Residuum
D D (15) R = Y-fi = (f lJ-P ) Y = P Y "4%' M wobei
Der Erwartungsvektor und die Covarianzmatrix des Residuums sind:
(16) D
E(R) = PM P auch falls (LM) nicht gilt,
= 0 falls (LM) gilt,
(17) COV(R) = 0 2 . ~ D . ~ - 1 M auch falls (LM) nicht gilt.
Das Residuum R ist wieder unkorreliert zur Schätzung fi, d.h.
(18) Cov(R , fi) = 0 auch falls (LM) nicht gilt.
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-7
(11) E(ft,) = p! Jl auch falls (LM) nicht gilt,
=Jl falls (LM) gilt.
(12) Cov(ft,) = (}2. p!. D-1 auch falls (LM) nicht gilt.
(13) E(O) = (XTDX)-lXTD Jl bzw. X E(O) = E(ft,) auch falls (LM) nicht gilt,
E(O) = () falls (LM) gilt.
(14) Cov(O) = (}2 . (XTDX)-l auch falls (LM) nicht gilt.
Insbesondere sind die VMQ-Schätzer also erwartungstreu, sofern das Modell (LM) zutrifft. Wenn das Modell nicht gilt, so ist der Parameter () zunächst überhaupt
nicht definiert, weil dann Jl \t.At. Man kann () aber immer definieren als zugehörigen
Parameter der Projektion p! Jl E v«, d.h.
D Pc4 Jl = x().
Die Eindeutigkeit von () wird erst durch die Rangbedingung (RB) garantiert und
dann läßt sich () explizit darstellen als
falls (RB) gilt.
Der Schätzer 0 ist dann nach (13) stets erwartungstreu.
Mit dem D-orthogonalen Komplement J'V = .At ~ D von .At ergibt sich das Residuum
I (15) wobei
Der Erwartungsvektor und die Covarianzmatrix des Residuums sind:
(16) E(R)
(17) Cov(R)
auch falls (LM) nicht gilt,
falls (LM) gilt,
auch falls (LM) nicht gilt.
Das Residuum R ist wieder unkorreliert zur Schätzung ft" d.h.
(18) Cov(R ,ft,) = 0 auch falls (LM) nicht gilt.
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 -8
Zur Bestimmung des Erwartungswertes von 82 zeigen wir zunächst
(19) 2 E{Dev(A)} = E{IIY-PII;} = 0 . F G ( A ) + I I ~ J P I I ; ~
und erhalten damit
2 2 1 D 2 (20) E { 8 } = + p I I P N ~ I I D
F G ( 4 auch falls (LM) nicht gilt,
= 0 2 falls (LM) gilt.
Folglich ist die Schätzung 82 genau dann erwartungstreu für 02, wenn das Modell 2 korrekt ist, und andernfalls wird 0 durch 82 überschätzt, d.h.
4.3.1 Gewichtetes Gauß-Markov-Modell
In diesem Fall ergeben sich das Skalarprodukt (-,-)D und die Norm 1 1 - l l D wie
folgt
(1) (u,v), := C W . U . V . , 2 2
j 3 3 3 ~ ~ u ~ ~ D :=
Die für den VMQ-Schätzer zu minimierende quadratische Form
ist hier eine gewichtete Quadratsumme mit dem Minimum
Die Schätzungen werden in diesem Zusammenhang auch als gewichtete minimale
Quadrate-Schätzer bezeichnet.
4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-8
Zur Bestimmung des Erwartungswertes von 52 zeigen wir zunächst
und erhalten damit
(20) E{ 52} = 0-2 + FatA) 11 P~ JlII~ auch falls (LM) nicht gilt,
falls (LM) gilt. 2 = 0-
Folglich ist die Schätzung 52 genau dann erwartungstreu für 0-2, wenn das Modell
korrekt ist, und andernfalls wird 0-2 durch 52 überschätzt, d.h.
(21)
4.3.1 Gewichtetes Gauß-Markov-Modell
In diesem Fall ergeben sich das Skalarprodukt (- '-)D und die Norm 11-11 D wie
folgt
I (1)
Die für den VMq-Schätzer zu minimierende quadratische Form
I (2)
ist hier eine gewichtete quadratsumme mit dem Minimum
I (3)
Die Schätzungen werden in diesem Zusammenhang auch als gewichtete minimale
Quadrate-Schätzer bezeichnet.
4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4 - 9
4.4 Das Aitken-Modell mit normalverteilten Beobachtungen
Wie beim klassischen linearen Modell betrachten wir jetzt den wichtigen Fall, daß
der Beobachtungsvektor Y multivariat normalverteilt ist, d.h. wir setzen voraus
(NVY) Y ist J-dimensional normalverteilt:
-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y).
Hieraus ergibt sich der stochastische Teil des Aitken-Modells zu
(SAM) 2(Y) = NJ(,u, o2 V) (stochastischer Teil des Aitken-Modells).
Die Präzisierung der Verteilungsklasse für die Beobachtung Y hat (wie im klassi-
schen linearen Modell) zur Folge, daß man die Verteilungen der Schätzer explizit
herleiten kann, wobei wir die Gültigkeit des Linearen Modells (LM) nicht generell
voraussetzen sondern nur die entsprechenden Vereinfachungen angeben, wenn das
Modell zutrifft. Der Parameter 8 ist hierbei (auch wenn das Modell .L& nicht gilt)
wie folgt definiert
(0) P ~ ~ = X B bzw. e = ( xT~x) - 1 X T D P
wobei die Rangbedingung (RB) vorausgesetzt ist.
Die Schätzer fi und 8 sind jetzt multivariat normalverteilt:
(1) q f i ) = ~ ~ ( ~ $ , u , o ~ ~ $ ~ - l ) auch falls (LM) nicht gilt,
2 D = NJ(,u, o PA D-l) falls (LM) gilt,
(2) 4 8 ) = NS( B , o2 (XTDX)-' ) auch falls (LM) nicht gilt,
Mit dem D-orthogonalen Komplement M= .L& 'D von .L& ergibt sich die Verteilung
des Residuums R = Y - fi zu
4.4 Das Aitken-Modell für normalverteilte Beobachtungen
4.4 Das Aitken-Modell mit normalverteilten Beobachtungen
11.8.05 4-9
Wie beim klassischen linearen Modell betrachten wir jetzt den wichtigen Fall, daß
der Beobachtungsvektor Y multivariat normalverteilt ist, d.h. wir setzen voraus
(NVY) Y ist i-dimensional normalverteilt:
L(Y) = NiE(Y), Cov(Y)) (Normalverteilung von }j.
Hieraus ergibt sich der stochastische Teil des Aitken-Modells zu
(SAM) L(Y) = NiJl, a 2 V) (stochastischer Teil des Aitken-Modells).
Die Präzisierung der Verteilungsklasse für die Beobachtung Y hat (wie im klassi
schen linearen Modell) zur Folge, daß man die Verteilungen der Schätzer explizit
herleiten kann, wobei wir die Gültigkeit des Linearen Modells (LM) nicht generell
voraussetzen sondern nur die entsprechenden Vereinfachungen angeben, wenn das
Modell zutrifft. Der Parameter () ist hierbei (auch wenn das Modell .At nicht gilt)
wie folgt definiert
(0) D Pc4 Jl X() bzw.
wobei die Rangbedingung (RB) vorausgesetzt ist.
()
Die Schätzer (i, und () sind jetzt multivariat normalverteilt:
(1)
(2)
L((i,) = Ni P~Jl, a 2 P~ D-1)
= Ni Jl , a 2 P ~ D -1 )
auch falls (LM) nicht gilt,
falls (LM) gilt,
auch falls (LM) nicht gilt,
Mit dem D-orthogonalen Komplement J'V =.At ~D von .At ergibt sich die Verteilung
des Residuums R = Y - (i, zu
4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4 - 10
D (3) L ( R ) = N ~ ( P ~ , ~ , ~ ~ P ; D - ' ) auch falls (LM) nicht gilt,
2 D = N J ( O , a PNDP1) falls (LM) gilt.
Und für die Schätzung des Skalenparameters erhält man
2 2 (4) L( e2 . F G ( A ) ) = L( D e v ( 4 ) = 0 . xFG(6) mit
(5) FG = FG(A) = Dim (AL) = J - Dim (A) und
1 D 2 1 D 2 (6) 6 = 6 ( ~ ) ) = , 2 1 1 ( n - P A ) ~ l l D = , I I I P N ~ I I D '
Aus der äquivalenten Formulierung des Linearen Modells
(LM) ' S(,u) = 0
ergibt sich speziell
2 2 (7) L( 82 . F G ( A ) ) = L( D e v ( 4 ) = a . xFG falls (LM) gilt.
Wie im Klassischen Linearen Modell (Abschnitt 2.4) erhält man auch hier die Unab-
hängigkeit der Schätzungen und 82
(8) ist von R (und somit auch von 82 ) stochastisch unabhängig.
Da (NVY) die Verteilung der Beobachtung Y bis auf die unbekannten Parameter 2 ,u und a vollständig spezifiziert, kann (und sollte) man die Parameter wie im klas-
sischen linearen Modell nach der Maximum-Likelihood-Methode schätzen. Die Maxi- 2 mum-Likelihood-Schätzung (kurz: ML-Schätzung) f i , 62 von /I, a ist definiert als Ma-
ximalstelle des Likelihoods
(9) a2 lY) = [ ( 2 7 r ~ ~ ) ~ . Det(V) . exp jap2 1 1 Y-,u 1 1 S > } I - ~ ' ~ .
bzw. des Kerns des Log-Likelihoods
(10) 2 2 2 [(Ha I Y ) = - L [ ~ . l o g a 2 +o-211~-,ullD]
bzgl. ,u EA und a2> 0.
2 Die Maximierung von [ bzgl. p entspricht genau der Minimierung von I IY- ,ull,,, und
4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4-10
(3) L(R) = Ni P J Jl , a 2 P J D-1 )
= Ni 0 , a 2 P J D -1 )
auch falls (LM) nicht gilt,
Und für die Schätzung des Skalenparameters erhält man
(4)
(5)
L( 52 . FG(.At) ) = L( Dev(.At) ) = a2
. X~G( 8)
FG = FG(.At) = Dim(.At~) = J - Dim(.At)
Aus der äquivalenten Formulierung des Linearen Modells
I (LM)' 8(p.) = 0
ergibt sich speziell
(7) L( 52 . FG(.At) ) = L( Dev(.At) ) = a 2 . X~G
falls (LM) gilt.
mit
und
falls (LM) gilt.
Wie im Klassischen Linearen Modell (Abschnitt 2.4) erhält man auch hier die Unab
hängigkeit der Schätzungen {l und 52
(8) {l ist von R (und somit auch von 52) stochastisch unabhängig.
Da (NVY) die Verteilung der Beobachtung Y bis auf die unbekannten Parameter
Jl und a 2 vollständig spezifiziert, kann (und sollte) man die Parameter wie im klas
sischen linearen Modell nach der Maximum-Likelihood-Methode schätzen. Die Maxi
mum-Likelihood-Schätzung (kurz: ML-Schätzung) jJ, , 0-2 von Jl, a 2 ist definiert als Ma
ximalstelle des Likelihoods
bzw. des Kerns des Log-Likelihoods
(10) e(Jl, a21Y) = - ~ [J . log a 2 + a-2 11Y -JlII ~ ]
bzgl. JlE.At und a 2>0.
Die Maximierung von e bzgl. Jl entspricht genau der Minimierung von IIY - JlII t, und
4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4 - 11
folglich stimmt die ML-Schätzung ,G des Erwartungswert ,U mit der VMQ-Schätzung
überein:
(11) D P = f i = P Y .
"4%'
2 Aber die ML-Schätzung 62 für die Varianz a (die man durch Differenzieren von
nach a2 erhält) unterscheidet sich von der VMQ-Schätzung um einen Faktor < 1
(12) 1 2 - J-S -2 62 = J IIY-,GllD - -. J a < a2
2 Die ML-Schätzung 62 ist also nicht erwartungstreu für a , und man kann die
VMQ-Schätzung a2 als erzuartungstreue Korrektur der ML-Schätzung auffassen.
4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4-11
folglich stimmt die ML-Schätzung jJ, des Erwartungswert Jl mit der VMQ-Schätzung
überein:
(11) - A pD Y Jl=Jl=.At .
Aber die ML-Schätzung 0-2 für die Varianz 0-2 (die man durch Differenzieren von e
nach 0-2 erhält) unterscheidet sich von der VMQ-Schätzung um einen Faktor< 1
(12) ~2 _ lilY -11 2 _ J-S A2 < A2 0- - J -Jl D - J. 0- 0-
Die ML-Schätzung 0-2 ist also nicht erwartungstreu für 0-2
, und man kann die
VMQ-Schätzung 0-2 als erwartungstreue Korrektur der ML-Schätzung auffassen.
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 12
4.5 Tests für Linearkombinationen des Erwartungswerts bei normalverteilten Beobachtungen
Wir wollen jetzt die Betrachtungen über das Testen und Schätzen von Linearkom-
binationen des Parameters vom Klassischen Linearen Modell auf das Aitken-Mo-
dell mit normalverteilten Beobachtungen übertragen, wobei wir von der Normal-
verteilungsannahme (NVY) generell ausgehen. Da wir aber nicht notwendig die
Gültigkeit des Modells (LM) voraussetzen wollen, erweist es sich als zweckmäß,
zunächst Linearkombinationen des Erwartungsvektors zu betrachten.
4.5.1 Formulierung der Hypothesen
Ausgangspunkt ist das Testproblem aus dem klassischen linearen Modell für eine T S (im folgenden feste) Linearkombination C 8 des Parameters mit C E IR , C t 0 und der
Nullhypothese
für einen vorgegebenen „ReferenzwertU C ER, und einer ein- bzw. zweiseitigen Al- 0
ternative:
(2) T H>: C 8 > co (einseitig) bzw. T H : C 8 t co (zweiseitig).
#
Allerdings wollen wir hier die Hypothesen so umformulieren, daß sie statt der Line- T arkombination C 8 des Parametervektors 8 eine Linearkombination
des Erwartungsvektors ,U enthalten. Unter der Rangbedingung (RB) ist
8 = X-P mit 1 T X - = ( X T D X ) - X D ,
und somit ist jede Linearkombination des Parameters 8 auch eine Linearkombina-
tion des Erwartungsvektors ,U
(3) T T 8 = d D P mit T T - -1 d = C X D
bzw. d = X (xT~x)- l C E A.
Wir betrachten jetzt eine Nullhypothese der Form
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-12
4.5 Tests für Linearkombinationen des Erwartungswerts bei normalverteilten Beobachtungen
Wir wollen jetzt die Betrachtungen über das Testen und Schätzen von Linearkom
binationen des Parameters vom Klassischen Linearen Modell auf das Aitken-Mo
dell mit normalverteilten Beobachtungen übertragen, wobei wir von der Normal
verteilungsannahme (NVY) generell ausgehen. Da wir aber nicht notwendig die
Gültigkeit des Modells (LM) voraussetzen wollen, erweist es sich als zweckmäß,
zunächst Linearkombinationen des Erwartungsvektors zu betrachten.
4.5.1 Formulierung der Hypothesen
Ausgangspunkt ist das Testproblem aus dem klassischen linearen Modell für eine
(im folgenden feste) Linearkombination cT () des Parameters mit cE IRS, c:;= 0 und der
Nullhypothese
(1)
für einen vorgegebenen "Referenzwert" COE IR, und einer ein- bzw. zweiseitigen Al
ternative:
(2) bzw.
Allerdings wollen wir hier die Hypothesen so umformulieren, daß sie statt der Line
arkombination cT () des Parametervektors () eine Linearkombination
des Erwartungsvektors Jl enthalten. Unter der Rangbedingung (RB) ist
mit
und somit ist jede Linearkombination des Parameters () auch eine Linearkombina
tion des Erwartungsvektors Jl
(3) T T c(}=dDJl mit
bzw.
Wir betrachten jetzt eine Nullhypothese der Form
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 13
J mit festem d E IR , d t 0 und einem vorgegeben Referenzwert d E IR. Man beachte, 0
daß wir die Gültigkeit des Modells (LM), d. h. P E A, explizit mit in die Nullhypo-
these aufgenommen haben. Dies erlaubt die äquivalenten Formulierung
D die nur noch über P,d von d abhängt. Wir können und wollen daher ohne Be- D schränkung der Allgemeinheit fordern, daß d = P, d bzw.
gilt. Die ein- bzw. zweiseitige Alternative lautet
T (6) H>: d D p > do (einseitig) bzw. T H : d D p t do (zweiseitig). f
Wegen (3) enthält die Nullhypothese (4) auch die bisherige Nullhypothese (I), sofern
(LM) und (RB) gelten, wobei dann auch d E A und d t 0 erfüllt sind. Der Vorteil
der Umformulierungen (4) und (6) gegenüber (1) und (2) besteht darin, daß sie den
Parameter 8 nicht enthalten und somit auch dann sinnvoll sind, wenn die Rangbe-
dingung (RB) nicht gilt oder wenn (unter der Alternativen) das Modell (LM) nicht
zutrifft. Bei den folgenden Ausführungen gehen wir von den Formulierungen (4) und
(6) aus, und setzen weder die Rangbedingung (RB) noch die Gültigkeit des Modells
(LM) voraus.
4.5.2 Der ein- und zweiseitige t-Test
Zunächst schätzt man die Linearkombination ( d, , L L ) ~ in naheliegender Weise
durch ( d, fi)D. Diese Schätzung ist erwartungstreu und normalverteilt
(I) 4(d,fi)D)=N((d,~)D,od) mit
2 2 (2) od = 0 2 . d T ~ d = o .~ldllS> > 0 .
Als Teststatistik für die Hypothesen (3) und (4) verwenden wir nun die standardi-
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-13
(4)
mit festem cl E IRJ, cl :;= 0 und einem vorgegeben Referenzwert da E IR. Man beachte,
daß wir die Gültigkeit des Modells (LM), d. h. Jl E vft, explizit mit in die Nullhypo
these aufgenommen haben. Dies erlaubt die äquivalenten Formulierung
(4)'
die nur noch über p! cl von cl abhängt. Wir können und wollen daher ohne Be
schränkung der Allgemeinheit fordern, daß cl = p! cl bzw.
(5) cl E vft
gilt. Die ein- bzw. zweiseitige Alternative lautet
(6) bzw.
Wegen (3) enthält die Nullhypothese (4) auch die bisherige Nullhypothese (1), sofern
(LM) und (RB) gelten, wobei dann auch cl E vft und cl :;= 0 erfüllt sind. Der Vorteil
der Umformulierungen (4) und (6) gegenüber (1) und (2) besteht darin, daß sie den
Parameter () nicht enthalten und somit auch dann sinnvoll sind, wenn die Rangbe
dingung (RB) nicht gilt oder wenn (unter der Alternativen) das Modell (LM) nicht
zutrifft. Bei den folgenden Ausführungen gehen wir von den Formulierungen (4) und
(6) aus, und setzen weder die Rangbedingung (RB) noch die Gültigkeit des Modells
(LM) voraus.
4.5.2 Der ein- und zweiseitige t-Test
Zunächst schätzt man die Linearkombination (cl, Jl)D in naheliegender Weise
durch ( cl, 4 )D. Diese Schätzung ist erwartungstreu und normalverteilt
(1) mit
Als Teststatistik für die Hypothesen (3) und (4) verwenden wir nun die standardi-
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 14
sierte Abweichung der Schätzung ( d, vom Referenzwert do
(3) T = ( d , P ) ~ - d o wobei ad
(4) 8d= 8 2 . ~ ~ ~ I I S >
die zugehörige Schätzung von o2 ist. Die Teststatistik besitzt - auch wenn das line- d
are Modell (LM) nicht zutrifft - eine doppelt-nichtzentrale t-Verteilung
(5) 4s) = tFG(y, 6) mit
(6) FG = FG(A) = ~ i m (AL) = J - Dim (A),
1 (7) y = y ( P ) l ) = < [ ( d , ~ ) ~ - d ~ ] , und
1 D 2 (8) 6 = 6 ( ~ ) = ~ I l ( ~ - ~ ~ ) ~ l l ~ vgl. 4.4 (6).
- 1 D 2 mit LD - 2 ~ ~ p N ~ ~ ~ D Jf'-=.,tZ .
Die erste Nichtzentralität y ist ein Maß für die Abweichung der Linearkombination
( d, vom Referenz do unter der Nullhypothese, und die zweite Nichtzentralität S
ist ein Maß für die Abweichung des Erwartungsvektors ,U vom Modellraum A. Un-
ter Verwendung der Nichtzentralitäten lassen sich die Hypothesen äquivalent for-
mulieren als
(9) H : y = O , S = O 0
(10) H>: y > 0 (einseitig) bzw. H : y s 0 (zweiseitig). f
Unter der Nullhypothese Ho ist die Teststatistik T daher @entral) tFG-verteilt. Da
groj3e Werte von T bzw. I T I eher für die ein- bzw. zweiseitige Alternative als für die
Nullhypothese sprechen, ergibt sich wie im klassischen linearen Modell folgender
t-Test
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-14
sierte Abweichung der Schätzung ( cl, (i,)D vom Referenzwert do
(3) T wobei
die zugehörige Schätzung von a~ ist. Die Teststatistik besitzt - auch wenn das line
are Modell (LM) nicht zutrifft - eine doppelt-nichtzentrale t-Verteilung
(5)
(6)
(7)
(8)
L(T) = tFG( ,,(,8)
FG = FG(vft) = Dim(vft~) = J - Dirn (vft),
"( = "((Jl) = ; [( cl,Jl)D-dO] ' cl
8 8(Jl) = :211 (II- P~) JlII~
= :2 11 p J JlII ~ mit
mit
und
vgl. 4.4 (6).
JV=vft~D.
Die erste Nichtzentralität "( ist ein Maß für die Abweichung der Linearkombination
( cl, Jl)D vom Referenz do unter der Nullhypothese, und die zweite Nichtzentralität 8
ist ein Maß für die Abweichung des Erwartungsvektors Jl vom Modellraum .At. Un
ter Verwendung der Nichtzentralitäten lassen sich die Hypothesen äquivalent for
mulieren als
(10) H>: "( > 0 (einseitig) bzw. H : "( ;= 0 (zweiseitig). ~
Unter der Nullhypothese HO ist die Teststatistik T daher (zentraV tFG-verteilt. Da
große Werte von T bzw. 1 TI eher für die ein- bzw. zweiseitige Alternative als für die
Nullhypothese sprechen, ergibt sich wie im klassischen linearen Modell folgender
t-Test
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 15
(11) Einseitiger t-Test von Ho vs. H> zum Niveau u:
Entscheidung für H> U T ' t ~ ~ , a '
U G (-T) < u . t~~
(12) Zweiseitiger t-Test von Ho vs. Hz zum Niveau u:
Entscheidung für Hz U I T l 2 t ~ ~ l a / a
U 2Gt I T I ) < U. FG
Unter Verwendung des Zusammenhangs F = t2 (vgl. Exkurs V 3.1) läßt sich der 1,n n
zweiseitige t-Tests (wie in 2.5.1) äquivalent als F-Test formulieren
(12)' Zweiseitiger F-Test von Ho vs. Hz zum Niveau a:
Entscheidung für Hz U 2 T ' Fl, FG, a '
4.5.3 Die Schärfe des einseitigen t-Tests
Wir wollen jetzt die Schärfe des t-Tests untersuchen , wobei wir in Verallgemeine-
rung der Betrachtungen im klassischen linearen Modell auch den Fall zulassen,
daß das Modell (LM) nicht gilt. Die Schärfe des einseitigen t-Test ist
(1) POwl (7, 6, a) = P { tFG(y, 6 ) tFGla } (Schärfe: einseitig)
- (t ) - @tFG(-y, 6) FG, a
mit G als Verteilungsfunktion der doppelt-nichtzentralen tn(y, 6)-Verteilung. ~FG(Y 7 6)
Die Schärfe hängt vom Testniveau u und beiden Nichtzentralitäten wie folgt ab
(2) Powl (y,6, u) ist streng monoton wachsend sowohl in u als in y.
1 (3) Für a < ist Powl (y, 6, u) streng monoton fallend in 6 und wird
bei festem u und y maximal für 6 = 0, d.h. wenn das Modell (LM) gilt.
Und als Grenzwerte für y + f co bzw. 6 + co ergeben sich
4.5 Test für Linearkombinationen des Erwartungswerts
(11) Einseitiger t-Test von Ho vs. H> zum Niveau a:
Entscheidung für H>
P (-T) < a· tFG
(12) Zweiseitiger t-Test von Ho vs. H:;zt. zum Niveau a:
Entscheidung für H :;zt. I TI > tpG,ex/2'
11.8.05
2 Pt ( -I TI) < a. FG
4-15
Unter Verwendung des Zusammenhangs Fl
= t2 (vgl. Exkurs V 3.1) läßt sich der ,n n
zweiseitige t-Tests (wie in 2.5.1) äquivalent als F-Test formulieren
(12)' Zweiseitiger F-Test von Ho vs. H:;zt. zum Niveau a:
Entscheidung für H :;zt.
4.5.3 Die Schärfe des einseitigen t-Tests
Wir wollen jetzt die Schärfe des t-Tests untersuchen, wobei wir in Verallgemeine
rung der Betrachtungen im klassischen linearen Modell auch den Fall zulassen,
daß das Modell (LM) nicht gilt. Die Schärfe des einseitigen t-Test ist
(1) Pow 1 ("f, 8, a) (Schärfe: einseitig)
1 - P (t ) tFG(-y ,8) PG, ex
mit Pt ( 8) als Verteilungsfunktion der doppelt-nichtzentralen t ("f, 8)-Verteilung. FG'"Y, n
Die Schärfe hängt vom Testniveau a und beiden Nichtzentralitäten wie folgt ab
(2) Powl
("{,8, a) ist streng monoton wachsend sowohl in a als in "(.
(3) Für a < ~ ist Powl
("{,8, a) streng monoton fallend in 8 und wird
bei festem a und "f maximal für 8 = 0, d.h. wenn das Modell (LM) gilt.
Und als Grenzwerte für "f ---+ ± 00 bzw. 8 ---+ 00 ergeben sich
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 16
(4) Pow(-00,6,a)=O, 1 Pow (00,6, a) = 1. 1
P0w1 (y, 00, a) = 0 .
Insbesondere fällt also die Schärfe bei festem y sogar gegen 0, wenn 6 beliebig an-
wächst, d. h. wenn das Modell & beliebig inadäquat wird.
Wenn zwar y = 0 ist, d. h. ( d, ,U),, = do gilt, aber das Modell (LM) nicht zutrifft, d. h.
6 > 0, so ist das die Schärfe des einseitigen t-Tests sogar kleiner als das Testniveau
a, d.h. der Test ist konservativ:
(5) Für a < und 6 > 0 gilt: a t(6) : = Pow1 (0,6, a) < a . ef
Weil das effektive Testniveau ae&6) in (5) kleiner als nominelle Niveau a ist, folgt
mit (2), daß auch die effektive Schärfe geringer ist als die nominelle Schärfe:
(6) Für a < und 6 > 0 gilt: Powl (y,s, ae&6)) < Powl (y ,4 a) .
Das einseitige Testproblem wird oft auch mit der (14) umfassenden einseitigen Null-
hypothese Ho: y < 0 , 6 = 0 formuliert, die allerdings zum gleichen Test (16) führt
wie die bisherige Nullhypothese Ho: y = 0 , 6 = 0, weil das Fehlerrisiko 1. Art (d.h.
die Schärfe) unter y < 0 nach (19) für den Wert y = 0 maximal wird.
4.5.4 Die Schärfe des zweiseitigen t-Tests
Die Schärfe des zweiseitigen t-Tests hängt nur über den Absolutbetrag ly 1 von der
Nichtzentralität y ab und läßt sich wie folgt darstellen
Nach 4.5.3 (3) ist auch Pow2(y,6, a) streng fallend in 6 und wird bei festem a und
y maximal, wenn 6 = 0 ist, d.h. wenn (LM) gilt. Folglich ist auch der zweiseitige t-
Test konservativ, wenn zwar y = 0 gilt, aber das Modell (LM) falsch ist:
(2) Für 6 > 0 gilt: Pow2 (0,6, a) < a .
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05
(4) Pow1 (-00,8,a) = 0,
Pow1
b,oo, a) = o.
Pow1
(00,8, a) = 1.
4-16
Insbesondere fällt also die Schärfe bei festem, sogar gegen 0, wenn 8 beliebig an
wächst, d. h. wenn das Modell .At beliebig inadäquat wird.
Wenn zwar, = 0 ist, d. h. ( cl, Jl)D = da gilt, aber das Modell (LM) nicht zutrifft, d. h.
8> 0, so ist das die Schärfe des einseitigen t-Tests sogar kleiner als das Testniveau
a, d.h. der Test ist konservativ:
(5) Für a< ~ und 8> 0 gilt:
Weil das effektive Testniveau aeJlß) in (5) kleiner als nominelle Niveau a ist, folgt
mit (2), daß auch die effektive Schärfe geringer ist als die nominelle Schärfe:
(6) Für a< ~ und 8> 0 gilt:
Das einseitige Testproblem wird oft auch mit der (14) umfassenden einseitigen Null
hypothese HO: ,< 0 ,8= 0 formuliert, die allerdings zum gleichen Test (16) führt
wie die bisherige Nullhypothese HO: , = 0 ,8= 0, weil das Fehlerrisiko 1. Art (d.h.
die Schärfe) unter, < 0 nach (19) für den Wert, = 0 maximal wird.
4.5.4 Die Schärfe des zweiseitigen t-Tests
Die Schärfe des zweiseitigen t-Tests hängt nur über den Absolutbetrag I, I von der
Nichtzentralität , ab und läßt sich wie folgt darstellen
Nach 4.5.3 (3) ist auch Pow2b,8, a) streng fallend in 8 und wird bei festem a und
, maximal, wenn 8 = 0 ist, d.h. wenn (LM) gilt. Folglich ist auch der zweiseitige t
Test konservativ, wenn zwar, = 0 gilt, aber das Modell (LM) falsch ist:
(2) Für 8> 0 gilt:
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 17
Nach 4.5.3 (3) ist der erste Summand in (1) streng wachsend in 1 y 1 und größer als
der zweite Summand, der streng fallend in 1 y 1 ist und nach 4.5.3 (4) sogar für
171 + co gegen 0 konvergiert. Folglich läßt sich die Summe für nicht zu kleines I y 1 durch den ersten Summanden approximieren
(3) P o 5 ( ~ ~ 4 a) powl ( 17 I , 6 , falls ly I „nicht zu klein".
wobei die Approximation für wachsendes 1 y 1 immer besser wird. In diesem Sinn
entspricht die Schärfe des zweiseitigen Test „ungefähru der des einseitigen Tests
zum halben Niveau.
Interpretiert man den zweiseitigen Test als F-Test, so ergibt sich für die Schärfe
mit der Verteilungsfunktion @ F1l FG(r27 ,S> von FG(y 6)
(4) Pow2(y,6,a) =P{Fl lFG(y2,6)>F1FGla 1 }
= 1 - @ (F Fl1 FG(r 27 ,W 17FG7a 1
2 ist streng wachsend in a und ly 1 bzw. y und streng fallend in 6.
4.5.5 K o n f i d e n z g r e n z e n für Linearkombinationen
Wir wollen jetzt auch Konfidenzgrenzen für die Linearkombination ( d, angeben,
an denen man insbesondere dann interessiert ist, wenn der t-Test die Nullhypo-
these abgelehnt hat. Die einseitige untere bzw. obere Konfidenzgrenze zur Sicherheit
1- ci! ist für ci! <I definiert durch 2
(1) (d,f i ) , -Aa (untereGrenze) bzw.
(d , f i )D+ A a (obere Grenze) mit A = 8 .t a d FG,a'
Die Sicherheit dieser Grenzen ist mindestens 1- ci! (auch wenn das Modell (LM)
nicht gilt), d. h. die Grenzen sind konservativ
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-17
Nach 4.5.3 (3) ist der erste Summand in (1) streng wachsend in h 1 und größer als
der zweite Summand, der streng fallend in 1"( 1 ist und nach 4.5.3 (4) sogar für
1 "( 1---+ 00 gegen 0 konvergiert. Folglich läßt sich die Summe für nicht zu kleines 1 "( 1
durch den ersten Summanden approximieren
(3) falls 1"( 1 "nicht zu klein".
wobei die Approximation für wachsendes 1"( I immer besser wird. In diesem Sinn
entspricht die Schärfe des zweiseitigen Test "ungefähr" der des einseitigen Tests
zum halben Niveau.
Interpretiert man den zweiseitigen Test als F-Test, so ergibt sich für die Schärfe
mit der Verteilungsfunktion P F (2 8) von Fl FG( "( 2,8) I,FG"( , ,
(4) P { Fl,FG( "( 2,8) > Fl,FG, a }
1 - P 2 (F ) FI FGb ,6) l,FG, a ,
ist streng wachsend in a und 1"( 1 bzw. "(2 und streng Jallend in 8.
4.5.5 Konfidenzgrenzen für Linearkombinationen
Wir wollen jetzt auch KonJidenzgrenzen für die Linearkombination ( cl, Jl)D angeben,
an denen man insbesondere dann interessiert ist, wenn der t-Test die Nullhypo
these abgelehnt hat. Die einseitige untere bzw. obere Konfidenzgrenze zur Sicherheit
1- a ist für a < ~ definiert durch
(1) ( cl, (i,)D - L1 a (untere Grenze)
( cl, (i,)D + L1a (obere Grenze)
bzw.
mit
Die Sicherheit dieser Grenzen ist mindestens 1- a (auch wenn das Modell (LM) nicht gilt), d. h. die Grenzen sind konservativ
(2)
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 18
Die Sicherheit ist genau dann exakt gleich 1- a, wenn das Modell (LM) gilt, weil
Das zweiseitige (symmetrische) Konfidenzintervall zur Sicherheit 1- a ist dann ge-
geben durch
Die Sicherheit dieses Intervalls ist wieder nur dann exakt 1- a, wenn das Modell
(LM) gilt, andernfalls ist sie größer als 1- a, und das Intervall ist dann konservativ.
Oder anders formuliert, wenn (LM) nicht zutrifft, so wäre das Intervall mit der
exakten Sicherheit 1- a kürzer als das Intervall in (4).
4.5.6 Linearkombinationen des Parameters
Abschließend wollen wir noch kurz auf die in der Praxis bevorzugten Linearkombi- T nationen C 19 des Parameters eingehen, wobei wir natürlich die Rangbedingung
(RB) voraussetzen. Tests und Konfidenzgrenzen für die Linearkombination
(1) T
C e = ( d 7 ~ ) D mit d =x(xT~x)-l C E A.
ergeben sich sofort aus den obigen Resultaten für das spezielle d. Die Varianz der
Schätzung cTd = ( d läßt sich dann auch darstellen als
Im Spezialfall D = f l J entspricht dies der Darstellung von o2 in 2.5.2 (3) für das C
Klassische Lineare Modell.
4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-18
Die Sicherheit ist genau dann exakt gleich 1- a, wenn das Modell (LM) gilt, weil
(3) 6=0
Das zweiseitige (symmetrische) Konfidenzintervall zur Sicherheit 1- a ist dann ge
geben durch
(4) ( cl, 4)D ± iJ. ex/2 (zweiseitiges KonJidenzintervalp.
Die Sicherheit dieses Intervalls ist wieder nur dann exakt 1- a, wenn das Modell
(LM) gilt, andernfalls ist sie größer als 1- a, und das Intervall ist dann konservativ.
Oder anders formuliert, wenn (LM) nicht zutrifft, so wäre das Intervall mit der
exakten Sicherheit 1- a kürzer als das Intervall in (4).
4.5.6 Linearkombinationen des Parameters
Abschließend wollen wir noch kurz auf die in der Praxis bevorzugten Linearkombi
nationen cT e des Parameters eingehen, wobei wir natürlich die Rangbedingung
(RB) voraussetzen. Tests und Konfidenzgrenzen für die Linearkombination
(1) mit
ergeben sich sofort aus den obigen Resultaten für das spezielle cl. Die Varianz der
Schätzung cT () = ( cl, 4)D läßt sich dann auch darstellen als
( ) 2 2 T( T )-1 T (A) 2 a cl = a . c X DX c = c . Cov e . c.
Im Spezialfall D = 11 J entspricht dies der Darstellung von a~ in 2.5.2 (3) für das
Klassische Lineare Modell.
4.6 Testen von linearen Hypothesen 11.8.05 4 - 19
4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen
Wir wollen jetzt auch den F-Test aus 2.6 zum Testen linearer Hypothesen bei nor-
malverteilten Beobachtungen vom Gauss-Markov-Modell auf das allgemeinere Ait-
ken-Modell übertragen und dabei geringfügig verallgemeinern. Insbesondere wollen
wir die Gültigkeit des Modells (LM) nicht voraussetzen, aber die Normalvetrteilung
des Beobachtungsvektor (NVY) soll in diesem Abschnitt stets gelten.
4.6.1 Lineare Hypothesen über den Erwartungswert
Für einen echten linearen Teilraum Ao CA betrachten wir wieder das lineare
Testproblem mit den linearen Hypothesen
(LH) Nullhypothese: Ho: p € A o (Untermodell 4 gilt) ,
Alternative: H : p@A0 (Untermodell 4 gilt nicht ).
Über die Dimensionen bzw. Freiheitsgrade der Modelle setzen wir wieder voraus:
(Dirn) S o = D i m ( j l c ) < S = D i m ( A ) < J bzw.
0 < F G ( A ) = (J-S) < FG(Ao) = (J-SJ .
Die VMQ-Schätzung von p für das Modell Ao (d.h. unter der Nullhypothese Ho) ist
und hängt von der Beobachtung Y nur noch über die Schätzung fi = PdY ab. Die
Abweichung der Beobachtung Y vom Untermodell A läßt sich wie folgt zerlegen 0
2 (2) I I Y - ~ ~ ~ I I ~ = IIY-fiIID + llfi-fi0 11; bzw'
D e v ( A O ) = D e v ( A ) + ADev mit
2 (3) ADev = A D e v ( A 0 , 4 = D e v ( A o ) - D e v ( A ) = 1 1 fi - fio 1 1 D .
4.6 Testen von linearen Hypothesen 11.8.05 4-19
4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen
Wir wollen jetzt auch den F-Test aus 2.6 zum Testen linearer Hypothesen bei nor
malverteilten Beobachtungen vom Gauss-Markov-Modell auf das allgemeinere Ait
ken-Modell übertragen und dabei geringfügig verallgemeinern. Insbesondere wollen
wir die Gültigkeit des Modells (LM) nicht voraussetzen, aber die Normalvetrteilung
des Beobachtungsvektor (NVY) soll in diesem Abschnitt stets gelten.
4.6.1 Lineare Hypothesen über den Erwartungswert
Für einen echten linearen Teilraum vft C vft betrachten wir wieder das lineare o
Testproblem mit den linearen Hypothesen
(LH) Nullhypothese:
Alternative:
(Untermodell vfto gilt) ,
(Untermodell vfto gilt nicht ).
Über die Dimensionen bzw. Freiheitsgrade der Modelle setzen wir wieder voraus:
(Dirn) 50 = Dirn (vfto) < 5 = Dim(vft) < J bzw.
o < FG(vft) = (J -5) < FG(vfto) = (J -5J .
Die VMQ-Schätzung von Jl für das Modell vfto (d.h. unter der Nullhypothese Ho) ist
(1) J1 = J1 (Y) = pD Y = P ~ J1 o 0 .At 0 Jp[o
und hängt von der Beobachtung Y nur noch über die Schätzung J1 = P.At Y ab. Die
Abweichung der Beobachtung Y vom Untermodell vftO
läßt sich wie folgt zerlegen
(2) IIY-J1ollt =IIY-J1llt+IIJ1-J1ollt bzw.
Dev( vft 0) = Dev (vft) + L,Dev mit
(3)
4.6 Testen von linearen Hypothesen 11.8.05 4 - 20
Die zugehörige Tafel dieser Streuungszerlegung entspricht der aus 2.6, wenn man 2 dort die euklidische Norm 1 1 - 1 1 durch die Norm 1 1 - 1 1 S> ersetzt:
Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle 4 C A
Streuung (Ursache)
Abweichung von H 0
u m d a s M o d e l l A
um das Model lAo
Durch Übergang auf das zugehörige Gauß-Markov- Modell (vgl. 4.2) und Anwen-
dung der Resultate aus 2.6 ergibt sich dann folgende Teststatistik:
A D ~ V / M G llfi-fi,llS,/(~-s~ (4) F = - - (F-Statistik), - 2
0 ll~-fillS,l( J-s)
- - 1 1 (P; - P;) Y llS)/(s-s„
mit ll(n-p$) yllS,I( J-s)
(5) a F G = F G ( j L C ) - F G ( . , $ 2 ' ) = D i m A - D i m A o = S - S o > O ,
Dev = SQD
ADev = 1 1 fi - fio 1 1 D
D ~ v ( . , $ ~ ' ) = I I Y - ~ ~ I I S )
Dev(Ao)=IIY-fioll S)
Die gemeinsame Verteilung des Zählers und Nenners der F-Statistik ergibt sich aus:
2 2 2 (6) ADev = 1 1 fi - fi 1 1 ist 0 . xaFG(r)-verteilt
0 D mit
1 D D > 0 (7) 7 = , i I I P A ~ P J& P I I D - (Nichtzentralität) .
2 A2 . (8) ADev = I I fi - fi 1 1 und Dev(A) = 1 IY - fi I I D bzw. 0 sznd stochastisch
0 D unabhängzg..
FG
AFG =S-So
F G ( A ) = J - S
FG(Ao)=J -SO
MQ = SQD/ FG
A Dev/aFG
o A 2
o A o 2
4.6 Testen von linearen Hypothesen 11.8.05 4- 20
Die zugehörige Tafel dieser Streuungszerlegung entspricht der aus 2.6, wenn man
dort die euklidische Norm 11_112 durch die Norm 11-11 ~ ersetzt:
Streuung (Ursache) Dev -SQ - D FG MQ=SQrJFG
Abweichung von HO ~Dev =114-40 11 ~ ~FG =s-s 0
~Dev/UG
um das Modell vft Dev(vft) = IIY - 411 ~ FG(vft) =J-S A2 !J
um das Modell vfto Dev (vfto) = IIY - 40 11 ~ FG(vfto) =J-So A2
!Jo
Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vfto c .At.
Durch Übergang auf das zugehörige Gauß-Markov- Modell (vgl. 4.2) und Anwen
dung der Resultate aus 2.6 ergibt sich dann folgende Teststatistik:
(4) F= 114-40 1It/(S-SJ
IIY - 41It/( J-S) (F-Statistik) !
II(p!-p!) Y Ilt/(S-SJ o mit
11 (11- p!) Y 11 t / ( J - S)
(5) UG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto = S -SO> 0,
Die gemeinsame Verteilung des Zählers und Nenners der F-Statistik ergibt sich aus:
(6) mit
(7) (Nichtzentralität) .
(8) ~Dev = 114-40 11t und Dev(vft) = IIY -411t bzw. 0-2 sind stochastisch
unabhängig ..
4.6 Testen von linearen Hypothesen 11.8.05 4 - 21
Unter dem Modell (LM), d.h. für ,uEA, ist die Nichtzentralität y ein Maß für die
Abweichung von der Nullhypothese, und die linearen Hypothesen lassen sich äqui-
valent formulieren als:
(LH)' H O : y = O u n d 6 = 0 , H y > 0 oder S > 0.
Die Teststatistik besitzt, auch wenn das lineare Modell (LM) nicht zutrifft, eine
doppelt-nichtzentrale F-Verteilung
(9) %(F) = FzFGl NFG (Y,S> mit
(10) ZFG = D G = FG(Ao) - F G ( 4 = S - So ,
NFG = FG(A) = J-S, und
1 D 2 1 D 2 LD (11) 6 = 6 ( ~ ) = , I l ( n - p A ) ~ l l D 0 = ,2 1 I P N ~ I I D , M=A .
Die Nichtzentralität S ist ein Maß für die Abweichung des Erwartungsvektors ,U
vom Modellraum A.
Insbesondere ist die Teststatistik unter der Nullhypothese Ho zentral F-verteilt, und
(wie in 2.6) ergibt sich folgender Test zum Niveau a:
(12) F-Test zum Niveau a:
Ablehnung von Ho U F F ~ ~ ~ l NFG] o,
U - @ZFG] NFG(~) < - a .
Dabei ist F das a-Quantil und @ die Verteilungsfunktion der zentralen m,n,a m,n
F -Verteilung ist. Für einen beobachteten Testwert Fobs (d.h. einer Realisierung m1
von F ) wird die Wahrscheinlichkeit
F m , n > F 1 @
(Fobs) = P{ F ~ ~ ~ , ~ ~ ~ - obs
auch als P-Wert oder Signifikanzniveau des beobachteten Testwerts Fobs bezeichnet.
4.6 Testen von linearen Hypothesen 11.8.05 4- 21
Unter dem Modell (LM), d.h. für JlEvft, ist die Nichtzentralität "( ein Maß für die
Abweichung von der Nullhypothese, und die linearen Hypothesen lassen sich äqui
valent formulieren als:
(LH) , HO: "( = 0 und 8 = 0, H: "( > 0 oder 8 > o·
Die Teststatistik besitzt, auch wenn das lineare Modell (LM) nicht zutrifft, eine
doppelt-nichtzentrale F-Verteilung
(9)
(10)
(11)
L(F) = F ZFG NFG( ,,(,8) , ZFG = MG = FG(vfto) - FG(vft) = 5-5
0,
NFG = FG(vft) = J -5,
8 = 8(Jl) = :211 (ll- P~) Jllit = :211 pJ Jlllt,
mit
und
Die Nichtzentralität 8 ist ein Maß für die Abweichung des Erwartungsvektors Jl
vom Modellraum .At.
Insbesondere ist die Teststatistik unter der Nullhypothese HO zentral F-verteilt, und
(wie in 2.6) ergibt sich folgender Test zum Niveau a:
(12) F-Test zum Niveau a:
Ablehnung von Ho F > FZFG,NFG,a
{} 1- PZFG NFG(F) < a. ,
Dabei ist F das a-Quantil und P die Verteilungsfunktion der zentralen m,n,Q m,n
F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierung m,n 0 S
von F) wird die Wahrscheinlichkeit
auch als P-Wert oder 5igniJikanzniveau des beobachteten Testwerts F b bezeichnet. o S
4.6 Testen von linearen Hypothesen 11.8.05 4 - 22
4.6.2 Lineare Hypothesen über den Parameter
In der Praxis werden die interessierenden Hypothesen meist als Hypothesen über
den Parameter 8 formuliert (vgl. hierzu auch das Ende des Abschnitts 2.6.1). Wir ge-
ben deshalb jetzt eine äquivalente Beschreibung des F-Test unter Verwendung des
Parameters 8 anstelle des Erwartungswertes p, wobei wir generell die Rangbedin-
gung (RB) voraussetzen, damit der Parameter eindeutig bestimmt ist. Die Gültig-
keit des Modells (LM) wird zwar nach wie vor nicht vorausgesetzt, wird aber Be-
standteil der Nullhypothese sein.
S Für einen echten linearen Teilraum T. C IR des Parameterraumes lauten die line-
aren Hypothese über den Parameter und ihre Alternative wie folgt
(LHP) Nullhypothese Ho: p = X8 und 8 E T. ,
Alternative H p t X 8 oder 8 @ T o .
Diese Hypothesen entsprechen den linearen Hypothesen (LH) für den Raum
Wir wollen den jetzt die relevanten Größen für den F-Test durch die Parameter-
schätzungen 8, d0 und den Raum T. beschreiben. Hierzu zeigen wir zunächst
D C (2) P X = X P , d o
mit J 0
(3) C = X ~ D X .
Damit ergeben sich
Die Schätzung d0 des Parameters unter der Nullhypothese Ho hängt nur noch über
die Schätzung 8 von der Beobachtung Y ab und läßt sich darstellen als
4.6 Testen von linearen Hypothesen 11.8.05 4- 22
4.6.2 Lineare Hypothesen über den Parameter
In der Praxis werden die interessierenden Hypothesen meist als Hypothesen über
den Parameter () formuliert (vgl. hierzu auch das Ende des Abschnitts 2.6.1). Wir ge
ben deshalb jetzt eine äquivalente Beschreibung des F-Test unter Verwendung des
Parameters () anstelle des Erwartungswertes Jl, wobei wir generell die Rangbedin
gung (RB) voraussetzen, damit der Parameter eindeutig bestimmt ist. Die Gültig
keit des Modells (LM) wird zwar nach wie vor nicht vorausgesetzt, wird aber Be
standteil der Nullhypothese sein.
Für einen echten linearen Teilraum q-o C IRS des Parameterraumes lauten die line
aren Hypothese über den Parameter und ihre Alternative wie folgt
(LHP) Nullhypothese Ho: Jl = X() und ()Eq-O'
Alternative H: Jl ;= X() oder
Diese Hypothesen entsprechen den linearen Hypothesen (LH) für den Raum
Wir wollen den jetzt die relevanten Größen für den F-Test durch die Parameter
schätzungen 0, 00
und den Raum q-O beschreiben. Hierzu zeigen wir zunächst
(2)
(3) c
Damit ergeben sich
(4) ~Dev --
(5) (LM)
(6) MG --
mit
A A 2 11 ()-()o Il e ,
::::} "( - 12 11 (11- P ~ ) () 11 ~ , -a 0
s- Dirn q-o.
Die Schätzung 00
des Parameters unter der Nullhypothese Ho hängt nur noch über
die Schätzung 0 von der Beobachtung Y ab und läßt sich darstellen als
4.6 Testen von linearen Hypothesen 11.8.05 4 - 23
2 d.h. 8, ist die Minimalstelle der quadratischen Form 1 1 8- T I I C bzgl. T E T,.
Unter Verwendung des C-orthogonalen Komplements von T 0
erhält man die Darstellungen
Diese Darstellungen sind dann von Bedeutung, wenn der lineare Teilraum T. C IRs
durch ein lineares Gleichungssystem gegeben ist:
wobei B. eine QoxS Matrix mit vollem Rang ist
(12) Rang B = Q 0 0 '
Die linearen Hypothesen (LHP) über den Parameter lauten dann äquivalent
(LHP)' Nullhypothese Ho: p = X e und B. 0 = 0 ,
Alternative H ~ r x 8 oder BOB r 0 .
-1 T Das C-orthogonale Komplement Tl wird von den Spalten der SxQo Matrix C B. erzeugt, d.h.
(13) Q T 1 = T'C o = { C - ~ B T V I V E I R 0 ) .
Hieraus ergibt sich die Darstellung der C-orthogonalen Projektion
mit
Die für den F-Test relevanten Größen lassen sich dann wie folgt darstellen
406 Testen von linearen Hypothesen 1108005
(7)
doho 00
ist die Minimalstelle der quadratischen Form 11 0 - T 11 ~ bzgl. TE q-oo
Unter Verwendung des C-orthogonalen Komplements von q-O
(8) ~ = q-o~c
erhält man die Darstellungen
(9)
(10)
~Dev
(LM)
4- 23
Diese Darstellungen sind dann von Bedeutung, wenn der lineare Teilraum q-O C IRS
durch ein lineares Gleichungssystem gegeben ist:
wobei BO
eine QOxS Matrix mit vollem Rang ist
(12) Rang BO = QO 0
Die linearen Hypothesen (LHP) über den Parameter lauten dann äquivalent
(LHP) , Nullhypothese HO:
Alternative H:
Jl = X(} und BO
(} = 0,
oder BO
() :;= 00
Das C-orthogonale Komplement ~ wird von den Spalten der SxQO Matrix C-1B~
erzeugt, doho
(13) ~ = q-o~c = {C-1B~v 1 vEIRQO}o
Hieraus ergibt sich die Darstellung der C-orthogonalen Projektion
(14) mit
Die für den F-Test relevanten Größen lassen sich dann wie folgt darstellen
4.6 Testen von linearen Hypothesen 11.8.05 4 - 24
1 T -1 (16) ADev = (BOB) T ( ~ . C- B,) ( ~ ~ 8 ) = 1 1 B08 1 1
(17) ( L W * 1 2 7 = 2 1 1 I I E
(18) D G = Rang B = Qo . 0
Der Vorteil der Darstellung (16) liegt darin, daß sie die Schätzung d0 nicht mehr
enthält, und somit auch eine Berechnung der F-Statistik gestattet, ohne vorher ex-
plizit die Schätzung 8 zu bestimmen. Man beachte in diesem Zusammenhang, daß 0
die Matrix C-' bis auf den Faktor 1 die Covarianzmatrix des Schätzers 8 ist: 0 2
4.6.3 Schärfebetrachtungen beim F-Test
Wir wollen jetzt noch auf die Schärfe des F-Tests der linearen Hypothesen
(LH) Nullhypothese: Ho: p € A o (Untermodell 4 gilt) ,
Alternative: H : &A0 (Untermodell 4 gilt nicht ).
eingehen. Aus der Verteilung der Teststatistik in 4.6.1 (9) ergibt sich folgende Dar-
stellung der Schärfe
(1) Pow(y,6,Q!) = P{F m1 n ( y , b ) > F m1n1 a 1
= 1 - @ ) mit m=ZFG, n=NFG,
wobei @F die Verteilungsfunktion der F (y , 6)-Verteilung ist. Hierbei ist m '1 m,n
die zweite („~enner"-) Nichtzentralität
ein Maß für die Abweichung des Erwartungswerts ,u vom Modellraum A, d. h. für
die Abweichung von der Voraussetzung (LM). Und die erste („Zähleru-) Nichtzen-
tralität
4.6 Testen von linearen Hypothesen 11.8.05 4- 24
(16) ~Dev - (BoO)T(Bo C-1B~) -1 (BoO) = 11 BoO 11 ~ -
(17) (LM) ::::} 'Y = ;211 BoO II~
(18) MG = Rang BO = Q 0 .
Der Vorteil der Darstellung (16) liegt darin, daß sie die Schätzung 00
nicht mehr
enthält, und somit auch eine Berechnung der F-Statistik gestattet, ohne vorher ex
plizit die Schätzung 00
zu bestimmen. Man beachte in diesem Zusammenhang, daß
die Matrix C-1 bis auf den Faktor 12
die Covarianzmatrix des Schätzers 0 ist: a
(19) -1 1 A
C = 2· Cov(O). a
4.6.3 Schärfe betrachtungen beim F-Test
Wir wollen jetzt noch auf die Schärfe des F-Tests der linearen Hypothesen
(LH) Nullhypothese:
Alternative:
(Untermodell ...40
gilt) ,
(Untermodell ...40
gilt nicht ).
eingehen. Aus der Verteilung der Teststatistik in 4.6.1 (9) ergibt sich folgende Dar
stellung der Schärfe
(1) Pow("'(,8,a)
1 - <P (F) mit F b,8) m,n,Ct m,n
m=ZFG, n=NFG,
wobei <P F (8) die Verteilungsfunktion der F ('Y, 8)-Verteilung ist. Hierbei ist mn "(, m,n
die zweite ("Nenner"-) Nichtzentralität
ein Maß für die Abweichung des Erwartungswerts Jl vom Modellraum ...4, d. h. für
die Abweichung von der Voraussetzung (LM). Und die erste ("Zähler"-) Nichtzen
tralität
4.6 Testen von linearen Hypothesen 11.8.05 4 - 25
ist ein Maß für die Abweichung der D-orthogonalen Projektion von ,U in den Unter-
raum Co C C von der entsprechenden Projektion in den Modellraum jlc
Die Schärfe hängt also nur noch über die Nichtzentralitäten y und S vom Erwar-
tungsvektor ,U ab, und aus den Eigenschaften der Verteilungsfunktion @F m,n (776) der
F (y , 6)-Verteilung (vgl. Exkurs V 3) ergibt sich sofort m1 n
(4) Die Schärfe Pow(y, S, a) ist streng monoton
wachsend in y 2 0 ,
fallend in 0 0 , -
wachsend in a E (0 , l ) .
Insbesondere wird die Schärfe bei festem a und y maximal bzgl. S, wenn S= 0 ist,
d. h. wennn das Modell (LM) gilt. Und umgekehrt wird die Schärfe bei festem a
und S minimal bzgl. y, wenn die Abweichung y = 0 ist.
Als Grenzwert für y + CO ergibt sich mit Exkurs V 3.2 (16)
Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt
hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach-
tungen quantifizieren sollte. Hierzu kann man die Schärfe für verschiedene interes-
sierende (hypothetische) Werte von y und S bestimmen, da ja die wahren Werte
von y und S unbekannt ist (eine solche Schärfebetrachtung sollte eigentlich schon
im Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindest-
stichprobenumfang J erfolgt sein), wobei man meist S = 0 - d. h. die Gültigkeit des
Modells (LM) - voraussetzt und nur y variieren läßt.
4.6 Testen von linearen Hypothesen 11.8.05 4- 25
ist ein Maß für die Abweichung der D-orthogonalen Projektion von Jl in den Unter
raum .AtO c.At von der entsprechenden Projektion in den Modellraum .At.
Die Schärfe hängt also nur noch über die Nichtzentralitäten rund 8 vom Erwar
tungsvektor Jl ab, und aus den Eigenschaften der Verteilungsfunktion <P F (8) der mn ,,(,
F (r, 8)-Verteilung (vgl. Exkurs V 3) ergibt sich sofort ' m,n
(4) Die Schärfe Pow( r, 8, a) ist streng monoton
• wachsend in r > 0 ,
• fallend in 8 > 0 ,
• wachsend in a E (0,1) .
Insbesondere wird die Schärfe bei festem a und r maximal bzgl. 8, wenn 8 = 0 ist,
d. h. wennn das Modell (LM) gilt. Und umgekehrt wird die Schärfe bei festem a
und 8 minimal bzgl. r, wenn die Abweichung r = 0 ist.
Als Grenzwert für r ---+ 00 ergibt sich mit Exkurs V 3.2 (16)
(5) Pow(oo, 8, a) = 1.
Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt
hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach
tungen quantifizieren sollte. Hierzu kann man die Schärfe für verschiedene interes
sierende (hypothetische) Werte von rund 8 bestimmen, da ja die wahren Werte
von rund 8 unbekannt ist (eine solche Schärfebetrachtung sollte eigentlich schon
im Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindest
stichprobenumfang J erfolgt sein), wobei man meist 8 = 0 - d. h. die Gültigkeit des
Modells (LM) - voraussetzt und nur r variieren läßt.
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 26
4.7 Konstruktion von Konfidenzbereichen
Wir wollen uns jetzt mit der Konstruktion von Konfidenzbereichen beschäftigen,
wobei wir die Gültigkeit des linearen Modells (LM) in diesem Abschnitt wieder vo-
raussetzen. Weiter soll auch die Normalverteilungsannahme (NVY) in diesem Ab-
schnitt generell gelten. Zuerst geben wir (mehrdimensionale) Konfidenzbereiche so-
wohl für den Erwartungvektor ,U als auch für den Parametervektor 8. Anschließend T betrachten wir gleichzeitig endlich viele Linearkombinationen C 8 (für r = 1, ..., R) des r
Parameters und konstruieren dafür simultane (konservative) Konfidenzintervalle
mit zwei verschiedenen Methoden (nach Boferroni bzw. Scheffe).
4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor
Aus den Verteilungen der voneinander unabhängigen Schätzung fi und 82 ergibt sich
folgender Konfidenzbereich C C J& für den Erwartungswert ,U zur Sicherheit 1 - a P
(I> Cp = { Y E& I 1 1 Y - fi ll,, < Fa } (Konfidenzbereich für ,U) mit
(2) F 2 = 8 2 . ~ . ~ a S, J-S, a '
(3) P{ ,uEC ) = 1-a. P
Dieser Konfidenzbereich C ist der Durchschnitt des linearen Raumes J& mit der P
D-Kugel (die bzgl. der euklidischen Norm ein Ellipsoid darstellt) um fi vom Radius
F der proportional zur Schätzung 8 ist. Man beachte, daß sowohl der Mittelpunkt a ' fi als auch der Radius F zufällig sind. Nach (3) wird der Erwartungswert ,U vom zu- a fälligen Konfidenzbereich C mit der Sicherheit 1- a eingefangen (überdeckt).
P
Aus dem Bereich C für den Erwartungswert ,U läßt sich nun sofort ein Konfidenzbe- P
reich C für den Parameter 8 konstruieren 0
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 26
4.7 Konstruktion von Konfidenzbereichen
Wir wollen uns jetzt mit der Konstruktion von Konfidenzbereichen beschäftigen,
wobei wir die Gültigkeit des linearen Modells (LM) in diesem Abschnitt wieder vo
raussetzen. Weiter soll auch die Normalverteilungsannahme (NVY) in diesem Ab
schnitt generell gelten. Zuerst geben wir (mehrdimensionale) Konfidenzbereiche so
wohl für den Erwartungvektor Jl als auch für den Parametervektor (). Anschließend
betrachten wir gleichzeitig endlich viele Linearkombinationen cT () (für r = 1, ... , R) des r
Parameters und konstruieren dafür simultane (konservative) Konfidenzintervalle
mit zwei verschiedenen Methoden (nach Boferroni bzw. ScheffE}
4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor
Aus den Verteilungen der voneinander unabhängigen Schätzung (i, und 0-2 ergibt sich
folgender Konfidenzbereich C c.At für den Erwartungswert Jl zur Sicherheit 1- a fL
(1)
(2)
(3) P{JlEC}=l-a. fL
(Konfidenzbereich für Jl) mit
Dieser Konfidenzbereich C ist der Durchschnitt des linearen Raumes .At mit der fL
D-Kugel (die bzgl. der euklidischen Norm ein Ellipsoid darstellt) um (i, vom Radius
r ,der proportional zur Schätzung 0- ist. Man beachte, daß sowohl der Mittelpunkt a
(i, als auch der Radius r zufällig sind. Nach (3) wird der Erwartungswert Jl vom zua
fälligen Konfidenzbereich C mit der Sicherheit 1- a eingefangen (überdeckt). fL
Aus dem Bereich C für den Erwartungswert Jl läßt sich nun sofort ein KonfidenzbefL
reich C (J für den Parameter () konstruieren
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 27
(4) C g = { B ~ I R s ~ ~ B ~ ~ } (Konfidenzbereich für 8) P
T T = { B E I R ~ ~ ( B - ~ ) X ~x(e-l)<r:}
= { B E I R ~ I 110-4 llc<ra}
(5) T C = X D X
(6) p { B ~ C ~ } = l - a .
mit
aus (2), a
Der Bereich Co stellt ein Ellipsoid bzw. eine C-Kugel um die Schätzung 4 im IRs dar.
Abb. 1: Die Konfidenzbereiche C und Co für den Erwartungswert /I und den Para- P
meter B bzgl. der Matrix X mit den beiden Spalten xl und x2 im Fall S= 2.
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 27
(4) (Konjidenzbereich jür (J)
(5)
= { (JE IRS I ((J- O)TXTDX ((J- 0) < r ~}
= { (JE IRS 111 (J- Olle < raJ mit
raus (2), Ct
(6) P{ (JE CO} = l-a.
Der Bereich Co stellt ein Ellipsoid bzw. eine C-Kugel um die Schätzung 0 im IRs dar.
. .,/,/ vn,.
y
. A
.f,1 ·x· .
2
o ......... JL .
Abb. 1: Die Konfidenzbereiche C JL und Co für den Erwartungswert Jl und den Para
meter (J bzgl. der Matrix X mit den beiden Spalten xl und x2
im Fall S = 2.
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 28
4.7.2 Simultane Konfidenzintervalle nach Bonferroni
T In der Praxis ist man häufig nicht nur an einer einzelnen Linearkombination C 8 T des Parameters, sondern gleichzeitig an endlich vielen Linearkombinationen C 8 für r
r = 1, ..., R interessiert, wobei die Vektoren C E IR', C r 0 nicht notwendig linear r r unabhängig sein müssen. Eine typische Anwendung hierfür sind alle Kontraste
(Differenzen) bei der einfachen Varianzanalyse für einen Faktor A mit K Stufen,
d.h. alle R = (2) Linearkombinationen der Form
fürk, l = 1 ,..., K m i t k r 1 .
Wir geben in diesem Abschnitt zunächst eine auf Bonferroni zurückgehende Kon-
struktion von simultanen Konfidenzintervallen an. Zuerst betrachten wir für jedes T einzelne r das zweiseitige Konfidenzintervall von C 8 mit einer von r abhängenden r
Irrtumswahrscheinlichkeit a r
(1) Cr(aT) = [ C? - Ar(aT) , c?d + A r (U r ) ] mit
(2) q a , ) = tM 55. 8 und ' 2
(3) A 2 A2 T 0 = 0 . C (x~Dx)-lcT sowie r r
T (4) P{ cre 6 Cr(aT) 1 =
Die simultane Irrtumswahrscheinlichkeit aller dieser R Konfidenzintervalle läßt sich
nach unten abschätzen durch die Summe aller einzelnen Irrtumswahrscheinlichkei-
ten (Bonferroni- Ungleichung):
T (5) P { c 8 S f C ( a ) f ü r m i n d e s t e n s e i n l < r < R ) < a t
bzw. r r r
p{cT8€ C (a ) für alle l < r < ~ ) 1-a t
mit a = C a . r r r t r r
Soll die simultane Irrtumswahrscheinlichkeit einen vorgegebenen Wert a nicht
überschreiten, so läßt sich a = a durch geeigntete Wahl der einzelnen Irrtums- t
wahrscheinlichkeiten a erreichen, wobei man diese in der Regel gleich groß wäh- r len wird, d.h. man verwendet
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 28
4.7.2 Simultane Konfidenzintervalle nach Bonferroni
In der Praxis ist man häufig nicht nur an einer einzelnen Linearkombination cT ()
des Parameters, sondern gleichzeitig an endlich vielen Linearkombinationen cT () für r
r = 1, ... , R interessiert, wobei die Vektoren c E IR s, c :;= 0 nicht notwendig linear r r
unabhängig sein müssen. Eine typische Anwendung hierfür sind alle Kontraste
(Differenzen) bei der einfachen Varianz analyse für einen Faktor A mit K Stufen,
d.h. alle R = (~) Linearkombinationen der Form
für k, l = 1, ... , K mit k:;= l .
Wir geben in diesem Abschnitt zunächst eine auf Bonferroni zurückgehende Kon
struktion von simultanen Konfidenzintervallen an. Zuerst betrachten wir für jedes
einzelne r das zweiseitige Konfidenzintervall von cT () mit einer von r abhängenden r
Irrtumswahrscheinlichkeit a r
(1) C (a ) [ TA TA ] mit c ()-l:c.(a),c ()+l:c.(a) r r r r r r r r
(2) l:c. (a ) tJ_S 0· o-c und r r '2 7"
(3) A2 0-2 . cT (XTDX)-lcT a SOWIe c r r
7"
(4) P { cT() t1. C (a ) } a. r r r r
Die simultane Irrtumswahrscheinlichkeit aller dieser R Konfidenzintervalle läßt sich
nach unten abschätzen durch die Summe aller einzelnen Irrtumswahrscheinlichkei
ten (Bonferroni- Ungleich ung):
(5) P{ c;() t1. C/ar) für mindestens ein 1 <r<R} < a +
P{ C;()E C/ar) für alle l<r<R} > 1-a+ mit
bzw.
a+ = ~a . r r
Soll die simultane Irrtumswahrscheinlichkeit einen vorgegebenen Wert a nicht
überschreiten, so läßt sich a = a + durch geeigntete Wahl der einzelnen Irrtums
wahrscheinlichkeiten a erreichen, wobei man diese in der Regel gleich groß wäh-r
len wird, d.h. man verwendet
(6) a r
Q
R·
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 29
Fazit: Ein simultane Irrtumswahrscheinlichlceit a bzw. Sicherheit 1 - a für R verschie-
dene Konfidenzintervalle läßt sich durch Kombination von R einzelnen Konfiden-
zintervallen zur (reduzierten) Irrtumswahrscheinlichkeit 2 bzw. (erhöhten) Sicher- R heit 1-2 erreichen. Im Allgemeinen sind diese simultanen Konfidenzintervalle al- R lerdings konservativ, weil (5) nur eine Ungleichung ist.
Simultane Konfidenzintervalle sind besonders im Zusammenhang mit dem F-Test T von Interesse, wenn C 8 = 0 simultan für alle r = 1, ..., R Linearkomkinationen ge- r
testet werden soll, wobei dann allerdings die Vektoren C I ) ..., C R linear unabhängig
sein sollten mit R < S. Die zugehörigen lineare Hypothesen lauten dann (vgl. 4.6)
T Nullhypothese: Ho : C 8 = 0 für alle 1 < r < R bzw. r r
Ho : c e = o , T Alternative: H : C 8 s 0 für mindestens ein 15 r 5 R bzw. r r
wobei die RxS Matrix C die vorgegebenen Vektoren cl, ...,. C E IRs als Zeilen enthält R und (wegen deren linearer Unabhängigkeit) den Rang R besitzt.
Bei einer Ablehnung der Nullhypothese interessiert man sich dafür, welche der ein- T . . .
zelnen Linearkombinationen C 8 szgnzfzkant von 0 abweichen und somit für die r
Ablehnung der Nullhypothese verantwortlich sind. Hierzu konstruiert man simul- T tune Konfidenzintervalle für alle C 8 zur simultanen Sicherheit 1- a, wobei a das r
Niveau des F-Test ist, und überprüft dann, bei welchen Komponenten r = 1, ..., R der
Wert 0 im zugehörigen Konfidenzbereich liegt.
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 29
Fazit: Ein simultane Irrtumswahrscheinlichkeit a bzw. Sicherheit 1- a für R verschie
dene Konfidenzintervalle läßt sich durch Kombination von R einzelnen Konfiden
zintervallen zur (reduzierten) Irrtumswahrscheinlichkeit ~ bzw. (erhöhten) Sicher
heit 1-~ erreichen. Im Allgemeinen sind diese simultanen Konfidenzintervalle al
lerdings konservativ, weil (5) nur eine Ungleichung ist.
Simultane Konfidenzintervalle sind besonders im Zusammenhang mit dem F-Test
von Interesse, wenn cT(} = 0 simultan für alle r = I, ... , R Linearkomkinationen ger
testet werden soll, wobei dann allerdings die Vektoren cl' ... , cR
linear unabhängig
sein sollten mit R < S. Die zugehörigen lineare Hypothesen lauten dann (vgl. 4.6)
Nullhypothese: H : cT(} = 0 für alle 1 < r < R o r r bzw.
HO :Ct1=O,
Alternative: H : cT(} :;= 0 für mindestens ein 1 <r< R bzw. r r
HO :C(}7:0,
wobei die RxS Matrix C die vorgegebenen Vektoren cl' ... ,.cR
E IRS als Zeilen enthält
und (wegen deren linearer Unabhängigkeit) den Rang R besitzt.
Bei einer Ablehnung der Nullhypothese interessiert man sich dafür, welche der ein
zelnen Linearkombinationen cT(} signifikant von 0 abweichen und somit für die r
Ablehnung der Nullhypothese verantwortlich sind. Hierzu konstruiert man simul-
tane Konfidenzintervalle für alle cT(} zur simultanen Sicherheit 1- a, wobei a das r
Niveau des F-Test ist, und überprüft dann, bei welchen Komponenten r = 1, ... , R der
Wert 0 im zugehörigen Konfidenzbereich liegt.
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 30
4.7.3 Simultane Konfidenzintervalle nach Scheffb
Wir wollen jetzt nach einer Methode von Scheffk andere simultane Konfidenzberei- T che für die R Linearkombinationen c1 0, ..., Ci0 mit C E IR', cr t 0 konstruieren,
T
und sie mit denen nach Bonferoni vergleichen. Hierzu betrachten wir zunächst den
von C ..., C erzeugten Teilraum 1' R
Da die Vektoren cl, ..., C nicht notwendig linear unabhängig sind, gilt R
(2) Q = Dim & 5 R .
Nach Scheffk konstruieren wir jetzt für alle C E & - und damit insbesondere für rn
C ..., cR E ii? - das folgende Konfidenzintervall für c1 0 1'
(3) C& = [ cTB - A ~ ( c ) , cTB + aQ(c) ] mit
2 n 2 T T (4) aQ(c) = Q . FQ, J-S, o, . D . C (X DX)- 'C,
- n 2 . 0 - Q ' FQ,~-s,o, C
(5) n 2 T T 82 = 0 . C ( X DX)- 'C.
C
und
Hierbei ist die geschätzte Varianz der Linearkombination cTd aus 4.5.6. Scheffk
hat gezeigt, daß hierdurch Konfidenzintervalle zur simultanen Sicherheit 1- a für
alle C E &gegeben sind, d. h. es gilt
Hieraus folgt insbesondere, daß die zu C ..., C E &gehörigen Konfidenzintervalle 1' R
(7) CQ r : = [ cTB r - A (C> , c:B + aQ(cr) ] für r = 1, ..., R Q
eine simultane Sicherheit von mindestens 1- a haben
(8) ~ { c ; 0 ~ C ~ f ü r T alle l i r s ~ } 2 1 - a .
Bevor wir auf den Nachweis der fundamentalen Eigenschaft (6) eingehen, wollen
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 30
4.7.3 Simultane Konfidenzintervalle nach Scheffe
Wir wollen jetzt nach einer Methode von Scheffe andere simultane Konfidenzberei
che für die R Linearkombinationen ci (J, ... , c~(J mit cr
E IR s, cr :;= 0 konstruieren,
und sie mit denen nach Bonferoni vergleichen. Hierzu betrachten wir zunächst den
von cl' ... , cR erzeugten Teilraum
(1) -(ff = span { cl' ... , CR} .
Da die Vektoren cl' ... , cR
nicht notwendig linear unabhängig sind, gilt
(2) Q = Dirn -(ff < R.
Nach Scheffe konstruieren wir jetzt für alle cE -(ff - und damit insbesondere für
cl' ... , cR E -(ff - das folgende Konfidenzintervall für cT
(J
(3)
(4)
(5)
[CT{)_~Q(C), cT{) +~Q(c)]
Q. P Q,J-S,ex . 52. cT (XTDX)-lc,
Q.p .52 Q,J-S,ex c
52. cT (XTDX)-lc .
mit
und
Hierbei ist 52 die geschätzte Varianz der Linearkombination cT{) aus 4.5.6. Scheffe
c
hat gezeigt, daß hierdurch Konfidenzintervalle zur simultanen Sicherheit 1- a für
alle c E -(ff gegeben sind, d. h. es gilt
(6) 1-a.
Hieraus folgt insbesondere, daß die zu cl' ... , cR
E -(ff gehörigen Konfidenzintervalle
(7) ~ [T/' T/' ] U"" : = c (J - ~Q( c ) , c (J + ~Q( c ) r r r r r
für r = 1, ... ,R
eine simultane Sicherheit von mindestens 1- ahaben
Bevor wir auf den Nachweis der fundamentalen Eigenschaft (6) eingehen, wollen
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 31
wir die Scheffi-Intervalle (7) mit den zugehörigen Bonferroni-Intervallen aus 4.8.2 (1)
vergleichen. Die zugehörigen beiden Intervalllängen unterscheiden sich nur um ei-
nen konstanten Faktor
Da sowohl die Scheffe- als auch die Bonferroni-Intervalle konservativ sind (d. h. ihre
simultane Sicherheit ist mindestens 1- ci!) wird man in der Praxis jeweils diejenige
Methode wählen, die im konkreten Anwendungsfall die kürzeren Intervalle liefert.
Welche der beiden Intervall-Längen kürzer sind, hängt jeweils von den konkreten
Anzahlen J-S, R und Q und vom Niveau ci! ab.
Die Länge ar(;) der Bonferroni-Intervalle wächst (streng) mit der Anzahl R der
betrachteten Linearkombinationen, weil gilt
(10) t n, 4 2 R ) ist streng wachsend bzgl. R E IN.
Demgegenüber wächst die Länge A (C) der Scheffe-Intervalle nur (streng) mit der Q
Dimension Q des von C ..., cR aufgespannten Raumes, weil nach Exkurs V 3.1 (19) 1'
gilt
(11) m . F m, n; a ist streng monoton wachsend bzgl. m E IN.
Man wird daher erwarten, daß die Scheffe-Intervalle zumindest dann kürzer sind
als die Bonferroni-Intervalle, wenn die Anzahl R deutlich größer ist als die Dimen-
sion Q.
Spezialfall: R = 1
T Für eine einzelne Linearkombination C 8, d. h. für R = 1 (wobei wir den Index „I" in
C unterdrücken) ist der Raum 6?= span{c} wegen C s 0 eindimensional, d. h. Q = 1. 1
Wegen
(12) F 1, J-S, a = t2 J-S, F stimmt hier das Bonferroni- mit dem Scheffe-Intervall überein, und liefert das be-
T reits im Abschnitt 4.5 betrachtete zweiseitige Konfidenzintervall für C 8, welches sogar
die exakte Sicherheit 1 - ci! hat.
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 31
wir die Schefje-Intervalle (7) mit den zugehörigen Bonferroni-Intervallen aus 4.8.2 (1)
vergleichen. Die zugehörigen beiden Intervalllängen unterscheiden sich nur um ei
nen konstanten Faktor
(9) jQ .FQ J-5 ex , ,
t J-5, ex/(2R)
Da sowohl die Scheffe- als auch die Bonferroni-Intervalle konservativ sind (d. h. ihre
simultane Sicherheit ist mindestens 1- a) wird man in der Praxis jeweils diejenige
Methode wählen, die im konkreten Anwendungsfall die kürzeren Intervalle liefert.
Welche der beiden Intervall-Längen kürzer sind, hängt jeweils von den konkreten
Anzahlen J - S, Rund Q und vom Niveau a ab.
Die Länge .6)~) der Bonferroni-Intervalle wächst (streng) mit der Anzahl R der
betrachteten Linearkombinationen, weil gilt
(10) tn , ex/(2R) ist streng wachsend bzgl. RE W.
Demgegenüber wächst die Länge .6Q
( c) der Scheffe-Intervalle nur (streng) mit der
Dimension Q des von cl' ... , cR
aufgespannten Raumes, weil nach Exkurs V 3.1 (19)
gilt
(11) m . F ist streng monoton wachsend bzgl. mE W. m,n;ex
Man wird daher erwarten, daß die Scheffe-Intervalle zumindest dann kürzer sind
als die Bonferroni-Intervalle, wenn die Anzahl R deutlich größer ist als die Dimen
sion Q.
Spezialfall: R = 1
Für eine einzelne Linearkombination cT (), d. h. für R = 1 (wobei wir den Index ,,1" in
cl unterdrücken) ist der Raum ß = span{ c} wegen c:;= 0 eindimensional, d. h. Q = 1.
Wegen
(12) 2 F J 5 = tJ_5 9' 1, - ,ex '2
stimmt hier das Bonferroni- mit dem Scheffe-Intervall überein, und liefert das be
reits im Abschnitt 4.5 betrachtete zweiseitige Konfidenzintervall für cT (), welches sogar
die exakte Sicherheit 1- a hat. D
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 32
Wir gehen jetzt auf die Herleitung der fundamentalen Eigenschaft (6) der Scheffe-
Intervalle ein. Hierzu betrachten wir eine beliebige, aber im folgenden feste Basis
bl, ..., b E B d e s Raumes B Die QxS-Matrix Q
(13) B = ( bl, ...,
T T mit den Zeilen bl , ..., b hat dann den Rang Q
(I4) Rang B = Q ,
und der Raum Bläßt sich dann darstellen als
Damit läßt sich die Aussage (6) auch äquivalent schreiben als
(16) p { d T B 6 €cQT d BO für alle d c I R Q } = 1-a bzw.
(16) ' - 2 T -1 P { I ~ ~ ( B B - B ~ ) 12<r a . d A d f ü r a l l e d ~ I R ~ } = 1-a mit
Um die Wahrscheinlichkeit in (16)' bestimmen zu können, benötigen wir das fol-
gende Resultat (vgl. hierzu auch Abb. 2):
Q (18) Für r > 0, a E IR und eine symmetrische, positiv-definite QxQ-Matrix A sind
die folgenden drei Aussagen äquivalent
(ii) I ( c , ~ ) A I < r . I I c I I A für alle C E IR Q ,
T 2 T -1 (iii) Id al i r 2 . d A d für alle d E IRQ
Q Weiter gelten für beliebige C, d E IR die Ungleichungen
wobei "=" statt "5" in (iv) bzw. (V) genau dann gilt, wenn a linear abhängig von
C bzw. von ~ - l d ist.
Hiermit ergibt sich eine weitere äquivalente Versionen von (16) bzw. (6)
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 32
Wir gehen jetzt auf die Herleitung der fundamentalen Eigenschaft (6) der Scheffe
Intervalle ein. Hierzu betrachten wir eine beliebige, aber im folgenden feste Basis
b1, ... , b
Q E {jj' des Raumes -(jJ. Die QxS-Matrix
(13) T B = ( b1, ... , b
Q )
mit den Zeilen b[, ... , b~ hat dann den Rang
(14) Rang B = Q ,
und der Raum (jj' läßt sich dann darstellen als
Damit läßt sich die Aussage (6) auch äquivalent schreiben als
(16)
(16) I
(17)
P { cl TB 0 E C QT für alle cl E IRQ} = 1- a bzw. cl BO
P{ 1 clT(BO-BO) 12 < f~. clT A -1cl für alle clEIRQ} 1-a
A=(B(XTDX)-1B T)-1, f2=a2.Q.PQJ_S· a , ,a
mit
Um die Wahrscheinlichkeit in (16) I bestimmen zu können, benötigen wir das fol
gende Resultat (vgl. hierzu auch Abb. 2):
(18) Für r> 0, a E IRQ und eine symmetrische, positiv-definite QxQ-Matrix A sind
die folgenden drei Aussagen äquivalent
(i) IlaIIA<r,
(ii) l(c,a)AI<r·llcIIA
(iii) 1 cl Ta 12 < r 2 . cl T A -1 cl
für alle cE IRQ ,
für alle cl E IRQ.
Weiter gelten für beliebige c, cl E IRQ die Ungleichungen
(iv) IcTAal2 =(c,a)~ <llall~·llcll~, (Cauchy-Schwarz-Ungleichung)
(v) IclTa l2 =(cl,a)2<llall~·clTA-1cl,
wobei "=" statt "<" in (iv) bzw. (v) genau dann gilt, wenn a linear abhängig von
c bzw. von A -1cl ist.
Hiermit ergibt sich eine weitere äquivalente Versionen von (16) bzw. (6)
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 33
die sich jetzt aus den Verteilungen der voneinander unabhängigen Schätzung B und
a2 herleiten läßt.
Abb.2: Geometrische Interpretation von (i) U (iii) in (18) für Q = 2. Die Ellipse
{a I llall < r } ist der Durchschnitt aller „Streifenn , die von parallelen A - Tangentenpaaren begrenzt werden. Für jede Richtung d E I R ~ ist
T 2 2 T - 1 {a 1 ld al 5 r d A d} derjenige Streifen, der zu den beiden Tangenten
gehört, die orthogonal zu d sind
4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 33
die sich jetzt aus den Verteilungen der voneinander unabhängigen Schätzung () und
0-2 herleiten läßt.
Abb.2: Geometrische Interpretation von (i) {} (iii) in (18) für Q = 2. Die Ellipse
{a IllallA < r} ist der Durchschnitt aller "Streifen" , die von parallelen
Tangentenpaaren begrenzt werden. Für jede Richtung d E IRQ ist
{a IldT al2 < r2 dT A -ld} derjenige Streifen, der zu den beiden Tangenten
gehört, die orthogonal zu d sind .
5. Weitere Analysen im Gauss-Markov-Modell 11.8.05 5 - 1
5. Weitere Analysen im Gauß-Markov-Modell
In diesem Kapitel wollen wir die linearen Modelle weiter untersuchen und insbe-
sondere spezielle Modelle näher betrachten. Hierbei beschränken wir uns aus Grün-
den der Übersicht auf das einfachere Gauß-Markov-Modell. Dies ist keine wesentli-
che Einschränkung, da sich das allgemeinere Aitken-Modells ja auf das Gauß-
Markov-Modell zurückführen läßt. Bei der Verwendung von Resultaten aus dem
Aitken-Modells ist lediglich zu beachten, daß die Matrix V und ihre Inverse D im
Gauß-Markov-Modell die Einheitsmatrix II darstellen und somit das von D indu- J
zierte Skalarprodukt ( U ,V),, wieder das übliche Skalarprodukt ( U , V ) ist.
Unser Ausgangspunkt ist daher wieder ein J-dimensionalen Beobachtungsvektors
Y - zusammen mit einer JxS-Covariablenmatrix X - wobei die Covarianz-Struktur
von Y gegeben ist durch
2 (GMC) Cov(Y) = D . IIJ (GauJ3-Markov-Covarianzstruktur).
Die Normalverteilungsannahme
(NVY) Y ist J-dimensional normalverteilt:
-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y').
wollen wir nicht generell voraussetzen, sondern werden sie erst bei Bedarf (für
Tests, Konfidenzintervalle etc.) stets explizit erwähnen.
5. Weitere Analysen im Gauss-Markov-Modell 11.8.05 5-1
5. Weitere Analysen im Gauß-Markov-Modell
In diesem Kapitel wollen wir die linearen Modelle weiter untersuchen und insbe
sondere spezielle Modelle näher betrachten. Hierbei beschränken wir uns aus Grün
den der Übersicht auf das einfachere Gauß-Markov-Modell. Dies ist keine wesentli
che Einschränkung, da sich das allgemeinere Aitken-Modells ja auf das Gauß
Markov-Modell zurückführen läßt. Bei der Verwendung von Resultaten aus dem
Aitken-Modells ist lediglich zu beachten, daß die Matrix V und ihre Inverse D im
Gauß-Markov-Modell die Einheitsmatrix 11 J darstellen und somit das von D indu
zierte Skalarprodukt (u, v)D wieder das übliche Skalarprodukt (u, v) ist.
Unser Ausgangspunkt ist daher wieder ein i-dimensionalen Beobachtungsvektors
Y - zusammen mit einer ixS-Covariablenmatrix X - wobei die Covarianz-Struktur
von Y gegeben ist durch
(GMC) Cov(Y) = 0-2
. 11 J (Gauß-Markov-Covarianzstruktur) .
Die Normalverteilungsannahme
(NVY) Y ist i-dimensional normalverteilt:
L(Y) = NJ
( E(Y) , Cov(Y)) (Normalverteilung von Y).
wollen wir nicht generell voraussetzen, sondern werden SIe erst bei Bedarf (für
Tests, Konfidenzintervalle etc.) stets explizit erwähnen.
5.1 Fehlspezifikation des Modells
5.1 Fehlspezifikation des Modells
7.7.10 5-2
Bei konkreten Anwendungen der Theorie in der Praxis, kann man nie ganz sicher
sein, ob das verwendete lineare Modell hinreichend genau zutrifft. Deshalb ist es
nützlich, zu untersuchen, wie die bisherigen Resultate zu modifizieren sind, wenn
das zugrunde gelegte lineare Modell nicht zutrifft. Ein typischer solcher Fall liegt
vor, wenn der Erwartungswert /-L. = E(Y.) nicht nur von der beobachteten Covari-J J
ablen x. sondern auch noch von einem weiteren (typischerweise unbeobachteten)J
Covariablenvektor u. = (u .1' ..., u ·R) E lRR abhängt, der nicht im spezifizierten ModellJ J J
berücksichtigt ist. Wir wollen diese Situation näher untersuchen, wobei wir davon
ausgehen, daß statt des bisher verwendeten Modells
(LM).J
T/-L. = E(Y.) = x. ()J J J
für alle j = 1, ..., J
das folgende erweiterte lineare Modell zutrifft
(LM)~J
T T/-L. = E(Y.) = x. ß+ u. A
J J J Jfür alle j = 1, ..., J
mit den beiden Parametervektoren ßE lRS und AE lRR. Man beachte, daß der Para
meter ß (und nicht etwa ()) den wahren Einfluß der Covariablen x. auf den ErwarJ
tungswert /-L. beschreibt. Es sei darauf hingewiesen, daß auch das erweiterte ModellJ
immer noch von spezieller Natur ist, weil es z.B. keine Wechselwirkung von x mit u
enthält.
Von Interesse ist nun, welche Schlüsse man über den wahren Parameter ß ziehen
kann, wenn man das fehlspezifierte Modell mit dem inadäquaten Parameter () ver
wendet. Mit den Covariablenmatrizen
(1) x = (x. ). JxS-Matrix,JS JS
v = (u. ). JxR-Matrix,Jr Jr
lassen sich die Modelle wie folgt schreiben
(LM)
(LM)*
X() ,
Xß+ VA = (X, V) (~).
Damit der Parameter () eindeutig bestimmt ist, setzen wir wieder die Rangbedin-
5.1 Fehlspezifikation des Modells 7.7.10 5-2
5.1 Fehlspezifikation des Modells
Bei konkreten Anwendungen der Theorie in der Praxis, kann man nie ganz sicher
sein, ob das verwendete lineare Modell hinreichend genau zutrifft. Deshalb ist es
nützlich, zu untersuchen, wie die bisherigen Resultate zu modifizieren sind, wenn
das zugrunde gelegte lineare Modell nicht zutrifft. Ein typischer solcher Fall liegt
vor, wenn der Erwartungswert J-L. = E(Y.) nicht nur von der beobachteten Covari-J J
ablen x. sondern auch noch von einem weiteren (typischerweise unbeobachteten) J
Covariablenvektor u. = ( u .1' ... , u ·R) E lR R abhängt, der nicht im spezifizierten Modell J J J
berücksichtigt ist. Wir wollen diese Situation näher untersuchen, wobei wir davon
ausgehen, daß statt des bisher verwendeten Modells
(LM). J
T J-L. = E(Y.) = x. () J J J
das folgende erweiterte lineare Modell zutrifft
(LM)~ J
T T J-L. = E(Y.) = x. ß + u. A
J J J J
für alle j = 1, ... , J
für alle j = 1, ... , J
mit den beiden Parametervektoren ßE lRS und A E lRR. Man beachte, daß der Para
meter ß (und nicht etwa ()) den wahren Einfluß der Covariablen x. auf den ErwarJ
tungswert J-L. beschreibt. Es sei darauf hingewiesen, daß auch das erweiterte Modell J
immer noch von spezieller Natur ist, weil es z.B. keine Wechselwirkung von x mit u
enthält.
Von Interesse ist nun, welche Schlüsse man über den wahren Parameter ß ziehen
kann, wenn man das jehlspezijierte Modell mit dem inadäquaten Parameter () ver
wendet. Mit den Covariablenmatrizen
(1) x = (x. ). JxS-Matrix, JS JS
lassen sich die Modelle wie folgt schreiben
(LM) X() ,
(LM)* Xß+ VA = (X, V) (~).
v = (u. ). JxR-Matrix, Jr Jr
Damit der Parameter () eindeutig bestimmt ist, setzen wir wieder die Rangbedin-
5.1 Fehlspezifikation des Modells
gung voraus
7.7.10 5-3
(RB) Rang(X) = S (Rangbedingung) . I
Mit den linearen Räumen
(2)
die von den Spalten von X bzw. U aufgespannt werden, lassen sich die Modelle wie
folgt beschreiben
(LM)'
(LM)'*
Jl E vft,
Jl E JIC* vft + JV.
Legt man nun bei der Analyse das Modell vft zugrunde - obwohl das erweiterte
Modell JIC* zutrifft - so hat der Schätzer () zwar den Erwartungswert (), aber dieser
ist nicht durch Jl = X() definiert sondern nach 4.4 (0) durch
(3) Pc4 Jl X() bzw.
(4) X- (XTXr1XT
(5) P - XX-.c4-
() = X- Jl mit
(Linksinverse von X)
Für das erweiterte Modell ergibt sich
Damit die Parameter () und ß für jeden möglichen Paramterwert >. übereinstimmen,
ist folgende Orthogonalitätsbedingung hinreichend und notwendig:
(7) ()=ß
XTU=O,
für alle>. E lRR
bzw. (Orthogonalitätsbedingung) .
Die Orthogonalitätsbedingung wird aber im allgemeinen nicht erfüllt sein, wie fol
gendes Argument zeigt. Typischerweise umfaßt vft das konstante Modell und so
mit liegt der konstante Vektor e+ = (1,... ,1) in .At. Damit die Orthogonalitätsbedin-
5.1 Fehlspezifikation des Modells 7.7.10 5-3
gung voraus
(RB) Rang(X) = S (Rang bedingung) .
Mit den linearen Räumen
(2)
die von den Spalten von X bzw. U aufgespannt werden, lassen sich die Modelle wie
folgt beschreiben
(LM)'
(LM)'*
Jl E vft,
Jl E JIC* vft + JV.
Legt man nun bei der Analyse das Modell vft zugrunde - obwohl das erweiterte
Modell JIC* zutrifft - so hat der Schätzer () zwar den Erwartungswert (), aber dieser
ist nicht durch Jl = X() definiert sondern nach 4.4 (0) durch
(3)
(4)
bzw.
Für das erweiterte Modell ergibt sich
() = X- Jl mit
(Linksinverse von X)
Damit die Parameter () und ß für jeden möglichen Paramterwert >. übereinstimmen,
ist folgende Orthogonalitätsbedingung hinreichend und notwendig:
(7) für alle>. E lRR
bzw. (Orthogonalitätsbedingung) .
Die Orthogonalitätsbedingung wird aber im allgemeinen nicht erfüllt sein, wie fol
gendes Argument zeigt. Typischerweise umfaßt vft das konstante Modell und so
mit liegt der konstante Vektor e+ = (1, ... ,1) in .At. Damit die Orthogonalitätsbedin-
5.1 Fehlspezifikation des Modells 7.7.10 5-4
gung gilt, müßte insbesondere für jede Spalte u von U geltenr
~u. = 0 bzw. u := l~u. = o.j Jr +r J j Jr
Folglich müßte die Mittelwerte U+r aller unberücksichtigten Covariablen ulr
' ..., UJr
gleich Null sein müssen, was im allgemeinen nicht der Fall sein dürfte.
In der Praxis ist allerdings oft nicht der gesamte Parameter ß bzw. () von Interesse,
sondern nur einzelne Komponenten ß bzw. () (die zu einer primär interessierendens s
Einflußvariablen gehören) oder Unterschiede (d.h. Differenzen) solcher Komponen-
ten, wie die folgenden beiden einfachen Beispiele zeigen:
• Linearen Regressionsanalyse einer Variablen z:
J.Lj = (){ + ()2Zj = ()1 + ()iZj-Z-)
Hier ist nur der Anstiegsparameter ()2 von Interesse, der den Einfluß der Cova
riablen Z beschreibt.
• Einfache Varianzanalyse für einen Faktor A mit K Stufen (vgl. 3.2.3-5)A A A
J.Lj = ()l I1j + ()2 12j + ... + ()K1Kj·
Hier sind die Unterschiede ()k - ()Z von primärem Interesse und weniger die ein-
zelnen Parameter ()k.
Wir wollen daher die Parameter ßund () in zwei Teile zerlegen
(8) ß = (ßl' ß2)
() = (()1' ()2)
mit
mit
und uns überlegen, unter welchen Bedingungen ß2
= ()2 gilt. Hierzu betrachten wir
die zugehörige Zerlegung der Matrix
wobei Xk
eine JxSk-Matrix für k = 1,2 ist, SOWIe die zuhehörigen linearen Teil-..
raume
(10)
Da die Spalten von X linear unabhängig sind, ist dies auch für die Spalten von Xl
und X2
der Fall, d.h. Xl und X2
haben vollen Spaltenrang. Die betrachteten Mo
delle lassen dann wie folgt formulieren
5.1 Fehlspezifikation des Modells 7.7.10
gung gilt, müßte insbesondere für jede Spalte u von U gelten r
~u. = 0 j Jr
bzw. U := l~u. = o. +r J j Jr
5-4
Folglich müßte die Mittelwerte U +r aller unberücksichtigten Covariablen ulr
' ... , U Jr
gleich Null sein müssen, was im allgemeinen nicht der Fall sein dürfte.
In der Praxis ist allerdings oft nicht der gesamte Parameter ß bzw. () von Interesse,
sondern nur einzelne Komponenten ß bzw. () (die zu einer primär interessierenden s s
Einflußvariablen gehören) oder Unterschiede (d.h. Differenzen) solcher Komponen-
ten, wie die folgenden beiden einfachen Beispiele zeigen:
• Linearen Regressionsanalyse einer Variablen z:
J.Lj = (){ + ()2Zj = ()1 + ()iZj - z )
Hier ist nur der Anstiegsparameter () 2 von Interesse, der den Einfluß der Cova
riablen Z beschreibt .
• Einfache Varianzanalyse für einen Faktor A mit K Stufen (vgl. 3.2.3-5) A A A
J.Lj = ()l I1j + ()2 12j + ... + ()K1Kj·
Hier sind die Unterschiede () k - ()Z von primärem Interesse und weniger die ein-
zelnen Parameter () k.
Wir wollen daher die Parameter ß und () in zwei Teile zerlegen
(8) ß = (ßl' ß2)
() = (()1' ()2)
mit
mit
und uns überlegen, unter welchen Bedingungen ß2
= ()2 gilt. Hierzu betrachten wir
die zugehörige Zerlegung der Matrix
wobei Xk
eine JxSk-Matrix für k = 1,2 ist, SOWIe die zuhehörigen linearen Teil-..
raume
(10)
Da die Spalten von X linear unabhängig sind, ist dies auch für die Spalten von Xl
und X2
der Fall, d.h. Xl und X2
haben vollen Spaltenrang. Die betrachteten Mo
delle lassen dann wie folgt formulieren
5.1 Fehlspezifikation des Modells 7.7.10 5-5
Xl ()l + X2 ()2'
Xlßl + X 2ß2 + VA.
und der Modellraum .At läßt sich darstellen als
Wir wollen jetzt zusätzlich noch fordern, daß die Spalten von Xl orthogonal zu de
nen von X2
sind, d.h. es soll gelten
(12) bzw.
Diese Bedingung läßt sich durch eine geignete Parametrisierung in obigen Bei
spielen (Regressions- bzw. Varianzanalyse) erfüllen. Unter (12) ist .At die direkte
Summe
beider Teilräume, und für die orthogonale Projektion auf .At ergibt sich
(14)
(15)
Pc4 = Pc41
+ Pc42
Pc41
= Xl X;,
mit
Wir wollen jetzt untersuchen, unter welchen Bedingungen ()2 = ß2
gilt. Zunächst ist
()2 gegeben durch
(16) bzw.
und analog (6) ergibt sich
Damit die Parameter ()2 und ß2
für jeden möglichen Paramterwert A übereinstim
men, ist analog (7) - zusätzlich zu (12) - die folgende Orthogonalitätsbedingung hinrei
chend und notwendig:
5.1 Fehlspezifikation des Modells 7.7.10 5-5
Xl ()l + X2 ()2'
Xlßl + X 2ß2 + VA.
und der Modellraum .At läßt sich darstellen als
Wir wollen jetzt zusätzlich noch fordern, daß die Spalten von Xl orthogonal zu de
nen von X2
sind, d.h. es soll gelten
(12) bzw.
Diese Bedingung läßt sich durch eine geignete Parametrisierung in obigen Bei
spielen (Regressions- bzw. Varianz analyse) erfüllen. Unter (12) ist .At die direkte
Summe
beider Teilräume, und für die orthogonale Projektion auf .At ergibt sich
(14)
(15)
Pc4 = Pc41
+ Pc42
Pc41
= Xl X;,
mit
Wir wollen jetzt untersuchen, unter welchen Bedingungen ()2 = ß2
gilt. Zunächst ist
()2 gegeben durch
(16) bzw.
und analog (6) ergibt sich
Damit die Parameter ()2 und ß2
für jeden möglichen Paramterwert A übereinstim
men, ist analog (7) - zusätzlich zu (12) - die folgende Orthogonalitätsbedingung hinrei
chend und notwendig:
5.1 Fehlspezifikation des Modells 7.7.10 5-6
(18) für alle AE IRR
bzw. ~ ..1 JV (Orthogonalitätsbedingung) .
Im folgenden werden wir an zwei elementaren, aber wichtigen Beispielen (einfache
Varianzanalyse und lineare Regression einer Variablen) untersuchen, unter wel
chen Bedingungen die interessierenden Parameter auch bei Fehlspezifikation des
Modells erwartungstreu geschätzt werden können. Da diese Bedingungen nicht au
tomatisch erfüllt sein werden, gehen wir auf die sogenannte Randomisierung in
der Datenerhebung ein, unter der sich eine Fehlspezifikation des Modells - bis auf
eine Vergrößerung der Varianz - nicht mehr auswirkt.
5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse
Wir versetzen uns jetzt konkret in die Situation der einfachen Varianzanalyse für ei-
nen Faktor A E {I, ,K} mit K Stufen (vgl. 3.2.3-5). Hierbei verwenden wir statt des
Einzel-Index j = 1, , J wieder den Doppelindex (k,i) , bei dem k = 1, ... ,K die Stufe
von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe
k ist. Die Gesamtzahl der Beobachtungen ist dann J = ~ I(k).k
Der Analyse legen wir das vollständige Modell für einen Faktor zugrunde
(1) für alle 1 < k < K, 1 < i < I(k),
während in Wirklichkeit (analog 5.1) das folgende erweiterte lineare Modell zutrifft
(2) für alle 1 < k < K, 1 < i < I(k).
Der Zusammenhang zwischen den Parametern () und ß ergibt sich nach 5.1 (6) zu
(3) Bk ßk +ul+A für alle 1 < k < K, wobei
1(4) u k+ I(k) ~ u ki (u-Mittelwertfür Stufe k).
zBeim Vergleich der verschiedene Stufen sind nun nicht die Parameter Bk bzw. ßkselbst, sondern deren Unterschiede für verschiedene Stufen k:;= l von Interesse. Für
diese folgt:
5.1 Fehlspezifikation des Modells 7.7.10 5-6
(18) für alle A E IRR
bzw. (Orthogonalitätsbedingung) .
Im folgenden werden wir an zwei elementaren, aber wichtigen Beispielen (einfache
Varianzanalyse und lineare Regression einer Variablen) untersuchen, unter wel
chen Bedingungen die interessierenden Parameter auch bei Fehlspezifikation des
Modells erwartungstreu geschätzt werden können. Da diese Bedingungen nicht au
tomatisch erfüllt sein werden, gehen wir auf die sogenannte Randomisierung in
der Datenerhebung ein, unter der sich eine Fehlspezifikation des Modells - bis auf
eine Vergrößerung der Varianz - nicht mehr auswirkt.
5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse
Wir versetzen uns jetzt konkret in die Situation der einfachen Varianz analyse für ei-
nen Faktor A E {I, ... ,K} mit K Stufen (vgl. 3.2.3-5). Hierbei verwenden wir statt des
Einzel-Index j = 1, ... , J wieder den Doppelindex (k,i) , bei dem k = 1, ... ,K die Stufe
von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe
k ist. Die Gesamtzahl der Beobachtungen ist dann J = ~ I(k). k
Der Analyse legen wir das vollständige Modell für einen Faktor zugrunde
(1) für alle 1 < k < K, 1 < i < I(k),
während in Wirklichkeit (analog 5.1) das folgende erweiterte lineare Modell zutrifft
(2) für alle 1 < k < K, 1 < i < I(k).
Der Zusammenhang zwischen den Parametern () und ß ergibt sich nach 5.1 (6) zu
(3) Bk ßk + ul+ A für alle 1 < k < K, wobei
1 (4) u k+ I(k) ~ u ki (u-Mittelwertfür Stufe k).
z Beim Vergleich der verschiedene Stufen sind nun nicht die Parameter Bk bzw. ßk selbst, sondern deren Unterschiede für verschiedene Stufen k:;= l von Interesse. Für
diese folgt:
5.1 Fehlspezifikation des Modells 7.7.10 5-7
(5) für k ;= l.
Hieraus ergibt sich, daß die Unterschiede der Komponenten von () mit denen von ßgenau dann für jedes>. übereinstimmen, wenn die u-Mittelwerte in den zugehörigen
Stufen gleich sind
(6) für alle>. E IRR
Da die Gleichheit uk+= u
z+ der Mittelwerte für alle kund l im allgemeinen nicht
vorliegen wird, wollen wir uns jetzt überlegen, wie man diese Problem bereits der
Datenerhebung umgehen kann. Dies setzt allerdings ein experimentelles Design vo
raus, d.h. für jedes Untersuchungsobjekt j kann die Stufe des Faktors frei gewählt
werden, und der resultierende Wert von Y. wird beobachtet. Ein typische Beispiel]
hierfür ist eine klinische Studie, bei der insgesamt K verschiedene Behandlungen
bei einem bestimmten Krankheitsbild eingesetzt werden können, und die Zielvari
able Y den Behandlungserfolg beurteilt. Hier liegt ein experimentelles Design vor,
wenn bei jedem Patienten j frei entschieden werden kann, welche der K Behandlun
gen angewandt wird.
5.1.2 Einfache Varianzanalyse mit Randomisierung
Wir betrachten jetzt das sogenannte randomisierte Design, bei dem jedem Untersu
chungsobjekt (z.B. ein Patient) die Stufe des Faktors (z.B. die Behandlung) zufällig
zugeteilt wird, d.h. es wird gemäß einer vorgegebenen sogenannten Randomisierung
verteilung auf der Menge {I, ... ,K} jeweils eine Stufe zufällig ausgewählt (Randomi
sierung). Typischerweise ist die Randomiserungsverteilung die Gleichverteilung, weil
dies zu einem näherungsweise balanciertem Design führt. Aber es kann auch gute
Gründe für die Wahl einer anderen Verteilung geben, und wir wollen uns deshalb
auf keine konkrete Randomisierungsverteilung festlegen.
Wir formulieren das Modell zunächst für eine Einzelbeobachtung Y und erst später
für den gesamten Beobachtunsvektor Y. Da die zu Y gehörige Faktorstufe vorher
zufällig gewählt wurde, betrachten wir den Faktor Aals Zufallsvariable mit vorge
gebener Randomisierungsverteilung. Das der einfachen Varianzanalyse zugrunde
liegende Bedingte Lineare Modell einer Einzelbeobachtung lautet dann (vgl. auch 1.1)
5.1 Fehlspezifikation des Modells 7.7.10 5-7
(5) für k ;= l.
Hieraus ergibt sich, daß die Unterschiede der Komponenten von () mit denen von ß genau dann für jedes>. übereinstimmen, wenn die u-Mittelwerte in den zugehörigen
Stufen gleich sind
(6) für alle>. E IRR
Da die Gleichheit uk+ = u
z+ der Mittelwerte für alle kund l im allgemeinen nicht
vorliegen wird, wollen wir uns jetzt überlegen, wie man diese Problem bereits der
Datenerhebung umgehen kann. Dies setzt allerdings ein experimentelles Design vo
raus, d.h. für jedes Untersuchungsobjekt j kann die Stufe des Faktors frei gewählt
werden, und der resultierende Wert von Y. wird beobachtet. Ein typische Beispiel ]
hierfür ist eine klinische Studie, bei der insgesamt K verschiedene Behandlungen
bei einem bestimmten Krankheitsbild eingesetzt werden können, und die Zielvari
able Y den Behandlungserfolg beurteilt. Hier liegt ein experimentelles Design vor,
wenn bei jedem Patienten j frei entschieden werden kann, welche der K Behandlun
gen angewandt wird.
5.1.2 Einfache Varianzanalyse mit Randomisierung
Wir betrachten jetzt das sogenannte randomisierte Design, bei dem jedem Untersu
chungsobjekt (z.B. ein Patient) die Stufe des Faktors (z.B. die Behandlung) zufällig
zugeteilt wird, d.h. es wird gemäß einer vorgegebenen sogenannten Randomisierung
verteilung auf der Menge {I, ... ,K} jeweils eine Stufe zufällig ausgewählt (Randomi
sierung). Typischerweise ist die Randomiserungsverteilung die Gleichverteilung, weil
dies zu einem näherungsweise balanciertem Design führt. Aber es kann auch gute
Gründe für die Wahl einer anderen Verteilung geben, und wir wollen uns deshalb
auf keine konkrete Randomisierungsverteilung festlegen.
Wir formulieren das Modell zunächst für eine Einzelbeobachtung Y und erst später
für den gesamten Beobachtunsvektor Y. Da die zu Y gehörige Faktorstufe vorher
zufällig gewählt wurde, betrachten wir den Faktor Aals Zufallsvariable mit vorge
gebener Randomisierungsverteilung. Das der einfachen Varianzanalyse zugrunde
liegende Bedingte Lineare Modell einer Einzelbeobachtung lautet dann (vgl. auch 1.1)
5.1 Fehlspezifikation des Modells 7.7.10 5-8
(1) f-Lk:= E(YIA=k) = Bk für 1 < k < K.
Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt
(2) Var(YIA=k) = a2 für 1 < k < K.
Weiter gehen wir davon aus, daß die im obigen Modell nicht berücksichtigte Cova
riable u E IRR nicht beobachtet wird (sonst könnte man sie ja mit ins Modell auf
nehmen) und als Realisierung eines R-dimensionalen Zufallsvektors €ansehen wer
den kann. In Wirklichkeit soll dann das erweiterte Bedingte Lineare Modell
(3) für 1 <k< K,
und das zugehörige bedingte homogene Varianzmodell gelten
(4) Var(YIA=k,€=u) = a; für alle kund u.
Durch die Randomisierung ist sichergestellt, daß die Verteilung von A nicht von der
(unbekannten) Realisierung u von €abhängt und somit sind A und €stochastisch
unabhängig. Deshalb ergibt sich aus (3) das gegenüber (1) veränderte Modell
(5) für 1 < k < K.
Der Vergleich mit (1) liefert den Zusammenhang von Bund ß
(6)
und für die interessierenden Stufenunterschiede gilt daher
(7) für alle k, l.
Man beachte, daß das Modell (1) nicht fehlspezifiziert, weil es ebenso wie das kor
rekte Modell (5) die bedingten Erwartungswerte f-Lk in keiner Weise einschränkt
und somit das vollständige Modell für einen Faktor darstellt. Allerdings modelliert
der Parameter Bk im erweiterten Modell (3) nicht den Einfluß der Stufe k, weil der
wahre Einfluß der Faktorstufe k durch ßk modelliert wird.
Für einen Datensatz Y = (Yk) sind nach (7) die Schätzungen 0k - 0z erwartungstreu
für den wahren Unterschiede ßk
- ßr Die wahren Parameter ß und>' lassen sich
5.1 Fehlspezifikation des Modells 7.7.10 5-8
(1) f-Lk:= E(YIA=k) = Bk für 1 < k < K.
Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt
(2) Var(YIA=k) = a2 für 1 < k < K.
Weiter gehen wir davon aus, daß die im obigen Modell nicht berücksichtigte Cova
riable u E IRR nicht beobachtet wird (sonst könnte man sie ja mit ins Modell auf
nehmen) und als Realisierung eines R-dimensionalen Zufallsvektors € ansehen wer
den kann. In Wirklichkeit soll dann das erweiterte Bedingte Lineare Modell
(3) für 1 <k< K,
und das zugehörige bedingte homogene Varianzmodell gelten
( 4) Var(YIA=k,€=u) = a; für alle kund u.
Durch die Randomisierung ist sichergestellt, daß die Verteilung von A nicht von der
(unbekannten) Realisierung u von € abhängt und somit sind A und € stochastisch
unabhängig. Deshalb ergibt sich aus (3) das gegenüber (1) veränderte Modell
(5) für 1 < k < K.
Der Vergleich mit (1) liefert den Zusammenhang von Bund ß
(6)
und für die interessierenden Stufen unterschiede gilt daher
(7) für alle k, l.
Man beachte, daß das Modell (1) nicht fehlspezifiziert, weil es ebenso wie das kor
rekte Modell (5) die bedingten Erwartungswerte f-Lk in keiner Weise einschränkt
und somit das vollständige Modell für einen Faktor darstellt. Allerdings modelliert
der Parameter Bk im erweiterten Modell (3) nicht den Einfluß der Stufe k, weil der
wahre Einfluß der Faktorstufe k durch ßk modelliert wird.
Für einen Datensatz Y = (Yk) sind nach (7) die Schätzungen 0k - 0z erwartungstreu
für den wahren Unterschiede ßk
- ßt Die wahren Parameter ß und>' lassen sich
5.1 Fehlspezifikation des Modells 7.7.10 5-9
ohne Kenntnis der Covariablenwerte U = (uk) allerdings nicht schätzen, weil sie
durch (5) nicht eindeutig bestimmt sind.
Abschließend wollen wir noch auf den Zusammenhang der Varianzen 0-2 und o-}
aus (2) und (4) eingehen. Hierzu setzen wir das Zufällige Lineare Modell (vgl. 1.1) für
eine Einzelbeobachtung voraus
(8) mit E(c) = o.
Hierbei bezeichnet I{A = k} die Indikatorvariable für das Ereignis {A = k}, und die
Fehlervariable c* ist von (A, €) stochastisch unabhängig. Hieraus folgt die Gültig
keit der bedingten Varianzhomogenität (4) (vgl. 1.2)
(9) Var(Y IA = k, €= u) = Var(c*) =: o-} für alle kund u.
Unter Verwendung der zentrierten Variablen
(10) mit
läßt sich das Modell (8) auch schreiben als
(11) Y = 2: I{A = k} . [ßk + E(€) TA ] + c mitk
(12) c=€oTA + c*, E(c) =0.
Mit (6) lautet (11)
(13) mit E(c) = 0,
wobei c stochastisch unabhängig von A ist. Hieraus ergibt sich die bedingten Vari
anzhomogenität (2) (vgl. 1.2)
(14) Var(YI A = k) = Var(c) 2=:0- für alle k.
Wegen der Unabhängigkeit von €und c* ist
Falls € ° TA keine Einpunktverteilung hat, ist also 0-2> 0-;, und somit ließe sich in
diesem Fall die bedingte Varianz von Y durch Kenntnis und Einbeziehung der Co
variable u ins Modell verringern - was sich auch vorteilhaft auf die Testschärfe
5.1 Fehlspezifikation des Modells 7.7.10 5-9
ohne Kenntnis der Covariablenwerte U = (u k) allerdings nicht schätzen, weil sie
durch (5) nicht eindeutig bestimmt sind.
Abschließend wollen wir noch auf den Zusammenhang der Varianzen a2 und a} aus (2) und (4) eingehen. Hierzu setzen wir das Zufällige Lineare Modell (vgl. 1.1) für
eine Einzelbeobachtung voraus
(8) mit E(c) = o.
Hierbei bezeichnet I{A = k} die Indikatorvariable für das Ereignis {A = k}, und die
Fehlervariable c * ist von (A, €) stochastisch unabhängig. Hieraus folgt die Gültig
keit der bedingten Varianzhomogenität (4) (vgl. 1.2)
(9) Var(Y I A = k, € = u) = Var( c) =: a} für alle kund u.
Unter Verwendung der zentrierten Variablen
(10) mit
läßt sich das Modell (8) auch schreiben als
(11) Y = 2: I{A = k} . [ßk + E(€) TA ] + c mit k
(12) c=€oTA + c*, E(c) =0.
Mit (6) lautet (11)
(13) mit E(c) = 0,
wobei c stochastisch unabhängig von A ist. Hieraus ergibt sich die bedingten Vari
anzhomogenität (2) (vgl. 1.2)
(14) Var(YI A = k) = Var(c) 2 =:a für alle k.
Wegen der Unabhängigkeit von €und c* ist
Falls € ° TA keine Einpunktverteilung hat, ist also a2> a;, und somit ließe sich in
diesem Fall die bedingte Varianz von Y durch Kenntnis und Einbeziehung der Co
variable u ins Modell verringern - was sich auch vorteilhaft auf die Testschärfe
5.1 Fehlspezifikation des Modells 7.7.10 5-10
und die Länge von Konfidenzintervallen auswirken würde.
Insgesamt stellen wir fest, daß die Randomisierung bei der einfachen Varianzana
lyse und Nichtberücksichtigung einer relevanten Covariablen u zwar eine Fehlspe
zifikation des Modells vermeidet, dafür aber zu einer gegenüber der bedingten Vari
anz a; höheren Varianz a2 (und somit geringerer Testschärfe) führt. Aber die rele
vanten Stufenunterschiede (7) lassen trotzdem erwartungstreu schätzen. Folglich
kann - und sollte man - durch Randomisierung unerwünschte Fehlspezifikationen
ausschalten.
5.1.3 Fehlspezifikation bei linearer Regression einer Variablen
Wir betrachten jetzt das lineare Regressionsmodell mit einer Variablen z
(1) !-L. = E(Y.) = B1' +B
2z.
J J Jfür alle j.
Unter Verwendung der zentrierten Covariablen
(2) x.=z.-zJ J
mit 1z = J ~z.. J
J
läßt sich das Modell äquivalent schreiben als
(3) !-L. = E(Y.) = B1+B
2x.
J J Jfür alle j, mit
Da uns hier primär der Parameter B2 interessiert (der den Einfluß von z bzw. x be
schreibt) ist die Darstellung (3) vorteilhafter, weil die Spalten e+= (1) und x = (xj)
der zugehörigen Covariablenmatrix
orthogonal sind. In Vektor-Schreibweise lautet das Regressionsmodell
Wir gehen jetzt wieder davon aus, daß in Wirklichkeit das erweiterte Modell gilt
(6)
Da (4) eine Zerlegung der Form 5.1 (9) ist mit Xl = e+' X2
= x, ergibt sich aus 5.1
(17) und X~X2=Szz der Zusammenhang der beiden relevanten Anstiegsparameter
5.1 Fehlspezifikation des Modells 7.7.10 5-10
und die Länge von Konfidenzintervallen auswirken würde.
Insgesamt stellen wir fest, daß die Randomisierung bei der einfachen Varianzana
lyse und Nichtberücksichtigung einer relevanten Covariablen u zwar eine Fehlspe
zifikation des Modells vermeidet, dafür aber zu einer gegenüber der bedingten Vari
anz a; höheren Varianz a2 (und somit geringerer Testschärfe) führt. Aber die rele
vanten Stufenunterschiede (7) lassen trotzdem erwartungstreu schätzen. Folglich
kann - und sollte man - durch Randomisierung unerwünschte Fehlspezifikationen
ausschalten.
5.1.3 Fehlspezifikation bei linearer Regression einer Variablen
Wir betrachten jetzt das lineare Regressionsmodell mit einer Variablen z
(1) J-L. = E(Y.) = B1' + B
2z.
J J J für alle j.
Unter Verwendung der zentrierten Covariablen
(2) x.=z.-z J J
mit 1 z = J ~z. . J
J
läßt sich das Modell äquivalent schreiben als
(3) J-L. = E(Y.) = B1 + B
2 x.
J J J für alle j, mit
Da uns hier primär der Parameter B 2 interessiert (der den Einfluß von z bzw. x be
schreibt) ist die Darstellung (3) vorteilhafter, weil die Spalten e + = (1) und x = (xj)
der zugehörigen Covariablenmatrix
orthogonal sind. In Vektor-Schreibweise lautet das Regressionsmodell
Wir gehen jetzt wieder davon aus, daß in Wirklichkeit das erweiterte Modell gilt
(6)
Da (4) eine Zerlegung der Form 5.1 (9) ist mit Xl = e +' X2
= x, ergibt sich aus 5.1
(17) und X~X2 =Szz der Zusammenhang der beiden relevanten Anstiegsparameter
5.1 Fehlspezifikation des Modells 7.7.10 5-11
(7) mit
Unter Verwendung der Spaltendarstellung
ergibt sich dann weiter
(9)
Wegen
für alle AE IRR
für alle r = 1, ...,R
(11)
(10) xTu = 2:= (zo-z)u o = 2:= (zo-z)(u o -u+) mit u+r= J12:=0 uJorr 0 J Jr 0 J Jr r
J J Jbesagt x Tu = 0 , daß die empirische Covarianz der Vektoren x und u verschwindet
r r
J1 2:= (z 0 - z) (u 0 - u+ ) = o.
o J Jr rJ
Da die empirischen Covarianzen im allgemeinen nicht verschwinden werden
- und dies bei unbeobachtetem u auch nicht überprüfbar ist - werden wir im folgen-r
den zeigen, wie man das Problem durch eine Randomisierung umgehen kann.
5.1.4 Lineare Regression einer Variablen mit Randomisierung
Analog zur einfachen Varianzanalyse wollen wir jetzt ein randomisiertes Design be
trachten. Als typisches Besipiel kann man sich eine klinische Studie vorstellen, bei
dem der Einfluß der Dosis z eines Medikaments auf eine relevante Zielvariable Y
untersucht werden soll, wobei die Dosis z frei bestimmt werden kann (experimen
telles Design). Bei einer Randomisierung wird die Dosis z zufällig aus einer (typi
scherweise endlichen) Trägermenge TZ C IR gewählt.
Wir formulieren das zugehörige Modell wieder erst für eine Einzelbeobachtung Y und
betrachten den gesamten Beobachtunsvektor Y später. Da der zu Y gehörige Co
variablenwert z zufällig gewählt wurde, betrachten wir die Covariable als Zufalls
variable Z mit vorgegebener Randomisierungsverteilung auf dem Träger TZ Das
der Regressionsanalyse zugrunde liegende Bedingte Lineare Modell einer Einzelbe
obachtung lautet dann (vgl. auch 1.1)
5.1 Fehlspezifikation des Modells 7.7.10 5 -11
(7) mit
Unter Verwendung der Spaltendarstellung
ergibt sich dann weiter
(9) für alle A E IRR
für alle r = 1, ... ,R
Wegen
(10) xTu = 2:= (z.-z)u. = 2:= (z.-z)(u. -u+) mit u = J12:= u. r . J Jr . J Jr r +r. Jr
J J J besagt x T u = 0 , daß die empirische Covarianz der Vektoren x und u verschwindet
r r
(11) J1 2:= (z. - z) (u. - u+ ) = o.
. J Jr r J
Da die empirischen Covarianzen im allgemeinen nicht verschwinden werden
- und dies bei unbeobachtetem u auch nicht überprüfbar ist - werden wir im folgenr
den zeigen, wie man das Problem durch eine Randomisierung umgehen kann.
5.1.4 Lineare Regression einer Variablen mit Randomisierung
Analog zur einfachen Varianzanalyse wollen wir jetzt ein randomisiertes Design be
trachten. Als typisches Besipiel kann man sich eine klinische Studie vorstellen, bei
dem der Einfluß der Dosis z eines Medikaments auf eine relevante Zielvariable Y
untersucht werden soll, wobei die Dosis z frei bestimmt werden kann (experimen
telles Design). Bei einer Randomisierung wird die Dosis z zufällig aus einer (typi
scherweise endlichen) Trägermenge TZ C IR gewählt.
Wir formulieren das zugehörige Modell wieder erst für eine Einzelbeobachtung Y und
betrachten den gesamten Beobachtunsvektor Y später. Da der zu Y gehörige Co
variablenwert z zufällig gewählt wurde, betrachten wir die Covariable als Zufalls
variable Z mit vorgegebener Randomisierungsverteilung auf dem Träger TZ Das
der Regressionsanalyse zugrunde liegende Bedingte Lineare Modell einer Einzelbe
obachtung lautet dann (vgl. auch 1.1)
5.1 Fehlspezifikation des Modells 7.7.10 5 -12
(1) für alle z.
Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt
(2) Var(YIZ=z) = a 2 für alle z.
Weiter gehen wir wieder davon aus, daß die im obigen Modell nicht berücksichtigte
Covariable u E IRR als Realisierung eines R-dimensionalen Zufallsvektors € anse
hen werden kann. In Wirklichkeit soll dann das erweiterte bedingte lineare Modell
(3) für alle z.
und das zugehörige bedingte homogene Varianzmodell gelten
(4) Var(YIZ=z,€=u) = a} für alle z und u.
Durch die Randomisierung ist wieder sichergestellt, daß die Verteilung von Z nicht
von der (unbekannten) Realisierung u von € abhängt und somit sind Z und € sto
chastisch unabhängig. Deshalb ergibt sich aus (3) das Modell
(5)
mit
für alle z
welches formal mit dem Modell (1) übereinstimmt, wobei
(6)
Daher ist das Modell (1) auch korrekt und die Anstiegsparameter e2
bzw. ß2
beider
Modelle - die den Einfluß von z modellieren - stimmen überein.
Für einen Datensatz Y = (Y.) mit randomisierten Covariablen z = (z.) liegt daher] ]
trotz der nicht berücksichtigten Einflußvariablen (u.) keine Fehlspezifiaktion desA ]
Modells vor, und die Schätzung e2 ist erwartungstreu für den Anstiegsparameter
e2
= ß2. Lediglich die wahren Parameter ß{ und >'lassen sich ohne Kenntnis der Co
variablenwerte (u) nicht schätzen, weil sie durch ß1
nicht eindeutig bestimmt sind.
Der Unterschied zwischen dem Regressionsmodell (1) bzw. (5) und dem erweiterten
5.1 Fehlspezifikation des Modells 7.7.10 5 -12
(1) für alle z.
Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt
(2) Var(YIZ=z) = a 2 für alle z.
Weiter gehen wir wieder davon aus, daß die im obigen Modell nicht berücksichtigte
Covariable u E IRR als Realisierung eines R-dimensionalen Zufallsvektors € anse
hen werden kann. In Wirklichkeit soll dann das erweiterte bedingte lineare Modell
(3) für alle z.
und das zugehörige bedingte homogene Varianzmodell gelten
( 4) Var(YIZ=z,€=u) = a} für alle z und u.
Durch die Randomisierung ist wieder sichergestellt, daß die Verteilung von Z nicht
von der (unbekannten) Realisierung u von € abhängt und somit sind Z und € sto
chastisch unabhängig. Deshalb ergibt sich aus (3) das Modell
(5) für alle z
mit
welches formal mit dem Modell (1) übereinstimmt, wobei
(6)
Daher ist das Modell (1) auch korrekt und die Anstiegsparameter e2
bzw. ß2
beider
Modelle - die den Einfluß von z modellieren - stimmen überein.
Für einen Datensatz Y = (Y.) mit randomisierten Covariablen z = (z.) liegt daher ] ]
trotz der nicht berücksichtigten Einflußvariablen (u.) keine Fehlspezifiaktion des A ]
Modells vor, und die Schätzung e 2 ist erwartungstreu für den Anstiegsparameter
e2
= ß2. Lediglich die wahren Parameter ß{ und >'lassen sich ohne Kenntnis der Co
variablenwerte (u) nicht schätzen, weil sie durch ß1
nicht eindeutig bestimmt sind.
Der Unterschied zwischen dem Regressionsmodell (1) bzw. (5) und dem erweiterten
5.1 Fehlspezifikation des Modells 7.7.10 5-13
Modell liegt vor allem in der unterschiedlichen Varianz (2) und (4), was wir hier
analog zur Varianzanalyse untersuchen wollen. Ausgangspunkt ist wieder das Zu
fällige Lineare Modell (vgl. 1.1) für eine Einzelbeobachtung
(7) mit E(c) = 0,
und einer von (Z, €) stochastisch unabhängigen Fehlervariablen c*. Hieraus ergibt
sich die bedingten Varianzhomogenität (4)
(8) Var(YIZ=z, €= u) = Var(c) =: a} für alle z und u.
Unter Verwendung der zentrierten Variablen
(9) mit
läßt sich das Modell (7) auch schreiben als
(10)
(11)
mit
E(c) = 0,
wobei c stochastisch unabhängig von Z ist. Hieraus ergibt sich die bedingte
Varianzhomogenität (2)
(12) Var(YIA =k) Var(c) 2=:17 für alle k.
Wegen der Unabhängigkeit von €und c* ist
Falls €O TA keine Einpunktverteilung hat, so ließe sich die bedingte Varianz von Y
durch Kenntnis und Einbeziehung der Covariable u ins Modell verringern - was
sich wieder vorteilhaft auf die Testschärfe und die Länge von Konfidenzintervallen
auswirken würde.
Insgesamt stellen wir fest, daß die Randomisierung bei der Regressionsanalyse
wie schon bei der einfachen Varianzanalyse - und Nichtberücksichtigung einer rele
vanten Covariablen u eine Fehlspezifikation des Modells vermeidet, dafür aber zu
einer gegenüber der bedingten Varianz 17; höheren Varianz 172 (und somit geringe
rer Testschärfe) führt.
5.1 Fehlspezifikation des Modells 7.7.10 5-13
Modell liegt vor allem in der unterschiedlichen Varianz (2) und (4), was wir hier
analog zur Varianzanalyse untersuchen wollen. Ausgangspunkt ist wieder das Zu
fällige Lineare Modell (vgl. 1.1) für eine Einzelbeobachtung
(7) mit E(c) = 0,
und einer von (Z, €) stochastisch unabhängigen Fehlervariablen c *. Hieraus ergibt
sich die bedingten Varianzhomogenität (4)
(8) Var(YIZ=z, €= u) = Var(c) =: a}
Unter Verwendung der zentrierten Variablen
(9) mit
läßt sich das Modell (7) auch schreiben als
(10)
(11)
für alle z und u.
mit
E(c) = 0,
wobei c stochastisch unabhängig von Z ist. Hieraus ergibt sich die bedingte
Varianzhomogenität (2)
(12) Var(YIA =k) Var(c) 2 =:17 für alle k.
Wegen der Unabhängigkeit von €und c* ist
Falls €O TA keine Einpunktverteilung hat, so ließe sich die bedingte Varianz von Y
durch Kenntnis und Einbeziehung der Covariable u ins Modell verringern - was
sich wieder vorteilhaft auf die Testschärfe und die Länge von Konfidenzintervallen
auswirken würde.
Insgesamt stellen wir fest, daß die Randomisierung bei der Regressionsanalyse -
wie schon bei der einfachen Varianzanalyse - und Nichtberücksichtigung einer rele
vanten Covariablen u eine Fehlspezifikation des Modells vermeidet, dafür aber zu
einer gegenüber der bedingten Varianz 17; höheren Varianz 172 (und somit geringe
rer Testschärfe) führt.
5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 14
5.2 Anpassungstests für lineare Modelle
Wird bei einer statistischen Analyse ein bestimmtes lineares Modell verwendet, J welches wir jetzt mit Ao C R statt A bezeichnen wollen, so taucht die zentrale
Frage auf, ob das zugrunde gelegte Modell korrekt ist. Zur Überprüfung der Mo-
dell-Anpassung wird man die Abweichungen der Beobachtung Y = (Y1, ..., YJ) von
dem unter dem Modell Ao geschätzten Erwartungswert Po = (,Lol, ...,,L ) beurtei- O J
len. Dies kann sowohl global, d.h. für alle J Beobachtungen simultan, als auch lokal,
d.h. für alle Beobachtungen einzeln, erfolgen. Die lokale Beurteilung führt zu einer
Residuenanalyse, die wir später behandeln werden, und die globale Beurteilung führt
zu den Anpassungstests, auf die wir jetzt eingehen.
J Im Rahmen eines umfassenden linearen Modells 4 cA1 C R kann die Gültig-
keit des Modells 4 als eine lineare Hypothese formuliert werden
(1) Nullhypothese Ho: p E Ao (Modell Ao gilt)
Alternative H1: p 6 Ao , p E Al (Modell Ao gilt nicht, aber Al gilt).
die mit dem F-Test überprübar ist. Die Adäquatheit des hierbei als gültig vorausge-
setzten Obermodells A muß natürlich vorher hinreichend gesichert sein. Eine uni- 1
verselle Methode für einen solchen F-Test ist stets dann gegeben, wenn das Modell
Ao durch eine JxS Covariablenmatrix X beschrieben ist
und hierbei die verschiedenen Covariablenvektoren X . (also die Zeilen von X) nicht 3
nur einmal, sondern mehrmals auftreten. Man kann dies schon bei der Datenerhe- S bung sicherstellen, indem man für jede interessierende Covariable X E R nicht nur
eine, sondern mehrere voneinander unabhängige Beobachtungen Y erhebt. Wenn
zwei Beobachtungen denselben Covariablenvektor haben, so wollen wir sie als äqui-
valent (hinsichtlich ihrer Covariablen) ansehen, d.h. wir definieren eine Äquivalenz-
relation - auf { 1, ..., J) durch
Bezeichnet
5.2 Anpassungstest für lineare Modelle 11.8.05 5-14
5.2 Anpassungstests für lineare Modelle
Wird bei einer statistischen Analyse ein bestimmtes lineares Modell verwendet,
welches wir jetzt mit .ACO
C IR] statt .AC bezeichnen wollen, so taucht die zentrale
Frage auf, ob das zugrunde gelegte Modell korrekt ist. Zur Überprüfung der Mo
dell-Anpassung wird man die Abweichungen der Beobachtung Y = (Yl, ... , Y
J) von
dem unter dem Modell .ACo geschätzten Erwartungswert 40
= (401' ... , 4
0J) beurtei
len. Dies kann sowohl global) d.h. für alle J Beobachtungen simultan) als auch lokal)
d.h. für alle Beobachtungen einzeln) erfolgen. Die lokale Beurteilung führt zu einer
Residuenanalyse) die wir später behandeln werden, und die globale Beurteilung führt
zu den Anpassungstests, auf die wir jetzt eingehen.
Im Rahmen eines umfassenden linearen Modells .ACO
C.ACl
C IR] kann die Gültig
keit des Modells .ACo als eine lineare Hypothese formuliert werden
(1) Nullhypothese HO: Jl E.ACo (Modell .ACo gilt)
Alternative
die mit dem F-Test überprübar ist. Die Adäquatheit des hierbei als gültig vorausge
setzten Obermodells .ACl
muß natürlich vorher hinreichend gesichert sein. Eine uni
verselle Methode für einen solchen F-Test ist stets dann gegeben, wenn das Modell
.ACO
durch eine JxS Covariablenmatrix X beschrieben ist
und hierbei die verschiedenen Covariablenvektoren x. (also die Zeilen von X) nicht ]
nur einmal) sondern mehrmals auftreten. Man kann dies schon bei der Datenerhe-
bung sicherstellen, indem man für jede interessierende Covariable xE IRS nicht nur
eine, sondern mehrere voneinander unabhängige Beobachtungen Y erhebt. Wenn
zwei Beobachtungen denselben Covariablenvektor haben, so wollen wir sie als äqui
valent (hinsichtlich ihrer Covariablen) ansehen, d.h. wir definieren eine Äquivalenz
relation '""'"' auf { 1, ... , J} durch
Bezeichnet
5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 15
die Anzahl der verschiedenen Covariablenvektoren (bzw. Äquivalenzklassen), so kön-
nen wir diese K verschiedenen Covariablenvektoren X (11, ..., x(q formal als einen
Faktor A mit K Stufen auffassen. Zu jeder Beobachtung j ist die zugehörige Stufe k
von A . dadurch charakterisiert, daß X der zugehörige Covariablenwert ist: 3 (4
Bezeichet
die Anzahl aller Beobachtungen j, bei denen der Faktor A die Stufe k hat , so kön-
nen wir den Beobachtungsindex j = 1, ..., J wieder durch einen Doppelindex (5 , i ) mit
1 5 5 5 K und 1 5 i 5 I(k) ersetzen. Jede einzelne Beobachtung (k,i) ist dann gege-
ben durch (Yk i , xk ), wobei der Covariablenvektor
X - X k i - (k) für alle 1 5 i 5 I(k)
nicht vom Index i abhängt. Der Index k charakterisiert also den S-dimensionalen
Covariablenvektor X und der Index i zählt die Wiederholungen für diesen Covari- (4 ablenvektor.
Das vollständige Modell für den Faktor A läßt sich dann schreiben als
(M1 F) Pki = $k für alle 1 5 5 5 K , 1 5 i 5 I(k),
K mit einem Parametervektor 4 = ($ ...., $K) E R . Dieses Modell besagt, daß der Er- 1' wartungswert ,LL nur von der Stufe k , d.h. vom zugehörigen Covariablenwert X L i (k) (aber nicht vom Wiederholungsindex i) abhängt. Diese Abhängigkeit kann aber
völlig beliebig sein, da für jede Stufe k ein eigener Parameter $k vorgesehen ist.
Folglich wird man das Modell (MIF) stets dann voraussetzen können, wenn man
davon überzeugt ist, daß der Erwartungswert - auf beliebige Weise - nur von den
betrachteten Covariablen abhängt. Dies ist z.B. dann der Fall, wenn es sich bei allen
Beobachtungen Yki mit gleichem Covariablenwert X tatsächlich um unabhängige (4 Wiederholungen einer Zufallsvariablen Yk handelt. Andererseits kann das Modell
(MIF) z.B. dann falsch sein, wenn der Erwartungswert pki noch von weiteren
5.2 Anpassungstest für lineare Modelle
(4) K = # {x. E IRS I j = 1, ... , J} ]
11.8.05 5 -15
die Anzahl der verschiedenen Covariablenvektoren (bzw. Äquivalenzklassen), so kön
nen wir diese K verschiedenen Covariablenvektoren X (1) , ... , x(K) formal als einen
Faktor A mit K Stufen auffassen. Zu jeder Beobachtung j ist die zugehörige Stufe k
von Aj dadurch charakterisiert, daß x(k) der zugehörige Covariablenwert ist:
Bezeichet
(6) I(k) = #{j I Aj=k} = #{j I x j = x(k)} > 0
die Anzahl aller Beobachtungen j, bei denen der Faktor A die Stufe k hat , so kön
nen wir den Beobachtungsindex j = 1, ... , J wieder durch einen Doppelindex (k, i) mit
1 < k < Kund 1 < i < I(k) ersetzen. Jede einzelne Beobachtung (k, i) ist dann gege
ben durch (Yki
, xki
), wobei der Covariablenvektor
(7) für alle 1 < i < I(k)
nicht vom Index i abhängt. Der Index k charakterisiert also den S-dimensionalen
Covariablenvektor x(k) und der Index i zählt die Wiederholungen für diesen Covari
ablenvektor.
Das vollständige Modell für den Faktor A läßt sich dann schreiben als
(MIF) J-Lki = 1fJk für alle 1 < k < K, 1 < i < I(k),
mit einem Parametervektor "p = (1fJ1' .... , 1fJK
) E IRK. Dieses Modell besagt, daß der Er
wartungswert J-Lki nur von der Stufe k , d.h. vom zugehörigen Covariablenwert x(k)
(aber nicht vom Wiederholungs index i) abhängt. Diese Abhängigkeit kann aber
völlig beliebig sein, da für jede Stufe k ein eigener Parameter 1fJk
vorgesehen ist.
Folglich wird man das Modell (MIF) stets dann voraussetzen können, wenn man
davon überzeugt ist, daß der Erwartungswert - auf beliebige Weise - nur von den
betrachteten Covariablen abhängt. Dies ist z.B. dann der Fall, wenn es sich bei allen
Beobachtungen Y k i mit gleichem Covariablenwert x(k) tatsächlich um unabhängige
Wiederholungen einer Zufallsvariablen Y k handelt. Andererseits kann das Modell
(MIF) z.B. dann falsch sein, wenn der Erwartungswert J-Lk i noch von weiteren
5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 16
T (nicht erhobenen) Covariablen uk i€ IR abhängt, und diese nicht konstant bzgl. i
sind, d.h. (7) gilt nicht für u statt X.
Wir wollen jetzt die Gültigkeit des Modells (MIF) voraussetzen und bezeichnen
den zugehörigen Modellraum mit
J (8) Al = { E IR I pki = pkl für alle 1 < k < K und i, 1 = 1, ..., I(k) }
K = a x a I ( , x . . . x a I ( q
I(1] = L =l a ~ ( k )
Das Modell Al ist nun das gesuchte Obermodell von 4, denn nach (2) gilt
(9) T
P * I L k i = X ( k ) e für alle 1 < 5 < K und i = 1, ..., I(k),
und mit $ - xT 6 (für alle k) ergibt sich Ao C A l . k - (4
Bevor wir allerdings den F-Test anwenden können, müssen die folgenden Dimen-
sionsbedingungen erfüllt sein:
K = D i m A l < J ,
d.h. mindestens ein Covariablenwert tritt mehrmals auf.
S=DimjlCO < K ,
d.h. Ao ist nicht bereits das ,vollständige Modell" A l .
Wir setzen diese Dimensionsbedingungen jetzt voraus und wenden den F-Test auf
die Modelle 4 cA1 an. Die Schätzung von 4 unter dem umfassenden Modell
Al lautet nach Abschnitt 5.2 (16)
- (I0) >ul = C Fkt ekt bzw. h k i = 'kt für alle k, i mit
L 1
(11) = - C Yki (Mittelwert aller Beobachtungen der Stufe k) k t I(k)
Sind Po und 8, die Schätzungen unter dem Modell Ao, so hängt bOki nicht mehr
von i ab, und wir schreiben daher auch
T (12) f i o k i = ~ k = ~ ( k q ~ für alle 5, i.
Die relevanten Größen für den F-Test ergeben sich dann zu
5.2 Anpassungstest für lineare Modelle 11.8.05 5-16
(nicht erhobenen) Covariablen u ki E IR? abhängt, und diese nicht konstant bzgl. i
sind, d.h. (7) gilt nicht für u statt x.
Wir wollen jetzt die Gültigkeit des Modells (MIF) voraussetzen und bezeichnen
den zugehörigen Modellraum mit
(8) ...41 = {Jl E IR] I /-Lki = /-Lkl für alle 1 < k < Kund i, l = 1, ... , I(k) } K
= D.1(1) x D.1(2) x ... x D.1(K) = k D1
D.1(k)
Das Modell...41
ist nun das gesuchte übermodell von ...40
' denn nach (2) gilt
T (9) JlE...40 {} /-Lki=x(k)() füralle1<k<Kundi=1, ... , I(k) ,
und mit 1fJk = x~) () (für alle k) ergibt sich ...40
C ...41.
Bevor wir allerdings den F-Test anwenden können, müssen die folgenden Dimen
sionsbedingungen erfüllt sein:
(DB1) K = Dim...41
< J!
d.h. mindestens ein Covariablenwert tritt mehrmals auf.
(DB2) S = Dim...40
< K,
d.h . ...40
ist nicht bereits das "vollständige Modell" ...41"
Wir setzen diese Dimensionsbedingungen jetzt voraus und wenden den F-Test auf
die Modelle ...40
C...41
an. Die Schätzung von Jl1
unter dem umfassenden Modell
...41
lautet nach Abschnitt 5.2 (16)
(10)
(11)
bzw. 41ki = Y k+ für alle k, i
(Mittelwert aller Beobachtungen der Stufe k)
mit
Sind 40
und () 0 die Schätzungen unter dem Modell ...40
' so hängt 40
k i nicht mehr
von i ab, und wir schreiben daher auch
(12) A A T()A /-Lo ki = /-Lo k = x(k) für alle k, i.
Die relevanten Größen für den F-Test ergeben sich dann zu
5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 17
(13) D ~ V ( A J = I I Y - I L ~ I I ~ = C C ( Y ~ ~ - ~ ~ ~ ~ ) ~ k i
jAbweichungsquadrate der Einzelwerte um 4)
(14) ~ e v ( ~ ~ ) = I I Y - > ~ ~ 1 1 ~ = C C ( y k i - Fk+12 k i
(Ab~eichungs~uadrate der Einzelwerte vom Gruppenmittel)
(I5) ADev = I I P ~ - > ~ ~ I I ~ = C I ( ~ ) ' ( ~ ~ ~ - ~ ~ ~ ~ ) 2 L
jAbweichungsquadrate der Gruppenmittel um 4)
Und die zugehörige Tafel der Streuungszerlegung ist in Tabelle 1 angegeben.
Tabelle 1: Tafel der Streuungszerlegung für den Anpassungstest
Streuung (Ursache)
Gruppenmittel um A 0
In den Gruppen
Einzelwerte um 4
Hierbei sind 82 und e2 die Schätzungen von o2 bzgl. Al und A0 1 0
(16) $2 - - 1
1 J -K L i
Dev
ADev
Dev(AJ
Dev(Ao)
(mittlere Streuung der Einzelwerte um Gruppenmittel),
$2 - - 1 - C C ('ki- hk12 0 J-S
L i
FG
D G = K - S
F G ( A l ) = J- K
F G ( A o ) = J-S
(mittlere Streuung der Einzelwerte um das Modell A0).
D ~ V / F G
-2 0
0
o A 2 1
A 2 0
0
Und 5; ist auch eine MQ-Schätzung von o2 unter dem Modell Ao, die sich dadurch
ergibt, daß man anstelle der ursprünglichen J Beobachtungen (Yki) jetzt die K mit
I(k) gewichteten Gruppenmittelwerte F verwendet: k t
5.2 Anpassungstest für lineare Modelle 11.8.05
(13)
(14)
Dev(vltJ = 11 Y - 40 11 2 = 2: 2: (Yk · - 40k )2
k i Z
(Abweichungsquadrate der Einzelwerte um vlto)
A 2 - 2 Dev(vlt1) = IIY -/l111 = 2: 2: (Yk · - Y k +)
k i Z
(Abweichungsquadrate der Einzelwerte vom GruppenmitteV
(15) L:,Dev = 1141-40 11 2 = 2: I(k)· (Yk + - 40k )2
k (Abweichungsquadrate der Gruppenmittel um vlto)
Und die zugehörige Tafel der Streuungszerlegung ist in Tabelle 1 angegeben.
Streuung (Ursache) Dev FG Dev/FG
Gruppenmittel um vita L:,Dev MG =K-S -2 O"a
In den Gruppen Dev(vlt1) FG(vlt
1)=J-K
A2 0"1
Einzelwerte um vlto Dev(vlto) FG(vlto)=J-S A2
0"0
Tabelle 1: Tafel der Streuungszerlegung für den Anpassungstest
Hierbei sind ai und a~ die Schätzungen von 0"2 bzgl. vlt1 und vita
(16) A2 1 - 2 0"1 = J-K 2i 1 (Yki - Y k +)
(mittlere Streuung der Einzelwerte um GruppenmitteV!
(17) a~ = J~S 2i 1 (Yki - 40k )2
(mittlere Streuung der Einzelwerte um das Modell vita).
5 -17
Und a~ ist auch eine MQ-Schätzung von 0"2 unter dem Modell vlto' die sich dadurch
ergibt, daß man anstelle der ursprünglichen J Beobachtungen (Yki
) jetzt die K mit
I(k) gewichteten Gruppenmittelwerte Y k + verwendet:
5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 18
(18) a2 - - 1 2
0 K-S L
(mittlere Streuung der Gruppenmittel um das Modell A0).
Die F-Statistik läßt sich dann schreiben als
-2 0
1 2 0 -
K- IIb-boII (19) F = - - - 2
0 1
1 J-K - I I Y - ~ I I ~
Der F-Test bei der einfachen Varianzanalyse kann jetzt auch als ein Anpassungs-
test für das lconstante Modell interpretiert werden.
5.2 Anpassungstest für lineare Modelle 11.8.05 5-18
(18) a~ = K~S 2: I(k) . (Yk + - 40k )2 k
(mittlere Streuung der Gruppenmittel um das Modell .ACo).
Die F-Statistik läßt sich dann schreiben als
(19) F= (F-Statistik) !
Der F-Test bei der einfachen Varianzanalyse kann jetzt auch als ein Anpassungs
test für das konstante Modell interpretiert werden.
5.3 Residuenanalyse 11.8.05 5 - 19
5.3 Residuenanalyse
Zur Beurteilung, ob das verwendete lineare Modell .L& die beobachteten Daten adä-
quat beschreibt, liegt es nahe, die Beobachtungen Y ..., YJ mit den unter dem Mo- l'
dell geschätzten Erwartungswerten ,L ...,,L zu vergleichen. Neben dem bereits er- 1' J
läuterten globalen Vergleich im Rahmen von Anpassungstests, wollen wir jetzt auf
lokale Vergleiche eingehen, bei denen man die Residuen
(Residuum)
für alle Beobachtungen j einzeln betrachtet und analysiert. Die Methoden der Resi-
duenanalyse sind eher heuristisch als formal begründet und ihre Anwendung und
Interpretation erfordert etwas Erfahrung und Fingerspitzengefühl. In der Regel
handelt es sich um graphische Methoden, sogenannte Residuen-Plots, bei denen die
(gegebenfalls noch modifizierten) Residuen gegen andere interessierende Größen
aufgetragen werden, wie z. B.
die geschätzten Erwartungswerte ,LI. 3
spezielle Covariablen-Komponenten X . oder eine interessierende Funk- 3s '
tion f(x. ) davon. 3s
Bei allen Residuenplots beurteilt man (optisch), ob Punkte „zufällign verteilt sind
oder ob auffällige Strukturen erkennbar sind, die es dann zu interpretieren gilt.
Neben dem durch (1) definierten sogenannten rohen Residuum werden auch Modifi-
kationen betrachtet. Häufig wird das skalierte Residuums verwendet
(skaliertes Residuum)
welches man formal aus der standardisierten Beobachtung
erhält, indem man ,LL. und a durch ihre Schätzungen ersetzt. Das skalierte Resi- 3
duum unterscheidet sich vom rohen Residuum R . zwar nur um den Faktor G , hat 3
aber den Vorteil einer gewissen Normierung, weil die Quadratsumme der skalier-
ten Residuen immer den Freiheitsgrad des Modells ergibt
Will man auch die unterschiedliche Varianz der rohen Residuen R. für verschie- 3
5.3 Residuenanalyse 11.8.05 5-19
5.3 Residuenanalyse
Zur Beurteilung, ob das verwendete lineare Modell vft die beobachteten Daten adä
quat beschreibt, liegt es nahe, die Beobachtungen Y1' ... , Y J mit den unter dem Mo
dell geschätzten Erwartungswerten (t , ... , (t zu vergleichen. Neben dem bereits er-1 J
läuterten globalen Vergleich im Rahmen von Anpassungstests, wollen wir jetzt auf
lokale Vergleiche eingehen, bei denen man die Residuen
(1) R.=Y.-(t. J J J
(Residuum)
für alle Beobachtungen j einzeln betrachtet und analysiert. Die Methoden der Resi
duenanalyse sind eher heuristisch als formal begründet und ihre Anwendung und
Interpretation erfordert etwas Erfahrung und Fingerspitzengefühl. In der Regel
handelt es sich um graphische Methoden, sogenannte Residuen-Plots) bei denen die
(gegebenfalls noch modifizierten) Residuen gegen andere interessierende Größen
aufgetragen werden, wie z. B.
• die geschätzten Erwartungswerte (t. J
• spezielle Covariablen-Komponenten x. ,oder eine interessierende FunkJS
tionf(x. ) davon. JS
Bei allen Residuenplots beurteilt man (optisch), ob Punkte "zufällig" verteilt sind
oder ob auffällige Strukturen erkennbar sind, die es dann zu interpretieren gilt.
Neben dem durch (1) definierten sogenannten rohen Residuum werden auch Modifi
kationen betrachtet. Häufig wird das skalierte Residuums verwendet
(2) R~C:= ~ R. = ~ (Y.-(t.) J a J a J J
(skaliertes Residuum)
welches man formal aus der standardisierten Beobachtung
(3) 1. (Y.- fL.) a J J
erhält, indem man fL. und a durch ihre Schätzungen ersetzt. Das skalierte ResiJ
duum unterscheidet sich vom rohen Residuum R. zwar nur um den Faktor a, hat J
aber den Vorteil einer gewissen Normierung, weil die Quadratsumme der skalier-
ten Residuen immer den Freiheitsgrad des Modells ergibt
(4) ~ (R;c)2 = FG(vft) = J - Dim(vft). J
Will man auch die unterschiedliche Varianz der rohen Residuen R. für verschieJ
5.3 Residuenanalyse 11.8.05 5 - 20
dene Beobachtungen j mitberücksichtigen, so kann man das Residuum standardisie-
ren. Die Varianz des Residuums R . ergibt sich nach 2.3 (14) als j-tes Diagonalele- 3
ment der Matrix
1 T Cov (R) = 02.(IIJ- P "4%' ) = 02.(IIJ- x(xTx)- X )
Hieraus folgt
S wobei X . E IR der zugehörige Covariablenvektor ist. Ersetzt man den unbekannten 3
2 Skalenparameter o durch seine Schätzung 82, so erhält man die geschätzte Varianz
von R . 3
und das standardzszerte Reszduum
(standardisiertes Residuum).
Der Unterschied zwischen dem skalierten und standardisierten Residuum ist oft
nicht sehr groß. Insbesondere bei einer hohen Anzahl J von Beobachtungen (relativ
zur Modelldimension S) ist 6 2 e2, und das Residuum R: weicht nur gering von 1
R? ab. 3
Das standardisierte bzw. skalierte Residuum hat den Vorteil, daß es auch eine abso-
lute Beurteilung der Abweichung (Y.-,L.) erlaubt, weil es deren Varianz mitbe- 3 3
rücksichtigt. Bei normalverteilten Beobachtungen, d.h. (NVY) gilt, sind das stan-
dardisierte und skalierte Residuum zumindest dann näherungsweise N(0 , 1)-verteilt,
wenn hinreichend viele Beobachtungen J vorliegen, weil dann die Schätzungen ,L. 3
und 8 nur unwesentlich von den wahren Werten ,LL. und a abweichen (vgl. hierzu 3
auch die asymptotischen Resultate in späteren Kapiteln). Hierdurch lassen sich ex-
trem große bzw. „unwahrscheinliche" Residuen herausfinden, z.B. solche bei denen
das (standardisierte oder skalierte) Residuum außerhalb des 20-Bereiches
[ - 2 8 , + 2 81 oder gar außerhalb des 30-Bereiches liegt [ - 3 8 , + 3 81.
Nach diesen Vorbetrachtungen wollen wir die wichtigsten Typen der Residuenplots
kurz erläutern, wobei es oft unerheblich ist, welchen Residuentyp man verwendet:
roh, skaliert oder standardisiert.
5.3 Residuenanalyse 11.8.05 5- 20
dene Beobachtungen j mitberücksichtigen, so kann man das Residuum standardisie
ren. Die Varianz des Residuums R. ergibt sich nach 2.3 (14) als j-tes Diagonalele]
ment der Matrix
(5) Cov (R) a 2 . ( 11 J - P c4) = a 2 . ( 11 J - X(X T X) -1 X T)
Hieraus folgt
(6)
wobei x. E IRS der zugehörige Covariablenvektor ist. Ersetzt man den unbekannten ]
Skalenparameter a 2 durch seine Schätzung 52, so erhält man die geschätzte Varianz
vonR. ]
(7)
und das standardisierte Residuum
(8) (standardisiertes Residuum).
Der Unterschied zwischen dem skalierten und standardisierten Residuum ist oft
nicht sehr groß. Insbesondere bei einer hohen Anzahl J von Beobachtungen (relativ
zur Modelldimension S) ist v ~ ~ 52, und das Residuum R~c weicht nur gering von t ] ]
R~ ab. ]
Das standardisierte bzw. skalierte Residuum hat den Vorteil, daß es auch eine abso
lute Beurteilung der Abweichung (Y.- 4.) erlaubt, weil es deren Varianz mitbe-] ]
rücksichtigt. Bei normalverteilten Beobachtungen, d.h. (NVY) gilt, sind das stan-
dardisierte und skalierte Residuum zumindest dann näherungsweise N(O, l)-verteilt,
wenn hinreichend viele Beobachtungen J vorliegen, weil dann die Schätzungen 4. ]
und 5 nur unwesentlich von den wahren Werten J-L. und a abweichen (vgl. hierzu ]
auch die asymptotischen Resultate in späteren Kapiteln). Hierdurch lassen sich ex-
trem große bzw. "unwahrscheinliche" Residuen herausfinden, z.B. solche bei denen
das (standardisierte oder skalierte) Residuum außerhalb des 2a-Bereiches
[- 25, + 25] oder gar außerhalb des 3a-Bereiches liegt [- 35, + 35].
Nach diesen Vorbetrachtungen wollen wir die wichtigsten Typen der Residuenplots
kurz erläutern, wobei es oft unerheblich ist, welchen Residuentyp man verwendet:
roh, skaliert oder standardisiert.
5.3 Residuenanalyse 11.8.05 5 - 21
Der Index-Residuen-Plot
Hier werden für alle Beobachtungen j die Residuen RSC dargestellt, d.h. man plottet 3
die Punkte 6, RSC) für alle j. Eine solche Darstellung ermöglicht (im Gegensatz zu 3
einer entsprechenden Tabelle) einen ersten Überblick über die Größe der Residuen
und ihr Vorzeichen. Hierbei beurteilt man hauptsächlich die Lage der Punkte rela-
tiv zur Achse R = 0, und ob sie um diese Achse zufällig streuen. Dadurch lassen sich
insbesondere größere Abweichungen vom Modell über die zugehörigen Residuen
entdecken.
Wesentlich mehr Information läßt sich aus diesen Plot gewinnen, wenn die Be-
obachtungen systematisch sortiert sind. Sind sie z. B. nach den Stufen eines Faktors
A sortiert, so kann man die Residuen für jede Stufe getrennt betrachten und analy-
sieren. Sind die Beobachtungen dagegen nach einer quantitativen Covariablen (auf-
steigend) sortiert, so kann man gegebenfalls monotone Trends zwischen dieser Co-
variablen und den Residuen entdecken. Diese Überlegungen lassen sich fortsetzen,
wenn die Beobachtungen lexikografisch nach mehreren (oder sogar allen) Modellva-
riablen sortiert sind, was daher schon aus diesem Grunde empfehlenswert ist.
Plot: Residuum gegen Erwartungswert
Es werden die Punkte (,L., RSC) für alle j dargestellt. Hierbei beurteilt man wieder, 3 3
ob die Punkte zufällig um die Achse R = 0 streuen. Wenn z. B. bei größeren Erwar-
tungswerten auch stets größere Residuen auftreten, so kann die Annahme homoge-
ner Varianzen verletzt sein.
Plot: Residuum gegen eine Covariable aus dem Modell
Hier betrachtet man für festes s die s-te Komponente X des Covariablenvektors S
S X EIR und plottet die Punkte (X. RSC) für alle j. Hier wird geprüft ob die Darstel-
3s' 3 lung Strukturen aufweist oder nicht. Erkennt man hier z.B. bei einer quantitativen
Covariablen X . eine „Krümmungn in der Punktwolke, so ist der Einfluß von X . 3s 3s
nicht zufriedenstellend modelliert, und dies kann eventuell durch Verwendung einer
Transformation h(x. ) der Covariablen (statt X . ) oder durch Hinzufügen eines qua- 3s 3s
dratischen Terms X? als neue Covariable verbessert werden. Im Gegensatz zum In- 3s
dex-Residuen-Plot (mit nach xs sortierten Beobachtungen) lassen sich hier nicht nur
monotone Trends erkennen, sondern man kann diese auch quantifizieren (z. B. durch
5.3 Residuenanalyse 11.8.05 5 - 21
Der Index -Resid uen -Plot
Hier werden für alle Beobachtungen j die Residuen R~c dargestellt, d.h. man plottet ]
die Punkte (j, R~C) für alle j. Eine solche Darstellung ermöglicht (im Gegensatz zu ]
einer entsprechenden Tabelle) einen ersten Überblick über die Größe der Residuen
und ihr Vorzeichen. Hierbei beurteilt man hauptsächlich die Lage der Punkte rela
tiv zur Achse R = 0, und ob sie um diese Achse zufällig streuen. Dadurch lassen sich
insbesondere größere Abweichungen vom Modell über die zugehörigen Residuen
entdecken.
Wesentlich mehr Information läßt sich aus diesen Plot gewmnen, wenn die Be
obachtungen systematisch sortiert sind. Sind sie z. B. nach den Stufen eines Faktors
A sortiert, so kann man die Residuen für jede Stufe getrennt betrachten und analy
sieren. Sind die Beobachtungen dagegen nach einer quantitativen Covariablen (auf
steigend) sortiert, so kann man gegebenfalls monotone Trends zwischen dieser Co
variablen und den Residuen entdecken. Diese Überlegungen lassen sich fortsetzen,
wenn die Beobachtungen lexikografisch nach mehreren (oder sogar allen) Modellva
riablen sortiert sind, was daher schon aus diesem Grunde empfehlenswert ist.
Plot: Residuum gegen Erwartungswert
Es werden die Punkte (4., R~C) für alle j dargestellt. Hierbei beurteilt man wieder, ] ]
ob die Punkte zufällig um die Achse R = 0 streuen. Wenn z. B. bei größeren Erwar-
tungswerten auch stets größere Residuen auftreten, so kann die Annahme homoge
ner Varianzen verletzt sein.
Plot: Residuum gegen eine Covariable aus dem Modell
Hier betrachtet man für festes s die s-te Komponente x des Covariablenvektors S
xE IRS und plottet die Punkte (x. , R~C) für alle j. Hier wird geprüft ob die DarstelJS J
lung Strukturen aufweist oder nicht. Erkennt man hier z.B. bei einer quantitativen
Covariablen x. eine "Krümmung" in der Punktwolke, so ist der Einfluß von x. F F
nicht zufriedenstellend modelliert, und dies kann eventuell durch Verwendung einer
Transformation h(x. ) der Covariablen (statt x. ) oder durch Hinzufügen eines qua-JS JS
dratischen Terms x? als neue Covariable verbessert werden. Im Gegensatz zum InJS
dex-Residuen-Plot (mit nach x sortierten Beobachtungen) lassen sich hier nicht nur S
monotone Trends erkennen, sondern man kann diese auch quantifizieren (z. B. durch
5.3 Residuenanalyse 11.8.05 5 - 22
einen quadratischen Zusammenhang), weil hier auch die Werte X. berücksichtigt 3
werden und nicht nur ihre Anordnung (d. h. ihre Ränge).
Plot: Residuum gegen nicht ins Modell aufgenommen Covariable
Um herauszufinden welchen Einfluß eine bisher nicht in das Modell aufgenommene
Covariable z . auf den Erwartungswert hat, kann man die Punkte (z., R?) für alle j 3 3 3
plotten und auf Zufälligkeit beurteilen. Eine eventuell erkennbare funktionale Ab-
hängigkeit (etwa linear oder gekrümmt) liefert dann erste Anhaltspunkte, wie (li-
near, quadratisch undIoder ggf. transformiert) die Variable z . in einem erweiterten 3
Modell als Covariable aufzunehmen wäre.
5.3 Residuenanalyse 11.8.05 5- 22
emen quadratischen Zusammenhang), weil hier auch die Werte x. berücksichtigt ]
werden und nicht nur ihre Anordnung (d. h. ihre Ränge).
Plot: Residuum gegen nicht ins Modell aufgenommen Covariable
Um herauszufinden welchen Einfluß eine bisher nicht in das Modell aufgenommene
Covariable z. auf den Erwartungswert hat, kann man die Punkte (z., R~C) für alle j ] ] ]
plotten und auf Zufälligkeit beurteilen. Eine eventuell erkennbare funktionale Ab-
hängigkeit (etwa linear oder gekrümmt) liefert dann erste Anhaltspunkte, wie (li
near, quadratisch und/oder ggf. transformiert) die Variable z. in einem erweiterten ]
Modell als Covariable aufzunehmen wäre.
5.4 Modellsuche 12.8.05 5 - 23
5.4 Modellsuche
Im Abschnitt 3.3 haben wir schon gesehen, daß es bereits bei zwei beobachteten
Covariablen zahlreiche Möglichkeiten gibt, den Einfluß dieser Covariablen zu mo-
dellieren. Bei mehreren Covariablen wird die Vielfalt der möglichen Modelle ent-
sprechend größer, und es erhebt sich die Frage, wie man generell ein optimales
Modell auswählen kann. Je nach Intention der statistischen Analyse wird man ei-
nen unterschiedlichen Optimalitätsbegriff zu Grunde legen und folglich gibt es kein
universelles Verfahren für eine Modellsuche. Eine Übersicht der wichtigsten Ver-
fahren und ihrer Probleme findet man in der Monographie von A.J. Miller (1990).
Wir wollen hier nur zwei grundsätzlich verschiedene Verfahren kurz besprechen:
konfirmatorische sequentielle Testprozeduren (die ein vorgegebenes Testniveau einhal-
ten) und einfache explorative Modell-Suchverfahren (bei denen die Irrtumswahr-
scheinlichkeit nicht durch ein vorgegebenes Niveau kontrolliert wird). Dabei be-
schränken wir die Darstellung auf die hier interessierenden Linearen Modelle, ob-
wohl die zugrunde liegenden Prinzipien auch für eine allgemeinere Klasse parame-
trischer Modelle gelten.
5.4.1 Sequentielle Testprozeduren
Ausgangspunkt der Betrachtungen ist wieder ein Datensatz (Y ., X .) und der zuge- 3 3
hörige lineare Modellraum A für den Erwartungsvektor ,U von Y = (Y.). Zusätzlich 3
betrachten wir in A eine aufsteigende Sequenz von R 2 2 linearen Teilräumen
mit streng aufsteigenden Dimensionen
(2) Dim Al < Dim A2 < . . . . . . < Dim AR < Dim A.
Die Modellräume A sind hierbei fest vorgegeben und sollen sequentiell überprüft r
werden, wobei wir die Gültigkeit des umfassendes Modell A voraussetzen. Wir be-
trachten für r = 1, ..., R nun die zugehörigen Nullhypothesen
5.4 Modellsuche 12.8.05 5- 23
5.4 Modellsuche
Im Abschnitt 3.3 haben wir schon gesehen, daß es bereits bei zwei beobachteten
Covariablen zahlreiche Möglichkeiten gibt, den Einfluß dieser Covariablen zu mo
dellieren. Bei mehreren Covariablen wird die Vielfalt der möglichen Modelle ent
sprechend größer, und es erhebt sich die Frage, wie man generell ein optimales
Modell auswählen kann. Je nach Intention der statistischen Analyse wird man ei
nen unterschiedlichen Optimalitätsbegriff zu Grunde legen und folglich gibt es kein
universelles Verfahren für eine Modellsuche. Eine Übersicht der wichtigsten Ver
fahren und ihrer Probleme findet man in der Monographie von A.J. Miller (1990).
Wir wollen hier nur zwei grundsätzlich verschiedene Verfahren kurz besprechen:
konfirmatorische sequentielle Testprozeduren (die ein vorgegebenes Testniveau einhal
ten) und einfache explorative Modell-Suchverfahren (bei denen die Irrtumswahr
scheinlichkeit nicht durch ein vorgegebenes Niveau kontrolliert wird). Dabei be
schränken wir die Darstellung auf die hier interessierenden Linearen Modelle, ob
wohl die zugrunde liegenden Prinzipien auch für eine allgemeinere Klasse parame
trischer Modelle gelten.
5.4.1 Sequentielle Testprozeduren
Ausgangspunkt der Betrachtungen ist wieder ein Datensatz (Y., x.) und der zuge] ]
hörige lineare Modellraum vft für den Erwartungsvektor Jl von Y = (Y.). Zusätzlich ]
betrachten wir in vft eine aufsteigende Sequenz von R > 2 linearen Teilräumen
(1) c c ...... C
mit streng aufsteigenden Dimensionen
(2) Dirn vft1
< Dirn vft2
< ...... < Dirn vftR
< Dirn vft.
Die Modellräume vft sind hierbei fest vorgegeben und sollen sequentiell überprüft r
werden, wobei wir die Gültigkeit des umfassendes Modell vft voraussetzen. Wir be-
trachten für r = 1, ... , R nun die zugehörigen Nullhypothesen
5.4 Modellsuche 12.8.05 5 - 24
die eine aufsteigende Sequenz bilden, d.h. es gilt
Eine typische Anwendung hierfür ist durch eine Zerlegung des Parametervektors
8= (Bl, ..., BR) in R Komponenten (die auch wieder Vektoren sein können) gegeben
mit den Nullhypothesen
(5) H ~ : o e r = . . . = e R = o .
und den zugehörigen Modellräumen
Anwendung: Kl inische Studie
Als einfache Anwendung betrachten wir eine klinische Studie zum Vergleich eines
neuen Medikaments in drei verschiedenen Dosierungen mit einem Placebo. Die Be-
handlungen fassen wir als einen Faktor A mit K= 4 Stufen auf: Placebo (A = l) bzw.
Medikament in geringer (A = 2), mittlerer (A = 3) und hoher (A = 4) Dosierung. Un- A ter Verwendung der Indikatorvariablen Ik = I{A = kl für die vier Behandlungsarme
1% = 1, 2, 3 , 4 läßt sich der Erwartungswert ,L für den durch die Zielvariable Y gemes-
senen Behandlungserfolg bei einer einzelnen Person im vollständigen Modell für
den Faktor A
auch wie folgt umparametrisieren
A A A A A A ,L = Q1 + Q2.(12 +I3 +I4) + Q3.(13 +I4) + Q4.14 mit
8 =8'-8' 4 4 3
bzw.
Von primärem Interesse ist, ob der Behandlungserfolg des neuen Medikaments -
egal in welcher der drei Dosierungen - sich gegenüber Placebo unterscheidet oder
nicht, und die zugehörige Nullhypothese beschreibt das konstante Modell:
5.4 Modellsuche 12.8.05 5- 24
die eine aufsteigende Sequenz bilden, d.h. es gilt
(4) HR- 1 ::::} ......::::} 0 ::::}
Eine typische Anwendung hierfür ist durch eine Zerlegung des Parametervektors
()= (()1' ···'()R) in R Komponenten (die auch wieder Vektoren sein können) gegeben
mit den Nullhypothesen
und den zugehörigen Modellräumen
(6) .At = { X() I () = ... = ()R = 0 }. r r
Anwendung: Klinische Studie
Als einfache Anwendung betrachten wir eine klinische Studie zum Vergleich eines
neuen Medikaments in drei verschiedenen Dosierungen mit einem Placebo. Die Be
handlungen fassen wir als einen Faktor A mit K = 4 Stufen auf: Placebo (A = 1) bzw.
Medikament in geringer (A = 2), mittlerer (A = 3) und hoher (A = 4) Dosierung. Un
ter Verwendung der Indikatorvariablen If = I{A = k} für die vier Behandlungsarme
k = 1,2, 3,4 läßt sich der Erwartungswert f-L für den durch die Zielvariable Y gemes
senen Behandlungserfolg bei einer einzelnen Person im vollständigen Modell für
den Faktor A
auch wie folgt umparametrisieren
81 = 8;,
8; = 81,
82 = 8~ - 8;,
8~ = 81 +82,
mit
84 = 8~ - 8~ bzw.
8 ~ = 81 +82 + 83 + 84.
Von primärem Interesse ist, ob der Behandlungserfolg des neuen Medikaments -
egal in welcher der drei Dosierungen - sich gegenüber Placebo unterscheidet oder
nicht, und die zugehörige Nullhypothese beschreibt das konstante Modell:
5.4 Modellsuche 12.8.05 5 - 25
1 H : 8 = 8 = 8 = O 0 2 3 4
(kein Unterschied des Medikaments gegenüber Placebo).
Nur wenn diese Nullhypothese abgelehnt wird - d.h. Medikament und Placebo ha-
ben eine signifikant unterschiedliche Wirkung gezeigt - will man weiter überprüfen,
ob eine Erhöhung der Dosis (mittel oder hoch) gegenüber der geringen Dosis ebenfalls
einen Einfluß hat oder nicht. Die entsprechende Nullhypothese lautet
2 H : 8 = 8 = 0 (kein Unterschied bei Dosiserhöhung gegenüber geringer Dosis). 0 3 4
Nur wenn auch diese Nullhypothese abgelehnt wird - d.h. eine Dosiserhöhung hat
einen signifikanten Einfluß auf den Behandlungserfolg gezeigt - will man schließ-
lich noch überprüfen, ob die hohe Dosierung einen anderen Einfluß hat als die mitt-
lere Dosis, und die zugehörige Nullhypothese ist
3 H : 8 = O 0 4
(kein Unterschied der hohen gegenüber der mittleren Dosis).
Hier liegen also R = 3 sequentielle Nullhypothesen der Form (5) vor. - Diese Situ-
ation läßt sich auf mehr als 4 Stufen eines Faktors A verallgemeinern. Dies ist aber
nur dann sinnvoll, wenn die zugrunde gelegte Anordnung der Faktorstufen auch
eine praktische Bedeutung hat (wie hier bei den Behandlungsstufen: Placebo, ge-
ringe, mittlere und hohe Dosis).
Für jedes r = 1, ..., R sei jetzt kir) die F-Statistik des F-Tests der Hypothesen für das
Untermodell J& C J& T
(7) H ; : , ~ E J & T- VS. H T : P @ J & ~ , P E & ,
und F(') bezeichne das obere u-Quantil der zugehörigen (zentralen) F-Verteilung. a Wir wollen allerdings nicht einfach alle R F-Tests durchführen, weil hierfür eine
(Bonferroni-)Korrektur des Einzel-Testniveaus u erforderlich wäre, um das globale
Niveau u für die insgesamt R multiplen Tests zu erreichen (vgl. Exkurs MTK Mul-
tiple Tests und Konfidenzbereiche). Da die Nullhypothesen (4) bzw. die zugehörigen
Modellräume (1) sequentiell angeordnet sind, können wir eine sequentiell aufsteigende
oder absteigende Testprozedur anwenden, bei denen keine (Bonferroni-)Korrektur des
Einzel-Testniveaus u notwendig ist.
Bei der aufsteigenden sequentiellen Testprozedur werden die F-Tests aufsteigend für
r = l , 2 ... soweit durchgeführt bis erstmals H; nicht abgelehnt wird, und die Prozedur
entscheidet sich - unter allen möglichen Modellen aus (1) - für dieses zuletzt über-
5.4 Modellsuche 12.8.05 5- 25
(kein Unterschied des Medikaments gegenüber Placebo).
Nur wenn diese Nullhypothese abgelehnt wird - d.h. Medikament und Placebo ha
ben eine signifikant unterschiedliche Wirkung gezeigt - will man weiter überprüfen,
ob eine Erhöhung der Dosis (mittel oder hoch) gegenüber der geringen Dosis ebenfalls
einen Einfluß hat oder nicht. Die entsprechende Nullhypothese lautet
(kein Unterschied bei Dosiserhöhung gegenüber geringer Dosis).
Nur wenn auch diese Nullhypothese abgelehnt wird - d.h. eine Dosiserhöhung hat
einen signifikanten Einfluß auf den Behandlungserfolg gezeigt - will man schließ
lich noch überprüfen, ob die hohe Dosierung einen anderen Einfluß hat als die mitt
lere Dosis, und die zugehörige Nullhypothese ist
(kein Unterschied der hohen gegenüber der mittleren Dosis).
Hier liegen also R = 3 sequentielle Nullhypothesen der Form (5) vor. - Diese Situ
ation läßt sich auf mehr als 4 Stufen eines Faktors A verallgemeinern. Dies ist aber
nur dann sinnvoll, wenn die zugrunde gelegte Anordnung der Faktorstufen auch
eine praktische Bedeutung hat (wie hier bei den Behandlungsstufen: Placebo, ge-
ringe, mittlere und hohe Dosis). D
Für jedes r = 1, ... , R sei jetzt I.r) die F-Statistik des F-Tests der Hypothesen für das
Untermodell .At c.At r
(7) vs.
und F (r) bezeichne das obere a-Quantil der zugehörigen (zentralen) F-Verteilung. Ct
Wir wollen allerdings nicht einfach alle R F-Tests durchführen, weil hierfür eine
(Bonferroni-)Korrektur des Einzel-Testniveaus a erforderlich wäre, um das globale
Niveau a für die insgesamt R multiplen Tests zu erreichen (vgl. Exkurs MTK Mul
tiple Tests und Konfidenzbereiche). Da die Nullhypothesen (4) bzw. die zugehörigen
Modellräume (1) sequentiell angeordnet sind, können wir eine sequentiell aufsteigende
oder absteigende Testprozedur anwenden, bei denen keine (Bonferroni-)Korrektur des
Einzel-Testniveaus a notwendig ist.
Bei der aufsteigenden sequentiellen Testprozedur werden die F-Tests aufsteigend für
r = 1,2 ... soweit durchgeführt bis erstmals H~ nicht abgelehnt wird, und die Prozedur
entscheidet sich - unter allen möglichen Modellen aus (1) - für dieses zuletzt über-
5.4 Modellsuche 12.8.05 5 - 26
prüfte Modell A . Falls alle R F-Tests die Nullhypothese abgelehnt haben, so ent- T
scheiden wir uns für das Modell A= Derjenige Modellindex 1 < r < R+1 T -
für den sich die aufsteigende Prozedur entscheidet, ist daher gegeben durch
~ i n { r l F ( T ) < F ( ' ) } a falls { r lF(T)<Ft)} t0 T R + 1 sonst
Bei dieser Prozedur besteht der Fehler 1. Art darin sich für den Modellindex r zu T
entscheiden, obwohl bereits ein Teilmodell AT mit r < r (und wegen (1) somit auch T
für r = r -1) zutrifft. Das zugehörige Fehlerrisiko 1. Art der aufsteigenden sequentiel- T
len Prozedur ist höchstens ci! (vgl. Exkurs M T K 3).
Im Gegensatz zur aufsteigenden Prozedur werden bei der absteigenden sequentiellen
Testprozedur die F-Tests absteigend für r = R, R- 1 ... soweit durchgeführt bis erstmals
H; abgelehnt wird, und die Prozedur entscheidet sich - unter allen möglichen Model-
len aus (1) - für das zuletzt nicht abgelehnte Modell ATt1. F'alls alle R F-Tests die
Nullhypothese nicht abgelehnt haben, so entscheiden wir uns für das Modell Al.
Derjenige Modellindex 1 < r < R + l für den sich die aufsteigende Prozedur entschei- L -
det, ist daher gegeben durch
1 + ~ a x {r lF(T)>F(')} a falls { r lF(T)>F(')} a t 0 I 1 sonst
Bei dieser Prozedur besteht der Fehler 1. Art darin, sich für den Modellindex r zu L
entscheiden, obwohl bereits das Teilmodell A mit r = r -1 zutrifft. Das zugehö- T L
rige Fehlerrisiko 1. Art der absteigenden sequentiellen Prozedur ist auch höchstens ci!
(vgl. Exkurs M T K 3).
Beide sequentielle Testprozeduren kommen für R > 2 nicht notwendig zum gleichen
Ergebnis. Es gilt aber stets r < r d.h. das bei der absteigenden Prozedur ausge- T - L '
wählte Modell umfaj't das von von der aufsteigenden Prozedur ausgewählte Modell.
Wir wollen uns kurz überlegen, wie es dazu kommen kann, daß r < r gilt. In die- T L
Sem Fall gibt es drei Indizes
q = r < s = r -1 < t = r T L L '
mit den zugehörigen Modellräumen
5.4 Modellsuche 12.8.05 5- 26
prüfte Modell vft . Falls alle R F-Tests die Nullhypothese abgelehnt haben, so entr
scheiden wir uns für das Modell vft = vft R + r Derj enige Modellindex 1 < r i < R + 1
für den sich die aufsteigende Prozedur entscheidet, ist daher gegeben durch
sonst } (8) r = { Min { r I ~r) < F lr) }
i R+1
falls { r I ~r) < F (r) } ;= 0 Q
Bei dieser Prozedur besteht der Fehler 1. Art darin sich für den Modellindex r i zu
entscheiden, obwohl bereits ein Teilmodell vft mit r< r (und wegen (1) somit auch r i
für r = r i-I) zutrifft. Das zugehörige Fehlerrisiko 1. Art der aufsteigenden sequentiel-
len Prozedur ist höchstens a (vgl. Exkurs MTK 3).
Im Gegensatz zur aufsteigenden Prozedur werden bei der absteigenden sequentiellen
Testprozedur die F-Tests absteigend für r = R, R-1 ... soweit durchgeführt bis erstmals
H~ abgelehnt wird, und die Prozedur entscheidet sich - unter allen möglichen Model
len aus (1) - für das zuletzt nicht abgelehnte Modell vftr+ r Falls alle R F-Tests die
Nullhypothese nicht abgelehnt haben, so entscheiden wir uns für das Modell vftr Derjenige Modellindex 1 <TL <R+1 für den sich die aufsteigende Prozedur entschei
det, ist daher gegeben durch
(9) r = { 1 + Max { r I ~r) > F lr) }
1 1
falls { r I ~r) > F lr) } ;= 0
sonst }. Bei dieser Prozedur besteht der Fehler 1. Art darin, sich für den Modellindex r J- zu
entscheiden, obwohl bereits das Teilmodell vft mit r = r -1 zutrifft. Das zugehö-r J-
rige Fehlerrisiko 1. Art der absteigenden sequentiellen Prozedur ist auch höchstens a
(vgl. Exkurs MTK 3).
Beide sequentielle Testprozeduren kommen für R> 2 nicht notwendig zum gleichen
Ergebnis. Es gilt aber stets r i < r 1 ' d.h. das bei der absteigenden Prozedur ausge
wählte Modell umfaßt das von von der aufsteigenden Prozedur ausgewählte Modell.
Wir wollen uns kurz überlegen, wie es dazu kommen kann, daß r i < r 1 gilt. In die
sem Fall gibt es drei Indizes
q= r < i
s = r -1 < 1
mit den zugehörigen Modellräumen
vft c q
vft s c
t=r 1 '
vftt '
5.4 Modellsuche 12.8.05 5 - 27
so daß der F-Test das „innereu Modell .,&E ablehnt, aber die beiden „äußerenu Modelle S
.,&E und .,&E nicht ablehnt. Zur Klärung dieser scheinbar paradoxen Situtation un- 4 t
tersuchen wir den F-Test der Hypothesen (7) genauer. Bezeichnet n = F G ( 4 den
Zählerfreiheitsgrad und mr = FG(+) - n den Nennerfreiheitsgrad beim F-Tests, so
läßt sich das Ablehnungskriterium des Tests äquivalent umformulieren:
F(T) > F (4 - a U Dev(.,&E)>c r r : = e 2 ( n + m r F mr,n;a 1.
Für obige Modellräume ergibt sich einerseits
Andererseits ist m Fm streng wachsend in m (vgl. Exkurs V 3.1 Die zentrale F- 1 1
Verteilung (19)) und somit gilt für 8 > 0 auch
C t < C < C . S 4
Bei der folgenden möglichen Anordnung
würde dann obige Situation eintreten: der F-Test lehnt das Modell .,&E ab, aber S
nicht die Modelle .,&E und .,&Et. Folglich können sich die auf- und absteigende Pro- 4
zedur für unterschiedliche Modellräume .,&E und .,&E entscheiden. Die Ursache 4 t
hierfür kann ein Fehler 2. Art (wegen zu geringer Schärfe) bei der aufsteigenden
oder ein Fehler 1. Art bei der absteigenden Prozedur (im jeweils zuletzt durchgeführ-
ten F-Test) sein.
Ob einer der beiden sequentiellen Testprozeduren sinnvoller ist als die andere
hängt von der konkreten Modell-Sequenz (1) und der dabei verfolgten Zielsetzung
ab. Zum Beispiel ist bei der obigen klinischen Studie nur die aufsteigende Prozedur
von Interesse. Generell wird man die aufsteigende Prozedur immer dann wählen,
wenn man ausgehend vom (z.B. konstanten) Modell .,&El schrittweise nur signifikante
Modellerweiterungen vornehmen will. Umgekehrt wird man die absteigende Proze-
dur verwenden, wenn es darum geht, ein bereits etabliertes Modell .,&E schrittweise
zu vereinfachen.
Die Anwendung der sequentiellen Prozeduren hat den Vorteil, daß man mehrere
Modelle überprüfen kann und die Gesamtprozedur das Testniveau der einzelnen
F-Tests nicht überschreitet. Allerdings müssen hierfür die Modellräume (1) vor der
Datenanalyse spezifiziert werden und das umfassende Modell .,&E muß korrekt sein.
5.4 Modellsuche 12.8.05 5- 27
so daß der F-Test das "innere" Modell vft ablehnt, aber die beiden "äußeren" Modelle s
vftq
und vftt
nicht ablehnt. Zur Klärung dieser scheinbar paradoxen Situtation un-
tersuchen wir den F-Test der Hypothesen (7) genauer. Bezeichnet n = FG( v«) den
Zählerfreiheitsgrad und m = FG( vft ) - n den Nennerfreiheitsgrad beim F-Tests, so r r
läßt sich das Ablehnungskriterium des Tests äquivalent umformulieren:
~r) > F(r) - Ct
Für obige Modellräume ergibt sich einerseits
Dev(vft ). q
Andererseits ist m F streng wachsend in m (vgl. Exkurs V 3.1 Die zentrale F-m,n,Ct
verteilung (19)) und somit gilt für a> 0 auch
< c s <
Bei der folgenden möglichen Anordnung
< < c s <
c . q
Dev(vft) < c q
würde dann obige Situation eintreten: der F-Test lehnt das Modell vft ab, aber s
nicht die Modelle vftq
und vft( Folglich können sich die auf- und absteigende Pro-
zedur für unterschiedliche Modellräume vftq
und vftt
entscheiden. Die Ursache
hierfür kann ein Fehler 2. Art (wegen zu geringer Schärfe) bei der aufsteigenden
oder ein Fehler 1. Art bei der absteigenden Prozedur (im jeweils zuletzt durchgeführ
ten F-Test) sein.
Ob einer der beiden sequentiellen Testprozeduren sinnvoller ist als die andere
hängt von der konkreten Modell-Sequenz (1) und der dabei verfolgten Zielsetzung
ab. Zum Beispiel ist bei der obigen klinischen Studie nur die aufsteigende Prozedur
von Interesse. Generell wird man die aufsteigende Prozedur immer dann wählen,
wenn man ausgehend vom (z.B. konstanten) Modell vft1
schrittweise nur signifikante
Modellerweiterungen vornehmen will. Umgekehrt wird man die absteigende Proze
dur verwenden, wenn es darum geht, ein bereits etabliertes Modell vft schrittweise
zu vereinfachen.
Die Anwendung der sequentiellen Prozeduren hat den Vorteil, daß man mehrere
Modelle überprüfen kann und die Gesamtprozedur das Testniveau der einzelnen
F-Tests nicht überschreitet. Allerdings müssen hierfür die Modellräume (1) vor der
Datenanalyse spezifiziert werden und das umfassende Modell vft muß korrekt sein.
5.4 Modellsuche 12.8.05 5 - 28
5.4.2 Modell-Suchverfahren
Wir wollen hier nur zwei typische explorative Verfahren zur Modellsuche vorstel-
len, die allerdings nicht notwendig zum gleichen Modell führen. In der Praxis wird
das gesuchte Modell meist durch eine Reihe von interessierenden Modell-Variablen
beschrieben die aus den beobachteten Covariablen auf verschiedene Weise gebildet
werden können (vgl. Kapitel 3). Eine solche Modell-Variable kann einerseits aus ei-
ner einzelnen formalen Covariablen bestehen (z.B. einer ggf. transformierten be-
obachteten quantitativen Covariablen z) oder andererseits mehreren formalen Covari-
ablen entsprechen (z.B. den Indikatorvariablen eines beobachteten Faktors mit mehr 2 als 2 Stufen, oder aus verschiedenen Potenzen z, z , ... einer quantitativen Covari-
ablen).
Gesucht ist dann ein möglichst einfaches (d.h. niedrig-dimensionales) Teilmodell
4 welches nur noch diejenigen beobachteten Covariablen enthält, die einen „signi-
fikanten" Einfluß auf den Erwartungswert der Beobachtung Y haben. Die Suche
nach einem geeigneten Modell N erfolgt typischerweise durch ein Mehr-Schritt-
Suchverfahren, wobei man prinzipiell zwei verschiedene Methoden verwendet kann:
die Vorwärts- und die Rückwärts-Suche.
Die Vorwärtssuche startet mit einem möglichst einfachen Modell Ao (z. B. dem
konstanten Modell) und konstruiert durch schrittweise Hinzunahme weiterer Cova-
riablen eine aufsteigende Modellfolge
die beim einem „optimalenu Modell N e n d e t . Die Rückwärtssuche startet demgege-
nüber mit einem möglichst umfangreichen (und zutreffenden) Modell Ao und kon-
struiert durch schrittweise Herausnahme von Covariablen eine absteigende Modell-
folge
die wieder beim einem „optimalenu Modell Nende t , was aber im allgemeinen nicht
mit dem aus einer Vorwärtssuche übereinstimmt.
Die Frage, ob bei diesen Verfahren ein weiterer Schritt erforderlich ist oder nicht
5.4 Modellsuche 12.8.05 5- 28
5.4.2 Modell-Such verfahren
Wir wollen hier nur zwei typische explorative Verfahren zur Modellsuche vorstel
len, die allerdings nicht notwendig zum gleichen Modell führen. In der Praxis wird
das gesuchte Modell meist durch eine Reihe von interessierenden Modell-Variablen
beschrieben die aus den beobachteten Covariablen auf verschiedene Weise gebildet
werden können (vgl. Kapitel 3). Eine solche Modell-Variable kann einerseits aus ei
ner einzelnen formalen Covariablen bestehen (z.B. einer ggf. transformierten be
obachteten quantitativen Covariablen z) oder andererseits mehreren formalen Covari
ablen entsprechen (z.B. den Indikatorvariablen eines beobachteten Faktors mit mehr
als 2 Stufen, oder aus verschiedenen Potenzen z, z2, ... einer quantitativen Covari
ablen).
Gesucht ist dann ein möglichst einfaches (d.h. niedrig-dimensionales) Teilmodell
JV;" welches nur noch diejenigen beobachteten Covariablen enthält, die einen "signi
fikanten" Einfluß auf den Erwartungswert der Beobachtung Y haben. Die Suche
nach einem geeigneten Modell JV erfolgt typischerweise durch ein Mehr-Schritt
Suchverfahren, wobei man prinzipiell zwei verschiedene Methoden verwendet kann:
die Vorwärts- und die Rückwärts-Suche.
Die Vorwärtssuche startet mit einem möglichst einfachen Modell .ACo (z. B. dem
konstanten Modell) und konstruiert durch schrittweise Hinzunahme weiterer Cova
riablen eine aufsteigende Modellfolge
die beim einem "optimalen" Modell JV endet. Die Rückwärtssuche startet demgege
nüber mit einem möglichst umfangreichen (und zutreffenden) Modell .ACo und kon
struiert durch schrittweise Herausnahme von Covariablen eine absteigende Modell
folge
die wieder beim einem "optimalen" Modell JV endet, was aber im allgemeinen nicht
mit dem aus einer Vorwärtssuche übereinstimmt.
Die Frage, ob bei diesen Verfahren ein weiterer Schritt erforderlich ist oder nicht
5.4 Modellsuche 12.8.05 5 - 29
(d. h. man hat das Modell M bereits erreicht) wird durch den F-Test entschieden mit
den zugehörigen Modellräumen A C Aktl, d. h. man setzt das umfassende Mo- r dell Aktl voraus und testet die Hypothesen
Bei den Such-Prozeduren wird dann der P-Wert des Tests zur Beurteilung herange-
zogen. Je kleiner dieser P-Wert ist, desto schlechter ist das Modell 4 im Vergleich
zu Aktl. Die Anwendung eines solchen Tests bzw. die Berechnung des zugehörigen
P-Werts setzt allerdings voraus, daß die Hypothesen unabhängig von dem zufälligen
Beobachtungsvektor Y gewählt werden. Dies ist bei den folgenden Prozeduren nicht
der Fall, weil sich dort die jeweiligen Modellräume 4 C A (und damit die Hy- k t l
pothesen) eines Schritts nach bestimmten Kriterien aus den Beobachtungsdaten Y
ergeben. Die Entscheidung zwischen beiden Modellen ist hier deshalb nicht als ein
formaler Test (zum vorgegebenen Niveau) sondern als ein heuristisches begründetes
Auswahlkriterium zu verstehen. Deshalb wird hier nicht notwendig das Standard-
niveau a = 5 % , sondern auch höhere Werte (z.B. 10%) verwendet, um die „Test-
schärfe" zu erhöhen. Obwohl in jedem Schritt formal ein F-Test durchgeführt wird
verzichtet man auf eine (Bonferroni-)Korrektur für multiples Testen, weil es sich
insgesamt nur um eine explorative Modellsuche handelt. Man kann allerdings die
bei der Modellsuche gefundene Modellsequenz (VS) bzw. (RS) an einem anderen
Datensatz unter Verwendung der sequentiellen Test-Prozeduren aus 5.4.1 überprüfen.
Wenn beim vorliegende Datensatz (Y., X .) mit j = 1, ..., J die Anzahl J hinreichend 3 3
groß ist, so kann man den Datensatz auch zufällig in zwei Teildatensätze zerlegen,
d.h. man bestimmt eine disjunkte Zerlegung J U J ={I, ..., J ) . Mit dem durch J1 ge- 1 2
geben ersten Teildatensatz kann man dann eine explorative Modellsuche durchfüh-
ren und die dabei erhaltene Modellsequenz a m zweiten - durch J2 gegebenen - Teil-
datensatz mit einer sequentiellen Testprozedur überprüfen.
5.4 Modellsuche 12.8.05 5- 29
( d. h. man hat das Modell J'V bereits erreicht) wird durch den F-Test entschieden mit
den zugehörigen Modellräumen vftr
C vftk+ l' d. h. man setzt das umfassende Mo
dell vftk+ 1 voraus und testet die Hypothesen
gegen
Bei den Such-Prozeduren wird dann der P-Wert des Tests zur Beurteilung herange
zogen. Je kleiner dieser P-Wert ist, desto schlechter ist das Modell vftk
im Vergleich
zu vftk+ r Die Anwendung eines solchen Tests bzw. die Berechnung des zugehörigen
P-Werts setzt allerdings voraus, daß die Hypothesen unabhängig von dem zufälligen
Beobachtungsvektor Y gewählt werden. Dies ist bei den folgenden Prozeduren nicht
der Fall, weil sich dort die jeweiligen Modellräume vftk C vftk+ 1 (und damit die Hy
pothesen) eines Schritts nach bestimmten Kriterien aus den Beobachtungsdaten Y
ergeben. Die Entscheidung zwischen beiden Modellen ist hier deshalb nicht als ein
formaler Test (zum vorgegebenen Niveau) sondern als ein heuristisches begründetes
Auswahlkriterium zu verstehen. Deshalb wird hier nicht notwendig das Standard
niveau a = 5%, sondern auch höhere Werte (z.B. 10%) verwendet, um die "Test
schärfe" zu erhöhen. Obwohl in jedem Schritt formal ein F-Test durchgeführt wird
verzichtet man auf eine (Bonferroni-)Korrektur für multiples Testen, weil es sich
insgesamt nur um eine explorative Modellsuche handelt. Man kann allerdings die
bei der Modellsuche gefundene Modellsequenz (VS) bzw. (RS) an einem anderen
Datensatz unter Verwendung der sequentiellen Test-Prozeduren aus 5.4.1 überprüfen.
Wenn beim vorliegende Datensatz (Y., x.) mit j = 1, ... , J die Anzahl J hinreichend ] ]
groß ist, so kann man den Datensatz auch zufällig in zwei Teildatensätze zerlegen,
d.h. man bestimmt eine disjunkte Zerlegung J1 UJ2 = {I, ... ,J}. Mit dem durch J1 ge
geben ersten Teildatensatz kann man dann eine explorative Modellsuche durchfüh
ren und die dabei erhaltene Modellsequenz am zweiten - durch J2
gegebenen - Teil
datensatz mit einer sequentiellen Testprozedur überprüfen.
5.4 Modellsuche 12.8.05 5 - 30
5.4.3 Das Vorwärts-Suchverfahren
Beim Vorwärts-Suchverfahren wird ausgehend von einem minimalen Basis-Modell
Ao , wie z.B. dem konstanten Modell Ao = AJ, eine aufsteigende Folge von Modellen
konstruiert, die beim gesuchten Modell N e n d e t :
Vor jedem Vorwärtsschritt „A' H Aktl " für k 2 1 sind zunächst alle für eine Er-
weiterung des aktuellen Modells Ak noch zur Verfügung stehenden potentiellen
Modellvariablen aufzulisten, und zwar sowohl bisher nicht im Modell enthaltene
beobachtete Covariablen ( g f . inclusive in Betracht zu ziehender Transformationen
bei quantitativen Covariablen) als auch mögliche neue Wechselwirkungen zwischen
bereits aufgenommenen Variablen. Unter allen möglichen Erweiterungen des Mo-
dells A' um eine neue Covariable wird nun diejenige Erweiterung A ausge- 'tl
wählt, die den gröflten Fortschritt gegenüber dem aktuellen Modell 4 erzielt, d. h.
wo der P-Wert des zugehörigen F-Tests von A' a m geringsten ist. Das Verfahren
wird abgebrochen, wenn es keine „signifikanteu Erweiterung A mehr gibt, die 'tl
nicht bereits das vollständige Modell ist. Die Signifikanz wird hierbei durch ein for-
mal vorgegebenes Niveau ci! definiert.
Der Vorwärts-Schritt „Ak H Aktl " für AL t A wird in drei Teilschritten aus-
geführt (wobei mit Test immer der F-Test gemeint ist):
(VSI) Betrachte alle Obermodelle Akr > A', die sich durch Hinzufügen einer
neuen in Frage kommenden Covariablen (die nicht schon im aktuellen Mo-
dells Ak enthalten ist) ergeben, und nicht bereits das vollständige Modell
sind. Wenn es kein solches Obermodell mehr gibt, so endet das Verfahren
mit (VS4). Andernfalls bestimmt man den P-Wert P des Tests von AL un- r
ter Ak , dd.. von
: rcAk gegen H Ir : p@ Ak für alle diese Obermodelle..
5.4 Modellsuche 12.8.05 5- 30
5.4.3 Das V orwärts-Suchverfahren
Beim Vorwärts-Suchverfahren wird ausgehend von einem minimalen Basis-Modell
.ACo' wie z.B. dem konstanten Modell .ACo = ~ J' eine aufsteigende Folge von Modellen
konstruiert, die beim gesuchten Modell JV endet:
Vor jedem Vorwärts schritt ".ACk f-----t .ACk+ 1" für k > 1 sind zunächst alle für eine Er
weiterung des aktuellen Modells .ACk noch zur Verfügung stehenden potentiellen
Modellvariablen aufzulisten, und zwar sowohl bisher nicht im Modell enthaltene
beobachtete Covariablen (ggf. inclusive in Betracht zu ziehender Transformationen
bei quantitativen Covariablen) als auch mögliche neue Wechselwirkungen zwischen
bereits aufgenommenen Variablen. Unter allen möglichen Erweiterungen des Mo
dells .ACk um eine neue Covariable wird nun diejenige Erweiterung .ACk+ 1 ausge
wählt, die den größten Fortschritt gegenüber dem aktuellen Modell .ACk erzielt, d. h.
wo der P-Wert des zugehörigen F-Tests von .ACk am geringsten ist. Das Verfahren
wird abgebrochen, wenn es keine "signifikante" Erweiterung .ACk+ 1 mehr gibt, die
nicht bereits das vollständige Modell ist. Die Signifikanz wird hierbei durch ein for
mal vorgegebenes Niveau a definiert.
Der Vorwärts-Schritt ".ACk f-----t .ACk+ 1" für .ACk :;= .AC wird in drei Teilschritten aus
geführt (wobei mit Test immer der F-Test gemeint ist):
(VS1) Betrachte alle übermodelle .ACkr ~.ACk' die sich durch Hinzufügen ezner
neuen in Frage kommenden Covariablen (die nicht schon im aktuellen Mo
dells .ACk enthalten ist) ergeben, und nicht bereits das vollständige Modell
sind. Wenn es kein solches übermodell mehr gibt, so endet das Verfahren
mit (VS4). Andernfalls bestimmt man den P-Wert Pr des Tests von .ACk un
ter .ACk r ' d.h. von
HOr : Jl E.ACk gegen
für alle diese übermodelle ..
5.4 Modellsuche 12.8.05 5- 31
(VS2) Betrachte dasjenige (bzw. eines, falls es mehrere gibt) Modell Akt aus
(VSI) mit minimalem P-Wert, d.h.
Pt = Min P r
und führe den Test von H zum Niveau a durch. 0 t
(VS3) Falls der Test aus (VS2) das aktuelle Modell Ak ablehnt, so wird das
Obermodell Akt das neue aktuelle Modell, d.h. man setzt
&k+1:= &kt
und der nächste Vorwärtsschritt (mit A statt A j beginnt. k t l
Falls der Test das aktuelle Modell Ak nicht ablehnt, endet das Verfahren
mit (VS4).
(VS4) Das aktuelle Modell ist das gesuchte Modell, d.h. man setzt
M:= AL.
Da die F-Tests in (VS2) extrem konservativ sein können - weil die Gültigkeit des
umfassenden Modells Ak nicht sichergestellt ist und somit die Varianz o2 über- r
schätzt wird (vgl. 4.3) - sollte man hier ein nicht zu kleines Niveau a wählen, z.B.
a 2 10%.
5.4.4 Das Rückwärts-Suchverfahren
Dieses Verfahren setzen die Gültigkeit eines umfassenden Obermodells A voraus.
Wenn keine speziellen Vorinformationen vorliegen (z.B. die vorangegangenen Ana-
lysen oder Literaturstudien), so wird man in der Regel alle beobachteten Covariablen
(ggf. geeignet transformiert) zusammen mit den interessierenden Wechselwirkun-
gen als formale Covariable in das Modell A aufnehmen. Da wir das Modell A im
folgenden als korrekt voraussetzen, sollte man seine Anpassung überprüfen (z.B.
durch einen Anpassungstest oder eine Re~iduenanal~se) , sofern es nicht bereits aus
theoretischen Erwägungen korrekt sein muß.
Beim Rückwärts-Suchverfahren wird ausgehend vom Modell A eine absteigende
Folge von Modellen konstruiert, die beim gesuchten Modell Mende t :
Der Rückwärts-Schritt "AL H jlCtl " für k 2 1 basiert hierbei darauf, daß man
5.4 Modellsuche 12.8.05 5- 31
(VS2) Betrachte dasjenige (bzw. emes, falls es mehrere gibt) Modell vftk taus
(VS1) mit minimalem P-Wert, d.h.
Pt = Min P r r
und führe den Test von HOt zum Niveau a durch.
(VS3) Falls der Test aus (VS2) das aktuelle Modell vftk
ablehnt, so wird das
übermodell vftk
t das neue aktuelle Modell, d.h. man setzt
vftk+1 := vftkt und der nächste Vorwärtsschritt (mit vft
k+
1 statt vft
k) beginnt.
Falls der Test das aktuelle Modell vftk
nicht ablehnt) endet das Verfahren
mit (VS4).
(VS4) Das aktuelle Modell ist das gesuchte Modell, d.h. man setzt
J'II":= vftk
.
Da die F-Tests in (VS2) extrem konservativ sein können - weil die Gültigkeit des
umfassenden Modells vftkr
nicht sichergestellt ist und somit die Varianz 0-2 über
schätzt wird (vgl. 4.3) - sollte man hier ein nicht zu kleines Niveau a wählen, z.B.
a>lO%.
5.4.4 Das Rückwärts-Suchverfahren
Dieses Verfahren setzen die Gültigkeit eines umfassenden übermodells vft voraus.
Wenn keine speziellen Vorinformationen vorliegen (z.B. die vorangegangenen Ana
lysen oder Literaturstudien), so wird man in der Regel alle beobachteten Covariablen
(ggf. geeignet transformiert) zusammen mit den interessierenden Wechselwirkun
gen als formale Covariable in das Modell vft aufnehmen. Da wir das Modell vft im
folgenden als korrekt voraussetzen, sollte man seine Anpassung überprüfen (z.B.
durch einen Anpassungstest oder eine Residuenanalyse), sofern es nicht bereits aus
theoretischen Erwägungen korrekt sein muß.
Beim Rückwärts-Suchverfahren wird ausgehend vom Modell vft eine absteigende
Folge von Modellen konstruiert, die beim gesuchten Modell J'II" endet:
Der Rückwärts-Schritt "vftk
1----+ vftk+
1" für k > 1 basiert hierbei darauf, daß man
5.4 Modellsuche 12.8.05 5 - 32
diejenige Modellvariable des aktuellen Modells 4 ausfindig, die den geringsten
Einfluß hat und diese aus dem aktuellen Modell entfernt, wenn der zugehörige F-
Test zum Niveau ci! dies erlaubt. Das Verfahren endet, wenn sich keine Modell-Vari-
able auf diese Weise aus dem aktuellen Modell entfernen läßt.
Der Rückwärts-Schritt ,,% H Aktl " wird in drei Teilschritten ausgeführt (wobei
mit Test immer der F-Test gemeint ist):
(RSI) Betrachte alle Teilmodelle Akr C%, die sich durch Elimination einer
Modell-Variablen des aktuellen Modells 4 ergeben, und bestimme den P-
Wert P der Beobachtung für den Test von unter A', d.h. von r
pcAkr gegen H : ~ @ A k r , ~ c A k . r
(RS2) Betrachte dasjenige Modell Akt aus (RSI) mit maximalem P-Wert, d.h.
Pt = Max P r
und führe den Test von H zum Niveau ci! durch. 0 t
(RS3) Falls sich der Test aus (RS2) sich für das Modell Akt entscheidet, so wird
dieses das neue aktuelle Modell, d.h. man setzt-
und der nächste Rückwärtsschritt (mit A statt A') beginnt. 'tl
Falls der Test das Modell Akt ablehnt, wird das Verfahren abgebrochen und
das aktuelle Modell ist das gesuchte Modell, d.h. man setzt
5.4.5 Modifizierte Suchverfahren
Bei den Suchverfahren beschränkt man sich oft auf spezielle Modellklassen, die nur
gut interpretierbare Modelle enthalten, wie z.B. die hierachischen Modelle. Hierarchi-
sche Modelle sind dadurch charakterisiert, daß sie mit einer Wechselwirkung zweier
Variablen auch stets die beteiligten Variablen selbst enthalten. Bei einer Beschrän-
kung auf eine spezielle Modellklasse, werden dann im Schritt (RSI) bzw. (VSI) nur
Modelle Ak aus dieser Klasse zugelassen. r
5.4 Modellsuche 12.8.05 5- 32
diejenige Modellvariable des aktuellen Modells vftk ausfindig, die den geringsten
Einfluß hat und diese aus dem aktuellen Modell entfernt) wenn der zugehörige F
Test zum Niveau a dies erlaubt. Das Verfahren endet, wenn sich keine Modell-Vari
able auf diese Weise aus dem aktuellen Modell entfernen läßt.
Der Rückwärts-Schritt "vftk f-----t vftk+ 1" wird in drei Teilschritten ausgeführt (wobei
mit Test immer der F-Test gemeint ist):
(RS1) Betrachte alle Teilmodelle vftk
r C vftk
, die sich durch Elimination ezner
Modell-Variablen des aktuellen Modells vftk
ergeben, und bestimme den P
Wert Pr der Beobachtung für den Test von vftkr unter vftk, d.h. von
gegen
(RS2) Betrachte dasjenige Modell vftkt aus (RS1) mit maximalem P-Wert, d.h.
Pt = MaxP r r
und führe den Test von HOt zum Niveau a durch.
(RS3) Falls sich der Test aus (RS2) sich für das Modell vftk
t entscheidet, so wird
dieses das neue aktuelle Modell, d.h. man setzt-
und der nächste Rückwärtsschritt (mit vftk+
1 statt vft
k) beginnt.
Falls der Test das Modell vftk t ablehnt) wird das Verfahren abgebrochen und
das aktuelle Modell ist das gesuchte Modell, d.h. man setzt
5.4.5 Modifizierte Suchverfahren
Bei den Suchverfahren beschränkt man sich oft auf spezielle Modellklassen, die nur
gut interpretierbare Modelle enthalten, wie z.B. die hierachischen Modelle. Hierarchi
sche Modelle sind dadurch charakterisiert, daß sie mit einer Wechselwirkung zweier
Variablen auch stets die beteiligten Variablen selbst enthalten. Bei einer Beschrän
kung auf eine spezielle Modellklasse, werden dann im Schritt (RS1) bzw. (VS1) nur
Modelle vftk
r aus dieser Klasse zugelassen.
5.4 Modellsuche 12.8.05 5 - 33
Das Rück- und Vorwärts-Suchverfahren werden nicht nur in Reinkultur verwen-
det, sondern auch miteinander kombiniert. So kann man z.B. bei der Rückwärts-Su-
che a m Ende (oder sogar nach jedem Teilschritt) erneut mit einem Vorwärts-Such-
schritt überprüfen, ob man nicht eine bereits eliminierte Variable wieder hinzufü-
gen sollte. Entsprechend kann man bei der Vorwärts-Suche auch bereits aufgenom-
mene Variablen wieder durch einen Rückwärts-Schritt eliminieren. Solche ge-
mischte Prozeduren sind insbesondere dann empfehlenswert, wenn die einzelnen
Variablen untereinander stärkere Zusammenhänge (Korrelationen) aufweisen. In
jedem Fall sollte man die Anpassung für das endgültige Modell N n o c h einmal er-
neut überprüfen, z.B. mit einer Residuenanalyse.
Die Anwendung formaler Suchprozeduren ist nicht unumstritten (vgl. auch Miller
1990). So kann es aus inhaltlichen oder anderen Gründen z.B für Prognosezwecke
vorteilhafter sein, Variablen ins Modell Naufzunehmen, die sich bei den Suchver-
fahren nicht als „signifikantu erweisen (vielleicht wegen einer zu geringen „Schärfeu
des Such-Verfahrens). Wie bereits oben erwähnt, hängt das ausgewählte Modell N von den Beobachtungsdaten Y ab und ist streng genommen ein zufälliges Modell
N= 4 Y ) . Deshalb kann man auf dieses Modell N a u c h keine weitere statisti-
schen Verfahren (wie z.B. Tests oder Konstruktion von Konfidenzbereichen) an-
wenden, die nur für fest vorgebene (d.h. von Y unabhängige) Modelle gelten.
5.4 Modellsuche 12.8.05 5- 33
Das Rück- und Vorwärts-Suchverfahren werden nicht nur in Reinkultur verwen
det, sondern auch miteinander kombiniert. So kann man z.B. bei der Rückwärts-Su
che am Ende (oder sogar nach jedem Teilschritt) erneut mit einem Vorwärts-Such
schritt überprüfen, ob man nicht eine bereits eliminierte Variable wieder hinzufü
gen sollte. Entsprechend kann man bei der Vorwärts-Suche auch bereits aufgenom
mene Variablen wieder durch einen Rückwärts-Schritt eliminieren. Solche ge
mischte Prozeduren sind insbesondere dann empfehlenswert, wenn die einzelnen
Variablen untereinander stärkere Zusammenhänge (Korrelationen) aufweisen. In
jedem Fall sollte man die Anpassung für das endgültige Modell J'V noch einmal er
neut überprüfen, z.B. mit einer Residuenanalyse.
Die Anwendung formaler Suchprozeduren ist nicht unumstritten (vgl. auch Miller
1990). So kann es aus inhaltlichen oder anderen Gründen z.B für Prognosezwecke
vorteilhafter sein, Variablen ins Modell J'Vaufzunehmen, die sich bei den Suchver
fahren nicht als "signifikant" erweisen (vielleicht wegen einer zu geringen "Schärfe"
des Such-Verfahrens). Wie bereits oben erwähnt, hängt das ausgewählte Modell J'V
von den Beobachtungsdaten Y ab und ist streng genommen ein zufälliges Modell
J'V = JV(Y). Deshalb kann man auf dieses Modell J'Vauch keine weitere statisti
schen Verfahren (wie z.B. Tests oder Konstruktion von Konfidenzbereichen) an
wenden, die nur für fest vorgebene (d.h. von Y unabhängige) Modelle gelten.
6. Asymptotische Resultate im Gauß-Markov-Modell 31.5.11 6-1
6. Asymptotische Resultate im Gauß-Markov-Modell
Tests und Konfidenzbereiche haben wir bisher nur für normalverteilte Beobachtun
gen konstruiert, d.h. nur unter der Verteilungsannahme (NVY) handelt es sich um
exakte Tests und Konfidenzbereiche. Da man die Normalverteilungsannahme in der
Praxis nicht immer überprüfen kann oder will, stellt sich die Frage, inwieweit diese
Methoden zumindest approximativ gültig sind, wenn keine Normalverteilung vo
rausgesetzt wird, aber dafür die Anzahl J der Beobachtungen "hinreichend groß" ist.
Formal betrachten wir hierzu eine Asymptotik mit wachsender Anzahl J ---+ 00
unabhängiger Beobachtungen Y1, ... , Y J' wobei wir an die Folge der zentrierten Vari
ablen z. = Y. - f-L. noch eine Bedingung stellen werden. Bei normal verteilten Be-J J J
obachtungen ist Z. '""'"' N(O, CJ2) und die Z. sind sogar identisch verteilt. Im allgemeinen J J
muß das aber nicht der Fall sein und wir werden hier nur fordern, daß die Folge
(Z1 gleichgradig integrierbar ist. Für die asymptotischen Resultate benötigen wir J
au 'ßerdem noch eine Bedingung an die Covariablen-Folge (x .), die wir erst später J
formulieren.
Für normalverteilte Beobachtungen ist der Vektor Y = (Y1' ... , Y
J) multivariat nor
malverteilt und hieraus ergab sich die Normalverteilung der Parameter-Schätzung ()
und die (skalierte) x2-Verteilung der Schätzung 52, auf denen die Tests und Konfi
denzbereiche basierten. Eine asymptotische Verteilungsaussage über Y ist aber für
J ---+ 00 nicht möglich, weil die Dimension von Y mit J anwächst. Demgegenüber ha
ben die Schätzer feste Dimensionen und wir werden zeigen, daß () asymptotisch nor
malverteilt und 52 eine konsistente Schätzung für CJ2 ist. Mit diesen Ergebnissen läßt
sich das asmptotische Verhalten der t- und F-Tests sowie der Konfidenzbereiche
untersuchen. Es wird sich zeigen, daß die Tests und Konfidenzbereiche ihr Niveau
asymptotisch einhalten. In der Praxis bedeutet dies, daß bei nicht zu geringem Um
fang J diese Tests und Konfidenzbereiche auch dann noch approximativ gültig sind,
wenn die Beobachtungen nicht normalverteilt sind.
Es sei darauf hingewiesen, daß die zentralen Ergebnisse dieses Kapitels weitgehend
in allgemeineren asymptotischen Resultaten für das Generalisierte Lineare Modell
als Spezialfall enthalten sind. Sie werden hier deshalb separat behandelt, weil sie
sich mit einfacheren Methoden vollständig herleiten lassen und bereits emen we
sentlichen Einblick in typische asymptotischen Schlußweisen liefern.
6. Asymptotische Resultate im Gauß-Markov-Modell 31.5.11 6-1
6. Asymptotische Resultate im Gauß-Markov-Modell
Tests und Konfidenzbereiche haben wir bisher nur für normalverteilte Beobachtun
gen konstruiert, d.h. nur unter der Verteilungsannahme (NVY) handelt es sich um
exakte Tests und Konfidenzbereiche. Da man die Normalverteilungsannahme in der
Praxis nicht immer überprüfen kann oder will, stellt sich die Frage, inwieweit diese
Methoden zumindest approximativ gültig sind, wenn keine Normalverteilung vo
rausgesetzt wird, aber dafür die Anzahl J der Beobachtungen "hinreichend groß" ist.
Formal betrachten wir hierzu eine Asymptotik mit wachsender Anzahl J ---+ 00
unabhängiger Beobachtungen Y1, ... , Y J' wobei wir an die Folge der zentrierten Vari
ablen z. = Y. - f-L. noch eine Bedingung stellen werden. Bei normal verteilten Be-J J J
obachtungen ist Z. '""'"' N(O, CJ2) und die Z. sind sogar identisch verteilt. Im allgemeinen J J
muß das aber nicht der Fall sein und wir werden hier nur fordern, daß die Folge
(Z1 gleichgradig integrierbar ist. Für die asymptotischen Resultate benötigen wir J
au 'ßerdem noch eine Bedingung an die Covariablen-Folge (x .), die wir erst später J
formulieren.
Für normalverteilte Beobachtungen ist der Vektor Y = (Y1' ... , Y
J) multivariat nor
malverteilt und hieraus ergab sich die Normalverteilung der Parameter-Schätzung ()
und die (skalierte) x2-Verteilung der Schätzung 52, auf denen die Tests und Konfi
denzbereiche basierten. Eine asymptotische Verteilungsaussage über Y ist aber für
J ---+ 00 nicht möglich, weil die Dimension von Y mit J anwächst. Demgegenüber ha
ben die Schätzer feste Dimensionen und wir werden zeigen, daß () asymptotisch nor
malverteilt und 52 eine konsistente Schätzung für CJ2 ist. Mit diesen Ergebnissen läßt
sich das asmptotische Verhalten der t- und F-Tests sowie der Konfidenzbereiche
untersuchen. Es wird sich zeigen, daß die Tests und Konfidenzbereiche ihr Niveau
asymptotisch einhalten. In der Praxis bedeutet dies, daß bei nicht zu geringem Um
fang J diese Tests und Konfidenzbereiche auch dann noch approximativ gültig sind,
wenn die Beobachtungen nicht normalverteilt sind.
Es sei darauf hingewiesen, daß die zentralen Ergebnisse dieses Kapitels weitgehend
in allgemeineren asymptotischen Resultaten für das Generalisierte Lineare Modell
als Spezialfall enthalten sind. Sie werden hier deshalb separat behandelt, weil sie
sich mit einfacheren Methoden vollständig herleiten lassen und bereits emen we
sentlichen Einblick in typische asymptotischen Schlußweisen liefern.
6.1 Grundlagen der Asymptotik 10.6.11 6-2
6.1 Grundlagen der Asymptotik
Ausgangspunkt der asymptotischen Betrachtungen ist ein unendliche Folge von Be
obachtungen (Y.). lI.T zusammen mit einer Covariablen-Folge (x.EIRS). lI.T" Der JJEm J JEm
Vollständigkeit halber formulieren wir als Grundvoraussetzung zunächst, daß der
Erwartungswert aller Beobachtungen existiert und ihre Varianzen übereinstimmen
(Homogenität der Varianzen)
(EE)
(HVar)w
p,. = E(Y.) existiert ] ]
Var(Yj ) = 0-2 E(O,oo)
für alle j E W,
für alle j E W.
Weiter fordern wir,daß Beobachtungen (Y.). lI.Tstochastisch unabhängig sind: JJEm
(Unab)W Die Folge (Y.). lI.Tist stochastisch unabhängig .. J JEm
Um später den Zentralen Grenzwertsatz anwenden zu können müssen wir noch
weitere Bedingungen an die Verteilungen stellen. Eine plausible Forderung wäre,
daß die zentrierten Beobachtungen identisch verteilt sind mit endlichen 4. Momenten:
z. = Y.- p,. sind identisch verteilt mit E(Z~) <00 für j E W. J J J J
Für die hier herzuleitende asymptotischen Resultate reicht allerdings eine wesent
lich schächere Momenten-Bedingung:
Die Folge E([ Y.- p, .]4). lI.T ist beschränkt. J J JEm
Allerdings benötigen wir diese Bedingung nur zum Nachweis der Konsistenz der
Varianzschätzung 6.2. Für die asymptotische Normalverteilung der Parameter
schätzung e reicht eine Bedingung über die gleichgradige Integrierbarkeit - die aus der
Momenten-Bedingung folgt (vgl. Billingsley 1968, p. 32):
Die Folge ([Y.- p,.]2). lI.T ist gleichgradig integrierbar. J J JEm
Für jeden festen Stichprobenumfang JE Werfüllen somit die ersten J Beobachtun
gen die Bedingungen (Unab) und (HVar) aus Kapitel 1 und 2. Wir wollen nun ei
nen Grenzprozeß mit wachsendem Stichprobenumfang J betrachten, den wir jetzt
6.1 Grundlagen der Asymptotik 10.6.11 6-2
6.1 Grundlagen der Asymptotik
Ausgangspunkt der asymptotischen Betrachtungen ist ein unendliche Folge von Be
obachtungen (Y.). lI.T zusammen mit einer Covariablen-Folge (x.EIRS). lI.T" Der JJEm J JEm
Vollständigkeit halber formulieren wir als Grundvoraussetzung zunächst, daß der
Erwartungswert aller Beobachtungen existiert und ihre Varianzen übereinstimmen
(Homogenität der Varianzen)
(EE)
(HVar)w
p,. = E(Y.) existiert ] ]
Var(Yj ) = 0-2 E(O,oo)
für alle j E W,
für alle j E W.
Weiter fordern wir,daß Beobachtungen (Y.). lI.Tstochastisch unabhängig sind: JJEm
(Unab)W Die Folge (Y.). lI.Tist stochastisch unabhängig .. J JEm
Um später den Zentralen Grenzwertsatz anwenden zu können müssen wir noch
weitere Bedingungen an die Verteilungen stellen. Eine plausible Forderung wäre,
daß die zentrierten Beobachtungen identisch verteilt sind mit endlichen 4. Momenten:
z. = Y.- p,. sind identisch verteilt mit E(Z~) <00 für j E W. J J J J
Für die hier herzuleitende asymptotischen Resultate reicht allerdings eine wesent
lich schächere Momenten-Bedingung:
Die Folge E([ Y.- p, .]4). lI.T ist beschränkt. J J JEm
Allerdings benötigen wir diese Bedingung nur zum Nachweis der Konsistenz der
Varianzschätzung 6.2. Für die asymptotische Normalverteilung der Parameter
schätzung e reicht eine Bedingung über die gleichgradige Integrierbarkeit - die aus der
Momenten-Bedingung folgt (vgl. Billingsley 1968, p. 32):
Die Folge ([Y.- p,.]2). lI.T ist gleichgradig integrierbar. J J JEm
Für jeden festen Stichprobenumfang JE Werfüllen somit die ersten J Beobachtun
gen die Bedingungen (Unab) und (HVar) aus Kapitel 1 und 2. Wir wollen nun ei
nen Grenzprozeß mit wachsendem Stichprobenumfang J betrachten, den wir jetzt
6.1 Grundlagen der Asymptotik 10.6.11 6-3
aber (wie bei asymptotischen Betrachtungen üblich) mit n = J bezeichen und für
n ---+ 00 untersuchen. Im Zusammenhang mit dem Grenzprozess n ---+ 00 werden wir
allen bisherige Notationen mit dem zusätzlichen Index ))n" versehen, sofern dies
zum besseren Verständnis erforderlich ist. Allerdings wird aus Gründen der Über
sicht dieser Index gelegentlich fortgelassen, wenn keine Mißverständnisse zu be
fürchten sind. Insbesondere ist
(1) Y = (Yl, ... , Y ) E IR n
n n
der Beobachtungsvektor der ersten n Beobachtungen mit der zughörigen nx5-Cova
riablenmatrix
(2) T X = (xl' ... , x ) . n n
Damit der Parameter () eindeutig bestimmt ist, wollen wir wieder die Rangbedingung
für alle n > 5 fordern, indem wir sie (ohne Einschränkung der Allgemeinheit) bereits
für n =5 voraussetzen:
Die 5x5-Covariablen-Matrix Xs = (xl' ... , xS ) T für die ersten 5
Beobachtungen hat den Rang S.
Für den Nachweis der Lindeberg-Bedingung im Zentraler Grenzwertsatz benötigen
wir folgende fundamentale Covariablen-Bedingung
(CB) 1.. XTX ) V, n n n n---+ 00
V ist nicht-singuläre 5x5-Matrix.
Unter Berücksichtigung von
T n T X X = 2: x.x. ,
n n . J J J=1
T X Y = 2: x.Y. n n . J J
J=1
n (3)
läßt sich die Covariablen-Bedingung äquivalent wie folgt formulieren
(CB) , 1 n T - 2: x.x. ------tl V, n .=1 J J n---+oo
V ist nicht-singuläre 5x5-Matrix.
Am Ende dieses Abschnitts geben wir zwei Verfahren der Datenerhebung an, bei
denen die Covariablen- Bedingung erfüllt ist. Ausserdem werden wir noch sehen,
daß für die asymptotischen Resultate in den folgenden Abschnitten eine Abschwä
chung der Covariablen-Bedingung ausreichend ist.
6.1 Grundlagen der Asymptotik 10.6.11 6-3
aber (wie bei asymptotischen Betrachtungen üblich) mit n = J bezeichen und für
n ---+ 00 untersuchen. Im Zusammenhang mit dem Grenzprozess n ---+ 00 werden wir
allen bisherige Notationen mit dem zusätzlichen Index ))n" versehen, sofern dies
zum besseren Verständnis erforderlich ist. Allerdings wird aus Gründen der Über
sicht dieser Index gelegentlich fortgelassen, wenn keine Mißverständnisse zu be
fürchten sind. Insbesondere ist
(1) Y = (Yl, ... , Y ) E IR n
n n
der Beobachtungsvektor der ersten n Beobachtungen mit der zughörigen nx5-Cova
riablenmatrix
(2) T X = (xl' ... , x ) . n n
Damit der Parameter () eindeutig bestimmt ist, wollen wir wieder die Rangbedingung
für alle n > 5 fordern, indem wir sie (ohne Einschränkung der Allgemeinheit) bereits
für n =5 voraussetzen:
Die 5x5-Covariablen-Matrix Xs = (xl' ... , xS ) T für die ersten 5
Beobachtungen hat den Rang S.
Für den Nachweis der Lindeberg-Bedingung im Zentraler Grenzwertsatz benötigen
wir folgende fundamentale Covariablen-Bedingung
(CB) 1.. XTX ) V, n n n n---+ 00
V ist nicht-singuläre 5x5-Matrix.
Unter Berücksichtigung von
T n T X X = 2: x.x. ,
n n . J J J=1
(3) n
T X Y = 2: x.Y. n n . J J
J=1 läßt sich die Covariablen-Bedingung äquivalent wie folgt formulieren
(CB) , V ist nicht-singuläre 5x5-Matrix. 1 n T - 2: x.x. ------tl V, n .=1 J J n---+oo
Am Ende dieses Abschnitts geben wir zwei Verfahren der Datenerhebung an, bei
denen die Covariablen- Bedingung erfüllt ist. Ausserdem werden wir noch sehen,
daß für die asymptotischen Resultate in den folgenden Abschnitten eine Abschwä
chung der Covariablen-Bedingung ausreichend ist.
6.1 Grundlagen der Asymptotik 10.6.11 6-4
Die Matrix V ist als Grenzwert positiv-semi-definiter Matrizen positiv-semi-definit,
und da sie nicht singulär ist, folgt
(4) V ist positiv-definit.
Folglich ist (CB) auch äquivalent zu
(CB) " 1..X TX ----tl V, n n n n---+ 00
V ist positiv-definite SxS-Matrix.
Eine weitere äquivalente Fassung von (CB) ist
(CB)'" Für jedes O:;=cEIRS gibt es ein v>O mit
1.. cTX TX c = 1..IIX cl1 2 ) v. n n n n n n---+ 00
Aus (CB) ergibt sich sofort
(5)
Obwohl wir die Covariablen-Bedingung (CB) hier der Einfachheit halber generell
voraussetzen, wollen wir schon jetzt eine Abschwächung von (CB)" angeben:
(CB)* Die Folge (1.. X TX ) lI.T ist beschränkt und jeder Häufungspunkt n n n nEll'I
der Folge ist positiv-definit.
Wie wir noch sehen werden, reicht (CB)* als Voraussetzung für die wichtigsten an
wendungsrelevanten Grenzwertsätze aus. Eine äquivalente Formulierung ist
(CB)*' Für jedes 0:;= cE IRS ist die Folge (1.. cTX TX c) lI.T beschränkt n n n nEll'I
und von Null wegbeschränkt (d.h. ihr Infimum ist> 0).
Und wichtige Folgerung aus (CB) zeigen wir noch
(6) 1 11 11 -·Max x r,;,n . J. max V'6 1 :::;J:::;n
----tl O. n---+ 00
wobei 11 c 11 = Max 1 c 1 die Maximum-Norm eines Vektors cE IRS ist. max 1 <8<S 8
6.1 Grundlagen der Asymptotik 10.6.11 6-4
Die Matrix V ist als Grenzwert positiv-semi-definiter Matrizen positiv-semi-definit,
und da sie nicht singulär ist, folgt
(4) V ist positiv-definit.
Folglich ist (CB) auch äquivalent zu
(CB) " 1..X TX ----tl V, n n n n---+ 00
V ist positiv-definite SxS-Matrix.
Eine weitere äquivalente Fassung von (CB) ist
(CB)'" Für jedes O:;=cEIRS gibt es ein v>O mit
1.. cTX TX c = 1..IIX cl1 2 ) v. n n n n n n---+ 00
Aus (CB) ergibt sich sofort
(5)
Obwohl wir die Covariablen-Bedingung (CB) hier der Einfachheit halber generell
voraussetzen, wollen wir schon jetzt eine Abschwächung von (CB)" angeben:
(CB)* Die Folge (1.. X TX ) lI.T ist beschränkt und jeder Häufungspunkt n n n nEll'I
der Folge ist positiv-definit.
Wie wir noch sehen werden, reicht (CB)* als Voraussetzung für die wichtigsten an
wendungsrelevanten Grenzwertsätze aus. Eine äquivalente Formulierung ist
(CB)*' Für jedes 0:;= cE IRS ist die Folge (1.. cTX TX c) lI.T beschränkt n n n nEll'I
und von Null wegbeschränkt (d.h. ihr Infimum ist> 0).
Und wichtige Folgerung aus (CB) zeigen wir noch
(6) 1 11 11 -·Max x r,;,n . J. max V'6 1 :::;J:::;n
----tl O. n---+ 00
wobei 11 c 11 = Max 1 c 1 die Maximum-Norm eines Vektors cE IRS ist. max 1 <8<S 8
6.1 Grundlagen der Asymptotik
Die Gültigkeit des Modells
T /-L.=x.() J J
10.6.11 6-5
für ein () E IRS und alle j E W ,
wollen wir jedoch zunächst nicht generell voraussetzen, um auch das asymptotische
Verhalten der Schätzer untersuchen zu können, wenn das Modell nicht gilt. Konkret
werden wir die Gültigkeit des Modells (LM)W immer explizit als Voraussetzung er
wähnen, wenn dies erforderlich ist. Unter Verwendung des Modellraums
(7)
ergibt sich als äquivalente Formulierung von (LM)W
(LM)']N /-L = (/-L1' ... , /-L ) E .At für alle n > S. n n n
Für jede Realisierung y von Y = (Y1' ... , Y ) ist der MQ-Schätzer von () für das n n n Modell.At - auch wenn das Modell nicht gilt - nach Abschnitt 4.3 (mit D als Ein
n heitsmatrix) gegeben durch die lineare Funktion () : IR n -----+ IRSmit
n
(8) für y = (Y1' ... , Y ) E IR n . n n
Und die zugehörige lineare Schätzfunktion (i, : IR n -----+ IR n für /-L lautet dann n
(9) A ( ) _ X [X T X J -1 X T /-Ln y n - n n n n Y n für Y = (Y1' ... , Y ) E IR n . n n
Die zugehörigen Zufallsvariablen
(10) () = () (Y ) = [X T X J -1 X T Y (n) n n n n n n'
A = A (Y ) = X [X T X J -1 X T Y . /-L(n) /-Ln n n n n n n
haben dann nach 4.4 folgende Erwartungswerte
(11) E(()(n)) = ()n(/-Ln) = [X:XnJ-1X: /-Ln '
E( A) A ( ) = X [X T X J -1 X T = X () ( ). /-L(n) = /-Ln /-Ln n n n n /-Ln n n /-Ln
Wenn das Modell.At gilt, so sind diese Schätzer erwartungstreu. Die Erwartungn
6.1 Grundlagen der Asymptotik
Die Gültigkeit des Modells
T /-L.=x.() J J
10.6.11 6-5
für ein () E IRS und alle j E W ,
wollen wir jedoch zunächst nicht generell voraussetzen, um auch das asymptotische
Verhalten der Schätzer untersuchen zu können, wenn das Modell nicht gilt. Konkret
werden wir die Gültigkeit des Modells (LM)W immer explizit als Voraussetzung er
wähnen, wenn dies erforderlich ist. Unter Verwendung des Modellraums
(7)
ergibt sich als äquivalente Formulierung von (LM)W
(LM)']N /-L = (/-L1' ... , /-L ) E .At für alle n > S. n n n
Für jede Realisierung y von Y = (Y1' ... , Y ) ist der MQ-Schätzer von () für das n n n Modell.At - auch wenn das Modell nicht gilt - nach Abschnitt 4.3 (mit D als Ein
n heitsmatrix) gegeben durch die lineare Funktion () : IR n -----+ IRSmit
n
(8) für y = (Y1' ... , Y ) E IR n . n n
Und die zugehörige lineare Schätzfunktion (i, : IR n -----+ IR n für /-L lautet dann n
(9) A ( ) _ X [X T X J -1 X T /-Ln y n - n n n n Y n für Y = (Y1' ... , Y ) E IR n . n n
Die zugehörigen Zufallsvariablen
(10) () = () (Y ) = [X T X J -1 X T Y (n) n n n n n n'
A = A (Y ) = X [X T X J -1 X T Y . /-L(n) /-Ln n n n n n n
haben dann nach 4.4 folgende Erwartungswerte
(11) E(()(n)) = ()n(/-Ln) = [X:XnJ-1X: /-Ln '
E( A) A ( ) = X [X T X J -1 X T = X () ( ). /-L(n) = /-Ln /-Ln n n n n /-Ln n n /-Ln
Wenn das Modell.At gilt, so sind diese Schätzer erwartungstreu. Die Erwartungn
6.1 Grundlagen der Asymptotik 10.6.11 6-6
streue von (i, ist sogar äquivalent zur Gültigkeit des Modells, d.h. zu (LM)W.
bzw. für alle nE W.
Schließlich ist die Schätzung für 0-2 gegeben durch
Abschließend wollen noch zwei Verfahren der Datenerhebung angeben, bei denen
die Covariablen-Bedingung (CB)' gilt.
Zufällige Covariablen
Wir betrachten jetzt eine eme Datenerhebung, bei der die Covariablen xl' ... , xn
eine Stichprobe vom Umfang n eines S-dimensionalen Zufallsvektors X sind (die
Bezeichnung X statt X wird hier verwendet, um Verwechselungen mit der Design
matrix X zu vermeiden). Dies ist in zwei typischen Situationen der Fall. Wenn ei
nerseits die Covariable vorgegeben werden (wovon wir bisher immer ausgegangen
sind), so werden sie in diesem Fall einfach zufällig gemäß der Verteilung von X "ge
zogen", und dies ist eine allgemeine Form der Randomisierung (vgl. 5.1.2, 5.1.4).
Wenn aber andererseits die Covariablen wie in 1.1 beschrieben (dort mit X statt
X) auch Zufallsvariablen sind und zusammen mit der Zielvariablen zufällig aus der
gemeinsamen Verteilung von (Y,X) gezogen werden, so ist xl' ... , x n natürlich auch
eine Stichprobe vom Umfang n aus der Verteilung von X.
- -Zur formalen Beschreibung betrachten wir unabhängige Wiederholungen Xi, ... , X
n von X und untersuchen Covariablen-Bedingung (CB)', allerdings jetzt mit Zufalls
variablen statt der Realisierungen. Aus dem starken Gesetz der großen Zahlen er
gibt sich
(13) n
1 --T --T 2:= X. X. ) V: = E(X X ) n. 1 J J n---+ 00
J= P-fast-sicher.
Hierbei ist V genau dann positiv-definit, wenn X nicht P-fast-sicher in einer Hyper
bene des IRS liegt, d.h. wenn für jedes tE IRS gilt
(14) T-t X = 0 P-fast-sicher t = o.
Anders formuliert ist V genau dann nicht positiv-definit, wenn es ein t :;= 0 gibt mit
6.1 Grundlagen der Asymptotik 10.6.11 6-6
streue von (i, ist sogar äquivalent zur Gültigkeit des Modells, d.h. zu (LM)W.
bzw. für alle nE W.
Schließlich ist die Schätzung für 0-2 gegeben durch
Abschließend wollen noch zwei Verfahren der Datenerhebung angeben, bei denen
die Covariablen-Bedingung (CB)' gilt.
Zufällige Covariablen
Wir betrachten jetzt eine eme Datenerhebung, bei der die Covariablen xl' ... , xn
eine Stichprobe vom Umfang n eines S-dimensionalen Zufallsvektors X sind (die
Bezeichnung X statt X wird hier verwendet, um Verwechselungen mit der Design
matrix X zu vermeiden). Dies ist in zwei typischen Situationen der Fall. Wenn ei
nerseits die Covariable vorgegeben werden (wovon wir bisher immer ausgegangen
sind), so werden sie in diesem Fall einfach zufällig gemäß der Verteilung von X "ge
zogen", und dies ist eine allgemeine Form der Randomisierung (vgl. 5.1.2, 5.1.4).
Wenn aber andererseits die Covariablen wie in 1.1 beschrieben (dort mit X statt
X) auch Zufallsvariablen sind und zusammen mit der Zielvariablen zufällig aus der
gemeinsamen Verteilung von (Y,X) gezogen werden, so ist xl' ... , x n natürlich auch
eine Stichprobe vom Umfang n aus der Verteilung von X.
- -Zur formalen Beschreibung betrachten wir unabhängige Wiederholungen Xi, ... , X
n von X und untersuchen Covariablen-Bedingung (CB)', allerdings jetzt mit Zufalls
variablen statt der Realisierungen. Aus dem starken Gesetz der großen Zahlen er
gibt sich
(13) n
1 --T --T 2:= X. X. ) V: = E(X X ) n. 1 J J n---+ 00
J= P-fast-sicher.
Hierbei ist V genau dann positiv-definit, wenn X nicht P-fast-sicher in einer Hyper
bene des IRS liegt, d.h. wenn für jedes tE IRS gilt
(14) T-t X = 0 P-fast-sicher t = o.
Anders formuliert ist V genau dann nicht positiv-definit, wenn es ein t :;= 0 gibt mit
6.1 Grundlagen der Asymptotik 10.6.11 6-7
5 T- -
tX=2: tX =O 8=1 8 8
P-fast-sicher.
Dann wäre aber eine Komponente von X P-fast-sicher eine Linearkombination der
restlichen Komponenten und das lineare Modell mit einem S-dimensionalen Para
metervektor () wäre nicht sinnvoll.
Zusammengefasst gilt also bei dieser Form der Datenerhebung die Covariablen-Be
dingung (CB)' mit Wahrscheinlichkeit 1, wenn die Verteilung von X nicht auf eine
Hyperebene des IRS konzentriert ist.
Endliche viele Covariablen
Wir gehen jetzt davon aus, daß alle Covariablenvektoren aus einer endlichen Menge
{x(l)' ... , x(K)} C IRS frei gewählt werden können, was z.B. immer dann (aber nicht
nur dann) der Fall ist, wenn alle Komponenten des Covariablenvektor aus Indika
torvariablen bestehen.( vgl. z.B. 3.2.3 und 3.3.3). Hierbei muss natürlich K > S gelten
und wir setzen ohne Beschränkung der Allgemeinheit voraus, daß alle K Covari
ablenwerte bereits unter den ersten K Beobachtungen vorkommen, d.h. x k = x(k) für
k=l, ... ,K. Bezeichnet nk = # {j=1, ... , nl Xj=Xk } die absolute und cnk=nk/n die
relative Häufigkeit von x k unter den ersten n Covariablen xl' ... , X n' so gilt
1n
T 1K
T K T (15) - 2: x. x . - - 2: nk x k x k 2: C k x k x k . n j =1 J J n k=l k=l n
Wenn sich die relativen Häufigkeiten für wachsendes n stabilisieren und nicht ver
schwinden, d.h. wenn
(16) für alle k = 1, ... , K
gilt, so folgt
(17) ~ .~ xjxT n-HX!) k~_l ck xkxJ = Xl Diag{c1, ... , cK} X K =: v. J=l
Wegen K> S hat XK
nach (RB)s den Rang S und damit ist V positiv-definit und
die Covariablen-Bedingung (CB)' gilt. Die hierfür hinreichende Bedingung (16) ist
z.B. dann erfüllt, wenn die Covariable zyklisch wiederholt werden, d.h. wenn
(18) für alle k = 1, ... , Kund m E Wo
und in diesem Fall ist ck = l für alle k.
6.1 Grundlagen der Asymptotik 10.6.11 6-7
5 T- -
tX=2: tX =O 8=1 8 8
P-fast-sicher.
Dann wäre aber eine Komponente von X P-fast-sicher eine Linearkombination der
restlichen Komponenten und das lineare Modell mit einem S-dimensionalen Para
metervektor () wäre nicht sinnvoll.
Zusammengefasst gilt also bei dieser Form der Datenerhebung die Covariablen-Be
dingung (CB)' mit Wahrscheinlichkeit 1, wenn die Verteilung von X nicht auf eine
Hyperebene des IRS konzentriert ist.
Endliche viele Covariablen
Wir gehen jetzt davon aus, daß alle Covariablenvektoren aus einer endlichen Menge
{x(l)' ... , x(K)} C IRS frei gewählt werden können, was z.B. immer dann (aber nicht
nur dann) der Fall ist, wenn alle Komponenten des Covariablenvektor aus Indika
torvariablen bestehen.( vgl. z.B. 3.2.3 und 3.3.3). Hierbei muss natürlich K > S gelten
und wir setzen ohne Beschränkung der Allgemeinheit voraus, daß alle K Covari
ablenwerte bereits unter den ersten K Beobachtungen vorkommen, d.h. x k = x(k) für
k=l, ... ,K. Bezeichnet nk = # {j=1, ... , nl Xj=Xk } die absolute und cnk=nk/n die
relative Häufigkeit von x k unter den ersten n Covariablen xl' ... , X n' so gilt
1n
T 1K
T K T (15) - 2: x. x . - - 2: nk x k x k 2: C k x k x k . n j =1 J J n k=l k=l n
Wenn sich die relativen Häufigkeiten für wachsendes n stabilisieren und nicht ver
schwinden, d.h. wenn
(16) für alle k = 1, ... , K
gilt, so folgt
(17) ~ .~ xjxT n-HX!) k~_l ck xkxJ = Xl Diag{c1, ... , cK} X K =: v. J=l
Wegen K> S hat XK
nach (RB)s den Rang S und damit ist V positiv-definit und
die Covariablen-Bedingung (CB)' gilt. Die hierfür hinreichende Bedingung (16) ist
z.B. dann erfüllt, wenn die Covariable zyklisch wiederholt werden, d.h. wenn
(18) für alle k = 1, ... , Kund m E Wo
und in diesem Fall ist ck = l für alle k.
6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-8
6.2 Asymptotische Verteilung der Schätzer
Wir wollen zuerst die asymptotische Normalverteilung der Parameterschätzung O(n)
herleiten und setzen dafür zunächst nur die Abschwächung (GGI)W der Momen
ten-Bedingung voraus. Als Erstes zeigen wir die asymptotische Normalverteilung des
S-dimensionalen Score-Vektors X T Y : n n
(ANS) 00
Unter Verwendung einer beliebigen Wurzel [X:XnJ 1/2 ergibt sich hieraus die stan
dardisierte Fassung
(ANS) 1.. [XTX ]-1/2 X T[y -Jl] ci:) N(O,l1s ), a n n n n n n---+ 00 S\
in der die Limesmatrix V aus (CB) nicht mehr vorkommt. Als nächstes erhält man
die asymptotische Normalverteilung der Parameterschätzung
(ANP) 00
(ANP)
Vn [ O(n) - E(O(n)) ]
1.. [XTX ]T/2[0 -E(O )] a n n (n) (n)
ci: ) N (0, l1s ). n---+ 00 S\
Man beachte, daß für normalverteiltes Y die jeweils linken Seiten in (ANS) und n
(ANP) exakt die Standard-Normalverteilung des Grenzwertes haben. In diesem
Sinn sind diese Konvergenzaussagen eine asymptotische Verallgemeinerung der
exakten Verteilungsaussagen im Normalverteilungs-Modell.
Durch Multiplikation mit. ~ ---+ 0 ergibt sich aus (ANP) die Konvergenz der Para-v n 00
meterschätzung
(KP) P ----tl 0,
n---+ 00
aus der unter der Gültigkeit des Modells sofort die Konsistenz der Parameterschät
zung folgt
(KonP) Unter (LM)wgilt: P ----tl ()
n---+ 00 (Konsistenz von 0).
Eine zu (ANP) analoge Aussage für die Schätzung (i, des Erwartungswerts Jl ist n n
6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-8
6.2 Asymptotische Verteilung der Schätzer
Wir wollen zuerst die asymptotische Normalverteilung der Parameterschätzung O(n)
herleiten und setzen dafür zunächst nur die Abschwächung (GGI)W der Momen
ten-Bedingung voraus. Als Erstes zeigen wir die asymptotische Normalverteilung des
S-dimensionalen Score-Vektors X T Y : n n
(ANS) 00
Unter Verwendung einer beliebigen Wurzel [X:XnJ 1/2 ergibt sich hieraus die stan
dardisierte Fassung
(ANS) 1.. [XTX ]-1/2 X T[y -Jl] ci:) N(O,l1s ), a n n n n n n---+ 00 S\
in der die Limesmatrix V aus (CB) nicht mehr vorkommt. Als nächstes erhält man
die asymptotische Normalverteilung der Parameterschätzung
(ANP) 00
(ANP)
Vn [ O(n) - E(O(n)) ]
1.. [XTX ]T/2[0 -E(O )] a n n (n) (n)
ci: ) N (0, l1s ). n---+ 00 S\
Man beachte, daß für normalverteiltes Y die jeweils linken Seiten in (ANS) und n
(ANP) exakt die Standard-Normalverteilung des Grenzwertes haben. In diesem
Sinn sind diese Konvergenzaussagen eine asymptotische Verallgemeinerung der
exakten Verteilungsaussagen im Normalverteilungs-Modell.
Durch Multiplikation mit. ~ ---+ 0 ergibt sich aus (ANP) die Konvergenz der Para-v n 00
meterschätzung
(KP) P ----==------t) 0,
n---+ 00
aus der unter der Gültigkeit des Modells sofort die Konsistenz der Parameterschät
zung folgt
(KonP) Unter (LM)wgilt: P ----tl ()
n---+ 00 (Konsistenz von 0).
Eine zu (ANP) analoge Aussage für die Schätzung (i, des Erwartungswerts Jl ist n n
6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-9
nicht möglich, weil dessen Dimension n unter der Asymptotik gegen 00 strebt. Al
lerdings läßt sich die asymptotische Verteilung der (quadratischen) Abweichung
von (L um seinen Erwartungswert angeben: n
(1) ci: 2 n---+oo) Xs ·
Ab jetzt wollen wir auch die Momenten-Bedingung (MB)W voraussetzen und zeigen
als nächstes die Konsistenz der Varianzschätzung - allerdings nur unter der Gültig
keit des Modells:
(Kon V) Unter (LM)wgilt: A2 P 2 a ) a n n---+oo
(Konsistenz von 52).
Insbesondere können wir - unter der Gültigkeit des Modells - in (ANS) und (ANP)
die Standardabweichung a durch ihre Schätzung ersetzen:
(ANSr Unter (LM)T'>Tgilt: ~ [X TX ]-1/2 X T [y - Jl ] ll'I a nn n n n
ci: ) N (0, l1s )' n---+oo S\
(ANP) A Unter (LM)wgilt: ~ [X TX ]T/2[O -()] ci: N (Oll ) a n n (n) n---+oo) S\' S .
Wie schon angekündigt, lassen sich die anwendungsrelevanten Konvergenzaussa
gen auch bereits aus der Abschwächung (CB)* der Covariablen-Bedingung (CB)
herleiten. Mit Ausnahme der Konvergenzaussagen (ANS) und (ANP) - die als 00 00
einzige den Grenzwert V aus (CB) enthalten - lassen sich alle anderen Aussagen
dieses Abschnitts unter Verwendung des Teilfolgenkriteriums schon aus der Ab
schwächung (CB)* herleiten. Wir zeigen dies exemplarisch für die asymptotische
Normalverteilung (ANP) des Parameters. Nach dem Teilfolgenkriterium für Ver
teilungskonvergenz (vgl.Exkurs KV 1) ist für eine beliebige Teilfolge n' die Exi
stenz einer weiteren Teilfolge n" zu zeigen mit
(*)
Nach (CB)* gibt es zur Teilfolge n' eine weitere konvergente Teilfolge n" mit
-.1" [XTII X 11] -----+ V", n n n
V" positiv-definit.
Für die Teilfolge n" gilt also die Covariablen-Bedingung (CB) und die Anwendung
von (ANP) auf die Teilfolge n" ergibt (*).
6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-9
nicht möglich, weil dessen Dimension n unter der Asymptotik gegen 00 strebt. Al
lerdings läßt sich die asymptotische Verteilung der (quadratischen) Abweichung
von (L um seinen Erwartungswert angeben: n
(1) ci: 2 n---+oo) Xs ·
Ab jetzt wollen wir auch die Momenten-Bedingung (MB)W voraussetzen und zeigen
als nächstes die Konsistenz der Varianzschätzung - allerdings nur unter der Gültig
keit des Modells:
(Kon V) Unter (LM)wgilt: A2 P 2 a ) a n n---+oo
(Konsistenz von 52).
Insbesondere können wir - unter der Gültigkeit des Modells - in (ANS) und (ANP)
die Standardabweichung a durch ihre Schätzung ersetzen:
(ANSr Unter (LM)T'>Tgilt: ~ [X TX ]-1/2 X T [y - Jl ] ll'I a nn n n n
ci: ) N (0, l1s )' n---+oo S\
(ANP) A Unter (LM)wgilt: ~ [X TX ]T/2[O -()] ci: N (Oll ) a n n (n) n---+oo) S\' S .
Wie schon angekündigt, lassen sich die anwendungsrelevanten Konvergenzaussa
gen auch bereits aus der Abschwächung (CB)* der Covariablen-Bedingung (CB)
herleiten. Mit Ausnahme der Konvergenzaussagen (ANS) und (ANP) - die als 00 00
einzige den Grenzwert V aus (CB) enthalten - lassen sich alle anderen Aussagen
dieses Abschnitts unter Verwendung des Teilfolgenkriteriums schon aus der Ab
schwächung (CB)* herleiten. Wir zeigen dies exemplarisch für die asymptotische
Normalverteilung (ANP) des Parameters. Nach dem Teilfolgenkriterium für Ver
teilungskonvergenz (vgl.Exkurs KV 1) ist für eine beliebige Teilfolge n' die Exi
stenz einer weiteren Teilfolge n" zu zeigen mit
(*)
Nach (CB)* gibt es zur Teilfolge n' eine weitere konvergente Teilfolge n" mit
-.1" [XTII X 11] -----+ V", n n n
V" positiv-definit.
Für die Teilfolge n" gilt also die Covariablen-Bedingung (CB) und die Anwendung
von (ANP) auf die Teilfolge n" ergibt (*).
6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-10
6.3 Asymptotische Tests für Linearkombinationen
Wir betrachten jetzt wieder eine feste Linearkombination cT() des Parameters ()
mit cE IRSund c:;= 0, die wir mit einem fest vorgegeben Rejerenzwert Co E IR (etwa
Co = 0) vergleichen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme
sind (vgl. auch Abschnitt 2.5.2)
(1)
(2)
TNullhypothese H=: c () = Co
TNullhypothese H<: c () < Co
vs.
vs.
Alternative H:;zt.: cT() :;= Co '
Alternative H>: cT() > co.
Für die asymptotischen Resultate dieses Abschnitts wollen wir neben den generel
len Voraussetzungen aus 6.1 auch die Gültigkeit des Modells (LM}j}J voraussetzen. Der
Einfachheit halber wollen wir weiterhin die Covariablen-Bedingung (CB) voraus
setzen, obwohl sich mit der in 6.2 erläuterten "Teilfolgen-Argumentation" alle Er
gebnisse dieses Abschnitts auch aus der schwächeren Bedingung (CB)* herleiten
lassen, weil sie den Grenzwert V nicht enthalten.
6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests
Aus der asymptotischen Normalverteilung von O(n) ergibt sich die asymptotische
Normalverteilung der geschätzten Linearkombination cTO(n)
TA T
(1)c ()(n) - C () cf N(O, 1) mit)
acnn---+ 00
(2) 2 0-2 c T[X:Xn
J-1 c 00-cn n---+ 00
Ersetzt man die Varianz 0-2 durch ihre Schätzung 0- 2
, so erhält mann
(3) A 2 A 2 T [X TX J-10- =o-c c.cn n n n
Aus der Konsistenz der Schätzung 0- 2 ergibt sichn
(4)p
n---+ 001.
6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-10
6.3 Asymptotische Tests für Linearkombinationen
Wir betrachten jetzt wieder eine feste Linearkombination cT () des Parameters ()
mit cE IRSund c:;= 0, die wir mit einem fest vorgegeben ReJerenzwert Co E IR (etwa
Co = 0) vergleichen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme
sind (vgl. auch Abschnitt 2.5.2)
(1)
(2)
T Nullhypothese H=: c () = Co
T Nullhypothese H<: c () < Co
vs.
vs.
Alternative H:;zt.: cT () :;= Co '
Alternative H>: cT () > co.
Für die asymptotischen Resultate dieses Abschnitts wollen wir neben den generel
len Voraussetzungen aus 6.1 auch die Gültigkeit des Modells (LM)W voraussetzen. Der
Einfachheit halber wollen wir weiterhin die Covariablen-Bedingung (CB) voraus
setzen, obwohl sich mit der in 6.2 erläuterten "Teilfolgen-Argumentation" alle Er
gebnisse dieses Abschnitts auch aus der schwächeren Bedingung (CB)* herleiten
lassen, weil sie den Grenzwert V nicht enthalten.
6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests
Aus der asymptotischen Normalverteilung von O(n) ergibt sich die asymptotische
Normalverteilung der geschätzten Linearkombination cTO(n)
TA T
(1) c ()(n) - C () L N(O, 1) mit
acn n---+ 00
(2) 2 a
2c
T [X:Xn
J-1 c 0 a cn n---+ 00
Ersetzt man die Varianz a 2 durch ihre Schätzung 0- 2 , so erhält man
n
(3) A 2 A 2 T [X TX J-1 a =ac c. cn n n n
Aus der Konsistenz der Schätzung 0- 2 ergibt sich n
(4) p
1. n---+ 00
6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-11
und somit die zu (1) analoge Aussage mit der Schätzung ac n statt a c n
(5)n---+ 00
N(O,l) .
Die Teststatitistik aus 2.5.2 für die ersten n Beobachtungen
TA
(6) Tn
C ()(n) - CoA
acn
verhält sich asymptotisch wie folgt
(7) T cf N(O,l) für T) C () = co'n n---+ 00
(8) T P für T) -00 C () < Co 'n n---+ 00
(9) T P für T) +00 C () > Co .
n n---+ 00
6.3.2 Asymptotische Eigenschaften des t-Test
Wir wollen jetzt zeigen, daß der ein- bzw. zweiseitige t-Test aus Abschnitt 2.5 das
asymptotische Niveau a hat und konsistent ist. Die Schärfe des zweiseitigen t-Test
zum (nominellen) Niveau a ist
(1)
und unter Verwendung der Konvergenz der t-Quantile
(2) t ) zn - Si (X n---+ 00 (X
ergibt sich für n ---+ 00 die asymptotische Schärfe
(3) = { alPowoo(a) := lim pow(n)(a)2 n---+oo 2
unter
unter
H=." cT
() = Co
TH;;t:.'" c ():;= Co
}.
Folglich konvergiert das Fehlerrisko 1. Art des zweiseitigen t-Test gegen a, d.h. sein
asymptotisches Niveau ist a. Ferner ist der zweiseitige t-Test konsistent, weil seine
6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-11
und somit die zu (1) analoge Aussage mit der Schätzung ac n statt a c n
(5) n---+ 00
N(O,l) .
Die Teststatitistik aus 2.5.2 für die ersten n Beobachtungen
TA
(6) Tn
C ()(n) - Co A
acn
verhält sich asymptotisch wie folgt
(7) T L N(O,l) für T C () = co' n n---+ 00
(8) T P für T -00 C () < Co ' n n---+ 00
(9) T P für T +00 C () > Co .
n n---+ 00
6.3.2 Asymptotische Eigenschaften des t-Test
Wir wollen jetzt zeigen, daß der ein- bzw. zweiseitige t-Test aus Abschnitt 2.5 das
asymptotische Niveau a hat und konsistent ist. Die Schärfe des zweiseitigen t-Test
zum (nominellen) Niveau a ist
(1)
und unter Verwendung der Konvergenz der t-Quantile
(2) t ) Z n - Si (X n---+ 00 (X
ergibt sich für n ---+ 00 die asymptotische Schärfe
(3) = { al Powoo(a) : = lim pow(n)(a) 2 n---+oo 2
unter
unter
H=: cT
() = Co
T H;;t:: c ():;= Co
}.
Folglich konvergiert das Fehlerrisko 1. Art des zweiseitigen t-Test gegen a, d.h. sein
asymptotisches Niveau ist a. Ferner ist der zweiseitige t-Test konsistent, weil seine
6.3 Asymptotische Tests für Linearkombinationen
Schärfe unter der Alternative H gegen 1 konvergiert.:;Z:
8.7.10 6-12
Die Schärfe des einseitigen t-Tests zum (nominellen) Niveau a ist
(4)
und konvergiert für n ---+ 00 gegen die asymptotische Schärfe
(5)fürfürfür
cT(} < CocT(} = CocT(} > Co }
Das maximale asymptotische Fehlerrisiko 1. Art für die Nullhypothese H<: cT(}< Co ist
daher gleich a, d.h. der einseitige t-Test hat das asymptotische Niveau a. Er ist
auch konsistent, weil seine Schärfe unter der Alternative H>: cT() > Co gegen 1 kon
vergiert.
Wegen die Quantilkonvergenz (2) kann man für großes n statt der t-Tests auch die
asymptotisch äquivalenten Gauß-Tests verwenden:
(6) Zweiseitiger Gauß-Test von H= vs. H:;z: zum asymptotischen Niveau a:
Ablehnung von H_
(7) Einseitiger Gauß-Test von H< vs. H> zum asymptotischen Niveau a:
Ablehnung von H< T>z ,- Q
Die t-Tests haben jedoch gegenüber diesen Gauß-Tests den Vorteil, daß sie unter
der Normalverteilungsannahme (NVY) sogar das exakte Niveau a haben, während
das Niveau der Gauß-Test in diesem Fall sogar > a ist, weil (vgl. Johnson €J Kotz
Sec. 27.2):
(8) z < tQ m,Q
für jedes a < ~ und mE lN.
6.3 Asymptotische Tests für Linearkombinationen
Schärfe unter der Alternative H gegen 1 konvergiert. :;Z:
8.7.10
Die Schärfe des einseitigen t-Tests zum (nominellen) Niveau a ist
(4)
und konvergiert für n ---+ 00 gegen die asymptotische Schärfe
(5) für für für
cT(} < Co cT(} = Co cT(} > Co
6-12
} Das maximale asymptotische Fehlerrisiko 1. Art für die Nullhypothese H<: cT
(}< Co ist
daher gleich a, d.h. der einseitige t-Test hat das asymptotische Niveau a. Er ist
auch konsistent, weil seine Schärfe unter der Alternative H >: cT () > Co gegen 1 kon
vergiert.
Wegen die Quantilkonvergenz (2) kann man für großes n statt der t-Tests auch die
asymptotisch äquivalenten Gauß-Tests verwenden:
(6) Zweiseitiger Gauß-Test von H = vs. H:;z: zum asymptotischen Niveau a:
Ablehnung von H_
(7) Einseitiger Gauß-Test von H< vs. H> zum asymptotischen Niveau a:
Ablehnung von H< T>z , - Q
Die t-Tests haben jedoch gegenüber diesen Gauß-Tests den Vorteil, daß sie unter
der Normalverteilungsannahme (NVY) sogar das exakte Niveau a haben, während
das Niveau der Gauß-Test in diesem Fall sogar > a ist, weil (vgl. Johnson €J Kotz
Sec. 27.2):
(8) für jedes a < ~ und mE lN. z < t Q m,Q
6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-13
6.3.3 Schärfeapproximation für den asymptotischen t-Test
Beim ein- bzw. zweiseitigen t-Test konvergiert die Schärfe unter der jeweiligen Al
ternative für n ---+ 00 gegen 1. Dies ist zwar beruhigend, liefert aber für einen konkre
ten Stichprobenumfang n keine Information. Wir wollen daher jetzt noch eine Ap
proximation der Schärfe für "großes n" angeben. Ausgangspunkt der Schärfe-Ap
proximation für den einseitigen Tests ist die Darstellung
(1)
(2)
(3)
pow~n)(a) = P{ Tn > tn-S
.a
},TA T
C ()(n) - C ()
TC ()- co
= p{ U +V > z - "( }n n - a n
(Nichtzentralität) .
mit
und
Aus der asymptotischen Verteilung von U und V
(4) U cf N(O, 1) ,-------+n
(5) V P
°-------+n
ergibt sich
(6) U±V cf N(O, 1) .-------+n n
Mit (1) ergibt sich als vorläufige Schärfe-Approximation
(7) für großes n
Da diese Approximation insbesondere auch im Normalverteilungsmodell (NVY)
gilt, läßt sich die in 2.5.3 hergeleitete exakte Schärfe ebenfalls so approximieren, d.h.
(8) für großes n.
Zusammen mit (7) ergibt sich daher als endgültige Schärfe-Approximation
(9) für großes n,
die für normalverteiltes Y sogar exakt ist. Anders formuliert: die für normalverteiltes
Y hergeleitete exakte Schärfe des einseitigen t-Tests liefert auch bei nicht vorliegen
der Normalverteilung (unter den Voraussetzungen aus 6.1) für großes n eine Approxi-
6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-13
6.3.3 Schärfe approximation für den asymptotischen t-Test
Beim ein- bzw. zweiseitigen t-Test konvergiert die Schärfe unter der jeweiligen Al
ternative für n ---+ 00 gegen 1. Dies ist zwar beruhigend, liefert aber für einen konkre
ten Stichprobenumfang n keine Information. Wir wollen daher jetzt noch eine Ap
proximation der Schärfe für "großes n" angeben. Ausgangspunkt der Schärfe-Ap
proximation für den einseitigen Tests ist die Darstellung
(1) pow~n)(a) = P{ Tn > tn -S
.a } =p{U+V>z-l'} mit , n n - a n
TA T o-c n . tn- S·a (2) Un C (}(n) - C {}
Vn und z - , a
acn acn
T C {}- c
(3) I'n 0 (Nichtzentralität) .
acn
Aus der asymptotischen Verteilung von U und V
(4) U L N(O, 1) , -----+ n
(5) V P
° -----+ n
ergibt sich
(6) U±V L N(O, 1) . -----+ n n
Mit (1) ergibt sich als vorläufige Schärfe-Approximation
(7) für großes n
Da diese Approximation insbesondere auch im Normalverteilungsmodell (NVY)
gilt, läßt sich die in 2.5.3 hergeleitete exakte Schärfe ebenfalls so approximieren, d.h.
(8) für großes n.
Zusammen mit (7) ergibt sich daher als endgültige Schärfe-Approximation
(9) für großes n,
die für normalverteiltes Y sogar exakt ist. Anders formuliert: die für normalverteiltes
Y hergeleitete exakte Schärfe des einseitigen t-Tests liefert auch bei nicht vorliegen
der Normalverteilung (unter den Voraussetzungen aus 6.1) für großes n eine Approxi-
6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-14
mation der Schärfe. Abschließend sei noch bemerkt, daß die Approximation (7) ge
genüber (9) auch konservativer ist, weil für mE lN, "( > 0 und a < ~ die Abschätzung
gilt (vgl. z.B. das Skript G. Osius: Einführung in die Statistik, 16.1):
Und für den zweiseitigen t-Test liefert eine analoge Überlegung, daß die unter der
Normalverteilungsannahme (NVY) in 2.5.3 hergeleitete exakte Schärfe bei nicht
vorliegender Normalverteilung und großem n eine Approximation der Schärfe liefert
(11) POw(2n)(a) ~ p{ F
1_ ("(2) > F
1-So }
,n S\ n ,n ,afür großes n.
6.3.4 Asymptotische Konfidenzbereiche
Aus der asymptotischen Verteilung der geschätzten Linearkombination ergibt sich,
daß die in 2.5.2 angegebenen Konfidenzgrenzen für cT()
(1)TA
c ()(n) - L1n (untere Grenze) bzw.
mit
cTO(n) + L1n (obere Grenze)
L1 =0- ·tn cn n-S,a
die asymptotische Sicherheit 1- ahaben, d.h. es gilt
(2)
(3)
n---+ 00
n---+ 00
1- a,
1- a.
Auch der Konfidenzbereich aus 4.7.1 für den gesamten Parametervektor ()
(4)
(5)
{()EIRSIII()-O(n) lien <fan}
0- 2 ·S· Fn S,n-S,a'
mit
hat die asymptotische Sicherheit 1- a, d.h. es gilt
(6) ----+l 1-a.n---+ 00
6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-14
mation der Schärfe. Abschließend sei noch bemerkt, daß die Approximation (7) ge
genüber (9) auch konservativer ist, weil für mE lN, "( > 0 und a < ~ die Abschätzung
gilt (vgl. z.B. das Skript G. Osius: Einführung in die Statistik, 16.1):
Und für den zweiseitigen t-Test liefert eine analoge Überlegung, daß die unter der
Normalverteilungsannahme (NVY) in 2.5.3 hergeleitete exakte Schärfe bei nicht
vorliegender Normalverteilung und großem n eine Approximation der Schärfe liefert
(11) POw(2n)(a) ~ p{ Pl
_ ("(2) > Pl
-So } ,n S\ n ,n ,a
für großes n.
6.3.4 Asymptotische Konfidenzbereiche
Aus der asymptotischen Verteilung der geschätzten Linearkombination ergibt sich,
daß die in 2.5.2 angegebenen Konfidenzgrenzen für cT ()
(1) T" c ()(n) - L1n (untere Grenze) bzw.
mit
die asymptotische Sicherheit 1- ahaben, d.h. es gilt
(2)
(3)
P { T()" ;\ T() } c (n) - L.Jn < c
P { T() T()" ;\} C < C (n) + L.Jn
n---+ 00
n---+ 00
cTO(n) + L1n (obere Grenze)
L1 =5 ·t n cn n-S,a
1- a,
1- a.
Auch der Konfidenzbereich aus 4.7.1 für den gesamten Parametervektor ()
(4)
(5)
{()EIRSIII()-O(n) lien <fan}
5 2 ·S·P n S,n-S,a'
hat die asymptotische Sicherheit 1- a, d.h. es gilt
(6) ----tl 1-a. n---+ 00
mit
6.4 Asymptotische Tests für lineare Hypothesen 16.7.10 6-15
6.4 Asymptotische Tests für lineare Hypothesen
Nachdem wir bereits gesehen haben, daß der t-Test auch ohne die Normalvertei
lungsannahme (NVY) asymptotisch korrekt ist, wollen wir die analogen Resultate
auch für den F-Test von linearen Hypothesen zeigen. Hierfür setzen in diesem Ab
schnitt - neben den generellen Voraussetzungen aus 6.1 - auch wieder die Gültigkeit
des Modells (LM}j}J voraus. Der Einfachheit halber wollen wir weiterhin die Covari
ablen-Bedingung (CB) voraussetzen, obwohl sich mit der in 6.2 erläuterten "Teil
folgen-Argumentation" alle Ergebnisse dieses Abschnitts, die den Grenzwert V
nicht enthalten, auch aus der schwächeren Bedingung (CB)* herleiten lassen.
Die linearen Hypothesen formulieren wir hier unter Verwendung des Parameter
vektors (), weil dieser im Gegensatz zum Erwartungsvektor Jl - nicht vom Stichn
probenumfang n abhängt. Für einen linearen Teilraum f?TO
C lRS des Parameterrau-
mes mit
(1) S := Dirn f?T < So 0
betrachten wir daher die linearen Hypothesen
(LH) " Alternative H : () \t f?To.
Unter der Nullhypothese ist die Schätzungen von () für den Beobachtungsvektor Yn
nach 4.6.2 (7) gegeben durch
(2) mit
1.-Unter Verwendung des orthogonalen Komplements f?T
Ovon f?T
Oergibt sich das
Cn-orthogonale Komplement ~n von f?Tomit Exkurs SP 2 (10) zu
(3)
und die Abweichung von der Nullhypothese läßt sich nach 4.6.2 (4), (9) darstellen
(4)
Zur Bestimmung der asymptotischen Verteilung von LiDev zeigen wir zunächstn
6.4 Asymptotische Tests für lineare Hypothesen 16.7.10 6-15
6.4 Asymptotische Tests für lineare Hypothesen
Nachdem wir bereits gesehen haben, daß der t-Test auch ohne die Normalvertei
lungsannahme (NVY) asymptotisch korrekt ist, wollen wir die analogen Resultate
auch für den F-Test von linearen Hypothesen zeigen. Hierfür setzen in diesem Ab
schnitt - neben den generellen Voraussetzungen aus 6.1 - auch wieder die Gültigkeit
des Modells (LM)W voraus. Der Einfachheit halber wollen wir weiterhin die Covari
ablen-Bedingung (CB) voraussetzen, obwohl sich mit der in 6.2 erläuterten "Teil
folgen-Argumentation" alle Ergebnisse dieses Abschnitts, die den Grenzwert V
nicht enthalten, auch aus der schwächeren Bedingung (CB)* herleiten lassen.
Die linearen Hypothesen formulieren wir hier unter Verwendung des Parameter
vektors (), weil dieser im Gegensatz zum Erwartungsvektor Jl - nicht vom Stichn
probenumfang n abhängt. Für einen linearen Teilraum f?TO
C lRS des Parameterrau-
mes mit
(1) S := Dirn f?T < S o 0
betrachten wir daher die linearen Hypothesen
(LH) " Alternative H : () \t f?To .
Unter der Nullhypothese ist die Schätzungen von () für den Beobachtungsvektor Y n
nach 4.6.2 (7) gegeben durch
(2) mit
~ Unter Verwendung des orthogonalen Komplements f?T
O von f?T
O ergibt sich das
Cn-orthogonale Komplement ~n von f?To mit Exkurs SP 2 (10) zu
(3)
und die Abweichung von der Nullhypothese läßt sich nach 4.6.2 (4), (9) darstellen
(4)
Zur Bestimmung der asymptotischen Verteilung von ~Dev zeigen wir zunächst n
6.4 Asymptotische Tests für lineare Hypothesen 8.7.10 6-16
(5) °o(n)p P V ())
n---+ 00 fY '0
(6) 1.. L,Devp V 2
)11 () - p OT () 11 V 'n n n---+ 00 0'0
(7) 11 p;n (0 -()) 112 cf 2 2 mit L,FG = 5 - So.) a . Xl:o.FG0'ln (n) Cn n---+ 00
Hieraus ergibt sich für die asymptotische Verteilung der F-Statistik
L,Dev 2
(8) Unter Ho: () E q-o gilt: F n cf Xl:o.FG- )-n 5 2 ·UG n---+ 00 UGn
(9) Unter H : () \t q-o gilt: Fp
) 00n n---+ 00
Wir wollen jetzt zeigen, daß der F-Test aus Abschnitt 2.6 das asymptotische Niveau
a hat und konsistent ist. Die Schärfe des F-Test zum (nominellen) Niveau a ist
und unter Verwendung der Konvergenz der F-Quantile
(11) Fl:o.FG, n-S;a
1 2n---+ (0) MG· X l:o.FG,a '
ergibt sich für n ---+ 00 die asymptotische Schärfe des F-Tests
(12)unter
unter
HO: () E q-o
H:()\tq-O}.
Folglich konvergiert das Fehlerrisko 1. Art des F-Test gegen a, d.h. sein asymptoti
sches Niveau ist a. Ferner ist der F-Test konsistent, weil seine Schärfe unter der Al
ternative H gegen 1 konvergiert. - Wegen die Quantilkonvergenz (11) kann man für
großes n statt des F-Tests auch den asymptotisch äquivalenten Test verwenden:
(13) Deviance-Chiquadrat-Test zum asymptotischen Niveau a:
Ablehnung von Ho1 2~ L,Dev > X A DG .a ~ ,a
Der F-Test hat jedoch gegenüber diesem Chiquadrat-Test den Vorteil, daß er unter
der Normalverteilungsannahme (NVY) sogar das exakte Niveau a hat.
6.4 Asymptotische Tests für lineare Hypothesen 8.7.10 6-16
(5) °o(n) p P V ()
n---+ 00 fY ' 0
(6) 1.. L,Dev p V 2
) 11 () - p OT () 11 V ' n n n---+ 00 0''0
(7) 11 p;n (0 -()) 112 L 2 2 mit L,FG = 5 - So. ) a . Xl:o.FG 0'ln (n) Cn n---+ 00
Hieraus ergibt sich für die asymptotische Verteilung der F-Statistik
L,Dev 2
(8) Unter Ho: () E q-o gilt: F n L Xl:o.FG --
5 2 ·UG n n---+ 00 UG n
(9) Unter H : () \t q-o gilt: F p
) 00 n n---+ 00
Wir wollen jetzt zeigen, daß der F-Test aus Abschnitt 2.6 das asymptotische Niveau
a hat und konsistent ist. Die Schärfe des F-Test zum (nominellen) Niveau a ist
und unter Verwendung der Konvergenz der F-Quantile
(11) F l:o.FG, n-S;a
1 2 n---+ (0) MG· X l:o.FG,a '
ergibt sich für n ---+ 00 die asymptotische Schärfe des F-Tests
unter (12)
unter
HO: () E q-o
H:()\tq-O }.
Folglich konvergiert das Fehlerrisko 1. Art des F-Test gegen a, d.h. sein asymptoti
sches Niveau ist a. Ferner ist der F-Test konsistent, weil seine Schärfe unter der Al
ternative H gegen 1 konvergiert. - Wegen die Quantilkonvergenz (11) kann man für
großes n statt des F-Tests auch den asymptotisch äquivalenten Test verwenden:
(13) Deviance-Chiquadrat-Test zum asymptotischen Niveau a:
Ablehnung von Ho 1 2 ~ L,Dev > X A DG . a ~ ,a
Der F-Test hat jedoch gegenüber diesem Chiquadrat-Test den Vorteil, daß er unter
der Normalverteilungsannahme (NVY) sogar das exakte Niveau a hat.
Literatur
Literatur
16.7.10 L-1
Die folgende Liste enthält nur Quellen, die auch zur Vorbereitung des Kurses verwendet wurden. Weitere Literaturhinweise sind dort angegeben.
Statistik: allgemein
Johnson, N.L., Kotz, S. (1970-72): Distributions in Statistics) Vol. 1-4. New York: Wiley.
Kinder, H.P., Osius, G., Timm, J. (1982): Statistik für Biologen und Mediziner.Braunschweig: Vieweg.
Osius, G. (2006): Einführung in die Statistik (Vorlesungsskript), Institut für Statistik,FB 3, Universität Bremen.
Osius, G. (2009): Statistik in den Naturwissenschaften. Mathematik Arbeitspapiere No.59, Universität Bremen.
Rao, GR. (1973): Linear Statistical Inference and its Applications. New York: Wiley.
Statistik: (lineare) Modelle
Draper, N.R., Smith, H. (1967): Applied Regression Analysis. New York: Wiley.
Habermann, S.J. (1974): The Analysis of Frequency Data. Chicago: University Press.
Miller, A.J. (1990). Subset Seleetion in Regression. Chapman and Hall, London.
Schach, S., Schäfer, T. (1978): Regressions- und Varianzanalyse. Berlin: Springer.
Scheffe, H. (1959): The Analysis of Variance. New York: Wiley.
Seber, G.A.F. (1977): Linear Regression Analysis. New York: Wiley.
Toutenburg, H (2003): Lineare Modelle (2. Auflage).Heidelberg, Physica-Verlag
Wahrscheinlichkeitstheorie
Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.
Billingsley, P., (1979, 2nd edition 1986): Probability and Measure. New York: Wiley
Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.
Analysis, Lineare Algebra und N umerik
Dieudonne, J. (1960): Foundations of Modern Analysis. New York: Academic Press.
Fleming, W. (1977): Funetions of Several Variables. Berlin: Springer
Fischer, W., Gamst, J., Horneffer, K. (1977,1981): Skript zur Analysis) Bd. 1-2.Mathematik-Arbeitspapiere Nr. 4, 23. Universität Bremen.
Fischer, W., Gamst, J., Horneffer, K. (1983,1984): Skript zur Linearen Algebra) Bd. 1-2.Mathematik-Arbeitspapiere Nr. 14, 26. Universität Bremen.
Kowalsky, H.-J. (1972): Lineare Algebra. Berlin: W. de Gruyter
Stoer, J. (1983, 1978): Einführung in die Numerische Mathematik I) II. Berlin: Springer(Heidelberger Taschenbücher 105, 114).
Literatur 16.7.10 L-1
Literatur Die folgende Liste enthält nur Quellen, die auch zur Vorbereitung des Kurses verwendet wurden. Weitere Literaturhinweise sind dort angegeben.
Statistik: allgemein
Johnson, N.L., Kotz, S. (1970-72): Distributions in Statistics) Vol. 1-4. New York: Wiley.
Kinder, H.P., Osius, G., Timm, J. (1982): Statistik für Biologen und Mediziner. Braunschweig: Vieweg.
Osius, G. (2006): Einführung in die Statistik (Vorlesungsskript), Institut für Statistik, FB 3, Universität Bremen.
Osius, G. (2009): Statistik in den Naturwissenschaften. Mathematik Arbeitspapiere No. 59, Universität Bremen.
Rao, GR. (1973): Linear Statistical Inference and its Applications. New York: Wiley.
Statistik: (lineare) Modelle
Draper, N.R., Smith, H. (1967): Applied Regression Analysis. New York: Wiley.
Habermann, S.J. (1974): The Analysis of Frequency Data. Chicago: University Press.
Miller, A.J. (1990). Subset Selection in Regression. Chapman and Hall, London.
Schach, S., Schäfer, T. (1978): Regressions- und Varianzanalyse. Berlin: Springer.
Scheffe, H. (1959): The Analysis of Variance. New York: Wiley.
Seber, G.A.F. (1977): Linear Regression Analysis. New York: Wiley.
Toutenburg, H (2003): Lineare Modelle (2. Auflage).Heidelberg, Physica-Verlag
Wahrscheinlichkeitstheorie
Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.
Billingsley, P., (1979, 2nd edition 1986): Probability and Measure. New York: Wiley
Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.
Analysis, Lineare Algebra und N umerik
Dieudonne, J. (1960): Foundations of Modern Analysis. New York: Academic Press.
Fleming, W. (1977): Functions of Several Variables. Berlin: Springer
Fischer, W., Gamst, J., Horneffer, K. (1977,1981): Skript zur Analysis) Bd. 1-2. Mathematik-Arbeitspapiere Nr. 4, 23. Universität Bremen.
Fischer, W., Gamst, J., Horneffer, K. (1983,1984): Skript zur Linearen Algebra) Bd. 1-2. Mathematik-Arbeitspapiere Nr. 14, 26. Universität Bremen.
Kowalsky, H.-J. (1972): Lineare Algebra. Berlin: W. de Gruyter
Stoer, J. (1983, 1978): Einführung in die Numerische Mathematik I) II. Berlin: Springer (Heidelberger Taschenbücher 105, 114).
Lineare Modelle in der Statistik 8.7.10 Index -1
Index
Der Index enthält für jedes Stichwort nur die wichtigsten (nicht alle) Textstellen, andenen es erwähnt wird.
2-5
2-342-313-18
3-13 5-6 5-72-6 2-73-10
6-122-18 2-20
1-1 1-31-65-7
Gauß-Markov-ModellGauß-Markov-TheoremGauß-Testgeneralisierte InverseGewichtGewichtete Lineare Modellgewichtete minimale Quadrategewichtetes Gauß-Markov-Modell
4-2 4-4 4-81-8gewichtetes Varianz-Modell
Design-Matrix 1-6Deviance 2-9Deviance-Chiquadrat-Test 6-16Diagonale 3-3Dimensionsbedingungen 5-16direkte Parametrisierung 3-7Dispersions-Parameter 1-3 1-8doppelt-nichtzentrale F-Verteilung 4-21doppelt-nichtzentrale t- Verteilung 4-14Eeindimensionale Nullhypotheseeinfach-nichtzentrale F-Verteilungeinfache Covarianz-Analyseeinfache VarianzanalyseEinheitsvektoreinseitiger Gauß-Testeinseitiger t-TestEinzelbeobachtungErwartungs-Vektorexperimentelles Design
FF-Statistik 2-31 3-14 4-20 5-18 6-16F-Test 2-31 4-21 5-16 5-25 6-16Faktor 3-1 3-6 3-9 3-18 3-28Fehlerrisiko, asymptotisches 6-12Fehlervariable 1-1Fehlspezifikation 5-2 5-6 5-10FG 2-10Freiheitsgrad 4-6- des Modells 2-10Gg-InverseGauß-Markov-Covarianzstruktur
2-1 4-1 5-12-1 4-3
2-86-122-51-81-44-8
4-55-7
5-7 5-11
Covariablen-MatrixCovariablen-VektorCovarianz-Analyse- einfacheCovarianz-ModellDD-orthogonale ProjektionDesign, experimentellesDesign, randomisiertes
Aabsteigende sequentielle Testprozedur
5-264-1
4-1 4-3 4-92-31 4-20
5-14
Bedingtes Lineares ModellBeobachtungsvektorbesser (Schätzer)BestimmtheitsmaßBLUEBonferroni-KonfidenzintervalleBonferroni-UngleichungCCovariablen-Bedingung
6-3 6-5 6-9 6-10 6-151-6 2-11-1 1-6
3-193-181-8
Aitken-CovarianzstrukturAitken-ModellAnalyse der DevianceAnpassungstestAsymptotik-- wachsender Stichprobenumfang 6-2asymptotische Normalverteilung 6-8 6-10asymptotische Schärfe 6-11 6-16asymptotische Sicherheit 6-12asymptotische Verteilung 6-10 6-16asymptotischer Konfidenzbereich 6-14asymptotischer t-Test 6-12asymptotischer Test 6-12 6-16asymptotisches Fehlerrisiko 6-12asymptotisches Niveau 6-11 6-16aufsteigende sequentielle Testprozedur
5-25
BBedingte Normalverteilung 1-5bedingtes homogenes Varianzmodell 1-5Bedingtes Klassisches Lineares Modell
1-51-25-7 5-11
1-62-8
2-322-8
4-284-28
Lineare Modelle in der Statistik 8.7.10 Index -1
Index
Der Index enthält für jedes Stichwort nur die wichtigsten (nicht alle) Textstellen, an denen es erwähnt wird.
A absteigende sequentielle Testprozedur
5-26 Aitken-Covarianzstruktur Aitken-Modell
4-1 4-1 4-3 4-9
Analyse der Deviance 2-31 4-20 An passungstest 5-14 Asymptotik-- wachsender Stichprobenumfang 6-2 asymptotische Normalverteilung 6-8 6-10 asym ptotische Schärfe 6-11 6-16 asymptotische Sicherheit 6-12 asymptotische Verteilung 6-10 6-16 asymptotischer Konfidenzbereich 6-14 asym ptotischer t-Test 6-12 asym ptotischer Test 6-12 6-16 asym ptotisches Fehlerrisiko 6-12 asymptotisches Niveau 6-11 6-16 aufsteigende sequentielle Testprozedur
5-25
B Bedingte Normalverteilung 1-5 bedingtes homogenes Varianzmodell 1-5 Bedingtes Klassisches Lineares Modell
Bedingtes Lineares Modell Beobachtungsvektor besser (Schätzer) Bestimmthei tsmaß BLUE
1-5 1-25-7 5-11
1-6 2-8
2-32 2-8
Bonferroni-Konfidenzintervalle 4-28 Bonferroni-Ungleichung 4-28 C Covariablen-Bedingung
6-3 6-5 6-9 6-10 6-15
Design-Matrix 1-6 Deviance 2-9 Deviance-Chiquadrat-Test 6-16 Diagonale 3-3 Dimensionsbedingungen 5-16 direkte Parametrisierung 3-7 Dispersions-Parameter 1-3 1-8 doppelt-nichtzentrale F-Verteilung 4-21 doppelt-nichtzentrale t- Verteilung 4-14 E eindimensionale Nullhypothese 2-34 einfach-nichtzentrale F-Verteilung 2-31 einfache Covarianz-Analyse 3-18 einfache Varianzanalyse 3-13 5-6 5-7 Einheitsvektor 2-6 2-7 3-10 einseitiger Gauß-Test einseitiger t-Test Einzel b eo bach tung Erwartungs-Vektor experimentelles Design
F
6-12 2-18 2-20
1-1 1-3 1-6 5-7
F-Statistik F-Test Faktor
2-31 3-14 4-20 5-18 6-16 2-314-21 5-16 5-25 6-16
3-1 3-6 3-9 3-18 3-28 Fehlerrisiko, asymptotisches 6-12 Fehlervariable 1-1 Fehlspezifikation 5-2 5-6 5-10 FG 2-10 Freiheitsgrad 4-6 - des Modells 2-10 G g-Inverse 2-5 Gauß-Mar kov -Covarianzstruktur
2-1 4-1 5-1 Gauß-Markov -Modell
Covariablen-Matrix Covariablen-Vektor Covarianz-Analyse - einfache Covarianz-Modell D
1-6 2-1 Gauß-Markov-Theorem 1-1 1-6 Gauß-Test
2-1 4-3 2-8
6-12 2-5 1-8 1-4
D-orthogonale Projektion Design, experimentelles Design, randomisiertes
3-19 3-18 1-8
4-5 5-7
5-7 5-11
generalisierte Inverse Gewicht Gewichtete Lineare Modell gewichtete minimale Quadrate 4-8 gewichtetes Gauß-Markov-Modell
4-2 4-4 4-8 gewichtetes Varianz-Modell 1-8
Lineare Modelle in der Statistik 8.7.10 Index - 2
3-23-263-19
4-23-152-212-21
1-8
5-321-3
4-22 6-15
2-103-24
3-13-1 3-4
2-3 4-52-9
5-3 5-6
2-3 2-14
5-7 5-115-65-7 5-11
5-71-72-4 6-3
2-4 5-33-8
2-265-10 5-11
2-52-9
5-195-20
2-92-9 4-7 5-19
5-31
2-216-11 6-16
2-35 4-24 3-164-156-134-314-30
SSchärfe- asymptotische- des F-Test- des t-TestSchärfeapproximationScheffe-IntervalleScheffe-Konfidenzintervalle
Qquadratische Form: Erwartungswertquadratisches Regressionsmodellqualitative Variablequantitative VariableRrandomisiertes DesignRandomisierungRandomisierungsverteilungRangbedingungRBReferenzstufeRegression- lineareRegressionsmodellResidual Sum of SquaresResiduenanalyseResiduenplotsResiduenvektorResiduumRückwärts-Suchverfahren
MQ-SchätzungNnichtzentrale t-Verteilung 2-172-20Nichtzentralität 2-17 2-20 2-30 6-13Niveau, asymptotisches 6-11 6-16Norm 4-5Normalen-Gleichung 2-4Normalverteilung 4-9- asymptotische 6-8 6-10Normalverteilungs-Annahme 2-2 5-1nulldimensionales Modell 2-28NVY 2-13 5-1oorthogonale Projektionorthogonales KomplementOrthogonalitätsbedingungPP-Level 2-17 2-18P-Wert 2-172-182-324-21Parametrisierung. direkte 3-7Polynom-Regressionsmodell 3-6 2-6Power 2-21
3-21-3 1-9 2-29
1-52-13
4-26 4-276-14
2-192-204-176-144-28
6-11 6-166-8 6-9
3-3 5-183-8
3-27
MMaximum-Likelihood 2-14 4-10Maximum-Likelihood-Schätzung 2-14 4-10Maximum-Norm 6-4Mindestumfang 3-17minimale Quadrate 2-3minimale Quadrate-Schätzung 2-3ML-Schätzung 2-14Modell, vollständiges 3-9Modell-Such-Verfahren 5-23 5-28Modellraum des Erwartungswerts 1-7
GewichtsfaktorenGruppenunterschiedeGüteGütefunktionGVarMHhierarchisches Modellhomogenes VarianzmodellHypothese, lineareIIndikatorvariableInteraktionIntra-Class-RegressionsmodelKKlassifizierungKlassisches Lineares Modell- bedingtesKLMKonfidenzbereich- asymptotischerKonfidenzgrenzeKonfidenzintervallkonsistentKonsistenzkonstantes ModellKontrast-ParametrisierungKrümmungs-ParameterLLH 4-194-24Likelihood 2-14Likelihood-Quotienten-Test 2-32lineare Hypothese 2-28 4-19 4-22 6-15lineare Regression 5-10 5-11lineares Modell 2-1- bedingtes 1-2 5-7 5-11- zufälliges 1-11-4 5-9 5-13lineares Regressionsmodell 3-6 3-19lineares Testproblem 2-28 4-19Linearkombination 2-19 6-10Linksinverse 2-4
Lineare Modelle in der Statistik
Gewichtsfaktoren 4-2 Gru ppenunterschiede 3-15 Güte 2-21 Gütefunktion 2-21 GVarM 1-8 H hierarchisches Modell 5-32 homogenes Varianzmodell 1-3 Hypothese, lineare 4-22 6-15 I Indikatorvariable 3-2 Interaktion 3-26 Intra-Class-Regressionsmodel 3-19 K Klassifizierung 3-2 Klassisches Lineares Modell 1-3 1-9 2-29 - bedingtes 1-5 KLM 2-13 Konfidenzbereich 4-26 4-27
8.7.10
MQ-Schätzung N
Index - 2
2-3 2-14
nichtzentrale t-Verteilung 2-172-20 Nichtzentralität 2-17 2-20 2-30 6-13 Niveau, asymptotisches 6-11 6-16 Norm 4-5 Normalen-Gleichung 2-4 Normalverteilung 4-9 - asym ptotische 6-8 6-10 Normalverteilungs-Annahme 2-2 5-1 nulldimensionales Modell 2-28 NVY 2-13 5-1 0 orthogonale Projektion 2-3 4-5 orthogonales Komplement 2-9 Orthogonali täts bedingung 5-3 5-6 P P-Level 2-17 2-18 P-Wert 2-172-182-324-21
- asym ptotischer Konfidenzgrenze Konfidenzintervall konsistent
6-14 Parametrisierung. direkte 3-7 2-19 2-20 4-176-14 Polynom-Regressionsmodell 3-6 2-6
4-28 Power 2-21 6-11 6-16 Q
Konsistenz 6-8 6-9 quadratische Form: Erwartungswert 2-10 konstantes Modell Kontrast-Parametrisierung Krümmungs-Parameter
3-3 5-18 quadratisches Regressionsmodell 3-24 3-8 qualitative Variable 3-1
3-27 quantitative Variable 3-1 3-4 L LH Likelihood
4-19 4-24 2-14
Likelihood-Quotienten-Test 2-32 lineare Hypothese 2-28 4-19 4-22 6-15 lineare Regression 5-10 5-11 lineares Modell 2-1 - bedingtes 1-2 5-7 5-11 - zufälliges 1-11-4 5-9 5-13 lineares Regressionsmodell 3-6 3-19 lineares Testproblem 2-28 4-19 Linearkombination 2-19 6-10 Linksinverse M
2-4
Maximum-Likelihood 2-14 4-10 Maximum-Likelihood-Schätzung 2-14 4-10 Maximum-Norm 6-4 Mindestumfang 3-17 minimale Quadrate 2-3 minimale Quadrate-Schätzung 2-3 ML-Schätzung 2-14 Modell, vollständiges 3-9 Modell-Such-Verfahren 5-23 5-28 Modellraum des Erwartungswerts 1-7
R randomisiertes Design Randomisierung Randomisierungsverteilung Rangbedingung RB Referenzstufe Regression - lineare Regressionsmodell Residual Sum of Squares Resid uenanalyse Residuen plots Resid uenvektor Residuum Rückwärts-Suchverfahren S Schärfe - asym ptotische - des F-Test - des t-Test Schärfeapproximation Scheffe-Intervalle Scheffe-Konfidenzintervalle
5-7 5-11 5-65-7 5-11
5-7 1-72-4 6-3
2-4 5-3 3-8
2-26 5-10 5-11
2-5 2-9
5-19 5-20
2-9 2-9 4-7 5-19
5-31
2-21 6-11 6-16
2-35 4-24 3-16 4-15 6-13 4-31 4-30
1-81-71-81-8
6-116-124-154-153-223-14
6-12 6-165-23
2-17 2-19 4-13
Lineare Modelle in der Statistik
Score-Vektor 6-8sequentielle Testprozedur 5-23- absteigende 5-26- aufsteigende 5-25Sicherheit, asymptotische 6-14Signifikanzniveau 2-172-182-324-21Skalarprodukt 4-5Skalenparameter 1-3skaliertes Residuum 5-19SKLM 2-13Spur-Operator 2-10standardisiertes Residuum 5-20Streuungszerlegung 2-30 4-20 5-17Struktur-Matrix 1-6Stufe eines Faktors 3-2
Tt-Test- asymptotischer- einseitig- zweiseitigTafel der CovarianzanalyseTafel der VarianzanalyseTest, asymptotischerTestprozedur, sequentielleTeststatistikUUnAbUnabhängigkeitUnKorUnkorreliertheit
vVarianzanalyse, einfache
3-133-16 5-6 5-7verallgemeinerter Minimale Quadrate-
Schätzer 4-5verallgemeinerte Inverse 2-5 4-5Verteilung, asymptotische 6-16VMQ-Schätzer 4-5vollständiges Modell 2-28 3-6 3-9 3-10 3-30Vorwärts-Suchverfahren 5-30
WWechselwirkung 3-20 3-25 3-26 3-29Wechselwirkungsmodell 3-26 3-27Wurzel einer Matrix 4-3ZZentrierung 1-1Zufälliges Lineares Modell 1-11-4 5-9 5-13zweiseitiger Gauß-Test 6-12zweiseitiger t-Test 2-17 2-18 2-20 4-15
8.7.10 Index - 3Lineare Modelle in der Statistik
Score-Vektor 6-8 sequentielle Testprozedur 5-23 - absteigende 5-26 - aufsteigende 5-25 Sicherheit, asymptotische 6-14 Signifikanzniveau 2-172-182-324-21 Skalarprodukt 4-5 Skalenparameter 1-3 skaliertes Residuum 5-19 SKLM 2-13 Spur-Operator 2-10 standardisiertes Residuum 5-20 Streuungszerlegung 2-30 4-20 5-17 Struktur-Matrix 1-6 Stufe eines Faktors 3-2
T t-Test 6-11 - asym ptotischer 6-12 - einseitig 4-15 - zweiseitig 4-15 Tafel der Covarianzanalyse 3-22 Tafel der Varianzanalyse 3-14 Test, asym ptotischer 6-12 6-16 Testprozedur, sequentielle 5-23 Teststatistik 2-17 2-19 4-13 U UnAb 1-8 Unabhängigkeit 1-7 UnKor 1-8 Unkorreliertheit 1-8
V Varianzanalyse, einfache
3-133-16 5-6 5-7 verallgemeinerter Minimale Quadrate-
Schätzer 4-5 verallgemeinerte Inverse 2-5 4-5 Verteilung, asymptotische 6-16 VMQ-Schätzer 4-5 vollständiges Modell 2-28 3-6 3-9 3-10 3-30 Vorwärts-Suchverfahren 5-30
W Wechselwirkung 3-20 3-25 3-26 3-29 Wechselwirkungsmodell 3-26 3-27 Wurzel einer Matrix 4-3 Z Zentrierung 1-1 Zufälliges Lineares Modell 1-11-4 5-9 5-13 zweiseitiger Gauß-Test 6-12 zweiseitiger t-Test 2-17 2-18 2-20 4-15
8.7.10 Index - 3
Top Related