Download - Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Material zur Veranstaltung

Lineare Modelle in der Statistik

von

Gerhard Osius

.ß~/to·:· ....... .At o

Juni 2011 Fachbereich Mathematik/Informatik

Universität Bremen

Material zur Veranstaltung


von

Gerhard Osius

.ß~/to·:· ....... .At o

Juni 2011 Fachbereich Mathematik/Informatik

Universität Bremen

Vorwort 1.6.11 V-I

Vorwort

Dieses Manuskript ist aus Materialien zu statistischen Lehrveranstaltungen über Generalisierte Lineare Modelle im Laufe der letzten Jahre entstanden und hier liegt der Teil I über Lineare Modelle in einer neuen (veränderten und erweiterten) Auflage vor, in der er auch im Sommersemester 2005 einer Vorlesung zu Grunde lag (wobei dort aus Zeitgründen einige Abschnitte teilweise oder vollständig ausgelassen wurden). Der Text ist in erster Linie als Begleit- und Referenz-Material für die Kursteilnehmer gedacht und nicht primär als Einführung in diese Materie im Selbststudium angelegt. Insbesondere fehlen hier (noch) die im Kurs und den Übungen ausführlicher behandelten Analysen ausgewählter Datensätze.

Der Kurs ))Lineare Modelle in der Statistik!! ist für fortgeschrittene Studierende der Mathematik mit Grundkenntnissen in Wahrscheinlichkeitsrechnung und Statistik vorgesehen. Ziel des Kurses ist es, eine mathematisch fundierte Einführung in die Theorie der Linearen Modelle zu geben, wobei die anwendungsrelevanten Methoden stärker betont werden. Der Schwerpunkt lag hierbei mehr in der Herleitung der Schätz- und Testverfahren - und ihrer "geometrischen" Interpretationen - und weniger in Untersuchungen ihrer Optimalitätseigenschaften.

Die Beweise zu den Resultaten des vorliegenden Textes sind in einem separaten Beweis-Band zusammengestellt. Das (historisch bedingte) Abtrennen der Beweise vom eigentlichen Text erscheint mir sinnvoll, weil dadurch einerseits die Ausführungen nicht durch Beweise unterbrochen werden, und man andererseits die Beweise parallel zum Text nachvollziehen kann (was besonders bei den zahlreichen Rückverweisen praktisch ist). Diverse verwendete speziellere Resultate (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) sind der Vollständigkeit halber in einem ebenfalls separat erhältlichen Exkurs-Band zusammengestellt.

Der Stoff über Lineare Modelle ist wie folgt gegliedert. Nach einer Einführung in die Modellierung und Verteilungs modelle im Kapitell wird im Kapitel 2 das GaussMarkov-Modell mit konstanten Varianzen behandelt. Als Schätzverfahren wird die geometrisch motivierte Methode der minimalen Quadrate verwendet und deren Eigenschften hergeleitet, die im Klassischen Linearen Modell (mit normalverteilten Beobachtungen) mit der Maximum-Likelihood-Schätzung übereinstimmt. Im klassischen lineareren Modell werden dann der t-Test (für Linearkombinationen des Parametervektors) und der F-Test (für lineare Hypothesen) behandelt, wobei auch auf die für die Praxis wichtige Testschärfe näher eingegangen wird.

Im Kapitel 3 werden einige grundsätzliche Methoden zur Modellbildung besprochen und einige elementare Modelle (Regressionsanalyse einer Variablen, einfache Varianz- und Covarianz-Analyse) behandelt.

Das Kapitel 4 enthält die Verallgemeinerungen des 2. Kapitels vom Gauß-Markovauf das Aitken-Modell, d.h. mit beliebiger und - bis auf einen unbekannten Skalenfaktor - bekannter Covarianzstruktur der Beobachtungen. Obwohl sich das AitkenModell vollständig auf das Gauß-Markov-Modell zurückführen läßt, werden die Methoden und Resultate trotzdem ausführlich formuliert und dabei auch auf den (in der Praxis nie auszuschließenden) Fall erweitert, daß das der Analyse zugrunde ge-

Vorwort 1.6.11 V-I

Vorwort

Dieses Manuskript ist aus Materialien zu statistischen Lehrveranstaltungen über Generalisierte Lineare Modelle im Laufe der letzten Jahre entstanden und hier liegt der Teil I über Lineare Modelle in einer neuen (veränderten und erweiterten) Auflage vor, in der er auch im Sommersemester 2005 einer Vorlesung zu Grunde lag (wobei dort aus Zeitgründen einige Abschnitte teilweise oder vollständig ausgelassen wurden). Der Text ist in erster Linie als Begleit- und Referenz-Material für die Kursteilnehmer gedacht und nicht primär als Einführung in diese Materie im Selbststudium angelegt. Insbesondere fehlen hier (noch) die im Kurs und den Übungen ausführlicher behandelten Analysen ausgewählter Datensätze.

Der Kurs ))Lineare Modelle in der Statistik!! ist für fortgeschrittene Studierende der Mathematik mit Grundkenntnissen in Wahrscheinlichkeitsrechnung und Statistik vorgesehen. Ziel des Kurses ist es, eine mathematisch fundierte Einführung in die Theorie der Linearen Modelle zu geben, wobei die anwendungsrelevanten Methoden stärker betont werden. Der Schwerpunkt lag hierbei mehr in der Herleitung der Schätz- und Testverfahren - und ihrer "geometrischen" Interpretationen - und weniger in Untersuchungen ihrer Optimalitätseigenschaften.

Die Beweise zu den Resultaten des vorliegenden Textes sind in einem separaten Beweis-Band zusammengestellt. Das (historisch bedingte) Abtrennen der Beweise vom eigentlichen Text erscheint mir sinnvoll, weil dadurch einerseits die Ausführungen nicht durch Beweise unterbrochen werden, und man andererseits die Beweise parallel zum Text nachvollziehen kann (was besonders bei den zahlreichen Rückverweisen praktisch ist). Diverse verwendete speziellere Resultate (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) sind der Vollständigkeit halber in einem ebenfalls separat erhältlichen Exkurs-Band zusammengestellt.

Der Stoff über Lineare Modelle ist wie folgt gegliedert. Nach einer Einführung in die Modellierung und Verteilungs modelle im Kapitell wird im Kapitel 2 das GaussMarkov-Modell mit konstanten Varianzen behandelt. Als Schätzverfahren wird die geometrisch motivierte Methode der minimalen Quadrate verwendet und deren Eigenschften hergeleitet, die im Klassischen Linearen Modell (mit normalverteilten Beobachtungen) mit der Maximum-Likelihood-Schätzung übereinstimmt. Im klassischen lineareren Modell werden dann der t-Test (für Linearkombinationen des Parametervektors) und der F-Test (für lineare Hypothesen) behandelt, wobei auch auf die für die Praxis wichtige Testschärfe näher eingegangen wird.

Im Kapitel 3 werden einige grundsätzliche Methoden zur Modellbildung besprochen und einige elementare Modelle (Regressionsanalyse einer Variablen, einfache Varianz- und Covarianz-Analyse) behandelt.

Das Kapitel 4 enthält die Verallgemeinerungen des 2. Kapitels vom Gauß-Markovauf das Aitken-Modell, d.h. mit beliebiger und - bis auf einen unbekannten Skalenfaktor - bekannter Covarianzstruktur der Beobachtungen. Obwohl sich das AitkenModell vollständig auf das Gauß-Markov-Modell zurückführen läßt, werden die Methoden und Resultate trotzdem ausführlich formuliert und dabei auch auf den (in der Praxis nie auszuschließenden) Fall erweitert, daß das der Analyse zugrunde ge-

Vorwort 1.6.11 V-2

legte Modell nicht korrekt sapezifiziert ist. Weiter werden mehrdimensionale Konfidenzbereiche und simultane (eindimensionale) Konfidenzintervalle konstruiert.

Im Kapitel 5 werden weitere Analysen für das Gauß-Markov-Modell vorgestellt. Zunächst werden die Auswirkungen einer Fehlspezijikation des Modelle untersucht und für einfache Modellklassen (Regression einer Variabeln und Varianzanalyse) wird gezeigt, daß sich die Fehlspezifikation unter gewissen Bedingungen durch eine Randomisierung bei der Datenerhebung vermeiden läßt. Für die Modellüberprüfung wird ein Anpassungsstest angegeben und die Analyse der Residuen kurz vorgestellt. Zur Modellsuche werden sequentielle Testprozeduren und Modell-Suchverfahren angegeben.

Das Kapitel 6 ist asymptotische Resultaten im Gauß-Markov-Modell gewidmet. Hier wird für eine geeignete Asymptotik gezeigt, daß die für normalverteilte Beobachtungen entwickelten t-Tests, F-Tests und Konfidenzbereiche auch bei beliebigen Verteilung (der Fehlervariablen) das vorgegebene Niveau asymptotisch einhalten.

In der vorliegende Fassung ist gegenüber der Auflage vom Juli 2010 neben Druckfehler-Korrekturen nur das Kapitel 6 (bis inklusive 6.2) leicht umformuliert und erwei

tert.

Bei der Zusammenstellung dieses Skripts habe ich auf zahlreiche (im Literaurverzeichnis zusammengestellte) Quellen zurückgegriffen, die allerdings - dem Charakter eines Skriptes entsprechend - nur gelegentlich im Text explizit erwähnt sind. Hervorzuheben sind dabei zwei Monographien, die hier einen besonders starken Einfluß ausgeübt haben. In erster Linie ist hier Haberman (1974) zu erwähnen, dessen Ideen an vielen Stellen - insbesondere bei den Darstellungen via Projektionen bzgl. eines anderen Skalarproduktes - eingeflossen sind. Weiter hat das Buch von Seber (1977) die Ausführungen unterschiedlich stark beeinflußt.

Mein besonderer Dank gilt Frau Heidi Eckl für die Erstellung der Rohfassungen der Texte.

Bremen, im Juni 2011 Gerhard Osius

Vorwort 1.6.11 V-2

legte Modell nicht korrekt sapezifiziert ist. Weiter werden mehrdimensionale Konfidenzbereiche und simultane (eindimensionale) Konfidenzintervalle konstruiert.

Im Kapitel 5 werden weitere Analysen für das Gauß-Markov-Modell vorgestellt. Zunächst werden die Auswirkungen einer Fehlspezijikation des Modelle untersucht und für einfache Modellklassen (Regression einer Variabeln und Varianzanalyse) wird gezeigt, daß sich die Fehlspezifikation unter gewissen Bedingungen durch eine Randomisierung bei der Datenerhebung vermeiden läßt. Für die Modellüberprüfung wird ein Anpassungsstest angegeben und die Analyse der Residuen kurz vorgestellt. Zur Modellsuche werden sequentielle Testprozeduren und Modell-Suchverfahren angegeben.

Das Kapitel 6 ist asymptotische Resultaten im Gauß-Markov-Modell gewidmet. Hier wird für eine geeignete Asymptotik gezeigt, daß die für normalverteilte Beobachtungen entwickelten t-Tests, F-Tests und Konfidenzbereiche auch bei beliebigen Verteilung (der Fehlervariablen) das vorgegebene Niveau asymptotisch einhalten.

In der vorliegende Fassung ist gegenüber der Auflage vom Juli 2010 neben Druckfehler-Korrekturen nur das Kapitel 6 (bis inklusive 6.2) leicht umformuliert und erwei

tert.

Bei der Zusammenstellung dieses Skripts habe ich auf zahlreiche (im Literaurverzeichnis zusammengestellte) Quellen zurückgegriffen, die allerdings - dem Charakter eines Skriptes entsprechend - nur gelegentlich im Text explizit erwähnt sind. Hervorzuheben sind dabei zwei Monographien, die hier einen besonders starken Einfluß ausgeübt haben. In erster Linie ist hier Haberman (1974) zu erwähnen, dessen Ideen an vielen Stellen - insbesondere bei den Darstellungen via Projektionen bzgl. eines anderen Skalarproduktes - eingeflossen sind. Weiter hat das Buch von Seber (1977) die Ausführungen unterschiedlich stark beeinflußt.

Mein besonderer Dank gilt Frau Heidi Eckl für die Erstellung der Rohfassungen der Texte.

Bremen, im Juni 2011 Gerhard Osius

Inhaltsverzeichnis 8.7.10 1

Inhalt (Seiten pro Kapitel)Kapitel - Seite

Die mit * markierten Abschnitte werden im Folgenden nicht benötigt und werden deshalb im

Kurs ganz oder teilweise ausgelassen.

o Einführung (1)1 Modellierung und Verteilungsmodelle (9)

1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung 1 - 11.2 Varianz und Verteilung einer Einzelbeobachtung 1 - 31.3 Das Lineare Modell für mehrere Beobachtungen 1 - 6

2 Das Gauß-Markov-Modell (40)2.1. Minimale-Quadrate-Schätzung 2 - 3

2.1.1 Lineare Regression mit einer Variablen 2 - 52.1.2 Polynomregression mit einer Variablen 2 - 6

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 2 - 72.3 Residuen und Schätzung der Varianz 2 - 92.4 Das klassische lineare Modell 2 - 132.5 Tests für Linearkombinationen des Parameters 2 - 16

2.5.1 Testen einzelner Komponenten des Parameters 2 - 162.5.2 Testen von Linearkombinationen des Parameters 2 - 192.5.3 Schärfe der Tests 2 - 212.5.4 Lineare Regression mit einer Variablen 2 - 26

2.6 Testen von linearen Hypothesen 2 - 282.6.1 Herleitung des F-Tests 2 - 282.6.2 Schärfe des F-Tests 2 - 35

2.7* Schätzung von Nichtzentralität und Testschärfe 2 - 362.7.1 Schätzungen für den t-Test 2 - 362.7.2 Schätzungen für den F-Test 2 - 38

3 Elementare Modelle und Analysen (30)3.1 quantitative Covariablen und Faktoren 3 - 13.2 Modelle für eine beobachtete Covariable 3 - 3

3.2.1 Das konstante Modell 3 - 33.2.2 Modelle für eine quantitative Variable 3 - 43.2.3 Das vollständige Modell für einen Faktor 3 - 63.2.4 Schätzungen im vollständigen Modell für einen Faktor 3 - 93.2.5 Einfache Varianzanalyse 3 - 133.2.6 Schärfe des F-Tests bei der balancierten Varianzanalyse 3 - 16

3.3 Modelle für zwei beobachtete Covariablen 3 - 183.3.1 Einfache Covarianz-Analyse 3 - 183.3.2 Modelle für zwei quantitative Variablen 3 - 243.3.3 Modelle für zwei Faktoren 3 - 28


Inhalt (Seiten pro Kapitel) Kapitel - Seite

Die mit * markierten Abschnitte werden im Folgenden nicht benötigt und werden deshalb im

Kurs ganz oder teilweise ausgelassen.

o Einführung (1) 1 Modellierung und Verteilungsmodelle (9)

1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung 1 - 1 1.2 Varianz und Verteilung einer Einzelbeobachtung 1 - 3 1.3 Das Lineare Modell für mehrere Beobachtungen 1 - 6

2 Das Gauß-Markov-Modell (40) 2.1. Minimale-Quadrate-Schätzung 2 - 3

2.1.1 Lineare Regression mit einer Variablen 2 - 5 2.1.2 Polynomregression mit einer Variablen 2 - 6

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 2 - 7 2.3 Residuen und Schätzung der Varianz 2 - 9 2.4 Das klassische lineare Modell 2 - 13 2.5 Tests für Linearkombinationen des Parameters

2.5.1 Testen einzelner Komponenten des Parameters 2.5.2 Testen von Linearkombinationen des Parameters 2.5.3 Schärfe der Tests 2.5.4 Lineare Regression mit einer Variablen

2.6 Testen von linearen Hypothesen 2.6.1 Herleitung des F-Tests 2.6.2 Schärfe des F-Tests

2.7* Schätzung von Nichtzentralität und Testschärfe 2.7.1 Schätzungen für den t-Test 2.7.2 Schätzungen für den F-Test

3 Elementare Modelle und Analysen 3.1 quantitative Covariablen und Faktoren 3.2 Modelle für eine beobachtete Covariable

3.2.1 Das konstante Modell 3.2.2 Modelle für eine quantitative Variable 3.2.3 Das vollständige Modell für einen Faktor 3.2.4 Schätzungen im vollständigen Modell für einen Faktor 3.2.5 Einfache Varianzanalyse 3.2.6 Schärfe des F-Tests bei der balancierten Varianzanalyse

3.3 Modelle für zwei beobachtete Covariablen 3.3.1 Einfache Covarianz-Analyse 3.3.2 Modelle für zwei quantitative Variablen 3.3.3 Modelle für zwei Faktoren

2 - 16 2 - 16 2 - 19 2 - 21 2 - 26 2 - 28 2 - 28 2 - 35 2 - 36 2 - 36 2 - 38

(30) 3 - 1 3-3 3-3 3-4 3-6 3-9

3 - 13 3 - 16 3 - 18 3 - 18 3 - 24

3 - 28


4 Das lineare Aitken-Modell (33)4.1 Das gewichtete Gauß-Markov-Modell 4-24.2 Transformation des Aitken-Modells in ein Gauss-Markov-Modell 4-3

4.2.1 Gewichtetes Gauß-Markov-Modell 4-44.3 Verallgemeinerte Minimale-Quadrate-Schätzung 4-5

4.3.1 Gewichtetes Gauß-Markov-Modell 4-84.4 Das Aitken-Modell mit normalverteilten Beobachtungen 4-94.5 Tests für Linearkombinationen des Erwartungswerts

bei normalverteilten Beobachtungen 4 - 124.5.1 Formulierung der Hypothesen 4 - 124.5.2 Der ein- und zweiseitige t-Test 4 - 134.5.3 Die Schärfe des einseitigen t-Tests 4 - 154.5.4 Die Schärfe des zweiseitigen t-Tests 4 - 164.5.5 Konfidenzgrenzen für Linearkombinationen 4 - 174.5.6 Linearkombinationen des Parameters 4 - 18

4.6 Testen von linearen Hypothesen bei normalverteiltenBeobachtungen 4 - 194.6.1 Lineare Hypothesen über den Erwartungswert 4 - 194.6.2 Lineare Hypothesen über den Parameter 4 - 224.6.3 Schärfebetrachtungen beim F-Test 4 - 24

4.7 Konstruktion von Konfidenzbereichen 4 - 264.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor 4 - 264.7.2 Simultane Konfidenzintervalle nach Bonferroni 4 - 284.7.3 Simultane Konfidenzintervalle nach Scheffe 4 - 30

5. Weitere Analysen im Gauss-Markov-Modell (33)5.1 Fehlspezifikation des Modells 5 - 2

5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse 5-65.1.2 Einfache Varianzanalyse mit Randomisierung 5-75.1.3 Fehlspezifikation bei linearer Regression einer Variablen 5 - 105.1.4 Lineare Regression einer Variablen mit Randomisierung 5 - 11

5.2 Anpassungstests für lineare Modelle 5 - 145.3 Residuenanalyse 5 - 195.4 Modellsuche 5 - 23

5.4.1 Sequentielle Testprozeduren 5 - 235.4.2 Modell-Suchverfahren 5 - 285.4.3 Das Vorwärts-Suchverfahren 5 - 305.4.4 Das Rückwärts-Suchverfahren 5 - 315.4.5 Modifizierte Suchverfahren 5 - 32


4 Das lineare Aitken-Modell (33) 4.1 Das gewichtete Gauß-Markov-Modell 4-2 4.2 Transformation des Aitken-Modells in ein Gauss-Markov-Modell 4-3

4.2.1 Gewichtetes Gauß-Markov-Modell 4-4 4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 4-5

4.3.1 Gewichtetes Gauß-Markov-Modell 4-8 4.4 Das Aitken-Modell mit normalverteilten Beobachtungen 4-9 4.5 Tests für Linearkombinationen des Erwartungswerts

bei normalverteilten Beobachtungen 4 - 12 4.5.1 Formulierung der Hypothesen 4 - 12 4.5.2 Der ein- und zweiseitige t-Test 4 - 13 4.5.3 Die Schärfe des einseitigen t-Tests 4 - 15 4.5.4 Die Schärfe des zweiseitigen t-Tests 4 - 16 4.5.5 Konfidenzgrenzen für Linearkombinationen 4 - 17 4.5.6 Linearkombinationen des Parameters 4 - 18

4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen 4 - 19 4.6.1 Lineare Hypothesen über den Erwartungswert 4 - 19 4.6.2 Lineare Hypothesen über den Parameter 4 - 22 4.6.3 Schärfebetrachtungen beim F-Test 4 - 24

4.7 Konstruktion von Konfidenzbereichen 4 - 26 4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor 4 - 26 4.7.2 Simultane Konfidenzintervalle nach Bonferroni 4 - 28 4.7.3 Simultane Konfidenzintervalle nach Scheffe 4 - 30

5. Weitere Analysen im Gauss-Markov-Modell (33) 5.1 Fehlspezifikation des Modells 5 - 2

5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse 5-6 5.1.2 Einfache Varianzanalyse mit Randomisierung 5-7 5.1.3 Fehlspezifikation bei linearer Regression einer Variablen 5 - 10 5.1.4 Lineare Regression einer Variablen mit Randomisierung 5 - 11

5.2 Anpassungstests für lineare Modelle 5 - 14 5.3 Residuenanalyse 5 - 19 5.4 Modellsuche 5 - 23

5.4.1 Sequentielle Testprozeduren 5 - 23 5.4.2 Modell-Suchverfahren 5 - 28 5.4.3 Das Vorwärts-Suchverfahren 5 - 30 5.4.4 Das Rückwärts-Suchverfahren 5 - 31 5.4.5 Modifizierte Suchverfahren 5 - 32


6. Asymptotische Resultate im Gauß-Markov-Modell6.1 Grundlagen der Asymptotik6.2 Asymptotische Verteilung der Schätzer6.3 Asymptotische Test für Linearkombinationen

6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests6.3.2 Asymptotische Eigenschaften des t-Tests6.3.3 Schärfeapproximation für den asymptotischen t-Test6.3.4 Asymptotische Konfidenzbereiche

6.4 Asymptotische Test für lineare Hypothesen

LiteraturIndex

(16)6-26-8

6 - 106 - 106 - 116 - 136 - 146 - 15

(1)(3)

Inhaltsverzeichnis 8.7.10

6. Asymptotische Resultate im Gauß-Markov-Modell 6.1 Grundlagen der Asymptotik 6.2 Asymptotische Verteilung der Schätzer 6.3 Asymptotische Test für Linearkombinationen

6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests 6.3.2 Asymptotische Eigenschaften des t-Tests 6.3.3 Schärfeapproximation für den asymptotischen t-Test 6.3.4 Asymptotische Konfidenzbereiche

6.4 Asymptotische Test für lineare Hypothesen

Literatur Index

3

(16) 6-2 6-8

6 - 10 6 - 10 6 - 11 6 - 13 6 - 14 6 - 15

(1) (3)

Einführung 25.7.05 0 - 1

0 Einführung

Die von Nelder und Wedderburn (1972) eingeführte Theorie der Generalisierten Line-

aren Modelle (engl.: Generalized Linear Models, abgekürzt: GLM) bildet einen gemeinsa-

men Rahmen für die Behandlung zahlreicher wichtiger statistische Verfahren, die

zuvor isoliert betrachtet wurden, darunter in erster Linie

Lineare Modelle: Regressions-, Varianz- und Covarianz-Analyse für normalver-

teilte Beobachtungsdaten,

Quantal-Response Modelle für binomialverteilte Beobachtungsdaten,

Log-lineare Modelle für Poisson-verteilte Beobachtungsdaten.

Bei diesen statistischen Verfahren geht es um Modellierung der Abhängigkeit einer

beobachteten Zufallsvariablen Y - der Zielvariablen (z.B. ein Krankheitszustand auf

einer geeigneten Skala) von einem zusätzlichen Covariablen-Vektor X = (xl, ... ,xs),

der die möglichen Einflussvariablen (z.B. Art der Behandlung, Alter und Geschlecht

des Patienten etc.) enthält und als fest vorgegeben angesehen wird. Wenn der Covari-

ablen-Vektor X auch zufällig, d.h. Realisierung eines Zufallsvektors X ist, so wird

die Analyse auf die beobachteten Covariablen-Werte X = X bedingt. Die einzelnen

Covariablen-Komponenten X können hierbei stetige Variablen (mit Werten aus ei- S

nem Intervall reeller Zahlen), Faktoren (mit ganzzahligen Werten, sogenannten Stu-

fen) oder auch Indikatoren (mit Werten 0 oder 1) sein.

Es ist zweckmäßig, die Modellbildung in eine deterministische und eine stochastische

Komponente zu zerlegen. Im deterministischen Teil wird der Einfluß der Covari-

ablen X auf den Erwartungswert der Zielvariablen Y parametrisch modelliert, wäh-

rend der stochastische Teil die Streuung der Zielvariablen Y um ihren Erwartungs-

wert ,L durch die Angabe einer Verteilungsklasse für Y präzisiert wird. Im folgenden

charakterierisieren wir nur die Klasse der Linearen Modelle indem wir ihre beiden

Komponenten separat beschreiben. Hierbei ist es zweckmäßig, zunächst nur eine

Einzelbeobachtung (x,Y) zu betrachten und erst danach auf einen Datensatz

( X . , Y .) von j = 1, ... ,J Beobachtungen einzugehen. 3 3

Einführung 25.7.05 0-1

o Einführung

Die von NeIder und Wedderburn (1972) eingeführte Theorie der Generalisierten Line

aren Modelle (engl.: Generalized Linear Models) abgekürzt: GLM) bildet einen gemeinsa

men Rahmen für die Behandlung zahlreicher wichtiger statistische Verfahren, die

zuvor isoliert betrachtet wurden, darunter in erster Linie

• Lineare Modelle: Regressions-, Varianz- und Covarianz-Analyse für normalver

teilte Beobachtungsdaten,

• Quantal-Response Modelle für binomialverteilte Beobachtungsdaten,

• Log-lineare Modelle für Poisson-verteilte Beobachtungsdaten.

Bei diesen statistischen Verfahren geht es um Modellierung der Abhängigkeit einer

beobachteten Zufallsvariablen Y - der Zielvariablen (z.B. ein Krankheitszustand auf

einer geeigneten Skala) von einem zusätzlichen Covariablen-Vektor x = (xl' ... ,xS

)'

der die möglichen Einflussvariablen (z.B. Art der Behandlung, Alter und Geschlecht

des Patienten etc.) enthält und als fest vorgegeben angesehen wird. Wenn der Covari

ablen-Vektor x auch zufällig, d.h. Realisierung eines Zufallsvektors X ist, so wird

die Analyse auf die beobachteten Covariablen-Werte X = x bedingt. Die einzelnen

Covariablen-Komponenten x können hierbei stetige Variablen (mit Werten aus ei-s

nem Intervall reeller Zahlen), Faktoren (mit ganzzahligen Werten, sogenannten Stu-

fen) oder auch Indikatoren (mit Werten 0 oder 1) sein.

Es ist zweckmäßig, die Modellbildung in eine deterministische und eine stochastische

Komponente zu zerlegen. Im deterministischen Teil wird der Einfluß der Covari

ablen x auf den Erwartungswert der Zielvariablen Y parametrisch modelliert, wäh

rend der stochastische Teil die Streuung der Zielvariablen Y um ihren Erwartungs

wert f-L durch die Angabe einer Verteilungsklasse für Y präzisiert wird. Im folgenden

charakterierisieren wir nur die Klasse der Linearen Modelle indem wir ihre beiden

Komponenten separat beschreiben. Hierbei ist es zweckmäßig, zunächst nur eine

Einzelbeobachtung (x) Y) zu betrachten und erst danach auf einen Datensatz

(x. , Y.) von j = 1, ... ,J Beobachtungen einzugehen. ] ]

1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1-1

1. Modellierung und Verteilungsmodelle

1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung

S Ausgangspunkt ist ein Covariablen-Vektor X = (X . X ) E R und eine davon abhän- 1'

gende reelle Zufallsvariable Y = Y(x). Der deterministische Teil des Linearen Mo-

dells beschreibt die Abhängikeit des Erwartungswert E(Y(x)) vom Covariablenvek-

tor X unter Verwendung eines unbekannten Parameter-Vektors B = (Bl, ... , BS) E R S

wie folgt

d.h. jede einzelne Covariablenkomponente X E R wirkt über den Summanden B X S S S

T additiv auf den Erwartungswert. Der Erwartungswert P(X) = X 0 ist sowohl linear

im Parameter 8 (daher kommt der Name Lineares Modell) als auch linear im Cova-

riablenvektor X.

Unter Verwendung der Abweichung vom Erwartungswert

(I> &(X) = Y(.) - E(Y(x)) (Zentrierung, Fehlervariable)

- auch Fehlervariable genannt - lässt sich das Modell äquivalent beschreiben durch

(LM)E T Y(X) = 6 + &(X) mit E(E(x)) = 0.

Man beachte, daß wir hier - und später - stets davon ausgehen, daß der Covari-

ablen-Vektor X fest vorgegeben und somit keine Zufallsvariable ist. Wir wollen aber

kurz darauf eingehen, wie man die Methoden der Lineare Modelle auch bei zufälli-

gen Covariablen verwenden kann. Hierbei gehen wir von einem S-dimensionalen

Zufallsvektor X von Covariablen aus und betrachten das zu (LM)' analoge Zufäl- E lige Lineare Modell

T Y = X B + & mit E(&) = 0

wobei die Fehlervariable e von X stochastisch unabhängig ist. Dieses Modell besagt,

daß die Zielvariable Y bis auf einen zufälligen Fehler e durch die Covariable X be-

1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06

1. Modellierung und Verteilungsmodelle

1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung

1-1

Ausgangspunkt ist ein Covariablen-Vektor x = (xl' ... , XS

) E IRS und eine davon abhän

gende reelle Zufallsvariable Y = Y(x). Der deterministische Teil des Linearen Mo

dells beschreibt die Abhängikeit des Erwartungswert E(Y(x)) vom Covariablenvek

tor x unter Verwendung eines unbekannten Parameter-Vektors () = (()l' ... , () 5) E IRS

wie folgt

d.h. jede einzelne Covariablenkomponente x E IR wirkt über den Summanden () x s s s

additiv auf den Erwartungswert. Der Erwartungswert p,(x) = x T() ist sowohl linear

im Parameter () (daher kommt der Name Lineares Modell) als auch linear im Cova

riablenvektor x.


(1) c(x) = Y(x) - E(Y(x)) (Zentrierung) Fehlervariable)

- auch Fehlervariable genannt - lässt sich das Modell äquivalent beschreiben durch

mit E(c(x)) = o.

Man beachte, daß wir hier - und später - stets davon ausgehen, daß der Covari

ablen-Vektor x fest vorgegeben und somit keine Zufallsvariable ist. Wir wollen aber

kurz darauf eingehen, wie man die Methoden der Lineare Modelle auch bei zufälli

gen Covariablen verwenden kann. Hierbei gehen wir von einem S-dimensionalen

Zufallsvektor X von Covariablen aus und betrachten das zu (LM)'E analoge Zufäl

lige Lineare Modell

mit E(c) = 0

wobei die Fehlervariable c von X stochastisch unabhängig ist. Dieses Modell besagt,

daß die Zielvariable Y bis auf einen zufälligen Fehler c durch die Covariable X be-

1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1 - 2

stimmt ist. Wenn man nur die Abhängikeit der Zielvariablen Y von X untersuchen

will und nicht an der Verteilung der Covariablen X interessiert ist, so genügt es, die

bedingte Verteilung .d(Y I X = X) zu betrachten (vgl. Exkurs BV Bedingte Verteilun-

gen), wobei X der konkret beobachtete Covariablenvektor ist. Wegen der Unabhän-

gigkeit von X und e ergibt sich der bedingten Erwartungswert von Y zu

Folglich gilt das Lineare Modell (LM) für den bedingten Erwartungswert, d.h. es E ist

(BLM)E ,L(x):= E ( Y I X = x ) (Bedingtes Lineares Modell).

In diesem Sinn lassen sich die hier zu entwickelnden Methoden für Lineare Modelle

mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei dann ,L(x)

als bedingter Erwartungswert zu interpretieren ist. Konkret wird die Analyse bei zu-

fälligem X auf den beobachteten Wert X bedingt.

Genau genommen, umfaßt das bedingte Modell (BLM) sogar das Modell (LM)E E für den Fall, daß X eine Einpunktverteilung im vorgegebenen Wert X hat, d.h.

P{X = X) = 1.

1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1- 2

stimmt ist. Wenn man nur die Abhängikeit der Zielvariablen Y von X untersuchen

will und nicht an der Verteilung der Covariablen X interessiert ist, so genügt es, die

bedingte Verteilung L(YI X = x) zu betrachten (vgl. Exkurs BV Bedingte Verteilun

gen), wobei x der konkret beobachtete Covariablenvektor ist. Wegen der Unabhän

gigkeit von X und c ergibt sich der bedingten Erwartungswert von Y zu

Folglich gilt das Lineare Modell (LM)E für den bedingten Erwartungswert, d.h. es

ist

p,(x) : = E(YI X = x) (Bedingtes Lineares Modell).

In diesem Sinn lassen sich die hier zu entwickelnden Methoden für Lineare Modelle

mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei dann p,(x)

als bedingter Erwartungswert zu interpretieren ist. Konkret wird die Analyse bei zu

fälligem X auf den beobachteten Wert x bedingt.

Genau genommen, umfaßt das bedingte Modell (BLM)E sogar das Modell (LM)E

für den Fall, daß X eine Einpunktverteilung im vorgegebenen Wert x hat, d.h.

P{X=x}=1.

1.2 Verteilungsmodelle für eine Einzelbeobachtung 11.8.05 1 - 3

1.2 Varianz und Verteilung einer Einzelbeobachtung

Der stochastische Teil des Linearen Modells fordert zunächst nur, daß die Varianz

der Zufallsvariablen Y(x) homogen d.h. unabhängig vom Covariablenvektor X ist

( H V a r M ) E ~ a r ( ~ ( x ) ) = a2 (homogenes Varianzmodell der Einzelbeobachtung)

2 mit a > 0 als Skalen- oder Dispersions-Parameter. Zusammen mit dem deterministi-

schen Teil wird hierdurch die Verteilung von Y(x) bereits wesentlich eingeschränkt.

Wenn Y(x) z.B. eine Bernoulli-Verteilung ~ ( 1 , ,L(x)) oder eine Poisson-Verteilung

~ o i s ( ~ ( x ) ) hat, so hängt ihre Varianz vom Erwartunsgwert ,L(x) und somit auch

von X ab, und das obige Varianzmodell gilt nicht für diese Verteilungen.

Im sogenannten Klassischen Linearen Modell wird zusätzlich noch die Verteilung von

Y(x) als Normalverteilung postuliert

( W E Y(x) ist normalverteilt (Normalverteilung der Einzelbeobachtung),

wobei der Erwartungswert durch (LM) und die Varianz durch (VarM) gegeben E E sind. Insgesamt läßt sich das Klassische Lineare Modell daher charakterisieren

durch

( K W E Y(x) - ~ ( x ~ e , a2) (Klassisches Lineares Modell).

Unter Verwendung der Fehlervariablen &(X) ergeben sich die äquivalenten Fassun-

gen

( W h &(X) ist normalverteilt,

T (KLM)E Y(x) = X B + E ( x ) mit &(X) - N(0, a2).

Man beachte, daß die Verteilung N(0, a2) der Fehlervariablen &(X) hier nicht mehr

vom Covariablenvektor X abhängt.

Die Normalverteilungsannahme ist eine wesentliche Einschränkung, die sich in der

Praxis nicht immer rechtfertigen lässt. Deshalb ist es sinnvoll möglichst viele Re-

sultate ohne diese Annahme zu erzielen. Wir werden deshalb die Bedingung (NV) E nicht generell voraussetzen, sondern sie nur bei Bedarf explizit fordern.

1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1- 3

1.2 Varianz und Verteilung einer Einzelbeobachtung

Der stochastische Teil des Linearen Modells fordert zunächst nur, daß die Varianz

der Zufallsvariablen Y(x) homogen d.h. unabhängig vom Covariablenvektor x ist

(HVarM)E Var(Y(x)) = 0-2 (homogenes Varianzmodell der Einzelbeobachtung)

mit 0-2> 0 als Skalen- oder Dispersions-Parameter. Zusammen mit dem deterministi

schen Teil wird hierdurch die Verteilung von Y(x) bereits wesentlich eingeschränkt.

Wenn Y(x) z.B. eine Bernoulli-Verteilung B(l, ,u(x)) oder eine Poisson-Verteilung

Pois(,u( x)) hat, so hängt ihre Varianz vom Erwartunsgwert ,u( x) und somit auch

von x ab, und das obige Varianzmodell gilt nicht für diese Verteilungen.

Im sogenannten Klassischen Linearen Modell wird zusätzlich noch die Verteilung von

Y(x) als Normalverteilung postuliert

Y(x) ist normalverteilt (Normalverteilung der Einzelbeobachtung) ,

wobei der Erwartungswert durch (LM)E und die Varianz durch (Var M)E gegeben

sind. Insgesamt läßt sich das Klassische Lineare Modell daher charakterisieren

durch

(Klassisches Lineares Modell).

Unter Verwendung der Fehlervariablen c(x) ergeben sich die äquivalenten Fassun

gen

(NV)~

(KLM)'E

c(x) ist normalverteilt,

mit

Man beachte, daß die Verteilung N(O, 0-2

) der Fehlervariablen c(x) hier nicht mehr

vom Covariablenvektor x abhängt.

Die Normalverteilungsannahme ist eine wesentliche Einschränkung, die sich in der

Praxis nicht immer rechtfertigen lässt. Deshalb ist es sinnvoll möglichst viele Re

sultate ohne diese Annahme zu erzielen. Wir werden deshalb die Bedingung (NV)E

nicht generell voraussetzen, sondern sie nur bei Bedarf explizit fordern.


Eine geringfügige - aber sehr zweckmässige - Verallgemeinerung des homogenen

Varianzmodells besteht darin, die Varianz unter Verwendung eines belcannten und

von X abhängigen Gewichtsfaktors w(x) > 0 wie folgt zu modellieren

0 2

(GVarM)E ~ a r ( ~ ( x ) ) = - (gewichtetes Varianzmodell der Einzelbeob.). w(x>

Eine Varianz dieser Form liegt z.B. dann vor, wenn die Beobachtung Y(x) bereits

ein Mittelwert aus n unabhängigen Einzelwerten ist, wobei dann w(x) = n ist. X X

Das Gewichtete Lineare Modell - bestehend aus dem gewichteten Varianzmodell

(GVarM) zusammen mit (LM) - läßt sich durch Übergang auf die umskalierten E E Variablen

auf das homogene Modell zurückführen, weil

Prinzipiell genügt es daher, das homogene Modell (VarM) zu betrachten, was wir E auch zunächst (im Kapitel 2) tun werden. Im Hinblick auf die Verallgemeinerungen

zu Generalisierten Linearen Modellen ist es jedoch zweckmäßig, auch das gewich-

tete Lineare Modell näher zu betrachten (in Kapitel 4 und 5) - ohne es auf das ho-

mogene Modell zurückzuführen.

Wir wollen noch kurz auf das Zufällige Lineare Modell mit zufälligem Covariablen-

Vektor X eingehen

T Y = X B + & mit E(&) = 0

wobei e und X voneinander unabhängig sind. Für die auf X = X bedingte Varianz

von Y - d.h. die Varianz der bedingten Verteilung .d(Y I X = X) - ergibt sich dann

2 Setzen wir a = Var(&), so gilt das bedingte homogene Varianzmodell

1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1-4

Eine geringfügige - aber sehr zweckmässige - Verallgemeinerung des homogenen

Varianzmodells besteht darin, die Varianz unter Verwendung eines bekannten und

von x abhängigen Gewichtsfaktors w( x) > 0 wie folgt zu modellieren

2 (GVarM)E Var(Y(x)) = ~x) (gewichtetes Varianzmodell der Einzelbeob.).

Eine Varianz dieser Form liegt z.B. dann vor, wenn die Beobachtung Y(x) bereits

ein Mittelwert aus nunabhängigen Einzelwerten ist, wobei dann w( x) = n ist. x x

Das Gewichtete Lineare Modell - bestehend aus dem gewichteten Varianz modell

(GVarM)E zusammen mit (LM)E - läßt sich durch Übergang auf die umskalierten

Variablen

(1) Y*(x) x* Jw(x)·x,

auf das homogene Modell zurückführen, weil

(2)

Prinzipiell genügt es daher, das homogene Modell (VarM)E zu betrachten, was wir

auch zunächst (im Kapitel 2) tun werden. Im Hinblick auf die Verallgemeinerungen

zu Generalisierten Linearen Modellen ist es jedoch zweckmäßig, auch das gewich

tete Lineare Modell näher zu betrachten (in Kapitel 4 und 5) - ohne es auf das ho

mogene Modell zurückzuführen.

Wir wollen noch kurz auf das Zufällige Lineare Modell mit zufälligem Covariablen

Vektor X eingehen

mit E(c) = 0

wobei c und X voneinander unabhängig sind. Für die auf X = x bedingte Varianz

von Y - d.h. die Varianz der bedingten Verteilung L(Y I X = x) - ergibt sich dann

(3) Var(YI X = x) = Var(c).

Setzen wir 0-2 = Var(c), so gilt das bedingte homogene Varianz modell


(BHVarM)E Var(Y1 X = X ) = o 2 für alle X

(bedingtes homogenes Varianzmodell der Einzelbeobachtung).

Insbesondere besteht hier keine Notwendigkeit ein gewichtetes Varianzmodell zu be-

trachten.

Anstelle der Normalverteilung in ( N V ) tritt hier die bedingte Normalverteilung E

(BNV)E .d(Y I X = X ) ist eine Normalverteilung

(Bedingte Normalverteilung der Einzelbe~bachtun~).

Diese Normalverteilungsannahme ist z.B. dann erfüllt, wenn die gemeinsame Vertei-

lung von (X,Y') eine Normalverteilung ist, was natürlich höchstens dann der Fall

sein kann, wenn alle Komponenten X von X normalverteilt - also insbesondere S

auch stetige Zufallsvariable - sind.

Und das Bedingte Klassische Lineare Modell ist gegeben durch

T 2 (BKLNQE .d(Y 1 X = X ) = N ( x B, o )

(Bedingtes Klassisches Lineares Modell).

Wie schon in 1.1, gelangt man auch hier bei zufälligen Covariablen X durch Über-

gang auf die bedingte Verteilung .d(Y I X = X ) zu den dem entsprechenden Modell

mit vorgegebener Covariablen X . Folglich lassen sich die Methoden für Lineare Mo-

delle mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei man

lediglich Y(x) als eine Zufallsvariable mit der (bedingten) Verteilung .d(Y I X = X )

zu interpretieren hat.

1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1-5

(BHVarM)E Var(YI X = x) = 0-2 für alle x

(bedingtes homogenes Varianzmodell der Einzelbeobachtung).

Insbesondere besteht hier keine Notwendigkeit ein gewichtetes Varianzmodell zu be

trachten.

Anstelle der Normalverteilung in (NV)E tritt hier die bedingte Normalverteilung

L(YI X = x) ist eine Normalverteilung

(Bedingte Normalverteilung der Einzelbeobachtung).

Diese Normalverteilungsannahme ist z.B. dann erfüllt, wenn die gemeinsame Vertei

lung von (X, Y) eine Normalverteilung ist, was natürlich höchstens dann der Fall

sein kann, wenn alle Komponenten X von X normalverteilt - also insbesondere s

auch stetige Zufallsvariable - sind.

Und das Bedingte Klassische Lineare Modell ist gegeben durch

(Bedingtes Klassisches Lineares Modell).

Wie schon in 1.1, gelangt man auch hier bei zufälligen Covariablen X durch Über

gang auf die bedingte Verteilung L(Y I X = x) zu den dem entsprechenden Modell

mit vorgegebener Covariablen x. Folglich lassen sich die Methoden für Lineare Mo

delle mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei man

lediglich Y(x) als eine Zufallsvariable mit der (bedingten) Verteilung L(Y I X = x)

zu interpretieren hat.

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 6

1.3 Das Lineare Modell für mehrere Beobachtungen

Wir wollen jetzt das Lineare Modell für einen Datensatz mit J> 0 Beobachtungen

betrachten , d.h. für jedes j = 1, ..., J ist ein S-dimensionaler Covariablen-Vektor X . = S 3

(xjl, ..., X . ) E IR und eine relle Zufallsvariable Y. = Y(x .) gegeben. Hierbei soll S < J 3 s 3 3

-

gelten, damit die Anzahl der Beoachtungen mindestens so groß ist wie die Anzahl

der unbekannten Parameter-Komponenten von 8.

Wir beschreiben zunächst den deterministischen Teil des Modells, d.h. die Modellie-

rung der Erwartungswerte ,LL . = E(Y .) , die wie in 1.1 modelliert werden durch - wo- 3 3

bei wir zur Vereinfachung ,LL. = ,LL(X .) setzen - 3 3

S mit einem gemeinsamen S-dimensionalen Parameter-Vektor 8 = (8 ..., BS) E IR . Wir 1'

fassen nun alle Beobachtungen Y. zu einem J-dimensionalen Beobachtungs-Vektor 3

zusammen, der dann folgenden Erwartungs-Vektor hat

Und die Covariablen-Vektoren fassen wir zu einer JxS-Matrix zusammen

T deren j-te Zeile gerade der transponierte Covariablen-Vektor X . ist. Die Matrix X 1

wird auch als Covariablen-, Struktur- oder Design-Matrix bezeichnet. Der Vektor der

Erwartungswerte ist dann

Um zu einer „parameterfreienn Formulierung des Modells zu gelangen, betrachten

wir den von den Spalten der Covariablen-Matrix X erzeugten linearen Teilraum

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1- 6

1.3 Das Lineare Modell für mehrere Beobachtungen

Wir wollen jetzt das Lineare Modell für einen Datensatz mit J> 0 Beobachtungen

betrachten, d.h. für jedes j = 1, ... , J ist ein S-dimensionaler Covariablen-Vektor x. = J

(x.1

, ... , x ·5) E IRS und eine relle Zufallsvariable Y. = Y( x.) gegeben. Hierbei soll S < J J J J J -

gelten, damit die Anzahl der Beoachtungen mindestens so groß ist wie die Anzahl

der unbekannten Parameter-Komponenten von ().

Wir beschreiben zunächst den deterministischen Teil des Modells, d.h. die ModelIie

rung der Erwartungswerte p,. = E(Y.), die wie in 1.1 modelliert werden durch - wo-J J

bei wir zur Vereinfachung p,. = p,( x.) setzen -J J

(LM). J

T p,. = E(Y.) = x. () J J J

mit einem gemeinsamen S-dimensionalen Parameter-Vektor () = (()1' ... , () 5) E IRS. Wir

fassen nun alle Beobachtungen Y. zu einem J-dimensionalen Beobachtungs-Vektor J

(1) J Y = (Y1, .... , Y

J) E IR

zusammen, der dann folgenden Erwartungs-Vektor hat

(2)

Und die Covariablen-Vektoren fassen wir zu einer JxS-Matrix zusammen

(3) X=(x.). JS JS

deren j-te Zeile gerade der transponierte Covariablen-Vektor x! ist. Die Matrix X J

wird auch als Covariablen-) Struktur- oder Design-Matrix bezeichnet. Der Vektor der

Erwartungswerte ist dann

(4) p,=X().

Um zu einer "parameterfreien" Formulierung des Modells zu gelangen, betrachten

wir den von den Spalten der Covariablen-Matrix X erzeugten linearen Teilraum


und können das Modell dann äquivalent in der Form schreiben

Dieses Modell schränkt also die Variabilität des Erwartungsvektors ,!L ein auf den

linearen Modellraum A des Erwartungswert (Dies ist der eigentliche Grund, warum

man von einem Linearen Modell spricht).

Die parameterfreie Darstellung des Modells hat viele theoretische Vorzüge, weil sie

nur noch den Modellraum A, aber nicht mehr seine explizite Parametrisierung

verwendet. Dies spielt insbesondere dann eine Rolle, wenn der Parameter 8 nicht

eindeutig durch (LM) bestimmt ist. Um sicherzustellen, daß der Parameter 8 ein-

deutig bestimmt ist, genügt es, die folgende Rangbedingung zu fordern

(RB) Die Spalten von X sind linear unabhängig sind, d.h. es gilt

Rang X = S (Rang bedingung) .

Unter der Rangbedingung besitzt die Matrix X folgende Links-Inverse

T -1 T (8) X P : = ( X X ) X falls (RB) gilt,

J und folglich ist die lineare Abbildung X: IRs+ IR mit A = Bild X injektiv und S hat die lineare Abbildung X-: IRJ+ IR als Links-Inverse. Und dann ist der Para-

meter 8 eindeutig durch den Erwartungsvektor ,!L = X8 bestimmt:

(9) p = ~ 8 ~ = x - P falls (RB) gilt.

Falls die Rangbedingung jedoch nicht gilt, so ist 8 in (LM) nur durch zusätzliche

Bedingungen eindeutig bestimmt. Da die Rangbedingung für parameterfreie For-

mulierungen nicht erforderlich ist, wollen wir sie nicht generell voraussetzen, son-

dern bei Bedarf als Zusatzvoraussetzung erwähnen.

Wir wollen jetzt den stochastischen Teil des Modells beschreiben, indem wir Vertei-

lungsmodelle für den Beobachtungsvektor Y formulieren. Eine grundlegende For-

derung ist die Unabhängiglceit der Einzelbeobachtungen:

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1-7

(6) vft =vft(X) := { X() I ()E IRS } C IR] ,

und können das Modell dann äquivalent in der Form schreiben

(LM) ,

Dieses Modell schränkt also die Variabilität des Erwartungsvektors Jl ein auf den

linearen Modellraum vft des Erwartungswert (Dies ist der eigentliche Grund, warum

man von einem Linearen Modell spricht).

Die parameterfreie Darstellung des Modells hat viele theoretische Vorzüge, weil sie

nur noch den Modellraum vft, aber nicht mehr seine explizite Parametrisierung

verwendet. Dies spielt insbesondere dann eine Rolle, wenn der Parameter () nicht

eindeutig durch (LM) bestimmt ist. Um sicherzustellen, daß der Parameter () ein

deutig bestimmt ist, genügt es, die folgende Rangbedingung zu fordern

(RB) Die Spalten von X sind linear unabhängig sind) d.h. es gilt

Rang X = S (Rang bedingung) .

Unter der Rangbedingung besitzt die Matrix X folgende Links-Inverse

(8) falls (RB) gilt,

und folglich ist die lineare Abbildung X: IRS -----t IR] mit vft = Bild X injektiv und

hat die lineare Abbildung X-: IR] -----t IRS als Links-Inverse. Und dann ist der Para

meter () eindeutig durch den Erwartungsvektor Jl = X() bestimmt:

(9) Jl = X() falls (RB) gilt.

Falls die Rangbedingung jedoch nicht gilt, so ist () in (LM) nur durch zusätzliche

Bedingungen eindeutig bestimmt. Da die Rangbedingung für parameterfreie For

mulierungen nicht erforderlich ist, wollen wir sie nicht generell voraussetzen, son

dern bei Bedarf als Zusatzvoraussetzung erwähnen.

Wir wollen jetzt den stochastischen Teil des Modells beschreiben, indem wir Vertei

lungsmodelle für den Beobachtungsvektor Y formulieren. Eine grundlegende For

derung ist die Unabhängigkeit der Einzelbeobachtungen:


(Unab) Yl, ..., YJ sind stochastisch unabhängig,

die wir allerdings nicht generell vorrausetzen wollen, da sich die meisten Resultate

(mit Ausnahme von Ver te i l~n~saussa~en) bereits aus der schwächeren Unkorrelier-

theit der Beobachtungen herleiten lassen:

(Unkor) Y1, ..., YJ sind paarweise unkorreliert, d.h. die JxJ-Covarianzmatrix

von Y hat Diagonalgestalt:

Cov(Y) := (COV(Y., Y ~ ) ) . = Diag { Var(Y .) } . 3 3k 3 3

Im (linearen) Aitken-Modell werden wir allgemeiner auch korrelierte Beobachtun-

gen betrachten, weil sich diese durch eine lineare Transformation wieder auf un-

korrelierte Beobachtungen zurückführen lassen. Generell wollen wir aber, wenn

nicht explizit etwas anderes gesagt ist, die Unkorreliertheit (Unkor) voraussetzten

und bei Bedarf die Unabhängigkeit als zusätzliche Vorraussetzung angeben.

Darüberhinaus soll das gewichtete Varianz-Modell aus 1.2 für jede Beobachtung Y. 3

gelten

2 (GVarM). Var(Y.) = W . (gewichtetes Varianz-Modell).

3 3 3

2 mit einem gemeinsamen Dispersions-Parameter a >0, aber individuellen Gewichten

W . = w(x .) > 0. Zusammen mit der Unkorreliertheit ergibt sich somit das folgende 3 3

Modell für die Covarianz-Struktur des Beobachtungsvektors

(CovM) Cov(Y) = a2 . ~ i a ~ - l {W} (Covarianz-Model l),

J wobei Diag{w} die JxJ Diagonal-Matrix mit Diagonale W = (W ..., wJ E IR be- 1'

zeichnet. Man beachte, daß das Covarianz-Modell (CovM) äquivalent zu den beiden

Bedingungen (Unkor) und (VarM) . für alle j ist. 3

Da durch (LM) nur der Erwartungsvektor E(Y) und durch (CovM) nur die Cova-

rianz-Matrix Cov(Y) des Beobachtungsvektors modelliert werden, so ergeben sich

ingsgesamt nur Bedingungen an die Momente von Y bis zur zweiten Ordnung.

Die Herleitung von exakten Verteilungsaussagen (z.B. für Teststatistiken) erfordert

zusätzlich noch eine Verteilungsannahme für den Beobachtungsvektor Y. Wenn

dies erforderlich ist, so werden wir neben der Unabhängigkeit (Unab) noch voraus-

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1- 8

(Unab) Y1, ... , Y

J sind stochastisch unabhängig)

die wir allerdings nicht generell vorrausetzen wollen, da sich die meisten Resultate

(mit Ausnahme von Verteilungsaussagen) bereits aus der schwächeren Unkorrelier

theit der Beobachtungen herleiten lassen:

(Unkor) Y1, ... , Y

J sind paarweise unkorreliert) d.h. die lxl-Covarianzmatrix


Cov(Y) := (Cov(Y., Yk)) 'k = Diag {Var(Y.) .} . J J J J

Im (linearen) Aitken-Modell werden wir allgemeiner auch korrelierte Beobachtun

gen betrachten, weil sich diese durch eine lineare Transformation wieder auf un

korrelierte Beobachtungen zurückführen lassen. Generell wollen wir aber, wenn

nicht explizit etwas anderes gesagt ist, die Unkorreliertheit (Unkor) voraussetzten

und bei Bedarf die Unabhängigkeit als zusätzliche Vorraussetzung angeben.

Darüberhinaus soll das gewichtete Varianz-Modell aus 1.2 für jede Beobachtung Y. ]

gelten

(GVarM). J

2 Var(Y.) = !!...-

J W· ]

(gewichtetes Varianz-ModelV.

mit einem gemeinsamen Dispersions-Parameter 0'2> 0, aber individuellen Gewichten

w. = w(x.) > O. Zusammen mit der Unkorreliertheit ergibt sich somit das folgende J J

Modell für die Covarianz-Struktur des Beobachtungsvektors

(CovM) Cov(Y) = 0'2. Diag -1 {w} (Covarianz-ModelV)

J wobei Diag{w} die lxl Diagonal-Matrix mit Diagonale w = (w1, ... , w) E IR be-

zeichnet. Man beachte, daß das Covarianz-Modell (Cov M) äquivalent zu den beiden

Bedingungen (Unkor) und (Var M) . für alle j ist. ]

Da durch (LM) nur der Erwartungsvektor E(Y) und durch (CovM) nur die Cova

rianz-Matrix Cov(Y) des Beobachtungsvektors modelliert werden, so ergeben sich

ingsgesamt nur Bedingungen an die Momente von Y bis zur zweiten Ordnung.

Die Herleitung von exakten Verteilungsaussagen (z.B. für Teststatistiken) erfordert

zusätzlich noch eine Verteilungsannahme für den Beobachtungsvektor Y. Wenn

dies erforderlich ist, so werden wir neben der Unabhängigkeit (Unab) noch voraus-


setzen, daß alle Beobachtung normalverteilt sind

(NV) Y . ist normalverteilt für alle j = 1, ..., J. 3

Die Bedingungen (LM), (CovM) und (NV) zusammen definieren das sogenannte

Klassische Lineare Modell mit Gewichten, welches sich unter Verwendung der multi-

variaten Normalverteilung auch wie folgt äquivalent beschreiben lässt

(KLMG) Y - N ~ ( X8 , o2 ~ i a ~ - ' { W))

(Klassisches Lineares Modell mit Gewichten).

Wir wollen die Normalverteilungsannahme jedoch nicht generell voraussetzen, son-

dern bei Bedarf explizit als Voraussetzung erwähnen.

Nachdem wir die deterministische und stochastische Komponente des Linearen

Modells beschrieben haben, lassen sich die Aufgaben einer statistischen Analyse im

Rahmen dieser Modelle wie folgt charakterisieren:

Modellbildung: Wahl von X bzw. 4,

2 Schätzung der Modellparameter 8 (bzw. ,u) und o sowie gegebenenfalls weiterer

Funktionen dieser Parameter,

Bestimmung der Verteilung der Schätzer 8, P, und 82 (exakt oder asympto-

tisch),

Testen von Hypothesen über die Modellparameter,

Konstruktion von Konfidenzbereichen für die Modellparameter,

Überprüfung der Modellanpassung.

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen

setzen, daß alle Beobachtung normalverteilt sind

(NV) Y. ist normalverteilt für alle j = 1, ... , 1. ]

11.8.05 1- 9

Die Bedingungen (LM), (CovM) und (NV) zusammen definieren das sogenannte

Klassische Lineare Modell mit Gewichten, welches sich unter Verwendung der multi

variaten Normalverteilung auch wie folgt äquivalent beschreiben lässt

(KLMG) Y '" N j xe , 0-2 Diag -1 { w } )

(Klassisches Lineares Modell mit Gewichten).

Wir wollen die Normalverteilungsannahme jedoch nicht generell voraussetzen, son

dern bei Bedarf explizit als Voraussetzung erwähnen.

Nachdem WIr die deterministische und stochastische Komponente des Linearen

Modells beschrieben haben, lassen sich die Aufgaben einer statistischen Analyse im

Rahmen dieser Modelle wie folgt charakterisieren:

• Modellbildung: Wahl von X bzw. A,

• Schätzung der Modellparameter e (bzw. Jl) und 0-2 sowie gegebenenfalls weiterer

Funktionen dieser Parameter,

• Bestimmung der Verteilung der Schätzer 0, {1" und 52 (exakt oder asympto

tisch),

• Testen von Hypothesen über die Modellparameter,

• Konstruktion von Konfidenzbereichen für die Modellparameter,

• Überprüfung der Modellanpassung.

2. Das Gauß-Markov-Modell 11.8.05 2 - 1

2 Das Gauß-Markov-Mode11

In diesem Kapitel soll das lineare Modell mit homogenen Varianzen untersucht wer-

den. Ausgangspunkt ist also ein Datensatz (X, Y) mit dem J-dimensionalen Be-

~bachtun~svektor

und der JxS-Covariablen-Matrix

für das lineare Modell gilt

(LM) p = E(Y) = X e .

Weiter sollen die Beobachtungen unkorrelliert sein, d.h. es gilt

(Unkor) Y1, ..., YJ sind paarweise unkorreliert, d.h. die Jd-Covarianzmatrix

vonY hat Diagonalgestalt:

Cov(Y) := (COV(Y., Y ~ ) ) . = Diag {Var(Y .) } , 3 3k 3 3

und die Varianzen sollen 1 homogen sein, d.h.

(HVar) Var(Y.) = a 2 für j = 1, ..., J (homogene Varianzen) . 3

Die letzten beiden Voraussetzungen lassen sich zusammenfassen zu

2 (GMC) Cov(Y) = a . lIJ (Gauj3-Markov-Covarianzstruktur)

wobei lIJ die J x J Einheitsmatrix bezeichnet. Das durch (LM) und (GMC) festge-

legte Modell wird auch als Gauj3-Markov-Modell (mit homogenen Varianzen) bezeich-

net.


(3> & = Y - E ( Y ) = Y - p (Fehler- oder Resiuduemvektor)

wird das lineare Modell auch in der Form geschrieben

2. Das Gauß-Markov-Modell 11.8.05 2-1

2 Das Gauß-Markov-Modell

In diesem Kapitel soll das lineare Modell mit homogenen Varianzen untersucht wer

den. Ausgangspunkt ist also ein Datensatz (X, Y) mit dem J-dimensionalen Be

obachtungsvektor

(1) J Y = (Y1, .... , Y

J) E IR

und der JxS-Covariablen-Matrix

(2) X=(x.). JS JS

für das lineare Modell gilt

(LM) Jl = E(Y) = X() .

Weiter sollen die Beobachtungen unkorrelliert sein, d.h. es gilt

(Unkor) Y1' ... , Y

J sind paarweise unkorreliert) d.h. die JxJ-Covarianzmatrix


Cov(Y) := (Cov(Y., Yk)).k = Diag{Var(Y.).} , J J J J

und die Varianzen sollen 1 homogen sein, d.h.

(HVar) Var(Y.) = 0-2

J für j = 1, ... , J (homogene Varianzen).

Die letzten beiden Voraussetzungen lassen sich zusammenfassen zu

(GMC) Cov(Y) = 0-2

. 11 J (Gauß-Markov-Covarianzstruktur)

wobei 11J

die JxJ Einheitsmatrix bezeichnet. Das durch (LM) und (GMC) festge

legte Modell wird auch als Gauß-Markov-Modell (mit homogenen Varianzen) bezeich

net.


(3) c; = Y - E(Y) = Y - Jl (Fehler- oder Resiuduemvektor)

wird das lineare Modell auch in der Form geschrieben

2. Das Gauß-Markov-Modell 11.8.05 2 - 2

und die Gauß-Markov-Covarianzstruktur lautet äquivalent

2 (GMC)' COV(E) = a . II J .

Bei der Untersuchung des Gauß-Markov-Modell gehen wir wie folgt vor. Zuerst wer-

den die Schätzungen für 8 und ,U nach der Methode der minimalen Quadrate be-

stimmt, deren Eigenschaften hergeleitet, und im Anschluß daran geben wir einen 2 Schätzer für die Varianz a an. Für die Konstruktion von (exakten) Tests über 8

bzw. ,U benötigen wir (in 2.5-2.6) zusätzlich die Normalverteilungs-Annahme und

betrachten daher zuvor (in 2.4) das Klassische Lineare Modell (mit homogenen Va-

rianzen), welches gegeben ist durch

(KLM) Y - N ~ ( X e , a2 I IJ ) (Klassisches Lineares Modell) .

Es zeigt sich dann, daß der bisherige Minimal-Quadrate-Schätzer für 8 bzw. ,U auch 2 der Maximum-Likelihood-Schätzer ist (für den Schätzer von a gilt dies nicht

exakt, aber zumindest asymptotisch).

Im Klassische Lineare Modell behandeln wir dann zunächst den t-Test für Nullhy- T pothesen über eine Linearkombination C 8 des Parameters 8 und anschließend den

F-Test für lineare Nullhypothesen über 8 bzw. ,U.

2. Das Gauß-Markov-Modell 11.8.05 2-2

(LM)" y = x() + c,

und die Gauß-Markov-Covarianzstruktur lautet äquivalent

(GMC) , Cov(c) = 0-2

. 11 J.

Bei der Untersuchung des Gauß-Markov-Modell gehen wir wie folgt vor. Zuerst wer

den die Schätzungen für () und Jl nach der Methode der minimalen Quadrate be

stimmt, deren Eigenschaften hergeleitet, und im Anschluß daran geben wir einen

Schätzer für die Varianz 0-2 an. Für die Konstruktion von (exakten) Tests über ()

bzw. Jl benötigen wir (in 2.5-2.6) zusätzlich die Normalverteilungs-Annahme und

betrachten daher zuvor (in 2.4) das Klassische Lineare Modell (mit homogenen Va

rianzen), welches gegeben ist durch

(Klassisches Lineares ModelV.

Es zeigt sich dann, daß der bisherige Minimal-Quadrate-Schätzer für () bzw. Jl auch

der Maximum-Likelihood-Schätzer ist (für den Schätzer von 0-2 gilt dies nicht

exakt, aber zumindest asymptotisch).

Im Klassische Lineare Modell behandeln wir dann zunächst den t-Test für Nullhy

pothesen über eine Linearkombination cT () des Parameters () und anschließend den

F-Test für lineare Nullhypothesen über () bzw. Jl.

2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 3

2.1. Minimale-Quadrate-Schätzung

Wir wollen uns zuerst mit der Schätzung des Erwartungswerts p E & beschäftigen.

Da wir die Verteilungsklasse des Beobachtsvektors Y zunächst nicht vollständig

spezifizieren wollen (das erfolgt erst in 2.4), steht das Maximum-Likelihood-Ver-

fahren nicht zur Verfügung. Wir verwenden daher das Prinzip der Minimalen Qua-

drate, welches bereits von C. F. Gauß (1777-1855) für die Analyse astronomischer

Beobachtungsdaten eingesetzt wurde.

Die minimale Quadrate-Schätzung (kurz: MQ-Schätzung) für den Erwartungswert p ist

definiert als Minimalstelle fi von

bzgl. PE &. Mit der orthogonalen Projektion PA : IRJ J, & auf den linearen Teil-

raum & läßt sich diese Minimalstelle fi schreiben als

Eine

(4)

bzgl.

Abb. 1: Die Schätzung fi als orthogonale Projektion der Beobachtung Y

M&-Schätzung 4 für den Parameter B ist eine Minimalstelle von

SQ(XSIY) = I I Y - X B I I ~ .

e E IR', d.h. es gilt

2.1 Minimale-Quadrate-Schätzung 31.7.06 2-3

2.1. Minimale-Quadra te-Schätzung

Wir wollen uns zuerst mit der Schätzung des Erwartungswerts Jl E .At beschäftigen.

Da wir die Verteilungsklasse des Beobachtsvektors Y zunächst nicht vollständig

spezifizieren wollen (das erfolgt erst in 2.4), steht das Maximum-Likelihood-Ver

fahren nicht zur Verfügung. Wir verwenden daher das Prinzip der Minimalen Qua

drate) welches bereits von C. F. Gauß (1777-1855) für die Analyse astronomischer

Beobachtungsdaten eingesetzt wurde.

Die minimale Quadrate-Schätzung (kurz: MQ-Schätzung) für den Erwartungswert Jl ist

definiert als Minimalstelle fi, von

(2)

bzgl. JlE.At. Mit der orthogonalen Projektion P c4: IR] -----+ .At auf den linearen Teil

raum .At läßt sich diese Minimalstelle fi, schreiben als

Y Y-fi,

.. vi(

Abb. 1: Die Schätzung fi, als orthogonale Projektion der Beobachtung Y.

Eine MQ-Schätzung () für den Parameter () ist eine Minimalstelle von

(4) SQ(X()IY) = IIY-X()11 2.

bzgl. () E IRS, d.h. es gilt

(5) 4 = X().


Zur Bestimmung von 8 setzen wir zunächst die Rangbedingung voraus

(RB) Rang(X) = S (Rang bedingung) .

T Dann ist X X eine nichtsinguläre SxS Matrix und die Matrix

ist eine Linksinverse von X, d.h. es gilt

(7) X-X = n,. Folglich ist die Parameterschätzung 8 durch fi eindeutig bestimmt:

(8) 8 = xg mit 1 T X- = (xTx)- X .

Zur expliziten Berechnung von 8 setzen wir die Ableitung von SQ(X0I Y) nach 0

gleich Null und erhalten die Normalen-Gleichung für 8

(9) (xTx)8=xTy (Normalen-Gleichung) .

Die MQ-Schätzungen ergeben sich dann explizit

(10) 8 = $Y) = X-Y ,

(11) fi = fi(Y) = X X - Y mit T -1 T X - = ( X X) X .

Für die orthogonale Projektion P, auf den linearen Raum .L& erhält man folgende

Darstellung als J x J Matrix

(12) T -1 T P , = X X = X ( X X) X .

Allgemein gilt für eine beliebige Matrix B, deren Spalten eine Basis von .L& sind

(13) T -1 T P, = B(B B) B .

Folglich kann fi = P,Y unter Verwendung einer beliebigen Basis von .L& bestimmt

werden, und der Parameter 8 ergibt sich aus (5) und ist unter der Rangbedingung

(RB) eindeutig bestimmt.

Falls die Rangbedingung (RB) nicht gilt, so besitzt die Normalengleichung keine

eindeutige Lösung 8, aber jede Lösung 8 ist eine MQ-Schätzung für 0 und (5) liefert


Zur Bestimmung von () setzen wir zunächst die Rangbedingung voraus


Dann ist X T X eine nichtsinguläre SxS Matrix und die Matrix

ist eine Linksinverse von X, d.h. es gilt

Folglich ist die Parameterschätzung () durch (i, eindeutig bestimmt:

(8) mit

Zur expliziten Berechnung von () setzen wir die Ableitung von SQ(XO I Y) nach 0

gleich Null und erhalten die Normalen-Gleichung für ()

(9)

Die MQ-Schätzungen ergeben sich dann explizit

(10)

(11)

()(Y)

mit

(Normalen-Gleichung) .

Für die orthogonale Projektion P c4 auf den linearen Raum .At erhält man folgende

Darstellung als lxl Matrix

Allgemein gilt für eine beliebige Matrix B, deren Spalten eine Basis von .At sind

Folglich kann (i, = P c4 Y unter Verwendung einer beliebigen Basis von .At bestimmt

werden, und der Parameter () ergibt sich aus (5) und ist unter der Rangbedingung

(RB) eindeutig bestimmt.

Falls die Rangbedingung (RB) nicht gilt, so besitzt die Normalengleichung keine

eindeutige Lösung (), aber jede Lösung () ist eine MQ-Schätzung für 0 und (5) liefert


die (eindeutige) MQ-Schätzung fi = XB für den Erwartungswert p. Unter Verwen- T - T dung einer beliebigen verallgemeinerten Inversen (X X) von (X X) ergibt sich die

orthogonale Projektion zu:

(14) PA = X ( X ~ X ) xT wobei (xTx) . (X T X) - . (xTx) = (xTx).

Hierbei ist eine verallgemeinerte oder generalisierte Inverse (kurz: g-Inverse) einer IxJ

Matrix A definiert als eine beliebige J x I Matrix A- mit AA-A = A. Jede Matrix A

besitzt mindestens eine verallgemeinerte Inverse. Falls A eine Inverse, oder eine

Links- oder Rechts-Inverse besitzt, so ist diese stets auch eine g-Inverse. Speziell ist

die Linksinverse X- aus (6) auch eine g-Inverse von X.

Die MQ-Schätzung für den Erwartungswert p besitzt dann die Darstellung

T - T (15) fi = X(X X) X Y

und eine MQ-Schätzung für den Parameter 8 ist:

T - T (16) B = ( x X) X Y.

Die orthogonale Projektion ist symmetrisch und idempotent

2.1.1 Lineare Regression mit einer Variablen

Für S= 2 sei X. = 1 eine konstante (formale) Covariable und X. = X. eine beobachtete 31 32 3

Covariable. Dann beschreibt (LM) das lineare Regressionsmodell in einer Variablen X

(I> p . = E(Y.) = Bl+B X. für alle j. 3 3 2 3

Die Modell-Matrix X besteht aus zwei Spalten

(2) X = (e+ , X) mit


die (eindeutige) MQ-Schätzung (i, = XO für den Erwartungswert J-L. Unter Verwen

dung einer beliebigen verallgemeinerten Inversen (XT Xr von (XT X) ergibt sich die

orthogonale Projektion zu:

(14) wobei

Hierbei ist eine verallgemeinerte oder generalisierte Inverse (kurz: g-Inverse) einer Ixl

Matrix A definiert als eine beliebige lxI Matrix A - mit AA - A = A. Jede Matrix A

besitzt mindestens eine verallgemeinerte Inverse. Falls A eine Inverse, oder eine

Links- oder Rechts-Inverse besitzt, so ist diese stets auch eine g-Inverse. Speziell ist

die Linksinverse X- aus (6) auch eine g-Inverse von X.

Die MQ-Schätzung für den Erwartungswert J-L besitzt dann die Darstellung

und eine MQ-Schätzung für den Parameter () ist:

Die orthogonale Projektion ist symmetrisch und idempotent

(17)

(18)

T Pc4 = Pc4

Pc4

.Pc4

= Pc4

(Symmetrie),

(Idem potenz).


Für S = 2 sei x·1

= 1 eine konstante ( formale) Covariable und x.2

= x. eine beobachtete J J J

Covariable. Dann beschreibt (LM) das lineare Regressionsmodell in einer Variablen x

(1) J-L. = E(Y.) = ()1 + ()2x . J J J

für alle j.

Die Modell-Matrix X besteht aus zwei Spalten

(2)

(3)

X=(e+,x) mit

J J x = (x1

, ... ,xJ) EIR , e+ = (1, ... ,1) EIR .


J Allgemein bezeichnet e . E IR den j-ten Einheitsvektor mit den Komponenten 3

(4) e . = 6. 3h 3h (6 ist das Kronecker-Symbol),

und es ist

Die Rangbedingung RangX = 2 ist genau dann erfüllt, wenn nicht alle Covari-

ablenwerte X ..., X gleich sind. Der Raum 4 wird von e+ und X aufgespannt 1' J

Unter Verwendung der Bezeichnungen

(Summe der X- Werte),

(Summe der Y- Werte),

(9) - -1 1 X = J X = - E x .

t J j I (Mittelwert der X-Werte), -

(10) 1 1 Y = J - Y = J C Y . t (Mittelwert der Y-Werte),

(11) sxx = C (X.-q2 2 = C x . - ' ( ~ x . ) ~

j J j 3 J j 3

(12) SXY = C (X.-z)(Y.-Y) 3 = CX.Y.-'(cx.)(cY~) j 3 3 J j 3 3 j 3

(13) S Y Y = C ( Y . - F ) ~ = CY: - ' ( cY. )~ j 3 3 J j s

läßt sich die MQ-Schätzung 8 = (Q1, Q2) explizit angeben:

SxY 1 (14) Q = - , 2 sxx

2.1.2 Polynomregression mit einer Variablen

Das Polynomregressionsmodell in einer Variablen X ergibt sich aus (LM) wenn für je- s -1 des s = 1 ,..., S gilt X . = X . bzw. wenn gilt

3s 3

(I) P . = 3 E(Y.) 3 = Q1 + Q x . + Q x2 + ... + QsxS-I für alle j.. 2 3 3 3

Die Modellmatrix X besteht aus den S Spalten

(2) 0 1 2 X = (X , X , X , ... , xs-l) mit

2.1 Minimale-Quadrate-Schätzung 31.7.06

Allgemein bezeichnet e. E lRJ den j-ten Einheitsvektor mit den Komponenten J

(4)

und es ist

(5) e+ = I; e .. . J J

(5 ist das Kronecker-Symbol),

2-6

Die Rangbedingung RangX 2 ist genau dann erfüllt, wenn nicht alle Covari

ablenwerte xl' ... , xJ

gleich sind. Der Raum.At wird von e+ und x aufgespannt

Unter Verwendung der Bezeichnungen

(7) T I;x. (Summe der x-Werte), x+ x e+ j J

(8) Y+ T I;Y. (Summe der Y-Werte), Y e+

J J

(9) - r 1 _ 1 (Mittelwert der x-Werte), x - J x.

J J

(10) Y J-1 y 1 Y. (Mittelwert der Y-Werte), + J J J

(11) Sxx ~ (xj-x)2 2 }(~x)2 I;x.

J j J J

(12) SxY - ~ (xj - x)(Yj - Y) I;xY. - } (I;x.)(I;Y.) . J J . J . J J J J J

(13) SYY = 'E (Y. y)2 'Ey~ l(I;Y.? . J J J j J J J

läßt sich die MQ-Schätzung e = (°1, 02) explizit angeben:

(14)

2.1.2 Polynomregression mit einer Variablen

Das Polynomregressionsmodell in einer Variablen x ergibt sich aus (LJ\1) wenn für je

des sI, ... , S gilt x. = x~-l bzw. wenn gilt JS J

(1) E( ) e e e 2 e 5-1 /-L.= Y. = 1 2x .+ 3 x . + ... + x

J J J J S

Die Modellmatrix X besteht aus den S Spalten

(2)

(3)

( 0 1 2 5-1) X- x,x1x, ... ,x

k (k k) J x - xl' ... , x J E lR ,

mit

für alle j ..

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2 - 7

2.2 Eigenschaften der Minimale-Quadrate-Schätzung

Es sollen jetzt diejenigen Eigenschaften der MQ-Schätzung fi = fi(Y) hergeleitet

werden, die keine weiteren Verteilungsannahmen über Y benötigen. Insbesondere

wird (im Gauß-Markov-Theorem) eine Optimalitätseigenschaft von fi(Y) gezeigt.

Zunächst ist die MQ-Schätzfunktion fi(Y) = PA Y eine lineare Funktion der Zielva-

riablen Y, und hieraus ergibt sich ihr Erwartungswert und ihre Covarianz-Matrix:

(1) ~(fi(Y)) = P, (fi ist erwartungstreu für ,U)

2 (2) cov(p (y ) )=D .PA

Falls die Rangbedingung (RB) gilt, so ist die Parameterschätzung 1 T ~ = B ( Y ) = (xTx)- X Y eindeutig definiert und ebenfalls eine lineare Funktion

von Y. Hieraus ergibt sich

(3) E ( ~ Y ) ) = 6, (B ist erwartungstreu für B)

(4) cov(B(y)) = D2 . (xTx)-'.

Neben dem Erwartungswert p sind auch dessen Linearkombinationen

(5) T

C p = C c p . mit j~

c ~ d

J von Interesse. Bezeichnet e . E IR den j-ten Einheitsvektor mit den Komponenten e. 3 3h

= 6. (6 ist das Kronecker-Symbol), so lassen sich z.B. einzelne Komponenten des 3h

Erwartungswerts p oder des Parameters B als Linearkombination darstellen

(6) T p . = e . p für j = 1, ..., J

3 3

(7) T T -1 T 8 . = e . B =(x(x X) ej) p für s = 1, ..., S.

3 3 T Und die Prognose des Erwartungswerts E(y(x0)) = xoB der Zielvariablen Y(xo)

S für einen „neuenn Covariablenwert X E IR ist auch eine Linearkombination von p 0

(8) x;e = ( X ( X ~ X ) - ~ ~ ~ ) ~ ~

T Die MQ-Schätzung einer (beliebigen) Linearkombination C p ist die entsprechende Li-

nearkombination der Schätzung fi

(9) T T

C p = c P Y . A

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2-7

2.2 Eigenschaften der Minimale-Quadra te-Schätzung

Es sollen jetzt diejenigen Eigenschaften der MQ-Schätzung 4 = 4(Y) hergeleitet

werden, die keine weiteren Verteilungsannahmen über Y benötigen. Insbesondere

wird (im Gauß-Markov-Theorem) eine Optimalitätseigenschaft von 4(Y) gezeigt.

Zunächst ist die MQ-Schätzfunktion 4(Y) = P c4 Y eine lineare Funktion der Zielva

riablen Y, und hieraus ergibt sich ihr Erwartungswert und ihre Covarianz-Matrix:

(1) E(4(Y)) = Jl, (4 ist erwartungstreu für Jl)

(2) Cov(4(Y)) = 0-2

. P uf{

Falls die Rangbedingung (RB) gilt, so ist die Parameterschätzung

0= O(Y) = (XTXr1X Ty eindeutig definiert und ebenfalls eine lineare Funktion

von Y. Hieraus ergibt sich

(3) E( O(Y)) = (), (0 ist erwartungstreu für ())

Neben dem Erwartungswert Jl sind auch dessen Linearkombinationen

(5) cT

Jl = ~ CjJ.Lj mit cE IR] ]

von Interesse. Bezeichnet e. E IR] den j-ten Einheitsvektor mit den Komponenten e.k ] ]

= 6jk (6 ist das Kronecker-Symbol), so lassen sich z.B. einzelne Komponenten des

Erwartungswerts Jl oder des Parameters () als Linearkombination darstellen

(6)

(7)

T J.L.=e.Jl

] ]

T (( T )-1 )T (). = e. () = X X X e. Jl ] ] ]

für j = 1, ... , J

für s = 1, ... , S.

Und die Prognose des Erwartungswerts E(Y(xo)) = x~() der Zielvariablen Y(xo)

für einen "neuen" Covariablenwert X o E IRS ist auch eine Linearkombination von Jl

Die MQ-Schätzung einer (beliebigen) Linearkombination cT Jl ist die entsprechende Li

nearkombination der Schätzung 4

(9) TA Tp Y cJl=C c4.

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2 - 8

T Diese Schätzung ist auch linear i n Y und somit erwartungstreu für C p

und ihre Varianz ist

W i r wollen jetzt zeigen, d a ß der MQ-Schätzer der beste Schätzer i n einer gewissen

Klasse v o n erwartungstreuen Schätzern ist. Hierzu definieren wir zunächst, w a n n

ein erwartungstreuer Schätzer besser ist als ein anderer.

Definition: Sind fil(Y) und fil'(Y) zwei erwartungstreue Schätzer für p, d.h.

E k f i l ( Y ) ) = El"(fil '(Y)) = P für alle p E A,

so heij't fil(Y) besser als fil'(Y), wenn die Varianz jeder Linearkombination von

fil(Y) ist nicht gröj'er als die der entsprechenden Linearkombination von fil'(Y),

d.h. wenn für alle p E A gilt

(12) TA''

V a r ( c T f i ' ( y ) ) < ~ a r k c p (Y)) für alle C E R J , bzw. P

T T C . ~ o v k f i ' ( ~ ) ) . C < C . ~ o v k f i " ( ~ ) ) . C für alle C E IR J , bzw.

c0vkfi1(y)) < c o v k f i " ( y ) ) ,

wobei die letzte Formulierung eine ablcürzende Schreibweise bzw. die Definition einer

Ordnung für positiv-semidefinite Matrizen ist. Der Index p in E etc. soll an die P

Abhängigkeit des jeweiliegen Wertes von p erinnern.

W i r zeigen jetzt, d a ß der MQ-Schätzer fi(Y) unter allen i n Y linearen und erwar-

tungstreuen Schätzern für p der beste Schätzer. Oder i n englisch: der MQ-Schätzer ist

ein Best Linear Unbiased Estimator (abgekürzt: BLUE):

Gau$-Markou-Theorem: Der MQ-SchätzeKr fi(Y) ist besser als jeder andere

Schätzer fi"(Y), der in Y linear, d.h. von der Form

(13) fil'(Y)=AY mit einer JxJ-Matrix A,

und erwartungstreu für p ist, d.h.

(14) ~ I " ( f i " ( ~ ) ) = p f ü r j e d e s p ~ A .

Ist umgekehrt auch fi"(Y) besser als fi(Y), so ist fil'(Y) bereits der MQ-Schätzer,

d.h. es gilt fil'(Y) =f i . (Y) .

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2-8

Diese Schätzung ist auch linear in Y und somit erwartungstreu für cT Jl

und ihre Varianz ist

Wir wollen jetzt zeigen, daß der MQ-Schätzer der beste Schätzer in einer gewissen

Klasse von erwartungstreuen Schätzern ist. Hierzu definieren wir zunächst, wann

ein erwartungstreuer Schätzer besser ist als ein anderer.

Definition: Sind fi,'(Y) und fi,"(Y) zwei erwartungstreue Schätzer für Jl, d.h.

E (fi,'(Y)) = E (fi,"(Y)) = Jl JL JL

für alle Jl E ~

so heißt fi,'(Y) besser als fi,"(Y), wenn die Varianz jeder Linearkombination von

fi,'(Y) ist nicht größer als die der entsprechenden Linearkombination von fi,"(Y),

d.h. wenn für alle Jl E .At gilt

(12) Var)cTfi,'(Y)) < VarJL(cTfi,"(Y))

cT. Cov JL(fi,'(Y)). c < cT. Cov JL(fi,"(Y)). c

Cov JL(fi,'(Y)) < Cov JL(fi,"(Y)),

für alle cE IRJ ,

für alle cE IRJ,

bzw.

bzw.

wobei die letzte Formulierung eine abkürzende Schreibweise bzw. die Definition einer

Ordnung für positiv-semidefinite Matrizen ist. Der Index Jl in E etc. soll an die fL

Abhängigkeit des jeweiliegen Wertes von Jl erinnern.

Wir zeigen jetzt, daß der MQ-Schätzer fi,(Y) unter allen in Y linearen und erwar

tungstreuen Schätzern für Jl der beste Schätzer. Oder in englisch: der MQ-Schätzer ist

ein Best Linear Unbiased Estimator (abgekürzt: BLUE):

Gauß-Markov-Theorem: Der MQ-SchätzeKr fi,(Y) ist besser als jeder andere

Schätzer fi,"(Y), der in Y linear, d.h. von der Form

(13) fi,"(Y) = A Y mit einer lxl-Matrix A,

und erwartungstreu für Jl ist, d.h.

(14) E (fi," (Y)) = Jl JL

für jedes Jl E.At.

Ist umgekehrt auch fi,"(Y) besser als fi,(Y), so ist fi,"(Y) bereits der MQ-Schätzer,

d.h. es gilt fi,"(Y) =fi,.(Y).

2.3 Residuen und Schätzung der Varianz 31.7.06 2 - 9

2.3 Residuen und Schätzung der Varianz

Nachdem wir bisher nur den Erwartungswert ,U bzw. den Parameter 8 geschätzt ha-

ben, wollen wir uns jetzt der Schätzung der Varianz o2 zuwenden. Den Ausgang-

spunkt der Betrachtungen bildet hierfür die Abweichung der Beobachtung Y vom

geschätzten Erwartungswert fi, der sogenannte Residuenvektor

(I> R = Y - f i = P Al ly (Residuum).

Hierbei bezeichnet AL das orthogonale Komplement des linearen Modellraums A,

und PA, = II - PA ist die orthogonale Projektion auf AL. J

Das Minimum der quadratischen Form SQ(- I Y) auf A läßt sich unterschiedlich

darstellen und wird auch als Deviance (Abweichung, kurz: Dev) oder Residual Sum of

Squares (RSS) für das Modell A bezeichnet:

(2) Dev(A) = 1 1 ~ - f i 1 1 ~ = C(Y.-fi.) 2 (Deviance von 4, j J J

= 1 1 ~ 1 1 ~ T = Y .PAll.Y,

= 1 1 ~ 1 1 ~ - llfi112

= R S S ( 4 (Residual Sum of Squares).

Abb. 2: Darstel luq von Ekobachiuq Y, Erwartuqswert p, Schatzuq fiund Residuum R =Y- fi

2.3 Residuen und Schätzung der Varianz 31.7.06 2-9

2.3 Residuen und Schätzung der Varianz

Nachdem wir bisher nur den Erwartungswert Jl bzw. den Parameter () geschätzt ha

ben, wollen wir uns jetzt der Schätzung der Varianz 0-2 zuwenden. Den Ausgang

spunkt der Betrachtungen bildet hierfür die Abweichung der Beobachtung Y vom

geschätzten Erwartungswert 4, der sogenannte Residuenvektor

(1) R=Y-4=Pc4~Y (Residuum) .

Hierbei bezeichnet .At~ das orthogonale Komplement des linearen Modellraums .At,

und P c4 ~ = 11 J- P c4 ist die orthogonale Projektion auf .At~

Das Minimum der quadratischen Form SQ(-I Y) auf .At läßt sich unterschiedlich

darstellen und wird auch als Deviance (Abweichung) kurz: Dev) oder Residual Sum of

Squares (RSS) für das Modell .At bezeichnet:

(2) Dev(.At) = 11 Y - 4112

=IIRI1 2

= IIY11 2 -11411 2

= RSS(.At)

(Deviance von u«))

(Residual Sum of Squares).

.. : . : . : . : . : . : . : . : 0 ~: .. ":"~":" .~ .. ~ ... ~ .. ~ ... ~ ... ~ .. JL~ . .. ~ .. ~ ... ~ ... ~ ... ~ .......... .

""" ".;«"""""""""""""""""""":""""""""""""""""""""""""""""""""""""""""

..................................

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3 Residuen und Schätzung der Varianz 31.7.06 2- 10

Da das Residuum R = Y - E AL orthogonal zur Differenz P-,U E A ist, ergibt

sich (mit dem ,,Pythagoras'? folgende wichtige Zerlegung

(3) S Q ( , U I Y ) = D ~ V ( ~ + I I P - P I I ~ bzw.

1 1 Y-P 1 1 2 = 1 1 Y-P 1 1 2 + IIP-P112 .

Es ist intuitiv naheliegend die Varianz a2 unter Verwendung der Abweichung

1 1 Y-P 1 1 2 ZU schätzen. Hierzu wollen wir die Erwartungswerte der quadratischen

Formen in (3) bestimmen und zeigen zuerst das folgende Resultat.

Theorem 1 (Erwartungswerte quadratischer Formen)

Sei U ein I-dimensionaler Zufallsvektor für den E(U) und Cov(U) existieren, und T A sei eine symmetrische 1x1-Matrix. Dann hat die quadratische Form U A U den

Erwartungswert

(4) E( u T A U) = spur(A . COV(U)) + E(U) T . ~ .E(U) , wobei ,,Spur" bezeichnet den Spur-Operator für quadratische Matrizen bezeichnet.

Weiter benutzen wir, daß bei einer orthogonaler Projektion die Spur gleich dem

Rang und somit gleich der Dimension des Bildraumes ist:

(5> Spur(PA) = Rang(PA) = Dim (.L&').

Mit diesen Vorbereitungen ergeben sich folgende Erwartungswerte

(6) 2

~(lly-,Ull~) = 0 . J ,

(7> E(llfi-,~11~) = a 2 . ~ i m ( & ) ,

[SI ~ ( ~ ~ Y - f i l l ~ ) = E ( ~ e v ( 4 ) = a 2 . F ~ mit

(9> FG = F G ( A ) = ~ i r n ( A ' ) (Freiheitsgrad des Modells A)

= J- Dim(.,$Z).

Wir definieren daher die MQ-Schätzung für a2 durch

2.3 Residuen und Schätzung der Varianz 31.7.06 2-10

Da das Residuum R = Y - (1, E.At~ orthogonal zur Differenz (1,- Jl E.At ist, ergibt

sich (mit dem ,'pythagoras") folgende wichtige Zerlegung

(3) SQ(JlIY) = Dev(.At) + 11(1,-JlI12

IIY-JlI12

= IIY-(1,112+ 11(1,-JlI1

2.

bzw.

Es ist intuitiv naheliegend die Varianz 0-2 unter Verwendung der Abweichung

11 Y - (1, 11 2 zu schätzen. Hierzu wollen wir die Erwartungswerte der quadratischen

Formen in (3) bestimmen und zeigen zuerst das folgende Resultat.

Theorem 1 (Erwartungswerte quadratischer Formen)

Sei U ein I-dimensionaler Zufallsvektor für den E(U) und Cov(U) existieren) und

A sei eine symmetrische lxI-Matrix. Dann hat die quadratische Form U T AU den

Erwartungswert

(4) E(UT AU) = Spur(A. Cov(U)) + E(U)T. A ·E(U) )

wobei )ßpur!! bezeichnet den Spur-Operator für quadratische Matrizen bezeichnet.

Weiter benutzen wir, daß bei einer orthogonaler Projektion die Spur gleich dem

Rang und somit gleich der Dimension des Bildraumes ist:

(5) Spur(P c4) = Rang(P c4) = Dirn (.At).

Mit diesen Vorbereitungen ergeben sich folgende Erwartungswerte

E(IIY - Jl11 2) = 0-2. J ,

E( 11(1,- Jl112

) = 0-2

. Dim(Jt) ,

E( 11 Y - (1, 112

) = E( Dev(.At)) = 0-2

. FG mit

(6)

(7)

(8)

(9) FG = FG(.At) = Dim(.At~) (Freiheitsgrad des Modells .At)

= J - Dim(.At).

Wir definieren daher die MQ-Schätzung für 0-2 durch

(10) Dev(.At)

FG(.At)


die allerdings nur dann wohldefiniert ist, wenn die Dimension des Modells & echt

kleiner ist als die Anzahl J der Beobachtungen ist , d.h. wenn gilt

(11> Dirn(&) < J bzw. FG(&) = Dirn(&') > 0

Im Fall D i m ( 4 =J ist fi = Y (weil dann &= IRJ ist) und somit sind Zähler und

Nenner in (10) gleich 0, d.h. 8 ist undefiniert. Wir wollen daher Dirn(&) <J bzw.

&S IRJ immer dann (implizit) voraussetzen, wenn wir die Varianzschätzung 8

verwenden. Man beachte, daß unter der (hier nicht vorausgesetzten) Rangbedingung

stets Dim(~d!) = S gilt. Unter (11) ist die Schätzung 8 ist erwartungstreu

Bevor wir die Varianz der Schätzung 8 2 ( ~ ) bestimmen, notieren wir noch einige

Eigenschaften des Residuums. Der Erwartungsvektor des Residuums ist der Null-

vektor

und die Covarianzmatrix des Residuenvektors lautet

Ferner sind das Residuum R und die Schätzung fi unkorreliert zueinander, d.h. es

gilt

Zur Bestimmung der Varianz der Schätzung 82 verwenden wir folgendes Theorem

aus Seber (1977, Thm. 1.8), das wir hier nicht beweisen wollen.

2.3 Residuen und Schätzung der Varianz 31.7.06 2 -11

die allerdings nur dann wohldefiniert ist, wenn die Dimension des Modells vft echt

kleiner ist als die Anzahl J der Beobachtungen ist, d.h. wenn gilt

(11) Dim(vft) < J bzw. FG(vft) = Dim(vft~) > 0 .

Im Fall Dim(vft) = J ist (i, = Y (weil dann vft = IR] ist) und somit sind Zähler und

Nenner in (10) gleich 0, d.h. 5 ist undefiniert. Wir wollen daher Dim(vft) <J bzw.

vft:;= IR] immer dann (implizit) voraussetzen, wenn wir die Varianzschätzung 5

verwenden. Man beachte, daß unter der (hier nicht vorausgesetzten) Rangbedingung

stets Dim(Jt) =S gilt. Unter (11) ist die Schätzung 5 ist erwartungstreu

Bevor wir die Varianz der Schätzung 52(y) bestimmen, notieren wir noch einige

Eigenschaften des Residuums. Der Erwartungsvektor des Residuums ist der Null

vektor

(13) E(R) = 0,

und die Covarianzmatrix des Residuenvektors lautet

Ferner sind das Residuum R und die Schätzung (i, unkorreliert zueinander, d.h. es

gilt

(15) Cov( R, (i,) = 0 .

Zur Bestimmung der Varianz der Schätzung 52 verwenden wir folgendes Theorem

aus Seber (1977, Thm. 1.8), das wir hier nicht beweisen wollen.


Theorem 2 (Varianzen quadratischer Formen)

Sei U = (Ul, ..., UI) ein I-dimensionaler Vektor unabhängiger Zufallsvariablen

U1, ..., UI mit Erwartungswert X = E(U) und gemeinsamen zentralen Momenten

(16) m k = E{[u.-x.]S < oo für k = 2, 3, 4 und i = l , ..., I. 2 2

I Ist A eine symmetrische 1x1-Matrix mit der Diagonalen a = Diag(A) E IR , so gilt:

T (17) Var {U AU} =

T (m4-3mf)~~a112 + 2 m f s p u r ( ~ % ) + 4 m 2 ~ ~ ~ X 1 1 2 + 4 m 3 a AX..

Für die Anwendung des Theorems auf U = Y und A = PA, benötigen wir zusätz-

lich zur Homogenität (HVar) der Varianzen auch die Homogenität der zentralen Mo-

mente bis zur 4. Ordnung:

(HMom4) Y1, ..., YJ haben gleiche zentrale Momente 3. und 4. Ordnung: k

pk:=E{[Yj-131 } < CO für k = 3, 4 und j = 1, ..., J

(Homogenität der zentralen Momente 3. und 4. Ordnung).

Wir wollen diese Bedingung jedoch nicht generell voraussetzen, sondern sie nur bei

Bedarf explizit erwähnen. Nach diesen Vorbereitungen ergibt sich

(18) V - } =

4 2 4 2 T (p4-30 ) 11all + 2 0 Dirn(&') + 402 11~~~1.4 + 4p3 a PA,p

mit a = Di%(PA,), falls (HMom4) gilt.

Man beachte, daß dieses Resultat auch dann gilt, wenn das Modell &nicht korrekt

spezifiziert ist, d.h. auch für pSf &. Wenn jedoch P E & gilt, so verschwinden die

beiden letzten Summanden in (18).

Die Varianz der Schätzung 8 2 ( ~ ) ergibt sich dann mit (18) und

2.3 Residuen und Schätzung der Varianz 31.7.06 2 -12

Theorem 2 (Varianzen quadratischer Formen)

Sei U = (U1, ... , U

1) ein I-dimensionaler Vektor unabhängiger Zujallsvariablen

U1, ... , U

1 mit Erwartungswert >. = E(U) und gemeinsamen zentralen Momenten

(16) mk = E{[U.- >. .l'J. < 00 jür k = 2, 3, 4 und i = 1 , ... ,1. z z

Ist A eine symmetrische lxI-Matrix mit der Diagonalen a = Diag( A) E IRI) so gilt:

(17) Var{UTA U} =

(m4-3m;)llaI12 + 2m;Spur(A2) + 4m211A>'112 + 4m3 a

TA>. ..

Für die Anwendung des Theorems auf U = Y und A = P c4...L benötigen wir zusätz

lich zur Homogenität (HVar) der Varianzen auch die Homogenität der zentralen Mo

mente bis zur 4. Ordnung:

(HMom4) Y1, ... , Y

J haben gleiche zentrale Momente 3. und 4. Ordnung:

J-Lk := E{[Y.- J-L·lk } < 00 für k = 3,4 undj = 1, ... ,l

J J (Homogenität der zentralen Momente 3. und 4. Ordnung).

Wir wollen diese Bedingung jedoch nicht generell voraussetzen, sondern sie nur bei

Bedarf explizit erwähnen. Nach diesen Vorbereitungen ergibt sich

(18) Var{IIY-4112} =

(J-L 4 -30"4) 11 al12 + 20"

4 Dim(...4~) + 40"2

11 P c4...LJ-L 112 + 4J-L3 a Tp c4...L J-L

mit a = Diag(Pc4...L), falls (HMom4) gilt.

Man beachte, daß dieses Resultat auch dann gilt, wenn das Modell ...4 nicht korrekt

spezifiziert ist, d.h. auch für J-L t/:..At. Wenn jedoch J-L E...4 gilt, so verschwinden die

beiden letzten Summanden in (18).

Die Varianz der Schätzung a2(y) ergibt sich dann mit (18) und

(19)

2.4 Das klassische lineare Modell 31.7.06 2- 13

2.4 Das klassische lineare Modell

Bisher haben wir keine expliziten Verteilungsannahmen über den Beobachtungsvek-

tor Y vereinbart, sondern nur seinen Erwartungsvektor ,u=E(Y) durch (LM) und

seine Covarianzmatrix Cov(Y) durch die Gauß-Markov-Covarianzstruktur (GMC)

modelliert. Für den Rest dieses Kapitels wollen wir zusätzlich voraussetzen, daß die

Y multivariat normalverteilt ist:

(NVY) Y ist J-dimensional normalverteilt:

-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y').

Das bisherige Gauß-Markov-Modell zusammen mit dieser Normalverteilungsan-

nahme wird das Klassische Lineare Modell (kurz: KLM) genannt. Der deterministi-

sche Teil des klassischen linearen Modells beschreibt also die Modellierung des Er-

wartungswerts durch das lineare Modell (LM), und der stochastische Teil ist gege-

ben durch die Gauß-Markov-Covarianzstruktur (GMC) und die Normalverteilung-

sannahme (NVY), die man äquivalent zusammenfassen kann zu

(SKLM) 2(Y) = NJ(,u,02nJ) (Stochastischer Teil des KLhl).

Man beachte, daß unter der Normalverteilungsannahme (NVY) die Komponenten

Y1, ..., YJ genau dann stochastisch unabhängig sind, wenn sie paarweise unkorreliert

sind, d.h. die Bedingungen (UnAb) ist äquivalent zu (UnKor), falls (NVY) gilt.

Folglich sind im klassischen linearen Modell die Beobachtungen stets voneinander

unabhängig, d.h. (UnAb) gilt.

Die Einschränkung auf das klassische lineare Modell hat zu Folge, daß wir jetzt

auch die Verteilungen der M&-Schätzer angeben können. Die Schätzungen fi und 8 sowie das Residuum R sind als lineare Funktionen der normalverteilten Beobach-

tung Y ebenfalls wieder normalverteilt:

(1) 4fi) = ~ J ( , u , o ~ p ~ ) ,

(2) 4 8 ) = NSB, o2 (xTx)-') falls (RB) gilt,

2 (3) J (R)=NJ(o ,o PA,) mit R=Y-fi .

2.4 Das klassische lineare Modell 31.7.06 2-13

2.4 Das klassische lineare Modell

Bisher haben wir keine expliziten Verteilungsannahmen über den Beobachtungsvek

tor Y vereinbart, sondern nur seinen Erwartungsvektor Jl=E(Y) durch (LM) und

seine Covarianzmatrix Cov(Y) durch die Gauß-Markov-Covarianzstruktur (GMC)

modelliert. Für den Rest dieses Kapitels wollen wir zusätzlich voraussetzen, daß die

Y multivariat normalverteilt ist:

(NVY) Y ist i-dimensional normalverteilt:

L(Y) = NJ

( E(Y) , Cov(Y)) (Normalverteilung von Y).

Das bisherige Gauß-Markov-Modell zusammen mit dieser Normalverteilungsan

nahme wird das Klassische Lineare Modell (kurz: KLM) genannt. Der deterministi

sche Teil des klassischen linearen Modells beschreibt also die Modellierung des Er

wartungswerts durch das lineare Modell (LM), und der stochastische Teil ist gege

ben durch die Gauß-Markov-Covarianzstruktur (GMC) und die Normalverteilung

sannahme (NVY), die man äquivalent zusammenfassen kann zu

(SKLM) L(Y) = N jJl, a 2 11) (Stochastischer Teil des KLM).

Man beachte, daß unter der Normalverteilungsannahme (NVY) die Komponenten

Y1, ... , Y

J genau dann stochastisch unabhängig sind, wenn sie paarweise unkorreliert

sind, d.h. die Bedingungen (UnAb) ist äquivalent zu (UnKor), falls (NVY) gilt.

Folglich sind im klassischen linearen Modell die Beobachtungen stets voneinander

unabhängig, d.h. (UnAb) gilt.

Die Einschränkung auf das klassische lineare Modell hat zu Folge, daß wir jetzt

auch die Verteilungen der MQ-Schätzer angeben können. Die Schätzungen {1, und ()

sowie das Residuum R sind als lineare Funktionen der normalverteilten Beobach

tung Y ebenfalls wieder normalverteilt:

(1)

(2)

(3)

L({1,) = N jJl, a2 P.At) ,

L(()) = Njß,a2(XT Xf1)

L(R) =NjO,a2p.At~)

falls (RB) gilt,

mit R = Y -(1, .

2.4 Das klassische lineare Modell 31.7.06 2- 14

2 Für die Deviance bzw. die Schätzung 82 ergibt sich eine umskalierte X -Verteilung

(4) 1 ~ e v ( j l ~ ) = $ 1 1 ~ - f i 1 1 ~ ist xFU-verteilt 2 bzw. D2

FG . 82 = Dev (A) ist a2 .X2 verteilt mit FG-

FG = FG(A) = D i m ( A L ) = J- Dirn(&)

Aus der Unkorreliertheit von Schätzung fi und Residuum R, vgl. 2.3(15), folgt im

klassischen linearen Modell sogar deren stochastzsche Unabhängzlcezt:

(5) fi ist von R - und somit auch von 82 - stochastisch unabhängig.

Man beachte, daß die Schätzungen fi und 82 zwar stochastisch unabhängig sind, aber

dennoch beide funktional von der Beobachtung Y abhängen. Die stochastische

Unabhängigkeit von fi und 82 ist ein zentrales Resultat im klassischen linearen

Modell, aus dem sich später (in 2.5-6) relativ einfach die Verteilungen von Teststa-

tistiken herleiten lassen.

Da im klassischen linearen Modell die Verteilung der Beobachtung Y bis auf die 2 unbekannten Parameter ,U und a vollständig spezifiziert ist, kann (und sollte) man

die Parameter nach der Maximum-Likelihood-Methode schätzen, weil dieses Verfah-

ren in mehrerer Hinsicht optimal ist. Ausgangspunkt ist hierbei das sogenannte Li-

kelihood, d.h. die Dichte der Beobachtung Y, aufgefaßt als eine Funktion der unbe-

kannten Parameter:

2 Die Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) f i , 62 von ,U, a ist definiert

als Maximalstelle des Likelihoods L(,u, a2 IY) bzw. des Kerns des Log-Likelihoods

bzgl. ,U EA und a2> 0.

2 Die Maximierung von [ bzgl. ,U entspricht (unabhängig von a ) genau der Minimie-

rung von llY-,~11~, und folglich stimmt die ML-Schätzung des Erwartungswert ,U

mit der MQ-Schätzung überein:

2.4 Das klassische lineare Modell 31.7.06 2-14

Für die Deviance bzw. die Schätzung 0-2 ergibt sich eine umskalierte X2 -Verteilung

(4) ist X~G-verteilt bzw.

. 2 2 ·1 1st 17 . xFG

-vertel t mit

FG = FG(vft) = Dim(vft~) = J - Dim(vft)

Aus der Unkorreliertheit von Schätzung (i, und Residuum R, vgl. 2.3(15), folgt im

klassischen linearen Modell sogar deren stochastische Unabhängikeit:

(5) (i, ist von R - und somit auch von 0-2 - stochastisch unabhängig.

Man beachte, daß die Schätzungen (i, und 0-2 zwar stochastisch unabhängig sind, aber

dennoch beide funktional von der Beobachtung Y abhängen. Die stochastische

Unabhängigkeit von (i, und 0-2 ist ein zentrales Resultat im klassischen linearen

Modell, aus dem sich später (in 2.5-6) relativ einfach die Verteilungen von Teststa

tistiken herleiten lassen.

Da im klassischen linearen Modell die Verteilung der Beobachtung Y bis auf die

unbekannten Parameter Jl und 172 vollständig spezifiziert ist, kann (und sollte) man

die Parameter nach der Maximum-Likelihood-Methode schätzen, weil dieses Verfah

ren in mehrerer Hinsicht optimal ist. Ausgangspunkt ist hierbei das sogenannte Li

kelihood, d.h. die Dichte der Beobachtung Y, aufgefaßt als eine Funktion der unbe

kannten Parameter:

(6)

Die Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) jJ, , 0-2 von Jl, 172 ist definiert

als Maximalstelle des Likelihoods L(Jl, 172 IY) bzw. des Kerns des Log-Likelihoods

(7) e(Jl, a21Y) = - ~ [J . log 172 + :JY -Jl11 2 ]

bzgl. JlEvft und 172>0.

Die Maximierung von e bzgl. Jl entspricht (unabhängig von (72

) genau der Minimie

rung von IIY - Jl11 2, und folglich stimmt die ML-Schätzung des Erwartungswert Jl

mit der MQ-Schätzung überein:

2.4 Das klassische lineare Modell 31.7.06 2 - 15

Aber die ML-Schätzung für die Varianz a2 (die man durch Differenzieren von 2 nach a erhält) unterscheidet sich von der MQ-Schätzung um einen Faktor < 1

(9) - 2 1 2 FG - 2 - 2 0 = JIIY-fiII = 7 . 0 < 0 .

Die ML-Schätzung 62 ist also nicht erwartungstreu für a2, und man kann die MQ-

Schätzung 82 als erzuartungstreue Korrektur der ML-Schätzung auffassen.

Die geometrisch motiviert Schätzmethode der Minimalen Quadrate für ,U erweist

sich also bei normalverteilten Beobachtungen als äquivalent zur Maximum-Likeli-

hood-Methode.

2.4 Das klassische lineare Modell 31.7.06 2 -15

Aber die ML-Schätzung für die Varianz a 2 (die man durch Differenzieren von e nach a 2 erhält) unterscheidet sich von der MQ-Schätzung um einen Faktor< 1

(9) ~ 2 _ 1 IIY -11 2 _ FG A2 < A2 a- J -Jl -T· a a.

Die ML-Schätzung 0-2 ist also nicht erwartungstreu für a 2, und man kann die MQ

Schätzung 0-2 als erwartungstreue Korrektur der ML-Schätzung auffassen.

Die geometrisch motiviert Schätzmethode der Minimalen Quadrate für Jl erweist

sich also bei normalverteilten Beobachtungen als äquivalent zur Maximum-Likeli

hood-Methode.

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 16

2.5 Tests für Linearkombinationen des Parameters

Nachdem wir die Verteilungen der MQ-Schätzungen bestimmt haben, sind wir jetzt

in der Lage, Hypothesen über den Parametervektor 8 zu testen. Da dies nur sinnvoll

ist, wenn der Parameter 8 eindeutig bestimmt ist, wollen wir in diesem Abschnitt

generell die Rangbedingung (RB) voraussetzen.

2.5.1 Testen einzelner Komponenten des Parameters

In konkreten Anwendungen sind die einzelnen Komponenten von 8 interpretierbare

Größen und für eine feste Komponente 1 < - s <S - sind Hypothesen über den zur Co-

variablenkomponente X gehörigen Parameter 8 von Interesse. Insbesondere inte- S S

ressiert hierbei, ob dieser Wert gleich Null ist (und somit die Covariable xs keinen

Einfluß auf den Erwartungswert der Zielvariablen hat), d.h man betrachtet das

Testproblem

Nullhypothese: I9 = 0 (Covariable X hat keinen Einflug) VS. S S

Alternative: I9 r 0 (Covariable X hat Einflug). S S

Etwas allgemeiner ist der Fall, daß man den Parameter Bs mit einem beliebigen fest

vorgegebenen Referenzwert $0 E IR vergleichen will mit den Hypothesen

(1) Nullhypothese H-: 8 = 8 VS. s so

Alternative Hz: I9 r BSo . S

Statt der zweiseitigen Alternative Hz können auch die einseitigen Alternativen von

Interesse sein mit den Hypothesen

(2) Nullhypothese H,: QS 5 Bs0 VS. Alternative H>: 5 > BSo , -

Nullhypothese H>: QS > BSo VS. Alternative H<: 5 < $0 . -

Zur Überprüfung dieser Hypothesen wird man zunächst die Schätzung von I9 be- S

trachten, d.h. die s-te Komponente ds der Parameter-Schätzung 8. Diese Schätzung

ist eindimensional normalverteilt

(3) 4 4 s = N1 (Ps, 0;) mit o2 s = o2 [(xTx)-l] ss und

T -1 T T -le [(X X) Iss = es (X X) s

T -1 s-tes Diagonalelement von (X X) .

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-16

2.5 Tests für Linearkombinationen des Parameters

Nachdem wir die Verteilungen der MQ-Schätzungen bestimmt haben, sind wir jetzt

in der Lage, Hypothesen über den Parametervektor () zu testen. Da dies nur sinnvoll

ist, wenn der Parameter () eindeutig bestimmt ist, wollen wir in diesem Abschnitt

generell die Rangbedingung (RB) voraussetzen.

2.5.1 Testen einzelner Komponenten des Parameters

In konkreten Anwendungen sind die einzelnen Komponenten von () interpretierbare

Größen und für eine feste Komponente 1 < s < S sind Hypothesen über den zur Co

variablenkomponente x gehörigen Parameter () von Interesse. Insbesondere inte-8 8

ressiert hierbei, ob dieser Wert gleich Null ist (und somit die Covariable x keinen 8

Einfluß auf den Erwartungswert der Zielvariablen hat), d.h man betrachtet das

Testproblem

Nullhypothese: () = 0 (Covariable x hat keinen Einfluß) vs. 8 8

Alternative: () ;= 0 (Covariable x hat Einfluß). 8 8

Etwas allgemeiner ist der Fall, daß man den Parameter () mit einem beliebigen fest 8

vorgegebenen Referenzwert () 80 E IR vergleichen will mit den Hypothesen

(1) vs. Alternative H : () ;= () 0 . :;z':: 8 8

Statt der zweiseitigen Alternative H können auch die einseitigen Alternativen von :;z'::

Interesse sein mit den Hypothesen

(2) Nullhypothese H<: ()8 < ()80

Nullhypothese H>: ()8 2:: ()80

vs.

vs. Alternative H <: () 8 < () 80 .

Zur Überprüfung dieser Hypothesen wird man zunächst die Schätzung von () be-8

trachten, d.h. die s-te Komponente B der Parameter-Schätzung B. Diese Schätzung 8

ist eindimensional normalverteilt

(3) A 2 L(() ) = N

1(() ,17 )

8 8 8 mit und

s-tes Diagonalelement von (X T X) -1.


4 ist stochastisch unabhängig von der Varianz-Schätzung 82. Es ist naheliegend, die S

standardisierte Abweichung der Schätzung dS vom Referenzwert Bso als Teststatistik

zu verwenden:

(4) T = 8s - O s 0 mit 82 s = 2 [(xTx)-l] SS'

6 s

Die Verteilung der Teststatistik ist eine nichtzentrale t-Verteilung

(5) J 0 1 = tFG(y) mit

Y = 8s - O s 0 und FG = F G ( A ) = J-S.

0 s

Die Nichtzentralität y ist ein Maß für die Abweichung von der Nullhypothese H-, die -

sich äquivalent schreiben läßt als H P : y = 0. Man beachte, daß sich y von T nur da- -

durch unterscheidet, daß es die wahren Parameter statt deren Schätzungen enthält.

Insbesondere ist die Teststatistik T unter der Nullhypothese H- daher @entral) -

tFG-verteilt. Da groj3e Werte von I T I eher für die zweiseitige Alternative Hz als für

die Nullhypothese H- sprechen, wird man H- zugunsten dieser Alternative ableh- - -

nen, wenn I T leinen kritischen Wert übersteigt. Dies führt auf folgenden Test:

(6) Zweiseitiger t-Test von H vs. H zum Niveau a: - f

Ablehnung von H- -

U I T l 2 t„,:7

U 2@, I T I ) < a. FG

Hierbei ist @ die Verteilungsfunktion der zentralen tFG-Verteilung. Für den be- ,FG

obachteten Testwert t (als Realisierung von T) wird die Wahrscheinlichkeit

L @ , (-ltl) = P{ lt„ I2 l t l ) FG

auch als zweiseitiger P-Wert oder zweiseitiges Signifikanzniveau des beobachteten Test-

werts t oder als P-Wert bzw. P-Level bezeichnet . Folglich lehnt der Test die Nullhy-

pothese ab, wenn das Signifikanzniveau der Beobachtung nicht größer ist als das

Testniveau a.

Durch analoge Überlegungen ergeben sich die einseitigen Tests:


e ist stochastisch unabhängig von der Varianz-Schätzung 52. Es ist naheliegend, die s

standardisierte Abweichung der Schätzung e vom Referenzwert e 0 als Teststatistik s s

zu verwenden:

(4) mit

Die Verteilung der Teststatistik ist eine nichtzentrale t-Verteilung

(5) mit

und FG = FG(vft) = J-5.

Die Nichtzentralität '"Y ist ein Maß für die Abweichung von der Nullhypothese H_, die

sich äquivalent schreiben läßt als H _: '"Y = o. Man beachte, daß sich '"Y von T nur da

durch unterscheidet, daß es die wahren Parameter statt deren Schätzungen enthält.

Insbesondere ist die Teststatistik T unter der Nullhypothese H_ daher (zentraV

tFG-verteilt. Da große Werte von I T I eher für die zweiseitige Alternative H:;zt. als für

die Nullhypothese H_ sprechen, wird man H_ zugunsten dieser Alternative ableh-- -

nen, wenn I T leinen kritischen Wert übersteigt. Dies führt auf folgenden Test:

(6) Zweiseitiger t-Test von H = vs. H:;zt. zum Niveau a:

Ablehnung von H_ ITI > tFG 9" , 2

2 Pt ( -I TI) < a. FG

Hierbei ist Pt die Verteilungsfunktion der zentralen tFG-Verteilung. Für den beFG

obachteten Testwert t (als Realisierung von T) wird die Wahrscheinlichkeit

2 Pt ( -I t I) = P { I t FG I > I tl } FG

auch als zweiseitiger P-Wert oder zweiseitiges SigniJikanzniveau des beobachteten Test

werts t oder als P-Wert bzw. P-Level bezeichnet. Folglich lehnt der Test die Nullhy

pothese ab, wenn das Signifikanzniveau der Beobachtung nicht größer ist als das

Testniveau a.

Durch analoge Überlegungen ergeben sich die einseitigen Tests:

2.5 Tes ts für Linearkombinationen des Parameters 31.7.06 2 - 18

(7) Einseitiger t-Test von H< vs. H> zum Niveau u: -

Ablehnung von H< U - T t ~ ~ , a

U m (-T) 5 C)L. t~~

(8) Einseitiger t-Test von H> vs. H< zum Niveau u: -

Ablehnung von H> U T <-tFGla , -

U ( T ) < u . FG

Für den beobachteten Testwert t wird die Wahrscheinlichkeit

G (Pt) = P { tFG > t ) ~ Z W . (t) = p { t F G < t ) t~~ t~~

wieder als einseitiges Signifikanzniveau des beobachteten Testwerts t oder als P-Wert

bzw. P-Level bezeichnet.

2 Unter Verwendung der Darstellung von tn = F als F-Verteilung (vgl. Exkurs V l1n

3.1) ergibt sich eine äquivalente Darstellung des zweiseitigen t-Tests als F-Test

(9) Zweiseitiger F-Test von H vs. H zum Niveau a: - f

Ablehnung von H- U 2 T Fi, FG, a.

einseitiger Test Testentscheidung für

zweiseitiger Test Testentscheidung für

0 t FG, a

Abb. 1: Dichte der Teststatistik T des t-Tests unter der Nullhypothese mit den Ableh- nungsbereichen des Tests.


(7) Einseitiger t-Test von H< vs. H> zum Niveau a:

Ablehnung von H<

P (-T) < a· tFG

(8) Einseitiger t-Test von H> vs. H< zum Niveau a:

Ablehnung von H>

Für den beobachteten Testwert t wird die Wahrscheinlichkeit

bzw.

wieder als einseitiges SigniJikanzniveau des beobachteten Testwerts t oder als P-Wert

bzw. P-Level bezeichnet.

Unter Verwendung der Darstellung von t2 = Fl

als F-Verteilung (vgl. Exkurs V n ,n

3.1) ergibt sich eine äquivalente Darstellung des zweiseitigen t-Tests als F-Test

(9) Zweiseitiger F-Test von H= vs. H:;z::. zum Niveau a:

Ablehnung von H_

einseitiger Test Testentscheidung für

zweiseitiger Test Testentscheidung für

H< H> H H H :;z::. = :;z::.

l-a Q

2 l-a

o tpG -tpG 0 0 +tpG 0 ,Q '2'2

Q

2

Abb. 1: Dichte der Teststatistik T des t-Tests unter der Nullhypothese mit den Ablehnungsbereichen des Tests.

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 19

Aus der Verteilung der Teststatistik T lassen sich auch Konfidenzgrenzen für die

Parameter-Komponente I9 herleiten. Die einseitige untere bzw. obere Konfidenzgrenzen S

für I9 zum Niveau ci! ergibt sich zu S

(10) 4 - A (untere Grenze) S

bzw. 4 + A (obere Grenze) S

mit ~ = a . t ~ ~ , a .

2.5.2 Testen von Linearkombinationen des Parameters

Als Verallgemeinerung der Hypothesen über eine einzelne Komponente des Para- T S metervektors B betrachten wir jetzt eine feste Linearkombination C B für C E R mit

C r 0, die wir mit einem fest vorgegeben Referenzwert c E R (etwa c = 0) verglei- 0 0

chen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme sind

T (1) Nullhypothese H-: C B = c VS. T

0 Alternative Hz: C B r co ,

T (2) Nullhypothese H<: C B 5 co VS. T Alternative H>: C B > co .

-

T T Das andere einseitige Testproblem H>: C B 5 co vs. H<: C B < co brauchen wir nicht -

extra zu behandeln, weil es sich aus (2) durch den Übergang von C auf - C ergibt.

Speziell mit C = es als s-tem Einheitsvektor und co = $0 ergibt sich das bisherige

Testproblem aus 2.5.1 mit den dortigen Hypothesen (1) und (2). Als weiteres Bei-

spiel läßt sich die Gleicheit I9 = I9 zweier Parameterkomponenten mit C = e -e s t s t

und co = 0 als Nullhypothese der Form H darstellen.

Zur Überprüfung der Hypothesen schätzern wir zunächst die Linearkombination T T A

C B durch die zugehörige Linearkombination C 8 der Parameterschätzung, die ein-

dimensional normalverteilt

(3) q c T d ) = N , ( C ~ B , 02) c mit D 2 = D c C ( X x ) - ~ c > o 2 T T

und stochastisch unabhängig von der Varianz-Schätzung a2 ist. Als Teststatistik ver-

wendet man wieder die standardisierte Abweichung der Schätzung cTd vom Refe-

renzwert c 0


Aus der Verteilung der Teststatistik T lassen sich auch Konfidenzgrenzen für die

Parameter-Komponente B herleiten. Die einseitige untere bzw. obere KonJidenzgrenzen s

Jür B zum Niveau a ergibt sich zu s

(10) e - L1 (untere Grenze) s

bzw. e + L1 (obere Grenze) s

mit L1 = 0- . tpG . s ,a

2.5.2 Testen von Linearkombinationen des Parameters

Als Verallgemeinerung der Hypothesen über eine einzelne Komponente des Para

metervektors () betrachten wir jetzt eine feste Linearkombination cT () für cE IRS mit

c:;= 0, die wir mit einem fest vorgegeben ReJerenzwert Co E IR (etwa Co = 0) verglei

chen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme sind

(1)

(2)

T Nullhypothese H=: c () = Co

T Nullhypothese H<: c () < Co

vs.

vs.

Alternative H:;zt.: cT () :;= Co '

Alternative H>: cT () > co.

Das andere einseitige Testproblem H >: cT () < Co vs. H <: cT () < Co brauchen wir nicht

extra zu behandeln, weil es sich aus (2) durch den Übergang von c auf - cergibt.

Speziell mit c = es als s-tem Einheitsvektor und Co = Bso ergibt sich das bisherige

Testproblem aus 2.5.1 mit den dortigen Hypothesen (1) und (2). Als weiteres Bei

spiel läßt sich die Gleicheit Bs=Bt zweier Parameterkomponenten mit c=es -et

und Co = 0 als Nullhypothese der Form H= darstellen.

Zur Überprüfung der Hypothesen schätzern wir zunächst die Linearkombination

cT () durch die zugehörige Linearkombination cT e der Parameterschätzung, die ein

dimensional normalverteilt

(3) mit

und stochastisch unabhängig von der Varianz-Schätzung 0-2 ist. Als Teststatistik ver

wendet man wieder die standardisierte Abweichung der Schätzung cT e vom Refe

renzwert Co


T A e - C o mit n 2 T T (4) T = e 2 = o C (X X)-%.

C C

Und die Teststatistik besitzt eine nichtzentrale t-Verteilung

(5) J(T) = tFG(y) mit

T 7 = und FG = F G ( A ) = J-S.

gc

Die Nichtzentralität y (man beachte wieder die formale Ähnlichkeit zu S) ist ein T Maß für die Abweichung der Linearkombination C B vom Referenzwert co und die

Hypothesen lassen sich äquivalent formulieren als

(1)' Nullhypothese H-: - y = 0 VS. Alternative Hz: y t 0 ,

(2)' Nullhypothese H<: y 5 0 VS. Alternative H>: y > 0 . -

Aus der Verteilung (5) der Teststatistik T ergeben sich formal dieselben t-Tests wie

zuvor in 2.5.1:

(6) Zweiseitiger t-Test von H vs. Hz zum Niveau u: -

Ablehnung von H- P U I TI 2 tFG,; 7

U 2@, I T I ) i FG

(7) Einseitiger t-Test von H< vs. H> zum Niveau u: -

Ablehnung von H< U - T 2 t ~ ~ , o r

U @ (-T) 5 u. ,FG

T Einseitige untere bzw. obere Konfidenzgrenzen für C B zum Niveau u lassen sich eben-

falls wieder aus der Verteilung der Teststatistik herleiten:

(8) cTd - A (untere Grenze) bzw. cTd + A (obere Grenze)

mit A = & . C t ~ ~ , a .


(4) mit A2 A2 T(XTX)-l 17 =17 C c. c

Und die Teststatistik besitzt eine nichtzentrale t-Verteilung

(5) mit

und FG = FG(JIf) = J-5.

Die Nichtzentralität '"Y (man beachte wieder die formale Ähnlichkeit zu T) ist ein

Maß für die Abweichung der Linearkombination cT () vom Referenzwert Co und die

Hypothesen lassen sich äquivalent formulieren als

(1) I

(2) I

Nullhypothese H_: '"Y = 0

Nullhypothese H<: '"Y < 0

vs.

vs.

Alternative H : '"Y :;= 0 , :;z:

Alternative H>: '"Y > o.

Aus der Verteilung (5) der Teststatistik T ergeben sich formal dieselben t-Tests wie

zuvor in 2.5.1:

(6) Zweiseitiger t-Test von H= vs. H:;z: zum Niveau a:

Ablehnung von H_ ITI > tFG 9" , 2

2 Pt ( -I TI) < a. FG

(7) Einseitiger t-Test von H< vs. H> zum Niveau a:

Ablehnung von H<

P (-T) < a· tFG

Einseitige untere bzw. obere Konjidenzgrenzen jür cT () zum Niveau a lassen sich eben

falls wieder aus der Verteilung der Teststatistik herleiten:

(8) TA

C () - L1 (untere Grenze) bzw. cT () + L1 (obere Grenze)

mit L1 = a . tFG

. C ,a


2.5.3 Schärfe der Tests

Die Schärfe (oder Güte, engl.: Power) eines Tests ist definiert als die Wahrscheinlich-

keit für die Ablehnung der Nullhypothese:

(I> Schärfe = Power = P{ Test lehnt die Nullhypothese ab } bzw.

(2) 1 - Schärfe = 1 - Power = P{ Test lehnt die Nullhypothese nicht ab } .

Unter der Nullhypothese beschreibt die Schärfe also das Fehlerrisiko 1. Art (f" ur eine

falsch-positive Entscheidung), und unter der Alternativen ist die komplementäre

Schärfe (2) gerade das Fehlerrisiko 2. Art (für eine falsch-negative Entscheidung).

Beim einseitigen t-Test hängt die Testschärfe von der Nichtzentralität y, dem Test-

niveau a und dem Freiheitsgrad FG wie folgt ab:

(3) (Schärfe: einseitig)

= 1 - ( t ) tFG(7) FG, a

ist streng monoton wachsend sowohl in y als auch in a.

Dabei ist @ die Verteilungsfunktion der nichtzentralen tFG(y)-Verteilung Die t ~ ~ ( 7 )

Funktion Powl(-,a) wird auch als Gütefunktion des einseitigen Tests bezeichnet.

Speziell ergibt sich das Testniveau a als maximales Fehlerrisiko 1. Art unter der

Nullhypothese H< -

(4) a = POW~(O, a) = sup POW (y, a) 7 5 0 1

Und als Grenzwerte für y + f CO ergeben sich aus (3)

(5) POW 1 (- CO,^) = 0, POW 1 (+ CO,^) = I.

Die Schärfe des zweiseitigen t-Test hängt nur über 1 y I von y ab und läßt sich wie

folgt darstellen:

(6) Pow2(y,a) )= P o w l ( l ~ l i ~ ) + P o w l ( - l ~ l i ~ ) (Schärfe: zweiseitig).

Nach (3) ist der erste Summand ist streng wachsend in 1 yl und größer als der

zweite Summand, der streng fallend in 1 y 1 ist und nach (5) sogar für 1 y 1 + CO gegen

0 konvergiert. Folglich läßt sich die Summe für nicht zu geringes 1 y 1 durch den er-

sten Summanden approximieren


2.5.3 Schärfe der Tests

Die Schärfe (oder Güte! engl.: Power) eines Tests ist definiert als die Wahrscheinlich

keit für die Ablehnung der Nullhypothese:

(1) Schärfe Power P { Test lehnt die Nullhypothese ab } bzw.

(2) 1 - Schärfe 1- Power P { Test lehnt die Nullhypothese nicht ab } .

Unter der Nullhypothese beschreibt die Schärfe also das Fehlerrisiko 1. Art (für eine

falsch-positive Entscheidung), und unter der Alternativen ist die komplementäre

Schärfe (2) gerade das Fehlerrisiko 2. Art (für eine falsch-negative Entscheidung).

Beim einseitigen t-Test hängt die Testschärfe von der Nichtzentralität "f, dem Test

niveau a und dem Freiheitsgrad FG wie folgt ab:

(3) (Schärfe: einseitig)

ist streng monoton wachsend sowohl in "f als auch in a.

Dabei ist P tFG(-y) die Verteilungsfunktion der nichtzentralen tpG("{)-Verteilung. Die

Funktion Pow1( -,a) wird auch als Gütefunktion des einseitigen Tests bezeichnet.

Speziell ergibt sich das Testniveau a als maximales Fehlerrisiko 1. Art unter der

Nullhypothese H<

(4) a = Pow1 (O,a) = sup Pow

1 (,,{,a)

1'::;0

Und als Grenzwerte für "f ---+ ± 00 ergeben sich aus (3)

(5) Pow1 (-oo,a) = 0, Pow

1 (+ oo,a) = 1.

Die Schärfe des zweiseitigen t-Test hängt nur über l"f I von "f ab und läßt sich wie

folgt darstellen:

(6) (Schärfe: zweiseitig).

Nach (3) ist der erste Summand ist streng wachsend in h 1 und größer als der

zweite Summand, der streng fallend in 1 "f 1 ist und nach (5) sogar für 1 "f 1---+ 00 gegen

° konvergiert. Folglich läßt sich die Summe für nicht zu geringes I "f I durch den er

sten Summanden approximieren


(7) PowZ (7, a) Powl ( 17 1 , :), falls 1 y I „nicht zu gering" ,

wobei die Approximation für wachsendes 1 y 1 immer besser wird. In diesem Sinn

entspricht die Schärfe des zweiseitigen Test ungefähr (und mindestens) der des ein-

seitigen Tests zum halben Niveau.

Interpretiert man den zweiseitigen t-Test als F-Test, so ergibt sich für die Schärfe

2 (7) Pow2 (Y, a) = P{ F1, FG(y F1, FG, )J

= 1 - @ (F FllFG(r2) l ,FG,a 1

2 ist streng wachsend sowohl in a als auch in ly I bzw. y ,

mit @ 2 als Verteilungsfunktion von F1,FG(Y ). Fll FG(r2)

Wenn bei einem konkreten Datensatz der (ein- oder zweiseitige) t-Test die Nullhy-

pothese nicht abgelehnt hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man

durch Schärfebetrachtungen quantifizieren sollte. Hierzu kann man einerseits die

Schärfe für verschiedene hypothetische (und praktisch relevante) Werte von y be-

stimmen, da ja das wahre y unbekannt ist. Eine solche Schärfebetrachtung sollte

eigentlich schon im Rahmen einer Versuchsplanung zur Bestimmung des erforderli-

chen Mindeststichprobenumfang J erfolgt sein.


(7) falls 1 '"Y 1 "nicht zu gering" ,

wobei die Approximation für wachsendes I '"Y I immer besser wird. In diesem Sinn

entspricht die Schärfe des zweiseitigen Test ungefähr (und mindestens) der des ein

seitigen Tests zum halben Niveau.

Interpretiert man den zweiseitigen t-Test als F-Test, so ergibt sich für die Schärfe

(7)

ist streng wachsend sowohl in a als auch in I'"Y 1 bzw. '"Y 2,

mit Pp (2) als Verteilungsfunktion von Fl

PG(2). 1,FG'"Y ,

Wenn bei einem konkreten Datensatz der (ein- oder zweiseitige) t-Test die Nullhy

pothese nicht abgelehnt hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man

durch Schärfebetrachtungen quantifizieren sollte. Hierzu kann man einerseits die

Schärfe für verschiedene hypothetische (und praktisch relevante) Werte von '"Y be

stimmen, da ja das wahre '"Y unbekannt ist. Eine solche Schärfebetrachtung sollte

eigentlich schon im Rahmen einer Versuchsplanung zur Bestimmung des erforderli

chen Mindeststichprobenumfang J erfolgt sein.


Abb. 2: Die Schärfe Powl(yp) des einseitigen t-Test als Funktion der Nichtzentra- lität y für verschiedene Testniveaus ci! und Freiheitsgrade FG.


1.0

0,9

0,8 FG= 16

0,7

0,6 0,5 a= 10% 5% 1%

0,4

0,3

0,2

O'~l 0 1 2 3 4 5 r

1.0

0,9 a=5% 0,8

0,7

0,6 0,5 FG= 16 4 2

0,4

0,3

0,2

0,1

o'~l 0 1 2 3 4 5 r

Abb.2: Die Schärfe Pow 1 ('Y,a) des einseitigen t-Test als Funktion der Nichtzentra-lität 'Y für verschiedene Testniveaus a und Freiheitsgrade FG.


Abb. 3: Die Schärfe Pow2(y,u) des zweiseitigen t-Test als Funktion der Nichtzen- tralität y für verschiedene Testniveaus ci! und Freiheitsgrade FG.


0,9

0,8 FG= 16

0,7

0,6 0,5 a = 10%

0,4

0,3

0,2

o,q~--- -4 -3 -2 -1 o 1 2 3 4 5 r

1.0

a=5%

0,5 FG= 16 2

0,4

0,3

0,2

0,1

o,q5 -4 -3 -2 -1 0 1 2 3 4 5 r Abb. 3: Die Schärfe Pow 2 ( 'Y,a) des zweiseitigen t-Test als Funktion der Nichtzen

tralität 'Y für verschiedene Testniveaus a und Freiheitsgrade FG.


Abb. 4: Schärfevergleich des zweiseitigen mit dem einseitigen t-Tests zum gleichen (Bild oben) bzw. halben Niveau (Bild unten) für ci! = 5% und FG = 16.


1.0 Powly,a) Pow1h', a) 0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0'~5 -4 -3 -2 -1 2 3 4 5 r

1.0 Powly,a)

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2 0,1 Pow1h', ~)

0'~5 -4 -3 -2 -1 0 1 2 3 4 5 r

Abb. 4: Schärfevergleich des zweiseitigen mit dem einseitigen t-Tests zum gleichen (Bild oben) bzw. halben Niveau (Bild unten) für a = 5% und FG = 16.



Wir knüpfen direkt an den Abschnitt 2.1.1 an. Die Hypothesen über 19, sind hier wie

folgt interpretierbar:

H-: B, = 0 (Die Covariable X hat keinen Einfluß)

H,: 8, > 0 (Die Covariable X hat einen positiven Einfluß)

H,: 8, < 0 (Die Covariable X hat einen negativen Einfluß)

Hz: 19, r 0 (Die Covariable X hat einen Einfluß) .

Die Deviance von A u n d die Schätzung 82 ergeben sich zu

1 = S W - ~ , . S ~ Y = m - - ( s x q 2 sxx

(2) 8 2 - -

D e v ( A ) (Streuung der Y- Werte um die Regressionsgerade) .

J- 2

Und die Teststatistik aus 2.5.1 mit s= 2 und Bzo = 0 ergibt sich zu

Die für die Testschärfe wichtige Nichtzentralität aus (5) lautet

Die Nichtzentralität 7 und damit die Schärfe P O W ~ ( ~ , u) wächst bei steigender 2 Streuung Sxx der X-Werte und fällt bei wachsender Varianz a der Y-Werte.

Die Prognose auf den Erwartungswert für einen „neuenn Covriablenwert X EIR ist 0

gegeben durch den Funktionswert

(5) T f (xJ = Bl+B2x0 = coB mit C T = (1 X ) .

0 0 A A

Die Schätzung f(xO) :=B1+ BzxO hierfür ist normalverteilt

(6) ~ ( f ( x J ) = N(f (x0), a2(x0)) mit

2 Diese Varianz a (X ) ist einerseits proportional zur Varianz a2 der Beobachtungen 0

und umgekehrt proportional zu der Anzahl J der Beobachtungen und hängt ande-



Wir knüpfen direkt an den Abschnitt 2.1.1 an. Die Hypothesen über e2

sind hier wie

folgt interpretierbar:

H=:e2 =0

H>: e2 > 0

H<: e2 < 0

H:;zt.: e2

:;=0

(Die Covariable x hat keinen Einfluß)

(Die Covariable x hat einen positiven Einfluß)

(Die Covariable x hat einen negativen Einfluß)

(Die Covariable x hat einen Einfluß) .

Die Deviance von vft und die Schätzung 0-2 ergeben sich zu

(1)

(2)

Dev(vft) (

A A )2 ~ Yj - (e 1 + e 2 x) ]

A 1 ( 2 Syy - e ·SxY = SYY -- SxY) 2 Sxx

Dev(vft) J-2

(Streuung der Y-Werte um die Regressionsgerade).

Und die Teststatistik aus 2.5.1 mit s = 2 und e 20 = 0 ergibt sich zu

A JSxx (3) T = e2 0-2 .

Die für die Testschärfe wichtige Nichtzentralität aus (5) lautet

(4) 'Y = e2 JS~~ .

Die Nichtzentralität 'Y und damit die Schärfe Pow 1 ('Y, a) wächst bei steigender

Streuung Sxx der x-Werte und fällt bei wachsender Varianz 0-2 der Y-Werte.

Die Prognose auf den Erwartungswert für einen "neuen" Covriablenwert Xo E IR ist

gegeben durch den Funktionswert

(5)

(6) mit

(7) 2 0-

2 [

0- (xJ = J. 1 +

Diese Varianz 0-2(xO

) ist einerseits proportional zur Varianz 0-2 der Beobachtungen

und umgekehrt proportional zu der Anzahl J der Beobachtungen und hängt ande-


rerseits vom zweiten Summanden der Klammer [ ...I in (7) ab. Dieser Summand

wächst mit dem Abstand I x o - ~ l und fällt bei steigender mittlerer Streuung (empiri-

scher Varianz) I S x x der X-Werte. J

Die einseitige obere bzw. untere Konfidenzgrenze für ,L zum Niveau a ist 0

(8) f U (xJ = f (xJ - A,(xo) bzw. fo(xJ = f (.J + A,(xo) mit

Die „Abweichungn A,(xo) hängt neben a noch ab von der Streuung 82 der Be-

obachtungen um die geschätzte Gerade und von dem Ausdruck [ ... ] unter der Wur-

zel, der bereits oben erläutert wurde.


rerseits vom zweiten Summanden der Klammer [ ... ] in (7) ab. Dieser Summand

wächst mit dem Abstand Ixo -xl und fällt bei steigender mittlerer Streuung (empiri

scher Varianz) } Sxx der x-Werte.

Die einseitige obere bzw. untere Konfidenzgrenze für /-La zum Niveau a ist

(9) A J [ 1 (xo _x)2]

~ (xo) = tJ_

2 . a . - + .

Q ,Q J Sxx

Die "Abweichung" L1a (xo) hängt neben a noch ab von der Streuung 0-2 der Be

obachtungen um die geschätzte Gerade und von dem Ausdruck [ ... ] unter der Wur

zel, der bereits oben erläutert wurde.

2.6 Testen von linearen Hypothesen 5.5.10 2- 28

2.6 Testen von linearen Hypothesen

2.6.1 Herleitung des F-Tests

Bei der Auswahl eines geeigneten Modells für beobachtete Daten sind generell zwei

Kriterien zu beachten:

• die Modell-Anpassung: das Modell soll die Bebachtungen möglichst gut beschreiben,

• die Einfachheit (Sparsamkeit) des Modells: das Modell soll möglichst wenig unbekannte Parameter bzw. einen möglichst großen Freiheitsgrad haben.

Leider beeinflussen sich Anpassung und Einfachheit in entgegegesetzter Richtung:

bei Vereinfachung des Modells wird die Anpassung schlechter bzw. bei Hinzunahme

weiterer Modellparameter wird die Anpassung besser.

Für das vollständige Modell vft= lRJ ergibt sich z.B. eine perfekte Anpassung weil

(J, = Y gilt, aber sein Freiheitgrad ist FG(lRJ ) = 0, und folglich läßt sich 0-2 nicht

mehr schätzen. Auf der anderen Seite hat das nulldimensionale Modell vft= {O} zwar

den maximal möglichen Freiheitsgrad FG({O})=J, aber dafür ist die Schätzung

(J, = 0 völlig unabhängig von der Beobachtung Y und somit die Anpassung extrem

schlecht.

Um zu einem sinnvollen Komprorniß zwischen Anpassung und Einfachheit zu ge

langen, will man oft überprüfen, ob sich ein bisher betrachtetes Modell vft noch

weiter vereinfachen läßt zu einem echten Untermodell vftoC vft, ohne daß dabei die

Anpassung wesentlich schlechter wird. Dies führt uns auf das lineare Testproblem

mit den linearen Hypothesen

(LH) Nullhypothese: (Untermodell vfto gilt) ,

Alternative: H: Jlt1.vfto' JlEvft (Untermodell vfto gilt nicht ).

Dieses Problem ist auch aus umgekehrter Sicht sinnvoll: man hat bereits ein Modell

vfto

betrachtet, und will wissen, ob ein umfassenderes Obermodell vft::::> vfto besser

geeignet ist.

In der Praxis wird das Modell vft von den Spalten der Covariablen-Matrix X er-



2.6.1 Herleitung des F-Tests

Bei der Auswahl eines geeigneten Modells für beobachtete Daten sind generell zwei

Kriterien zu beachten:

• die Modell-Anpassung: das Modell soll die Bebachtungen möglichst gut beschreiben,

• die Einfachheit (Sparsamkeit) des Modells: das Modell soll möglichst wenig unbekannte Parameter bzw. einen möglichst großen Freiheitsgrad haben.

Leider beeinflussen sich Anpassung und Einfachheit in entgegegesetzter Richtung:

bei Vereinfachung des Modells wird die Anpassung schlechter bzw. bei Hinzunahme

weiterer Modellparameter wird die Anpassung besser.

Für das vollständige Modell vft = lRJ ergibt sich z.B. eine perfekte Anpassung weil

(i, = Y gilt, aber sein Freiheitgrad ist FG(lRJ ) = 0, und folglich läßt sich 0-2 nicht

mehr schätzen. Auf der anderen Seite hat das nulldimensionale Modell vft = {O} zwar

den maximal möglichen Freiheitsgrad FG({O})=J, aber dafür ist die Schätzung

(i, = 0 völlig unabhängig von der Beobachtung Y und somit die Anpassung extrem

schlecht.

Um zu einem sinnvollen Komprorniß zwischen Anpassung und Einfachheit zu ge

langen, will man oft überprüfen, ob sich ein bisher betrachtetes Modell vft noch

weiter vereinfachen läßt zu einem echten Untermodell vfto c vft, ohne daß dabei die

Anpassung wesentlich schlechter wird. Dies führt uns auf das lineare Testproblem

mit den linearen Hypothesen

(LH) Nullhypothese: (Untermodell vfto gilt) ,

Alternative: H: Jlt1.vfto' JlEvft (Untermodell vfto gilt nicht ).

Dieses Problem ist auch aus umgekehrter Sicht sinnvoll: man hat bereits ein Modell

vfto

betrachtet, und will wissen, ob ein umfassenderes Obermodell vft::::> vfto besser

geeignet ist.

In der Praxis wird das Modell vft von den Spalten der Covariablen-Matrix X er-


zeugt, und man erhält durch Weglassen einzelner Covariabeln (d.h. durch Streichen

mehrerer Spalten in X) eine reduzierte Jx50-Matrix XO

' deren Spalten das Unter

modell .AtO

erzeugen. Ist umgekehrt das Modell .AtO

durch eine Covariablen-Matrix

X ogegeben, so kann man durch Hinnahme weiterer Covariablen (d.h. durch Hinzu

fügen von Spalten in X o) eine erweiterte Jx5-Matrix erhalten, die das umfassende

Modell .At erzeugt. In beiden Situationen liegt eine Zerlegung X = (Xo' Xl) vor,

und die Spalten von X oerzeugen den Teilraum .AtO

.

Für die Behandlung des Testproblems müssen wir generell folgendes über die Di

mensionen bzw. Freiheitsgrade der Modelle voraussetzen:

(Dirn) 50 = Dirn (.Ato) < 5 = Dim(.At) < J

o < FG(.At) = (J-5) < FG(.Ato) = (J-5J .

bzw.

Neben der MQ-Schätzung 4 von !-L für das Modell .At ist jetzt auch die MQ-Schät

zung 40 von !-L für das Modell .Ato(d.h. unter der Nullhypothese HJ von Interesse:

Man beachte, daß 40 von der Beobachtung Y nur noch über 4 = pc4Y abhängt. Da

Y- 4 im orthogonalen Komplement .Atl.- von .At liegt und somit zu 4-40E.At or

thogonal ist, läßt sich die Abweichung der Beobachtung vom Modell .AtO

wie folgt

zerlegen (vgl. Abb. 1)

(2) IIY-40 11 2

Dev(.Ato) Dev (.At) + L,Dev mit

Intuitiv wird man HO ablehnen, falls in dieser Aufteilung die Abweichung 114- 40 11 2

der Schätzung 4 vom Untermodell .AtO

deutlich größer ist als die Abweichung

IIY - 411 2 der Beobachtung Y vom Modell .At. Um zu einer Teststatistik zu gelan

gen, bestimmen wir die Verteilung von 114 - 40 11 2 für das klassische lineare Modell

d.h. unter Normalverteilungsannahme (NVY). Danngilt


zeugt, und man erhält durch Weglassen einzelner Covariabeln (d.h. durch Streichen

mehrerer Spalten in X) eine reduzierte Jx50-Matrix X o' deren Spalten das Unter

modell .AtO

erzeugen. Ist umgekehrt das Modell .AtO

durch eine Covariablen-Matrix

X o gegeben, so kann man durch Hinnahme weiterer Covariablen (d.h. durch Hinzu

fügen von Spalten in X o) eine erweiterte Jx5-Matrix erhalten, die das umfassende

Modell .At erzeugt. In beiden Situationen liegt eine Zerlegung X = (Xo' Xl) vor,

und die Spalten von X o erzeugen den Teilraum .AtO

.

Für die Behandlung des Testproblems müssen wir generell folgendes über die Di

mensionen bzw. Freiheitsgrade der Modelle voraussetzen:

(Dirn) 50 = Dirn (.Ato) < 5 = Dim(.At) < J bzw.

o < FG(.At) = (J -5) < FG(.Ato) = (J -5J .

Neben der MQ-Schätzung 4 von J-L für das Modell .At ist jetzt auch die MQ-Schät

zung 40 von J-L für das Modell .Ato (d.h. unter der Nullhypothese HJ von Interesse:

Man beachte, daß 40 von der Beobachtung Y nur noch über 4 = p c4 Y abhängt. Da

Y - 4 im orthogonalen Komplement .At~ von .At liegt und somit zu 4 -40 E.At or

thogonal ist, läßt sich die Abweichung der Beobachtung vom Modell .AtO

wie folgt

zerlegen (vgl. Abb. 1)

(2) IIY-40 11 2

Dev(.Ato) Dev (.At) + L,Dev mit

Intuitiv wird man HO ablehnen, falls in dieser Auf teilung die Abweichung 114 - 40 11 2

der Schätzung 4 vom Untermodell .AtO

deutlich größer ist als die Abweichung

IIY - 411 2 der Beobachtung Y vom Modell .At. Um zu einer Teststatistik zu gelan

gen, bestimmen wir die Verteilung von 114 - 40 11 2 für das klassische lineare Modell

d.h. unter Normalverteilungsannahme (NVY). Danngilt


mit(4)

(5)

L,Dev = 114 - 40 11 2 ist 0-2

.X~FG(rr)-verteilt

MG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto= 5 -SO > 0,

"( = \ IIJ-L - Pc4 J-L 11 2 > O.a 0

..........................

.ß~/to·:·vft...... • 0

O· .•.•.•.•.• ·{LO· .. . . . . . . . . . . . . . . . . . .

", ", . ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ",

Abb. 1: Die Beobachtung Y mit den Schätzungen für die Modelle vft und vftO

.

Die Nichtzentralität "( ist ein Maß für die Abweichung von der Nullhypothese, und

die linearen Hypothesen lassen sich äquivalent formulieren als:

(LH) , H:"(>O.

Von entscheidender Bedeutung ist folgende Unabhängigkeit:

(6) L,Dev = 114 - 40

112 und Dev(vft) = IIY - 411 2 sind stochastisch unabhängig.

Die Streuungszerlegung (2) läßt sich in einer Tabelle (vgl. Tab. 1) zusammenfassen,

in deren Zeilen die jeweilige Abweichung - die hier eine Summe von Quadraten ist

und deshalb auch mit SQ abgekürzt wird- zusammen mit dem Freiheitsgrad FG

und dem zugehörigem sogenannten mittleren Quadrat MQ = SQ/FG angegeben sind.


(4) L,Dev = 114 - 40 11 2 ist 0-

2. X~FG(rr)-verteilt mit

MG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto = 5 -SO > 0,

(5)

.ß~/to·:· vft ...... • 0

Abb. 1: Die Beobachtung Y mit den Schätzungen für die Modelle vft und vftO

.

Die Nichtzentralität '"Y ist ein Maß für die Abweichung von der Nullhypothese, und

die linearen Hypothesen lassen sich äquivalent formulieren als:

(LH) ,

Von entscheidender Bedeutung ist folgende Unabhängigkeit:

(6) L,Dev = 114 - 40

11 2 und Dev(vft) = IIY - 411 2 sind stochastisch unabhängig.

Die Streuungszerlegung (2) läßt sich in einer Tabelle (vgl. Tab. 1) zusammenfassen,

in deren Zeilen die jeweilige Abweichung - die hier eine Summe von Quadraten ist

und deshalb auch mit SQ abgekürzt wird- zusammen mit dem Freiheitsgrad FG

und dem zugehörigem sogenannten mittleren Quadrat MQ = SQ/FG angegeben sind.


Streuung (Ursache) Dev =5Q FG MQ=5Q/FG

Abweichung von HO LiDev = 114-40 11 2 MG =5-5 LiDev/LiFG0

um das Modell vft Dev (.At) = 11 Y - 411 2 FG(vft) =J-5 A217

um das Modell vfto Dev (vfto)= 11 Y - 40 11 2 FG(vfto)=J-50

A217

0

Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vftoc .At.

Hierbei ist a~ die Schätzung von 172 für das Modell vfto' d.h. unter der Nullhypo

these HO. Die mittleren Quadrate MQ in der Tab. 1 sind jeweils (erwartungstreue)

Schätzungen von 172 unter der Nullhypothese. Als Teststatistik verwendet man nun

den Quotienten der durch die Abweichung von der Nullhypothese HO bewirkten

Streuung zur Streuung um das Modell .At:

(7)LiDev / MG

F=114- 40 11 2 / (5-5JIIY - 4112

/( J-S)(F-5tatistik) .

Diese Teststatistik hat eine einJach-nichtzentrale F-Verteilung

(8) L(F) = FZFG NFG ("( ),ZFG=MG=5-50'

mit Nichtzentralität "( aus (5) und

NFG = FG(.At) = J -5.

Speziell unter der Nullhypothese HO ist die Teststatistik also zentral F-verteilt. Da

große Werte der Teststatistik gegen HO sprechen, ergibt sich folgender Test:

(9) F-Test zum Niveau a:

Ablehnung von Ho F > FZFG,NFG,a

{} 1 - PF

(F) < a.m,n

Dabei ist F das a-Quantil und PF die Verteilungsfunktion der zentralenm,n,a mn

F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierungm,n 0 S

von F) wird die Wahrscheinlichkeit


Streuung (Ursache) Dev =5Q FG MQ=5Q/FG

Abweichung von HO ~Dev = 114-40 11 2 MG =5-5 0

~Dev/~FG

um das Modell vft Dev (.At) = 11 Y - 411 2 FG(vft) =J-5 A2 17

um das Modell vfto Dev (vfto) = 11 Y - 40 11 2 FG(vfto) =J-50

A2 17

0

Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vfto c .At.

Hierbei ist a~ die Schätzung von 172 für das Modell vfto' d.h. unter der Nullhypo

these HO. Die mittleren Quadrate MQ in der Tab. 1 sind jeweils (erwartungstreue)

Schätzungen von 172 unter der Nullhypothese. Als Teststatistik verwendet man nun

den Quotienten der durch die Abweichung von der Nullhypothese HO bewirkten

Streuung zur Streuung um das Modell .At:

(7) ~Dev / MG

F= 114- 40 11 2 / (5 -5J IIY - 4112

/( J-S)

Diese Teststatistik hat eine einfach-nichtzentrale F-Verteilung

(F-5tatistik) .

(8) L(F) = F ZFG NFG ('"Y ) mit Nichtzentralität '"Y aus (5) und , ZFG=MG=5-5 0' NFG = FG(.At) = J -5.

Speziell unter der Nullhypothese HO ist die Teststatistik also zentral F-verteilt. Da

große Werte der Teststatistik gegen HO sprechen, ergibt sich folgender Test:


Ablehnung von Ho

{} 1 - PF

(F) < a. m,n

Dabei ist F das a-Quantil und P F die Verteilungsfunktion der zentralen m,n,(X mn

F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierung m,n 0 S



auch als P-Wert oder Signijikanzniveau des beobachteten Testwerts F b bezeichnet.o s

Testentscheidung fürNullhypothese HO Alternative H

1- a

o FZFG,NFG,a

Abb. 2: Dichte der Teststatistik des F-Tests unter der Nullhypothese mit a-Quantilund Entscheidungsbereichen.

Der F-Test ist ein Likelihood-Quotienten-Test, weil die F-Statistik eine streng mono

tone Transformation des zugehörigen Likelihood-Quotienten ist.

Durch den Übergang von einfacheren Untermodell .ACO

zum umfassenden übermo

delI .AC wird der folgende Anteil der Streuung Dev(.ACo) um .ACo zusätzlich "er

klärt":

(10) R2 (,/,/ ,/,/) = L:,Dev = 114 - 40 112

= [1 + NFG ] -1 [ ]JI"(O,JI"( 2 E 0,1 .

Dev(.ACo) 11 y - 4011 F· ZFG

Dieser Anteil ist eine streng wachsende Funktion der F-Statistik und je höher er ist,

desto besser ist die Modellanpassung von .AC im Vergleich zu der des Modells .ACO

.

Speziell für das vom konstanten Einser-Vektor e+= (1) erzeugte konstante Modell

.ACo= {J-L 1 J-L1

= J-L2

= ... =J-LJ} ist die Schätzunmg 40

= Ye+ der Mittelwertsvektor

von Y, und

(11)

wird auch das Bestimmtheitsmaß jür das Modell .AC bezeichnet.


auch als P-Wert oder SigniJikanzniveau des beobachteten Testwerts F b bezeichnet. o s

Testentscheidung für Nullhypothese HO Alternative H

1- a

o F ZFG,NFG,a

Abb. 2: Dichte der Teststatistik des F-Tests unter der Nullhypothese mit a-Quantil und Entscheidungsbereichen.

Der F-Test ist ein Likelihood-Quotienten-Test, weil die F-Statistik eine streng mono

tone Transformation des zugehörigen Likelihood-Quotienten ist.

Durch den Übergang von einfacheren Untermodell .AtO

zum umfassenden übermo

dell .At wird der folgende Anteil der Streuung Dev(.Ato) um .Ato zusätzlich "er

klärt":

(10) R2 (.Ato

,.At) = L:,Dev = 114 - 40 11: = [1 + NFG ]-1 E [0,1] . Dev(.Ato) 11 y - 4011 F· ZFG

Dieser Anteil ist eine streng wachsende Funktion der F-Statistik und je höher er ist,

desto besser ist die Modellanpassung von .At im Vergleich zu der des Modells .AtO

.

Speziell für das vom konstanten Einser-Vektor e + = (1) erzeugte konstante Modell

.Ato = {J-L 1 J-L1

= J-L2

= ... =J-L J} ist die Schätzunmg 40

= Ye + der Mittelwertsvektor

von Y, und

(11)


Wir wollen jetzt die Hypothesen unter Verwendung des Parametervektors () (statt

des Erwartungsvektors Jl) formulieren und setzen hierzu für den Rest dieses Ab

schnitts die Rangbedingung (RB) voraus. Dann entspricht jedem Teilraum

.ACOC.AC für den Erwartungswert Jl eindeutig ein Teilraum f?TOClRS für den Para

meter () mit gleicher Dimension:

(12) f?To = {() ElRS I X()E.ACo}'

(13) .ACo = {X() I ()E f?To},

(14) Dirn f?To= Dirn .ACo.

Und die Hypothesen lassen sich dann äquivalent formulieren als

(LH) "

In der Praxis ist die Nullhypothese oft durch ein lineares Gleichungssystem gege

ben:

H:B();=O

wobei B;= 0 eine QxS-Matrix ist mit 1 < Q = Rang(B) < S. Der zur Nullhypothese

gehörige eingeschränkte Parameterraum ist dann

und es gilt

(17) Dirn f?To= S - Rang(B) bzw. ~FG = Rang (B).

Die für den F-Test relevanten Größen lassen sich dann unter Verwendung der Ma

trizen X und B explizit angeben:

(18)

(19)

~Dev () TBT(B [XTX] -lB T)-l B ()

\ () TBT(B [XTX] -lB T)-l B ().a

Man beachte, daß in der Darstellung (18) die Schätzung von () unter der Nullhypo

these nicht benötigt wird.


Wir wollen jetzt die Hypothesen unter Verwendung des Parametervektors () (statt

des Erwartungsvektors Jl) formulieren und setzen hierzu für den Rest dieses Ab

schnitts die Rangbedingung (RB) voraus. Dann entspricht jedem Teilraum

.ACO C.AC für den Erwartungswert Jl eindeutig ein Teilraum f?TO ClRS für den Para

meter () mit gleicher Dimension:

(12) f?To = {() ElRS I X()E.ACo}'

(13) .ACo = {X() I ()E f?To },

(14) Dirn f?To = Dirn .ACo.

Und die Hypothesen lassen sich dann äquivalent formulieren als

(LH)"

In der Praxis ist die Nullhypothese oft durch ein lineares Gleichungssystem gege

ben:

H:B();=O

wobei B;= 0 eine QxS-Matrix ist mit 1 < Q = Rang(B) < S. Der zur Nullhypothese

gehörige eingeschränkte Parameterraum ist dann

und es gilt

(17) Dirn f?To = S - Rang(B) bzw. ~FG = Rang (B).

Die für den F-Test relevanten Größen lassen sich dann unter Verwendung der Ma

trizen X und B explizit angeben:

(18)

(19)

~Dev () TBT(B [XTX]-lBT)-l B ()

\ () TBT(B [XTX]-lBT)-l B (). a

Man beachte, daß in der Darstellung (18) die Schätzung von () unter der Nullhypo

these nicht benötigt wird.


Beispiel 1: Eindimensionale Nullhypothese

Ist B = cT:;= 0 ein Zeilenvektor, d.h. cEIRS, so ist die lineare Hypothese (LH)'" von

der im Abschnitt 2.5 betrachteten Form mit der Nullhypothese HO: cT() = 0 und der

zweiseitigen Alternative H:;z=: cT():;= o. Zwischen der t-Teststatistik Taus 2.5 und der

F-Teststatistik besteht dann der Zusammenhang F = T2 und somit ist der zweisei

tige t-Test in dieser Situation äquivalent zum F-Test. D

Beispiel 2: Testen von mehrerer Parameterkomponenten

Oft wird das lineare Modell .At so parametrisiert, daß die interessierenden linearen

Hypothesen sich formulieren lassen als

(20) für alle s E A,

wobei Ac {I, ..., S} eine vorgegebene (nichtleere) Auswahl von Parameterkompo

nenten ist. Solche Nullhypothesen sind von der obigen Form HO: B () = 0, wobei die

Zeilen von B genau die Einheitsvektoren e für alle sE A sind, d.h.s

T(21) B = (e ) A.s sE

Die Matrix B [XTX] -lB T m (18) und (19) ist dann diejenige Teilmatrix von

[XTX] -1, die sich durch Weglassen aller Zeilen und Spalten ergibt, deren Index

nicht inA liegt. Wenn speziellA={l, ...,SO} ist mitSO<S, so ist B[XTX]-lB T die

obere So x SO-Blockmatrix von [XTX] -1. D


Beispiel 1: Eindimensionale Nullhypothese

Ist B = cT :;= 0 ein Zeilenvektor, d.h. cEIRS, so ist die lineare Hypothese (LH)'" von

der im Abschnitt 2.5 betrachteten Form mit der Nullhypothese HO: cT () = 0 und der

zweiseitigen Alternative H7:-: cT ():;= o. Zwischen der t-Teststatistik Taus 2.5 und der

F-Teststatistik besteht dann der Zusammenhang F = T2 und somit ist der zweisei-

tige t-Test in dieser Situation äquivalent zum F-Test. D

Beispiel 2: Testen von mehrerer Parameterkomponenten

Oft wird das lineare Modell .At so parametrisiert, daß die interessierenden linearen

Hypothesen sich formulieren lassen als

(20) für alle s E A,

wobei Ac {I, ... , S} eine vorgegebene (nichtleere) Auswahl von Parameterkompo

nenten ist. Solche Nullhypothesen sind von der obigen Form HO: B () = 0, wobei die

Zeilen von B genau die Einheitsvektoren e für alle sE A sind, d.h. s

(21) T B = (e ) A. s sE

Die Matrix B [XT X]-IB T m (18) und (19) ist dann diejenige Teilmatrix von

[XT Xl-I, die sich durch Weglassen aller Zeilen und Spalten ergibt, deren Index

nicht inA liegt. Wenn speziellA={I, ... ,SO} ist mitSO<S, so ist B[XTX]-IB T die

obere So x SO-Blockmatrix von [XT Xl-I. D


2.6.2 Schärfe des F-Tests

5.5.10 2- 35

Wir betrachten jetzt die Schärfe des F-Tests. Aus der Verteilungsaussage 2.6.1 (8)

ergibt sich folgende Darstellung der Schärfe

(1) Pow(rr,a)

1-p (F )Fm nb) m, n, (X,

mit m=ZFG, n=NFG.

Hierbei ist PF () die Verteilungsfunktion der nichtzentralen F ("f)-Verteilung.mn 7 ~n

Die Schärfe hängt also nur noch über die Nichtzentralität "f vom Erwartungsvektor

Jl ab, und es gilt:

(2) Pow("f, a) ist streng monoton wachsend sowohl in "f > 0 als auch in a E (0,1).

Als Grenzwert für "f ---+ 00 ergibt sich

(3) Pow(oo,a) = 1 für O<a<l.

Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt

hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach

tungen quantifizieren sollte. Hierzu kann man einerseits die Schärfe für verschie

dene hypothetische (und praktisch relevante) Werte von "f bestimmen, da ja das

wahre "f unbekannt ist. Eine solche Schärfebetrachtung sollte eigentlich schon im

Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindeststich

probenumfang J erfolgt sein.


2.6.2 Schärfe des F-Tests

Wir betrachten jetzt die Schärfe des F-Tests. Aus der Verteilungsaussage 2.6.1 (8)

ergibt sich folgende Darstellung der Schärfe

(1) Pow(rr,a)

1-p (F ) Fm nb) m, n, (X ,

mit m=ZFG, n=NFG.

Hierbei ist P F () die Verteilungsfunktion der nichtzentralen F ("f)-Verteilung. mn 7 ~n

Die Schärfe hängt also nur noch über die Nichtzentralität "f vom Erwartungsvektor

Jl ab, und es gilt:

(2) Pow( "f, a) ist streng monoton wachsend sowohl in "f > 0 als auch in a E (0,1).

Als Grenzwert für "f ---+ 00 ergibt sich

(3) Pow(oo,a) = 1 für O<a<1.



tungen quantifizieren sollte. Hierzu kann man einerseits die Schärfe für verschie

dene hypothetische (und praktisch relevante) Werte von "f bestimmen, da ja das

wahre "f unbekannt ist. Eine solche Schärfebetrachtung sollte eigentlich schon im

Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindeststich

probenumfang J erfolgt sein.

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 36

2.7* Schätzung von Nichtzentralität und Testschärfe

Beim t- bzw. F-Test hat Teststatistik eine (einfach) nichtzentrale t- bzw. F-Vertei-

lung, wobei die Nichtzentralität y die Abweichung von der Nullhypothese charakte-

risiert und die Schärfe des jeweiligen Test bestimmt. Wir wollen jetzt die unbe-

kannte Nichtzentralität y schätzen und Konfidenzgrenzen für y angeben. Hieraus leiten

wir dann für die Testschärfe eine Schätzung zusammen mit Konfidenzgrenzen her.

2.7.1 Schätzungen für den t-Test

Wir betrachten den einseitigen t-Test aus 2.5.2 mit den Hypothesen

T Nullhypothese H<: C B 5 co VS. T Alternative H>: C B > co .

-

Die Nichtzentralität

T mit 2 2 T T

(I) Y = Dc = D C ( X x)-lC Dc

läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt

T A e - c 2 ) r = O = T mit

- 2 T T & ; = D C ( X X)-lc.

&C

Diese Schätzung hat die nichtzentrale t-Verteilung tFG(y). Wir wollen hieraus eine

einseitige obere Konfidenzgrenze zur Sicherheit 1 - a' für die Nichtzentralität y o, a'

konstruieren. In der Regel wird hierbei a' mit dem Testniveau a übereinstimmen,

aber das ist nicht zwingend notwendig. Ausgangspunkt ist die Verteilungsfunktion

' t F G ( 7 ) (X) von tFG(y), die wir als Funktion in y betrachten wollen. Setzen wir

(3) H(y I FG, X) = (X) = P { tFG(y) 5 X ) für y, X E IR, t ~ ~ ( 7 )

so ist H(y I FG, X) nach Exkurs V 2.2 streng monoton fallend in y mit

(4> H(-00 I FG, X) = 1, H(+ 00 I FG, X) = 0.

Folglich gibt es zu jedem 0 < a' < 1 genau ein Y. = ro(T I a') mit


2.7* Schätzung von Nichtzentralität und Testschärfe

Beim t- bzw. F-Test hat Teststatistik eine (einfach) nichtzentrale t- bzw. F-Vertei

lung, wobei die Nichtzentralität "( die Abweichung von der Nullhypothese charakte

risiert und die Schärfe des jeweiligen Test bestimmt. Wir wollen jetzt die unbe

kannte Nichtzentralität "( schätzen und KonJidenzgrenzen für "( angeben. Hieraus leiten

wir dann für die Testschärfe eine Schätzung zusammen mit Konfidenzgrenzen her.

2.7.1 Schätzungen für den t-Test

Wir betrachten den einseitigen t-Test aus 2.5.2 mit den Hypothesen


Die Nichtzentralität

(1) T c () - Co

"(=

vs.

mit 2 2 T(XTX)-l 0" = 0" C C c


(2) mit A2 A2 T(XTX)-l 0" =0" C C. c

Diese Schätzung hat die nichtzentrale t-Verteilung tFG

( "(). Wir wollen hieraus eine

einseitige obere Konfidenzgrenze 1 I zur Sicherheit 1- a ' für die Nichtzentralität "( 0,0:

konstruieren. In der Regel wird hierbei a ' mit dem Testniveau a übereinstimmen,

aber das ist nicht zwingend notwendig. Ausgangspunkt ist die Verteilungsfunktion

Pt ()(x) von tFG

(,,(), die wir als Funktion in "( betrachten wollen. Setzen wir FG'"Y

(3) für ,,(, x E IR,

so ist H( "( I FG, x) nach Exkurs V 2.2 streng monoton fallend in "( mit

(4) H(-oo IFG, x) = 1, H(+oo IFG,x) = o.

Folglich gibt es zu jedem 0< a ' < 1 genau ein 1 = 1 (T I a ' ) mit o 0


(5) H(+ IFG,T) = a l 0, a'

(Definition der oberen Grenze 01 / )

^ ,ist eine einseitige obere Konfidenzgrenze für y zur Sicherheit 1- al, d. h. es gilt Yo, a

Anolog läßt sich eine einseitige untere Konfidenzgrenze Y für y zur Sicherheit U, a'

1 - a' definieren durch

(7) H(+ U, a' I F G , T ) = l - a 1 bzw. - Tu, a1 - 70, 1-a1

und es gilt

Wir betrachten jetzt die einseitige Schärfe und erhalten aus der Schätzung Y fol-

gende Schätzung der Schärfe

(9) P0w1 (Y, U) = 1 - @ t,<i 1 (geschätzte einseitige Schärfe).

Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be-

obachteten Abweichung Y = T entspricht.

Da die Schärfe Powl(y,a) streng wachsend in y ist, erhält man aus der oberen

Konfidenzgrenze zur Sicherheit 1-a1 auch die folgende obere Konfidenz- 0, a'

grenze der Testschärfe zur gleichen Sicherheit

(10) Powl( ?o,al , a ) )= 1 - H( Y o, a' I FG, t ~ ~ , a ) (obere Grenze der Schärfe).

Falls der einseitige t-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem

Fall ist eine Schätzung der Schärfe von Interesse), so ist die obere Konfidenzgrenze

der Schärfe kleiner als 1- al. Genauer gilt

Die einseitige untere Konfidenzgrenze Pow (Y a ) der Schärfe ist nicht von prak- 1 u ,a"

tischem Interesse. Sie ist bei Nicht-Ablehnung der Nullhypothese sogar kleiner als a':


(5) H(1 ,IFG, T) = a ' 0,0:

(Definition der oberen Grenze 1 ,) 0,0:

1 ,ist eine einseitige obere Konfidenzgrenze für '"Y zur Sicherheit 1- a ' , d. h. es gilt 0,0:

Anolog läßt sich eine einseitige untere Konfidenzgrenze 1 ,für '"Y zur Sicherheit u,o:

1- a ' definieren durch

(7) H(1 ,IFG, T) = I-a' bzw. A A

'"Y U 0:' = '"Yo 1-0:' U,O: , ,

und es gilt

(8) P{ A <} 1- a '. '"Y U 0:' - '"Y ,

Wir betrachten jetzt die einseitige Schärfe und erhalten aus der Schätzung 1 fol

gende Schätzung der Schärfe

(9) Pow1(1,a) = I-Pt (A)(tpG ) FG'"'( ,0:

(geschätzte einseitige Schärfe).

Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be

obachteten Abweichung 1 = T entspricht.

Da die Schärfe Pow1 (,,(,a) streng wachsend in '"Y ist, erhält man aus der oberen

Konfidenzgrenze 1 ,zur Sicherheit 1- a ' auch die folgende obere Konfidenz-0,0:

grenze der Testschärfe zur gleichen Sicherheit

(10) Pow1( 1 "a) = 1- H( 1 ,I FG, tpG ) (obere Grenze der Schärfe).

0,0: 0, 0: ,0:

Falls der einseitige t-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem

Fall ist eine Schätzung der Schärfe von Interesse), so ist die obere Konfidenzgrenze

der Schärfe kleiner als 1- a ' . Genauer gilt

(11) Pow1(1 "a) < I-a' 0,0:

Die einseitige untere Konfidenzgrenze Pow1( 1 "a) der Schärfe ist nicht von prak

u,o: tischem Interesse. Sie ist bei Nicht-Ablehnung der Nullhypothese sogar kleiner als a /:


Die Schärfe des zweiseitigen t-Test kann man bei Nicht-Ablehnung der Nullhypo-

these analog zur einseitigen Schärfe durch Pow2(?,w) schätzen. Konfidenzgrenzen

der zweiseitigen Schärfe werden in 2.6 für beliebige F-Tests entwickelt und sind

auch auf den zweiseitigen t-Test anwendbar, wenn dieser als F-Test interpretiert

wird.

2.7.2 Schätzungen für den F-Test

Wir betrachten den F-Test aus 2.6.1 mit den Hypothesen

(LH) Nullhypothese: Ho: p € A o (Untermodell 4 gilt) ,

Alternative: H : p @ A o , p p ~ A (Untermodell Ao gilt nicht ).

Die Nichtzentralität y des F-Tests


Diese Schätzung hat die skalierte nichtzentrale F-Verteilung m .F (y) mit r n l n

m = AFG = FG(Ao) - F G ( 4 , n = F G ( 4 .

Wir wollen jetzt eine einseitige obere Konfidenzgrenze zur Sicherheit 1- w' für 0, a'

die Nichtzentralität y konstruieren. In der Regel wird hierbei w' mit dem Testni-

veau w übereinstimmen, aber das ist nicht zwingend notwendig. Ausgangspunkt ist

die Verteilungsfunktion @F (7)

(X) von F (y), die wir als Funktion in y betrach- m,n m,n

ten wollen. Setzen wir

(3) H(ylm,n,x) = @ (X) = P { Frn,n(y) 5 X ) für y, X 2 0, Fm, n(7)


(12)

Die Schärfe des zweiseitigen t-Test kann man bei Nicht-Ablehnung der Nullhypo

these analog zur einseitigen Schärfe durch Pow 2 (1, a) schätzen. Konfidenzgrenzen

der zweiseitigen Schärfe werden in 2.6 für beliebige F-Tests entwickelt und sind

auch auf den zweiseitigen t-Test anwendbar, wenn dieser als F-Test interpretiert

wird.

2.7.2 Schätzungen für den F-Test

Wir betrachten den F-Test aus 2.6.1 mit den Hypothesen

(LH) Nullhypothese: (Untermodell ...40

gilt) ,

Alternative: H: Jlt1....40

' JlE...4 (Untermodell ...40 gilt nicht ).

Die Nichtzentralität r des F-Tests


(2)

Diese Schätzung hat die skalierte nichtzentrale F-Verteilung m . F ('Y) mit m,n

n = FG(JIt).

Wir wollen jetzt eine einseitige obere Konfidenzgrenze 1 I zur Sicherheit 1- a' für 0,0:

die Nichtzentralität 'Y konstruieren. In der Regel wird hierbei a' mit dem Testni-

veau a übereinstimmen, aber das ist nicht zwingend notwendig. Ausgangspunkt ist

die Verteilungsfunktion Pp ()(x) von F (')'), die wir als Funktion in 'Y betrach-mn"( m,n

ten wollen. Setzen wir '

(3) H(')' Im, n, x) = PPm

nb)(x) = p{ F m,n(')') < x} ,

für 'Y, x > 0,


so läßt sich die obere Grenze für y zur Sicherheit 1 - a' definieren durch

(4) Y O l a 1 = i n f { y > ~ I ~ ( y I m , n , ~ ) a a 1 ) > ~

(Definition der oberen Grenze Y /) 0,

Da H(y I m, n, X) nach Exkurs V 3.2 für X > 0 streng fallend in y ist mit

(5> inf H = H(oo I m, n, X) = 0, sup H = H(0 I m, n, X),

ist die Abbildung H(- I m,n,x) : (0, oo) + (0, sup H) bijektiv. Unter Verwendung der

Inversen HP'( - 1 m, n, X) : (0, sup H) + (0, oo) ergibt sich folgende Darstellung

-i ~ - l ( a ' ~ m , n , ~ ) > O f ü r a ' < H ( ~ I m , n , F ) b z w . F > F m, n, 1-a' (6) Yo,a' - für al>H(O Im,n, F) bzw. F<F

m, n, 1-a'

Insbesondere folgt in jedem der beiden Fälle in (6)

(7) ?o,a' = min { y > 0 I H ( y I m , n , F ) < a ' ) .

Nach diesen Vorbereitungen 1äß sich nun zeigen, daß Y eine einseitige obere 0, a'

Konfidenzgrenze für y zur Sicherheit 1 - U', d. h. es gilt

Man beachte,daß hier „<" statt „<" steht, weil die Grenze Y im Punkt 0 nicht 0, a'

stetig verteilt ist, da

Allerdings erhält man aus (8) sofort die Abschätzung

die aber unter der Nullhypothese H : y = 0 trivial ist, weil dann gilt 0

Wir betrachten jetzt die Schärfe und erhalten aus der Schätzung Y folgende Schät-

zung der Schärfe


so läßt sich die obere Grenze für r zur Sicherheit 1- a' definieren durch

(4) 10

(x' = inf { l' > 0 I Hb Im, n, F) < a'} > 0 , (Definition der oberen Grenze 1 ,)

0, (X

Da H( l' Im, n, x) nach Exkurs V 3.2 für x> 0 streng fallend in l' ist mit

(5) inf H = H( 00 I m, n, x) = 0, sup H = H(O Im, n, x),

ist die Abbildung H( -I m,n,x): (0, (0) -----+ (0, supH) bijektiv. Unter Verwendung der

Inversen H-\ -I m, n,x) : (0, supH) -----+ (0, (0) ergibt sich folgende Darstellung

(6) für a' <H(O Im, n, F) bzw. F>F 1 '} m,n, -(X

für a' > H(O Im, n, F) bzw. F<F mn 1-(X' • , ,

Insbesondere folgt in jedem der beiden Fälle in (6)

(7) 10

(x' = min { l' > 0 I Hb I m, n, F) < a'} . ,

Nach diesen Vorbereitungen läß sich nun zeIgen, daß 1 ,eme einseitige obere 0, (X

Konfidenzgrenze für l' zur Sicherheit 1- a', d. h. es gilt

(8) P{ l' < 1 ,} = 1- a'. 0, (X

Man beachte,daß hier ,,<" statt ,,<" steht, weil die Grenze 10

(x' im Punkt 0 nicht , stetig verteilt ist, da

(9) P{ 1 ,=O} = Pp ()(F 1- ,) E (O,a'] 0, (X m, n "( m, n, (X

Allerdings erhält man aus (8) sofort die Abschätzung

(10) P{I'<10

(X'} > l-a', , die aber unter der Nullhypothese HO: l' = 0 trivial ist, weil dann gilt

P{ l' < 10

(x' } = 1 für l' = o. ,

Wir betrachten jetzt die Schärfe und erhalten aus der Schätzung 1 folgende Schät

zung der Schärfe


(11) Pow(+, a) = 1 - @ Fm, n(?)(Fm, n, 1 (geschätzte Schärfe)

Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be-

obachteten Abweichung Y entspricht.

Für die (in y streng monotone) Schärfe Pow(y, a) erhält man nun folgende einsei-

tige obere Konfidenzgrenze zur Sicherheit 1 - a'

(12) Pow(+ a) = 1-H(+ 0, a' ' O, a' I m, Fm, n, a ) (obere Grenze der Schärfe).

Falls der F-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem Fall ist

eine Schärfe-Schätzung von Interesse), so ist die obere Konfidenzgrenze der Schärfe 1 kleiner als 1- a', sofern a' < 1- a gilt, was z. B. für a' = a < - stets der Fall ist. 2

Genauer gilt


(11) Pow(1,a) = 1- Pp (A)(F ) m,n"( m,n,Ct

(geschätzte Schärfe)

Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be

obachteten Abweichung 1 entspricht.

Für die (in '"Y streng monotone) Schärfe Pow( '"Y ,a) erhält man nun folgende einsei

tige obere Konfidenzgrenze zur Sicherheit 1- a'

(12) Pow( 1 , , a) = 1 - H( 1 ,I m, n, F ) (obere Grenze der Schärfe). O,Ct O,Ct m,n,Ct

Falls der F-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem Fall ist

eine Schärfe-Schätzung von Interesse), so ist die obere Konfidenzgrenze der Schärfe

kleiner als 1- a', sofern a' < 1- a gilt, was z. B. für a' = a< ~ stets der Fall ist.

Genauer gilt

(13) Für a' < 1- a ist: Pow(1 "a) < l-a' {} O,Ct

F< F m,n,Ct

3.1 Quantitative Covariablen und Faktoren 18.7.05 3 - 1

3 Elementare Modelle und Analysen

Wir wollen jetzt einige grundlegende Prinzipien der Modellbildung erläutern und

die sich daraus ergebenden Analysen für eine oder zwei beobachtete Covariable un-

tersuchen:

die Regressz~nsanal~se für eine und zwei Variablen,

die einfache Varianzanalyse für einen Faktor,

die einfache Covarianzanalyse für eine Variable und einen Faktor.

Aus Gründen der Übersicht werden die jeweiligen Modelle in der Regel zuerst für

eine Einzelbeobachtung Y und dann später für den Vektor Y = (Y1, ..., YJ) aller J Be-

obachtungen formuliert.

3.1 Quantitative Covariablen und Faktoren

Ausgangspunkt ist eine einzelne Beobachtung, also eine reelle Zufallsvariable Y mit

Gesucht ist eine Modellierung des Erwartungswertes ,LL durch beobachtete Covari-

ablen. Bei den beobachteten Covariablen unterscheidet man zwischen quantitativen

und qualztatzven Variablen.

Quantitative Variablen sind solche, deren Werte durch reelle Zahlen gegeben sind,

wie z.B. Messwerte (Zeitdauer, Gewicht etc.) oder Anzahlen (Geschwister, Therapie-

anwendungen etc.). Zur Bezeichnung quantitativer Variable werden wir bevorzugt

die Kleinbuchstaben z, U, v ... verwenden.

Demgegenüber sind qualitative Variablen oder Faktoren dadurch charakterisiert, daß

sie nur endlich viele Zustände annnehmen, die im allgemeinen nicht durch Zahlen

gegeben sind, wie z.B. das Geschlecht mit den beiden Zuständen weiblich und männ-

lich, oder ein Krankheitsstatus mit den drei Zuständen gesund, leicht erkrankt, schwer

erkrankt. sind. Faktoren werden wir bevorzugt mit den Großbuchstaben A, B, ... be-

zeichnen.

Bei einem Faktor A mit insgesamt K> 2 möglichen Zuständen ist es zweckmäßig,

diese formal (und meist willkürlich) durch die Zahlen 1, ..., K zu codieren, die man

3.1 quantitative Covariablen und Faktoren 18.7.05 3-1

3 Elementare Modelle und Analysen

Wir wollen jetzt einige grundlegende Prinzipien der Modellbildung erläutern und

die sich daraus ergebenden Analysen für eine oder zwei beobachtete Covariable un

tersuchen:

die Regressionsanalyse für eine und zwei Variablen,

die einfache Varianzanalyse für einen Faktor,

die einfache Covarianzanalyse für eine Variable und einen Faktor.

Aus Gründen der Übersicht werden die jeweiligen Modelle in der Regel zuerst für

eine Einzelbeobachtung Y und dann später für den Vektor Y = (Y1, ... , Y

J) aller J Be

obachtungen formuliert.

3.1 Quantitative Covariablen und Faktoren

Ausgangspunkt ist eine einzelne Beobachtung, also eine reelle Zufallsvariable Y mit

(1) fl = E(Y) E M, 9(fl) E IH.

Gesucht ist eine Modellierung des Erwartungswertes fl durch beobachtete Covari

ablen. Bei den beobachteten Covariablen unterscheidet man zwischen quantitativen

und qualitativen Variablen.

Quantitative Variablen sind solche, deren Werte durch reelle Zahlen gegeben sind,

wie z.B. Messwerte (Zeitdauer, Gewicht etc.) oder Anzahlen (Geschwister, Therapie

anwendungen etc.). Zur Bezeichnung quantitativer Variable werden wir bevorzugt

die Kleinbuchstaben z) u, v ... verwenden.

Demgegenüber sind qualitative Variablen oder Faktoren dadurch charakterisiert, daß

sie nur endlich viele Zustände annnehmen, die im allgemeinen nicht durch Zahlen

gegeben sind, wie z.B. das Geschlecht mit den beiden Zuständen weiblich und männ

lich, oder ein Krankheitsstatus mit den drei Zuständen gesund) leicht erkrankt) schwer

erkrankt. sind. Faktoren werden wir bevorzugt mit den Großbuchstaben A, B, ... be

zeichnen.

Bei einem Faktor A mit insgesamt K> 2 möglichen Zuständen ist es zweckmäßig,

diese formal (und meist willkürlich) durch die Zahlen 1, ... , K zu codieren, die man

3.1 Quantitative Covariablen und Faktoren 18.7.05 3 - 2

als Stufen des Faktors bezeichnet. Für die formale Beschreibung bei der Modellbil-

dung identifiziert man die Zustände des Faktors mit den dazugehörigen Stufen, d.h.

man geht der Einfachheit halber davon aus, daß der Faktor A die Stufen 1, ..., K an- A nimmt. Dann wird für jede Stufe 6 = 1, ..., K eine Indibatorvariable Ik für das Ereig-

nis {A = lc)eingeführt:

Da der Faktor A E (1, ..., K ) genau eine Stufe annimmt, gilt

A A Die Stufe des Faktors A ist durch die Angabe aller K Indikatorvariablen 11, ... IK

eindeutig bestimmt, und nach (3) sogar durch irgendeine Auswahl von K-1 dieser In- A dikatoren. In der Praxis bleibt typischerweise der erste Indikator I außer Betracht. 1

Ob eine beobachtete Variable als quantitative Variable oder als Faktor bei der Mo-

dellbildung berücksichtigt werden soll, hängt von den Intentionen der Analyse ab.

So kann man etwa eine quantitative Variable nach einer Klassifizierung ihrer Werte

in einen Faktor überführen, dessen Zustände den Klassen entsprechen, z.B bei einer

Klassifikation des Alters in drei Zustände (Kind, Jugendlicher, Erwachsener) oder

der Klassifikation einer Dosis (gering, mittel, hoch). - Andererseits kann man einen

Faktor auch als quantitative Variable ansehen, wenn die durch die Codierung gege-

bene Anordnung der Stufen mit berücksichtigt werden soll, z.B ist die Identifizierung

der Kalendermonate (Januar, ..., Dezember) durch die Stufen 1, ..., 12 sinnvoll, wenn

die durch sie gegebene zeitliche Anordnung mitbrücksichtigt werden soll.

3.1 quantitative Covariablen und Faktoren 18.7.05 3-2

als Stufen des Faktors bezeichnet. Für die formale Beschreibung bei der Modellbil

dung identifiziert man die Zustände des Faktors mit den dazugehörigen Stufen, d.h.

man geht der Einfachheit halber davon aus, daß der Faktor A die Stufen 1, ... , K an

nimmt. Dann wird für jede Stufe k = 1, ... , Keine Indikatorvariable 11 für das Ereig

nis {A = k }eingeführt:

(2) falls A = k sonst

Da der Faktor A E {I, ... ,K} genau eine Stufe annimmt, gilt

(3)

Die Stufe des Faktors A ist durch die Angabe aller K Indikatorvariablen 11, ... 1~ eindeutig bestimmt, und nach (3) sogar durch irgendeine Auswahl von K-1 dieser In

dikatoren. In der Praxis bleibt typischerweise der erste Indikator 11 außer Betracht.

Ob eine beobachtete Variable als quantitative Variable oder als Faktor bei der Mo

dellbildung berücksichtigt werden soll, hängt von den Intentionen der Analyse ab.

So kann man etwa eine quantitative Variable nach einer Klassifizierung ihrer Werte

in einen Faktor überführen, dessen Zustände den Klassen entsprechen, z.B bei einer

Klassifikation des Alters in drei Zustände (Kind, Jugendlicher, Erwachsener) oder

der Klassifikation einer Dosis (gering, mittel, hoch). - Andererseits kann man einen

Faktor auch als quantitative Variable ansehen, wenn die durch die Codierung gege

bene Anordnung der Stufen mit berücksichtigt werden soll, z.B ist die Identifizierung

der Kalendermonate (Januar, ... , Dezember) durch die Stufen 1, ... , 12 sinnvoll, wenn

die durch sie gegebene zeitliche Anordnung mitbrücksichtigt werden soll.

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-3

3.2 Modelle für eine beobachtete Covariable

Wir betrachten die Situation daß neben der Zielvariablen Y nur noch eine weitere

(quantiative oder qualitative) Variable beobachtet wurde. Zuerst behandeln wir das

das konstante Modell, in dem die Variable keinen Einfluß auf den Erwartungswert

von Y hat und danach betrachten wir Modelle die einen Einfluß der Variablen mo

dellieren, wobei wir unterscheiden, ob es sich um eine quantitative Variable z oder

um einen Faktor A handelt.

3.2.1 Das konstante Modell

Wir betrachten jetzt wieder 1 Beobachtungen mit dem zugehörigen Vektor

Y = (Yl, ..., Y

J) der Zielvariablen. Das konstante Modell für den Erwartungsvektor

Jl = E(Y) ist dadurch charakterisiert, daß die Erwartungswerte p,. = E(Y.) für alle] ]

Beobachtungen j = 1, ...,1 konstant sind

(KM)

Dies ist ein eindimensionales allgemeines lineares Modell der Form

(KM)' p,.=e]

für alle j = 1, ..., 1.

mit Parameter eE IR und einer formalen (und konstanten) Covariable x. = 1. Da der]

Parameter und die Covariable hier eindimensional sind (d.h. S = 1) verzichten wir auf

die Indizierung der jeweils einzigen Komponente, d.h. wir schreiben e statt el

und

x. statt x .1. Die zugehörige Modellmatrix lautet] ]

(1) X = e+ = (1, ..., l)T EIRJ lxI-Matrix,

mit dem (konstanten) Vektor e+ als Summe aller Einheitsvektoren ef

Der Modell

raum für den Erwartungswert Jl = ee+ ist

(2)

(3)

vft=~J' wobei

(Diagonale von IRJ).

Damit läßt sich das konstante Modell auch wie folgt formulieren:



Wir betrachten die Situation daß neben der Zielvariablen Y nur noch eine weitere

(quantiative oder qualitative) Variable beobachtet wurde. Zuerst behandeln wir das

das konstante Modell, in dem die Variable keinen Einfluß auf den Erwartungswert

von Y hat und danach betrachten wir Modelle die einen Einfluß der Variablen mo

dellieren, wobei wir unterscheiden, ob es sich um eine quantitative Variable z oder

um einen Faktor A handelt.

3.2.1 Das konstante Modell

Wir betrachten jetzt wieder 1 Beobachtungen mit dem zugehörigen Vektor

Y = (Yl, ... , Y

J) der Zielvariablen. Das konstante Modell für den Erwartungsvektor

Jl = E(Y) ist dadurch charakterisiert, daß die Erwartungswerte p,. = E(Y.) für alle ] ]

Beobachtungen j = 1, ... , 1 konstant sind

(KM)

Dies ist ein eindimensionales allgemeines lineares Modell der Form

(KM)' p,.=B ]

für alle j = 1, ... , 1.

mit Parameter BE IR und einer formalen (und konstanten) Covariable x. = 1. Da der ]

Parameter und die Covariable hier eindimensional sind (d.h. S = 1) verzichten wir auf

die Indizierung der jeweils einzigen Komponente, d.h. wir schreiben B statt Bl

und

x. statt x .1. Die zugehörige Modellmatrix lautet ] ]

(1) X = e + = (1, ... , l)T EIRJ lxI-Matrix,

mit dem (konstanten) Vektor e + als Summe aller Einheitsvektoren ef

Der Modell

raum für den Erwartungswert Jl = Be + ist

(2)

(3)

vft=~J' wobei

(Diagonale von IRJ).

Damit läßt sich das konstante Modell auch wie folgt formulieren:


(KM)"

Für YE IR] ist die orthogonale Projektion PD. Y gegeben durchJ

mit

(Mittelwert von y).

P - (- -) IR]D.JY = y. e+ = y, ..., Y E

- 1 'I\"Y = J ~ Yj

JHieraus erhält man die expliziten Darstellungen der Schätzungen für eund p,:

(4)

(5)

(6)

(7) 4=Y·e+

J1 2: Y.

. JJ

- - ]= (Y, ..., Y) E IR

(Mittelwert von Y)!

Die Deviance

2 - 2(8) Dev(L:,J) = 11 Y - 411 = 2: (Y.- Y) =: SYY

. JJ

ist der Summe der quadratischen Abweichungen aller Beobachtungen von ihrem

Mittelwert. Die Schätzung für 0-2 ist daher die übliche empirische Varianz der Be

obachtungen Y1' ..., Y]

(9) A2 _ 1 'I\" (Y y-)20- - J-1 ~ j- .

JUnd die Varianz der Schätzung B= Y ergibt sich mit 2.2 (4) aus J = XTX zu

(10) Var(B) = } 0-2

3.2.2 Modelle für eine quantitative Variable

Wir betrachten jetzt wieder eine Einzelbeobachtung und gehen davon aus, daß ne

ben der Zielvariablen Y nur eine weitere quantitative Covariable Z beobachtet wird,

wobei der Erwartungswert p, = E(Y) nur vom Wert z dieser Covariablen Z abhängt

(1) P, = p,(z) := E(Y IZ = z) .

Für diese Situation haben wir bereits in 2.1.1 (dort mit der Variablen x statt z) das

lineare Regressionsmodell

und in 2.2.1 das Polynomregressionsmodell

3.2 Modelle für eine beobachtete Covariable 7.7.10

(KM)"

Für Y E IR] ist die orthogonale Projektion PD. Y gegeben durch J

(4) P - (- -) IR] D.JY = y. e + = y, ... , Y E mit

- 1 'I\"' Y = J ~ Yj

J

(5) (Mittelwert von y).

Hieraus erhält man die expliziten Darstellungen der Schätzungen für e und p,:

(6)

(7) 4=Y·e +

J1 2: Y.

. J J

- - ] = (Y, ... , Y) E IR

(Mittelwert von Y)!

Die Deviance

(8) 2 - 2 Dev(~J) = 11 Y - 411 = 2: (Y.- Y) =: SYY

. J J

3-4

ist der Summe der quadratischen Abweichungen aller Beobachtungen von ihrem

Mittelwert. Die Schätzung für 0-2 ist daher die übliche empirische Varianz der Be

obachtungen Y1' ... , Y]

A2 _ 1 'I\"' (Y y-)2 0- - J-1 ~ j- .

J

(9)

Und die Varianz der Schätzung B = Y ergibt sich mit 2.2 (4) aus J = XTX zu

(10) Var(B) = } 0-2

3.2.2 Modelle für eine quantitative Variable

Wir betrachten jetzt wieder eine Einzelbeobachtung und gehen davon aus, daß ne

ben der Zielvariablen Y nur eine weitere quantitative Covariable Z beobachtet wird,

wobei der Erwartungswert p, = E(Y) nur vom Wert z dieser Covariablen Z abhängt

(1) P, = p,(z) : = E(Y I Z = z) .

Für diese Situation haben wir bereits in 2.1.1 (dort mit der Variablen x statt z) das

lineare Regressionsmodell

und in 2.2.1 das Polynomregressionsmodell


kennengelernt. Letztes ist ein lineares Modell, wobei der zugehörige Covariablen

vektor x = (1, z, z2, ... , zS-l) E IRS eine Funktion x = h(z) des beobachteten Wertes z

ist. Man erhält nun eine etwas allgemeinere Klassen von Linearen Modellen, indem

man einen formalen Covariablenvektor x betrachtet, dessen Komponenten über vor

gegebene Funktionen h von dem beobachteten Wert z abhängens

(2) x = h(z) bzw. x = h (z)s s

für s = 1, ...,5.

Beispiele für solche Funktionen h sind:s

• h (z) = 1, d.h. x = 1 (konstante Covariable)s s

• h (z) = z, d.h. x =z (identische Transformation)s s

• h (z) = log z, d.h. x = log z (log-Transformation)s s

• h (z) = z1 d.h. x = z1 (Potenz-Transformation)s s

wobei im letzten Fall der Parameter "( E IR fest vorgegeben sein muß (wenn "( ein zu

sätzlicher unbekannter Parameter ist, so liegt kein Lineares Modell mehr vor).

Das zugehörige Modell lautet dann

(3)

Betrachten jetzt wieder einen Vektor Y = (Yl, ..., Y

J) von J Beoabchtungen mit der

zugehörigen J x S Covariablen-Matrix so lautet das Lineare Modell für den Erwar

tungsvektor Jl = E(Y)

(4) Jl = X() bzw. 5Jl E Jt'= X [IR ].

Es zweckmäßig, das Modell so zu wählen, daß es das konstante Modell ~J umfaßt

weil dann die - typischerweise interessierende - lineare Hypothese

(d.h. die Covariable z hat keinen Einfluß)

mit dem F-Test überprüfen werden kann. Aus diesem Grund wird meist die erste

Modellvariable xl konstant = 1 gesetzt zu wählen (d.h. hl

= 1 ist konstant), und (3)

reduziert dann zu


kennengelernt. Letztes ist ein lineares Modell, wobei der zugehörige Covariablen

vektor x = (1, z, z2, ... , zS--l) E IRS eine Funktion x = h(z) des beobachteten Wertes z

ist. Man erhält nun eine etwas allgemeinere Klassen von Linearen Modellen, indem

man einen formalen Covariablenvektor x betrachtet, dessen Komponenten über vor

gegebene Funktionen h von dem beobachteten Wert z abhängen s

(2) x = h(z) bzw. x = h (z) s s

für s = 1, ... ,5.

Beispiele für solche Funktionen h sind: s

• h (z) = 1, d.h. x = 1 (konstante Covariable) s s

• h (z) = z, d.h. x =z (identische Transformation) s s

• h (z) = log z, d.h. x = log z (log-Transformation) s s

• h (z) = z'"Y d.h. x =z'"Y (Potenz-Transformation) s s

wobei im letzten Fall der Parameter '"Y E IR fest vorgegeben sein muß (wenn '"Y ein zu

sätzlicher unbekannter Parameter ist, so liegt kein Lineares Modell mehr vor).

Das zugehörige Modell lautet dann

(3)

Betrachten jetzt wieder einen Vektor Y = (Yl, ... , Y

J) von J Beoabchtungen mit der

zugehörigen J x S Covariablen-Matrix so lautet das Lineare Modell für den Erwar

tungsvektor Jl = E(Y)

(4) Jl = X() bzw. 5 Jl E Jt'= X [IR ].

Es zweckmäßig, das Modell so zu wählen, daß es das konstante Modell ~ J umfaßt

weil dann die - typischerweise interessierende - lineare Hypothese

(d.h. die Covariable z hat keinen Einfluß)

mit dem F-Test überprüfen werden kann. Aus diesem Grund wird meist die erste

Modellvariable xl konstant = 1 gesetzt zu wählen (d.h. hl = 1 ist konstant), und (3)

reduziert dann zu


(6) p,.J

für j = 1, ...,1.

Beipiel: Das lineare Regressionsmodell (in transformierter Variable)

Speziell für S = 2 ergibt sich aus (6) das lineare Regressionsmodell in der transformier

ten Variablen x

(7) für j = 1, ... ,J,

bei dem der Erwartungswert eine lineare Funktion in x = h(z) mit fest vorgegebener

Funktion h ist (der Index ,,2" bei x und h ist hier unterdrückt). Die zugehörige Re

gressionsanalyse haben wir bereits in 2.5.4 behandelt.. D

Beispiel: Das Polynom-Regressionsmodell (in transformierter Variable)

Eine Erweiterung des linearen Regressionsmodells ist das Polynom-Regressionsmo

dell in der transformierten Variablen x

(8) für j = 1, ...,J

bei dem der der Erwartungswert ein Polynom in einer (vorgegebenen) Funktion

x= h(z) der beobachteten Covariablen z ist. D

3.2.3 Das vollständige Modell für einen Faktor

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y nur ein weiterer (codier

ter) Faktor A E {I, ...,K} mit K Stufen beobachtet wird, und der Erwartungswert ei

ner Einzelbeobachtung Y nur von der beobachteten Stufe k des Faktors A abhängt

(1) p, = p,(k) := E(Y IA = k) .

Das allgemeinste Modell für einen Faktor besagt, daß der Erwartungswert einer Ein

zelbeobachtung Y auf beliebige Weise vom Faktor A abhängen kann, d. h.

für k = 1, ..., K

mit beliebigen Parametern el , ... , eK

E IR. Der Parameter ek

ist hier direkt interpre-


(6) J-L. J

für j = 1, ... ,1.

Beipiel: Das lineare Regressionsmodell (in transformierter Variable)

Speziell für S = 2 ergibt sich aus (6) das lineare Regressionsmodell in der transformier

ten Variablen x

(7) für j = 1, ... ,l,

bei dem der Erwartungswert eine lineare Funktion in x = h(z) mit fest vorgegebener

Funktion h ist (der Index ,,2" bei x und h ist hier unterdrückt). Die zugehörige Re-

gressionsanalyse haben wir bereits in 2.5.4 behandelt .. D

Beispiel: Das Polynom-Regressions modell (in transformierter Variable)

Eine Erweiterung des linearen Regressionsmodells ist das Polynom-Regressionsmo

dell in der transformierten Variablen x

(8) für j = 1, ... ,l

bei dem der der Erwartungswert ein Polynom in einer (vorgegebenen) Funktion

x = h(z) der beobachteten Covariablen z ist. D

3.2.3 Das vollständige Modell für einen Faktor

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y nur ein weiterer (codier

ter) Faktor A E {I, ... , K} mit K Stufen beobachtet wird, und der Erwartungswert ei

ner Einzelbeobachtung Y nur von der beobachteten Stufe k des Faktors A abhängt

(1) J-L = J-L(k) : = E(Y I A = k) .

Das allgemeinste Modell für einen Faktor besagt, daß der Erwartungswert einer Ein

zelbeobachtung Y auf beliebige Weise vom Faktor A abhängen kann, d. h.

für k = 1, ... , K

mit beliebigen Parametern el , ... , eK

E IR. Der Parameter ek

ist hier direkt interpre-


tierbar als Erwartungswert der Beoabchtung Y bei gegebener Stufe k des Faktors A.

Bezeichnet A. E { 1, ...,K} die Stufe des Faktors A für die Beobachtung j = 1, ... ,1, so]

lautet das Modell für alle 1 Beobachtungen

(MIF) falls k =A.J

für alle j, k.

A=k ,

Unter Verwendung der Indikatorvariablen I~ = I{A = k} mit

AI k = 1(2)

läßt sich das Modell äquivalent schreiben als

(MIF)~

Dies ist ein Lineares Modell mit S = K Parametern und dem Parametervektor

(3) (direkte Parametrisierung).

In Vektorschreibweise lautet das Modell für 1 Beobachtungen

(MIF) ,

wobei die zugehörige lxK-Modellmatrix IA = (I~j ) nur Nullen und Einsen als

Komponenten hat. Die j-te Zeile von I A ist der k-te Einheitsvektor ek

E IRK, wobei

k = A. die zugehörige Stufe ist. Der Rang von IA ist die Anzahl aller verschiedenen]

beobachteten Stufen

(4) Rang (I A) = # {A. Ij = 1, ...,l}.]

Folglich gilt die Rangbedingung Rang (I A) = K genau dann, wenn jede Stufe

k = 1, ...,K auch mindestens einmal beobachtet wurde. Wir setzen dies jetzt ohne Be

schränkung der Allgemeinheit voraus, denn wenn dies nicht erfüllt ist, kann man

die Stufen auf alle beobachteten Stufen reduzieren und die Codierung entsprechend

ändern.

Aus der Nebenbedingung an die Indikatorvariablen

(5)

ergibt sich die äquivalente Modelldarstellung


tierbar als Erwartungswert der Beoabchtung Y bei gegebener Stufe k des Faktors A.

Bezeichnet A. E { 1, ... , K} die Stufe des Faktors A für die Beobachtung j = 1, ... ,1, so ]

lautet das Modell für alle 1 Beobachtungen

(MIF) falls k =A. J

für alle j, k.

Unter Verwendung der Indikatorvariablen I~ = I{A = k} mit

A I k = 1 (2) A=k ,


(MIF)~

Dies ist ein Lineares Modell mit S = K Parametern und dem Parametervektor

(3) (direkte Parametrisierung).

In Vektorschreibweise lautet das Modell für 1 Beobachtungen

(MIF) ,

wobei die zugehörige lxK-Modellmatrix IA = (I~j ) nur Nullen und Einsen als

Komponenten hat. Die j-te Zeile von I A ist der k-te Einheitsvektor ek

E IRK, wobei

k = A. die zugehörige Stufe ist. Der Rang von IA ist die Anzahl aller verschiedenen ]

beobachteten Stufen

(4) Rang (I A) = # { A. I j = 1, ... ,l}. ]

Folglich gilt die Rangbedingung Rang (I A) = K genau dann, wenn jede Stufe

k = 1, ... , K auch mindestens einmal beobachtet wurde. Wir setzen dies jetzt ohne Be

schränkung der Allgemeinheit voraus, denn wenn dies nicht erfüllt ist, kann man

die Stufen auf alle beobachteten Stufen reduzieren und die Codierung entsprechend

ändern.

Aus der Nebenbedingung an die Indikatorvariablen

(5)

ergibt sich die äquivalente Modelldarstellung


(MIF)~ mit

für k = 2, ..., K.

Dies ist eine Kontrast-Parametrisierung mit der Referenzstufe 1) weil die Parameter e~,

...,e~ jeweils den Kontrast zur Stufe 1 angeben, die man in diesem Zusammenhang

als Referenzstufe interpretiert. Die inhaltliche Interpretation dieser Parameter er

gibt sich aus

(6) e{ = E(YIA = 1),

e~ = E(YIA =k) - E(YIA = 1) für k = 2, ..., K.

Der Vektor eder direkten Parametrisierung ergibt sich aus e' wie folgt:

(7) für k = 2, ..., K.

In Vektorschreibweise lautet das Modell

(MIF) " Jl = xe'

wobei die JxK-Modellmatrix folgende Spaltendarstellung besitzt

d.h. X enthält als erste Spalte den konstanten Vektor e+und stimmt in den restli

chen Spalten mit der Matrix I A überein.

Da die Modellformulierungen (MIF) 1 und (MIF) 11 äquivalent sind, stimmen die

von den Spalten von IA bzw. X erzeugten Modellräume überein

In "parameterfreier" Schreibweise lautet das Modell

(MIF)* Jl E .At

und hieraus erkennt man, daß die direkte bzw. die Kontrast-Parametrisierung den

Modellraum .At lediglich durch andere Koordinaten beschreiben. Das Modell .At

umfaßt das konstante Modell für e1 = e2 = ... = eJ bzw. e~ = ... = e; = 0, d.h.

Umgekehrt betrachtet, ergibt sich das Modell .At aus dem konstanten Modell ~J


(MIF)~ mit

für k = 2, ... , K.

Dies ist eine Kontrast-Parametrisierung mit der Referenzstufe 1) weil die Parameter e~,

... , e~ jeweils den Kontrast zur Stufe 1 angeben, die man in diesem Zusammenhang

als Referenzstufe interpretiert. Die inhaltliche Interpretation dieser Parameter er

gibt sich aus

(6) e{ = E(YIA = 1),

e~ = E(YIA =k) - E(YIA = 1) für k = 2, ... , K.

Der Vektor e der direkten Parametrisierung ergibt sich aus e' wie folgt:

(7) für k = 2, ... , K.

In Vektorschreibweise lautet das Modell

(MIF) " Jl = X e'

wobei die lxK-Modellmatrix folgende Spaltendarstellung besitzt

d.h. X enthält als erste Spalte den konstanten Vektor e + und stimmt in den restli

chen Spalten mit der Matrix I A überein.

Da die Modellformulierungen (MIF) 1 und (MIF) 11 äquivalent sind, stimmen die

von den Spalten von IA bzw. X erzeugten Modellräume überein

In "parameterfreier" Schreibweise lautet das Modell

(MIF) * Jl E .At

und hieraus erkennt man, daß die direkte bzw. die Kontrast-Parametrisierung den

Modellraum .At lediglich durch andere Koordinaten beschreiben. Das Modell .At

umfaßt das konstante Modell für e 1 = e 2 = ... = e J bzw. e ~ = ... = e; = 0, d.h.

Umgekehrt betrachtet, ergibt sich das Modell .At aus dem konstanten Modell ~ J


durch Hinzufügen der K-1 Indikatorvariablen 11, ...,I~ für die Stufen 2, ..., K von A.

Die - typischerweise interessierende - lineare Hypothese

(d.h. der Faktor A hat keinen Einfluß)

läßt sich dann - unter der Normalverteilungsannahme (NVY) - mit dem F-Test im

Rahmen einer sogenannten Varianzanalyse überprüfen (vgl. Abschnitt 3.2.4).

Eine weitere äquivalente Modelldarstellung ergibt sich analog (MIF)" wenn man

statt der Stufe 1 eine beliebige Stufe rE {I, ...,K} als Referenzstufe wählt:

für alle j.

Dies ist ebenfalls ein Lineares Modell mit S = K und den Parametern

(11) B' = Br r' für k :;z= r.

Hierdurch ergeben sich aber keine prinzipiell neuen Aspekte, weil man durch eine

geeignete Umnumerierung (Umcodierung) der Stufen wieder die Form (MIF)" er

halten kann.

Da die Kontrast-Parametrisierung einige Vorzüge gegenüber der direkten Parame

trisierung hat (speziell bei der Betrachtung mehreren Faktor-Variablen, vgl. 3.3),

wird sie in statistischen Programm-Paketen,meist automatisch gewählt wenn man

dort Faktoren für ein Modell definiert.

3.2.4 Schätzungen im vollständigen Modell für einen Faktor

Zur Bestimmung der Schätzungen im vollständigen Modell ist es übersichtlicher

davon auszugehen, daß die Beobachtungen (Y.,A.) nach den Stufen A. sortiert sind,] ] ]

d.h. es gibt Indizes

(1)

(2)

Dann ist

{} A. = k]

mit

für alle j und k.


durch Hinzufügen der K-1 Indikatorvariablen 11, ... , I~ für die Stufen 2, ... , K von A.

Die - typischerweise interessierende - lineare Hypothese

(d.h. der Faktor A hat keinen Einfluß)

läßt sich dann - unter der Normalverteilungsannahme (NVY) - mit dem F-Test im

Rahmen einer sogenannten Varianz analyse überprüfen (vgl. Abschnitt 3.2.4).

Eine weitere äquivalente Modelldarstellung ergibt sich analog (MIF)" wenn man

statt der Stufe 1 eine beliebige Stufe rE {I, ... , K} als Referenzstufe wählt:

für alle j.

Dies ist ebenfalls ein Lineares Modell mit S = K und den Parametern

(11) B' = B r r' für k ;z= r.

Hierdurch ergeben sich aber keine prinzipiell neuen Aspekte, weil man durch eine

geeignete Umnumerierung (Umcodierung) der Stufen wieder die Form (MIF)" er

halten kann.

Da die Kontrast-Parametrisierung einige Vorzüge gegenüber der direkten Parame

trisierung hat (speziell bei der Betrachtung mehreren Faktor-Variablen, vgl. 3.3),

wird sie in statistischen Programm-Paketen,meist automatisch gewählt wenn man

dort Faktoren für ein Modell definiert.

3.2.4 Schätzungen im vollständigen Modell für einen Faktor

Zur Bestimmung der Schätzungen im vollständigen Modell ist es übersichtlicher

davon auszugehen, daß die Beobachtungen (Y.,A.) nach den Stufen A. sortiert sind, ] ] ]

d.h. es gibt Indizes

(1)

(2)

Dann ist

{} A. = k ]

mit

für alle j und k.


die Anzahl aller Beobachtungen bei denen der Faktor A die Stufe k hat. Anstelle

des Einzel-Index j verwendet man auch den Doppelindex (k, i), bei dem k die Stufe

von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe

k ist. Formal setzt man

für alle 1 < k < K, 1 < i < I(k).YkO:=YJ 0

z k+z-1

Für jede Stufe k enthält dann der I(k)-dimensionale Zufallsvektor

(4)

alle Beobachtungen der Stufe k, und der gesamte Beobachtungsvektor läßt sich in

Blockgestalt schreiben als

Diese Schreibweise mit Doppelindizes entspricht einer Darstellung des J

dimensionalen Raumes IRJ als Produkt aller I(k)-dimensionalen Räume IR1(k)

K(7) IRJ = IR1(1) x IR1(2) x ... x IR1(K) = TI IR1(k) .

k=l

Das vollständige Modell (MIF) für einen Faktor mit direkter Parametrisierung läßt

sich unter Verwendung der Doppelindizes schreiben als

(MIF)' für alle 1 < k < K, 1 < i < I(k).

Dieses Modell hat die Dimension S = K und besagt, daß der Erwartungswert nur

von der Stufe des Faktors abhängt.

Wir wollen jetzt die Schätzungen (), (i, und 52 explizit angeben. Bezeichnet

(8) mit 8 als Kronecker-Symbol

den (k, i)-ten Einheitsvektor, so hat der ))k-te Summenvektor"

(9)

genau an den Komponenten (k',i') eine Eins (und Nullen sonst) die der Stufe k ent

sprechen, d.h. wo k' = k ist. Die JxK Modellmatrix X hat gerade ek+als k-te Spalte

und läßt sich daher in Spaltendarstellung schreiben als


die Anzahl aller Beobachtungen bei denen der Faktor A die Stufe k hat. Anstelle

des Einzel-Index j verwendet man auch den Doppelindex (k, i), bei dem k die Stufe


k ist. Formal setzt man

(4) Yk·:=YJ . z k+z-1 für alle 1 < k < K, 1 < i < I(k).

Für jede Stufe k enthält dann der I(k)-dimensionale Zufallsvektor

alle Beobachtungen der Stufe k, und der gesamte Beobachtungsvektor läßt sich in

Blockgestalt schreiben als

Diese Schreibweise mit Doppelindizes entspricht einer Darstellung des J

dimensionalen Raumes IRJ als Produkt aller I(k)-dimensionalen Räume IR1(k)

K (7) IRJ = IR1(1) x IR1(2) x ... x IR1(K) = TI IR1(k) .

k=l

Das vollständige Modell (MIF) für einen Faktor mit direkter Parametrisierung läßt

sich unter Verwendung der Doppelindizes schreiben als

(MIF)' für alle 1 < k < K, 1 < i < I(k).

Dieses Modell hat die Dimension S = K und besagt, daß der Erwartungswert nur

von der Stufe des Faktors abhängt.

Wir wollen jetzt die Schätzungen (), (i, und 0-2 explizit angeben. Bezeichnet

(8) mit 8 als Kronecker-Symbol

den (k, i)-ten Einheitsvektor, so hat der ))k-te Summenvektor"

(9)

genau an den Komponenten (k',i') eine Eins (und Nullen sonst) die der Stufe k ent

sprechen, d.h. wo k' = k ist. Die JxK Modellmatrix X hat gerade ek + als k-te Spalte

und läßt sich daher in Spaltendarstellung schreiben als


Hieraus ergibt sich sofort die Gültigkeit der Rangbedingung (RB), d.h.

(11) Rang X = K.

Der zugehörige Modellraum .At läßt sich wie folgt darstellenK

(11) .At = {k'f1

Bkek+ 1 B=(Bl' .... ,BK)EIRK

}

{ J.L E IR] 1 fLki = fLkl für alle 1 < k < Kund i, l = 1, ..., I(k) }K

D.1(1) x D.1(2) x ... x D.1(K) = kD1

D.1(k)

mit D.1(k) C IR1(k) als Diagonale des IR1(k\ vgl. 3.2.1 (3).

Die Spalten von X sind wegen

(12) für alle k, l = 1, ... ,K

paarweise orthogonal und folglich läßt sich die orthogonale Projektion Pc4 für be

liebiges y E IR] leicht bestimmen zu

K(13) P y- 2: Yk+· ek+, wobeic4 -

k=l

(14) (y , ek+) / 11 ek+ 112 1

(y-Mittelwert für Stufe k).Yk+ := I(k) 2; Ykiz

Hieraus ergeben sich die Schätzungen () und (i, in Doppelindex-Schreibweise

(15)

(16)

(Mittelwert aller Beobachtungen der Stufe k)

Die Deviance

I (17)

ist die Summe aller quadratischen Abweichungen der Beobachtungen Yki von ih

rem Stufen-Mittelwert Yk +" Hieraus ergibt sich die Schätzung von 0-2 zu


Hieraus ergibt sich sofort die Gültigkeit der Rangbedingung (RB), d.h.

(11) Rang X = K.

Der zugehörige Modellraum .At läßt sich wie folgt darstellen K

(11) .At = {k'f1

Bkek+ 1 B=(Bl' .... ,BK)EIRK

}

{ J.L E IR] 1 fLki = fLkl für alle 1 < k < Kund i, l = 1, ... , I(k) } K

D.1(1) x D.1(2) x ... x D.1(K) = k D1

D.1(k)

mit D.1(k) C IR1(k) als Diagonale des IR1(k\ vgl. 3.2.1 (3).

Die Spalten von X sind wegen

(12) für alle k, l = 1, ... ,K

3-11

paarweise orthogonal und folglich läßt sich die orthogonale Projektion P c4 für be

liebiges y E IR] leicht bestimmen zu

K (13) P y- 2: Yk+· ek+, wobei c4 -

k=l

(14) (y , ek+) / 11 ek+ 112 1

(y-Mittelwert für Stufe k). Yk+ := I(k) 2; Yki z

Hieraus ergeben sich die Schätzungen () und (i, in Doppelindex-Schreibweise

(15) A - 1 Bk = Y k+ = I(k) 2; Yki

z (Mittelwert aller Beobachtungen der Stufe k)

Die Deviance

I (17)

ist die Summe aller quadratischen Abweichungen der Beobachtungen Yki von ih

rem Stufen-Mittelwert Y k +" Hieraus ergibt sich die Schätzung von 0-2 zu


(18)

(19)

1 - 2J-K 2: 2: (Yki - Y kt )

k i

J~K 2: [I(k) -1] 5~k

1 - 2I(k)-l ~ (Yki - Y kt )

z

mit

(empirische Varianz der Stufe k)

für k = 1, ...,K. Hierbei ist 5~ die Schätzung von 0-2 unter ausschließlicher Verwen

dung der Beobachtungen Y k = ( Y k1 ' ... , YkI(k) ) der Stufe k. Nach der zweiten

Darstellung in (18) ist somit die Schätzung 52 ein gewichteter Mittelwert der Schät

zungen 5~ aus den Daten Y k mit I(k) -1 als Gewichtungsfaktor.

Folglich lassen sich alle zur Bestimmung der Schätzungen relevanten Größen auch

ohne Kenntnis der Einzelwerte (Yki ) berechnen, wenn die Stufenumfänge I(k) , die

Stufen-Mittelwerte Yk t sowiedie empirischen Varianzen 5~ aller K Gruppen vorliegen.

Wir wollen jetzt noch die Covarianzmatrix des Schätzers () angeben. Aus

ergibt sich

d.h. die Komponenten von () sind paarweise unkorreliert mit

(22)

Hieraus ergibt sich die Varianz einer Linearkombination cT() für festes cE IRK

2 TA 2 1 2(23) 0-c = Var(c 0) = 0- .~ I(k) ck '

und speziell für den Unterschied ()k -()Z = Ykt

- YZt

zweier Komponenten ist

(24) für k;= l .


(18) 1 - 2

J-K 2: 2: (Yki - Y kt ) k i

J~K 2: [I(k) -1] 5~ k

7.7.10 3-12

mit

(19) 1 - 2 I(k)-l ~ (Yki - Y kt ) (empirische Varianz der Stufe k)

z

für k = 1, ... , K. Hierbei ist 5~ die Schätzung von 0-2 unter ausschließlicher Verwen

dung der Beobachtungen Y k = ( Y k1 ' ... , YkI(k) ) der Stufe k. Nach der zweiten

Darstellung in (18) ist somit die Schätzung 52 ein gewichteter Mittelwert der Schät

zungen 5~ aus den Daten Y k mit I(k) -1 als Gewichtungsfaktor.

Folglich lassen sich alle zur Bestimmung der Schätzungen relevanten Größen auch

ohne Kenntnis der Einzelwerte (Yki ) berechnen, wenn die Stufenumfänge I(k) , die

Stufen-Mittelwerte Y k t sowiedie empirischen Varianzen 5~ aller K Gruppen vorliegen.

Wir wollen jetzt noch die Covarianzmatrix des Schätzers () angeben. Aus

ergibt sich

d.h. die Komponenten von () sind paarweise unkorreliert mit

(22)

Hieraus ergibt sich die Varianz einer Linearkombination cT() für festes cE IRK

(23)

und speziell für den Unterschied ()k -()Z = Ykt

- YZt

zweier Komponenten ist

(24) für k;= l .


3.2.5 Einfache Varianzanalyse

7.7.10 3-13

Wir setzen die Ausführungen des letzten Abschnitts, wobei wir jetzt zusätzlich die

Normalverteilung (NVY) der Beobachtung voraussetzen. Unter dem Modell vollstän

digen Modell (M1F) gilt dann

(1) für alle 1 < k < K, 1 < i < I(k),

und alle Einzelbeobachtungen Yki

sind stochastisch unabhängig voneinander. Die

zentrale Frage ist, ob die Stufen des Faktors einen Einfluß auf den Erwartungswert

haben oder nicht, und dies läßt sich mit linearen Hypothesen wie folgt formulieren:

(2)

(3)

Nullhypothese

Alternative

Ho: B1 = B2 = ... = BK

(kein Unterschied bzgl. der Faktorstufen) !

H: Bk :;= BZ für mindestens ein Paar k:;= l .

(Unterschiede bei mindestens zwei Stufen k!V.

Die Nullhypothese beschreibt gerade das konstante Modell mit den Modellräumen

für den Parameter bzw. Erwartungswert

(4)

(5)

q-O =~K = {BEIRK

IB1 =···=BK }

J...40 = ~J = {J.L E IR 1!-L1 = ... = !-LJ} .

bzw.

Das durch (M1F) gegebene Modell ...4 umfaßt ...40

und folglich können wir das

Testproblem mit dem F-Test aus Abschnitt 2.6 entscheiden. Die hierfür zusätzlich

erforderliche Schätzung tlo bzw. 00 unter der Nullhypothese HO (d.h. für das kon

stante Modell) ist nach 3.2.1 gegeben durch

(6)

(7)

tlOki = 00k = Y ++ mit

- 1 1-Y ++:= J 2( t Y ki = J 2( I(k)· Y k+ (Mittelwert aller Beobachtungen).

Die bei der Zerlegung der Modellabweichung um ...40

auftretenden Größen werden

im hiesigen Zusammenhang oft suggestiv wie folgt bezeichnet:


3.2.5 Einfache Varianzanalyse

Wir setzen die Ausführungen des letzten Abschnitts, wobei wir jetzt zusätzlich die

Normalverteilung (NVY) der Beobachtung voraussetzen. Unter dem Modell vollstän

digen Modell (M1F) gilt dann

(1) für alle 1 < k < K, 1 < i < I(k),

und alle Einzelbeobachtungen Yki

sind stochastisch unabhängig voneinander. Die

zentrale Frage ist, ob die Stufen des Faktors einen Einfluß auf den Erwartungswert

haben oder nicht, und dies läßt sich mit linearen Hypothesen wie folgt formulieren:

(2) Nullhypothese Ho: B1 = B2 = ... = BK

(kein Unterschied bzgl. der Faktorstufen) !

(3) Alternative H: Bk :;= BZ für mindestens ein Paar k:;= l .

(Unterschiede bei mindestens zwei Stufen k!V.

Die Nullhypothese beschreibt gerade das konstante Modell mit den Modellräumen

für den Parameter bzw. Erwartungswert

(4)

(5)

q-O =~K = {BEIRK

IB1 =···=BK }

J ...40 = ~ J = {J.L E IR I /-L1 = ... = /-L J} .

bzw.

Das durch (M1F) gegebene Modell ...4 umfaßt ...40

und folglich können wir das

Testproblem mit dem F-Test aus Abschnitt 2.6 entscheiden. Die hierfür zusätzlich

erforderliche Schätzung tlo bzw. 00 unter der Nullhypothese HO (d.h. für das kon

stante Modell) ist nach 3.2.1 gegeben durch

(6)

(7)

tlOki = 00k = Y ++ mit

- 1 1-Y ++:= J 2( t Y ki = J 2( I(k)· Y k+ (Mittelwert aller Beobachtungen).

Die bei der Zerlegung der Modellabweichung um ...40

auftretenden Größen werden

im hiesigen Zusammenhang oft suggestiv wie folgt bezeichnet:


(8)

(9)

(10)

2 - 2SQT:=Dev(JtJ = IIY - 40 11 = 2:= 2:= (Yk · - Y++)

k i Z

(Summe gewichteter Abweichungs-Quadrate: TotaV.

A 2 - 2SQ! := Dev(Jt) = IIY - JL 11 = 2:= 2:= (Yk · - Y k +)

k i Z

(Summe gewichteter Abweichungs-Quadrate: Innerhalb der Gruppen),

A A 2 - - 2SQZ:= L:,Dev = IIJL- JLO 11 = 2:= !(k) (Yk +- Y++)

k(Summe gewichteter Abweichungs-Quadrate: Zwischen den Gruppen),

Die zugehörige Zerlegung der Modellabweichungen lautet dann

(11) SQT = SQ! + SQZ .

und die F-Statistik ergibt sich zu:

(12) F=SQZ /(K-l)

SQ! /( J-K)(F-Statistik) !

Die für die Berechnung erforderlichen Größen werden in der sogenannten Tafel der

Varianzanalyse zusammengestellt.

Streuung (Ursache) Dev =SQ FG MQ=SQ/FG

Zwischen den Gruppen L:,Dev =SQZ MG =K-l SQZ/(K-l)

In den Gruppen Dev(Jt) = SQ! FG(Jt) =J-K SQ!/ (J- K) = 0-2

Total Dev(Jto) =SQT FG(Jto)=J-l SQT/ (J-l) = o-~

Tab. 1: Tafel der (einfachen) Varianzanalyse

Die Nichtzentralitäten "( und 8 aus 2.6.1 (5) der zugehörigen F-Verteilung vereinfa

chen sich hier zu


(8) 2 - 2 SQT:=Dev(JtJ = IIY - 40 11 = 2:= 2:= (Yk · - Y++)

k i Z

(Summe gewichteter Abweichungs-Quadrate: TotaV.

(9) A 2 - 2 SQ! := Dev(Jt) = IIY - JL 11 = 2:= 2:= (Yk · - Y k +)

k i Z

(Summe gewichteter Abweichungs-Quadrate: Innerhalb der Gruppen),

(10) SQZ := L,Dev

(Summe gewichteter Abweichungs-Quadrate: Zwischen den Gruppen),

Die zugehörige Zerlegung der Modellabweichungen lautet dann

(11) SQT = SQ! + SQZ .

und die F-Statistik ergibt sich zu:

(12) F= SQZ /(K-1)

SQ! /( J-K) (F-Statistik) !

Die für die Berechnung erforderlichen Größen werden in der sogenannten Tafel der

Varianzanalyse zusammengestellt.

Streuung (Ursache) Dev =SQ FG MQ=SQ/FG

Zwischen den Gruppen L,Dev =SQZ MG =K-1 SQZj(K-1)

In den Gruppen Dev( Jt) = SQ! FG(Jt) =J-K SQ! /(J-K) = 52

Total Dev(Jto) =SQT FG(Jto)=J-1 SQT /(J-1) = 5~

Tab. 1: Tafel der (einfachen) Varianzanalyse

Die Nichtzentralitäten '"Y und 8 aus 2.6.1 (5) der zugehörigen F-Verteilung vereinfa

chen sich hier zu


(13)

(14)

"( = -.l11J-L - P J-L 11 2 = -.l ~ I(k)·(B _e)2 mita 2 .At 0 a2 k k

e:= j ~ I(k)· Bk (gewichtetes Mittel der Erwartungswerte)k

Insbesondere bei einer Ablehnung der Nullhypothese durch den F-Test wird man

sich für die Gruppenunterschiede Bk - BZfür k:;= l interessieren, um festzustellen, wel

che Unterschiede für eine Ablehnung verantwortlich sind. Da sich die Gruppenun

terschiede unter Verwendung der Einheitsvektoren ek

als Linearkombinationen

(17)

des Parameters B darstellen lassen, lassen sich Konfidenzintervalle und Tests für

diese Unterschiede gemäß Abschnitt 2.5.2 konstruieren. Die hierfür erforderliche

Varianz des geschätzten Unterschieds (\-eZ haben wir in 3.2.4 (24) schon angege

ben.

Spezialfall: K = 2 Stufen

Wenn der Faktor nur K = 2 Stufen hat, so lauten die Hypothesen (2) und (3) äqui

valent

vs.

Dies ist ein Testproblem über die Linearkombination B1

- B2

des Parameters Bund

läßt sich mit dem zweiseitigen t-Test aus 2.5 überprüfen und die F-Statistik ist ge

nau das Quadrat der zugehörigen t-Statistik Taus 2.5, d.h. F = T2. - Die Varianza

nalyse reduziert sich hier also auf den zweiseitigen Vergleich zweier Erwartungs

wert B1und B2

in zwei Stichproben (Y1i) und (Y2

) mit gleicher Varianz 0.2.


(13)

(14)

'"Y = -.l11J-L - P J-L 11 2 = -.l ~ I(k)·(B _B)2 mit a 2 .At 0 a2 k k

- 1 B:= J ~ I(k)· Bk (gewichtetes Mittel der Erwartungswerte)

k

3-15

Insbesondere bei einer Ablehnung der Nullhypothese durch den F-Test wird man

sich für die Gruppenunterschiede Bk - BZ für k:;= l interessieren, um festzustellen, wel

che Unterschiede für eine Ablehnung verantwortlich sind. Da sich die Gruppenun

terschiede unter Verwendung der Einheitsvektoren ek

als Linearkombinationen

(17)

des Parameters B darstellen lassen, lassen sich Konfidenzintervalle und Tests für

diese Unterschiede gemäß Abschnitt 2.5.2 konstruieren. Die hierfür erforderliche

Varianz des geschätzten Unterschieds (\ -eZ haben wir in 3.2.4 (24) schon angege

ben.

Spezialfall: K = 2 Stufen

Wenn der Faktor nur K = 2 Stufen hat, so lauten die Hypothesen (2) und (3) äqui

valent

vs.

Dies ist ein Testproblem über die Linearkombination B1

- B2

des Parameters Bund

läßt sich mit dem zweiseitigen t-Test aus 2.5 überprüfen und die F-Statistik ist ge

nau das Quadrat der zugehörigen t-Statistik Taus 2.5, d.h. F = T2. - Die Varianza

nalyse reduziert sich hier also auf den zweiseitigen Vergleich zweier Erwartungs

wert B1 und B2

in zwei Stichproben (Y1i) und (Y2

) mit gleicher Varianz 0.2.


3.2.6 Schärfe des F-Tests bei der Varianzanalyse

Wir wollen jetzt die Schärfe des F-Tests bei der einfachen Varianzanalyse genauer

untersuchen, wobei wir zuerst das (in der Praxis bevorzugte) balancierte Design be

trachten und den allgemeinen unbalancierten Fall nur kurz abhandeln. Beim balancier

ten Design ist die Anzahl der Beobachtungen für die Stufe k ist für alle Stufen

gleich

(1) l(k) = l für k = 1, ..., K (balanciertes Design).

Dann ist J = l K die Gesamtzahl der Beobachtungen und die Nichtzentralität ver

einfacht sich zu

(2) mit- 1e:= K 2: ek (Mittelwert).

k

Nach 2.6.2 ist die Schärfe des F-Tests

(3) Pow(rr,a) = P{ F (rr) > F }m,n m,n,et

mit m = K-l, n = K(I-l).

bei vorgegebenen Werten für K, l und a streng wachsend in "i, und für eine Analyse

der Schärfe ist gleichbedeutend mit einer Analyse der Nichtzentralität "(. Zur Unter

suchung von "i ordnen wir die unbekannten Parameter nach ihrer Größe an

und betrachten den maximalen Unterschied

Die Nichtzentralität läßt sich dann wie folgt abschätzen:

(6) "imin < "i < "imax(I() wobei

"imax(I()

l·K· L1~ax

4a2

l· (K2 -1) . L12max

für gerades K

für ungerades K


3.2.6 Schärfe des F-Tests bei der Varianzanalyse

Wir wollen jetzt die Schärfe des F-Tests bei der einfachen Varianzanalyse genauer

untersuchen, wobei wir zuerst das (in der Praxis bevorzugte) balancierte Design be

trachten und den allgemeinen unbalancierten Fall nur kurz abhandeln. Beim balancier

ten Design ist die Anzahl der Beobachtungen für die Stufe k ist für alle Stufen

gleich

(1) l(k) = l für k = 1, ... , K (balanciertes Design).

Dann ist J = l K die Gesamtzahl der Beobachtungen und die Nichtzentralität ver

einfacht sich zu

(2) I - 2 "i = - 2: (B -B)

a 2 k k

mit - 1 B : = K 2: Bk (Mittelwert).

k

Nach 2.6.2 ist die Schärfe des F-Tests

(3) Pow("{,a) = P{F ("{) > F } m,n m,n,Ct

mit m = K-l, n = K(I-l).

bei vorgegebenen Werten für K, l und a streng wachsend in "i, und für eine Analyse

der Schärfe ist gleichbedeutend mit einer Analyse der Nichtzentralität "(. Zur Unter

suchung von "i ordnen wir die unbekannten Parameter nach ihrer Größe an

und betrachten den maximalen Unterschied

Die Nichtzentralität läßt sich dann wie folgt abschätzen:

(6) "imin

l·K· .j~ax

4a2

l. (K2 -1) . .j2 max

< "i

für gerades K

für ungerades K

wobei


Diese Abschätzung ist scharf. Die untere Schranke I . wird angenommen wennmm

die restlichen Parameter mit dem Mittelwert von B(l) und B(K) übereinstimmen:

(7) I = Imin·

Und die obere Schranke wird angenommen, wenn alle restlichen Parameter entwe

der mit B(l) oder B(K) übereinstimmen, wobei für gerades K = 2M genau M Parameter

mit B(1) übereinstimmen müssen und für ungerades K = 2M+1 genau M Parameter

mit B(1) oder mit B(K) übereinstimmen müssen:

(8) B(k) = B(l) , B(l) = B(K) für 1 < k < ~ < K~2 < l < K

Im Rahmen einer Versuchplanung sucht man den erforderlichen MindestumJang 1

pro Stufe, bei dem die Schärfe für einen vorgegebenen relevanten maximalen Unter

schied L1 und vorgegebenes 17 einen vorgegebenen Wert 1- ß erreicht (ß istmax

dann das Fehlerrisiko 2. Art für diesen Unterschied). Die zu I . gehörige minimalemm

Schärfe ist dann

(9) Pow(r . ,a) = P{F (1·8) > F } mit m = K-1, n = K(l-l)mzn m,n - m,n,Ct

8 = ~ (L1;ax )2.

Zur Bestimmung des gesuchten Mindestumfangs 1 pro Stufe berechnet man schritt

weise für 1= 2, 3, ... die minimale Schärfe (9) solange bis diese erstmals > 1-ß ist.

Wir betrachten noch kurz das unbalancierte Design) bei dem die Anzahlen lk: = l(k)

mit k variieren können (aber nicht müssen). Das Minimum der Nichtzentralität I

aus 3.2.5 (13) hängt jetzt von den zugehörigen Anzahlen 1(1) bzw. 1(K) der Stufen mit

dem kleinsten bzw. größten Parameter B(1) bzw. B(K) ab und ergibt sich zu

(10) Imin[1(1) +1(10] 1(K1) [1-1(K1)] . L1~ax

172mit

Das Minimum wird - analog (7) - auch angenommen für

(11) B(k) = [1-1(K1)] B(l) +1(K1) B(K) für alle 1< k < K.

Bei festem 1(1) +1(K) wird Imin maximal bzgl. 1(K1) für 1(K1) = ~, d.h. für 1(1) = 1(K). Da

die Indizes ,,(1)" und ,,(K)" unbekannt sind, ist das balancierte Design hier optimal.


Diese Abschätzung ist scharf. Die untere Schranke I . wird angenommen wenn mm

die restlichen Parameter mit dem Mittelwert von B(l) und B(K) übereinstimmen:

(7) I = 'min·

Und die obere Schranke wird angenommen, wenn alle restlichen Parameter entwe

der mit B(l) oder B(K) übereinstimmen, wobei für gerades K = 2M genau M Parameter

mit B(1) übereinstimmen müssen und für ungerades K = 2M + 1 genau M Parameter

mit B(1) oder mit B(K) übereinstimmen müssen:

(8) B(k) = B(l) , B(l) = B(K) für 1 < k < ~ < K~2 < l < K

Im Rahmen einer Versuchplanung sucht man den erforderlichen Mindestumfang 1

pro Stufe, bei dem die Schärfe für einen vorgegebenen relevanten maximalen Unter

schied L1 und vorgegebenes 17 einen vorgegebenen Wert 1- ß erreicht (ß ist max

dann das Fehlerrisiko 2. Art für diesen Unterschied). Die zu I . gehörige minimale mm

Schärfe ist dann

(9) Pow(r . ,a) = P{F (1·8) > F } mit m = K-1, n = K(l-l) mzn m,n - m,n,Ct

Zur Bestimmung des gesuchten Mindestumfangs 1 pro Stufe berechnet man schritt

weise für 1 = 2, 3, ... die minimale Schärfe (9) solange bis diese erstmals > 1-ß ist.

Wir betrachten noch kurz das unbalancierte Design, bei dem die Anzahlen lk: = l(k)

mit k variieren können (aber nicht müssen). Das Minimum der Nichtzentralität I

aus 3.2.5 (13) hängt jetzt von den zugehörigen Anzahlen 1(1) bzw. 1(K) der Stufen mit

dem kleinsten bzw. größten Parameter B(1) bzw. B(K) ab und ergibt sich zu

(10) Imin [1(1) +1(10 l 1(K1) [1-1(K1)l· L1~ax

172 mit

Das Minimum wird - analog (7) - auch angenommen für

(11) B(k) = [1-1(K1)l B(l) +1(K1) B(K) für alle 1< k < K.

Bei festem 1(1) + 1(K) wird 'min maximal bzgl. 1(K1) für 1(K1) = ~, d.h. für 1(1) = 1(K). Da

die Indizes ,,(1)" und ,,(K)" unbekannt sind, ist das balancierte Design hier optimal.

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 18

3.3 Modelle für zwei beobachtete Covariablen

Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch zwei weitere Co-

variablen gegeben. Das einfachste Modell ist wieder das konstante Modell (KM) aus

3.2, welches hier besagt, daß beide Covariablen keinen Einfluß haben. Hat nur eine

der beiden Covariablen einen Einfluß (und die andere keinen Einfluß), so kann das

mit den Modellen aus 3.2 beschrieben werden . Wir betrachten jetzt nur noch sol-

che Modelle, die einen Einfluß beider Covariablen berücksichtigen. Hierbei unter-

scheiden wir danach, ob eine oder beide Covariablen quantitative Variablen oder

Faktoren sind.

3.3.1 Einfache Covarianz-Analyse

Bei der einfachen Varianzanalyse haben wir Modelle für einen beobachteten Faktor A

betrachtet und dazu Tests und Konfidenzbereiche konstruiert. Wir wollen diese

Methoden jetzt auf Situationen erweitern, bei denen zusätzlich eine quantitative Co-

variable z beobachtet wird. Der Faktor A habe wieder insgesamt K> 1 Stufen, und

wir setzen ohne Beschränkung der Allgemeinheit voraus, daß jede Faktor-Stufe bei

mindestens einer Beobachtung j vorkommt. Den Beobachtungsindex j = 1, ..., J wollen

wir wieder (wie in 3.2.3) durch den Doppelindex (k, i) ersetzen, bei dem k = A . die 3

Stufe von A angibt und 1 5 i 5 I(k) der laufende Beobachtungsindex innerhalb der

Stufe k ist. Dementsprechend bezeichnet zBi den Wert der Variablen z für die Be-

obachtung (k, i). Der gesamte Beobachtungsvektor Y und sein Erwartungsvektor

,u = E(Y) lassen sich dann in Blockgestalt darstellen als

(9 Y = (Y,, . . . , YK) mit Yk = ('ki)i=l, ..., I(k) ,

r = (4 > . . . > r K ) mit = ('ki)i = 1, ..., I(k) .

Wie beim linearen Regressionsmodell in 3.2.2 gehen wir von einer formalen Co-

avariblen X = h(z) aus, die eine feste Funktion der beobachteten Covariablen z ist.

Das lineare Regressionsmodell mit einem Faktor besagt nun, daß bei festgehaltener

Stufe k des Faktors A ein lineares Regressionsmodell in X vorliegt, dessen Parame-

ter allerdings von der Stufe k abhängen. In Doppelindizes-Notation lautet dieses

Modell

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3-18


Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch zwei weitere Co

variablen gegeben. Das einfachste Modell ist wieder das konstante Modell (KM) aus

3.2, welches hier besagt, daß beide Covariablen keinen Einfluß haben. Hat nur eine

der beiden Covariablen einen Einfluß (und die andere keinen Einfluß), so kann das

mit den Modellen aus 3.2 beschrieben werden. Wir betrachten jetzt nur noch sol

che Modelle, die einen Einfluß beider Covariablen berücksichtigen. Hierbei unter

scheiden wir danach, ob eine oder beide Covariablen quantitative Variablen oder

Faktoren sind.

3.3.1 Einfache Covarianz-Analyse

Bei der einfachen Varianz analyse haben wir Modelle für einen beobachteten Faktor A

betrachtet und dazu Tests und Konfidenzbereiche konstruiert. Wir wollen diese

Methoden jetzt auf Situationen erweitern, bei denen zusätzlich eine quantitative Co

variable z beobachtet wird. Der Faktor A habe wieder insgesamt K> 1 Stufen, und

wir setzen ohne Beschränkung der Allgemeinheit voraus, daß jede Faktor-Stufe bei

mindestens einer Beobachtung j vorkommt. Den Beobachtungsindex j = 1, ... , J wollen

wir wieder (wie in 3.2.3) durch den Doppelindex (k, i) ersetzen, bei dem k =A. die ]

Stufe von A angibt und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der

Stufe k ist. Dementsprechend bezeichnet zki den Wert der Variablen z für die Be

obachtung (k, i). Der gesamte Beobachtungsvektor Y und sein Erwartungsvektor

Jl = E(Y) lassen sich dann in Blockgestalt darstellen als

(1) Y

Jl

(Y1 ,···, Y K)

(Jl1 ' ... , JlK )

mit Y k = (Yki ) i = 1, ... ,I(k) ,

mit Jlk = (Yki )i=1, ... ,I(k)·

Wie beim linearen Regressionsmodell in 3.2.2 gehen wir von einer formalen Co

avariblen x = h(z) aus, die eine feste Funktion der beobachteten Covariablen z ist.

Das lineare Regressionsmodell mit einem Faktor besagt nun, daß bei festgehaltener

Stufe k des Faktors A ein lineares Regressionsmodell in x vorliegt, dessen Parame

ter allerdings von der Stufe k abhängen. In Doppelindizes-Notation lautet dieses

Modell


(LRIF) Pki=Xk+ßkXki f Ü r a l l e l < k < K , l < i < I ( k ) ,

(Lineares Regressionsmodell mit einem Faktor)

mit dem 2 K-dimensionalen Parametervektor

(2) e=(el, . . . , B ~ ) E R 2~ wobei ek = ( x ~ , pk) E IR^.

Das Modell wird als Intra-Class-Regressionsmodel und seine statistische Analyse als

Covarianz-Analyse (Varianzanalyse mit einer Covariablen) bezeichnet. Unter Verwen-

dung des Kronecker-Symbols bkl läßt sich das Modell äquivalent schreiben als

Die zugehörige Jx2K-Covariablenmatrix X hat eine Block-Diagonalgestalt

(3> X = Diag {xl , . . . , xK} ,

wobei der k-te Block Xk - analog der linearen Regression in 2.1.1 - eine I(k)x2-Ma-

trix ist

(4) Xk = ( 1 , xk ) mit den Spalten 1 = (l)i , xk = (xki)i E IR'(k).

Wir setzen die Gültigkeit des Modells (LRIF) jetzt voraus und wollen zuerst die

Schätzungen der Parameter herleiten. Damit diese eindeutig bestimmt sind, setzen

wir die Rangbedingung (RB) voraus, die hier besagt, daß es für jede Stufe k minde-

stens zwei verschiedene X-Werte xki f X gibt. Für die Minimierung von rcj

genügt es offensichtlich, für jede Stufe k die quadratischen Abweichungen

zu minimieren. Mit den Bezeichnungen

(Mittelwert der X-Werte aus Stufe k),

(Mittelwert der Y-Werte aus Stufe k),

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3-19

(LR1F) für alle 1 < k < K, 1 < i < I(k) ,

(Lineares Regressionsmodell mit einem Faktor)

mit dem 2K-dimensionalen Parametervektor

(2) wobei

Das Modell wird als Intra-Class-Regressionsmodel und seine statistische Analyse als

Co varianz-Analyse (Varianzanalyse mit einer Covariablen) bezeichnet. Unter Verwen

dung des Kronecker-Symbols 6kZ


(LR1F), für alle 1 < k < K, 1 < i < I(k) ,

Die zugehörige Jx2K-Covariablenmatrix X hat eine Block-Diagonalgestalt

wobei der k-te Block Xk

- analog der linearen Regression in 2.1.1 - eine I(k)x2-Ma

trix ist

(4) mit den Spalten I(k) 1 = (1) . , xk

= (xk

.) . E lR . z z z

Wir setzen die Gültigkeit des Modells (LR1F) jetzt voraus und wollen zuerst die

Schätzungen der Parameter herleiten. Damit diese eindeutig bestimmt sind, setzen

wir die Rangbedingung (RB) voraus, die hier besagt, daß es für jede Stufe k minde

stens zwei verschiedene x-Werte xki

:;= xkj

gibt. Für die Minimierung von

genügt es offensichtlich, für jede Stufe k die quadratischen Abweichungen

I(k) (6) SQ(J-LkIYk) = IIYk -J-LkI12 = i~l (Yki - ['\ + ßkxkJ?

zu minimieren. Mit den Bezeichnungen

(7)

(8)

(Mittelwert der x-Werte aus Stufe k)!

(Mittelwert der Y-Werte aus Stufe k)!


ergeben sich die Schätzungen durch Anwendung des linearen Regressionsmodells

aus 2.1.1 auf den Beobachtuntsvektor Yk = (Yki) der Stufe k wie folgt 2

Da die Schätzung dk = (Xk,ßk) eine lineare Funktion von Yk ist, ergibt sich aus der

paarweisen Unkorreliertheit von Y ..., YK sofort: 1'

(13) dl, ..., dK sind paarweise unkorreliert.

Insbesondere sind auch ß ..., ß paarweise unkorreliert, und ihre Varianzen lauten 1' K

0 2

(14) var(ßk) = - für k = 1 ,..., K. S,XX

Im Hinblick auf die Parameterschätzung d genügt es also, den Beobachtungsvektor

Y in die K Stufen des Faktors A zu zerlegen und die zugehörige Parameterkompo-

nente Ok = (Xk, ßk) aus dem entsprechenden Teildatensatz der Stufe k zu schätzen.

Lediglich die Deviance des betrachteten Modells (LRIF) - desssen Modellraum für

,u wir mit A bezeichnen - hängt von allen J Beobachtungen ab und ergibt sich (vgl.

2.5.4)

2 Hieraus erhält man die Schätzung von a als

Nachdem wir die Schätzungen angegeben haben, wollen wir jetzt interessierende

Untermodelle bzw. die zugehörigen linearen Hypothesen betrachten. In erster Linie

interessiert man sich dafür, ob eine Wechselwirkung zwischen der Covariablenz und

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 20

(9) SkxX ~ (xki -xk)2 ~xii I(k) .x/ z z

(10) SkxY ~ (xki - x k)(Yki - Yk) 2: xk Y k · . z z I(k) .xk·Yk Z z

(11) SkYY - 2

~ (Yki - Yk) ~Yfi I(k) . Yk2

z z ergeben sich die Schätzungen durch Anwendung des linearen Regressionsmodells

aus 2.1.1 auf den Beobachtuntsvektor Y k = (Yk ) i der Stufe k wie folgt

(12) ~ k = Yk - ß k x k .

Da die Schätzung 0k = (~k,ßk) eine lineare Funktion von Y k ist, ergibt sich aus der

paarweisen Unkorreliertheit von Y l' ... , Y K sofort:

(13) 01' ... , 0K sind paarweise unkorreliert.

Insbesondere sind auch ß1, ... , ß

K paarweise unkorreliert, und ihre Varianzen lauten

(14) für k = 1 , ... , K.

Im Hinblick auf die Parameterschätzung ° genügt es also, den Beobachtungsvektor

Y in die K Stufen des Faktors A zu zerlegen und die zugehörige Parameterkompo

nente ()k = (A k, ßk) aus dem entsprechenden Teildatensatz der Stufe k zu schätzen.

Lediglich die Deviance des betrachteten Modells (LR1F) - desssen Modellraum für

Jl wir mit vft bezeichnen - hängt von allen J Beobachtungen ab und ergibt sich (vgl.

2.5.4)

(15) Dev(vft) t y (Yki - [~k + ßkxki ])2

2: (SkYY - ß~ .Skxx ). k

Hieraus erhält man die Schätzung von 0-2 als

(16) Dev(vft) J-2K·

Nachdem wir die Schätzungen angegeben haben, wollen wir jetzt interessierende

Untermodelle bzw. die zugehörigen linearen Hypothesen betrachten. In erster Linie

interessiert man sich dafür, ob eine Wechselwirkung zwischen der Covariablenz und


dem Faktor A besteht, d. h. ob der durch den Parameter ßL quantifizierte (lineare)

Einfluß von X von der Stufe k des Faktors A abhängt oder nicht. Hierzu testet man

die lineare Nullhypothese

(17) H : ß =ß = . . . = ß K 0 1 2

bzw. P E A K

(Der lineare Einfluj3 von z ist für alle Stufen von A konstant)

gegen ihre Negation als Alternative. Die Einschränkung des Modells (LRIF) durch

Ho ergibt das folgende Untermodell

(PRIF) p k i = X k + ß x k i f ü r a l l e l < k < K , l < i < I ( k ) ,

(Paralleles Regressionsmodell mit einem Faktor).

mit dem (K+l)-dimensionalen Parametervektor

(18) K+1

( X , ß ) = ( x l , " ' , X K ~ ß ) E I R '

Bezeichnen wir den zum Modell (PRIF) zugehörigen Modellraum für ,U mit Ao,

so gilt

und wir können die Nullhypothese Ho mit dem F-Test (aus 4.6) überprüfen, sofern

As IRJ ist d.h. die Dimensionsbedingung gilt

die wir jetzt auch voraussetzen wollen. Man beachte, daß A s A wegen K > 1 0

stets gilt.

Die Parameter-Schätzungen für das Modell (PRIF) bzw. unter H ergeben sich zu 0

Die zweite Darstellung von ß zeigt, daß die Schätzung ß ein gewichteter Mittelwert 0 0

der Schätzungen 4, ..., ßK ist, wobei der jeweilige Gewichtungsfaktor SLxx von ßL

umgekehrt proportional zur Varianz (14) von ßL ist. Die Deviance für das Modell 2 Ao und die Schätzung von D lassen sich wie folgt darstellen


dem Faktor A besteht, d. h. ob der durch den Parameter ßk quantifizierte (lineare)

Einfluß von x von der Stufe k des Faktors A abhängt oder nicht. Hierzu testet man

die lineare Nullhypothese

(17) bzw.

(Der lineare Einfluß von z ist für alle Stufen von A konstant)

gegen ihre Negation als Alternative. Die Einschränkung des Modells (LRIF) durch

HO ergibt das folgende Untermodell

(PRIF) für alle 1 < k < K, 1 < i < I(k) ,

(Paralleles Regressionsmodell mit einem Faktor).

mit dem (K + 1) -dimensionalen Parametervektor

Bezeichnen wir den zum Modell (PRIF) zugehörigen Modellraum für Jl mit .At0'

so gilt

(19)

und wir können die Nullhypothese HO mit dem F-Test (aus 4.6) überprüfen, sofern

.At:;= IR] ist d.h. die Dimensionsbedingung gilt

(20) 2K <J= ~I(k), k

die wir jetzt auch voraussetzen wollen. Man beachte, daß .AtO:;=.At wegen K> 1

stets gilt.

Die Parameter-Schätzungen für das Modell (PRIF) bzw. unter HO ergeben sich zu

(21) ~SkxY

ßo= ...!-".k __ ~SkxX k

~Ok = Yk - ßo x k ! k = 1 , ... , K.

Die zweite Darstellung von ßo zeigt, daß die Schätzung ßo ein gewichteter Mittelwert

der Schätzungen ß1, ... , ß

K ist, wobei der jeweilige Gewichtungsfaktor SkxX von ß

k umgekehrt proportional zur Varianz (14) von ß

k ist. Die Deviance für das Modell

.AtO und die Schätzung von 0-2 lassen sich wie folgt darstellen


Der Unterschied beider Modellabweichungen läßt sich vereinfachen zu

(24) ADev = Dev(Ao) - Dev(~d!) = C Skxx (ßk - ß0l2 L

und stellt eine gewichtete Streuung der Parameter ß ..., ßK um ihren gewichteten 1'

Mittelwert ßo dar - mit den Gewichtsfaktoren Skxx.

Die für den F-Test erforderlichen Größen stellt man wieder in einer Tafel der Cova-

rzanzanalyse zusammen.

Tab. 1: Tafel der (einfachen) Covarianzanalyse

Die für die Schärfe des F-Tests entscheidende Nichtzentralität

Streuung (Ursache)

Anstiege der Einzelgeraden

Um die Einzelgeraden

Um die parallelen Geraden

E [skxx 'ßk ] (25) Y = $ ~ ~ ~ ~ ~ ( ß ~ - ß ~ ) ~ mit Po = L

k E Skxx L

ist - bis auf den Faktor 1 - eine gewichtete quadratische Abweichung der Parame- 0 2

ter ßl, ..., ßK um ihren gewichteten Mittelwert ßo.

Dev = SQ

ADev

Dev(A)

Dev(Ao)

Wenn der F-Test die Hypothese Ho bzw. das Teilmodell 4 abgelehnt hat, so inte-

ressiert man sich für die Unterschiede ßL-ßl der Anstiege verschiedener Stufen k

und I. Hierzu kann man einerseits ein Konfidenzintervall für ß -ß konstruieren L 1

FG

a F G = K - l

F G ( A ) =J- 2K

FG(Ao) = J- K- 1

SQ /FG

ADev/(K- 1)

A 2 0

A 2 0

0


(22)

(23)

Dev(...4o) = t y (Yki - [~Ok + ßOxki ])2

A2 = 2: SkYY - ßo .2: Skxx ,

k k

A2 Dev(...4o) 0"0 J-K-l·

11.8.05 3- 22

Der Unterschied beider Modellabweichungen läßt sich vereinfachen zu

(24)

und stellt eine gewichtete Streuung der Parameter ß1, ... , ß

K um ihren gewichteten

Mittelwert ßo dar - mit den Gewichtsfaktoren Skxx.

Die für den F-Test erforderlichen Größen stellt man wieder in einer Tafel der Cova

rianzanalyse zusammen.

Streuung (Ursache) Dev = SQ FG SQ/FG

Anstiege der Einzelgeraden ~Dev MG =K-l ~Dev/(K-l)

Um die Einzelgeraden Dev(...4) FG(...4) =J-2K A2 0"

Um die parallelen Geraden Dev(...4o) FG(...4o)=J-K-l A2 0"0

Tab. 1: Tafel der (einfachen) Covarianzanalyse

Die für die Schärfe des F-Tests entscheidende Nichtzentralität

(25) mit ßo =

ist - bis auf den Faktor ~ - eine gewichtete quadratische Abweichung der Paramea

ter ßl' ... , ßK um ihren gewichteten Mittelwert ßo·

Wenn der F-Test die Hypothese HO bzw. das Teilmodell ...40

abgelehnt hat, so inte

ressiert man sich für die Unterschiede ßk - ßZ der Anstiege verschiedener Stufen k

und l. Hierzu kann man einerseits ein Konfidenzintervall für ßk

- ßZ

konstruieren


oder einen Test auf Gleichheit der Anstiege durchführen mit der Nullhypothese

P I Hokl : ßk-ßl = 0 (z hat auf den Stufen k und 1 denselben Einflug.

'I' Da der Unterschied ßk-ßl eine Linearkombination C B des Parameters B ist, kön-

nen wir die in 2.5.2 angegebenen Tests und Konfidenzintervalle verwenden. Die 2 hierzu erforderliche Varianz D der Schätzung cTd vereinfacht sich im vorliegenden C

Fall wegen der Unkorreliertheit von ßk und ßl nach (12) zu

für k s 1.

Testet man R von den insgesamt möglichen ;K(K+l) Nullhypothesen der Form

Hokl zum Niveau a', so hat der simultane Test aller R Nullhypothesen nicht mehr

das Niveau a'. Nach Bonferroni ist das Niveau dieser simultanen (multiplen) Tests

aber < a' R - und somit < a, wenn man a' = L a wählt (vgl. Exkurs Simultane Tests R und Konfidenzbereiche). Entsprechend muß das Niveau a' der einzelnen Konfidenzin-

tervalle für ßk-ßl gewählt werden, wenn die insgesamt R Konfidenzintervalle ein

simultanes Niveau 5 a haben sollen.

Lehnt dagegen der F-Test die Hypothese Ho bzw. das Teilmodell Ao nicht ab, so

will man meistens noch wissen, ob sich das Modell Ao nicht durch zusätzliche Hy-

pothesen weiter vereinfachen läßt. Hierbei interessiert dann in erster Linie, ob die

Covariable z oder der Faktor A überhaupt einen Einfluß auf den Erwartungswert

der Beobachtung Y haben, d.h. man will die Hypothesen testen

P I H : ß = O (Covariable z hat keinen Einflug,

(Faktor A hat keinen Einflug.

Der zugehörige Modellraum Aoz bzw. AoA ist wieder ein Teilraum von A und

man wird daher jeder der beiden linearen Hypothesen Hozbzw. HOA einzeln mit dem

F-Test überprüfen. Wenn der F-Test die Hypothese HOA ablehnt, so interessiert man

sich wieder für die Unterschiede X - X zwischen zwei Faktor-Stufen k s 1 und L 1 kann analog oben (jetzt mit dem Parametervektor X statt P) diese Unterschiede

(simultan) testen und (simultane) Konfidenzbereiche konstruieren.

Bei den oben beschriebenen Verfahren der Covarianzanalyse haben wir das lineare

Regressionsmodell (LRIF) als gültig vorausgesetzt. Da man sich aber nie ganz si-

cher sein kann, ob ein gewähltes Modell korrekt ist, sollte man auch die Gültigkeit

des Modells A hinterfragen. Hierzu kann man z.B. das lineare Regressionsmodell


oder einen Test auf Gleichheit der Anstiege durchführen mit der Nullhypothese

(26) (z hat auf den Stufen kund l denselben Einfluß).

Da der Unterschied ßk - ßZ eine Linearkombination cT () des Parameters () ist, kön

nen wir die in 2.5.2 angegebenen Tests und Konfidenzintervalle verwenden. Die

hierzu erforderliche Varianz 0-2 der Schätzung cT() vereinfacht sich im vorliegenden c

Fall wegen der Unkorreliertheit von ßk

und ßZ

nach (12) zu

(27) Var(ß -ß) = 0- . -+-A A 2[ 1 1] k Z SkxX Szxx

für k;= l.

Testet man R von den insgesamt möglichen tK(K+1) Nullhypothesen der Form

HOkZ zum Niveau a ' , so hat der simultane Test aller R Nullhypothesen nicht mehr

das Niveau a ' . Nach Bonferroni ist das Niveau dieser simultanen (multiplen) Tests

aber < a ' R - und somit < a, wenn man a ' = ~a wählt (vgl. Exkurs Simultane Tests

und Konfidenzbereiche). Entsprechend muß das Niveau a ' der einzelnen Konfidenzin

tervalle für ßk

- ßZ

gewählt werden, wenn die insgesamt R Konfidenzintervalle ein

simultanes Niveau< a haben sollen.

Lehnt dagegen der F-Test die Hypothese HO bzw. das Teilmodell .AC0

nicht ab, so

will man meistens noch wissen, ob sich das Modell .AC0

nicht durch zusätzliche Hy

pothesen weiter vereinfachen läßt. Hierbei interessiert dann in erster Linie, ob die

Covariable z oder der Faktor A überhaupt einen Einfluß auf den Erwartungswert

der Beobachtung Y haben, d.h. man will die Hypothesen testen

(28)

(29)

HOz

: ß=O

HOA : \=A2 =···=AK

(Covariable z hat keinen Einfluß)!

(Faktor A hat keinen Einfluß).

Der zugehörige Modellraum .ACoz bzw . .ACOA

ist wieder ein Teilraum von .AC und

man wird daher jeder der beiden linearen Hypothesen Hozbzw. HOA

einzeln mit dem

F-Test überprüfen. Wenn der F-Test die Hypothese HOA

ablehnt, so interessiert man

sich wieder für die Unterschiede Ak - AZ zwischen zwei Faktor-Stufen k ;= l und

kann analog oben (jetzt mit dem Parametervektor A statt ß) diese Unterschiede

(simultan) testen und (simultane) Konfidenzbereiche konstruieren.

Bei den oben beschriebenen Verfahren der Covarianzanalyse haben wir das lineare

Regressionsmodell (LRIF) als gültig vorausgesetzt. Da man sich aber nie ganz si

cher sein kann, ob ein gewähltes Modell korrekt ist, sollte man auch die Gültigkeit

des Modells .AC hinterfragen. Hierzu kann man z.B. das lineare Regressionsmodell


.,&E im Rahmen eines umfassenden Obermodells .,&E > .,&E mit dem F-Test überprü- 1

fen. Als ein mögliches Obermodell bietet sich das quadratische Regressionsmodell

2 (QRIF) Pki = X k + ßk xki + Yk xki f Ü r a l l e l < k < K , l < i < I ( k ) ,

(Quadratisches Regressionsmodell mit einem Faktor).


Dieses Modell postuliert auf jeder festen Stufe k eine quadratische Abhängigkeit des

Erwartungswerts p, von der Covariablen X. Das lineare Regressionsmodell (LRIF)

ergibt sich aus quadratischen Modells (QRIF) unter der zusätzlichen Nullhypo-

these

Hor: 7 = 0 bzw. y = y =...=Y = O . 1 2 K

Für 3 K < J kann diese Hypothese im Rahmen des umfassenden Modells .,&El mit

dem F-Test überprüft werden.

3.3.2 Modelle für zwei quantitative Variablen

Wir gehen davon aus, daß neben der Zielvariablen Y zwei weitere quantitative Co-

variablen Z1 und Z2 beobachtet werden, und der Erwartungswert einer Einzelbe-

obachtung Y nur von den beobachteten Werten zl, z2 dieser Covariablen Z1, Z2 ab-

hängen

Eine naheliegende Verallgemeinerung des linearen Regressionsmodells in einer Va-

riablen ist das lineare Regressionsmodell in zwei Variablen (zl und z2)

(2) p,(zl, z2) = Qo + Q1 z1 + 8222.

Dieses Modell besagt, daß bei fixiertem z2 ein lineares Regessionsmodell in zl vor-

liegt


.At im Rahmen eines umfassenden übermodells .Atl

::::>.At mit dem F-Test überprü

fen. Als ein mögliches übermodell bietet sich das quadratische Regressionsmodell

an

(QRIF) für alle 1 < k < K, 1 < i < I(k) ,

(Quadratisches Regressionsmodell mit einem Faktor).


Dieses Modell postuliert auf jeder festen Stufe k eine quadratische Abhängigkeit des

Erwartungswerts J-L von der Covariablen x. Das lineare Regressionsmodell (LRIF)

ergibt sich aus quadratischen Modells (QRIF) unter der zusätzlichen Nullhypo

these

(31) bzw.

Für 3 K< J kann diese Hypothese im Rahmen des umfassenden Modells .Atl

mit

dem F-Test überprüft werden.

3.3.2 Modelle für zwei quantitative Variablen

Wir gehen davon aus, daß neben der Zielvariablen Y zwei weitere quantitative Co

variablen Zl und Z2 beobachtet werden, und der Erwartungswert einer Einzelbe

obachtung Y nur von den beobachteten Werten zl' z2 dieser Covariablen Zl' Z2 ab

hängen

Eine naheliegende Verallgemeinerung des linearen Regressionsmodells in einer Va

riablen ist das lineare Regressionsmodell in zwei Variablen (zl und z,)

Dieses Modell besagt, daß bei fixiertem z2 ein lineares Regessionsmodell in zl vor

liegt


~ ~ ( z ~ , z ~ ) = QO(z2) + Qlzl mit QO(z2) = Qo + Q2z2

wobei der Achsenabschnitt QO(z2) aber nicht der Anstiegsparameter Q2 vom fixier-

ten Wert z2 abhängt (analog ergibt sich ein lineare Regressionsmodell in z2 bei fi-

xiertem zl). Will man dagegen in (2)' auch zulassen, daß der Achsenabschnitt Q1 in

von z2 abhangt, so kann man dies auf einfache (und lineare) Weise erreichen, in-

dem man das Modell (2) um eine sogenannte Wechselwirkung erweitert zu

(3) p(z 1' z ) 2 = Qo +Q1zl + Q2z2 +Q12z1z2.

Dann ergibt sich bei fixiertem z das lineare Regressionsmodell in z 2 1

(3) ' "(zl, z2) = QO(z2) + Q;(z2) z1 mit Q'(z 1 2 ) = Ql + Q12.z2.

2 2 3 3 Diese Modelle lassen sich durch Hinzunahme von Potenzen zl, z2, zl, z2, ... schritt-

weise erweitern.

Wir wollen dies jetzt in allgemeiner Form beschreiben, indem wir zur Formulierung S eines Lineares Modells wieder einen Vektor X = h(zl,z2) E IR sogenannter formaler

Modell-Covariablen betrachten, dessen Komponenten über vorgegebene Funktionen

h von den beobachteten Werten zl, z2 abhängen. Hierbei ist es zweckmäßig, die erste S

Komponente von X konstant =1 zu wählen, damit das resultierende lineare Modell

das konstante Modell (in dem beide Variablen Zl und Z2 keinen Einfluß haben) um-

faßt. Die restliche Komponenten von X zerlegen wir in drei Teile, wobei der erste

Teil xl = h (z ) nur von z und der zweite Teil X = h (z ) nur von z abhangt. Le- 1 1 1 2 2 2 2

diglich der dritte Wechselwirkungs-Teil x12 = h (z , z ) hängt von beiden Werten z1 12 1 2

und z ab. 2

Zuerst betrachten wir das Modell ohne Wechselwirkungen mit folgendem formalen

Covariablenvektor

x = ( l , x l , x 2 ) T mit

wobei die Komponenten-Funktionen his von hi wieder fest vorgeben sind (und ins-

besondere keine unbekannten Parameter enthalten). Das zugehörige Lineare Modell

lautet dann


(2)' mit

wobei der Achsenabschnitt B~(z2) aber nicht der Anstiegsparameter B2 vom fixier

ten Wert z2 abhängt (analog ergibt sich ein lineare Regressionsmodell in z2 bei fi

xiertem zl). Will man dagegen in (2)' auch zulassen, daß der Achsenabschnitt Bl in

von z2 abhängt, so kann man dies auf einfache (und lineare) Weise erreichen, in

dem man das Modell (2) um eine sogenannte Wechselwirkung erweitert zu

Dann ergibt sich bei fixiertem z2 das lineare Regressionsmodell in zl

(3)' mit

Diese Modelle lassen sich durch Hinzunahme von Potenzen z~, z~, z~, z~, ... schritt

weise erweitern.

Wir wollen dies jetzt in allgemeiner Form beschreiben, indem wir zur Formulierung

eines Lineares Modells wieder einen Vektor x = h(zl' z2) E IR5 sogenannter formaler

Modell-Covariablen betrachten, dessen Komponenten über vorgegebene Funktionen

h s von den beobachteten Werten zl' z2 abhängen. Hierbei ist es zweckmäßig, die erste

Komponente von x konstant =1 zu wählen, damit das resultierende lineare Modell

das konstante Modell (in dem beide Variablen Zl und Z2 keinen Einfluß haben) um

faßt. Die restliche Komponenten von x zerlegen wir in drei Teile, wobei der erste

Teil xl = hl(zl) nur von zl und der zweite Teil x 2 = hiz2) nur von z2 abhängt. Le

diglich der dritte Wechselwirkungs-Teil x l2 = h l2(zl' z2) hängt von beiden Werten zl

und z2 ab.

Zuerst betrachten WIr das Modell ohne Wechselwirkungen mit folgendem formalen

Covariablenvektor

(4)

wobei die Komponenten-Funktionen h. von h. wieder fest vorgeben sind (und ins-zs z

besondere keine unbekannten Parameter enthalten). Das zugehörige Lineare Modell

lautet dann

51 52 (5) B 0 + s;;/lSXlS + s;;/2SX2S

T T Bo + xl Bl + x 2 B2


mit dem Parametervektor

der Dimension 1 +S1 +S2.

Wie bereits erwähnt wirken die beobachteten Werte z1 und z der Variablen Z1 und 2

Z2 im Modell (5) nur separat über die beiden Summen. Will man dagegen auch

Wechselwirkungen (oder Interaktionen) beider Variablen modellieren, so müssen noch

weitere Terme hinzugefügt werden, die von beiden Werten z1 und z2 abhängen. Dies

erreicht man durch eine Erweiterung des Covariablenvektors (4) durch Hinzu-

nahme eines Wechselwirkungsterms

mit

Jede Wechselwirkungskomponente x12s = h12s(z1,z2) ist dabei typischerweise ein

Produkt einer Komponente X von X mit einer Komponente X von X ls1 1 2 ~ 2 2

wie dies z.B. auch in (3) - mit z statt X bzw. hl und h als Identität - der Fall ist.

Das zu (7) gehörige Wechselwirkungsmodell ist dann gegeben durch


der Dimension S = 1 +S1 +S2 + S12. Das umfassendste Wechselwirkungsmodel1 dieser

Form liegt für S12 =S S vor und enthält alle Produkte der Form (8) für sl = 1, ..., S1 1 2

und s = 1, ..., S2 als Wechselwirkungsterme. 2

Betrachten wir nun (statt einer Einzelbeobachtung Y) alle J Beobachtungen

Y = (Y1, ..., YJ) und indizieren bei der j-ten Beobachtung mit dem Index j, so ergibt

sich die JxS-Modellmatrix für das Wechselwirkungsmodel1 (9) zu

Das Wechselwirkungsmodel1 enthält unter anderem folgende interessierende line-



der Dimension 1 +Sl +S2·

Wie bereits erwähnt wirken die beobachteten Werte zl und z2 der Variablen Zl und

Z2 im Modell (5) nur separat über die beiden Summen. Will man dagegen auch

Wechselwirkungen (oder Interaktionen) beider Variablen modellieren, so müssen noch

weitere Terme hinzugefügt werden, die von beiden Werten zl und z2 abhängen. Dies

erreicht man durch eine Erweiterung des Covariablenvektors (4) durch Hinzu

nahme eines Wechselwirkungsterms

(7) mit

Jede Wechselwirkungskomponente x12s = h12/z1,z2) ist dabei typischerweise em

Produkt einer Komponente x1S1

von xl mit einer Komponente x2S2

von x2

(8) x12s = h12/z1,z2) = x1S1 · x2S2'

wie dies z.B. auch in (3) - mit z statt x bzw. h1 und h 2 als Identität - der Fall ist.

Das zu (7) gehörige Wechselwirkungsmodell ist dann gegeben durch

51 52

(9) B 0 + s"f./1Sx1S + s"f./2Sx2S +

T T = Bo + Xl B1 + x 2 B2 +


5 12

s"f.1 B12sx12s

T x 12 B12

der Dimension S = 1 +Sl +S2 + S12. Das umfassendste Wechselwirkungsmodell dieser

Form liegt für S12 = Sl S2 vor und enthält alle Produkte der Form (8) für sl = 1, ... , Sl

und s2 = 1, ... ,S2 als Wechselwirkungsterme.

Betrachten wir nun (statt einer Einzelbeobachtung Y) alle J Beobachtungen

Y = (Y1, ... , Y

J) und indizieren bei der j-ten Beobachtung mit dem Index j, so ergibt

sich die JxS-Modellmatrix für das Wechselwirkungsmodell (9) zu

Das Wechselwirkungsmodell enthält unter anderem folgende interessierende line-


are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:

~ , : e = o 12

(keine Wechselwirkungen zwischen Zl und Z2)

H : e = e = O 0 1 12

(Zl hat keinen Einfluß)

H : e = e = O 0 2 12

(Z2 hat keinen Einfluß)

H : e = e = e = O 0 1 1 1 2

(konstantes Modell: Zl und Z2 haben keinen Einfluß)

Beispiel: Das Wechselwirkungsmodel11. Ordnung

Das Wechselwirkungs-Modell 1. Ordnung in den transformierten Variablen xl und x2

lautet analog (3)

und die Bemerkungen zum Modell (3) gelten entsprechend.

Beispiel: Das Wechselwirkungsmodel12. Ordnung


ist eine Erweiterung des Wechselwirkungsmodells 1. Ordnung um die Quadrate der

Covariablen X und X 1 2

Bei fixiertem z ergibt sich ein quadratisches Regressionsmodell bzgl. z 2 1

(14) 2

p(z1> z2) = X(x2) + ß(~2) . x1 + Y . x1 mit

Man beachte, daß der Krümmungs-Parameter y unabhängig von z ist, was man al- 2

2 lerdings - falls gewünscht - durch Hinzunahme höherer Wechselwirkungen xl x2, 2 2 2 xlx2 sowie xl x2 in (13) erreichen könnte. Üblicherweise beschränkt man sich je-

doch auf das Modell (13). - Analog (14) ergibt sich bei fixiertem z ein quadratisches 1

Regressionsmodell bzgl. z 2'

3.3 Modelle für zwei beobachtete Covariablen 11.8.05


HO :()l2=O

Ho: ()l =()l2=O

HO :()2=()l2=O

(keine Wechselwirkungen zwischen Zl und Z2)

(Zl hat keinen Einfluß)

(Z2 hat keinen Einfluß)

3- 27

Ho : ()l = ()1 = ()l2 = 0 (konstantes Modell: Zl und Z2 haben keinen Einfluß)

Beispiel: Das Wechselwirkungs modell 1. Ordnung


lautet analog (3)

und die Bemerkungen zum Modell (3) gelten entsprechend. D

Beispiel: Das Wechselwirkungs modell 2. Ordnung


ist eine Erweiterung des Wechselwirkungsmodells 1. Ordnung um die Quadrate der

Covariablen xl und x2

Bei fixiertem z2 ergibt sich ein quadratisches Regressionsmodell bzgl. zl

(14) mit

Man beachte, daß der Krümmungs-Parameter "( unabhängig von z2 ist, was man al

lerdings - falls gewünscht - durch Hinzunahme höherer Wechselwirkungen xi x2

!

Xl x~ sowie xi x~ in (13) erreichen könnte. Üblicherweise beschränkt man sich je

doch auf das Modell (13). - Analog (14) ergibt sich bei fixiertem zl ein quadratisches

Regressionsmodell bzgl. z2. D


3.3.3 Modelle für zwei Faktoren

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y zwei (codierte) Faktoren

A E {I, ..., K } mit K Stufen und B E {I, ..., L } mit L Stufen beobachtet werden, wobei

der Erwartungswert einer Einzelbeobachtung Y nur von den beobachteten Stufen 5

und 1 dieser Faktoren A und B abhängen soll

Das Modell ohne Wechselwirkung beider Faktoren A und B ist von der Form

Man beachte, daß Bi nur von der Stufe 6 des ersten Faktors A und ßl nur von der

Stufe 1 des zweiten Faktors B abhängt.

Unter Verwendung der Indikatorvariablen I: = I{A = k.) B und I, = I {B = g mit

(3) A IL = 1 U A = k ,

B I = 1 1 U B = 1 ,


Die K+ L Parameter Q1, ..., 19 ß ..., ßL sind wegen der Nebenbedingungen K ' 1'

(5) A L B C I = l = C I ,

L=l k 1 =1

nicht eindeutig bestimmt, und die zugehörige Modellmatrix X hat einen Rang A < K + L - 1. Ersetzt man unter Verwendung von (5) jeweils die Indikatoren Il und

B Il der 1. Stufe, so ergibt sich

K L

(6) p, = Q o + C ~ k ~ : + C ß i ~ ; mit k=2 1 =2

(7) I90 = I91 + ß, , 19; = Bk - o1 , ß; = P, - ßl .

Dies ist ein allgemeines lineares Modell mit dem Parametervektor


3.3.3 Modelle für zwei Faktoren

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y zwei (codierte) Faktoren

A E {I, ... , K} mit K Stufen und BE {I, ... , L} mit L Stufen beobachtet werden, wobei

der Erwartungswert einer Einzelbeobachtung Y nur von den beobachteten Stufen k

und 1 dieser Faktoren A und B abhängen soll

Das Modell ohne Wechselwirkung beider Faktoren A und B ist von der Form

Man beachte, daß Bk nur von der Stufe k des ersten Faktors A und ßZ

nur von der

Stufe 1 des zweiten Faktors B abhängt.

Unter Verwendung der Indikatorvariablen It = I{A = k} und If = I{B = l} mit

A I k = 1 (3) A =k ,

B = 1 ,


(4)

Die K +L Parameter B1, ... , BK ,ßl' ... , ßL sind wegen der Nebenbedingungen

K ALB (5) 2:= I k = 1 = 2:= I Z

k=1 Z =1

nicht eindeutig bestimmt, und die zugehörige Modellmatrix X hat einen Rang

< K + L -1. Ersetzt man unter Verwendung von (5) jeweils die Indikatoren If und

I~ der 1. Stufe, so ergibt sich

(6)

(7)

K L J-L = Bo + 2:= B~ It + 2:= ßfIf

k=2 Z =2

Bo = B1 + ß1 ' B~ = Bk - B1 '

mit

Dies ist ein allgemeines lineares Modell mit dem Parametervektor


der Dimension S = K + L - I. Man beachte die formale Ähnlichkeit des Modells (6) mit dem Modellen 3.3.2 (5),

wenn man dort die X -Terme durch die Indikatoren für A und die X -Terme durch 1 2

die Indikatoren für B ersetzt.

Bezeichnen A . E { 1, ..., K) und B1 E { 1, ..., L) die Stufen der Faktoren A und B für die 3

Beobachtung j= 1, ..., J, so lautet die zugehörige Modell-Matrix aller J Beobachtun-

gen

Diese Matrix enthält nur Nullen und Einsen und hat z.B. dann vollen Rang S wenn

jede der K. L möglichen Faktorkombinationen (k,1) mindestens einmal beobachtet

wird.

Wir erweitern jetzt das Modell (6) zu einem Modell mit Wechselwirkungen

Wegen der Nebenbedingungen (5) sind die Parameter 6 E IRK, PE IRL und 7 E IRKL B (10) nicht eindeutig bestimmt. Ersetzt man wieder die Indikatoren I; und Il der 1.

Stufe , so ergibt sich eine Kontrast-Parametrisierung der Form

dessen Parametervektor

sich aus dem Parametervektoren 8, ß und 7 aus (10) ergibt. Die Parameter lassen

sich hierbei wie folgt interpretieren. 19 ist der Erwartungswert der Faktor-Kombi- 0

nation (1,1), die aus den jeweiliegen „Referenz-Stufen" beider Faktoren besteht:

Bei fester 1. Stufe (Referenzstufe) des Faktors B beschreibt 19; den Kontrast der Stufe

5 > 1 des Faktors A zur Referenz-Stufe 1 dieses Faktors:


(8) (J = ((Jo' (J;, ... , (J~, ß;, ... , ß~)

der Dimension S = K + L - 1.

Man beachte die formale Ähnlichkeit des Modells (6) mit dem Modellen 3.3.2 (5),

wenn man dort die xl-Terme durch die Indikatoren für A und die x2-Terme durch

die Indikatoren für B ersetzt.

Bezeichnen Aj

E { 1, ... , K} und BZ E { 1, ... , L} die Stufen der Faktoren A und B für die

Beobachtung j = 1, ... ,l, so lautet die zugehörige Modell-Matrix aller 1 Beobachtun-

gen

Diese Matrix enthält nur Nullen und Einsen und hat z.B. dann vollen Rang S wenn

jede der K· L möglichen Faktorkombinationen (k, l) mindestens einmal beobachtet

wird.

Wir erweitern jetzt das Modell (6) zu einem Modell mit Wechselwirkungen

(10) p, = p,(k, l)

Wegen der Nebenbedingungen (5) sind die Parameter (JE IRK, ßE IRL und 'Y E IRKL

(10) nicht eindeutig bestimmt. Ersetzt man wieder die Indikatoren It und If der 1.

Stufe, so ergibt sich eine Kontrast-Parametrisierung der Form

dessen Parametervektor

sich aus dem Parametervektoren (J, ß und 'Y aus (10) ergibt. Die Parameter lassen

sich hierbei wie folgt interpretieren. (Ja ist der Erwartungswert der Faktor-Kombi

nation (1,1), die aus den jeweiliegen "Referenz-Stufen" beider Faktoren besteht:

(13) (JO = E(YIA=l! B=l).

Bei fester 1. Stufe (Referenzstufe) des Faktors B beschreibt (J~ den Kontrast der Stufe

k> 1 des Faktors A zur Referenz-Stufe 1 dieses Faktors:


Analog beschreibt ß1 den Kontrast der Stufe 1 > 1 zur Referenzstufe 1 des Faktors B 1

bei fester 1. Stufe (Referenzstufe) des Faktors A:

Und bei beliebigen Stufen k > 1 und 1 > 1 der Faktoren A und B beschreibt den

zusätzlichen Effekt, der durch die Faktorkombination (k,1) entsteht

Das Wechselwirkungs-Mode11 (11) hat S = K . L Parameter. Wenn jede der K . L Fak-

torkombinationen mindestens einmal beobachtet worden ist, so hat die Modellma-

trix den vollen Rang S. Faßt man in diesem Fall beide Faktoren zu einem neuen

Kombinationsfaktor C = (A, B) mit K . L Stufen zusammen, so beschreibt (11) das

vollständige Modell für den Faktor C aus 2.2.3.

Das Wechselwirkungsmodel1 enthält unter anderem folgende interessierende line-


I H o : ? = O (keine Wechselwirkungen der Faktoren A und B)

I I H o : ? =ß = O (Faktor B hat keinen Einfluß)

I I = B = O (Faktor A hat keinen Einfluß)

I I I H ~ : ? = ß = B = O (konstantes Modell: beide Faktoren haben keinen Einf luß).


(14) e~ = E(YIA=k) B=l) - E(YIA=l) B=l).

Analog beschreibt ß; den Kontrast der Stufe l> 1 zur Referenzstufe 1 des Faktors B

bei fester 1. Stufe (Referenzstufe) des Faktors A:

(15) ß; = E(YIA = 1) B= l) - E(YIA = 1) B= 1).

Und bei beliebigen Stufen k> 1 und l> 1 der Faktoren A und B beschreibt '~l den

zusätzlichen Effekt, der durch die Faktorkombination (k, l) entsteht

(16) ,

'kl E(YIA = k) B=l) - E(YIA = 1) B= 1) - e~ - ßf E(YIA=k) B=l) + E(YIA=l) B=l)

- E(YIA = 1) B= l) - E(YIA = k) B= 1).

Das Wechselwirkungs-Modell (11) hat S=K·L Parameter. Wenn jede der K·L Fak

torkombinationen mindestens einmal beobachtet worden ist, so hat die Modellma

trix den vollen Rang S. Faßt man in diesem Fall beide Faktoren zu einem neuen

Kombinationsfaktor C = (A, B) mit K· L Stufen zusammen, so beschreibt (11) das

vollständige Modell für den Faktor C aus 2.2.3.

Das Wechselwirkungsmodell enthält unter anderem folgende interessierende line


HO:'Y'=O

HO: 'Y' = ß' = 0

Ho:'Y'=e'=o

Ho:'Y'=ß'=e'=o

(keine Wechselwirkungen der Faktoren A und B)

(Faktor B hat keinen Einfluß)

(Faktor A hat keinen Einfluß)

(konstantes Modell: beide Faktoren haben keinen Einfluß).

4. Das lineare Aitken-Modell 11.8.05 4 - 1

4 Das lineare Aitken-Modell

In diesem Kapitel wollen wir die Resultate über das lineare Gauß-Markov-Modell

auf das lineare Aitken-Modell verallgemeinern und ergänzen. Die Verallgemeine-

rung betrifft hierbei einerseits die Covarianzstruktur des Beobachtungsvektors Y,

die im Gauß-Markov-Modell durch

2 (GMC) Cov(Y) = D . f l J (GauJ3-Markov-Covarianzstruktur)

gegeben war, und hier nach Aitken verallgemeinert wird zu

(AC) C O V ( Y ) = D ~ . V (Aitken-Covarianzstruktur),

wobei V eine beliebige, aber fest vorgegebene positiv-definite JxJ Matrix ist. Eine nahe-

liegende Verallgemeinerung dieser Covarianzstruktur (die wir hier nicht untersu-

chen werden) besteht darin, daß die Matrix V auch noch zusätzliche unbekannte

Parameter enthalten darf, wie z.B. bei sogenannten longitudinalen Daten der Fall ist,

vgl. z.B. Fahrmeir und Tutz (1994), Diggle, Liang and Zeger (1994).

Obwohl sich in 4.2 herausstellen wird, daß man Aitken-Modell vollständig auf das

Gauß-Markov-Modell zurückführen kann, wollen wir dennoch alle wichtigen Resul-

tate des Gauß-Markov-Modells auch für das Aitken-Modell explizit formulieren.

Dabei sollen die Resultate gleichzeitig auf den Fall erweitert werden, daß das zu-

grunde liegende lineare Modell

nicht zutrifft, d.h. wir untersuchen auch den Fall pSf &. Dies ist insofern von Be-

deutung, als man in der Praxis nie sicher sein kann, ob das verwendete Modell &

korrekt spezifiziert ist, und daher auch die Eigenschaften der Schätzer und Tests

für den Fall von Interesse sind, daß das Modell & nicht gilt.

Als wichtigster Spezialfall des Aitken-Modells wird zunächst in 4.1 das gewichtete

Gauß-Markov-Modell eingeführt.

4. Das lineare Aitken-Modell 11.8.05 4-1

4 Das lineare Aitken-Modell

In diesem Kapitel wollen wir die Resultate über das lineare Gauß-Markov-Modell

auf das lineare Aitken-Modell verallgemeinern und ergänzen. Die Verallgemeine

rung betrifft hierbei einerseits die Covarianzstruktur des Beobachtungsvektors Y,

die im Gauß-Markov-Modell durch

(GMC) Cov(Y) = 0-2

. 11 J (Gauß-Markov-Covarianzstruktur)

gegeben war, und hier nach Aitken verallgemeinert wird zu

(AC) Cov(Y) = 0-2 . V (Aitken-Covarianzstruktur) )

wobei V eine beliebige) aber fest vorgegebene positiv-definite lxl Matrix ist. Eine nahe

liegende Verallgemeinerung dieser Covarianzstruktur (die wir hier nicht untersu

chen werden) besteht darin, daß die Matrix V auch noch zusätzliche unbekannte

Parameter enthalten darf, wie z.B. bei sogenannten longitudinalen Daten der Fall ist,

vgl. z.B. Fahrmeir und Tutz (1994), Diggle, Liang and Zeger (1994).

Obwohl sich in 4.2 herausstellen wird, daß man Aitken-Modell vollständig auf das

Gauß-Markov-Modell zurückführen kann, wollen wir dennoch alle wichtigen Resul

tate des Gauß-Markov-Modells auch für das Aitken-Modell explizit formulieren.

Dabei sollen die Resultate gleichzeitig auf den Fall erweitert werden, daß das zu

grunde liegende lineare Modell

(LM)

nicht zutrifft, d.h. wir untersuchen auch den Fall Jl t/:..At. Dies ist insofern von Be

deutung, als man in der Praxis nie sicher sein kann, ob das verwendete Modell vft

korrekt spezifiziert ist, und daher auch die Eigenschaften der Schätzer und Tests

für den Fall von Interesse sind, daß das Modell vft nicht gilt.

Als wichtigster Spezialfall des Aitken-Modells wird zunächst in 4.1 das gewichtete

Gauß-Markov-Modell eingeführt.

4.1 Das gewichtete Gauß-Markov-Modell 7.7.10 4-2

4.1 Das gewichtete Gauß-Markov-Modell

Ein wichtiger Spezialfall des Aitken-Modells liegt vor, wenn die Beobachtungen Y.J

unkorTeliert sind, d.h. (UnKor) gilt. Dann hat V Diagonalgestalt

(1) V = Diag(v) mit v. = 12

Var(Y.) > 0J a J

für alle j.

Unter Verwendung sogenannter Gewichtsfaktoren (engl.: weights)

(2) -1w.=v. >0

J Jbzw. Var(Y.) = _1 0-

2J w·]

erhält man die Darstellung

(3) bzw. V-1 = Diag{w} .

Die Gewichtsfaktoren sind umgekehrt proportional zu den Varianzen der Beobach

tungen

(4) für alle j ,k = 1, ...,1.

Dieses Modells liegt zum Beispiel dann vor, wenn Y. ein Mittelwert aus EinzelbeJ

obachtungen YjZ

mit l = 1, ...,L(j) ist, wobei alle Einzelbeobachtungen YjZ

unkorreliert

sind und gleiche Varianz haben:

L0)(5) Y. = Ir;) 2: Y·Z mit Var(Y

J·Z) = 0-

2 für alle j, l .J v Z =1 J

In diesem Fall entspricht der Gewichtsfaktor w. = L(j) der Anzahl der Einzel-BeJ

obachtungen in der j-ten Gruppe.

Man bezeichnet diesen Spezialfall des Aitken-Modells mit der Covarianzstruktur

(GGMC) Cov(Y) = 0-2 . Diag-1{w} (gewichtete Gauß-Markov-Covarianz)

auch als gewichtetes Gauß-Markov-Modell für die gewichteten Beobachtungsdaten

(Y.,x., w.) mit j = 1, ...,1. Im Gegegnsatz zur allgemeinen Formulierung (AC) desJ J J

Aitken-Modells ist das gewichtete Gauß-Markov-Modell (GGMC) ein direkter

Spezialfall des Covarianz-Modells (CMod) aus 1.3.

4.1 Das gewichtete Gauß-Markov-Modell 7.7.10 4-2

4.1 Das gewichtete Gauß-Markov-Modell

Ein wichtiger Spezialfall des Aitken-Modells liegt vor, wenn die Beobachtungen Y. J

unkorTeliert sind, d.h. (UnKor) gilt. Dann hat V Diagonalgestalt

(1) V = Diag(v) mit v. = 12

Var(Y.) > 0 J a J

für alle j.

Unter Verwendung sogenannter Gewichtsfaktoren (engl.: weights)

(2) -1 w.=v. >0

J J

erhält man die Darstellung

(3)

bzw.

bzw.

Var(Y.) = _1 0-2

J w· ]

V-1 = Diag{w} .

Die Gewichtsfaktoren sind umgekehrt proportional zu den Varianzen der Beobach

tungen

(4) für alle j ,k = 1, ... ,1.

Dieses Modells liegt zum Beispiel dann vor, wenn Y. ein Mittelwert aus EinzelbeJ

obachtungen YjZ

mit l = 1, ... , L(j) ist, wobei alle Einzelbeobachtungen YjZ

unkorreliert

sind und gleiche Varianz haben:

L0) (5) Y. = Ir;) 2: Y·Z mit Var(Y

J·Z) = 0-

2 für alle j, l . J v Z =1 J

In diesem Fall entspricht der Gewichtsfaktor w. = L(j) der Anzahl der Einzel-BeJ

obachtungen in der j-ten Gruppe.

Man bezeichnet diesen Spezialfall des Aitken-Modells mit der Covarianzstruktur

(GGMC) Cov(Y) = 0-2 . Diag -1{w} (gewichtete Gauß-Markov-Covarianz)

auch als gewichtetes Gauß-Markov-Modell für die gewichteten Beobachtungsdaten

(Y.,x., w.) mit j = 1, ... ,1. Im Gegegnsatz zur allgemeinen Formulierung (AC) des J J J

Aitken-Modells ist das gewichtete Gauß-Markov-Modell (GGMC) ein direkter

Spezialfall des Covarianz-Modells (CMod) aus 1.3.

4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 3

4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Mode11

Das Aitken-Modell läßt sich vollständig auf das Gauß-Markov-Modell zurückfüh-

ren. Hierzu verwenden wir den Begriff der Wurzel einer Matrix. Ist v1l2 eine (belie-

bige) Wurzel von V, so gilt

(1) V = V 112 . V Tl2 1 T/2 v-1/2 7 V- = V - . 7

mit T/2 -1 v -T /2= [ V ]

Bezeichnet D die Inverse von V, so ergibt sich

Wir transformieren jetzt die Situation mit dem linearen Isomorphismus J D T/2 : IRJ + IR und erhalten

(3> Y* = D T/2 Y (transformierte Beobachtung),

(4) * * T12 p = E ( Y ) = D p (transformierter Erwartungswert),

(5) *

& = DT12 [ ~ k q (transformierter Modellraum),

(6) X* = D T 1 2 ~ (transformierte Covariablenmatrix),

* wobei die Spalten der transformierten Matrix X den transformierten (linearen)

Raum J&? erzeugen

Der Rang bzw. die Dimension sind invariant unter der Transformation

* Die transformierte Beobachtung Y erfüllt die Voraussetzungen des Gauß-Mar-

kov-Modell, d.h.

Und das lineare Modell (LM) gilt für (Y,A~') genau dann, wenn es für die Transfor-

mation (Y*,&? gilt, d.h.


4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell

Das Aitken-Modell läßt sich vollständig auf das Gauß-Markov-Modell zurückfüh

ren. Hierzu verwenden wir den Begriff der Wurzel einer Matrix. Ist Y 1/2 eine (belie

bige) Wurzel von Y, so gilt

(1) Y = y 1/ 2 . y T/2 , y-1 = y-T/2. y-1/2

mit y-T/2 = [yT/2j-1

Bezeichnet D die Inverse von Y, so ergibt sich

(2) D :=y-1 = D 1/2 . D T/2

D1/2 = y-T/2

wobei

bzw.

,

Wir transformieren jetzt die Situation mit dem linearen Isomorphismus

D T/2 : IR] -----+ IR] und erhalten

(3) y* = D T/2 y (transformierte Beobachtung)!

(4) Jl* = E(Y*) = D T/2 Jl (transformierter Erwartungswer-t)!

(5) vft* = D T/2 [c.4] (transformierter Modellraum) !

(6) X* = D T/2X (transformierte Covariablenmatrix)!

wobei die Spalten der transformierten Matrix X* den transformierten (linearen)

Raum vi! erzeugen

Der Rang bzw. die Dimension sind invariant unter der Transformation

(8) S =Rang(X) = Dim(vft) = Dim(vft*) = Rang(X) .

Die transformierte Beobachtung y* erfüllt die Voraussetzungen des Gauß-Mar

kov-Modell, d.h.

(9) * 2 Cov(Y ) = a .11]"

Und das lineare Modell (LM) gilt für (Y,vft) genau dann, wenn es für die Transfor

mation (y*,vft) gilt, d.h.


Aufgrund dieser Transformation kann das allgemeinere Aitken-Modell vollständig

auf das Gauß-Markov-Modell zurückgeführt werden, wobei. der Parameter 8 nach

(11) sogar invariant gegenüber dieser Transformation ist. Wir werden im folgenden

die Eigenschaften des Aitken-Modells aus den bereits bekannten Eigenschaften des

transformierten Gauß-Markov-Modells herleiten.

4.2.1 Gewichtetes Gauß-Markov-Modell

Hier ist D die Diagonalmatrix der Gewichtsfaktoren

und die Wurzeln sind ebenfalls (symmetrische) Diagonalmatrizen

(2) D1/2=DT/2- - Diag{+ ) mit

(3) v1l2 = V T/2 = D ~ ~ ~ - ' { \ T 1 .

J Die Transformation DTl2 :IRJ -+ IR bewirkt hier lediglich eine Streclczlng aller

Komponenten:

für E d.


(10)

(11) Jl=X()

* ;I< Jl Evft ,

Jl* = X* ().

Aufgrund dieser Transformation kann das allgemeinere Aitken-Modell vollständig

auf das Gauß-Markov-Modell zurückgeführt werden, wobei. der Parameter () nach

(11) sogar invariant gegenüber dieser Transformation ist. Wir werden im folgenden

die Eigenschaften des Aitken-Modells aus den bereits bekannten Eigenschaften des

transformierten Gauß-Markov-Modells herleiten.


Hier ist D die Diagonalmatrix der Gewichtsfaktoren

(1) D = Diag{w} ,

und die Wurzeln sind ebenfalls (symmetrische) Diagonalmatrizen

(2) D 1/ 2 = D T/2 = Diag{y'W} mit y'W=(~). ] ]

(3) y1/2 = yT/2 = Diag- 1{y'W}.

Die Transformation D T/2 : IR] -----+ IR] bewirkt hier lediglich eine Streckung aller

Komponenten:

(4) T/2 _ (~ ) D y- yW;·y .. ] ] ]

f ·· IR] ur yE .

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 - 5

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung

Der sogenannte verallgemeinerte Minimale Quadrate-Schätzer (kurz: VMQ-Schätzer) fi von ,u im Aitken-Modell ( Y , d ist definiert als die Rück-Transformation der

* * * * MQ-Schätzungen fi von ,u für im Gauß-Markov-Modell (Y ,.,&E ):

(1) , := D- T/2 A* A * P bzw. D T/2 fi = p, mit

Wir wollen diese verallgemeinerte MQ-Schätzunge noch anders beschreiben und J definieren hierzu ein Skalarprodukt auf IR durch:

T (2) ( u , v ) ~ = u D v

= ( u , D v ) = ( D ~ u , v ) = ( D ~ ~ ~ ~ , D ~ ~ ~ ~ ) für U, V E IR J

mit der dazugehörigen Norm

Die D-orthogonale Projektion P; : IRJ + .,&E auf .,&E ist dann definiert als die or-

thogonale Projektion bzgl des Skalarproduktes (-,-)D. ES gilt die Darstellung

T T mit einer beliebigen verallgemeinerten Inversen ( X DX)- von X DX, die unter der

Rangbedingung (RB), d.h. Spalten von X sind eine Basis von .,&E, wieder die übli-

che Inverse (xTDx)-l ist.

Die durch (1) gegebene verallgemeinerte MQ-Schätzung fi ist die Minimalstelle der

quadratischen Form

bzgl. PE&, d.h. fl ist die D-orthogonale Projektion der Beobachtung Y auf den

Modellraum .,&E

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-5

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung

Der sogenannte verallgemeinerte Minimale Quadrate-Schätzer (kurz: VMQ-Schätzer) {1,

von Jl im Aitken-Modell (Y, Jt) ist definiert als die Rück-Transformation der

MQ-Schätzungen {1,* von Jl * für im Gauß-Markov-Modell (y*,...4*):

(1) " D- T'/2 ,,* Jl:= Jl

,,* P y* Jl =.At* .

bzw. D T,/2 " ,,* Jl=Jl mit

Wir wollen diese verallgemeinerte MQ-Schätzunge noch anders beschreiben und

definieren hierzu ein Skalarprodukt auf lR] durch:

(2) (u,v)D = uTDv

= (u, Dv) = (DTu, v) = (D T/2u , D T/2 v )

mit der dazugehörigen Norm

(3)

f ·· lR] ur u, vE

f ·· lR] ur uE .

Die D-orthogonale Projektion p! : lR] -----+ ...4 auf ...4 ist dann definiert als die or

thogonale Projektion bzgl. des Skalarproduktes ( -, - )D. Es gilt die Darstellung

(4)

mit einer beliebigen verallgemeinerten Inversen (XT DXr von X T DX, die unter der

Rangbedingung (RB), d.h. Spalten von X sind eine Basis von ...4, wieder die übli

che Inverse (XTDX)-l ist.

Die durch (1) gegebene verallgemeinerte MQ-Schätzung (1, ist die Minimalstelle der

quadratischen Form

(5) SQD(Jl ,Y) = 11 Y - JlII t = (Y - Jl) T D (Y - Jl )

bzgl. Jl E...4, d.h. {1, ist die D-orthogonale Projektion der Beobachtung Y auf den

Modellraum .At:


S 2 Die Parameter B E IR und a > 0 sind invariant gegenüber der Transformation

Als VMQ-Schätzungen d und 82 von B und a2 im Aitken-Modell (Y, A, X) verwen-

det man daher die MQ-Schätzungen d und 82 des Gauß-Markov-Modells

(Y*, J&?, X*), d.h. unter der Rangbedigung (RB) ist

(VMQ-Schätzung von B),

(7) *T * -1 *T d = ( x X ) X Y*

1 T = (x~Dx)- X D Y

(8) 8 2 - - 1 * * 2

-IlY -fi I 1 J-S

- - 1 2 - 1 1 Y-fi I I D J-S (VMQ-Schätzung von aZ))

- D e v ( A ) -E@q wobei

(9> D e v ( A ) = ~ ~ ~ - f i l l S >

das Minimum von SQD(- ,Y) auf A ist, und

wie bisher den Freiheitsgrad des Modellraums bezeichnet.

Die Eigenschaften der VMQ-Schätzer im Aitken-Modell (Y, A, X) lassen sich ent- * * *

weder durch Übergang auf das Gauß-Markov-Modell (Y , A , X ) aus den dorti-

gen Eigenschaften für den MQ-Schätzer herleiten oder direkt durch eine Verallge-

meinerung der jeweiligen Schlußweisen im Gauß-Markov-Modell auf das Aitken-

Modell zeigen. Zunächst bestimmen wir den Erwartungsvektor und die Covarianz-

matrix des Schätzungen, wobei wir (für spätere Anwendungen) erstmals die Gültig-

keit des Linearen Modells

nicht generell voraussetzen wollen. Dann ist:


(6) 4=4(Y)=P~Y.

Die Parameter () E IRS und 0-2 > 0 sind invariant gegenüber der Transformation

(Y,vIt,X) * ,.-* * (Y,Ja ,X ).

Als VMQ-Schätzungen () und 0-2 von () und 0-2 im Aitken-Modell (Y, vIt, X) verwen

det man daher die MQ-Schätzungen () und 0-2 des Gauß-Markov-Modells

(Y*, JIt, X*), d.h. unter der Rangbedigung (RB) ist

(7)

(8)

(9) Dev(vIt)

(X*TX*)-l X*T y *

(XTDX)-l X T Dy

-l-IIY* -4*11 2 J-s

J~s IIY-41It

FG(~) Dev( vIt)

IIY-41It

das Minimum von SQD( - ,V) auf vIt ist, und

(10) FG(vIt) = J - Dim(vIt)

(VMQ-Schätzung von ())!

(VMQ-Schätzung von 0-2)!

wobei

wie bisher den Freiheitsgrad des Modellraums bezeichnet.

Die Eigenschaften der VMQ-Schätzer im Aitken-Modell (Y, vIt, X) lassen sich ent-.. * * * weder durch Ubergang auf das Gauß-Markov-Modell (Y ,vIt ,X ) aus den dorti-

gen Eigenschaften für den MQ-Schätzer herleiten oder direkt durch eine Verallge

meinerung der jeweiligen Schlußweisen im Gauß-Markov-Modell auf das Aitken

Modell zeigen. Zunächst bestimmen wir den Erwartungsvektor und die Covarianz

matrix des Schätzungen, wobei wir (für spätere Anwendungen) erstmals die Gültig

keit des Linearen Modells

(LM) /lEvit

nicht generell voraussetzen wollen. Dann ist:


D (11) E( f i )=pAP auch falls (LM) nicht gilt,

= P falls (LM) gilt.

D (12) Cov(fi) = 02. P . D-l "4%' auch falls (LM) nicht gilt.

1 T (13) E(B) = ( X ~ D X ) - X D bzw X E(B) = ~ ( f i ) auch falls (LM) nicht gilt,

E(B) = e falls (LM) gilt.

(14) cov(B) = o2 . (XTDX) auch falls (LM) nicht gilt.

Insbesondere sind die VMQ-Schätzer also erwartungstreu, sofern das Modell (LM)

zutrifft. Wenn das Modell nicht gilt, so ist der Parameter 8 zunächst überhaupt

nicht definiert, weil dann ,U @ A. Man kann 8 aber immer definieren als zugehörigen D Parameter der Projektion PA p E A, dd..

Die Eindeutigkeit von 8 wird erst durch die Rangbedingung (RB) garantiert und

dann läßt sich 8 explizit darstellen als

1 T e = (x~Dx)- X D P falls (RB) gilt.

Der Schätzer B ist dann nach (13) stets erwartungstreu.

Mit dem D-orthogonalen Komplement M= A 'D von A ergibt sich das Residuum

D D (15) R = Y-fi = (f lJ-P ) Y = P Y "4%' M wobei

Der Erwartungsvektor und die Covarianzmatrix des Residuums sind:

(16) D

E(R) = PM P auch falls (LM) nicht gilt,

= 0 falls (LM) gilt,

(17) COV(R) = 0 2 . ~ D . ~ - 1 M auch falls (LM) nicht gilt.

Das Residuum R ist wieder unkorreliert zur Schätzung fi, d.h.

(18) Cov(R , fi) = 0 auch falls (LM) nicht gilt.


(11) E(ft,) = p! Jl auch falls (LM) nicht gilt,

=Jl falls (LM) gilt.

(12) Cov(ft,) = (}2. p!. D-1 auch falls (LM) nicht gilt.

(13) E(O) = (XTDX)-lXTD Jl bzw. X E(O) = E(ft,) auch falls (LM) nicht gilt,

E(O) = () falls (LM) gilt.

(14) Cov(O) = (}2 . (XTDX)-l auch falls (LM) nicht gilt.

Insbesondere sind die VMQ-Schätzer also erwartungstreu, sofern das Modell (LM) zutrifft. Wenn das Modell nicht gilt, so ist der Parameter () zunächst überhaupt

nicht definiert, weil dann Jl \t.At. Man kann () aber immer definieren als zugehörigen

Parameter der Projektion p! Jl E v«, d.h.

D Pc4 Jl = x().

Die Eindeutigkeit von () wird erst durch die Rangbedingung (RB) garantiert und

dann läßt sich () explizit darstellen als

falls (RB) gilt.

Der Schätzer 0 ist dann nach (13) stets erwartungstreu.

Mit dem D-orthogonalen Komplement J'V = .At ~ D von .At ergibt sich das Residuum

I (15) wobei

Der Erwartungsvektor und die Covarianzmatrix des Residuums sind:

(16) E(R)

(17) Cov(R)

auch falls (LM) nicht gilt,

falls (LM) gilt,

auch falls (LM) nicht gilt.

Das Residuum R ist wieder unkorreliert zur Schätzung ft" d.h.

(18) Cov(R ,ft,) = 0 auch falls (LM) nicht gilt.

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 -8

Zur Bestimmung des Erwartungswertes von 82 zeigen wir zunächst

(19) 2 E{Dev(A)} = E{IIY-PII;} = 0 . F G ( A ) + I I ~ J P I I ; ~

und erhalten damit

2 2 1 D 2 (20) E { 8 } = + p I I P N ~ I I D

F G ( 4 auch falls (LM) nicht gilt,

= 0 2 falls (LM) gilt.

Folglich ist die Schätzung 82 genau dann erwartungstreu für 02, wenn das Modell 2 korrekt ist, und andernfalls wird 0 durch 82 überschätzt, d.h.


In diesem Fall ergeben sich das Skalarprodukt (-,-)D und die Norm 1 1 - l l D wie

folgt

(1) (u,v), := C W . U . V . , 2 2

j 3 3 3 ~ ~ u ~ ~ D :=

Die für den VMQ-Schätzer zu minimierende quadratische Form

ist hier eine gewichtete Quadratsumme mit dem Minimum

Die Schätzungen werden in diesem Zusammenhang auch als gewichtete minimale

Quadrate-Schätzer bezeichnet.


Zur Bestimmung des Erwartungswertes von 52 zeigen wir zunächst

und erhalten damit

(20) E{ 52} = 0-2 + FatA) 11 P~ JlII~ auch falls (LM) nicht gilt,

falls (LM) gilt. 2 = 0-

Folglich ist die Schätzung 52 genau dann erwartungstreu für 0-2, wenn das Modell

korrekt ist, und andernfalls wird 0-2 durch 52 überschätzt, d.h.

(21)


In diesem Fall ergeben sich das Skalarprodukt (- '-)D und die Norm 11-11 D wie

folgt

I (1)

Die für den VMq-Schätzer zu minimierende quadratische Form

I (2)

ist hier eine gewichtete quadratsumme mit dem Minimum

I (3)

Die Schätzungen werden in diesem Zusammenhang auch als gewichtete minimale

Quadrate-Schätzer bezeichnet.

4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4 - 9

4.4 Das Aitken-Modell mit normalverteilten Beobachtungen

Wie beim klassischen linearen Modell betrachten wir jetzt den wichtigen Fall, daß

der Beobachtungsvektor Y multivariat normalverteilt ist, d.h. wir setzen voraus


-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y).

Hieraus ergibt sich der stochastische Teil des Aitken-Modells zu

(SAM) 2(Y) = NJ(,u, o2 V) (stochastischer Teil des Aitken-Modells).

Die Präzisierung der Verteilungsklasse für die Beobachtung Y hat (wie im klassi-

schen linearen Modell) zur Folge, daß man die Verteilungen der Schätzer explizit

herleiten kann, wobei wir die Gültigkeit des Linearen Modells (LM) nicht generell

voraussetzen sondern nur die entsprechenden Vereinfachungen angeben, wenn das

Modell zutrifft. Der Parameter 8 ist hierbei (auch wenn das Modell .L& nicht gilt)

wie folgt definiert

(0) P ~ ~ = X B bzw. e = ( xT~x) - 1 X T D P

wobei die Rangbedingung (RB) vorausgesetzt ist.

Die Schätzer fi und 8 sind jetzt multivariat normalverteilt:

(1) q f i ) = ~ ~ ( ~ $ , u , o ~ ~ $ ~ - l ) auch falls (LM) nicht gilt,

2 D = NJ(,u, o PA D-l) falls (LM) gilt,

(2) 4 8 ) = NS( B , o2 (XTDX)-' ) auch falls (LM) nicht gilt,

Mit dem D-orthogonalen Komplement M= .L& 'D von .L& ergibt sich die Verteilung

des Residuums R = Y - fi zu

4.4 Das Aitken-Modell für normalverteilte Beobachtungen

4.4 Das Aitken-Modell mit normalverteilten Beobachtungen

11.8.05 4-9

Wie beim klassischen linearen Modell betrachten wir jetzt den wichtigen Fall, daß

der Beobachtungsvektor Y multivariat normalverteilt ist, d.h. wir setzen voraus


L(Y) = NiE(Y), Cov(Y)) (Normalverteilung von }j.

Hieraus ergibt sich der stochastische Teil des Aitken-Modells zu

(SAM) L(Y) = NiJl, a 2 V) (stochastischer Teil des Aitken-Modells).

Die Präzisierung der Verteilungsklasse für die Beobachtung Y hat (wie im klassi

schen linearen Modell) zur Folge, daß man die Verteilungen der Schätzer explizit

herleiten kann, wobei wir die Gültigkeit des Linearen Modells (LM) nicht generell

voraussetzen sondern nur die entsprechenden Vereinfachungen angeben, wenn das

Modell zutrifft. Der Parameter () ist hierbei (auch wenn das Modell .At nicht gilt)

wie folgt definiert

(0) D Pc4 Jl X() bzw.

wobei die Rangbedingung (RB) vorausgesetzt ist.

()

Die Schätzer (i, und () sind jetzt multivariat normalverteilt:

(1)

(2)

L((i,) = Ni P~Jl, a 2 P~ D-1)

= Ni Jl , a 2 P ~ D -1 )


falls (LM) gilt,


Mit dem D-orthogonalen Komplement J'V =.At ~D von .At ergibt sich die Verteilung

des Residuums R = Y - (i, zu


D (3) L ( R ) = N ~ ( P ~ , ~ , ~ ~ P ; D - ' ) auch falls (LM) nicht gilt,

2 D = N J ( O , a PNDP1) falls (LM) gilt.

Und für die Schätzung des Skalenparameters erhält man

2 2 (4) L( e2 . F G ( A ) ) = L( D e v ( 4 ) = 0 . xFG(6) mit

(5) FG = FG(A) = Dim (AL) = J - Dim (A) und

1 D 2 1 D 2 (6) 6 = 6 ( ~ ) ) = , 2 1 1 ( n - P A ) ~ l l D = , I I I P N ~ I I D '

Aus der äquivalenten Formulierung des Linearen Modells

(LM) ' S(,u) = 0

ergibt sich speziell

2 2 (7) L( 82 . F G ( A ) ) = L( D e v ( 4 ) = a . xFG falls (LM) gilt.

Wie im Klassischen Linearen Modell (Abschnitt 2.4) erhält man auch hier die Unab-

hängigkeit der Schätzungen und 82

(8) ist von R (und somit auch von 82 ) stochastisch unabhängig.

Da (NVY) die Verteilung der Beobachtung Y bis auf die unbekannten Parameter 2 ,u und a vollständig spezifiziert, kann (und sollte) man die Parameter wie im klas-

sischen linearen Modell nach der Maximum-Likelihood-Methode schätzen. Die Maxi- 2 mum-Likelihood-Schätzung (kurz: ML-Schätzung) f i , 62 von /I, a ist definiert als Ma-

ximalstelle des Likelihoods

(9) a2 lY) = [ ( 2 7 r ~ ~ ) ~ . Det(V) . exp jap2 1 1 Y-,u 1 1 S > } I - ~ ' ~ .

bzw. des Kerns des Log-Likelihoods

(10) 2 2 2 [(Ha I Y ) = - L [ ~ . l o g a 2 +o-211~-,ullD]

bzgl. ,u EA und a2> 0.

2 Die Maximierung von [ bzgl. p entspricht genau der Minimierung von I IY- ,ull,,, und

4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4-10

(3) L(R) = Ni P J Jl , a 2 P J D-1 )

= Ni 0 , a 2 P J D -1 )


Und für die Schätzung des Skalenparameters erhält man

(4)

(5)

L( 52 . FG(.At) ) = L( Dev(.At) ) = a2

. X~G( 8)

FG = FG(.At) = Dim(.At~) = J - Dim(.At)

Aus der äquivalenten Formulierung des Linearen Modells

I (LM)' 8(p.) = 0

ergibt sich speziell

(7) L( 52 . FG(.At) ) = L( Dev(.At) ) = a 2 . X~G

falls (LM) gilt.

mit

und

falls (LM) gilt.

Wie im Klassischen Linearen Modell (Abschnitt 2.4) erhält man auch hier die Unab

hängigkeit der Schätzungen {l und 52

(8) {l ist von R (und somit auch von 52) stochastisch unabhängig.

Da (NVY) die Verteilung der Beobachtung Y bis auf die unbekannten Parameter

Jl und a 2 vollständig spezifiziert, kann (und sollte) man die Parameter wie im klas

sischen linearen Modell nach der Maximum-Likelihood-Methode schätzen. Die Maxi

mum-Likelihood-Schätzung (kurz: ML-Schätzung) jJ, , 0-2 von Jl, a 2 ist definiert als Ma

ximalstelle des Likelihoods

bzw. des Kerns des Log-Likelihoods

(10) e(Jl, a21Y) = - ~ [J . log a 2 + a-2 11Y -JlII ~ ]

bzgl. JlE.At und a 2>0.

Die Maximierung von e bzgl. Jl entspricht genau der Minimierung von IIY - JlII t, und


folglich stimmt die ML-Schätzung ,G des Erwartungswert ,U mit der VMQ-Schätzung

überein:

(11) D P = f i = P Y .

"4%'

2 Aber die ML-Schätzung 62 für die Varianz a (die man durch Differenzieren von

nach a2 erhält) unterscheidet sich von der VMQ-Schätzung um einen Faktor < 1

(12) 1 2 - J-S -2 62 = J IIY-,GllD - -. J a < a2

2 Die ML-Schätzung 62 ist also nicht erwartungstreu für a , und man kann die

VMQ-Schätzung a2 als erzuartungstreue Korrektur der ML-Schätzung auffassen.

4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4-11

folglich stimmt die ML-Schätzung jJ, des Erwartungswert Jl mit der VMQ-Schätzung

überein:

(11) - A pD Y Jl=Jl=.At .

Aber die ML-Schätzung 0-2 für die Varianz 0-2 (die man durch Differenzieren von e

nach 0-2 erhält) unterscheidet sich von der VMQ-Schätzung um einen Faktor< 1

(12) ~2 _ lilY -11 2 _ J-S A2 < A2 0- - J -Jl D - J. 0- 0-

Die ML-Schätzung 0-2 ist also nicht erwartungstreu für 0-2

, und man kann die

VMQ-Schätzung 0-2 als erwartungstreue Korrektur der ML-Schätzung auffassen.

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 12

4.5 Tests für Linearkombinationen des Erwartungswerts bei normalverteilten Beobachtungen

Wir wollen jetzt die Betrachtungen über das Testen und Schätzen von Linearkom-

binationen des Parameters vom Klassischen Linearen Modell auf das Aitken-Mo-

dell mit normalverteilten Beobachtungen übertragen, wobei wir von der Normal-

verteilungsannahme (NVY) generell ausgehen. Da wir aber nicht notwendig die

Gültigkeit des Modells (LM) voraussetzen wollen, erweist es sich als zweckmäß,

zunächst Linearkombinationen des Erwartungsvektors zu betrachten.

4.5.1 Formulierung der Hypothesen

Ausgangspunkt ist das Testproblem aus dem klassischen linearen Modell für eine T S (im folgenden feste) Linearkombination C 8 des Parameters mit C E IR , C t 0 und der

Nullhypothese

für einen vorgegebenen „ReferenzwertU C ER, und einer ein- bzw. zweiseitigen Al- 0

ternative:

(2) T H>: C 8 > co (einseitig) bzw. T H : C 8 t co (zweiseitig).

#

Allerdings wollen wir hier die Hypothesen so umformulieren, daß sie statt der Line- T arkombination C 8 des Parametervektors 8 eine Linearkombination

des Erwartungsvektors ,U enthalten. Unter der Rangbedingung (RB) ist

8 = X-P mit 1 T X - = ( X T D X ) - X D ,

und somit ist jede Linearkombination des Parameters 8 auch eine Linearkombina-

tion des Erwartungsvektors ,U

(3) T T 8 = d D P mit T T - -1 d = C X D

bzw. d = X (xT~x)- l C E A.

Wir betrachten jetzt eine Nullhypothese der Form

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-12

4.5 Tests für Linearkombinationen des Erwartungswerts bei normalverteilten Beobachtungen

Wir wollen jetzt die Betrachtungen über das Testen und Schätzen von Linearkom

binationen des Parameters vom Klassischen Linearen Modell auf das Aitken-Mo

dell mit normalverteilten Beobachtungen übertragen, wobei wir von der Normal

verteilungsannahme (NVY) generell ausgehen. Da wir aber nicht notwendig die

Gültigkeit des Modells (LM) voraussetzen wollen, erweist es sich als zweckmäß,

zunächst Linearkombinationen des Erwartungsvektors zu betrachten.

4.5.1 Formulierung der Hypothesen

Ausgangspunkt ist das Testproblem aus dem klassischen linearen Modell für eine

(im folgenden feste) Linearkombination cT () des Parameters mit cE IRS, c:;= 0 und der

Nullhypothese

(1)

für einen vorgegebenen "Referenzwert" COE IR, und einer ein- bzw. zweiseitigen Al

ternative:

(2) bzw.

Allerdings wollen wir hier die Hypothesen so umformulieren, daß sie statt der Line

arkombination cT () des Parametervektors () eine Linearkombination

des Erwartungsvektors Jl enthalten. Unter der Rangbedingung (RB) ist

mit

und somit ist jede Linearkombination des Parameters () auch eine Linearkombina

tion des Erwartungsvektors Jl

(3) T T c(}=dDJl mit

bzw.

Wir betrachten jetzt eine Nullhypothese der Form


J mit festem d E IR , d t 0 und einem vorgegeben Referenzwert d E IR. Man beachte, 0

daß wir die Gültigkeit des Modells (LM), d. h. P E A, explizit mit in die Nullhypo-

these aufgenommen haben. Dies erlaubt die äquivalenten Formulierung

D die nur noch über P,d von d abhängt. Wir können und wollen daher ohne Be- D schränkung der Allgemeinheit fordern, daß d = P, d bzw.

gilt. Die ein- bzw. zweiseitige Alternative lautet

T (6) H>: d D p > do (einseitig) bzw. T H : d D p t do (zweiseitig). f

Wegen (3) enthält die Nullhypothese (4) auch die bisherige Nullhypothese (I), sofern

(LM) und (RB) gelten, wobei dann auch d E A und d t 0 erfüllt sind. Der Vorteil

der Umformulierungen (4) und (6) gegenüber (1) und (2) besteht darin, daß sie den

Parameter 8 nicht enthalten und somit auch dann sinnvoll sind, wenn die Rangbe-

dingung (RB) nicht gilt oder wenn (unter der Alternativen) das Modell (LM) nicht

zutrifft. Bei den folgenden Ausführungen gehen wir von den Formulierungen (4) und

(6) aus, und setzen weder die Rangbedingung (RB) noch die Gültigkeit des Modells

(LM) voraus.

4.5.2 Der ein- und zweiseitige t-Test

Zunächst schätzt man die Linearkombination ( d, , L L ) ~ in naheliegender Weise

durch ( d, fi)D. Diese Schätzung ist erwartungstreu und normalverteilt

(I) 4(d,fi)D)=N((d,~)D,od) mit

2 2 (2) od = 0 2 . d T ~ d = o .~ldllS> > 0 .

Als Teststatistik für die Hypothesen (3) und (4) verwenden wir nun die standardi-


(4)

mit festem cl E IRJ, cl :;= 0 und einem vorgegeben Referenzwert da E IR. Man beachte,

daß wir die Gültigkeit des Modells (LM), d. h. Jl E vft, explizit mit in die Nullhypo

these aufgenommen haben. Dies erlaubt die äquivalenten Formulierung

(4)'

die nur noch über p! cl von cl abhängt. Wir können und wollen daher ohne Be

schränkung der Allgemeinheit fordern, daß cl = p! cl bzw.

(5) cl E vft

gilt. Die ein- bzw. zweiseitige Alternative lautet

(6) bzw.

Wegen (3) enthält die Nullhypothese (4) auch die bisherige Nullhypothese (1), sofern

(LM) und (RB) gelten, wobei dann auch cl E vft und cl :;= 0 erfüllt sind. Der Vorteil

der Umformulierungen (4) und (6) gegenüber (1) und (2) besteht darin, daß sie den

Parameter () nicht enthalten und somit auch dann sinnvoll sind, wenn die Rangbe

dingung (RB) nicht gilt oder wenn (unter der Alternativen) das Modell (LM) nicht

zutrifft. Bei den folgenden Ausführungen gehen wir von den Formulierungen (4) und

(6) aus, und setzen weder die Rangbedingung (RB) noch die Gültigkeit des Modells

(LM) voraus.

4.5.2 Der ein- und zweiseitige t-Test

Zunächst schätzt man die Linearkombination (cl, Jl)D in naheliegender Weise

durch ( cl, 4 )D. Diese Schätzung ist erwartungstreu und normalverteilt

(1) mit

Als Teststatistik für die Hypothesen (3) und (4) verwenden wir nun die standardi-


sierte Abweichung der Schätzung ( d, vom Referenzwert do

(3) T = ( d , P ) ~ - d o wobei ad

(4) 8d= 8 2 . ~ ~ ~ I I S >

die zugehörige Schätzung von o2 ist. Die Teststatistik besitzt - auch wenn das line- d

are Modell (LM) nicht zutrifft - eine doppelt-nichtzentrale t-Verteilung

(5) 4s) = tFG(y, 6) mit

(6) FG = FG(A) = ~ i m (AL) = J - Dim (A),

1 (7) y = y ( P ) l ) = < [ ( d , ~ ) ~ - d ~ ] , und

1 D 2 (8) 6 = 6 ( ~ ) = ~ I l ( ~ - ~ ~ ) ~ l l ~ vgl. 4.4 (6).

- 1 D 2 mit LD - 2 ~ ~ p N ~ ~ ~ D Jf'-=.,tZ .

Die erste Nichtzentralität y ist ein Maß für die Abweichung der Linearkombination

( d, vom Referenz do unter der Nullhypothese, und die zweite Nichtzentralität S

ist ein Maß für die Abweichung des Erwartungsvektors ,U vom Modellraum A. Un-

ter Verwendung der Nichtzentralitäten lassen sich die Hypothesen äquivalent for-

mulieren als

(9) H : y = O , S = O 0

(10) H>: y > 0 (einseitig) bzw. H : y s 0 (zweiseitig). f

Unter der Nullhypothese Ho ist die Teststatistik T daher @entral) tFG-verteilt. Da

groj3e Werte von T bzw. I T I eher für die ein- bzw. zweiseitige Alternative als für die

Nullhypothese sprechen, ergibt sich wie im klassischen linearen Modell folgender

t-Test


sierte Abweichung der Schätzung ( cl, (i,)D vom Referenzwert do

(3) T wobei

die zugehörige Schätzung von a~ ist. Die Teststatistik besitzt - auch wenn das line

are Modell (LM) nicht zutrifft - eine doppelt-nichtzentrale t-Verteilung

(5)

(6)

(7)

(8)

L(T) = tFG( ,,(,8)

FG = FG(vft) = Dim(vft~) = J - Dirn (vft),

"( = "((Jl) = ; [( cl,Jl)D-dO] ' cl

8 8(Jl) = :211 (II- P~) JlII~

= :2 11 p J JlII ~ mit

mit

und

vgl. 4.4 (6).

JV=vft~D.

Die erste Nichtzentralität "( ist ein Maß für die Abweichung der Linearkombination

( cl, Jl)D vom Referenz do unter der Nullhypothese, und die zweite Nichtzentralität 8

ist ein Maß für die Abweichung des Erwartungsvektors Jl vom Modellraum .At. Un

ter Verwendung der Nichtzentralitäten lassen sich die Hypothesen äquivalent for

mulieren als

(10) H>: "( > 0 (einseitig) bzw. H : "( ;= 0 (zweiseitig). ~

Unter der Nullhypothese HO ist die Teststatistik T daher (zentraV tFG-verteilt. Da

große Werte von T bzw. 1 TI eher für die ein- bzw. zweiseitige Alternative als für die

Nullhypothese sprechen, ergibt sich wie im klassischen linearen Modell folgender

t-Test


(11) Einseitiger t-Test von Ho vs. H> zum Niveau u:

Entscheidung für H> U T ' t ~ ~ , a '

U G (-T) < u . t~~

(12) Zweiseitiger t-Test von Ho vs. Hz zum Niveau u:

Entscheidung für Hz U I T l 2 t ~ ~ l a / a

U 2Gt I T I ) < U. FG

Unter Verwendung des Zusammenhangs F = t2 (vgl. Exkurs V 3.1) läßt sich der 1,n n

zweiseitige t-Tests (wie in 2.5.1) äquivalent als F-Test formulieren

(12)' Zweiseitiger F-Test von Ho vs. Hz zum Niveau a:

Entscheidung für Hz U 2 T ' Fl, FG, a '

4.5.3 Die Schärfe des einseitigen t-Tests

Wir wollen jetzt die Schärfe des t-Tests untersuchen , wobei wir in Verallgemeine-

rung der Betrachtungen im klassischen linearen Modell auch den Fall zulassen,

daß das Modell (LM) nicht gilt. Die Schärfe des einseitigen t-Test ist

(1) POwl (7, 6, a) = P { tFG(y, 6 ) tFGla } (Schärfe: einseitig)

- (t ) - @tFG(-y, 6) FG, a

mit G als Verteilungsfunktion der doppelt-nichtzentralen tn(y, 6)-Verteilung. ~FG(Y 7 6)

Die Schärfe hängt vom Testniveau u und beiden Nichtzentralitäten wie folgt ab

(2) Powl (y,6, u) ist streng monoton wachsend sowohl in u als in y.

1 (3) Für a < ist Powl (y, 6, u) streng monoton fallend in 6 und wird

bei festem u und y maximal für 6 = 0, d.h. wenn das Modell (LM) gilt.

Und als Grenzwerte für y + f co bzw. 6 + co ergeben sich

4.5 Test für Linearkombinationen des Erwartungswerts

(11) Einseitiger t-Test von Ho vs. H> zum Niveau a:

Entscheidung für H>

P (-T) < a· tFG

(12) Zweiseitiger t-Test von Ho vs. H:;zt. zum Niveau a:

Entscheidung für H :;zt. I TI > tpG,ex/2'

11.8.05

2 Pt ( -I TI) < a. FG

4-15

Unter Verwendung des Zusammenhangs Fl

= t2 (vgl. Exkurs V 3.1) läßt sich der ,n n

zweiseitige t-Tests (wie in 2.5.1) äquivalent als F-Test formulieren

(12)' Zweiseitiger F-Test von Ho vs. H:;zt. zum Niveau a:

Entscheidung für H :;zt.

4.5.3 Die Schärfe des einseitigen t-Tests

Wir wollen jetzt die Schärfe des t-Tests untersuchen, wobei wir in Verallgemeine

rung der Betrachtungen im klassischen linearen Modell auch den Fall zulassen,

daß das Modell (LM) nicht gilt. Die Schärfe des einseitigen t-Test ist

(1) Pow 1 ("f, 8, a) (Schärfe: einseitig)

1 - P (t ) tFG(-y ,8) PG, ex

mit Pt ( 8) als Verteilungsfunktion der doppelt-nichtzentralen t ("f, 8)-Verteilung. FG'"Y, n

Die Schärfe hängt vom Testniveau a und beiden Nichtzentralitäten wie folgt ab

(2) Powl

("{,8, a) ist streng monoton wachsend sowohl in a als in "(.

(3) Für a < ~ ist Powl

("{,8, a) streng monoton fallend in 8 und wird

bei festem a und "f maximal für 8 = 0, d.h. wenn das Modell (LM) gilt.

Und als Grenzwerte für "f ---+ ± 00 bzw. 8 ---+ 00 ergeben sich


(4) Pow(-00,6,a)=O, 1 Pow (00,6, a) = 1. 1

P0w1 (y, 00, a) = 0 .

Insbesondere fällt also die Schärfe bei festem y sogar gegen 0, wenn 6 beliebig an-

wächst, d. h. wenn das Modell & beliebig inadäquat wird.

Wenn zwar y = 0 ist, d. h. ( d, ,U),, = do gilt, aber das Modell (LM) nicht zutrifft, d. h.

6 > 0, so ist das die Schärfe des einseitigen t-Tests sogar kleiner als das Testniveau

a, d.h. der Test ist konservativ:

(5) Für a < und 6 > 0 gilt: a t(6) : = Pow1 (0,6, a) < a . ef

Weil das effektive Testniveau ae&6) in (5) kleiner als nominelle Niveau a ist, folgt

mit (2), daß auch die effektive Schärfe geringer ist als die nominelle Schärfe:

(6) Für a < und 6 > 0 gilt: Powl (y,s, ae&6)) < Powl (y ,4 a) .

Das einseitige Testproblem wird oft auch mit der (14) umfassenden einseitigen Null-

hypothese Ho: y < 0 , 6 = 0 formuliert, die allerdings zum gleichen Test (16) führt

wie die bisherige Nullhypothese Ho: y = 0 , 6 = 0, weil das Fehlerrisiko 1. Art (d.h.

die Schärfe) unter y < 0 nach (19) für den Wert y = 0 maximal wird.

4.5.4 Die Schärfe des zweiseitigen t-Tests

Die Schärfe des zweiseitigen t-Tests hängt nur über den Absolutbetrag ly 1 von der

Nichtzentralität y ab und läßt sich wie folgt darstellen

Nach 4.5.3 (3) ist auch Pow2(y,6, a) streng fallend in 6 und wird bei festem a und

y maximal, wenn 6 = 0 ist, d.h. wenn (LM) gilt. Folglich ist auch der zweiseitige t-

Test konservativ, wenn zwar y = 0 gilt, aber das Modell (LM) falsch ist:

(2) Für 6 > 0 gilt: Pow2 (0,6, a) < a .

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05

(4) Pow1 (-00,8,a) = 0,

Pow1

b,oo, a) = o.

Pow1

(00,8, a) = 1.

4-16

Insbesondere fällt also die Schärfe bei festem, sogar gegen 0, wenn 8 beliebig an

wächst, d. h. wenn das Modell .At beliebig inadäquat wird.

Wenn zwar, = 0 ist, d. h. ( cl, Jl)D = da gilt, aber das Modell (LM) nicht zutrifft, d. h.

8> 0, so ist das die Schärfe des einseitigen t-Tests sogar kleiner als das Testniveau

a, d.h. der Test ist konservativ:

(5) Für a< ~ und 8> 0 gilt:

Weil das effektive Testniveau aeJlß) in (5) kleiner als nominelle Niveau a ist, folgt

mit (2), daß auch die effektive Schärfe geringer ist als die nominelle Schärfe:

(6) Für a< ~ und 8> 0 gilt:

Das einseitige Testproblem wird oft auch mit der (14) umfassenden einseitigen Null

hypothese HO: ,< 0 ,8= 0 formuliert, die allerdings zum gleichen Test (16) führt

wie die bisherige Nullhypothese HO: , = 0 ,8= 0, weil das Fehlerrisiko 1. Art (d.h.

die Schärfe) unter, < 0 nach (19) für den Wert, = 0 maximal wird.

4.5.4 Die Schärfe des zweiseitigen t-Tests

Die Schärfe des zweiseitigen t-Tests hängt nur über den Absolutbetrag I, I von der

Nichtzentralität , ab und läßt sich wie folgt darstellen

Nach 4.5.3 (3) ist auch Pow2b,8, a) streng fallend in 8 und wird bei festem a und

, maximal, wenn 8 = 0 ist, d.h. wenn (LM) gilt. Folglich ist auch der zweiseitige t

Test konservativ, wenn zwar, = 0 gilt, aber das Modell (LM) falsch ist:

(2) Für 8> 0 gilt:


Nach 4.5.3 (3) ist der erste Summand in (1) streng wachsend in 1 y 1 und größer als

der zweite Summand, der streng fallend in 1 y 1 ist und nach 4.5.3 (4) sogar für

171 + co gegen 0 konvergiert. Folglich läßt sich die Summe für nicht zu kleines I y 1 durch den ersten Summanden approximieren

(3) P o 5 ( ~ ~ 4 a) powl ( 17 I , 6 , falls ly I „nicht zu klein".

wobei die Approximation für wachsendes 1 y 1 immer besser wird. In diesem Sinn

entspricht die Schärfe des zweiseitigen Test „ungefähru der des einseitigen Tests

zum halben Niveau.

Interpretiert man den zweiseitigen Test als F-Test, so ergibt sich für die Schärfe

mit der Verteilungsfunktion @ F1l FG(r27 ,S> von FG(y 6)

(4) Pow2(y,6,a) =P{Fl lFG(y2,6)>F1FGla 1 }

= 1 - @ (F Fl1 FG(r 27 ,W 17FG7a 1

2 ist streng wachsend in a und ly 1 bzw. y und streng fallend in 6.

4.5.5 K o n f i d e n z g r e n z e n für Linearkombinationen

Wir wollen jetzt auch Konfidenzgrenzen für die Linearkombination ( d, angeben,

an denen man insbesondere dann interessiert ist, wenn der t-Test die Nullhypo-

these abgelehnt hat. Die einseitige untere bzw. obere Konfidenzgrenze zur Sicherheit

1- ci! ist für ci! <I definiert durch 2

(1) (d,f i ) , -Aa (untereGrenze) bzw.

(d , f i )D+ A a (obere Grenze) mit A = 8 .t a d FG,a'

Die Sicherheit dieser Grenzen ist mindestens 1- ci! (auch wenn das Modell (LM)

nicht gilt), d. h. die Grenzen sind konservativ


Nach 4.5.3 (3) ist der erste Summand in (1) streng wachsend in h 1 und größer als

der zweite Summand, der streng fallend in 1"( 1 ist und nach 4.5.3 (4) sogar für

1 "( 1---+ 00 gegen 0 konvergiert. Folglich läßt sich die Summe für nicht zu kleines 1 "( 1

durch den ersten Summanden approximieren

(3) falls 1"( 1 "nicht zu klein".

wobei die Approximation für wachsendes 1"( I immer besser wird. In diesem Sinn

entspricht die Schärfe des zweiseitigen Test "ungefähr" der des einseitigen Tests

zum halben Niveau.

Interpretiert man den zweiseitigen Test als F-Test, so ergibt sich für die Schärfe

mit der Verteilungsfunktion P F (2 8) von Fl FG( "( 2,8) I,FG"( , ,

(4) P { Fl,FG( "( 2,8) > Fl,FG, a }

1 - P 2 (F ) FI FGb ,6) l,FG, a ,

ist streng wachsend in a und 1"( 1 bzw. "(2 und streng Jallend in 8.

4.5.5 Konfidenzgrenzen für Linearkombinationen

Wir wollen jetzt auch KonJidenzgrenzen für die Linearkombination ( cl, Jl)D angeben,

an denen man insbesondere dann interessiert ist, wenn der t-Test die Nullhypo

these abgelehnt hat. Die einseitige untere bzw. obere Konfidenzgrenze zur Sicherheit

1- a ist für a < ~ definiert durch

(1) ( cl, (i,)D - L1 a (untere Grenze)

( cl, (i,)D + L1a (obere Grenze)

bzw.

mit

Die Sicherheit dieser Grenzen ist mindestens 1- a (auch wenn das Modell (LM) nicht gilt), d. h. die Grenzen sind konservativ

(2)


Die Sicherheit ist genau dann exakt gleich 1- a, wenn das Modell (LM) gilt, weil

Das zweiseitige (symmetrische) Konfidenzintervall zur Sicherheit 1- a ist dann ge-

geben durch

Die Sicherheit dieses Intervalls ist wieder nur dann exakt 1- a, wenn das Modell

(LM) gilt, andernfalls ist sie größer als 1- a, und das Intervall ist dann konservativ.

Oder anders formuliert, wenn (LM) nicht zutrifft, so wäre das Intervall mit der

exakten Sicherheit 1- a kürzer als das Intervall in (4).

4.5.6 Linearkombinationen des Parameters

Abschließend wollen wir noch kurz auf die in der Praxis bevorzugten Linearkombi- T nationen C 19 des Parameters eingehen, wobei wir natürlich die Rangbedingung

(RB) voraussetzen. Tests und Konfidenzgrenzen für die Linearkombination

(1) T

C e = ( d 7 ~ ) D mit d =x(xT~x)-l C E A.

ergeben sich sofort aus den obigen Resultaten für das spezielle d. Die Varianz der

Schätzung cTd = ( d läßt sich dann auch darstellen als

Im Spezialfall D = f l J entspricht dies der Darstellung von o2 in 2.5.2 (3) für das C

Klassische Lineare Modell.


Die Sicherheit ist genau dann exakt gleich 1- a, wenn das Modell (LM) gilt, weil

(3) 6=0

Das zweiseitige (symmetrische) Konfidenzintervall zur Sicherheit 1- a ist dann ge

geben durch

(4) ( cl, 4)D ± iJ. ex/2 (zweiseitiges KonJidenzintervalp.

Die Sicherheit dieses Intervalls ist wieder nur dann exakt 1- a, wenn das Modell

(LM) gilt, andernfalls ist sie größer als 1- a, und das Intervall ist dann konservativ.

Oder anders formuliert, wenn (LM) nicht zutrifft, so wäre das Intervall mit der

exakten Sicherheit 1- a kürzer als das Intervall in (4).

4.5.6 Linearkombinationen des Parameters

Abschließend wollen wir noch kurz auf die in der Praxis bevorzugten Linearkombi

nationen cT e des Parameters eingehen, wobei wir natürlich die Rangbedingung

(RB) voraussetzen. Tests und Konfidenzgrenzen für die Linearkombination

(1) mit

ergeben sich sofort aus den obigen Resultaten für das spezielle cl. Die Varianz der

Schätzung cT () = ( cl, 4)D läßt sich dann auch darstellen als

( ) 2 2 T( T )-1 T (A) 2 a cl = a . c X DX c = c . Cov e . c.

Im Spezialfall D = 11 J entspricht dies der Darstellung von a~ in 2.5.2 (3) für das

Klassische Lineare Modell.

4.6 Testen von linearen Hypothesen 11.8.05 4 - 19

4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen

Wir wollen jetzt auch den F-Test aus 2.6 zum Testen linearer Hypothesen bei nor-

malverteilten Beobachtungen vom Gauss-Markov-Modell auf das allgemeinere Ait-

ken-Modell übertragen und dabei geringfügig verallgemeinern. Insbesondere wollen

wir die Gültigkeit des Modells (LM) nicht voraussetzen, aber die Normalvetrteilung

des Beobachtungsvektor (NVY) soll in diesem Abschnitt stets gelten.

4.6.1 Lineare Hypothesen über den Erwartungswert

Für einen echten linearen Teilraum Ao CA betrachten wir wieder das lineare

Testproblem mit den linearen Hypothesen


Alternative: H : p@A0 (Untermodell 4 gilt nicht ).

Über die Dimensionen bzw. Freiheitsgrade der Modelle setzen wir wieder voraus:

(Dirn) S o = D i m ( j l c ) < S = D i m ( A ) < J bzw.

0 < F G ( A ) = (J-S) < FG(Ao) = (J-SJ .

Die VMQ-Schätzung von p für das Modell Ao (d.h. unter der Nullhypothese Ho) ist

und hängt von der Beobachtung Y nur noch über die Schätzung fi = PdY ab. Die

Abweichung der Beobachtung Y vom Untermodell A läßt sich wie folgt zerlegen 0

2 (2) I I Y - ~ ~ ~ I I ~ = IIY-fiIID + llfi-fi0 11; bzw'

D e v ( A O ) = D e v ( A ) + ADev mit

2 (3) ADev = A D e v ( A 0 , 4 = D e v ( A o ) - D e v ( A ) = 1 1 fi - fio 1 1 D .

4.6 Testen von linearen Hypothesen 11.8.05 4-19

4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen

Wir wollen jetzt auch den F-Test aus 2.6 zum Testen linearer Hypothesen bei nor

malverteilten Beobachtungen vom Gauss-Markov-Modell auf das allgemeinere Ait

ken-Modell übertragen und dabei geringfügig verallgemeinern. Insbesondere wollen

wir die Gültigkeit des Modells (LM) nicht voraussetzen, aber die Normalvetrteilung

des Beobachtungsvektor (NVY) soll in diesem Abschnitt stets gelten.

4.6.1 Lineare Hypothesen über den Erwartungswert

Für einen echten linearen Teilraum vft C vft betrachten wir wieder das lineare o

Testproblem mit den linearen Hypothesen

(LH) Nullhypothese:

Alternative:

(Untermodell vfto gilt) ,

(Untermodell vfto gilt nicht ).

Über die Dimensionen bzw. Freiheitsgrade der Modelle setzen wir wieder voraus:

(Dirn) 50 = Dirn (vfto) < 5 = Dim(vft) < J bzw.

o < FG(vft) = (J -5) < FG(vfto) = (J -5J .

Die VMQ-Schätzung von Jl für das Modell vfto (d.h. unter der Nullhypothese Ho) ist

(1) J1 = J1 (Y) = pD Y = P ~ J1 o 0 .At 0 Jp[o

und hängt von der Beobachtung Y nur noch über die Schätzung J1 = P.At Y ab. Die

Abweichung der Beobachtung Y vom Untermodell vftO

läßt sich wie folgt zerlegen

(2) IIY-J1ollt =IIY-J1llt+IIJ1-J1ollt bzw.

Dev( vft 0) = Dev (vft) + L,Dev mit

(3)


Die zugehörige Tafel dieser Streuungszerlegung entspricht der aus 2.6, wenn man 2 dort die euklidische Norm 1 1 - 1 1 durch die Norm 1 1 - 1 1 S> ersetzt:

Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle 4 C A

Streuung (Ursache)

Abweichung von H 0

u m d a s M o d e l l A

um das Model lAo

Durch Übergang auf das zugehörige Gauß-Markov- Modell (vgl. 4.2) und Anwen-

dung der Resultate aus 2.6 ergibt sich dann folgende Teststatistik:

A D ~ V / M G llfi-fi,llS,/(~-s~ (4) F = - - (F-Statistik), - 2

0 ll~-fillS,l( J-s)

- - 1 1 (P; - P;) Y llS)/(s-s„

mit ll(n-p$) yllS,I( J-s)

(5) a F G = F G ( j L C ) - F G ( . , $ 2 ' ) = D i m A - D i m A o = S - S o > O ,

Dev = SQD

ADev = 1 1 fi - fio 1 1 D

D ~ v ( . , $ ~ ' ) = I I Y - ~ ~ I I S )

Dev(Ao)=IIY-fioll S)

Die gemeinsame Verteilung des Zählers und Nenners der F-Statistik ergibt sich aus:

2 2 2 (6) ADev = 1 1 fi - fi 1 1 ist 0 . xaFG(r)-verteilt

0 D mit

1 D D > 0 (7) 7 = , i I I P A ~ P J& P I I D - (Nichtzentralität) .

2 A2 . (8) ADev = I I fi - fi 1 1 und Dev(A) = 1 IY - fi I I D bzw. 0 sznd stochastisch

0 D unabhängzg..

FG

AFG =S-So

F G ( A ) = J - S

FG(Ao)=J -SO

MQ = SQD/ FG

A Dev/aFG

o A 2

o A o 2


Die zugehörige Tafel dieser Streuungszerlegung entspricht der aus 2.6, wenn man

dort die euklidische Norm 11_112 durch die Norm 11-11 ~ ersetzt:

Streuung (Ursache) Dev -SQ - D FG MQ=SQrJFG

Abweichung von HO ~Dev =114-40 11 ~ ~FG =s-s 0

~Dev/UG

um das Modell vft Dev(vft) = IIY - 411 ~ FG(vft) =J-S A2 !J

um das Modell vfto Dev (vfto) = IIY - 40 11 ~ FG(vfto) =J-So A2

!Jo

Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vfto c .At.

Durch Übergang auf das zugehörige Gauß-Markov- Modell (vgl. 4.2) und Anwen

dung der Resultate aus 2.6 ergibt sich dann folgende Teststatistik:

(4) F= 114-40 1It/(S-SJ

IIY - 41It/( J-S) (F-Statistik) !

II(p!-p!) Y Ilt/(S-SJ o mit

11 (11- p!) Y 11 t / ( J - S)

(5) UG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto = S -SO> 0,

Die gemeinsame Verteilung des Zählers und Nenners der F-Statistik ergibt sich aus:

(6) mit

(7) (Nichtzentralität) .

(8) ~Dev = 114-40 11t und Dev(vft) = IIY -411t bzw. 0-2 sind stochastisch

unabhängig ..


Unter dem Modell (LM), d.h. für ,uEA, ist die Nichtzentralität y ein Maß für die

Abweichung von der Nullhypothese, und die linearen Hypothesen lassen sich äqui-

valent formulieren als:

(LH)' H O : y = O u n d 6 = 0 , H y > 0 oder S > 0.

Die Teststatistik besitzt, auch wenn das lineare Modell (LM) nicht zutrifft, eine

doppelt-nichtzentrale F-Verteilung

(9) %(F) = FzFGl NFG (Y,S> mit

(10) ZFG = D G = FG(Ao) - F G ( 4 = S - So ,

NFG = FG(A) = J-S, und

1 D 2 1 D 2 LD (11) 6 = 6 ( ~ ) = , I l ( n - p A ) ~ l l D 0 = ,2 1 I P N ~ I I D , M=A .

Die Nichtzentralität S ist ein Maß für die Abweichung des Erwartungsvektors ,U

vom Modellraum A.

Insbesondere ist die Teststatistik unter der Nullhypothese Ho zentral F-verteilt, und

(wie in 2.6) ergibt sich folgender Test zum Niveau a:


Ablehnung von Ho U F F ~ ~ ~ l NFG] o,

U - @ZFG] NFG(~) < - a .

Dabei ist F das a-Quantil und @ die Verteilungsfunktion der zentralen m,n,a m,n

F -Verteilung ist. Für einen beobachteten Testwert Fobs (d.h. einer Realisierung m1

von F ) wird die Wahrscheinlichkeit

F m , n > F 1 @

(Fobs) = P{ F ~ ~ ~ , ~ ~ ~ - obs

auch als P-Wert oder Signifikanzniveau des beobachteten Testwerts Fobs bezeichnet.


Unter dem Modell (LM), d.h. für JlEvft, ist die Nichtzentralität "( ein Maß für die

Abweichung von der Nullhypothese, und die linearen Hypothesen lassen sich äqui

valent formulieren als:

(LH) , HO: "( = 0 und 8 = 0, H: "( > 0 oder 8 > o·

Die Teststatistik besitzt, auch wenn das lineare Modell (LM) nicht zutrifft, eine

doppelt-nichtzentrale F-Verteilung

(9)

(10)

(11)

L(F) = F ZFG NFG( ,,(,8) , ZFG = MG = FG(vfto) - FG(vft) = 5-5

0,

NFG = FG(vft) = J -5,

8 = 8(Jl) = :211 (ll- P~) Jllit = :211 pJ Jlllt,

mit

und

Die Nichtzentralität 8 ist ein Maß für die Abweichung des Erwartungsvektors Jl

vom Modellraum .At.

Insbesondere ist die Teststatistik unter der Nullhypothese HO zentral F-verteilt, und

(wie in 2.6) ergibt sich folgender Test zum Niveau a:


Ablehnung von Ho F > FZFG,NFG,a

{} 1- PZFG NFG(F) < a. ,

Dabei ist F das a-Quantil und P die Verteilungsfunktion der zentralen m,n,Q m,n

F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierung m,n 0 S


auch als P-Wert oder 5igniJikanzniveau des beobachteten Testwerts F b bezeichnet. o S


4.6.2 Lineare Hypothesen über den Parameter

In der Praxis werden die interessierenden Hypothesen meist als Hypothesen über

den Parameter 8 formuliert (vgl. hierzu auch das Ende des Abschnitts 2.6.1). Wir ge-

ben deshalb jetzt eine äquivalente Beschreibung des F-Test unter Verwendung des

Parameters 8 anstelle des Erwartungswertes p, wobei wir generell die Rangbedin-

gung (RB) voraussetzen, damit der Parameter eindeutig bestimmt ist. Die Gültig-

keit des Modells (LM) wird zwar nach wie vor nicht vorausgesetzt, wird aber Be-

standteil der Nullhypothese sein.

S Für einen echten linearen Teilraum T. C IR des Parameterraumes lauten die line-

aren Hypothese über den Parameter und ihre Alternative wie folgt

(LHP) Nullhypothese Ho: p = X8 und 8 E T. ,

Alternative H p t X 8 oder 8 @ T o .

Diese Hypothesen entsprechen den linearen Hypothesen (LH) für den Raum

Wir wollen den jetzt die relevanten Größen für den F-Test durch die Parameter-

schätzungen 8, d0 und den Raum T. beschreiben. Hierzu zeigen wir zunächst

D C (2) P X = X P , d o

mit J 0

(3) C = X ~ D X .

Damit ergeben sich

Die Schätzung d0 des Parameters unter der Nullhypothese Ho hängt nur noch über

die Schätzung 8 von der Beobachtung Y ab und läßt sich darstellen als


4.6.2 Lineare Hypothesen über den Parameter

In der Praxis werden die interessierenden Hypothesen meist als Hypothesen über

den Parameter () formuliert (vgl. hierzu auch das Ende des Abschnitts 2.6.1). Wir ge

ben deshalb jetzt eine äquivalente Beschreibung des F-Test unter Verwendung des

Parameters () anstelle des Erwartungswertes Jl, wobei wir generell die Rangbedin

gung (RB) voraussetzen, damit der Parameter eindeutig bestimmt ist. Die Gültig

keit des Modells (LM) wird zwar nach wie vor nicht vorausgesetzt, wird aber Be

standteil der Nullhypothese sein.

Für einen echten linearen Teilraum q-o C IRS des Parameterraumes lauten die line

aren Hypothese über den Parameter und ihre Alternative wie folgt

(LHP) Nullhypothese Ho: Jl = X() und ()Eq-O'

Alternative H: Jl ;= X() oder

Diese Hypothesen entsprechen den linearen Hypothesen (LH) für den Raum

Wir wollen den jetzt die relevanten Größen für den F-Test durch die Parameter

schätzungen 0, 00

und den Raum q-O beschreiben. Hierzu zeigen wir zunächst

(2)

(3) c

Damit ergeben sich

(4) ~Dev --

(5) (LM)

(6) MG --

mit

A A 2 11 ()-()o Il e ,

::::} "( - 12 11 (11- P ~ ) () 11 ~ , -a 0

s- Dirn q-o.

Die Schätzung 00

des Parameters unter der Nullhypothese Ho hängt nur noch über

die Schätzung 0 von der Beobachtung Y ab und läßt sich darstellen als


2 d.h. 8, ist die Minimalstelle der quadratischen Form 1 1 8- T I I C bzgl. T E T,.

Unter Verwendung des C-orthogonalen Komplements von T 0

erhält man die Darstellungen

Diese Darstellungen sind dann von Bedeutung, wenn der lineare Teilraum T. C IRs

durch ein lineares Gleichungssystem gegeben ist:

wobei B. eine QoxS Matrix mit vollem Rang ist

(12) Rang B = Q 0 0 '

Die linearen Hypothesen (LHP) über den Parameter lauten dann äquivalent

(LHP)' Nullhypothese Ho: p = X e und B. 0 = 0 ,

Alternative H ~ r x 8 oder BOB r 0 .

-1 T Das C-orthogonale Komplement Tl wird von den Spalten der SxQo Matrix C B. erzeugt, d.h.

(13) Q T 1 = T'C o = { C - ~ B T V I V E I R 0 ) .

Hieraus ergibt sich die Darstellung der C-orthogonalen Projektion

mit

Die für den F-Test relevanten Größen lassen sich dann wie folgt darstellen

406 Testen von linearen Hypothesen 1108005

(7)

doho 00

ist die Minimalstelle der quadratischen Form 11 0 - T 11 ~ bzgl. TE q-oo

Unter Verwendung des C-orthogonalen Komplements von q-O

(8) ~ = q-o~c

erhält man die Darstellungen

(9)

(10)

~Dev

(LM)

4- 23

Diese Darstellungen sind dann von Bedeutung, wenn der lineare Teilraum q-O C IRS

durch ein lineares Gleichungssystem gegeben ist:

wobei BO

eine QOxS Matrix mit vollem Rang ist

(12) Rang BO = QO 0

Die linearen Hypothesen (LHP) über den Parameter lauten dann äquivalent

(LHP) , Nullhypothese HO:

Alternative H:

Jl = X(} und BO

(} = 0,

oder BO

() :;= 00

Das C-orthogonale Komplement ~ wird von den Spalten der SxQO Matrix C-1B~

erzeugt, doho

(13) ~ = q-o~c = {C-1B~v 1 vEIRQO}o

Hieraus ergibt sich die Darstellung der C-orthogonalen Projektion

(14) mit

Die für den F-Test relevanten Größen lassen sich dann wie folgt darstellen


1 T -1 (16) ADev = (BOB) T ( ~ . C- B,) ( ~ ~ 8 ) = 1 1 B08 1 1

(17) ( L W * 1 2 7 = 2 1 1 I I E

(18) D G = Rang B = Qo . 0

Der Vorteil der Darstellung (16) liegt darin, daß sie die Schätzung d0 nicht mehr

enthält, und somit auch eine Berechnung der F-Statistik gestattet, ohne vorher ex-

plizit die Schätzung 8 zu bestimmen. Man beachte in diesem Zusammenhang, daß 0

die Matrix C-' bis auf den Faktor 1 die Covarianzmatrix des Schätzers 8 ist: 0 2

4.6.3 Schärfebetrachtungen beim F-Test

Wir wollen jetzt noch auf die Schärfe des F-Tests der linearen Hypothesen


Alternative: H : &A0 (Untermodell 4 gilt nicht ).

eingehen. Aus der Verteilung der Teststatistik in 4.6.1 (9) ergibt sich folgende Dar-

stellung der Schärfe

(1) Pow(y,6,Q!) = P{F m1 n ( y , b ) > F m1n1 a 1

= 1 - @ ) mit m=ZFG, n=NFG,

wobei @F die Verteilungsfunktion der F (y , 6)-Verteilung ist. Hierbei ist m '1 m,n

die zweite („~enner"-) Nichtzentralität

ein Maß für die Abweichung des Erwartungswerts ,u vom Modellraum A, d. h. für

die Abweichung von der Voraussetzung (LM). Und die erste („Zähleru-) Nichtzen-

tralität


(16) ~Dev - (BoO)T(Bo C-1B~) -1 (BoO) = 11 BoO 11 ~ -

(17) (LM) ::::} 'Y = ;211 BoO II~

(18) MG = Rang BO = Q 0 .

Der Vorteil der Darstellung (16) liegt darin, daß sie die Schätzung 00

nicht mehr

enthält, und somit auch eine Berechnung der F-Statistik gestattet, ohne vorher ex

plizit die Schätzung 00

zu bestimmen. Man beachte in diesem Zusammenhang, daß

die Matrix C-1 bis auf den Faktor 12

die Covarianzmatrix des Schätzers 0 ist: a

(19) -1 1 A

C = 2· Cov(O). a

4.6.3 Schärfe betrachtungen beim F-Test

Wir wollen jetzt noch auf die Schärfe des F-Tests der linearen Hypothesen

(LH) Nullhypothese:

Alternative:

(Untermodell ...40

gilt) ,

(Untermodell ...40

gilt nicht ).

eingehen. Aus der Verteilung der Teststatistik in 4.6.1 (9) ergibt sich folgende Dar

stellung der Schärfe

(1) Pow("'(,8,a)

1 - <P (F) mit F b,8) m,n,Ct m,n

m=ZFG, n=NFG,

wobei <P F (8) die Verteilungsfunktion der F ('Y, 8)-Verteilung ist. Hierbei ist mn "(, m,n

die zweite ("Nenner"-) Nichtzentralität

ein Maß für die Abweichung des Erwartungswerts Jl vom Modellraum ...4, d. h. für

die Abweichung von der Voraussetzung (LM). Und die erste ("Zähler"-) Nichtzen

tralität


ist ein Maß für die Abweichung der D-orthogonalen Projektion von ,U in den Unter-

raum Co C C von der entsprechenden Projektion in den Modellraum jlc

Die Schärfe hängt also nur noch über die Nichtzentralitäten y und S vom Erwar-

tungsvektor ,U ab, und aus den Eigenschaften der Verteilungsfunktion @F m,n (776) der

F (y , 6)-Verteilung (vgl. Exkurs V 3) ergibt sich sofort m1 n

(4) Die Schärfe Pow(y, S, a) ist streng monoton

wachsend in y 2 0 ,

fallend in 0 0 , -

wachsend in a E (0 , l ) .

Insbesondere wird die Schärfe bei festem a und y maximal bzgl. S, wenn S= 0 ist,

d. h. wennn das Modell (LM) gilt. Und umgekehrt wird die Schärfe bei festem a

und S minimal bzgl. y, wenn die Abweichung y = 0 ist.

Als Grenzwert für y + CO ergibt sich mit Exkurs V 3.2 (16)


hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach-

tungen quantifizieren sollte. Hierzu kann man die Schärfe für verschiedene interes-

sierende (hypothetische) Werte von y und S bestimmen, da ja die wahren Werte

von y und S unbekannt ist (eine solche Schärfebetrachtung sollte eigentlich schon

im Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindest-

stichprobenumfang J erfolgt sein), wobei man meist S = 0 - d. h. die Gültigkeit des

Modells (LM) - voraussetzt und nur y variieren läßt.


ist ein Maß für die Abweichung der D-orthogonalen Projektion von Jl in den Unter

raum .AtO c.At von der entsprechenden Projektion in den Modellraum .At.

Die Schärfe hängt also nur noch über die Nichtzentralitäten rund 8 vom Erwar

tungsvektor Jl ab, und aus den Eigenschaften der Verteilungsfunktion <P F (8) der mn ,,(,

F (r, 8)-Verteilung (vgl. Exkurs V 3) ergibt sich sofort ' m,n

(4) Die Schärfe Pow( r, 8, a) ist streng monoton

• wachsend in r > 0 ,

• fallend in 8 > 0 ,

• wachsend in a E (0,1) .

Insbesondere wird die Schärfe bei festem a und r maximal bzgl. 8, wenn 8 = 0 ist,

d. h. wennn das Modell (LM) gilt. Und umgekehrt wird die Schärfe bei festem a

und 8 minimal bzgl. r, wenn die Abweichung r = 0 ist.

Als Grenzwert für r ---+ 00 ergibt sich mit Exkurs V 3.2 (16)

(5) Pow(oo, 8, a) = 1.



tungen quantifizieren sollte. Hierzu kann man die Schärfe für verschiedene interes

sierende (hypothetische) Werte von rund 8 bestimmen, da ja die wahren Werte

von rund 8 unbekannt ist (eine solche Schärfebetrachtung sollte eigentlich schon

im Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindest

stichprobenumfang J erfolgt sein), wobei man meist 8 = 0 - d. h. die Gültigkeit des

Modells (LM) - voraussetzt und nur r variieren läßt.

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 26

4.7 Konstruktion von Konfidenzbereichen

Wir wollen uns jetzt mit der Konstruktion von Konfidenzbereichen beschäftigen,

wobei wir die Gültigkeit des linearen Modells (LM) in diesem Abschnitt wieder vo-

raussetzen. Weiter soll auch die Normalverteilungsannahme (NVY) in diesem Ab-

schnitt generell gelten. Zuerst geben wir (mehrdimensionale) Konfidenzbereiche so-

wohl für den Erwartungvektor ,U als auch für den Parametervektor 8. Anschließend T betrachten wir gleichzeitig endlich viele Linearkombinationen C 8 (für r = 1, ..., R) des r

Parameters und konstruieren dafür simultane (konservative) Konfidenzintervalle

mit zwei verschiedenen Methoden (nach Boferroni bzw. Scheffe).

4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor

Aus den Verteilungen der voneinander unabhängigen Schätzung fi und 82 ergibt sich

folgender Konfidenzbereich C C J& für den Erwartungswert ,U zur Sicherheit 1 - a P

(I> Cp = { Y E& I 1 1 Y - fi ll,, < Fa } (Konfidenzbereich für ,U) mit

(2) F 2 = 8 2 . ~ . ~ a S, J-S, a '

(3) P{ ,uEC ) = 1-a. P

Dieser Konfidenzbereich C ist der Durchschnitt des linearen Raumes J& mit der P

D-Kugel (die bzgl. der euklidischen Norm ein Ellipsoid darstellt) um fi vom Radius

F der proportional zur Schätzung 8 ist. Man beachte, daß sowohl der Mittelpunkt a ' fi als auch der Radius F zufällig sind. Nach (3) wird der Erwartungswert ,U vom zu- a fälligen Konfidenzbereich C mit der Sicherheit 1- a eingefangen (überdeckt).

P

Aus dem Bereich C für den Erwartungswert ,U läßt sich nun sofort ein Konfidenzbe- P

reich C für den Parameter 8 konstruieren 0

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 26

4.7 Konstruktion von Konfidenzbereichen

Wir wollen uns jetzt mit der Konstruktion von Konfidenzbereichen beschäftigen,

wobei wir die Gültigkeit des linearen Modells (LM) in diesem Abschnitt wieder vo

raussetzen. Weiter soll auch die Normalverteilungsannahme (NVY) in diesem Ab

schnitt generell gelten. Zuerst geben wir (mehrdimensionale) Konfidenzbereiche so

wohl für den Erwartungvektor Jl als auch für den Parametervektor (). Anschließend

betrachten wir gleichzeitig endlich viele Linearkombinationen cT () (für r = 1, ... , R) des r

Parameters und konstruieren dafür simultane (konservative) Konfidenzintervalle

mit zwei verschiedenen Methoden (nach Boferroni bzw. ScheffE}

4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor

Aus den Verteilungen der voneinander unabhängigen Schätzung (i, und 0-2 ergibt sich

folgender Konfidenzbereich C c.At für den Erwartungswert Jl zur Sicherheit 1- a fL

(1)

(2)

(3) P{JlEC}=l-a. fL

(Konfidenzbereich für Jl) mit

Dieser Konfidenzbereich C ist der Durchschnitt des linearen Raumes .At mit der fL

D-Kugel (die bzgl. der euklidischen Norm ein Ellipsoid darstellt) um (i, vom Radius

r ,der proportional zur Schätzung 0- ist. Man beachte, daß sowohl der Mittelpunkt a

(i, als auch der Radius r zufällig sind. Nach (3) wird der Erwartungswert Jl vom zua

fälligen Konfidenzbereich C mit der Sicherheit 1- a eingefangen (überdeckt). fL

Aus dem Bereich C für den Erwartungswert Jl läßt sich nun sofort ein KonfidenzbefL

reich C (J für den Parameter () konstruieren


(4) C g = { B ~ I R s ~ ~ B ~ ~ } (Konfidenzbereich für 8) P

T T = { B E I R ~ ~ ( B - ~ ) X ~x(e-l)<r:}

= { B E I R ~ I 110-4 llc<ra}

(5) T C = X D X

(6) p { B ~ C ~ } = l - a .

mit

aus (2), a

Der Bereich Co stellt ein Ellipsoid bzw. eine C-Kugel um die Schätzung 4 im IRs dar.

Abb. 1: Die Konfidenzbereiche C und Co für den Erwartungswert /I und den Para- P

meter B bzgl. der Matrix X mit den beiden Spalten xl und x2 im Fall S= 2.


(4) (Konjidenzbereich jür (J)

(5)

= { (JE IRS I ((J- O)TXTDX ((J- 0) < r ~}

= { (JE IRS 111 (J- Olle < raJ mit

raus (2), Ct

(6) P{ (JE CO} = l-a.

Der Bereich Co stellt ein Ellipsoid bzw. eine C-Kugel um die Schätzung 0 im IRs dar.

. .,/,/ vn,.

y

. A

.f,1 ·x· .

2

o ......... JL .

Abb. 1: Die Konfidenzbereiche C JL und Co für den Erwartungswert Jl und den Para

meter (J bzgl. der Matrix X mit den beiden Spalten xl und x2

im Fall S = 2.


4.7.2 Simultane Konfidenzintervalle nach Bonferroni

T In der Praxis ist man häufig nicht nur an einer einzelnen Linearkombination C 8 T des Parameters, sondern gleichzeitig an endlich vielen Linearkombinationen C 8 für r

r = 1, ..., R interessiert, wobei die Vektoren C E IR', C r 0 nicht notwendig linear r r unabhängig sein müssen. Eine typische Anwendung hierfür sind alle Kontraste

(Differenzen) bei der einfachen Varianzanalyse für einen Faktor A mit K Stufen,

d.h. alle R = (2) Linearkombinationen der Form

fürk, l = 1 ,..., K m i t k r 1 .

Wir geben in diesem Abschnitt zunächst eine auf Bonferroni zurückgehende Kon-

struktion von simultanen Konfidenzintervallen an. Zuerst betrachten wir für jedes T einzelne r das zweiseitige Konfidenzintervall von C 8 mit einer von r abhängenden r

Irrtumswahrscheinlichkeit a r

(1) Cr(aT) = [ C? - Ar(aT) , c?d + A r (U r ) ] mit

(2) q a , ) = tM 55. 8 und ' 2

(3) A 2 A2 T 0 = 0 . C (x~Dx)-lcT sowie r r

T (4) P{ cre 6 Cr(aT) 1 =

Die simultane Irrtumswahrscheinlichkeit aller dieser R Konfidenzintervalle läßt sich

nach unten abschätzen durch die Summe aller einzelnen Irrtumswahrscheinlichkei-

ten (Bonferroni- Ungleichung):

T (5) P { c 8 S f C ( a ) f ü r m i n d e s t e n s e i n l < r < R ) < a t

bzw. r r r

p{cT8€ C (a ) für alle l < r < ~ ) 1-a t

mit a = C a . r r r t r r

Soll die simultane Irrtumswahrscheinlichkeit einen vorgegebenen Wert a nicht

überschreiten, so läßt sich a = a durch geeigntete Wahl der einzelnen Irrtums- t

wahrscheinlichkeiten a erreichen, wobei man diese in der Regel gleich groß wäh- r len wird, d.h. man verwendet


4.7.2 Simultane Konfidenzintervalle nach Bonferroni

In der Praxis ist man häufig nicht nur an einer einzelnen Linearkombination cT ()

des Parameters, sondern gleichzeitig an endlich vielen Linearkombinationen cT () für r

r = 1, ... , R interessiert, wobei die Vektoren c E IR s, c :;= 0 nicht notwendig linear r r

unabhängig sein müssen. Eine typische Anwendung hierfür sind alle Kontraste

(Differenzen) bei der einfachen Varianz analyse für einen Faktor A mit K Stufen,

d.h. alle R = (~) Linearkombinationen der Form

für k, l = 1, ... , K mit k:;= l .

Wir geben in diesem Abschnitt zunächst eine auf Bonferroni zurückgehende Kon

struktion von simultanen Konfidenzintervallen an. Zuerst betrachten wir für jedes

einzelne r das zweiseitige Konfidenzintervall von cT () mit einer von r abhängenden r

Irrtumswahrscheinlichkeit a r

(1) C (a ) [ TA TA ] mit c ()-l:c.(a),c ()+l:c.(a) r r r r r r r r

(2) l:c. (a ) tJ_S 0· o-c und r r '2 7"

(3) A2 0-2 . cT (XTDX)-lcT a SOWIe c r r

7"

(4) P { cT() t1. C (a ) } a. r r r r

Die simultane Irrtumswahrscheinlichkeit aller dieser R Konfidenzintervalle läßt sich

nach unten abschätzen durch die Summe aller einzelnen Irrtumswahrscheinlichkei

ten (Bonferroni- Ungleich ung):

(5) P{ c;() t1. C/ar) für mindestens ein 1 <r<R} < a +

P{ C;()E C/ar) für alle l<r<R} > 1-a+ mit

bzw.

a+ = ~a . r r

Soll die simultane Irrtumswahrscheinlichkeit einen vorgegebenen Wert a nicht

überschreiten, so läßt sich a = a + durch geeigntete Wahl der einzelnen Irrtums

wahrscheinlichkeiten a erreichen, wobei man diese in der Regel gleich groß wäh-r

len wird, d.h. man verwendet

(6) a r

Q

R·


Fazit: Ein simultane Irrtumswahrscheinlichlceit a bzw. Sicherheit 1 - a für R verschie-

dene Konfidenzintervalle läßt sich durch Kombination von R einzelnen Konfiden-

zintervallen zur (reduzierten) Irrtumswahrscheinlichkeit 2 bzw. (erhöhten) Sicher- R heit 1-2 erreichen. Im Allgemeinen sind diese simultanen Konfidenzintervalle al- R lerdings konservativ, weil (5) nur eine Ungleichung ist.

Simultane Konfidenzintervalle sind besonders im Zusammenhang mit dem F-Test T von Interesse, wenn C 8 = 0 simultan für alle r = 1, ..., R Linearkomkinationen ge- r

testet werden soll, wobei dann allerdings die Vektoren C I ) ..., C R linear unabhängig

sein sollten mit R < S. Die zugehörigen lineare Hypothesen lauten dann (vgl. 4.6)

T Nullhypothese: Ho : C 8 = 0 für alle 1 < r < R bzw. r r

Ho : c e = o , T Alternative: H : C 8 s 0 für mindestens ein 15 r 5 R bzw. r r

wobei die RxS Matrix C die vorgegebenen Vektoren cl, ...,. C E IRs als Zeilen enthält R und (wegen deren linearer Unabhängigkeit) den Rang R besitzt.

Bei einer Ablehnung der Nullhypothese interessiert man sich dafür, welche der ein- T . . .

zelnen Linearkombinationen C 8 szgnzfzkant von 0 abweichen und somit für die r

Ablehnung der Nullhypothese verantwortlich sind. Hierzu konstruiert man simul- T tune Konfidenzintervalle für alle C 8 zur simultanen Sicherheit 1- a, wobei a das r

Niveau des F-Test ist, und überprüft dann, bei welchen Komponenten r = 1, ..., R der

Wert 0 im zugehörigen Konfidenzbereich liegt.


Fazit: Ein simultane Irrtumswahrscheinlichkeit a bzw. Sicherheit 1- a für R verschie

dene Konfidenzintervalle läßt sich durch Kombination von R einzelnen Konfiden

zintervallen zur (reduzierten) Irrtumswahrscheinlichkeit ~ bzw. (erhöhten) Sicher

heit 1-~ erreichen. Im Allgemeinen sind diese simultanen Konfidenzintervalle al

lerdings konservativ, weil (5) nur eine Ungleichung ist.

Simultane Konfidenzintervalle sind besonders im Zusammenhang mit dem F-Test

von Interesse, wenn cT(} = 0 simultan für alle r = I, ... , R Linearkomkinationen ger

testet werden soll, wobei dann allerdings die Vektoren cl' ... , cR

linear unabhängig

sein sollten mit R < S. Die zugehörigen lineare Hypothesen lauten dann (vgl. 4.6)

Nullhypothese: H : cT(} = 0 für alle 1 < r < R o r r bzw.

HO :Ct1=O,

Alternative: H : cT(} :;= 0 für mindestens ein 1 <r< R bzw. r r

HO :C(}7:0,

wobei die RxS Matrix C die vorgegebenen Vektoren cl' ... ,.cR

E IRS als Zeilen enthält

und (wegen deren linearer Unabhängigkeit) den Rang R besitzt.

Bei einer Ablehnung der Nullhypothese interessiert man sich dafür, welche der ein

zelnen Linearkombinationen cT(} signifikant von 0 abweichen und somit für die r

Ablehnung der Nullhypothese verantwortlich sind. Hierzu konstruiert man simul-

tane Konfidenzintervalle für alle cT(} zur simultanen Sicherheit 1- a, wobei a das r

Niveau des F-Test ist, und überprüft dann, bei welchen Komponenten r = 1, ... , R der

Wert 0 im zugehörigen Konfidenzbereich liegt.


4.7.3 Simultane Konfidenzintervalle nach Scheffb

Wir wollen jetzt nach einer Methode von Scheffk andere simultane Konfidenzberei- T che für die R Linearkombinationen c1 0, ..., Ci0 mit C E IR', cr t 0 konstruieren,

T

und sie mit denen nach Bonferoni vergleichen. Hierzu betrachten wir zunächst den

von C ..., C erzeugten Teilraum 1' R

Da die Vektoren cl, ..., C nicht notwendig linear unabhängig sind, gilt R

(2) Q = Dim & 5 R .

Nach Scheffk konstruieren wir jetzt für alle C E & - und damit insbesondere für rn

C ..., cR E ii? - das folgende Konfidenzintervall für c1 0 1'

(3) C& = [ cTB - A ~ ( c ) , cTB + aQ(c) ] mit

2 n 2 T T (4) aQ(c) = Q . FQ, J-S, o, . D . C (X DX)- 'C,

- n 2 . 0 - Q ' FQ,~-s,o, C

(5) n 2 T T 82 = 0 . C ( X DX)- 'C.

C

und

Hierbei ist die geschätzte Varianz der Linearkombination cTd aus 4.5.6. Scheffk

hat gezeigt, daß hierdurch Konfidenzintervalle zur simultanen Sicherheit 1- a für

alle C E &gegeben sind, d. h. es gilt

Hieraus folgt insbesondere, daß die zu C ..., C E &gehörigen Konfidenzintervalle 1' R

(7) CQ r : = [ cTB r - A (C> , c:B + aQ(cr) ] für r = 1, ..., R Q

eine simultane Sicherheit von mindestens 1- a haben

(8) ~ { c ; 0 ~ C ~ f ü r T alle l i r s ~ } 2 1 - a .

Bevor wir auf den Nachweis der fundamentalen Eigenschaft (6) eingehen, wollen


4.7.3 Simultane Konfidenzintervalle nach Scheffe

Wir wollen jetzt nach einer Methode von Scheffe andere simultane Konfidenzberei

che für die R Linearkombinationen ci (J, ... , c~(J mit cr

E IR s, cr :;= 0 konstruieren,

und sie mit denen nach Bonferoni vergleichen. Hierzu betrachten wir zunächst den

von cl' ... , cR erzeugten Teilraum

(1) -(ff = span { cl' ... , CR} .

Da die Vektoren cl' ... , cR

nicht notwendig linear unabhängig sind, gilt

(2) Q = Dirn -(ff < R.

Nach Scheffe konstruieren wir jetzt für alle cE -(ff - und damit insbesondere für

cl' ... , cR E -(ff - das folgende Konfidenzintervall für cT

(J

(3)

(4)

(5)

[CT{)_~Q(C), cT{) +~Q(c)]

Q. P Q,J-S,ex . 52. cT (XTDX)-lc,

Q.p .52 Q,J-S,ex c

52. cT (XTDX)-lc .

mit

und

Hierbei ist 52 die geschätzte Varianz der Linearkombination cT{) aus 4.5.6. Scheffe

c

hat gezeigt, daß hierdurch Konfidenzintervalle zur simultanen Sicherheit 1- a für

alle c E -(ff gegeben sind, d. h. es gilt

(6) 1-a.

Hieraus folgt insbesondere, daß die zu cl' ... , cR

E -(ff gehörigen Konfidenzintervalle

(7) ~ [T/' T/' ] U"" : = c (J - ~Q( c ) , c (J + ~Q( c ) r r r r r

für r = 1, ... ,R

eine simultane Sicherheit von mindestens 1- ahaben

Bevor wir auf den Nachweis der fundamentalen Eigenschaft (6) eingehen, wollen


wir die Scheffi-Intervalle (7) mit den zugehörigen Bonferroni-Intervallen aus 4.8.2 (1)

vergleichen. Die zugehörigen beiden Intervalllängen unterscheiden sich nur um ei-

nen konstanten Faktor

Da sowohl die Scheffe- als auch die Bonferroni-Intervalle konservativ sind (d. h. ihre

simultane Sicherheit ist mindestens 1- ci!) wird man in der Praxis jeweils diejenige

Methode wählen, die im konkreten Anwendungsfall die kürzeren Intervalle liefert.

Welche der beiden Intervall-Längen kürzer sind, hängt jeweils von den konkreten

Anzahlen J-S, R und Q und vom Niveau ci! ab.

Die Länge ar(;) der Bonferroni-Intervalle wächst (streng) mit der Anzahl R der

betrachteten Linearkombinationen, weil gilt

(10) t n, 4 2 R ) ist streng wachsend bzgl. R E IN.

Demgegenüber wächst die Länge A (C) der Scheffe-Intervalle nur (streng) mit der Q

Dimension Q des von C ..., cR aufgespannten Raumes, weil nach Exkurs V 3.1 (19) 1'

gilt

(11) m . F m, n; a ist streng monoton wachsend bzgl. m E IN.

Man wird daher erwarten, daß die Scheffe-Intervalle zumindest dann kürzer sind

als die Bonferroni-Intervalle, wenn die Anzahl R deutlich größer ist als die Dimen-

sion Q.

Spezialfall: R = 1

T Für eine einzelne Linearkombination C 8, d. h. für R = 1 (wobei wir den Index „I" in

C unterdrücken) ist der Raum 6?= span{c} wegen C s 0 eindimensional, d. h. Q = 1. 1

Wegen

(12) F 1, J-S, a = t2 J-S, F stimmt hier das Bonferroni- mit dem Scheffe-Intervall überein, und liefert das be-

T reits im Abschnitt 4.5 betrachtete zweiseitige Konfidenzintervall für C 8, welches sogar

die exakte Sicherheit 1 - ci! hat.


wir die Schefje-Intervalle (7) mit den zugehörigen Bonferroni-Intervallen aus 4.8.2 (1)

vergleichen. Die zugehörigen beiden Intervalllängen unterscheiden sich nur um ei

nen konstanten Faktor

(9) jQ .FQ J-5 ex , ,

t J-5, ex/(2R)

Da sowohl die Scheffe- als auch die Bonferroni-Intervalle konservativ sind (d. h. ihre

simultane Sicherheit ist mindestens 1- a) wird man in der Praxis jeweils diejenige

Methode wählen, die im konkreten Anwendungsfall die kürzeren Intervalle liefert.

Welche der beiden Intervall-Längen kürzer sind, hängt jeweils von den konkreten

Anzahlen J - S, Rund Q und vom Niveau a ab.

Die Länge .6)~) der Bonferroni-Intervalle wächst (streng) mit der Anzahl R der

betrachteten Linearkombinationen, weil gilt

(10) tn , ex/(2R) ist streng wachsend bzgl. RE W.

Demgegenüber wächst die Länge .6Q

( c) der Scheffe-Intervalle nur (streng) mit der

Dimension Q des von cl' ... , cR

aufgespannten Raumes, weil nach Exkurs V 3.1 (19)

gilt

(11) m . F ist streng monoton wachsend bzgl. mE W. m,n;ex

Man wird daher erwarten, daß die Scheffe-Intervalle zumindest dann kürzer sind

als die Bonferroni-Intervalle, wenn die Anzahl R deutlich größer ist als die Dimen

sion Q.

Spezialfall: R = 1

Für eine einzelne Linearkombination cT (), d. h. für R = 1 (wobei wir den Index ,,1" in

cl unterdrücken) ist der Raum ß = span{ c} wegen c:;= 0 eindimensional, d. h. Q = 1.

Wegen

(12) 2 F J 5 = tJ_5 9' 1, - ,ex '2

stimmt hier das Bonferroni- mit dem Scheffe-Intervall überein, und liefert das be

reits im Abschnitt 4.5 betrachtete zweiseitige Konfidenzintervall für cT (), welches sogar

die exakte Sicherheit 1- a hat. D


Wir gehen jetzt auf die Herleitung der fundamentalen Eigenschaft (6) der Scheffe-

Intervalle ein. Hierzu betrachten wir eine beliebige, aber im folgenden feste Basis

bl, ..., b E B d e s Raumes B Die QxS-Matrix Q

(13) B = ( bl, ...,

T T mit den Zeilen bl , ..., b hat dann den Rang Q

(I4) Rang B = Q ,

und der Raum Bläßt sich dann darstellen als

Damit läßt sich die Aussage (6) auch äquivalent schreiben als

(16) p { d T B 6 €cQT d BO für alle d c I R Q } = 1-a bzw.

(16) ' - 2 T -1 P { I ~ ~ ( B B - B ~ ) 12<r a . d A d f ü r a l l e d ~ I R ~ } = 1-a mit

Um die Wahrscheinlichkeit in (16)' bestimmen zu können, benötigen wir das fol-

gende Resultat (vgl. hierzu auch Abb. 2):

Q (18) Für r > 0, a E IR und eine symmetrische, positiv-definite QxQ-Matrix A sind

die folgenden drei Aussagen äquivalent

(ii) I ( c , ~ ) A I < r . I I c I I A für alle C E IR Q ,

T 2 T -1 (iii) Id al i r 2 . d A d für alle d E IRQ

Q Weiter gelten für beliebige C, d E IR die Ungleichungen

wobei "=" statt "5" in (iv) bzw. (V) genau dann gilt, wenn a linear abhängig von

C bzw. von ~ - l d ist.

Hiermit ergibt sich eine weitere äquivalente Versionen von (16) bzw. (6)


Wir gehen jetzt auf die Herleitung der fundamentalen Eigenschaft (6) der Scheffe

Intervalle ein. Hierzu betrachten wir eine beliebige, aber im folgenden feste Basis

b1, ... , b

Q E {jj' des Raumes -(jJ. Die QxS-Matrix

(13) T B = ( b1, ... , b

Q )

mit den Zeilen b[, ... , b~ hat dann den Rang

(14) Rang B = Q ,

und der Raum (jj' läßt sich dann darstellen als

Damit läßt sich die Aussage (6) auch äquivalent schreiben als

(16)

(16) I

(17)

P { cl TB 0 E C QT für alle cl E IRQ} = 1- a bzw. cl BO

P{ 1 clT(BO-BO) 12 < f~. clT A -1cl für alle clEIRQ} 1-a

A=(B(XTDX)-1B T)-1, f2=a2.Q.PQJ_S· a , ,a

mit

Um die Wahrscheinlichkeit in (16) I bestimmen zu können, benötigen wir das fol

gende Resultat (vgl. hierzu auch Abb. 2):

(18) Für r> 0, a E IRQ und eine symmetrische, positiv-definite QxQ-Matrix A sind

die folgenden drei Aussagen äquivalent

(i) IlaIIA<r,

(ii) l(c,a)AI<r·llcIIA

(iii) 1 cl Ta 12 < r 2 . cl T A -1 cl

für alle cE IRQ ,

für alle cl E IRQ.

Weiter gelten für beliebige c, cl E IRQ die Ungleichungen

(iv) IcTAal2 =(c,a)~ <llall~·llcll~, (Cauchy-Schwarz-Ungleichung)

(v) IclTa l2 =(cl,a)2<llall~·clTA-1cl,

wobei "=" statt "<" in (iv) bzw. (v) genau dann gilt, wenn a linear abhängig von

c bzw. von A -1cl ist.

Hiermit ergibt sich eine weitere äquivalente Versionen von (16) bzw. (6)


die sich jetzt aus den Verteilungen der voneinander unabhängigen Schätzung B und

a2 herleiten läßt.

Abb.2: Geometrische Interpretation von (i) U (iii) in (18) für Q = 2. Die Ellipse

{a I llall < r } ist der Durchschnitt aller „Streifenn , die von parallelen A - Tangentenpaaren begrenzt werden. Für jede Richtung d E I R ~ ist

T 2 2 T - 1 {a 1 ld al 5 r d A d} derjenige Streifen, der zu den beiden Tangenten

gehört, die orthogonal zu d sind


die sich jetzt aus den Verteilungen der voneinander unabhängigen Schätzung () und

0-2 herleiten läßt.

Abb.2: Geometrische Interpretation von (i) {} (iii) in (18) für Q = 2. Die Ellipse

{a IllallA < r} ist der Durchschnitt aller "Streifen" , die von parallelen

Tangentenpaaren begrenzt werden. Für jede Richtung d E IRQ ist

{a IldT al2 < r2 dT A -ld} derjenige Streifen, der zu den beiden Tangenten

gehört, die orthogonal zu d sind .

5. Weitere Analysen im Gauss-Markov-Modell 11.8.05 5 - 1

5. Weitere Analysen im Gauß-Markov-Modell

In diesem Kapitel wollen wir die linearen Modelle weiter untersuchen und insbe-

sondere spezielle Modelle näher betrachten. Hierbei beschränken wir uns aus Grün-

den der Übersicht auf das einfachere Gauß-Markov-Modell. Dies ist keine wesentli-

che Einschränkung, da sich das allgemeinere Aitken-Modells ja auf das Gauß-

Markov-Modell zurückführen läßt. Bei der Verwendung von Resultaten aus dem

Aitken-Modells ist lediglich zu beachten, daß die Matrix V und ihre Inverse D im

Gauß-Markov-Modell die Einheitsmatrix II darstellen und somit das von D indu- J

zierte Skalarprodukt ( U ,V),, wieder das übliche Skalarprodukt ( U , V ) ist.

Unser Ausgangspunkt ist daher wieder ein J-dimensionalen Beobachtungsvektors

Y - zusammen mit einer JxS-Covariablenmatrix X - wobei die Covarianz-Struktur

von Y gegeben ist durch

2 (GMC) Cov(Y) = D . IIJ (GauJ3-Markov-Covarianzstruktur).

Die Normalverteilungsannahme


-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y').

wollen wir nicht generell voraussetzen, sondern werden sie erst bei Bedarf (für

Tests, Konfidenzintervalle etc.) stets explizit erwähnen.

5. Weitere Analysen im Gauss-Markov-Modell 11.8.05 5-1

5. Weitere Analysen im Gauß-Markov-Modell

In diesem Kapitel wollen wir die linearen Modelle weiter untersuchen und insbe

sondere spezielle Modelle näher betrachten. Hierbei beschränken wir uns aus Grün

den der Übersicht auf das einfachere Gauß-Markov-Modell. Dies ist keine wesentli

che Einschränkung, da sich das allgemeinere Aitken-Modells ja auf das Gauß

Markov-Modell zurückführen läßt. Bei der Verwendung von Resultaten aus dem

Aitken-Modells ist lediglich zu beachten, daß die Matrix V und ihre Inverse D im

Gauß-Markov-Modell die Einheitsmatrix 11 J darstellen und somit das von D indu

zierte Skalarprodukt (u, v)D wieder das übliche Skalarprodukt (u, v) ist.

Unser Ausgangspunkt ist daher wieder ein i-dimensionalen Beobachtungsvektors

Y - zusammen mit einer ixS-Covariablenmatrix X - wobei die Covarianz-Struktur

von Y gegeben ist durch

(GMC) Cov(Y) = 0-2

. 11 J (Gauß-Markov-Covarianzstruktur) .

Die Normalverteilungsannahme


L(Y) = NJ

( E(Y) , Cov(Y)) (Normalverteilung von Y).

wollen wir nicht generell voraussetzen, sondern werden SIe erst bei Bedarf (für

Tests, Konfidenzintervalle etc.) stets explizit erwähnen.

5.1 Fehlspezifikation des Modells


7.7.10 5-2

Bei konkreten Anwendungen der Theorie in der Praxis, kann man nie ganz sicher

sein, ob das verwendete lineare Modell hinreichend genau zutrifft. Deshalb ist es

nützlich, zu untersuchen, wie die bisherigen Resultate zu modifizieren sind, wenn

das zugrunde gelegte lineare Modell nicht zutrifft. Ein typischer solcher Fall liegt

vor, wenn der Erwartungswert /-L. = E(Y.) nicht nur von der beobachteten Covari-J J

ablen x. sondern auch noch von einem weiteren (typischerweise unbeobachteten)J

Covariablenvektor u. = (u .1' ..., u ·R) E lRR abhängt, der nicht im spezifizierten ModellJ J J

berücksichtigt ist. Wir wollen diese Situation näher untersuchen, wobei wir davon

ausgehen, daß statt des bisher verwendeten Modells

(LM).J

T/-L. = E(Y.) = x. ()J J J

für alle j = 1, ..., J

das folgende erweiterte lineare Modell zutrifft

(LM)~J

T T/-L. = E(Y.) = x. ß+ u. A

J J J Jfür alle j = 1, ..., J

mit den beiden Parametervektoren ßE lRS und AE lRR. Man beachte, daß der Para

meter ß (und nicht etwa ()) den wahren Einfluß der Covariablen x. auf den ErwarJ

tungswert /-L. beschreibt. Es sei darauf hingewiesen, daß auch das erweiterte ModellJ

immer noch von spezieller Natur ist, weil es z.B. keine Wechselwirkung von x mit u

enthält.

Von Interesse ist nun, welche Schlüsse man über den wahren Parameter ß ziehen

kann, wenn man das fehlspezifierte Modell mit dem inadäquaten Parameter () ver

wendet. Mit den Covariablenmatrizen

(1) x = (x. ). JxS-Matrix,JS JS

v = (u. ). JxR-Matrix,Jr Jr

lassen sich die Modelle wie folgt schreiben

(LM)

(LM)*

X() ,

Xß+ VA = (X, V) (~).

Damit der Parameter () eindeutig bestimmt ist, setzen wir wieder die Rangbedin-

5.1 Fehlspezifikation des Modells 7.7.10 5-2


Bei konkreten Anwendungen der Theorie in der Praxis, kann man nie ganz sicher

sein, ob das verwendete lineare Modell hinreichend genau zutrifft. Deshalb ist es

nützlich, zu untersuchen, wie die bisherigen Resultate zu modifizieren sind, wenn

das zugrunde gelegte lineare Modell nicht zutrifft. Ein typischer solcher Fall liegt

vor, wenn der Erwartungswert J-L. = E(Y.) nicht nur von der beobachteten Covari-J J

ablen x. sondern auch noch von einem weiteren (typischerweise unbeobachteten) J

Covariablenvektor u. = ( u .1' ... , u ·R) E lR R abhängt, der nicht im spezifizierten Modell J J J

berücksichtigt ist. Wir wollen diese Situation näher untersuchen, wobei wir davon

ausgehen, daß statt des bisher verwendeten Modells

(LM). J

T J-L. = E(Y.) = x. () J J J

das folgende erweiterte lineare Modell zutrifft

(LM)~ J

T T J-L. = E(Y.) = x. ß + u. A

J J J J

für alle j = 1, ... , J

für alle j = 1, ... , J

mit den beiden Parametervektoren ßE lRS und A E lRR. Man beachte, daß der Para

meter ß (und nicht etwa ()) den wahren Einfluß der Covariablen x. auf den ErwarJ

tungswert J-L. beschreibt. Es sei darauf hingewiesen, daß auch das erweiterte Modell J

immer noch von spezieller Natur ist, weil es z.B. keine Wechselwirkung von x mit u

enthält.

Von Interesse ist nun, welche Schlüsse man über den wahren Parameter ß ziehen

kann, wenn man das jehlspezijierte Modell mit dem inadäquaten Parameter () ver

wendet. Mit den Covariablenmatrizen

(1) x = (x. ). JxS-Matrix, JS JS

lassen sich die Modelle wie folgt schreiben

(LM) X() ,

(LM)* Xß+ VA = (X, V) (~).

v = (u. ). JxR-Matrix, Jr Jr

Damit der Parameter () eindeutig bestimmt ist, setzen wir wieder die Rangbedin-


gung voraus

7.7.10 5-3

(RB) Rang(X) = S (Rangbedingung) . I

Mit den linearen Räumen

(2)

die von den Spalten von X bzw. U aufgespannt werden, lassen sich die Modelle wie

folgt beschreiben

(LM)'

(LM)'*

Jl E vft,

Jl E JIC* vft + JV.

Legt man nun bei der Analyse das Modell vft zugrunde - obwohl das erweiterte

Modell JIC* zutrifft - so hat der Schätzer () zwar den Erwartungswert (), aber dieser

ist nicht durch Jl = X() definiert sondern nach 4.4 (0) durch

(3) Pc4 Jl X() bzw.

(4) X- (XTXr1XT

(5) P - XX-.c4-

() = X- Jl mit

(Linksinverse von X)

Für das erweiterte Modell ergibt sich

Damit die Parameter () und ß für jeden möglichen Paramterwert >. übereinstimmen,

ist folgende Orthogonalitätsbedingung hinreichend und notwendig:

(7) ()=ß

XTU=O,

für alle>. E lRR

bzw. (Orthogonalitätsbedingung) .

Die Orthogonalitätsbedingung wird aber im allgemeinen nicht erfüllt sein, wie fol

gendes Argument zeigt. Typischerweise umfaßt vft das konstante Modell und so

mit liegt der konstante Vektor e+ = (1,... ,1) in .At. Damit die Orthogonalitätsbedin-


gung voraus


Mit den linearen Räumen

(2)

die von den Spalten von X bzw. U aufgespannt werden, lassen sich die Modelle wie

folgt beschreiben

(LM)'

(LM)'*

Jl E vft,

Jl E JIC* vft + JV.

Legt man nun bei der Analyse das Modell vft zugrunde - obwohl das erweiterte

Modell JIC* zutrifft - so hat der Schätzer () zwar den Erwartungswert (), aber dieser

ist nicht durch Jl = X() definiert sondern nach 4.4 (0) durch

(3)

(4)

bzw.

Für das erweiterte Modell ergibt sich

() = X- Jl mit

(Linksinverse von X)

Damit die Parameter () und ß für jeden möglichen Paramterwert >. übereinstimmen,

ist folgende Orthogonalitätsbedingung hinreichend und notwendig:

(7) für alle>. E lRR


Die Orthogonalitätsbedingung wird aber im allgemeinen nicht erfüllt sein, wie fol

gendes Argument zeigt. Typischerweise umfaßt vft das konstante Modell und so

mit liegt der konstante Vektor e+ = (1, ... ,1) in .At. Damit die Orthogonalitätsbedin-


gung gilt, müßte insbesondere für jede Spalte u von U geltenr

~u. = 0 bzw. u := l~u. = o.j Jr +r J j Jr

Folglich müßte die Mittelwerte U+r aller unberücksichtigten Covariablen ulr

' ..., UJr

gleich Null sein müssen, was im allgemeinen nicht der Fall sein dürfte.

In der Praxis ist allerdings oft nicht der gesamte Parameter ß bzw. () von Interesse,

sondern nur einzelne Komponenten ß bzw. () (die zu einer primär interessierendens s

Einflußvariablen gehören) oder Unterschiede (d.h. Differenzen) solcher Komponen-

ten, wie die folgenden beiden einfachen Beispiele zeigen:

• Linearen Regressionsanalyse einer Variablen z:

J.Lj = (){ + ()2Zj = ()1 + ()iZj-Z-)

Hier ist nur der Anstiegsparameter ()2 von Interesse, der den Einfluß der Cova

riablen Z beschreibt.

• Einfache Varianzanalyse für einen Faktor A mit K Stufen (vgl. 3.2.3-5)A A A

J.Lj = ()l I1j + ()2 12j + ... + ()K1Kj·

Hier sind die Unterschiede ()k - ()Z von primärem Interesse und weniger die ein-

zelnen Parameter ()k.

Wir wollen daher die Parameter ßund () in zwei Teile zerlegen

(8) ß = (ßl' ß2)

() = (()1' ()2)

mit

mit

und uns überlegen, unter welchen Bedingungen ß2

= ()2 gilt. Hierzu betrachten wir

die zugehörige Zerlegung der Matrix

wobei Xk

eine JxSk-Matrix für k = 1,2 ist, SOWIe die zuhehörigen linearen Teil-..

raume

(10)

Da die Spalten von X linear unabhängig sind, ist dies auch für die Spalten von Xl

und X2

der Fall, d.h. Xl und X2

haben vollen Spaltenrang. Die betrachteten Mo

delle lassen dann wie folgt formulieren

5.1 Fehlspezifikation des Modells 7.7.10

gung gilt, müßte insbesondere für jede Spalte u von U gelten r

~u. = 0 j Jr

bzw. U := l~u. = o. +r J j Jr

5-4

Folglich müßte die Mittelwerte U +r aller unberücksichtigten Covariablen ulr

' ... , U Jr

gleich Null sein müssen, was im allgemeinen nicht der Fall sein dürfte.

In der Praxis ist allerdings oft nicht der gesamte Parameter ß bzw. () von Interesse,

sondern nur einzelne Komponenten ß bzw. () (die zu einer primär interessierenden s s

Einflußvariablen gehören) oder Unterschiede (d.h. Differenzen) solcher Komponen-

ten, wie die folgenden beiden einfachen Beispiele zeigen:

• Linearen Regressionsanalyse einer Variablen z:

J.Lj = (){ + ()2Zj = ()1 + ()iZj - z )

Hier ist nur der Anstiegsparameter () 2 von Interesse, der den Einfluß der Cova

riablen Z beschreibt .

• Einfache Varianzanalyse für einen Faktor A mit K Stufen (vgl. 3.2.3-5) A A A

J.Lj = ()l I1j + ()2 12j + ... + ()K1Kj·

Hier sind die Unterschiede () k - ()Z von primärem Interesse und weniger die ein-

zelnen Parameter () k.

Wir wollen daher die Parameter ß und () in zwei Teile zerlegen

(8) ß = (ßl' ß2)

() = (()1' ()2)

mit

mit

und uns überlegen, unter welchen Bedingungen ß2

= ()2 gilt. Hierzu betrachten wir

die zugehörige Zerlegung der Matrix

wobei Xk

eine JxSk-Matrix für k = 1,2 ist, SOWIe die zuhehörigen linearen Teil-..

raume

(10)

Da die Spalten von X linear unabhängig sind, ist dies auch für die Spalten von Xl

und X2

der Fall, d.h. Xl und X2

haben vollen Spaltenrang. Die betrachteten Mo

delle lassen dann wie folgt formulieren


Xl ()l + X2 ()2'

Xlßl + X 2ß2 + VA.

und der Modellraum .At läßt sich darstellen als

Wir wollen jetzt zusätzlich noch fordern, daß die Spalten von Xl orthogonal zu de

nen von X2

sind, d.h. es soll gelten

(12) bzw.

Diese Bedingung läßt sich durch eine geignete Parametrisierung in obigen Bei

spielen (Regressions- bzw. Varianzanalyse) erfüllen. Unter (12) ist .At die direkte

Summe

beider Teilräume, und für die orthogonale Projektion auf .At ergibt sich

(14)

(15)

Pc4 = Pc41

+ Pc42

Pc41

= Xl X;,

mit

Wir wollen jetzt untersuchen, unter welchen Bedingungen ()2 = ß2

gilt. Zunächst ist

()2 gegeben durch

(16) bzw.

und analog (6) ergibt sich

Damit die Parameter ()2 und ß2

für jeden möglichen Paramterwert A übereinstim

men, ist analog (7) - zusätzlich zu (12) - die folgende Orthogonalitätsbedingung hinrei

chend und notwendig:


Xl ()l + X2 ()2'

Xlßl + X 2ß2 + VA.

und der Modellraum .At läßt sich darstellen als

Wir wollen jetzt zusätzlich noch fordern, daß die Spalten von Xl orthogonal zu de

nen von X2

sind, d.h. es soll gelten

(12) bzw.

Diese Bedingung läßt sich durch eine geignete Parametrisierung in obigen Bei

spielen (Regressions- bzw. Varianz analyse) erfüllen. Unter (12) ist .At die direkte

Summe

beider Teilräume, und für die orthogonale Projektion auf .At ergibt sich

(14)

(15)

Pc4 = Pc41

+ Pc42

Pc41

= Xl X;,

mit

Wir wollen jetzt untersuchen, unter welchen Bedingungen ()2 = ß2

gilt. Zunächst ist

()2 gegeben durch

(16) bzw.

und analog (6) ergibt sich

Damit die Parameter ()2 und ß2

für jeden möglichen Paramterwert A übereinstim

men, ist analog (7) - zusätzlich zu (12) - die folgende Orthogonalitätsbedingung hinrei

chend und notwendig:


(18) für alle AE IRR

bzw. ~ ..1 JV (Orthogonalitätsbedingung) .

Im folgenden werden wir an zwei elementaren, aber wichtigen Beispielen (einfache

Varianzanalyse und lineare Regression einer Variablen) untersuchen, unter wel

chen Bedingungen die interessierenden Parameter auch bei Fehlspezifikation des

Modells erwartungstreu geschätzt werden können. Da diese Bedingungen nicht au

tomatisch erfüllt sein werden, gehen wir auf die sogenannte Randomisierung in

der Datenerhebung ein, unter der sich eine Fehlspezifikation des Modells - bis auf

eine Vergrößerung der Varianz - nicht mehr auswirkt.

5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse

Wir versetzen uns jetzt konkret in die Situation der einfachen Varianzanalyse für ei-

nen Faktor A E {I, ,K} mit K Stufen (vgl. 3.2.3-5). Hierbei verwenden wir statt des

Einzel-Index j = 1, , J wieder den Doppelindex (k,i) , bei dem k = 1, ... ,K die Stufe


k ist. Die Gesamtzahl der Beobachtungen ist dann J = ~ I(k).k

Der Analyse legen wir das vollständige Modell für einen Faktor zugrunde

(1) für alle 1 < k < K, 1 < i < I(k),

während in Wirklichkeit (analog 5.1) das folgende erweiterte lineare Modell zutrifft

(2) für alle 1 < k < K, 1 < i < I(k).

Der Zusammenhang zwischen den Parametern () und ß ergibt sich nach 5.1 (6) zu

(3) Bk ßk +ul+A für alle 1 < k < K, wobei

1(4) u k+ I(k) ~ u ki (u-Mittelwertfür Stufe k).

zBeim Vergleich der verschiedene Stufen sind nun nicht die Parameter Bk bzw. ßkselbst, sondern deren Unterschiede für verschiedene Stufen k:;= l von Interesse. Für

diese folgt:


(18) für alle A E IRR


Im folgenden werden wir an zwei elementaren, aber wichtigen Beispielen (einfache

Varianzanalyse und lineare Regression einer Variablen) untersuchen, unter wel

chen Bedingungen die interessierenden Parameter auch bei Fehlspezifikation des

Modells erwartungstreu geschätzt werden können. Da diese Bedingungen nicht au

tomatisch erfüllt sein werden, gehen wir auf die sogenannte Randomisierung in

der Datenerhebung ein, unter der sich eine Fehlspezifikation des Modells - bis auf

eine Vergrößerung der Varianz - nicht mehr auswirkt.

5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse

Wir versetzen uns jetzt konkret in die Situation der einfachen Varianz analyse für ei-

nen Faktor A E {I, ... ,K} mit K Stufen (vgl. 3.2.3-5). Hierbei verwenden wir statt des

Einzel-Index j = 1, ... , J wieder den Doppelindex (k,i) , bei dem k = 1, ... ,K die Stufe


k ist. Die Gesamtzahl der Beobachtungen ist dann J = ~ I(k). k

Der Analyse legen wir das vollständige Modell für einen Faktor zugrunde

(1) für alle 1 < k < K, 1 < i < I(k),

während in Wirklichkeit (analog 5.1) das folgende erweiterte lineare Modell zutrifft

(2) für alle 1 < k < K, 1 < i < I(k).

Der Zusammenhang zwischen den Parametern () und ß ergibt sich nach 5.1 (6) zu

(3) Bk ßk + ul+ A für alle 1 < k < K, wobei

1 (4) u k+ I(k) ~ u ki (u-Mittelwertfür Stufe k).

z Beim Vergleich der verschiedene Stufen sind nun nicht die Parameter Bk bzw. ßk selbst, sondern deren Unterschiede für verschiedene Stufen k:;= l von Interesse. Für

diese folgt:


(5) für k ;= l.

Hieraus ergibt sich, daß die Unterschiede der Komponenten von () mit denen von ßgenau dann für jedes>. übereinstimmen, wenn die u-Mittelwerte in den zugehörigen

Stufen gleich sind

(6) für alle>. E IRR

Da die Gleichheit uk+= u

z+ der Mittelwerte für alle kund l im allgemeinen nicht

vorliegen wird, wollen wir uns jetzt überlegen, wie man diese Problem bereits der

Datenerhebung umgehen kann. Dies setzt allerdings ein experimentelles Design vo

raus, d.h. für jedes Untersuchungsobjekt j kann die Stufe des Faktors frei gewählt

werden, und der resultierende Wert von Y. wird beobachtet. Ein typische Beispiel]

hierfür ist eine klinische Studie, bei der insgesamt K verschiedene Behandlungen

bei einem bestimmten Krankheitsbild eingesetzt werden können, und die Zielvari

able Y den Behandlungserfolg beurteilt. Hier liegt ein experimentelles Design vor,

wenn bei jedem Patienten j frei entschieden werden kann, welche der K Behandlun

gen angewandt wird.

5.1.2 Einfache Varianzanalyse mit Randomisierung

Wir betrachten jetzt das sogenannte randomisierte Design, bei dem jedem Untersu

chungsobjekt (z.B. ein Patient) die Stufe des Faktors (z.B. die Behandlung) zufällig

zugeteilt wird, d.h. es wird gemäß einer vorgegebenen sogenannten Randomisierung

verteilung auf der Menge {I, ... ,K} jeweils eine Stufe zufällig ausgewählt (Randomi

sierung). Typischerweise ist die Randomiserungsverteilung die Gleichverteilung, weil

dies zu einem näherungsweise balanciertem Design führt. Aber es kann auch gute

Gründe für die Wahl einer anderen Verteilung geben, und wir wollen uns deshalb

auf keine konkrete Randomisierungsverteilung festlegen.

Wir formulieren das Modell zunächst für eine Einzelbeobachtung Y und erst später

für den gesamten Beobachtunsvektor Y. Da die zu Y gehörige Faktorstufe vorher

zufällig gewählt wurde, betrachten wir den Faktor Aals Zufallsvariable mit vorge

gebener Randomisierungsverteilung. Das der einfachen Varianzanalyse zugrunde

liegende Bedingte Lineare Modell einer Einzelbeobachtung lautet dann (vgl. auch 1.1)


(5) für k ;= l.

Hieraus ergibt sich, daß die Unterschiede der Komponenten von () mit denen von ß genau dann für jedes>. übereinstimmen, wenn die u-Mittelwerte in den zugehörigen

Stufen gleich sind

(6) für alle>. E IRR

Da die Gleichheit uk+ = u

z+ der Mittelwerte für alle kund l im allgemeinen nicht

vorliegen wird, wollen wir uns jetzt überlegen, wie man diese Problem bereits der

Datenerhebung umgehen kann. Dies setzt allerdings ein experimentelles Design vo

raus, d.h. für jedes Untersuchungsobjekt j kann die Stufe des Faktors frei gewählt

werden, und der resultierende Wert von Y. wird beobachtet. Ein typische Beispiel ]

hierfür ist eine klinische Studie, bei der insgesamt K verschiedene Behandlungen

bei einem bestimmten Krankheitsbild eingesetzt werden können, und die Zielvari

able Y den Behandlungserfolg beurteilt. Hier liegt ein experimentelles Design vor,

wenn bei jedem Patienten j frei entschieden werden kann, welche der K Behandlun

gen angewandt wird.

5.1.2 Einfache Varianzanalyse mit Randomisierung

Wir betrachten jetzt das sogenannte randomisierte Design, bei dem jedem Untersu

chungsobjekt (z.B. ein Patient) die Stufe des Faktors (z.B. die Behandlung) zufällig

zugeteilt wird, d.h. es wird gemäß einer vorgegebenen sogenannten Randomisierung

verteilung auf der Menge {I, ... ,K} jeweils eine Stufe zufällig ausgewählt (Randomi

sierung). Typischerweise ist die Randomiserungsverteilung die Gleichverteilung, weil

dies zu einem näherungsweise balanciertem Design führt. Aber es kann auch gute

Gründe für die Wahl einer anderen Verteilung geben, und wir wollen uns deshalb

auf keine konkrete Randomisierungsverteilung festlegen.

Wir formulieren das Modell zunächst für eine Einzelbeobachtung Y und erst später

für den gesamten Beobachtunsvektor Y. Da die zu Y gehörige Faktorstufe vorher

zufällig gewählt wurde, betrachten wir den Faktor Aals Zufallsvariable mit vorge

gebener Randomisierungsverteilung. Das der einfachen Varianzanalyse zugrunde

liegende Bedingte Lineare Modell einer Einzelbeobachtung lautet dann (vgl. auch 1.1)


(1) f-Lk:= E(YIA=k) = Bk für 1 < k < K.

Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt

(2) Var(YIA=k) = a2 für 1 < k < K.

Weiter gehen wir davon aus, daß die im obigen Modell nicht berücksichtigte Cova

riable u E IRR nicht beobachtet wird (sonst könnte man sie ja mit ins Modell auf

nehmen) und als Realisierung eines R-dimensionalen Zufallsvektors €ansehen wer

den kann. In Wirklichkeit soll dann das erweiterte Bedingte Lineare Modell

(3) für 1 <k< K,

und das zugehörige bedingte homogene Varianzmodell gelten

(4) Var(YIA=k,€=u) = a; für alle kund u.

Durch die Randomisierung ist sichergestellt, daß die Verteilung von A nicht von der

(unbekannten) Realisierung u von €abhängt und somit sind A und €stochastisch

unabhängig. Deshalb ergibt sich aus (3) das gegenüber (1) veränderte Modell

(5) für 1 < k < K.

Der Vergleich mit (1) liefert den Zusammenhang von Bund ß

(6)

und für die interessierenden Stufenunterschiede gilt daher

(7) für alle k, l.

Man beachte, daß das Modell (1) nicht fehlspezifiziert, weil es ebenso wie das kor

rekte Modell (5) die bedingten Erwartungswerte f-Lk in keiner Weise einschränkt

und somit das vollständige Modell für einen Faktor darstellt. Allerdings modelliert

der Parameter Bk im erweiterten Modell (3) nicht den Einfluß der Stufe k, weil der

wahre Einfluß der Faktorstufe k durch ßk modelliert wird.

Für einen Datensatz Y = (Yk) sind nach (7) die Schätzungen 0k - 0z erwartungstreu

für den wahren Unterschiede ßk

- ßr Die wahren Parameter ß und>' lassen sich


(1) f-Lk:= E(YIA=k) = Bk für 1 < k < K.


(2) Var(YIA=k) = a2 für 1 < k < K.

Weiter gehen wir davon aus, daß die im obigen Modell nicht berücksichtigte Cova

riable u E IRR nicht beobachtet wird (sonst könnte man sie ja mit ins Modell auf

nehmen) und als Realisierung eines R-dimensionalen Zufallsvektors € ansehen wer

den kann. In Wirklichkeit soll dann das erweiterte Bedingte Lineare Modell

(3) für 1 <k< K,


( 4) Var(YIA=k,€=u) = a; für alle kund u.

Durch die Randomisierung ist sichergestellt, daß die Verteilung von A nicht von der

(unbekannten) Realisierung u von € abhängt und somit sind A und € stochastisch

unabhängig. Deshalb ergibt sich aus (3) das gegenüber (1) veränderte Modell

(5) für 1 < k < K.

Der Vergleich mit (1) liefert den Zusammenhang von Bund ß

(6)

und für die interessierenden Stufen unterschiede gilt daher

(7) für alle k, l.

Man beachte, daß das Modell (1) nicht fehlspezifiziert, weil es ebenso wie das kor

rekte Modell (5) die bedingten Erwartungswerte f-Lk in keiner Weise einschränkt

und somit das vollständige Modell für einen Faktor darstellt. Allerdings modelliert

der Parameter Bk im erweiterten Modell (3) nicht den Einfluß der Stufe k, weil der

wahre Einfluß der Faktorstufe k durch ßk modelliert wird.

Für einen Datensatz Y = (Yk) sind nach (7) die Schätzungen 0k - 0z erwartungstreu

für den wahren Unterschiede ßk

- ßt Die wahren Parameter ß und>' lassen sich


ohne Kenntnis der Covariablenwerte U = (uk) allerdings nicht schätzen, weil sie

durch (5) nicht eindeutig bestimmt sind.

Abschließend wollen wir noch auf den Zusammenhang der Varianzen 0-2 und o-}

aus (2) und (4) eingehen. Hierzu setzen wir das Zufällige Lineare Modell (vgl. 1.1) für

eine Einzelbeobachtung voraus

(8) mit E(c) = o.

Hierbei bezeichnet I{A = k} die Indikatorvariable für das Ereignis {A = k}, und die

Fehlervariable c* ist von (A, €) stochastisch unabhängig. Hieraus folgt die Gültig

keit der bedingten Varianzhomogenität (4) (vgl. 1.2)

(9) Var(Y IA = k, €= u) = Var(c*) =: o-} für alle kund u.

Unter Verwendung der zentrierten Variablen

(10) mit

läßt sich das Modell (8) auch schreiben als

(11) Y = 2: I{A = k} . [ßk + E(€) TA ] + c mitk

(12) c=€oTA + c*, E(c) =0.

Mit (6) lautet (11)

(13) mit E(c) = 0,

wobei c stochastisch unabhängig von A ist. Hieraus ergibt sich die bedingten Vari

anzhomogenität (2) (vgl. 1.2)

(14) Var(YI A = k) = Var(c) 2=:0- für alle k.

Wegen der Unabhängigkeit von €und c* ist

Falls € ° TA keine Einpunktverteilung hat, ist also 0-2> 0-;, und somit ließe sich in

diesem Fall die bedingte Varianz von Y durch Kenntnis und Einbeziehung der Co

variable u ins Modell verringern - was sich auch vorteilhaft auf die Testschärfe


ohne Kenntnis der Covariablenwerte U = (u k) allerdings nicht schätzen, weil sie

durch (5) nicht eindeutig bestimmt sind.

Abschließend wollen wir noch auf den Zusammenhang der Varianzen a2 und a} aus (2) und (4) eingehen. Hierzu setzen wir das Zufällige Lineare Modell (vgl. 1.1) für

eine Einzelbeobachtung voraus

(8) mit E(c) = o.

Hierbei bezeichnet I{A = k} die Indikatorvariable für das Ereignis {A = k}, und die

Fehlervariable c * ist von (A, €) stochastisch unabhängig. Hieraus folgt die Gültig

keit der bedingten Varianzhomogenität (4) (vgl. 1.2)

(9) Var(Y I A = k, € = u) = Var( c) =: a} für alle kund u.


(10) mit


(11) Y = 2: I{A = k} . [ßk + E(€) TA ] + c mit k

(12) c=€oTA + c*, E(c) =0.

Mit (6) lautet (11)

(13) mit E(c) = 0,

wobei c stochastisch unabhängig von A ist. Hieraus ergibt sich die bedingten Vari

anzhomogenität (2) (vgl. 1.2)

(14) Var(YI A = k) = Var(c) 2 =:a für alle k.


Falls € ° TA keine Einpunktverteilung hat, ist also a2> a;, und somit ließe sich in

diesem Fall die bedingte Varianz von Y durch Kenntnis und Einbeziehung der Co

variable u ins Modell verringern - was sich auch vorteilhaft auf die Testschärfe


und die Länge von Konfidenzintervallen auswirken würde.

Insgesamt stellen wir fest, daß die Randomisierung bei der einfachen Varianzana

lyse und Nichtberücksichtigung einer relevanten Covariablen u zwar eine Fehlspe

zifikation des Modells vermeidet, dafür aber zu einer gegenüber der bedingten Vari

anz a; höheren Varianz a2 (und somit geringerer Testschärfe) führt. Aber die rele

vanten Stufenunterschiede (7) lassen trotzdem erwartungstreu schätzen. Folglich

kann - und sollte man - durch Randomisierung unerwünschte Fehlspezifikationen

ausschalten.

5.1.3 Fehlspezifikation bei linearer Regression einer Variablen

Wir betrachten jetzt das lineare Regressionsmodell mit einer Variablen z

(1) !-L. = E(Y.) = B1' +B

2z.

J J Jfür alle j.

Unter Verwendung der zentrierten Covariablen

(2) x.=z.-zJ J

mit 1z = J ~z.. J

J


(3) !-L. = E(Y.) = B1+B

2x.

J J Jfür alle j, mit

Da uns hier primär der Parameter B2 interessiert (der den Einfluß von z bzw. x be

schreibt) ist die Darstellung (3) vorteilhafter, weil die Spalten e+= (1) und x = (xj)

der zugehörigen Covariablenmatrix

orthogonal sind. In Vektor-Schreibweise lautet das Regressionsmodell

Wir gehen jetzt wieder davon aus, daß in Wirklichkeit das erweiterte Modell gilt

(6)

Da (4) eine Zerlegung der Form 5.1 (9) ist mit Xl = e+' X2

= x, ergibt sich aus 5.1

(17) und X~X2=Szz der Zusammenhang der beiden relevanten Anstiegsparameter


und die Länge von Konfidenzintervallen auswirken würde.

Insgesamt stellen wir fest, daß die Randomisierung bei der einfachen Varianzana

lyse und Nichtberücksichtigung einer relevanten Covariablen u zwar eine Fehlspe

zifikation des Modells vermeidet, dafür aber zu einer gegenüber der bedingten Vari

anz a; höheren Varianz a2 (und somit geringerer Testschärfe) führt. Aber die rele

vanten Stufenunterschiede (7) lassen trotzdem erwartungstreu schätzen. Folglich

kann - und sollte man - durch Randomisierung unerwünschte Fehlspezifikationen

ausschalten.

5.1.3 Fehlspezifikation bei linearer Regression einer Variablen

Wir betrachten jetzt das lineare Regressionsmodell mit einer Variablen z

(1) J-L. = E(Y.) = B1' + B

2z.

J J J für alle j.

Unter Verwendung der zentrierten Covariablen

(2) x.=z.-z J J

mit 1 z = J ~z. . J

J


(3) J-L. = E(Y.) = B1 + B

2 x.

J J J für alle j, mit

Da uns hier primär der Parameter B 2 interessiert (der den Einfluß von z bzw. x be

schreibt) ist die Darstellung (3) vorteilhafter, weil die Spalten e + = (1) und x = (xj)

der zugehörigen Covariablenmatrix

orthogonal sind. In Vektor-Schreibweise lautet das Regressionsmodell

Wir gehen jetzt wieder davon aus, daß in Wirklichkeit das erweiterte Modell gilt

(6)

Da (4) eine Zerlegung der Form 5.1 (9) ist mit Xl = e +' X2

= x, ergibt sich aus 5.1

(17) und X~X2 =Szz der Zusammenhang der beiden relevanten Anstiegsparameter


(7) mit

Unter Verwendung der Spaltendarstellung

ergibt sich dann weiter

(9)

Wegen

für alle AE IRR

für alle r = 1, ...,R

(11)

(10) xTu = 2:= (zo-z)u o = 2:= (zo-z)(u o -u+) mit u+r= J12:=0 uJorr 0 J Jr 0 J Jr r

J J Jbesagt x Tu = 0 , daß die empirische Covarianz der Vektoren x und u verschwindet

r r

J1 2:= (z 0 - z) (u 0 - u+ ) = o.

o J Jr rJ

Da die empirischen Covarianzen im allgemeinen nicht verschwinden werden

- und dies bei unbeobachtetem u auch nicht überprüfbar ist - werden wir im folgen-r

den zeigen, wie man das Problem durch eine Randomisierung umgehen kann.

5.1.4 Lineare Regression einer Variablen mit Randomisierung

Analog zur einfachen Varianzanalyse wollen wir jetzt ein randomisiertes Design be

trachten. Als typisches Besipiel kann man sich eine klinische Studie vorstellen, bei

dem der Einfluß der Dosis z eines Medikaments auf eine relevante Zielvariable Y

untersucht werden soll, wobei die Dosis z frei bestimmt werden kann (experimen

telles Design). Bei einer Randomisierung wird die Dosis z zufällig aus einer (typi

scherweise endlichen) Trägermenge TZ C IR gewählt.

Wir formulieren das zugehörige Modell wieder erst für eine Einzelbeobachtung Y und

betrachten den gesamten Beobachtunsvektor Y später. Da der zu Y gehörige Co

variablenwert z zufällig gewählt wurde, betrachten wir die Covariable als Zufalls

variable Z mit vorgegebener Randomisierungsverteilung auf dem Träger TZ Das

der Regressionsanalyse zugrunde liegende Bedingte Lineare Modell einer Einzelbe

obachtung lautet dann (vgl. auch 1.1)

5.1 Fehlspezifikation des Modells 7.7.10 5 -11

(7) mit

Unter Verwendung der Spaltendarstellung

ergibt sich dann weiter

(9) für alle A E IRR

für alle r = 1, ... ,R

Wegen

(10) xTu = 2:= (z.-z)u. = 2:= (z.-z)(u. -u+) mit u = J12:= u. r . J Jr . J Jr r +r. Jr

J J J besagt x T u = 0 , daß die empirische Covarianz der Vektoren x und u verschwindet

r r

(11) J1 2:= (z. - z) (u. - u+ ) = o.

. J Jr r J

Da die empirischen Covarianzen im allgemeinen nicht verschwinden werden

- und dies bei unbeobachtetem u auch nicht überprüfbar ist - werden wir im folgenr

den zeigen, wie man das Problem durch eine Randomisierung umgehen kann.

5.1.4 Lineare Regression einer Variablen mit Randomisierung

Analog zur einfachen Varianzanalyse wollen wir jetzt ein randomisiertes Design be

trachten. Als typisches Besipiel kann man sich eine klinische Studie vorstellen, bei

dem der Einfluß der Dosis z eines Medikaments auf eine relevante Zielvariable Y

untersucht werden soll, wobei die Dosis z frei bestimmt werden kann (experimen

telles Design). Bei einer Randomisierung wird die Dosis z zufällig aus einer (typi

scherweise endlichen) Trägermenge TZ C IR gewählt.

Wir formulieren das zugehörige Modell wieder erst für eine Einzelbeobachtung Y und

betrachten den gesamten Beobachtunsvektor Y später. Da der zu Y gehörige Co

variablenwert z zufällig gewählt wurde, betrachten wir die Covariable als Zufalls

variable Z mit vorgegebener Randomisierungsverteilung auf dem Träger TZ Das

der Regressionsanalyse zugrunde liegende Bedingte Lineare Modell einer Einzelbe

obachtung lautet dann (vgl. auch 1.1)


(1) für alle z.


(2) Var(YIZ=z) = a 2 für alle z.

Weiter gehen wir wieder davon aus, daß die im obigen Modell nicht berücksichtigte

Covariable u E IRR als Realisierung eines R-dimensionalen Zufallsvektors € anse

hen werden kann. In Wirklichkeit soll dann das erweiterte bedingte lineare Modell

(3) für alle z.


(4) Var(YIZ=z,€=u) = a} für alle z und u.

Durch die Randomisierung ist wieder sichergestellt, daß die Verteilung von Z nicht

von der (unbekannten) Realisierung u von € abhängt und somit sind Z und € sto

chastisch unabhängig. Deshalb ergibt sich aus (3) das Modell

(5)

mit

für alle z

welches formal mit dem Modell (1) übereinstimmt, wobei

(6)

Daher ist das Modell (1) auch korrekt und die Anstiegsparameter e2

bzw. ß2

beider

Modelle - die den Einfluß von z modellieren - stimmen überein.

Für einen Datensatz Y = (Y.) mit randomisierten Covariablen z = (z.) liegt daher] ]

trotz der nicht berücksichtigten Einflußvariablen (u.) keine Fehlspezifiaktion desA ]

Modells vor, und die Schätzung e2 ist erwartungstreu für den Anstiegsparameter

e2

= ß2. Lediglich die wahren Parameter ß{ und >'lassen sich ohne Kenntnis der Co

variablenwerte (u) nicht schätzen, weil sie durch ß1

nicht eindeutig bestimmt sind.

Der Unterschied zwischen dem Regressionsmodell (1) bzw. (5) und dem erweiterten


(1) für alle z.


(2) Var(YIZ=z) = a 2 für alle z.

Weiter gehen wir wieder davon aus, daß die im obigen Modell nicht berücksichtigte

Covariable u E IRR als Realisierung eines R-dimensionalen Zufallsvektors € anse

hen werden kann. In Wirklichkeit soll dann das erweiterte bedingte lineare Modell

(3) für alle z.


( 4) Var(YIZ=z,€=u) = a} für alle z und u.

Durch die Randomisierung ist wieder sichergestellt, daß die Verteilung von Z nicht

von der (unbekannten) Realisierung u von € abhängt und somit sind Z und € sto

chastisch unabhängig. Deshalb ergibt sich aus (3) das Modell

(5) für alle z

mit

welches formal mit dem Modell (1) übereinstimmt, wobei

(6)

Daher ist das Modell (1) auch korrekt und die Anstiegsparameter e2

bzw. ß2

beider

Modelle - die den Einfluß von z modellieren - stimmen überein.

Für einen Datensatz Y = (Y.) mit randomisierten Covariablen z = (z.) liegt daher ] ]

trotz der nicht berücksichtigten Einflußvariablen (u.) keine Fehlspezifiaktion des A ]

Modells vor, und die Schätzung e 2 ist erwartungstreu für den Anstiegsparameter

e2

= ß2. Lediglich die wahren Parameter ß{ und >'lassen sich ohne Kenntnis der Co

variablenwerte (u) nicht schätzen, weil sie durch ß1

nicht eindeutig bestimmt sind.

Der Unterschied zwischen dem Regressionsmodell (1) bzw. (5) und dem erweiterten


Modell liegt vor allem in der unterschiedlichen Varianz (2) und (4), was wir hier

analog zur Varianzanalyse untersuchen wollen. Ausgangspunkt ist wieder das Zu

fällige Lineare Modell (vgl. 1.1) für eine Einzelbeobachtung

(7) mit E(c) = 0,

und einer von (Z, €) stochastisch unabhängigen Fehlervariablen c*. Hieraus ergibt

sich die bedingten Varianzhomogenität (4)

(8) Var(YIZ=z, €= u) = Var(c) =: a} für alle z und u.


(9) mit


(10)

(11)

mit

E(c) = 0,

wobei c stochastisch unabhängig von Z ist. Hieraus ergibt sich die bedingte

Varianzhomogenität (2)

(12) Var(YIA =k) Var(c) 2=:17 für alle k.


Falls €O TA keine Einpunktverteilung hat, so ließe sich die bedingte Varianz von Y

durch Kenntnis und Einbeziehung der Covariable u ins Modell verringern - was

sich wieder vorteilhaft auf die Testschärfe und die Länge von Konfidenzintervallen

auswirken würde.

Insgesamt stellen wir fest, daß die Randomisierung bei der Regressionsanalyse

wie schon bei der einfachen Varianzanalyse - und Nichtberücksichtigung einer rele

vanten Covariablen u eine Fehlspezifikation des Modells vermeidet, dafür aber zu

einer gegenüber der bedingten Varianz 17; höheren Varianz 172 (und somit geringe

rer Testschärfe) führt.


Modell liegt vor allem in der unterschiedlichen Varianz (2) und (4), was wir hier

analog zur Varianzanalyse untersuchen wollen. Ausgangspunkt ist wieder das Zu

fällige Lineare Modell (vgl. 1.1) für eine Einzelbeobachtung

(7) mit E(c) = 0,

und einer von (Z, €) stochastisch unabhängigen Fehlervariablen c *. Hieraus ergibt

sich die bedingten Varianzhomogenität (4)

(8) Var(YIZ=z, €= u) = Var(c) =: a}


(9) mit


(10)

(11)

für alle z und u.

mit

E(c) = 0,

wobei c stochastisch unabhängig von Z ist. Hieraus ergibt sich die bedingte

Varianzhomogenität (2)

(12) Var(YIA =k) Var(c) 2 =:17 für alle k.


Falls €O TA keine Einpunktverteilung hat, so ließe sich die bedingte Varianz von Y

durch Kenntnis und Einbeziehung der Covariable u ins Modell verringern - was

sich wieder vorteilhaft auf die Testschärfe und die Länge von Konfidenzintervallen

auswirken würde.

Insgesamt stellen wir fest, daß die Randomisierung bei der Regressionsanalyse -

wie schon bei der einfachen Varianzanalyse - und Nichtberücksichtigung einer rele

vanten Covariablen u eine Fehlspezifikation des Modells vermeidet, dafür aber zu

einer gegenüber der bedingten Varianz 17; höheren Varianz 172 (und somit geringe

rer Testschärfe) führt.

5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 14

5.2 Anpassungstests für lineare Modelle

Wird bei einer statistischen Analyse ein bestimmtes lineares Modell verwendet, J welches wir jetzt mit Ao C R statt A bezeichnen wollen, so taucht die zentrale

Frage auf, ob das zugrunde gelegte Modell korrekt ist. Zur Überprüfung der Mo-

dell-Anpassung wird man die Abweichungen der Beobachtung Y = (Y1, ..., YJ) von

dem unter dem Modell Ao geschätzten Erwartungswert Po = (,Lol, ...,,L ) beurtei- O J

len. Dies kann sowohl global, d.h. für alle J Beobachtungen simultan, als auch lokal,

d.h. für alle Beobachtungen einzeln, erfolgen. Die lokale Beurteilung führt zu einer

Residuenanalyse, die wir später behandeln werden, und die globale Beurteilung führt

zu den Anpassungstests, auf die wir jetzt eingehen.

J Im Rahmen eines umfassenden linearen Modells 4 cA1 C R kann die Gültig-

keit des Modells 4 als eine lineare Hypothese formuliert werden

(1) Nullhypothese Ho: p E Ao (Modell Ao gilt)

Alternative H1: p 6 Ao , p E Al (Modell Ao gilt nicht, aber Al gilt).

die mit dem F-Test überprübar ist. Die Adäquatheit des hierbei als gültig vorausge-

setzten Obermodells A muß natürlich vorher hinreichend gesichert sein. Eine uni- 1

verselle Methode für einen solchen F-Test ist stets dann gegeben, wenn das Modell

Ao durch eine JxS Covariablenmatrix X beschrieben ist

und hierbei die verschiedenen Covariablenvektoren X . (also die Zeilen von X) nicht 3

nur einmal, sondern mehrmals auftreten. Man kann dies schon bei der Datenerhe- S bung sicherstellen, indem man für jede interessierende Covariable X E R nicht nur

eine, sondern mehrere voneinander unabhängige Beobachtungen Y erhebt. Wenn

zwei Beobachtungen denselben Covariablenvektor haben, so wollen wir sie als äqui-

valent (hinsichtlich ihrer Covariablen) ansehen, d.h. wir definieren eine Äquivalenz-

relation - auf { 1, ..., J) durch

Bezeichnet

5.2 Anpassungstest für lineare Modelle 11.8.05 5-14

5.2 Anpassungstests für lineare Modelle

Wird bei einer statistischen Analyse ein bestimmtes lineares Modell verwendet,

welches wir jetzt mit .ACO

C IR] statt .AC bezeichnen wollen, so taucht die zentrale

Frage auf, ob das zugrunde gelegte Modell korrekt ist. Zur Überprüfung der Mo

dell-Anpassung wird man die Abweichungen der Beobachtung Y = (Yl, ... , Y

J) von

dem unter dem Modell .ACo geschätzten Erwartungswert 40

= (401' ... , 4

0J) beurtei

len. Dies kann sowohl global) d.h. für alle J Beobachtungen simultan) als auch lokal)

d.h. für alle Beobachtungen einzeln) erfolgen. Die lokale Beurteilung führt zu einer

Residuenanalyse) die wir später behandeln werden, und die globale Beurteilung führt

zu den Anpassungstests, auf die wir jetzt eingehen.

Im Rahmen eines umfassenden linearen Modells .ACO

C.ACl

C IR] kann die Gültig

keit des Modells .ACo als eine lineare Hypothese formuliert werden

(1) Nullhypothese HO: Jl E.ACo (Modell .ACo gilt)

Alternative

die mit dem F-Test überprübar ist. Die Adäquatheit des hierbei als gültig vorausge

setzten Obermodells .ACl

muß natürlich vorher hinreichend gesichert sein. Eine uni

verselle Methode für einen solchen F-Test ist stets dann gegeben, wenn das Modell

.ACO

durch eine JxS Covariablenmatrix X beschrieben ist

und hierbei die verschiedenen Covariablenvektoren x. (also die Zeilen von X) nicht ]

nur einmal) sondern mehrmals auftreten. Man kann dies schon bei der Datenerhe-

bung sicherstellen, indem man für jede interessierende Covariable xE IRS nicht nur

eine, sondern mehrere voneinander unabhängige Beobachtungen Y erhebt. Wenn

zwei Beobachtungen denselben Covariablenvektor haben, so wollen wir sie als äqui

valent (hinsichtlich ihrer Covariablen) ansehen, d.h. wir definieren eine Äquivalenz

relation '""'"' auf { 1, ... , J} durch

Bezeichnet


die Anzahl der verschiedenen Covariablenvektoren (bzw. Äquivalenzklassen), so kön-

nen wir diese K verschiedenen Covariablenvektoren X (11, ..., x(q formal als einen

Faktor A mit K Stufen auffassen. Zu jeder Beobachtung j ist die zugehörige Stufe k

von A . dadurch charakterisiert, daß X der zugehörige Covariablenwert ist: 3 (4

Bezeichet

die Anzahl aller Beobachtungen j, bei denen der Faktor A die Stufe k hat , so kön-

nen wir den Beobachtungsindex j = 1, ..., J wieder durch einen Doppelindex (5 , i ) mit

1 5 5 5 K und 1 5 i 5 I(k) ersetzen. Jede einzelne Beobachtung (k,i) ist dann gege-

ben durch (Yk i , xk ), wobei der Covariablenvektor

X - X k i - (k) für alle 1 5 i 5 I(k)

nicht vom Index i abhängt. Der Index k charakterisiert also den S-dimensionalen

Covariablenvektor X und der Index i zählt die Wiederholungen für diesen Covari- (4 ablenvektor.

Das vollständige Modell für den Faktor A läßt sich dann schreiben als

(M1 F) Pki = $k für alle 1 5 5 5 K , 1 5 i 5 I(k),

K mit einem Parametervektor 4 = ($ ...., $K) E R . Dieses Modell besagt, daß der Er- 1' wartungswert ,LL nur von der Stufe k , d.h. vom zugehörigen Covariablenwert X L i (k) (aber nicht vom Wiederholungsindex i) abhängt. Diese Abhängigkeit kann aber

völlig beliebig sein, da für jede Stufe k ein eigener Parameter $k vorgesehen ist.

Folglich wird man das Modell (MIF) stets dann voraussetzen können, wenn man

davon überzeugt ist, daß der Erwartungswert - auf beliebige Weise - nur von den

betrachteten Covariablen abhängt. Dies ist z.B. dann der Fall, wenn es sich bei allen

Beobachtungen Yki mit gleichem Covariablenwert X tatsächlich um unabhängige (4 Wiederholungen einer Zufallsvariablen Yk handelt. Andererseits kann das Modell

(MIF) z.B. dann falsch sein, wenn der Erwartungswert pki noch von weiteren

5.2 Anpassungstest für lineare Modelle

(4) K = # {x. E IRS I j = 1, ... , J} ]

11.8.05 5 -15

die Anzahl der verschiedenen Covariablenvektoren (bzw. Äquivalenzklassen), so kön

nen wir diese K verschiedenen Covariablenvektoren X (1) , ... , x(K) formal als einen

Faktor A mit K Stufen auffassen. Zu jeder Beobachtung j ist die zugehörige Stufe k

von Aj dadurch charakterisiert, daß x(k) der zugehörige Covariablenwert ist:

Bezeichet

(6) I(k) = #{j I Aj=k} = #{j I x j = x(k)} > 0

die Anzahl aller Beobachtungen j, bei denen der Faktor A die Stufe k hat , so kön

nen wir den Beobachtungsindex j = 1, ... , J wieder durch einen Doppelindex (k, i) mit

1 < k < Kund 1 < i < I(k) ersetzen. Jede einzelne Beobachtung (k, i) ist dann gege

ben durch (Yki

, xki

), wobei der Covariablenvektor

(7) für alle 1 < i < I(k)

nicht vom Index i abhängt. Der Index k charakterisiert also den S-dimensionalen

Covariablenvektor x(k) und der Index i zählt die Wiederholungen für diesen Covari

ablenvektor.

Das vollständige Modell für den Faktor A läßt sich dann schreiben als

(MIF) J-Lki = 1fJk für alle 1 < k < K, 1 < i < I(k),

mit einem Parametervektor "p = (1fJ1' .... , 1fJK

) E IRK. Dieses Modell besagt, daß der Er

wartungswert J-Lki nur von der Stufe k , d.h. vom zugehörigen Covariablenwert x(k)

(aber nicht vom Wiederholungs index i) abhängt. Diese Abhängigkeit kann aber

völlig beliebig sein, da für jede Stufe k ein eigener Parameter 1fJk

vorgesehen ist.

Folglich wird man das Modell (MIF) stets dann voraussetzen können, wenn man

davon überzeugt ist, daß der Erwartungswert - auf beliebige Weise - nur von den

betrachteten Covariablen abhängt. Dies ist z.B. dann der Fall, wenn es sich bei allen

Beobachtungen Y k i mit gleichem Covariablenwert x(k) tatsächlich um unabhängige

Wiederholungen einer Zufallsvariablen Y k handelt. Andererseits kann das Modell

(MIF) z.B. dann falsch sein, wenn der Erwartungswert J-Lk i noch von weiteren


T (nicht erhobenen) Covariablen uk i€ IR abhängt, und diese nicht konstant bzgl. i

sind, d.h. (7) gilt nicht für u statt X.

Wir wollen jetzt die Gültigkeit des Modells (MIF) voraussetzen und bezeichnen

den zugehörigen Modellraum mit

J (8) Al = { E IR I pki = pkl für alle 1 < k < K und i, 1 = 1, ..., I(k) }

K = a x a I ( , x . . . x a I ( q

I(1] = L =l a ~ ( k )

Das Modell Al ist nun das gesuchte Obermodell von 4, denn nach (2) gilt

(9) T

P * I L k i = X ( k ) e für alle 1 < 5 < K und i = 1, ..., I(k),

und mit $ - xT 6 (für alle k) ergibt sich Ao C A l . k - (4

Bevor wir allerdings den F-Test anwenden können, müssen die folgenden Dimen-

sionsbedingungen erfüllt sein:

K = D i m A l < J ,

d.h. mindestens ein Covariablenwert tritt mehrmals auf.

S=DimjlCO < K ,

d.h. Ao ist nicht bereits das ,vollständige Modell" A l .

Wir setzen diese Dimensionsbedingungen jetzt voraus und wenden den F-Test auf

die Modelle 4 cA1 an. Die Schätzung von 4 unter dem umfassenden Modell

Al lautet nach Abschnitt 5.2 (16)

- (I0) >ul = C Fkt ekt bzw. h k i = 'kt für alle k, i mit

L 1

(11) = - C Yki (Mittelwert aller Beobachtungen der Stufe k) k t I(k)

Sind Po und 8, die Schätzungen unter dem Modell Ao, so hängt bOki nicht mehr

von i ab, und wir schreiben daher auch

T (12) f i o k i = ~ k = ~ ( k q ~ für alle 5, i.

Die relevanten Größen für den F-Test ergeben sich dann zu


(nicht erhobenen) Covariablen u ki E IR? abhängt, und diese nicht konstant bzgl. i

sind, d.h. (7) gilt nicht für u statt x.

Wir wollen jetzt die Gültigkeit des Modells (MIF) voraussetzen und bezeichnen

den zugehörigen Modellraum mit

(8) ...41 = {Jl E IR] I /-Lki = /-Lkl für alle 1 < k < Kund i, l = 1, ... , I(k) } K

= D.1(1) x D.1(2) x ... x D.1(K) = k D1

D.1(k)

Das Modell...41

ist nun das gesuchte übermodell von ...40

' denn nach (2) gilt

T (9) JlE...40 {} /-Lki=x(k)() füralle1<k<Kundi=1, ... , I(k) ,

und mit 1fJk = x~) () (für alle k) ergibt sich ...40

C ...41.

Bevor wir allerdings den F-Test anwenden können, müssen die folgenden Dimen

sionsbedingungen erfüllt sein:

(DB1) K = Dim...41

< J!

d.h. mindestens ein Covariablenwert tritt mehrmals auf.

(DB2) S = Dim...40

< K,

d.h . ...40

ist nicht bereits das "vollständige Modell" ...41"

Wir setzen diese Dimensionsbedingungen jetzt voraus und wenden den F-Test auf

die Modelle ...40

C...41

an. Die Schätzung von Jl1

unter dem umfassenden Modell

...41

lautet nach Abschnitt 5.2 (16)

(10)

(11)

bzw. 41ki = Y k+ für alle k, i

(Mittelwert aller Beobachtungen der Stufe k)

mit

Sind 40

und () 0 die Schätzungen unter dem Modell ...40

' so hängt 40

k i nicht mehr

von i ab, und wir schreiben daher auch

(12) A A T()A /-Lo ki = /-Lo k = x(k) für alle k, i.

Die relevanten Größen für den F-Test ergeben sich dann zu


(13) D ~ V ( A J = I I Y - I L ~ I I ~ = C C ( Y ~ ~ - ~ ~ ~ ~ ) ~ k i

jAbweichungsquadrate der Einzelwerte um 4)

(14) ~ e v ( ~ ~ ) = I I Y - > ~ ~ 1 1 ~ = C C ( y k i - Fk+12 k i

(Ab~eichungs~uadrate der Einzelwerte vom Gruppenmittel)

(I5) ADev = I I P ~ - > ~ ~ I I ~ = C I ( ~ ) ' ( ~ ~ ~ - ~ ~ ~ ~ ) 2 L

jAbweichungsquadrate der Gruppenmittel um 4)

Und die zugehörige Tafel der Streuungszerlegung ist in Tabelle 1 angegeben.

Tabelle 1: Tafel der Streuungszerlegung für den Anpassungstest

Streuung (Ursache)

Gruppenmittel um A 0

In den Gruppen

Einzelwerte um 4

Hierbei sind 82 und e2 die Schätzungen von o2 bzgl. Al und A0 1 0

(16) $2 - - 1

1 J -K L i

Dev

ADev

Dev(AJ

Dev(Ao)

(mittlere Streuung der Einzelwerte um Gruppenmittel),

$2 - - 1 - C C ('ki- hk12 0 J-S

L i

FG

D G = K - S

F G ( A l ) = J- K

F G ( A o ) = J-S

(mittlere Streuung der Einzelwerte um das Modell A0).

D ~ V / F G

-2 0

0

o A 2 1

A 2 0

0

Und 5; ist auch eine MQ-Schätzung von o2 unter dem Modell Ao, die sich dadurch

ergibt, daß man anstelle der ursprünglichen J Beobachtungen (Yki) jetzt die K mit

I(k) gewichteten Gruppenmittelwerte F verwendet: k t

5.2 Anpassungstest für lineare Modelle 11.8.05

(13)

(14)

Dev(vltJ = 11 Y - 40 11 2 = 2: 2: (Yk · - 40k )2

k i Z

(Abweichungsquadrate der Einzelwerte um vlto)

A 2 - 2 Dev(vlt1) = IIY -/l111 = 2: 2: (Yk · - Y k +)

k i Z

(Abweichungsquadrate der Einzelwerte vom GruppenmitteV

(15) L:,Dev = 1141-40 11 2 = 2: I(k)· (Yk + - 40k )2

k (Abweichungsquadrate der Gruppenmittel um vlto)

Und die zugehörige Tafel der Streuungszerlegung ist in Tabelle 1 angegeben.

Streuung (Ursache) Dev FG Dev/FG

Gruppenmittel um vita L:,Dev MG =K-S -2 O"a

In den Gruppen Dev(vlt1) FG(vlt

1)=J-K

A2 0"1

Einzelwerte um vlto Dev(vlto) FG(vlto)=J-S A2

0"0

Tabelle 1: Tafel der Streuungszerlegung für den Anpassungstest

Hierbei sind ai und a~ die Schätzungen von 0"2 bzgl. vlt1 und vita

(16) A2 1 - 2 0"1 = J-K 2i 1 (Yki - Y k +)

(mittlere Streuung der Einzelwerte um GruppenmitteV!

(17) a~ = J~S 2i 1 (Yki - 40k )2

(mittlere Streuung der Einzelwerte um das Modell vita).

5 -17

Und a~ ist auch eine MQ-Schätzung von 0"2 unter dem Modell vlto' die sich dadurch

ergibt, daß man anstelle der ursprünglichen J Beobachtungen (Yki

) jetzt die K mit

I(k) gewichteten Gruppenmittelwerte Y k + verwendet:


(18) a2 - - 1 2

0 K-S L

(mittlere Streuung der Gruppenmittel um das Modell A0).

Die F-Statistik läßt sich dann schreiben als

-2 0

1 2 0 -

K- IIb-boII (19) F = - - - 2

0 1

1 J-K - I I Y - ~ I I ~

Der F-Test bei der einfachen Varianzanalyse kann jetzt auch als ein Anpassungs-

test für das lconstante Modell interpretiert werden.


(18) a~ = K~S 2: I(k) . (Yk + - 40k )2 k

(mittlere Streuung der Gruppenmittel um das Modell .ACo).

Die F-Statistik läßt sich dann schreiben als

(19) F= (F-Statistik) !

Der F-Test bei der einfachen Varianzanalyse kann jetzt auch als ein Anpassungs

test für das konstante Modell interpretiert werden.

5.3 Residuenanalyse 11.8.05 5 - 19

5.3 Residuenanalyse

Zur Beurteilung, ob das verwendete lineare Modell .L& die beobachteten Daten adä-

quat beschreibt, liegt es nahe, die Beobachtungen Y ..., YJ mit den unter dem Mo- l'

dell geschätzten Erwartungswerten ,L ...,,L zu vergleichen. Neben dem bereits er- 1' J

läuterten globalen Vergleich im Rahmen von Anpassungstests, wollen wir jetzt auf

lokale Vergleiche eingehen, bei denen man die Residuen

(Residuum)

für alle Beobachtungen j einzeln betrachtet und analysiert. Die Methoden der Resi-

duenanalyse sind eher heuristisch als formal begründet und ihre Anwendung und

Interpretation erfordert etwas Erfahrung und Fingerspitzengefühl. In der Regel

handelt es sich um graphische Methoden, sogenannte Residuen-Plots, bei denen die

(gegebenfalls noch modifizierten) Residuen gegen andere interessierende Größen

aufgetragen werden, wie z. B.

die geschätzten Erwartungswerte ,LI. 3

spezielle Covariablen-Komponenten X . oder eine interessierende Funk- 3s '

tion f(x. ) davon. 3s

Bei allen Residuenplots beurteilt man (optisch), ob Punkte „zufällign verteilt sind

oder ob auffällige Strukturen erkennbar sind, die es dann zu interpretieren gilt.

Neben dem durch (1) definierten sogenannten rohen Residuum werden auch Modifi-

kationen betrachtet. Häufig wird das skalierte Residuums verwendet

(skaliertes Residuum)

welches man formal aus der standardisierten Beobachtung

erhält, indem man ,LL. und a durch ihre Schätzungen ersetzt. Das skalierte Resi- 3

duum unterscheidet sich vom rohen Residuum R . zwar nur um den Faktor G , hat 3

aber den Vorteil einer gewissen Normierung, weil die Quadratsumme der skalier-

ten Residuen immer den Freiheitsgrad des Modells ergibt

Will man auch die unterschiedliche Varianz der rohen Residuen R. für verschie- 3

5.3 Residuenanalyse 11.8.05 5-19

5.3 Residuenanalyse

Zur Beurteilung, ob das verwendete lineare Modell vft die beobachteten Daten adä

quat beschreibt, liegt es nahe, die Beobachtungen Y1' ... , Y J mit den unter dem Mo

dell geschätzten Erwartungswerten (t , ... , (t zu vergleichen. Neben dem bereits er-1 J

läuterten globalen Vergleich im Rahmen von Anpassungstests, wollen wir jetzt auf

lokale Vergleiche eingehen, bei denen man die Residuen

(1) R.=Y.-(t. J J J

(Residuum)

für alle Beobachtungen j einzeln betrachtet und analysiert. Die Methoden der Resi

duenanalyse sind eher heuristisch als formal begründet und ihre Anwendung und

Interpretation erfordert etwas Erfahrung und Fingerspitzengefühl. In der Regel

handelt es sich um graphische Methoden, sogenannte Residuen-Plots) bei denen die

(gegebenfalls noch modifizierten) Residuen gegen andere interessierende Größen

aufgetragen werden, wie z. B.

• die geschätzten Erwartungswerte (t. J

• spezielle Covariablen-Komponenten x. ,oder eine interessierende FunkJS

tionf(x. ) davon. JS

Bei allen Residuenplots beurteilt man (optisch), ob Punkte "zufällig" verteilt sind

oder ob auffällige Strukturen erkennbar sind, die es dann zu interpretieren gilt.

Neben dem durch (1) definierten sogenannten rohen Residuum werden auch Modifi

kationen betrachtet. Häufig wird das skalierte Residuums verwendet

(2) R~C:= ~ R. = ~ (Y.-(t.) J a J a J J

(skaliertes Residuum)

welches man formal aus der standardisierten Beobachtung

(3) 1. (Y.- fL.) a J J

erhält, indem man fL. und a durch ihre Schätzungen ersetzt. Das skalierte ResiJ

duum unterscheidet sich vom rohen Residuum R. zwar nur um den Faktor a, hat J

aber den Vorteil einer gewissen Normierung, weil die Quadratsumme der skalier-

ten Residuen immer den Freiheitsgrad des Modells ergibt

(4) ~ (R;c)2 = FG(vft) = J - Dim(vft). J

Will man auch die unterschiedliche Varianz der rohen Residuen R. für verschieJ


dene Beobachtungen j mitberücksichtigen, so kann man das Residuum standardisie-

ren. Die Varianz des Residuums R . ergibt sich nach 2.3 (14) als j-tes Diagonalele- 3

ment der Matrix

1 T Cov (R) = 02.(IIJ- P "4%' ) = 02.(IIJ- x(xTx)- X )

Hieraus folgt

S wobei X . E IR der zugehörige Covariablenvektor ist. Ersetzt man den unbekannten 3

2 Skalenparameter o durch seine Schätzung 82, so erhält man die geschätzte Varianz

von R . 3

und das standardzszerte Reszduum

(standardisiertes Residuum).

Der Unterschied zwischen dem skalierten und standardisierten Residuum ist oft

nicht sehr groß. Insbesondere bei einer hohen Anzahl J von Beobachtungen (relativ

zur Modelldimension S) ist 6 2 e2, und das Residuum R: weicht nur gering von 1

R? ab. 3

Das standardisierte bzw. skalierte Residuum hat den Vorteil, daß es auch eine abso-

lute Beurteilung der Abweichung (Y.-,L.) erlaubt, weil es deren Varianz mitbe- 3 3

rücksichtigt. Bei normalverteilten Beobachtungen, d.h. (NVY) gilt, sind das stan-

dardisierte und skalierte Residuum zumindest dann näherungsweise N(0 , 1)-verteilt,

wenn hinreichend viele Beobachtungen J vorliegen, weil dann die Schätzungen ,L. 3

und 8 nur unwesentlich von den wahren Werten ,LL. und a abweichen (vgl. hierzu 3

auch die asymptotischen Resultate in späteren Kapiteln). Hierdurch lassen sich ex-

trem große bzw. „unwahrscheinliche" Residuen herausfinden, z.B. solche bei denen

das (standardisierte oder skalierte) Residuum außerhalb des 20-Bereiches

[ - 2 8 , + 2 81 oder gar außerhalb des 30-Bereiches liegt [ - 3 8 , + 3 81.

Nach diesen Vorbetrachtungen wollen wir die wichtigsten Typen der Residuenplots

kurz erläutern, wobei es oft unerheblich ist, welchen Residuentyp man verwendet:

roh, skaliert oder standardisiert.

5.3 Residuenanalyse 11.8.05 5- 20

dene Beobachtungen j mitberücksichtigen, so kann man das Residuum standardisie

ren. Die Varianz des Residuums R. ergibt sich nach 2.3 (14) als j-tes Diagonalele]

ment der Matrix

(5) Cov (R) a 2 . ( 11 J - P c4) = a 2 . ( 11 J - X(X T X) -1 X T)

Hieraus folgt

(6)

wobei x. E IRS der zugehörige Covariablenvektor ist. Ersetzt man den unbekannten ]

Skalenparameter a 2 durch seine Schätzung 52, so erhält man die geschätzte Varianz

vonR. ]

(7)

und das standardisierte Residuum

(8) (standardisiertes Residuum).

Der Unterschied zwischen dem skalierten und standardisierten Residuum ist oft

nicht sehr groß. Insbesondere bei einer hohen Anzahl J von Beobachtungen (relativ

zur Modelldimension S) ist v ~ ~ 52, und das Residuum R~c weicht nur gering von t ] ]

R~ ab. ]

Das standardisierte bzw. skalierte Residuum hat den Vorteil, daß es auch eine abso

lute Beurteilung der Abweichung (Y.- 4.) erlaubt, weil es deren Varianz mitbe-] ]

rücksichtigt. Bei normalverteilten Beobachtungen, d.h. (NVY) gilt, sind das stan-

dardisierte und skalierte Residuum zumindest dann näherungsweise N(O, l)-verteilt,

wenn hinreichend viele Beobachtungen J vorliegen, weil dann die Schätzungen 4. ]

und 5 nur unwesentlich von den wahren Werten J-L. und a abweichen (vgl. hierzu ]

auch die asymptotischen Resultate in späteren Kapiteln). Hierdurch lassen sich ex-

trem große bzw. "unwahrscheinliche" Residuen herausfinden, z.B. solche bei denen

das (standardisierte oder skalierte) Residuum außerhalb des 2a-Bereiches

[- 25, + 25] oder gar außerhalb des 3a-Bereiches liegt [- 35, + 35].

Nach diesen Vorbetrachtungen wollen wir die wichtigsten Typen der Residuenplots

kurz erläutern, wobei es oft unerheblich ist, welchen Residuentyp man verwendet:

roh, skaliert oder standardisiert.


Der Index-Residuen-Plot

Hier werden für alle Beobachtungen j die Residuen RSC dargestellt, d.h. man plottet 3

die Punkte 6, RSC) für alle j. Eine solche Darstellung ermöglicht (im Gegensatz zu 3

einer entsprechenden Tabelle) einen ersten Überblick über die Größe der Residuen

und ihr Vorzeichen. Hierbei beurteilt man hauptsächlich die Lage der Punkte rela-

tiv zur Achse R = 0, und ob sie um diese Achse zufällig streuen. Dadurch lassen sich

insbesondere größere Abweichungen vom Modell über die zugehörigen Residuen

entdecken.

Wesentlich mehr Information läßt sich aus diesen Plot gewinnen, wenn die Be-

obachtungen systematisch sortiert sind. Sind sie z. B. nach den Stufen eines Faktors

A sortiert, so kann man die Residuen für jede Stufe getrennt betrachten und analy-

sieren. Sind die Beobachtungen dagegen nach einer quantitativen Covariablen (auf-

steigend) sortiert, so kann man gegebenfalls monotone Trends zwischen dieser Co-

variablen und den Residuen entdecken. Diese Überlegungen lassen sich fortsetzen,

wenn die Beobachtungen lexikografisch nach mehreren (oder sogar allen) Modellva-

riablen sortiert sind, was daher schon aus diesem Grunde empfehlenswert ist.

Plot: Residuum gegen Erwartungswert

Es werden die Punkte (,L., RSC) für alle j dargestellt. Hierbei beurteilt man wieder, 3 3

ob die Punkte zufällig um die Achse R = 0 streuen. Wenn z. B. bei größeren Erwar-

tungswerten auch stets größere Residuen auftreten, so kann die Annahme homoge-

ner Varianzen verletzt sein.

Plot: Residuum gegen eine Covariable aus dem Modell

Hier betrachtet man für festes s die s-te Komponente X des Covariablenvektors S

S X EIR und plottet die Punkte (X. RSC) für alle j. Hier wird geprüft ob die Darstel-

3s' 3 lung Strukturen aufweist oder nicht. Erkennt man hier z.B. bei einer quantitativen

Covariablen X . eine „Krümmungn in der Punktwolke, so ist der Einfluß von X . 3s 3s

nicht zufriedenstellend modelliert, und dies kann eventuell durch Verwendung einer

Transformation h(x. ) der Covariablen (statt X . ) oder durch Hinzufügen eines qua- 3s 3s

dratischen Terms X? als neue Covariable verbessert werden. Im Gegensatz zum In- 3s

dex-Residuen-Plot (mit nach xs sortierten Beobachtungen) lassen sich hier nicht nur

monotone Trends erkennen, sondern man kann diese auch quantifizieren (z. B. durch


Der Index -Resid uen -Plot

Hier werden für alle Beobachtungen j die Residuen R~c dargestellt, d.h. man plottet ]

die Punkte (j, R~C) für alle j. Eine solche Darstellung ermöglicht (im Gegensatz zu ]

einer entsprechenden Tabelle) einen ersten Überblick über die Größe der Residuen

und ihr Vorzeichen. Hierbei beurteilt man hauptsächlich die Lage der Punkte rela

tiv zur Achse R = 0, und ob sie um diese Achse zufällig streuen. Dadurch lassen sich

insbesondere größere Abweichungen vom Modell über die zugehörigen Residuen

entdecken.

Wesentlich mehr Information läßt sich aus diesen Plot gewmnen, wenn die Be

obachtungen systematisch sortiert sind. Sind sie z. B. nach den Stufen eines Faktors

A sortiert, so kann man die Residuen für jede Stufe getrennt betrachten und analy

sieren. Sind die Beobachtungen dagegen nach einer quantitativen Covariablen (auf

steigend) sortiert, so kann man gegebenfalls monotone Trends zwischen dieser Co

variablen und den Residuen entdecken. Diese Überlegungen lassen sich fortsetzen,

wenn die Beobachtungen lexikografisch nach mehreren (oder sogar allen) Modellva

riablen sortiert sind, was daher schon aus diesem Grunde empfehlenswert ist.

Plot: Residuum gegen Erwartungswert

Es werden die Punkte (4., R~C) für alle j dargestellt. Hierbei beurteilt man wieder, ] ]

ob die Punkte zufällig um die Achse R = 0 streuen. Wenn z. B. bei größeren Erwar-

tungswerten auch stets größere Residuen auftreten, so kann die Annahme homoge

ner Varianzen verletzt sein.

Plot: Residuum gegen eine Covariable aus dem Modell

Hier betrachtet man für festes s die s-te Komponente x des Covariablenvektors S

xE IRS und plottet die Punkte (x. , R~C) für alle j. Hier wird geprüft ob die DarstelJS J

lung Strukturen aufweist oder nicht. Erkennt man hier z.B. bei einer quantitativen

Covariablen x. eine "Krümmung" in der Punktwolke, so ist der Einfluß von x. F F

nicht zufriedenstellend modelliert, und dies kann eventuell durch Verwendung einer

Transformation h(x. ) der Covariablen (statt x. ) oder durch Hinzufügen eines qua-JS JS

dratischen Terms x? als neue Covariable verbessert werden. Im Gegensatz zum InJS

dex-Residuen-Plot (mit nach x sortierten Beobachtungen) lassen sich hier nicht nur S

monotone Trends erkennen, sondern man kann diese auch quantifizieren (z. B. durch


einen quadratischen Zusammenhang), weil hier auch die Werte X. berücksichtigt 3

werden und nicht nur ihre Anordnung (d. h. ihre Ränge).

Plot: Residuum gegen nicht ins Modell aufgenommen Covariable

Um herauszufinden welchen Einfluß eine bisher nicht in das Modell aufgenommene

Covariable z . auf den Erwartungswert hat, kann man die Punkte (z., R?) für alle j 3 3 3

plotten und auf Zufälligkeit beurteilen. Eine eventuell erkennbare funktionale Ab-

hängigkeit (etwa linear oder gekrümmt) liefert dann erste Anhaltspunkte, wie (li-

near, quadratisch undIoder ggf. transformiert) die Variable z . in einem erweiterten 3

Modell als Covariable aufzunehmen wäre.

5.3 Residuenanalyse 11.8.05 5- 22

emen quadratischen Zusammenhang), weil hier auch die Werte x. berücksichtigt ]

werden und nicht nur ihre Anordnung (d. h. ihre Ränge).

Plot: Residuum gegen nicht ins Modell aufgenommen Covariable

Um herauszufinden welchen Einfluß eine bisher nicht in das Modell aufgenommene

Covariable z. auf den Erwartungswert hat, kann man die Punkte (z., R~C) für alle j ] ] ]

plotten und auf Zufälligkeit beurteilen. Eine eventuell erkennbare funktionale Ab-

hängigkeit (etwa linear oder gekrümmt) liefert dann erste Anhaltspunkte, wie (li

near, quadratisch und/oder ggf. transformiert) die Variable z. in einem erweiterten ]

Modell als Covariable aufzunehmen wäre.

5.4 Modellsuche 12.8.05 5 - 23

5.4 Modellsuche

Im Abschnitt 3.3 haben wir schon gesehen, daß es bereits bei zwei beobachteten

Covariablen zahlreiche Möglichkeiten gibt, den Einfluß dieser Covariablen zu mo-

dellieren. Bei mehreren Covariablen wird die Vielfalt der möglichen Modelle ent-

sprechend größer, und es erhebt sich die Frage, wie man generell ein optimales

Modell auswählen kann. Je nach Intention der statistischen Analyse wird man ei-

nen unterschiedlichen Optimalitätsbegriff zu Grunde legen und folglich gibt es kein

universelles Verfahren für eine Modellsuche. Eine Übersicht der wichtigsten Ver-

fahren und ihrer Probleme findet man in der Monographie von A.J. Miller (1990).

Wir wollen hier nur zwei grundsätzlich verschiedene Verfahren kurz besprechen:

konfirmatorische sequentielle Testprozeduren (die ein vorgegebenes Testniveau einhal-

ten) und einfache explorative Modell-Suchverfahren (bei denen die Irrtumswahr-

scheinlichkeit nicht durch ein vorgegebenes Niveau kontrolliert wird). Dabei be-

schränken wir die Darstellung auf die hier interessierenden Linearen Modelle, ob-

wohl die zugrunde liegenden Prinzipien auch für eine allgemeinere Klasse parame-

trischer Modelle gelten.

5.4.1 Sequentielle Testprozeduren

Ausgangspunkt der Betrachtungen ist wieder ein Datensatz (Y ., X .) und der zuge- 3 3

hörige lineare Modellraum A für den Erwartungsvektor ,U von Y = (Y.). Zusätzlich 3

betrachten wir in A eine aufsteigende Sequenz von R 2 2 linearen Teilräumen

mit streng aufsteigenden Dimensionen

(2) Dim Al < Dim A2 < . . . . . . < Dim AR < Dim A.

Die Modellräume A sind hierbei fest vorgegeben und sollen sequentiell überprüft r

werden, wobei wir die Gültigkeit des umfassendes Modell A voraussetzen. Wir be-

trachten für r = 1, ..., R nun die zugehörigen Nullhypothesen

5.4 Modellsuche 12.8.05 5- 23

5.4 Modellsuche

Im Abschnitt 3.3 haben wir schon gesehen, daß es bereits bei zwei beobachteten

Covariablen zahlreiche Möglichkeiten gibt, den Einfluß dieser Covariablen zu mo

dellieren. Bei mehreren Covariablen wird die Vielfalt der möglichen Modelle ent

sprechend größer, und es erhebt sich die Frage, wie man generell ein optimales

Modell auswählen kann. Je nach Intention der statistischen Analyse wird man ei

nen unterschiedlichen Optimalitätsbegriff zu Grunde legen und folglich gibt es kein

universelles Verfahren für eine Modellsuche. Eine Übersicht der wichtigsten Ver

fahren und ihrer Probleme findet man in der Monographie von A.J. Miller (1990).

Wir wollen hier nur zwei grundsätzlich verschiedene Verfahren kurz besprechen:

konfirmatorische sequentielle Testprozeduren (die ein vorgegebenes Testniveau einhal

ten) und einfache explorative Modell-Suchverfahren (bei denen die Irrtumswahr

scheinlichkeit nicht durch ein vorgegebenes Niveau kontrolliert wird). Dabei be

schränken wir die Darstellung auf die hier interessierenden Linearen Modelle, ob

wohl die zugrunde liegenden Prinzipien auch für eine allgemeinere Klasse parame

trischer Modelle gelten.

5.4.1 Sequentielle Testprozeduren

Ausgangspunkt der Betrachtungen ist wieder ein Datensatz (Y., x.) und der zuge] ]

hörige lineare Modellraum vft für den Erwartungsvektor Jl von Y = (Y.). Zusätzlich ]

betrachten wir in vft eine aufsteigende Sequenz von R > 2 linearen Teilräumen

(1) c c ...... C

mit streng aufsteigenden Dimensionen

(2) Dirn vft1

< Dirn vft2

< ...... < Dirn vftR

< Dirn vft.

Die Modellräume vft sind hierbei fest vorgegeben und sollen sequentiell überprüft r

werden, wobei wir die Gültigkeit des umfassendes Modell vft voraussetzen. Wir be-

trachten für r = 1, ... , R nun die zugehörigen Nullhypothesen

5.4 Modellsuche 12.8.05 5 - 24

die eine aufsteigende Sequenz bilden, d.h. es gilt

Eine typische Anwendung hierfür ist durch eine Zerlegung des Parametervektors

8= (Bl, ..., BR) in R Komponenten (die auch wieder Vektoren sein können) gegeben

mit den Nullhypothesen

(5) H ~ : o e r = . . . = e R = o .

und den zugehörigen Modellräumen

Anwendung: Kl inische Studie

Als einfache Anwendung betrachten wir eine klinische Studie zum Vergleich eines

neuen Medikaments in drei verschiedenen Dosierungen mit einem Placebo. Die Be-

handlungen fassen wir als einen Faktor A mit K= 4 Stufen auf: Placebo (A = l) bzw.

Medikament in geringer (A = 2), mittlerer (A = 3) und hoher (A = 4) Dosierung. Un- A ter Verwendung der Indikatorvariablen Ik = I{A = kl für die vier Behandlungsarme

1% = 1, 2, 3 , 4 läßt sich der Erwartungswert ,L für den durch die Zielvariable Y gemes-

senen Behandlungserfolg bei einer einzelnen Person im vollständigen Modell für

den Faktor A

auch wie folgt umparametrisieren

A A A A A A ,L = Q1 + Q2.(12 +I3 +I4) + Q3.(13 +I4) + Q4.14 mit

8 =8'-8' 4 4 3

bzw.

Von primärem Interesse ist, ob der Behandlungserfolg des neuen Medikaments -

egal in welcher der drei Dosierungen - sich gegenüber Placebo unterscheidet oder

nicht, und die zugehörige Nullhypothese beschreibt das konstante Modell:

5.4 Modellsuche 12.8.05 5- 24

die eine aufsteigende Sequenz bilden, d.h. es gilt

(4) HR- 1 ::::} ......::::} 0 ::::}

Eine typische Anwendung hierfür ist durch eine Zerlegung des Parametervektors

()= (()1' ···'()R) in R Komponenten (die auch wieder Vektoren sein können) gegeben

mit den Nullhypothesen

und den zugehörigen Modellräumen

(6) .At = { X() I () = ... = ()R = 0 }. r r

Anwendung: Klinische Studie

Als einfache Anwendung betrachten wir eine klinische Studie zum Vergleich eines

neuen Medikaments in drei verschiedenen Dosierungen mit einem Placebo. Die Be

handlungen fassen wir als einen Faktor A mit K = 4 Stufen auf: Placebo (A = 1) bzw.

Medikament in geringer (A = 2), mittlerer (A = 3) und hoher (A = 4) Dosierung. Un

ter Verwendung der Indikatorvariablen If = I{A = k} für die vier Behandlungsarme

k = 1,2, 3,4 läßt sich der Erwartungswert f-L für den durch die Zielvariable Y gemes

senen Behandlungserfolg bei einer einzelnen Person im vollständigen Modell für

den Faktor A

auch wie folgt umparametrisieren

81 = 8;,

8; = 81,

82 = 8~ - 8;,

8~ = 81 +82,

mit

84 = 8~ - 8~ bzw.

8 ~ = 81 +82 + 83 + 84.

Von primärem Interesse ist, ob der Behandlungserfolg des neuen Medikaments -

egal in welcher der drei Dosierungen - sich gegenüber Placebo unterscheidet oder

nicht, und die zugehörige Nullhypothese beschreibt das konstante Modell:

5.4 Modellsuche 12.8.05 5 - 25

1 H : 8 = 8 = 8 = O 0 2 3 4

(kein Unterschied des Medikaments gegenüber Placebo).

Nur wenn diese Nullhypothese abgelehnt wird - d.h. Medikament und Placebo ha-

ben eine signifikant unterschiedliche Wirkung gezeigt - will man weiter überprüfen,

ob eine Erhöhung der Dosis (mittel oder hoch) gegenüber der geringen Dosis ebenfalls

einen Einfluß hat oder nicht. Die entsprechende Nullhypothese lautet

2 H : 8 = 8 = 0 (kein Unterschied bei Dosiserhöhung gegenüber geringer Dosis). 0 3 4

Nur wenn auch diese Nullhypothese abgelehnt wird - d.h. eine Dosiserhöhung hat

einen signifikanten Einfluß auf den Behandlungserfolg gezeigt - will man schließ-

lich noch überprüfen, ob die hohe Dosierung einen anderen Einfluß hat als die mitt-

lere Dosis, und die zugehörige Nullhypothese ist

3 H : 8 = O 0 4

(kein Unterschied der hohen gegenüber der mittleren Dosis).

Hier liegen also R = 3 sequentielle Nullhypothesen der Form (5) vor. - Diese Situ-

ation läßt sich auf mehr als 4 Stufen eines Faktors A verallgemeinern. Dies ist aber

nur dann sinnvoll, wenn die zugrunde gelegte Anordnung der Faktorstufen auch

eine praktische Bedeutung hat (wie hier bei den Behandlungsstufen: Placebo, ge-

ringe, mittlere und hohe Dosis).

Für jedes r = 1, ..., R sei jetzt kir) die F-Statistik des F-Tests der Hypothesen für das

Untermodell J& C J& T

(7) H ; : , ~ E J & T- VS. H T : P @ J & ~ , P E & ,

und F(') bezeichne das obere u-Quantil der zugehörigen (zentralen) F-Verteilung. a Wir wollen allerdings nicht einfach alle R F-Tests durchführen, weil hierfür eine

(Bonferroni-)Korrektur des Einzel-Testniveaus u erforderlich wäre, um das globale

Niveau u für die insgesamt R multiplen Tests zu erreichen (vgl. Exkurs MTK Mul-

tiple Tests und Konfidenzbereiche). Da die Nullhypothesen (4) bzw. die zugehörigen

Modellräume (1) sequentiell angeordnet sind, können wir eine sequentiell aufsteigende

oder absteigende Testprozedur anwenden, bei denen keine (Bonferroni-)Korrektur des

Einzel-Testniveaus u notwendig ist.

Bei der aufsteigenden sequentiellen Testprozedur werden die F-Tests aufsteigend für

r = l , 2 ... soweit durchgeführt bis erstmals H; nicht abgelehnt wird, und die Prozedur

entscheidet sich - unter allen möglichen Modellen aus (1) - für dieses zuletzt über-

5.4 Modellsuche 12.8.05 5- 25

(kein Unterschied des Medikaments gegenüber Placebo).

Nur wenn diese Nullhypothese abgelehnt wird - d.h. Medikament und Placebo ha

ben eine signifikant unterschiedliche Wirkung gezeigt - will man weiter überprüfen,

ob eine Erhöhung der Dosis (mittel oder hoch) gegenüber der geringen Dosis ebenfalls

einen Einfluß hat oder nicht. Die entsprechende Nullhypothese lautet

(kein Unterschied bei Dosiserhöhung gegenüber geringer Dosis).

Nur wenn auch diese Nullhypothese abgelehnt wird - d.h. eine Dosiserhöhung hat

einen signifikanten Einfluß auf den Behandlungserfolg gezeigt - will man schließ

lich noch überprüfen, ob die hohe Dosierung einen anderen Einfluß hat als die mitt

lere Dosis, und die zugehörige Nullhypothese ist

(kein Unterschied der hohen gegenüber der mittleren Dosis).

Hier liegen also R = 3 sequentielle Nullhypothesen der Form (5) vor. - Diese Situ

ation läßt sich auf mehr als 4 Stufen eines Faktors A verallgemeinern. Dies ist aber

nur dann sinnvoll, wenn die zugrunde gelegte Anordnung der Faktorstufen auch

eine praktische Bedeutung hat (wie hier bei den Behandlungsstufen: Placebo, ge-

ringe, mittlere und hohe Dosis). D

Für jedes r = 1, ... , R sei jetzt I.r) die F-Statistik des F-Tests der Hypothesen für das

Untermodell .At c.At r

(7) vs.

und F (r) bezeichne das obere a-Quantil der zugehörigen (zentralen) F-Verteilung. Ct

Wir wollen allerdings nicht einfach alle R F-Tests durchführen, weil hierfür eine

(Bonferroni-)Korrektur des Einzel-Testniveaus a erforderlich wäre, um das globale

Niveau a für die insgesamt R multiplen Tests zu erreichen (vgl. Exkurs MTK Mul

tiple Tests und Konfidenzbereiche). Da die Nullhypothesen (4) bzw. die zugehörigen

Modellräume (1) sequentiell angeordnet sind, können wir eine sequentiell aufsteigende

oder absteigende Testprozedur anwenden, bei denen keine (Bonferroni-)Korrektur des

Einzel-Testniveaus a notwendig ist.

Bei der aufsteigenden sequentiellen Testprozedur werden die F-Tests aufsteigend für

r = 1,2 ... soweit durchgeführt bis erstmals H~ nicht abgelehnt wird, und die Prozedur

entscheidet sich - unter allen möglichen Modellen aus (1) - für dieses zuletzt über-

5.4 Modellsuche 12.8.05 5 - 26

prüfte Modell A . Falls alle R F-Tests die Nullhypothese abgelehnt haben, so ent- T

scheiden wir uns für das Modell A= Derjenige Modellindex 1 < r < R+1 T -

für den sich die aufsteigende Prozedur entscheidet, ist daher gegeben durch

~ i n { r l F ( T ) < F ( ' ) } a falls { r lF(T)<Ft)} t0 T R + 1 sonst

Bei dieser Prozedur besteht der Fehler 1. Art darin sich für den Modellindex r zu T

entscheiden, obwohl bereits ein Teilmodell AT mit r < r (und wegen (1) somit auch T

für r = r -1) zutrifft. Das zugehörige Fehlerrisiko 1. Art der aufsteigenden sequentiel- T

len Prozedur ist höchstens ci! (vgl. Exkurs M T K 3).

Im Gegensatz zur aufsteigenden Prozedur werden bei der absteigenden sequentiellen

Testprozedur die F-Tests absteigend für r = R, R- 1 ... soweit durchgeführt bis erstmals

H; abgelehnt wird, und die Prozedur entscheidet sich - unter allen möglichen Model-

len aus (1) - für das zuletzt nicht abgelehnte Modell ATt1. F'alls alle R F-Tests die

Nullhypothese nicht abgelehnt haben, so entscheiden wir uns für das Modell Al.

Derjenige Modellindex 1 < r < R + l für den sich die aufsteigende Prozedur entschei- L -

det, ist daher gegeben durch

1 + ~ a x {r lF(T)>F(')} a falls { r lF(T)>F(')} a t 0 I 1 sonst

Bei dieser Prozedur besteht der Fehler 1. Art darin, sich für den Modellindex r zu L

entscheiden, obwohl bereits das Teilmodell A mit r = r -1 zutrifft. Das zugehö- T L

rige Fehlerrisiko 1. Art der absteigenden sequentiellen Prozedur ist auch höchstens ci!

(vgl. Exkurs M T K 3).

Beide sequentielle Testprozeduren kommen für R > 2 nicht notwendig zum gleichen

Ergebnis. Es gilt aber stets r < r d.h. das bei der absteigenden Prozedur ausge- T - L '

wählte Modell umfaj't das von von der aufsteigenden Prozedur ausgewählte Modell.

Wir wollen uns kurz überlegen, wie es dazu kommen kann, daß r < r gilt. In die- T L

Sem Fall gibt es drei Indizes

q = r < s = r -1 < t = r T L L '

mit den zugehörigen Modellräumen

5.4 Modellsuche 12.8.05 5- 26

prüfte Modell vft . Falls alle R F-Tests die Nullhypothese abgelehnt haben, so entr

scheiden wir uns für das Modell vft = vft R + r Derj enige Modellindex 1 < r i < R + 1

für den sich die aufsteigende Prozedur entscheidet, ist daher gegeben durch

sonst } (8) r = { Min { r I ~r) < F lr) }

i R+1

falls { r I ~r) < F (r) } ;= 0 Q

Bei dieser Prozedur besteht der Fehler 1. Art darin sich für den Modellindex r i zu

entscheiden, obwohl bereits ein Teilmodell vft mit r< r (und wegen (1) somit auch r i

für r = r i-I) zutrifft. Das zugehörige Fehlerrisiko 1. Art der aufsteigenden sequentiel-

len Prozedur ist höchstens a (vgl. Exkurs MTK 3).

Im Gegensatz zur aufsteigenden Prozedur werden bei der absteigenden sequentiellen

Testprozedur die F-Tests absteigend für r = R, R-1 ... soweit durchgeführt bis erstmals

H~ abgelehnt wird, und die Prozedur entscheidet sich - unter allen möglichen Model

len aus (1) - für das zuletzt nicht abgelehnte Modell vftr+ r Falls alle R F-Tests die

Nullhypothese nicht abgelehnt haben, so entscheiden wir uns für das Modell vftr Derjenige Modellindex 1 <TL <R+1 für den sich die aufsteigende Prozedur entschei

det, ist daher gegeben durch

(9) r = { 1 + Max { r I ~r) > F lr) }

1 1

falls { r I ~r) > F lr) } ;= 0

sonst }. Bei dieser Prozedur besteht der Fehler 1. Art darin, sich für den Modellindex r J- zu

entscheiden, obwohl bereits das Teilmodell vft mit r = r -1 zutrifft. Das zugehö-r J-

rige Fehlerrisiko 1. Art der absteigenden sequentiellen Prozedur ist auch höchstens a

(vgl. Exkurs MTK 3).

Beide sequentielle Testprozeduren kommen für R> 2 nicht notwendig zum gleichen

Ergebnis. Es gilt aber stets r i < r 1 ' d.h. das bei der absteigenden Prozedur ausge

wählte Modell umfaßt das von von der aufsteigenden Prozedur ausgewählte Modell.

Wir wollen uns kurz überlegen, wie es dazu kommen kann, daß r i < r 1 gilt. In die

sem Fall gibt es drei Indizes

q= r < i

s = r -1 < 1

mit den zugehörigen Modellräumen

vft c q

vft s c

t=r 1 '

vftt '

5.4 Modellsuche 12.8.05 5 - 27

so daß der F-Test das „innereu Modell .,&E ablehnt, aber die beiden „äußerenu Modelle S

.,&E und .,&E nicht ablehnt. Zur Klärung dieser scheinbar paradoxen Situtation un- 4 t

tersuchen wir den F-Test der Hypothesen (7) genauer. Bezeichnet n = F G ( 4 den

Zählerfreiheitsgrad und mr = FG(+) - n den Nennerfreiheitsgrad beim F-Tests, so

läßt sich das Ablehnungskriterium des Tests äquivalent umformulieren:

F(T) > F (4 - a U Dev(.,&E)>c r r : = e 2 ( n + m r F mr,n;a 1.

Für obige Modellräume ergibt sich einerseits

Andererseits ist m Fm streng wachsend in m (vgl. Exkurs V 3.1 Die zentrale F- 1 1

Verteilung (19)) und somit gilt für 8 > 0 auch

C t < C < C . S 4

Bei der folgenden möglichen Anordnung

würde dann obige Situation eintreten: der F-Test lehnt das Modell .,&E ab, aber S

nicht die Modelle .,&E und .,&Et. Folglich können sich die auf- und absteigende Pro- 4

zedur für unterschiedliche Modellräume .,&E und .,&E entscheiden. Die Ursache 4 t

hierfür kann ein Fehler 2. Art (wegen zu geringer Schärfe) bei der aufsteigenden

oder ein Fehler 1. Art bei der absteigenden Prozedur (im jeweils zuletzt durchgeführ-

ten F-Test) sein.

Ob einer der beiden sequentiellen Testprozeduren sinnvoller ist als die andere

hängt von der konkreten Modell-Sequenz (1) und der dabei verfolgten Zielsetzung

ab. Zum Beispiel ist bei der obigen klinischen Studie nur die aufsteigende Prozedur

von Interesse. Generell wird man die aufsteigende Prozedur immer dann wählen,

wenn man ausgehend vom (z.B. konstanten) Modell .,&El schrittweise nur signifikante

Modellerweiterungen vornehmen will. Umgekehrt wird man die absteigende Proze-

dur verwenden, wenn es darum geht, ein bereits etabliertes Modell .,&E schrittweise

zu vereinfachen.

Die Anwendung der sequentiellen Prozeduren hat den Vorteil, daß man mehrere

Modelle überprüfen kann und die Gesamtprozedur das Testniveau der einzelnen

F-Tests nicht überschreitet. Allerdings müssen hierfür die Modellräume (1) vor der

Datenanalyse spezifiziert werden und das umfassende Modell .,&E muß korrekt sein.

5.4 Modellsuche 12.8.05 5- 27

so daß der F-Test das "innere" Modell vft ablehnt, aber die beiden "äußeren" Modelle s

vftq

und vftt

nicht ablehnt. Zur Klärung dieser scheinbar paradoxen Situtation un-

tersuchen wir den F-Test der Hypothesen (7) genauer. Bezeichnet n = FG( v«) den

Zählerfreiheitsgrad und m = FG( vft ) - n den Nennerfreiheitsgrad beim F-Tests, so r r

läßt sich das Ablehnungskriterium des Tests äquivalent umformulieren:

~r) > F(r) - Ct

Für obige Modellräume ergibt sich einerseits

Dev(vft ). q

Andererseits ist m F streng wachsend in m (vgl. Exkurs V 3.1 Die zentrale F-m,n,Ct

verteilung (19)) und somit gilt für a> 0 auch

< c s <

Bei der folgenden möglichen Anordnung

< < c s <

c . q

Dev(vft) < c q

würde dann obige Situation eintreten: der F-Test lehnt das Modell vft ab, aber s

nicht die Modelle vftq

und vft( Folglich können sich die auf- und absteigende Pro-

zedur für unterschiedliche Modellräume vftq

und vftt

entscheiden. Die Ursache

hierfür kann ein Fehler 2. Art (wegen zu geringer Schärfe) bei der aufsteigenden

oder ein Fehler 1. Art bei der absteigenden Prozedur (im jeweils zuletzt durchgeführ

ten F-Test) sein.

Ob einer der beiden sequentiellen Testprozeduren sinnvoller ist als die andere

hängt von der konkreten Modell-Sequenz (1) und der dabei verfolgten Zielsetzung

ab. Zum Beispiel ist bei der obigen klinischen Studie nur die aufsteigende Prozedur

von Interesse. Generell wird man die aufsteigende Prozedur immer dann wählen,

wenn man ausgehend vom (z.B. konstanten) Modell vft1

schrittweise nur signifikante

Modellerweiterungen vornehmen will. Umgekehrt wird man die absteigende Proze

dur verwenden, wenn es darum geht, ein bereits etabliertes Modell vft schrittweise

zu vereinfachen.

Die Anwendung der sequentiellen Prozeduren hat den Vorteil, daß man mehrere

Modelle überprüfen kann und die Gesamtprozedur das Testniveau der einzelnen

F-Tests nicht überschreitet. Allerdings müssen hierfür die Modellräume (1) vor der

Datenanalyse spezifiziert werden und das umfassende Modell vft muß korrekt sein.

5.4 Modellsuche 12.8.05 5 - 28

5.4.2 Modell-Suchverfahren

Wir wollen hier nur zwei typische explorative Verfahren zur Modellsuche vorstel-

len, die allerdings nicht notwendig zum gleichen Modell führen. In der Praxis wird

das gesuchte Modell meist durch eine Reihe von interessierenden Modell-Variablen

beschrieben die aus den beobachteten Covariablen auf verschiedene Weise gebildet

werden können (vgl. Kapitel 3). Eine solche Modell-Variable kann einerseits aus ei-

ner einzelnen formalen Covariablen bestehen (z.B. einer ggf. transformierten be-

obachteten quantitativen Covariablen z) oder andererseits mehreren formalen Covari-

ablen entsprechen (z.B. den Indikatorvariablen eines beobachteten Faktors mit mehr 2 als 2 Stufen, oder aus verschiedenen Potenzen z, z , ... einer quantitativen Covari-

ablen).

Gesucht ist dann ein möglichst einfaches (d.h. niedrig-dimensionales) Teilmodell

4 welches nur noch diejenigen beobachteten Covariablen enthält, die einen „signi-

fikanten" Einfluß auf den Erwartungswert der Beobachtung Y haben. Die Suche

nach einem geeigneten Modell N erfolgt typischerweise durch ein Mehr-Schritt-

Suchverfahren, wobei man prinzipiell zwei verschiedene Methoden verwendet kann:

die Vorwärts- und die Rückwärts-Suche.

Die Vorwärtssuche startet mit einem möglichst einfachen Modell Ao (z. B. dem

konstanten Modell) und konstruiert durch schrittweise Hinzunahme weiterer Cova-

riablen eine aufsteigende Modellfolge

die beim einem „optimalenu Modell N e n d e t . Die Rückwärtssuche startet demgege-

nüber mit einem möglichst umfangreichen (und zutreffenden) Modell Ao und kon-

struiert durch schrittweise Herausnahme von Covariablen eine absteigende Modell-

folge

die wieder beim einem „optimalenu Modell Nende t , was aber im allgemeinen nicht

mit dem aus einer Vorwärtssuche übereinstimmt.

Die Frage, ob bei diesen Verfahren ein weiterer Schritt erforderlich ist oder nicht

5.4 Modellsuche 12.8.05 5- 28

5.4.2 Modell-Such verfahren

Wir wollen hier nur zwei typische explorative Verfahren zur Modellsuche vorstel

len, die allerdings nicht notwendig zum gleichen Modell führen. In der Praxis wird

das gesuchte Modell meist durch eine Reihe von interessierenden Modell-Variablen

beschrieben die aus den beobachteten Covariablen auf verschiedene Weise gebildet

werden können (vgl. Kapitel 3). Eine solche Modell-Variable kann einerseits aus ei

ner einzelnen formalen Covariablen bestehen (z.B. einer ggf. transformierten be

obachteten quantitativen Covariablen z) oder andererseits mehreren formalen Covari

ablen entsprechen (z.B. den Indikatorvariablen eines beobachteten Faktors mit mehr

als 2 Stufen, oder aus verschiedenen Potenzen z, z2, ... einer quantitativen Covari

ablen).

Gesucht ist dann ein möglichst einfaches (d.h. niedrig-dimensionales) Teilmodell

JV;" welches nur noch diejenigen beobachteten Covariablen enthält, die einen "signi

fikanten" Einfluß auf den Erwartungswert der Beobachtung Y haben. Die Suche

nach einem geeigneten Modell JV erfolgt typischerweise durch ein Mehr-Schritt

Suchverfahren, wobei man prinzipiell zwei verschiedene Methoden verwendet kann:

die Vorwärts- und die Rückwärts-Suche.

Die Vorwärtssuche startet mit einem möglichst einfachen Modell .ACo (z. B. dem

konstanten Modell) und konstruiert durch schrittweise Hinzunahme weiterer Cova

riablen eine aufsteigende Modellfolge

die beim einem "optimalen" Modell JV endet. Die Rückwärtssuche startet demgege

nüber mit einem möglichst umfangreichen (und zutreffenden) Modell .ACo und kon

struiert durch schrittweise Herausnahme von Covariablen eine absteigende Modell

folge

die wieder beim einem "optimalen" Modell JV endet, was aber im allgemeinen nicht

mit dem aus einer Vorwärtssuche übereinstimmt.

Die Frage, ob bei diesen Verfahren ein weiterer Schritt erforderlich ist oder nicht

5.4 Modellsuche 12.8.05 5 - 29

(d. h. man hat das Modell M bereits erreicht) wird durch den F-Test entschieden mit

den zugehörigen Modellräumen A C Aktl, d. h. man setzt das umfassende Mo- r dell Aktl voraus und testet die Hypothesen

Bei den Such-Prozeduren wird dann der P-Wert des Tests zur Beurteilung herange-

zogen. Je kleiner dieser P-Wert ist, desto schlechter ist das Modell 4 im Vergleich

zu Aktl. Die Anwendung eines solchen Tests bzw. die Berechnung des zugehörigen

P-Werts setzt allerdings voraus, daß die Hypothesen unabhängig von dem zufälligen

Beobachtungsvektor Y gewählt werden. Dies ist bei den folgenden Prozeduren nicht

der Fall, weil sich dort die jeweiligen Modellräume 4 C A (und damit die Hy- k t l

pothesen) eines Schritts nach bestimmten Kriterien aus den Beobachtungsdaten Y

ergeben. Die Entscheidung zwischen beiden Modellen ist hier deshalb nicht als ein

formaler Test (zum vorgegebenen Niveau) sondern als ein heuristisches begründetes

Auswahlkriterium zu verstehen. Deshalb wird hier nicht notwendig das Standard-

niveau a = 5 % , sondern auch höhere Werte (z.B. 10%) verwendet, um die „Test-

schärfe" zu erhöhen. Obwohl in jedem Schritt formal ein F-Test durchgeführt wird

verzichtet man auf eine (Bonferroni-)Korrektur für multiples Testen, weil es sich

insgesamt nur um eine explorative Modellsuche handelt. Man kann allerdings die

bei der Modellsuche gefundene Modellsequenz (VS) bzw. (RS) an einem anderen

Datensatz unter Verwendung der sequentiellen Test-Prozeduren aus 5.4.1 überprüfen.

Wenn beim vorliegende Datensatz (Y., X .) mit j = 1, ..., J die Anzahl J hinreichend 3 3

groß ist, so kann man den Datensatz auch zufällig in zwei Teildatensätze zerlegen,

d.h. man bestimmt eine disjunkte Zerlegung J U J ={I, ..., J ) . Mit dem durch J1 ge- 1 2

geben ersten Teildatensatz kann man dann eine explorative Modellsuche durchfüh-

ren und die dabei erhaltene Modellsequenz a m zweiten - durch J2 gegebenen - Teil-

datensatz mit einer sequentiellen Testprozedur überprüfen.

5.4 Modellsuche 12.8.05 5- 29

( d. h. man hat das Modell J'V bereits erreicht) wird durch den F-Test entschieden mit

den zugehörigen Modellräumen vftr

C vftk+ l' d. h. man setzt das umfassende Mo

dell vftk+ 1 voraus und testet die Hypothesen

gegen

Bei den Such-Prozeduren wird dann der P-Wert des Tests zur Beurteilung herange

zogen. Je kleiner dieser P-Wert ist, desto schlechter ist das Modell vftk

im Vergleich

zu vftk+ r Die Anwendung eines solchen Tests bzw. die Berechnung des zugehörigen

P-Werts setzt allerdings voraus, daß die Hypothesen unabhängig von dem zufälligen

Beobachtungsvektor Y gewählt werden. Dies ist bei den folgenden Prozeduren nicht

der Fall, weil sich dort die jeweiligen Modellräume vftk C vftk+ 1 (und damit die Hy

pothesen) eines Schritts nach bestimmten Kriterien aus den Beobachtungsdaten Y

ergeben. Die Entscheidung zwischen beiden Modellen ist hier deshalb nicht als ein

formaler Test (zum vorgegebenen Niveau) sondern als ein heuristisches begründetes

Auswahlkriterium zu verstehen. Deshalb wird hier nicht notwendig das Standard

niveau a = 5%, sondern auch höhere Werte (z.B. 10%) verwendet, um die "Test

schärfe" zu erhöhen. Obwohl in jedem Schritt formal ein F-Test durchgeführt wird

verzichtet man auf eine (Bonferroni-)Korrektur für multiples Testen, weil es sich

insgesamt nur um eine explorative Modellsuche handelt. Man kann allerdings die

bei der Modellsuche gefundene Modellsequenz (VS) bzw. (RS) an einem anderen

Datensatz unter Verwendung der sequentiellen Test-Prozeduren aus 5.4.1 überprüfen.

Wenn beim vorliegende Datensatz (Y., x.) mit j = 1, ... , J die Anzahl J hinreichend ] ]

groß ist, so kann man den Datensatz auch zufällig in zwei Teildatensätze zerlegen,

d.h. man bestimmt eine disjunkte Zerlegung J1 UJ2 = {I, ... ,J}. Mit dem durch J1 ge

geben ersten Teildatensatz kann man dann eine explorative Modellsuche durchfüh

ren und die dabei erhaltene Modellsequenz am zweiten - durch J2

gegebenen - Teil

datensatz mit einer sequentiellen Testprozedur überprüfen.

5.4 Modellsuche 12.8.05 5 - 30

5.4.3 Das Vorwärts-Suchverfahren

Beim Vorwärts-Suchverfahren wird ausgehend von einem minimalen Basis-Modell

Ao , wie z.B. dem konstanten Modell Ao = AJ, eine aufsteigende Folge von Modellen

konstruiert, die beim gesuchten Modell N e n d e t :

Vor jedem Vorwärtsschritt „A' H Aktl " für k 2 1 sind zunächst alle für eine Er-

weiterung des aktuellen Modells Ak noch zur Verfügung stehenden potentiellen

Modellvariablen aufzulisten, und zwar sowohl bisher nicht im Modell enthaltene

beobachtete Covariablen ( g f . inclusive in Betracht zu ziehender Transformationen

bei quantitativen Covariablen) als auch mögliche neue Wechselwirkungen zwischen

bereits aufgenommenen Variablen. Unter allen möglichen Erweiterungen des Mo-

dells A' um eine neue Covariable wird nun diejenige Erweiterung A ausge- 'tl

wählt, die den gröflten Fortschritt gegenüber dem aktuellen Modell 4 erzielt, d. h.

wo der P-Wert des zugehörigen F-Tests von A' a m geringsten ist. Das Verfahren

wird abgebrochen, wenn es keine „signifikanteu Erweiterung A mehr gibt, die 'tl

nicht bereits das vollständige Modell ist. Die Signifikanz wird hierbei durch ein for-

mal vorgegebenes Niveau ci! definiert.

Der Vorwärts-Schritt „Ak H Aktl " für AL t A wird in drei Teilschritten aus-

geführt (wobei mit Test immer der F-Test gemeint ist):

(VSI) Betrachte alle Obermodelle Akr > A', die sich durch Hinzufügen einer

neuen in Frage kommenden Covariablen (die nicht schon im aktuellen Mo-

dells Ak enthalten ist) ergeben, und nicht bereits das vollständige Modell

sind. Wenn es kein solches Obermodell mehr gibt, so endet das Verfahren

mit (VS4). Andernfalls bestimmt man den P-Wert P des Tests von AL un- r

ter Ak , dd.. von

: rcAk gegen H Ir : p@ Ak für alle diese Obermodelle..

5.4 Modellsuche 12.8.05 5- 30

5.4.3 Das V orwärts-Suchverfahren

Beim Vorwärts-Suchverfahren wird ausgehend von einem minimalen Basis-Modell

.ACo' wie z.B. dem konstanten Modell .ACo = ~ J' eine aufsteigende Folge von Modellen

konstruiert, die beim gesuchten Modell JV endet:

Vor jedem Vorwärts schritt ".ACk f-----t .ACk+ 1" für k > 1 sind zunächst alle für eine Er

weiterung des aktuellen Modells .ACk noch zur Verfügung stehenden potentiellen

Modellvariablen aufzulisten, und zwar sowohl bisher nicht im Modell enthaltene

beobachtete Covariablen (ggf. inclusive in Betracht zu ziehender Transformationen

bei quantitativen Covariablen) als auch mögliche neue Wechselwirkungen zwischen

bereits aufgenommenen Variablen. Unter allen möglichen Erweiterungen des Mo

dells .ACk um eine neue Covariable wird nun diejenige Erweiterung .ACk+ 1 ausge

wählt, die den größten Fortschritt gegenüber dem aktuellen Modell .ACk erzielt, d. h.

wo der P-Wert des zugehörigen F-Tests von .ACk am geringsten ist. Das Verfahren

wird abgebrochen, wenn es keine "signifikante" Erweiterung .ACk+ 1 mehr gibt, die

nicht bereits das vollständige Modell ist. Die Signifikanz wird hierbei durch ein for

mal vorgegebenes Niveau a definiert.

Der Vorwärts-Schritt ".ACk f-----t .ACk+ 1" für .ACk :;= .AC wird in drei Teilschritten aus

geführt (wobei mit Test immer der F-Test gemeint ist):

(VS1) Betrachte alle übermodelle .ACkr ~.ACk' die sich durch Hinzufügen ezner

neuen in Frage kommenden Covariablen (die nicht schon im aktuellen Mo

dells .ACk enthalten ist) ergeben, und nicht bereits das vollständige Modell

sind. Wenn es kein solches übermodell mehr gibt, so endet das Verfahren

mit (VS4). Andernfalls bestimmt man den P-Wert Pr des Tests von .ACk un

ter .ACk r ' d.h. von

HOr : Jl E.ACk gegen

für alle diese übermodelle ..

5.4 Modellsuche 12.8.05 5- 31

(VS2) Betrachte dasjenige (bzw. eines, falls es mehrere gibt) Modell Akt aus

(VSI) mit minimalem P-Wert, d.h.

Pt = Min P r

und führe den Test von H zum Niveau a durch. 0 t

(VS3) Falls der Test aus (VS2) das aktuelle Modell Ak ablehnt, so wird das

Obermodell Akt das neue aktuelle Modell, d.h. man setzt

&k+1:= &kt

und der nächste Vorwärtsschritt (mit A statt A j beginnt. k t l

Falls der Test das aktuelle Modell Ak nicht ablehnt, endet das Verfahren

mit (VS4).

(VS4) Das aktuelle Modell ist das gesuchte Modell, d.h. man setzt

M:= AL.

Da die F-Tests in (VS2) extrem konservativ sein können - weil die Gültigkeit des

umfassenden Modells Ak nicht sichergestellt ist und somit die Varianz o2 über- r

schätzt wird (vgl. 4.3) - sollte man hier ein nicht zu kleines Niveau a wählen, z.B.

a 2 10%.

5.4.4 Das Rückwärts-Suchverfahren

Dieses Verfahren setzen die Gültigkeit eines umfassenden Obermodells A voraus.

Wenn keine speziellen Vorinformationen vorliegen (z.B. die vorangegangenen Ana-

lysen oder Literaturstudien), so wird man in der Regel alle beobachteten Covariablen

(ggf. geeignet transformiert) zusammen mit den interessierenden Wechselwirkun-

gen als formale Covariable in das Modell A aufnehmen. Da wir das Modell A im

folgenden als korrekt voraussetzen, sollte man seine Anpassung überprüfen (z.B.

durch einen Anpassungstest oder eine Re~iduenanal~se) , sofern es nicht bereits aus

theoretischen Erwägungen korrekt sein muß.

Beim Rückwärts-Suchverfahren wird ausgehend vom Modell A eine absteigende

Folge von Modellen konstruiert, die beim gesuchten Modell Mende t :

Der Rückwärts-Schritt "AL H jlCtl " für k 2 1 basiert hierbei darauf, daß man

5.4 Modellsuche 12.8.05 5- 31

(VS2) Betrachte dasjenige (bzw. emes, falls es mehrere gibt) Modell vftk taus

(VS1) mit minimalem P-Wert, d.h.

Pt = Min P r r

und führe den Test von HOt zum Niveau a durch.

(VS3) Falls der Test aus (VS2) das aktuelle Modell vftk

ablehnt, so wird das

übermodell vftk

t das neue aktuelle Modell, d.h. man setzt

vftk+1 := vftkt und der nächste Vorwärtsschritt (mit vft

k+

1 statt vft

k) beginnt.

Falls der Test das aktuelle Modell vftk

nicht ablehnt) endet das Verfahren

mit (VS4).

(VS4) Das aktuelle Modell ist das gesuchte Modell, d.h. man setzt

J'II":= vftk

.

Da die F-Tests in (VS2) extrem konservativ sein können - weil die Gültigkeit des

umfassenden Modells vftkr

nicht sichergestellt ist und somit die Varianz 0-2 über

schätzt wird (vgl. 4.3) - sollte man hier ein nicht zu kleines Niveau a wählen, z.B.

a>lO%.

5.4.4 Das Rückwärts-Suchverfahren

Dieses Verfahren setzen die Gültigkeit eines umfassenden übermodells vft voraus.

Wenn keine speziellen Vorinformationen vorliegen (z.B. die vorangegangenen Ana

lysen oder Literaturstudien), so wird man in der Regel alle beobachteten Covariablen

(ggf. geeignet transformiert) zusammen mit den interessierenden Wechselwirkun

gen als formale Covariable in das Modell vft aufnehmen. Da wir das Modell vft im

folgenden als korrekt voraussetzen, sollte man seine Anpassung überprüfen (z.B.

durch einen Anpassungstest oder eine Residuenanalyse), sofern es nicht bereits aus

theoretischen Erwägungen korrekt sein muß.

Beim Rückwärts-Suchverfahren wird ausgehend vom Modell vft eine absteigende

Folge von Modellen konstruiert, die beim gesuchten Modell J'II" endet:

Der Rückwärts-Schritt "vftk

1----+ vftk+

1" für k > 1 basiert hierbei darauf, daß man

5.4 Modellsuche 12.8.05 5 - 32

diejenige Modellvariable des aktuellen Modells 4 ausfindig, die den geringsten

Einfluß hat und diese aus dem aktuellen Modell entfernt, wenn der zugehörige F-

Test zum Niveau ci! dies erlaubt. Das Verfahren endet, wenn sich keine Modell-Vari-

able auf diese Weise aus dem aktuellen Modell entfernen läßt.

Der Rückwärts-Schritt ,,% H Aktl " wird in drei Teilschritten ausgeführt (wobei

mit Test immer der F-Test gemeint ist):

(RSI) Betrachte alle Teilmodelle Akr C%, die sich durch Elimination einer

Modell-Variablen des aktuellen Modells 4 ergeben, und bestimme den P-

Wert P der Beobachtung für den Test von unter A', d.h. von r

pcAkr gegen H : ~ @ A k r , ~ c A k . r

(RS2) Betrachte dasjenige Modell Akt aus (RSI) mit maximalem P-Wert, d.h.

Pt = Max P r

und führe den Test von H zum Niveau ci! durch. 0 t

(RS3) Falls sich der Test aus (RS2) sich für das Modell Akt entscheidet, so wird

dieses das neue aktuelle Modell, d.h. man setzt-

und der nächste Rückwärtsschritt (mit A statt A') beginnt. 'tl

Falls der Test das Modell Akt ablehnt, wird das Verfahren abgebrochen und

das aktuelle Modell ist das gesuchte Modell, d.h. man setzt

5.4.5 Modifizierte Suchverfahren

Bei den Suchverfahren beschränkt man sich oft auf spezielle Modellklassen, die nur

gut interpretierbare Modelle enthalten, wie z.B. die hierachischen Modelle. Hierarchi-

sche Modelle sind dadurch charakterisiert, daß sie mit einer Wechselwirkung zweier

Variablen auch stets die beteiligten Variablen selbst enthalten. Bei einer Beschrän-

kung auf eine spezielle Modellklasse, werden dann im Schritt (RSI) bzw. (VSI) nur

Modelle Ak aus dieser Klasse zugelassen. r

5.4 Modellsuche 12.8.05 5- 32

diejenige Modellvariable des aktuellen Modells vftk ausfindig, die den geringsten

Einfluß hat und diese aus dem aktuellen Modell entfernt) wenn der zugehörige F

Test zum Niveau a dies erlaubt. Das Verfahren endet, wenn sich keine Modell-Vari

able auf diese Weise aus dem aktuellen Modell entfernen läßt.

Der Rückwärts-Schritt "vftk f-----t vftk+ 1" wird in drei Teilschritten ausgeführt (wobei

mit Test immer der F-Test gemeint ist):

(RS1) Betrachte alle Teilmodelle vftk

r C vftk

, die sich durch Elimination ezner

Modell-Variablen des aktuellen Modells vftk

ergeben, und bestimme den P

Wert Pr der Beobachtung für den Test von vftkr unter vftk, d.h. von

gegen

(RS2) Betrachte dasjenige Modell vftkt aus (RS1) mit maximalem P-Wert, d.h.

Pt = MaxP r r

und führe den Test von HOt zum Niveau a durch.

(RS3) Falls sich der Test aus (RS2) sich für das Modell vftk

t entscheidet, so wird

dieses das neue aktuelle Modell, d.h. man setzt-

und der nächste Rückwärtsschritt (mit vftk+

1 statt vft

k) beginnt.

Falls der Test das Modell vftk t ablehnt) wird das Verfahren abgebrochen und

das aktuelle Modell ist das gesuchte Modell, d.h. man setzt

5.4.5 Modifizierte Suchverfahren

Bei den Suchverfahren beschränkt man sich oft auf spezielle Modellklassen, die nur

gut interpretierbare Modelle enthalten, wie z.B. die hierachischen Modelle. Hierarchi

sche Modelle sind dadurch charakterisiert, daß sie mit einer Wechselwirkung zweier

Variablen auch stets die beteiligten Variablen selbst enthalten. Bei einer Beschrän

kung auf eine spezielle Modellklasse, werden dann im Schritt (RS1) bzw. (VS1) nur

Modelle vftk

r aus dieser Klasse zugelassen.

5.4 Modellsuche 12.8.05 5 - 33

Das Rück- und Vorwärts-Suchverfahren werden nicht nur in Reinkultur verwen-

det, sondern auch miteinander kombiniert. So kann man z.B. bei der Rückwärts-Su-

che a m Ende (oder sogar nach jedem Teilschritt) erneut mit einem Vorwärts-Such-

schritt überprüfen, ob man nicht eine bereits eliminierte Variable wieder hinzufü-

gen sollte. Entsprechend kann man bei der Vorwärts-Suche auch bereits aufgenom-

mene Variablen wieder durch einen Rückwärts-Schritt eliminieren. Solche ge-

mischte Prozeduren sind insbesondere dann empfehlenswert, wenn die einzelnen

Variablen untereinander stärkere Zusammenhänge (Korrelationen) aufweisen. In

jedem Fall sollte man die Anpassung für das endgültige Modell N n o c h einmal er-

neut überprüfen, z.B. mit einer Residuenanalyse.

Die Anwendung formaler Suchprozeduren ist nicht unumstritten (vgl. auch Miller

1990). So kann es aus inhaltlichen oder anderen Gründen z.B für Prognosezwecke

vorteilhafter sein, Variablen ins Modell Naufzunehmen, die sich bei den Suchver-

fahren nicht als „signifikantu erweisen (vielleicht wegen einer zu geringen „Schärfeu

des Such-Verfahrens). Wie bereits oben erwähnt, hängt das ausgewählte Modell N von den Beobachtungsdaten Y ab und ist streng genommen ein zufälliges Modell

N= 4 Y ) . Deshalb kann man auf dieses Modell N a u c h keine weitere statisti-

schen Verfahren (wie z.B. Tests oder Konstruktion von Konfidenzbereichen) an-

wenden, die nur für fest vorgebene (d.h. von Y unabhängige) Modelle gelten.

5.4 Modellsuche 12.8.05 5- 33

Das Rück- und Vorwärts-Suchverfahren werden nicht nur in Reinkultur verwen

det, sondern auch miteinander kombiniert. So kann man z.B. bei der Rückwärts-Su

che am Ende (oder sogar nach jedem Teilschritt) erneut mit einem Vorwärts-Such

schritt überprüfen, ob man nicht eine bereits eliminierte Variable wieder hinzufü

gen sollte. Entsprechend kann man bei der Vorwärts-Suche auch bereits aufgenom

mene Variablen wieder durch einen Rückwärts-Schritt eliminieren. Solche ge

mischte Prozeduren sind insbesondere dann empfehlenswert, wenn die einzelnen

Variablen untereinander stärkere Zusammenhänge (Korrelationen) aufweisen. In

jedem Fall sollte man die Anpassung für das endgültige Modell J'V noch einmal er

neut überprüfen, z.B. mit einer Residuenanalyse.

Die Anwendung formaler Suchprozeduren ist nicht unumstritten (vgl. auch Miller

1990). So kann es aus inhaltlichen oder anderen Gründen z.B für Prognosezwecke

vorteilhafter sein, Variablen ins Modell J'Vaufzunehmen, die sich bei den Suchver

fahren nicht als "signifikant" erweisen (vielleicht wegen einer zu geringen "Schärfe"

des Such-Verfahrens). Wie bereits oben erwähnt, hängt das ausgewählte Modell J'V

von den Beobachtungsdaten Y ab und ist streng genommen ein zufälliges Modell

J'V = JV(Y). Deshalb kann man auf dieses Modell J'Vauch keine weitere statisti

schen Verfahren (wie z.B. Tests oder Konstruktion von Konfidenzbereichen) an

wenden, die nur für fest vorgebene (d.h. von Y unabhängige) Modelle gelten.

6. Asymptotische Resultate im Gauß-Markov-Modell 31.5.11 6-1

6. Asymptotische Resultate im Gauß-Markov-Modell

Tests und Konfidenzbereiche haben wir bisher nur für normalverteilte Beobachtun

gen konstruiert, d.h. nur unter der Verteilungsannahme (NVY) handelt es sich um

exakte Tests und Konfidenzbereiche. Da man die Normalverteilungsannahme in der

Praxis nicht immer überprüfen kann oder will, stellt sich die Frage, inwieweit diese

Methoden zumindest approximativ gültig sind, wenn keine Normalverteilung vo

rausgesetzt wird, aber dafür die Anzahl J der Beobachtungen "hinreichend groß" ist.

Formal betrachten wir hierzu eine Asymptotik mit wachsender Anzahl J ---+ 00

unabhängiger Beobachtungen Y1, ... , Y J' wobei wir an die Folge der zentrierten Vari

ablen z. = Y. - f-L. noch eine Bedingung stellen werden. Bei normal verteilten Be-J J J

obachtungen ist Z. '""'"' N(O, CJ2) und die Z. sind sogar identisch verteilt. Im allgemeinen J J

muß das aber nicht der Fall sein und wir werden hier nur fordern, daß die Folge

(Z1 gleichgradig integrierbar ist. Für die asymptotischen Resultate benötigen wir J

au 'ßerdem noch eine Bedingung an die Covariablen-Folge (x .), die wir erst später J

formulieren.

Für normalverteilte Beobachtungen ist der Vektor Y = (Y1' ... , Y

J) multivariat nor

malverteilt und hieraus ergab sich die Normalverteilung der Parameter-Schätzung ()

und die (skalierte) x2-Verteilung der Schätzung 52, auf denen die Tests und Konfi

denzbereiche basierten. Eine asymptotische Verteilungsaussage über Y ist aber für

J ---+ 00 nicht möglich, weil die Dimension von Y mit J anwächst. Demgegenüber ha

ben die Schätzer feste Dimensionen und wir werden zeigen, daß () asymptotisch nor

malverteilt und 52 eine konsistente Schätzung für CJ2 ist. Mit diesen Ergebnissen läßt

sich das asmptotische Verhalten der t- und F-Tests sowie der Konfidenzbereiche

untersuchen. Es wird sich zeigen, daß die Tests und Konfidenzbereiche ihr Niveau

asymptotisch einhalten. In der Praxis bedeutet dies, daß bei nicht zu geringem Um

fang J diese Tests und Konfidenzbereiche auch dann noch approximativ gültig sind,

wenn die Beobachtungen nicht normalverteilt sind.

Es sei darauf hingewiesen, daß die zentralen Ergebnisse dieses Kapitels weitgehend

in allgemeineren asymptotischen Resultaten für das Generalisierte Lineare Modell

als Spezialfall enthalten sind. Sie werden hier deshalb separat behandelt, weil sie

sich mit einfacheren Methoden vollständig herleiten lassen und bereits emen we

sentlichen Einblick in typische asymptotischen Schlußweisen liefern.

6. Asymptotische Resultate im Gauß-Markov-Modell 31.5.11 6-1

6. Asymptotische Resultate im Gauß-Markov-Modell

Tests und Konfidenzbereiche haben wir bisher nur für normalverteilte Beobachtun

gen konstruiert, d.h. nur unter der Verteilungsannahme (NVY) handelt es sich um

exakte Tests und Konfidenzbereiche. Da man die Normalverteilungsannahme in der

Praxis nicht immer überprüfen kann oder will, stellt sich die Frage, inwieweit diese

Methoden zumindest approximativ gültig sind, wenn keine Normalverteilung vo

rausgesetzt wird, aber dafür die Anzahl J der Beobachtungen "hinreichend groß" ist.

Formal betrachten wir hierzu eine Asymptotik mit wachsender Anzahl J ---+ 00

unabhängiger Beobachtungen Y1, ... , Y J' wobei wir an die Folge der zentrierten Vari

ablen z. = Y. - f-L. noch eine Bedingung stellen werden. Bei normal verteilten Be-J J J

obachtungen ist Z. '""'"' N(O, CJ2) und die Z. sind sogar identisch verteilt. Im allgemeinen J J

muß das aber nicht der Fall sein und wir werden hier nur fordern, daß die Folge

(Z1 gleichgradig integrierbar ist. Für die asymptotischen Resultate benötigen wir J

au 'ßerdem noch eine Bedingung an die Covariablen-Folge (x .), die wir erst später J

formulieren.

Für normalverteilte Beobachtungen ist der Vektor Y = (Y1' ... , Y

J) multivariat nor

malverteilt und hieraus ergab sich die Normalverteilung der Parameter-Schätzung ()

und die (skalierte) x2-Verteilung der Schätzung 52, auf denen die Tests und Konfi

denzbereiche basierten. Eine asymptotische Verteilungsaussage über Y ist aber für

J ---+ 00 nicht möglich, weil die Dimension von Y mit J anwächst. Demgegenüber ha

ben die Schätzer feste Dimensionen und wir werden zeigen, daß () asymptotisch nor

malverteilt und 52 eine konsistente Schätzung für CJ2 ist. Mit diesen Ergebnissen läßt

sich das asmptotische Verhalten der t- und F-Tests sowie der Konfidenzbereiche

untersuchen. Es wird sich zeigen, daß die Tests und Konfidenzbereiche ihr Niveau

asymptotisch einhalten. In der Praxis bedeutet dies, daß bei nicht zu geringem Um

fang J diese Tests und Konfidenzbereiche auch dann noch approximativ gültig sind,

wenn die Beobachtungen nicht normalverteilt sind.

Es sei darauf hingewiesen, daß die zentralen Ergebnisse dieses Kapitels weitgehend

in allgemeineren asymptotischen Resultaten für das Generalisierte Lineare Modell

als Spezialfall enthalten sind. Sie werden hier deshalb separat behandelt, weil sie

sich mit einfacheren Methoden vollständig herleiten lassen und bereits emen we

sentlichen Einblick in typische asymptotischen Schlußweisen liefern.

6.1 Grundlagen der Asymptotik 10.6.11 6-2

6.1 Grundlagen der Asymptotik

Ausgangspunkt der asymptotischen Betrachtungen ist ein unendliche Folge von Be

obachtungen (Y.). lI.T zusammen mit einer Covariablen-Folge (x.EIRS). lI.T" Der JJEm J JEm

Vollständigkeit halber formulieren wir als Grundvoraussetzung zunächst, daß der

Erwartungswert aller Beobachtungen existiert und ihre Varianzen übereinstimmen

(Homogenität der Varianzen)

(EE)

(HVar)w

p,. = E(Y.) existiert ] ]

Var(Yj ) = 0-2 E(O,oo)

für alle j E W,

für alle j E W.

Weiter fordern wir,daß Beobachtungen (Y.). lI.Tstochastisch unabhängig sind: JJEm

(Unab)W Die Folge (Y.). lI.Tist stochastisch unabhängig .. J JEm

Um später den Zentralen Grenzwertsatz anwenden zu können müssen wir noch

weitere Bedingungen an die Verteilungen stellen. Eine plausible Forderung wäre,

daß die zentrierten Beobachtungen identisch verteilt sind mit endlichen 4. Momenten:

z. = Y.- p,. sind identisch verteilt mit E(Z~) <00 für j E W. J J J J

Für die hier herzuleitende asymptotischen Resultate reicht allerdings eine wesent

lich schächere Momenten-Bedingung:

Die Folge E([ Y.- p, .]4). lI.T ist beschränkt. J J JEm

Allerdings benötigen wir diese Bedingung nur zum Nachweis der Konsistenz der

Varianzschätzung 6.2. Für die asymptotische Normalverteilung der Parameter

schätzung e reicht eine Bedingung über die gleichgradige Integrierbarkeit - die aus der

Momenten-Bedingung folgt (vgl. Billingsley 1968, p. 32):

Die Folge ([Y.- p,.]2). lI.T ist gleichgradig integrierbar. J J JEm

Für jeden festen Stichprobenumfang JE Werfüllen somit die ersten J Beobachtun

gen die Bedingungen (Unab) und (HVar) aus Kapitel 1 und 2. Wir wollen nun ei

nen Grenzprozeß mit wachsendem Stichprobenumfang J betrachten, den wir jetzt



Ausgangspunkt der asymptotischen Betrachtungen ist ein unendliche Folge von Be

obachtungen (Y.). lI.T zusammen mit einer Covariablen-Folge (x.EIRS). lI.T" Der JJEm J JEm

Vollständigkeit halber formulieren wir als Grundvoraussetzung zunächst, daß der

Erwartungswert aller Beobachtungen existiert und ihre Varianzen übereinstimmen

(Homogenität der Varianzen)

(EE)

(HVar)w

p,. = E(Y.) existiert ] ]

Var(Yj ) = 0-2 E(O,oo)

für alle j E W,

für alle j E W.

Weiter fordern wir,daß Beobachtungen (Y.). lI.Tstochastisch unabhängig sind: JJEm

(Unab)W Die Folge (Y.). lI.Tist stochastisch unabhängig .. J JEm

Um später den Zentralen Grenzwertsatz anwenden zu können müssen wir noch

weitere Bedingungen an die Verteilungen stellen. Eine plausible Forderung wäre,

daß die zentrierten Beobachtungen identisch verteilt sind mit endlichen 4. Momenten:

z. = Y.- p,. sind identisch verteilt mit E(Z~) <00 für j E W. J J J J

Für die hier herzuleitende asymptotischen Resultate reicht allerdings eine wesent

lich schächere Momenten-Bedingung:

Die Folge E([ Y.- p, .]4). lI.T ist beschränkt. J J JEm

Allerdings benötigen wir diese Bedingung nur zum Nachweis der Konsistenz der

Varianzschätzung 6.2. Für die asymptotische Normalverteilung der Parameter

schätzung e reicht eine Bedingung über die gleichgradige Integrierbarkeit - die aus der

Momenten-Bedingung folgt (vgl. Billingsley 1968, p. 32):

Die Folge ([Y.- p,.]2). lI.T ist gleichgradig integrierbar. J J JEm

Für jeden festen Stichprobenumfang JE Werfüllen somit die ersten J Beobachtun

gen die Bedingungen (Unab) und (HVar) aus Kapitel 1 und 2. Wir wollen nun ei

nen Grenzprozeß mit wachsendem Stichprobenumfang J betrachten, den wir jetzt


aber (wie bei asymptotischen Betrachtungen üblich) mit n = J bezeichen und für

n ---+ 00 untersuchen. Im Zusammenhang mit dem Grenzprozess n ---+ 00 werden wir

allen bisherige Notationen mit dem zusätzlichen Index ))n" versehen, sofern dies

zum besseren Verständnis erforderlich ist. Allerdings wird aus Gründen der Über

sicht dieser Index gelegentlich fortgelassen, wenn keine Mißverständnisse zu be

fürchten sind. Insbesondere ist

(1) Y = (Yl, ... , Y ) E IR n

n n

der Beobachtungsvektor der ersten n Beobachtungen mit der zughörigen nx5-Cova

riablenmatrix

(2) T X = (xl' ... , x ) . n n

Damit der Parameter () eindeutig bestimmt ist, wollen wir wieder die Rangbedingung

für alle n > 5 fordern, indem wir sie (ohne Einschränkung der Allgemeinheit) bereits

für n =5 voraussetzen:

Die 5x5-Covariablen-Matrix Xs = (xl' ... , xS ) T für die ersten 5

Beobachtungen hat den Rang S.

Für den Nachweis der Lindeberg-Bedingung im Zentraler Grenzwertsatz benötigen

wir folgende fundamentale Covariablen-Bedingung

(CB) 1.. XTX ) V, n n n n---+ 00

V ist nicht-singuläre 5x5-Matrix.

Unter Berücksichtigung von

T n T X X = 2: x.x. ,

n n . J J J=1

T X Y = 2: x.Y. n n . J J

J=1

n (3)

läßt sich die Covariablen-Bedingung äquivalent wie folgt formulieren

(CB) , 1 n T - 2: x.x. ------tl V, n .=1 J J n---+oo


Am Ende dieses Abschnitts geben wir zwei Verfahren der Datenerhebung an, bei

denen die Covariablen- Bedingung erfüllt ist. Ausserdem werden wir noch sehen,

daß für die asymptotischen Resultate in den folgenden Abschnitten eine Abschwä

chung der Covariablen-Bedingung ausreichend ist.


aber (wie bei asymptotischen Betrachtungen üblich) mit n = J bezeichen und für

n ---+ 00 untersuchen. Im Zusammenhang mit dem Grenzprozess n ---+ 00 werden wir

allen bisherige Notationen mit dem zusätzlichen Index ))n" versehen, sofern dies

zum besseren Verständnis erforderlich ist. Allerdings wird aus Gründen der Über

sicht dieser Index gelegentlich fortgelassen, wenn keine Mißverständnisse zu be

fürchten sind. Insbesondere ist

(1) Y = (Yl, ... , Y ) E IR n

n n

der Beobachtungsvektor der ersten n Beobachtungen mit der zughörigen nx5-Cova

riablenmatrix

(2) T X = (xl' ... , x ) . n n

Damit der Parameter () eindeutig bestimmt ist, wollen wir wieder die Rangbedingung

für alle n > 5 fordern, indem wir sie (ohne Einschränkung der Allgemeinheit) bereits

für n =5 voraussetzen:

Die 5x5-Covariablen-Matrix Xs = (xl' ... , xS ) T für die ersten 5

Beobachtungen hat den Rang S.

Für den Nachweis der Lindeberg-Bedingung im Zentraler Grenzwertsatz benötigen

wir folgende fundamentale Covariablen-Bedingung

(CB) 1.. XTX ) V, n n n n---+ 00


Unter Berücksichtigung von

T n T X X = 2: x.x. ,

n n . J J J=1

(3) n

T X Y = 2: x.Y. n n . J J

J=1 läßt sich die Covariablen-Bedingung äquivalent wie folgt formulieren

(CB) , V ist nicht-singuläre 5x5-Matrix. 1 n T - 2: x.x. ------tl V, n .=1 J J n---+oo

Am Ende dieses Abschnitts geben wir zwei Verfahren der Datenerhebung an, bei

denen die Covariablen- Bedingung erfüllt ist. Ausserdem werden wir noch sehen,

daß für die asymptotischen Resultate in den folgenden Abschnitten eine Abschwä

chung der Covariablen-Bedingung ausreichend ist.


Die Matrix V ist als Grenzwert positiv-semi-definiter Matrizen positiv-semi-definit,

und da sie nicht singulär ist, folgt

(4) V ist positiv-definit.

Folglich ist (CB) auch äquivalent zu

(CB) " 1..X TX ----tl V, n n n n---+ 00

V ist positiv-definite SxS-Matrix.

Eine weitere äquivalente Fassung von (CB) ist

(CB)'" Für jedes O:;=cEIRS gibt es ein v>O mit

1.. cTX TX c = 1..IIX cl1 2 ) v. n n n n n n---+ 00

Aus (CB) ergibt sich sofort

(5)

Obwohl wir die Covariablen-Bedingung (CB) hier der Einfachheit halber generell

voraussetzen, wollen wir schon jetzt eine Abschwächung von (CB)" angeben:

(CB)* Die Folge (1.. X TX ) lI.T ist beschränkt und jeder Häufungspunkt n n n nEll'I

der Folge ist positiv-definit.

Wie wir noch sehen werden, reicht (CB)* als Voraussetzung für die wichtigsten an

wendungsrelevanten Grenzwertsätze aus. Eine äquivalente Formulierung ist

(CB)*' Für jedes 0:;= cE IRS ist die Folge (1.. cTX TX c) lI.T beschränkt n n n nEll'I

und von Null wegbeschränkt (d.h. ihr Infimum ist> 0).

Und wichtige Folgerung aus (CB) zeigen wir noch

(6) 1 11 11 -·Max x r,;,n . J. max V'6 1 :::;J:::;n

----tl O. n---+ 00

wobei 11 c 11 = Max 1 c 1 die Maximum-Norm eines Vektors cE IRS ist. max 1 <8<S 8


Die Matrix V ist als Grenzwert positiv-semi-definiter Matrizen positiv-semi-definit,

und da sie nicht singulär ist, folgt

(4) V ist positiv-definit.

Folglich ist (CB) auch äquivalent zu

(CB) " 1..X TX ----tl V, n n n n---+ 00

V ist positiv-definite SxS-Matrix.

Eine weitere äquivalente Fassung von (CB) ist

(CB)'" Für jedes O:;=cEIRS gibt es ein v>O mit

1.. cTX TX c = 1..IIX cl1 2 ) v. n n n n n n---+ 00

Aus (CB) ergibt sich sofort

(5)

Obwohl wir die Covariablen-Bedingung (CB) hier der Einfachheit halber generell

voraussetzen, wollen wir schon jetzt eine Abschwächung von (CB)" angeben:

(CB)* Die Folge (1.. X TX ) lI.T ist beschränkt und jeder Häufungspunkt n n n nEll'I

der Folge ist positiv-definit.

Wie wir noch sehen werden, reicht (CB)* als Voraussetzung für die wichtigsten an

wendungsrelevanten Grenzwertsätze aus. Eine äquivalente Formulierung ist

(CB)*' Für jedes 0:;= cE IRS ist die Folge (1.. cTX TX c) lI.T beschränkt n n n nEll'I

und von Null wegbeschränkt (d.h. ihr Infimum ist> 0).

Und wichtige Folgerung aus (CB) zeigen wir noch

(6) 1 11 11 -·Max x r,;,n . J. max V'6 1 :::;J:::;n

----tl O. n---+ 00

wobei 11 c 11 = Max 1 c 1 die Maximum-Norm eines Vektors cE IRS ist. max 1 <8<S 8


Die Gültigkeit des Modells

T /-L.=x.() J J

10.6.11 6-5

für ein () E IRS und alle j E W ,

wollen wir jedoch zunächst nicht generell voraussetzen, um auch das asymptotische

Verhalten der Schätzer untersuchen zu können, wenn das Modell nicht gilt. Konkret

werden wir die Gültigkeit des Modells (LM)W immer explizit als Voraussetzung er

wähnen, wenn dies erforderlich ist. Unter Verwendung des Modellraums

(7)

ergibt sich als äquivalente Formulierung von (LM)W

(LM)']N /-L = (/-L1' ... , /-L ) E .At für alle n > S. n n n

Für jede Realisierung y von Y = (Y1' ... , Y ) ist der MQ-Schätzer von () für das n n n Modell.At - auch wenn das Modell nicht gilt - nach Abschnitt 4.3 (mit D als Ein

n heitsmatrix) gegeben durch die lineare Funktion () : IR n -----+ IRSmit

n

(8) für y = (Y1' ... , Y ) E IR n . n n

Und die zugehörige lineare Schätzfunktion (i, : IR n -----+ IR n für /-L lautet dann n

(9) A ( ) _ X [X T X J -1 X T /-Ln y n - n n n n Y n für Y = (Y1' ... , Y ) E IR n . n n

Die zugehörigen Zufallsvariablen

(10) () = () (Y ) = [X T X J -1 X T Y (n) n n n n n n'

A = A (Y ) = X [X T X J -1 X T Y . /-L(n) /-Ln n n n n n n

haben dann nach 4.4 folgende Erwartungswerte

(11) E(()(n)) = ()n(/-Ln) = [X:XnJ-1X: /-Ln '

E( A) A ( ) = X [X T X J -1 X T = X () ( ). /-L(n) = /-Ln /-Ln n n n n /-Ln n n /-Ln

Wenn das Modell.At gilt, so sind diese Schätzer erwartungstreu. Die Erwartungn


Die Gültigkeit des Modells

T /-L.=x.() J J

10.6.11 6-5

für ein () E IRS und alle j E W ,

wollen wir jedoch zunächst nicht generell voraussetzen, um auch das asymptotische

Verhalten der Schätzer untersuchen zu können, wenn das Modell nicht gilt. Konkret

werden wir die Gültigkeit des Modells (LM)W immer explizit als Voraussetzung er

wähnen, wenn dies erforderlich ist. Unter Verwendung des Modellraums

(7)

ergibt sich als äquivalente Formulierung von (LM)W

(LM)']N /-L = (/-L1' ... , /-L ) E .At für alle n > S. n n n

Für jede Realisierung y von Y = (Y1' ... , Y ) ist der MQ-Schätzer von () für das n n n Modell.At - auch wenn das Modell nicht gilt - nach Abschnitt 4.3 (mit D als Ein

n heitsmatrix) gegeben durch die lineare Funktion () : IR n -----+ IRSmit

n

(8) für y = (Y1' ... , Y ) E IR n . n n

Und die zugehörige lineare Schätzfunktion (i, : IR n -----+ IR n für /-L lautet dann n

(9) A ( ) _ X [X T X J -1 X T /-Ln y n - n n n n Y n für Y = (Y1' ... , Y ) E IR n . n n

Die zugehörigen Zufallsvariablen

(10) () = () (Y ) = [X T X J -1 X T Y (n) n n n n n n'

A = A (Y ) = X [X T X J -1 X T Y . /-L(n) /-Ln n n n n n n

haben dann nach 4.4 folgende Erwartungswerte

(11) E(()(n)) = ()n(/-Ln) = [X:XnJ-1X: /-Ln '

E( A) A ( ) = X [X T X J -1 X T = X () ( ). /-L(n) = /-Ln /-Ln n n n n /-Ln n n /-Ln

Wenn das Modell.At gilt, so sind diese Schätzer erwartungstreu. Die Erwartungn


streue von (i, ist sogar äquivalent zur Gültigkeit des Modells, d.h. zu (LM)W.

bzw. für alle nE W.

Schließlich ist die Schätzung für 0-2 gegeben durch

Abschließend wollen noch zwei Verfahren der Datenerhebung angeben, bei denen

die Covariablen-Bedingung (CB)' gilt.

Zufällige Covariablen

Wir betrachten jetzt eine eme Datenerhebung, bei der die Covariablen xl' ... , xn

eine Stichprobe vom Umfang n eines S-dimensionalen Zufallsvektors X sind (die

Bezeichnung X statt X wird hier verwendet, um Verwechselungen mit der Design

matrix X zu vermeiden). Dies ist in zwei typischen Situationen der Fall. Wenn ei

nerseits die Covariable vorgegeben werden (wovon wir bisher immer ausgegangen

sind), so werden sie in diesem Fall einfach zufällig gemäß der Verteilung von X "ge

zogen", und dies ist eine allgemeine Form der Randomisierung (vgl. 5.1.2, 5.1.4).

Wenn aber andererseits die Covariablen wie in 1.1 beschrieben (dort mit X statt

X) auch Zufallsvariablen sind und zusammen mit der Zielvariablen zufällig aus der

gemeinsamen Verteilung von (Y,X) gezogen werden, so ist xl' ... , x n natürlich auch

eine Stichprobe vom Umfang n aus der Verteilung von X.

- -Zur formalen Beschreibung betrachten wir unabhängige Wiederholungen Xi, ... , X

n von X und untersuchen Covariablen-Bedingung (CB)', allerdings jetzt mit Zufalls

variablen statt der Realisierungen. Aus dem starken Gesetz der großen Zahlen er

gibt sich

(13) n

1 --T --T 2:= X. X. ) V: = E(X X ) n. 1 J J n---+ 00

J= P-fast-sicher.

Hierbei ist V genau dann positiv-definit, wenn X nicht P-fast-sicher in einer Hyper

bene des IRS liegt, d.h. wenn für jedes tE IRS gilt

(14) T-t X = 0 P-fast-sicher t = o.

Anders formuliert ist V genau dann nicht positiv-definit, wenn es ein t :;= 0 gibt mit


streue von (i, ist sogar äquivalent zur Gültigkeit des Modells, d.h. zu (LM)W.

bzw. für alle nE W.

Schließlich ist die Schätzung für 0-2 gegeben durch

Abschließend wollen noch zwei Verfahren der Datenerhebung angeben, bei denen

die Covariablen-Bedingung (CB)' gilt.

Zufällige Covariablen

Wir betrachten jetzt eine eme Datenerhebung, bei der die Covariablen xl' ... , xn

eine Stichprobe vom Umfang n eines S-dimensionalen Zufallsvektors X sind (die

Bezeichnung X statt X wird hier verwendet, um Verwechselungen mit der Design

matrix X zu vermeiden). Dies ist in zwei typischen Situationen der Fall. Wenn ei

nerseits die Covariable vorgegeben werden (wovon wir bisher immer ausgegangen

sind), so werden sie in diesem Fall einfach zufällig gemäß der Verteilung von X "ge

zogen", und dies ist eine allgemeine Form der Randomisierung (vgl. 5.1.2, 5.1.4).

Wenn aber andererseits die Covariablen wie in 1.1 beschrieben (dort mit X statt

X) auch Zufallsvariablen sind und zusammen mit der Zielvariablen zufällig aus der

gemeinsamen Verteilung von (Y,X) gezogen werden, so ist xl' ... , x n natürlich auch

eine Stichprobe vom Umfang n aus der Verteilung von X.

- -Zur formalen Beschreibung betrachten wir unabhängige Wiederholungen Xi, ... , X

n von X und untersuchen Covariablen-Bedingung (CB)', allerdings jetzt mit Zufalls

variablen statt der Realisierungen. Aus dem starken Gesetz der großen Zahlen er

gibt sich

(13) n

1 --T --T 2:= X. X. ) V: = E(X X ) n. 1 J J n---+ 00

J= P-fast-sicher.

Hierbei ist V genau dann positiv-definit, wenn X nicht P-fast-sicher in einer Hyper

bene des IRS liegt, d.h. wenn für jedes tE IRS gilt

(14) T-t X = 0 P-fast-sicher t = o.

Anders formuliert ist V genau dann nicht positiv-definit, wenn es ein t :;= 0 gibt mit


5 T- -

tX=2: tX =O 8=1 8 8

P-fast-sicher.

Dann wäre aber eine Komponente von X P-fast-sicher eine Linearkombination der

restlichen Komponenten und das lineare Modell mit einem S-dimensionalen Para

metervektor () wäre nicht sinnvoll.

Zusammengefasst gilt also bei dieser Form der Datenerhebung die Covariablen-Be

dingung (CB)' mit Wahrscheinlichkeit 1, wenn die Verteilung von X nicht auf eine

Hyperebene des IRS konzentriert ist.

Endliche viele Covariablen

Wir gehen jetzt davon aus, daß alle Covariablenvektoren aus einer endlichen Menge

{x(l)' ... , x(K)} C IRS frei gewählt werden können, was z.B. immer dann (aber nicht

nur dann) der Fall ist, wenn alle Komponenten des Covariablenvektor aus Indika

torvariablen bestehen.( vgl. z.B. 3.2.3 und 3.3.3). Hierbei muss natürlich K > S gelten

und wir setzen ohne Beschränkung der Allgemeinheit voraus, daß alle K Covari

ablenwerte bereits unter den ersten K Beobachtungen vorkommen, d.h. x k = x(k) für

k=l, ... ,K. Bezeichnet nk = # {j=1, ... , nl Xj=Xk } die absolute und cnk=nk/n die

relative Häufigkeit von x k unter den ersten n Covariablen xl' ... , X n' so gilt

1n

T 1K

T K T (15) - 2: x. x . - - 2: nk x k x k 2: C k x k x k . n j =1 J J n k=l k=l n

Wenn sich die relativen Häufigkeiten für wachsendes n stabilisieren und nicht ver

schwinden, d.h. wenn

(16) für alle k = 1, ... , K

gilt, so folgt

(17) ~ .~ xjxT n-HX!) k~_l ck xkxJ = Xl Diag{c1, ... , cK} X K =: v. J=l

Wegen K> S hat XK

nach (RB)s den Rang S und damit ist V positiv-definit und

die Covariablen-Bedingung (CB)' gilt. Die hierfür hinreichende Bedingung (16) ist

z.B. dann erfüllt, wenn die Covariable zyklisch wiederholt werden, d.h. wenn

(18) für alle k = 1, ... , Kund m E Wo

und in diesem Fall ist ck = l für alle k.


5 T- -

tX=2: tX =O 8=1 8 8

P-fast-sicher.

Dann wäre aber eine Komponente von X P-fast-sicher eine Linearkombination der

restlichen Komponenten und das lineare Modell mit einem S-dimensionalen Para

metervektor () wäre nicht sinnvoll.

Zusammengefasst gilt also bei dieser Form der Datenerhebung die Covariablen-Be

dingung (CB)' mit Wahrscheinlichkeit 1, wenn die Verteilung von X nicht auf eine

Hyperebene des IRS konzentriert ist.

Endliche viele Covariablen

Wir gehen jetzt davon aus, daß alle Covariablenvektoren aus einer endlichen Menge

{x(l)' ... , x(K)} C IRS frei gewählt werden können, was z.B. immer dann (aber nicht

nur dann) der Fall ist, wenn alle Komponenten des Covariablenvektor aus Indika

torvariablen bestehen.( vgl. z.B. 3.2.3 und 3.3.3). Hierbei muss natürlich K > S gelten

und wir setzen ohne Beschränkung der Allgemeinheit voraus, daß alle K Covari

ablenwerte bereits unter den ersten K Beobachtungen vorkommen, d.h. x k = x(k) für

k=l, ... ,K. Bezeichnet nk = # {j=1, ... , nl Xj=Xk } die absolute und cnk=nk/n die

relative Häufigkeit von x k unter den ersten n Covariablen xl' ... , X n' so gilt

1n

T 1K

T K T (15) - 2: x. x . - - 2: nk x k x k 2: C k x k x k . n j =1 J J n k=l k=l n

Wenn sich die relativen Häufigkeiten für wachsendes n stabilisieren und nicht ver

schwinden, d.h. wenn

(16) für alle k = 1, ... , K

gilt, so folgt

(17) ~ .~ xjxT n-HX!) k~_l ck xkxJ = Xl Diag{c1, ... , cK} X K =: v. J=l

Wegen K> S hat XK

nach (RB)s den Rang S und damit ist V positiv-definit und

die Covariablen-Bedingung (CB)' gilt. Die hierfür hinreichende Bedingung (16) ist

z.B. dann erfüllt, wenn die Covariable zyklisch wiederholt werden, d.h. wenn

(18) für alle k = 1, ... , Kund m E Wo

und in diesem Fall ist ck = l für alle k.

6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-8

6.2 Asymptotische Verteilung der Schätzer

Wir wollen zuerst die asymptotische Normalverteilung der Parameterschätzung O(n)

herleiten und setzen dafür zunächst nur die Abschwächung (GGI)W der Momen

ten-Bedingung voraus. Als Erstes zeigen wir die asymptotische Normalverteilung des

S-dimensionalen Score-Vektors X T Y : n n

(ANS) 00

Unter Verwendung einer beliebigen Wurzel [X:XnJ 1/2 ergibt sich hieraus die stan

dardisierte Fassung

(ANS) 1.. [XTX ]-1/2 X T[y -Jl] ci:) N(O,l1s ), a n n n n n n---+ 00 S\

in der die Limesmatrix V aus (CB) nicht mehr vorkommt. Als nächstes erhält man

die asymptotische Normalverteilung der Parameterschätzung

(ANP) 00

(ANP)

Vn [ O(n) - E(O(n)) ]

1.. [XTX ]T/2[0 -E(O )] a n n (n) (n)

ci: ) N (0, l1s ). n---+ 00 S\

Man beachte, daß für normalverteiltes Y die jeweils linken Seiten in (ANS) und n

(ANP) exakt die Standard-Normalverteilung des Grenzwertes haben. In diesem

Sinn sind diese Konvergenzaussagen eine asymptotische Verallgemeinerung der

exakten Verteilungsaussagen im Normalverteilungs-Modell.

Durch Multiplikation mit. ~ ---+ 0 ergibt sich aus (ANP) die Konvergenz der Para-v n 00

meterschätzung

(KP) P ----tl 0,

n---+ 00

aus der unter der Gültigkeit des Modells sofort die Konsistenz der Parameterschät

zung folgt

(KonP) Unter (LM)wgilt: P ----tl ()

n---+ 00 (Konsistenz von 0).

Eine zu (ANP) analoge Aussage für die Schätzung (i, des Erwartungswerts Jl ist n n


6.2 Asymptotische Verteilung der Schätzer

Wir wollen zuerst die asymptotische Normalverteilung der Parameterschätzung O(n)

herleiten und setzen dafür zunächst nur die Abschwächung (GGI)W der Momen

ten-Bedingung voraus. Als Erstes zeigen wir die asymptotische Normalverteilung des

S-dimensionalen Score-Vektors X T Y : n n

(ANS) 00

Unter Verwendung einer beliebigen Wurzel [X:XnJ 1/2 ergibt sich hieraus die stan

dardisierte Fassung

(ANS) 1.. [XTX ]-1/2 X T[y -Jl] ci:) N(O,l1s ), a n n n n n n---+ 00 S\

in der die Limesmatrix V aus (CB) nicht mehr vorkommt. Als nächstes erhält man

die asymptotische Normalverteilung der Parameterschätzung

(ANP) 00

(ANP)

Vn [ O(n) - E(O(n)) ]

1.. [XTX ]T/2[0 -E(O )] a n n (n) (n)

ci: ) N (0, l1s ). n---+ 00 S\

Man beachte, daß für normalverteiltes Y die jeweils linken Seiten in (ANS) und n

(ANP) exakt die Standard-Normalverteilung des Grenzwertes haben. In diesem

Sinn sind diese Konvergenzaussagen eine asymptotische Verallgemeinerung der

exakten Verteilungsaussagen im Normalverteilungs-Modell.

Durch Multiplikation mit. ~ ---+ 0 ergibt sich aus (ANP) die Konvergenz der Para-v n 00

meterschätzung

(KP) P ----==------t) 0,

n---+ 00

aus der unter der Gültigkeit des Modells sofort die Konsistenz der Parameterschät

zung folgt

(KonP) Unter (LM)wgilt: P ----tl ()

n---+ 00 (Konsistenz von 0).

Eine zu (ANP) analoge Aussage für die Schätzung (i, des Erwartungswerts Jl ist n n


nicht möglich, weil dessen Dimension n unter der Asymptotik gegen 00 strebt. Al

lerdings läßt sich die asymptotische Verteilung der (quadratischen) Abweichung

von (L um seinen Erwartungswert angeben: n

(1) ci: 2 n---+oo) Xs ·

Ab jetzt wollen wir auch die Momenten-Bedingung (MB)W voraussetzen und zeigen

als nächstes die Konsistenz der Varianzschätzung - allerdings nur unter der Gültig

keit des Modells:

(Kon V) Unter (LM)wgilt: A2 P 2 a ) a n n---+oo

(Konsistenz von 52).

Insbesondere können wir - unter der Gültigkeit des Modells - in (ANS) und (ANP)

die Standardabweichung a durch ihre Schätzung ersetzen:

(ANSr Unter (LM)T'>Tgilt: ~ [X TX ]-1/2 X T [y - Jl ] ll'I a nn n n n

ci: ) N (0, l1s )' n---+oo S\

(ANP) A Unter (LM)wgilt: ~ [X TX ]T/2[O -()] ci: N (Oll ) a n n (n) n---+oo) S\' S .

Wie schon angekündigt, lassen sich die anwendungsrelevanten Konvergenzaussa

gen auch bereits aus der Abschwächung (CB)* der Covariablen-Bedingung (CB)

herleiten. Mit Ausnahme der Konvergenzaussagen (ANS) und (ANP) - die als 00 00

einzige den Grenzwert V aus (CB) enthalten - lassen sich alle anderen Aussagen

dieses Abschnitts unter Verwendung des Teilfolgenkriteriums schon aus der Ab

schwächung (CB)* herleiten. Wir zeigen dies exemplarisch für die asymptotische

Normalverteilung (ANP) des Parameters. Nach dem Teilfolgenkriterium für Ver

teilungskonvergenz (vgl.Exkurs KV 1) ist für eine beliebige Teilfolge n' die Exi

stenz einer weiteren Teilfolge n" zu zeigen mit

(*)

Nach (CB)* gibt es zur Teilfolge n' eine weitere konvergente Teilfolge n" mit

-.1" [XTII X 11] -----+ V", n n n

V" positiv-definit.

Für die Teilfolge n" gilt also die Covariablen-Bedingung (CB) und die Anwendung

von (ANP) auf die Teilfolge n" ergibt (*).


nicht möglich, weil dessen Dimension n unter der Asymptotik gegen 00 strebt. Al

lerdings läßt sich die asymptotische Verteilung der (quadratischen) Abweichung

von (L um seinen Erwartungswert angeben: n

(1) ci: 2 n---+oo) Xs ·

Ab jetzt wollen wir auch die Momenten-Bedingung (MB)W voraussetzen und zeigen

als nächstes die Konsistenz der Varianzschätzung - allerdings nur unter der Gültig

keit des Modells:

(Kon V) Unter (LM)wgilt: A2 P 2 a ) a n n---+oo

(Konsistenz von 52).

Insbesondere können wir - unter der Gültigkeit des Modells - in (ANS) und (ANP)

die Standardabweichung a durch ihre Schätzung ersetzen:

(ANSr Unter (LM)T'>Tgilt: ~ [X TX ]-1/2 X T [y - Jl ] ll'I a nn n n n

ci: ) N (0, l1s )' n---+oo S\

(ANP) A Unter (LM)wgilt: ~ [X TX ]T/2[O -()] ci: N (Oll ) a n n (n) n---+oo) S\' S .

Wie schon angekündigt, lassen sich die anwendungsrelevanten Konvergenzaussa

gen auch bereits aus der Abschwächung (CB)* der Covariablen-Bedingung (CB)

herleiten. Mit Ausnahme der Konvergenzaussagen (ANS) und (ANP) - die als 00 00

einzige den Grenzwert V aus (CB) enthalten - lassen sich alle anderen Aussagen

dieses Abschnitts unter Verwendung des Teilfolgenkriteriums schon aus der Ab

schwächung (CB)* herleiten. Wir zeigen dies exemplarisch für die asymptotische

Normalverteilung (ANP) des Parameters. Nach dem Teilfolgenkriterium für Ver

teilungskonvergenz (vgl.Exkurs KV 1) ist für eine beliebige Teilfolge n' die Exi

stenz einer weiteren Teilfolge n" zu zeigen mit

(*)

Nach (CB)* gibt es zur Teilfolge n' eine weitere konvergente Teilfolge n" mit

-.1" [XTII X 11] -----+ V", n n n

V" positiv-definit.

Für die Teilfolge n" gilt also die Covariablen-Bedingung (CB) und die Anwendung

von (ANP) auf die Teilfolge n" ergibt (*).

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-10

6.3 Asymptotische Tests für Linearkombinationen

Wir betrachten jetzt wieder eine feste Linearkombination cT() des Parameters ()

mit cE IRSund c:;= 0, die wir mit einem fest vorgegeben Rejerenzwert Co E IR (etwa

Co = 0) vergleichen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme

sind (vgl. auch Abschnitt 2.5.2)

(1)

(2)

TNullhypothese H=: c () = Co

TNullhypothese H<: c () < Co

vs.

vs.

Alternative H:;zt.: cT() :;= Co '

Alternative H>: cT() > co.

Für die asymptotischen Resultate dieses Abschnitts wollen wir neben den generel

len Voraussetzungen aus 6.1 auch die Gültigkeit des Modells (LM}j}J voraussetzen. Der

Einfachheit halber wollen wir weiterhin die Covariablen-Bedingung (CB) voraus

setzen, obwohl sich mit der in 6.2 erläuterten "Teilfolgen-Argumentation" alle Er

gebnisse dieses Abschnitts auch aus der schwächeren Bedingung (CB)* herleiten

lassen, weil sie den Grenzwert V nicht enthalten.

6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests

Aus der asymptotischen Normalverteilung von O(n) ergibt sich die asymptotische

Normalverteilung der geschätzten Linearkombination cTO(n)

TA T

(1)c ()(n) - C () cf N(O, 1) mit)

acnn---+ 00

(2) 2 0-2 c T[X:Xn

J-1 c 00-cn n---+ 00

Ersetzt man die Varianz 0-2 durch ihre Schätzung 0- 2

, so erhält mann

(3) A 2 A 2 T [X TX J-10- =o-c c.cn n n n

Aus der Konsistenz der Schätzung 0- 2 ergibt sichn

(4)p

n---+ 001.



Wir betrachten jetzt wieder eine feste Linearkombination cT () des Parameters ()

mit cE IRSund c:;= 0, die wir mit einem fest vorgegeben ReJerenzwert Co E IR (etwa

Co = 0) vergleichen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme

sind (vgl. auch Abschnitt 2.5.2)

(1)

(2)

T Nullhypothese H=: c () = Co


vs.

vs.

Alternative H:;zt.: cT () :;= Co '

Alternative H>: cT () > co.

Für die asymptotischen Resultate dieses Abschnitts wollen wir neben den generel

len Voraussetzungen aus 6.1 auch die Gültigkeit des Modells (LM)W voraussetzen. Der

Einfachheit halber wollen wir weiterhin die Covariablen-Bedingung (CB) voraus

setzen, obwohl sich mit der in 6.2 erläuterten "Teilfolgen-Argumentation" alle Er

gebnisse dieses Abschnitts auch aus der schwächeren Bedingung (CB)* herleiten

lassen, weil sie den Grenzwert V nicht enthalten.

6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests

Aus der asymptotischen Normalverteilung von O(n) ergibt sich die asymptotische

Normalverteilung der geschätzten Linearkombination cTO(n)

TA T

(1) c ()(n) - C () L N(O, 1) mit

acn n---+ 00

(2) 2 a

2c

T [X:Xn

J-1 c 0 a cn n---+ 00

Ersetzt man die Varianz a 2 durch ihre Schätzung 0- 2 , so erhält man

n

(3) A 2 A 2 T [X TX J-1 a =ac c. cn n n n

Aus der Konsistenz der Schätzung 0- 2 ergibt sich n

(4) p

1. n---+ 00


und somit die zu (1) analoge Aussage mit der Schätzung ac n statt a c n

(5)n---+ 00

N(O,l) .

Die Teststatitistik aus 2.5.2 für die ersten n Beobachtungen

TA

(6) Tn

C ()(n) - CoA

acn

verhält sich asymptotisch wie folgt

(7) T cf N(O,l) für T) C () = co'n n---+ 00

(8) T P für T) -00 C () < Co 'n n---+ 00

(9) T P für T) +00 C () > Co .

n n---+ 00

6.3.2 Asymptotische Eigenschaften des t-Test

Wir wollen jetzt zeigen, daß der ein- bzw. zweiseitige t-Test aus Abschnitt 2.5 das

asymptotische Niveau a hat und konsistent ist. Die Schärfe des zweiseitigen t-Test

zum (nominellen) Niveau a ist

(1)

und unter Verwendung der Konvergenz der t-Quantile

(2) t ) zn - Si (X n---+ 00 (X

ergibt sich für n ---+ 00 die asymptotische Schärfe

(3) = { alPowoo(a) := lim pow(n)(a)2 n---+oo 2

unter

unter

H=." cT

() = Co

TH;;t:.'" c ():;= Co

}.

Folglich konvergiert das Fehlerrisko 1. Art des zweiseitigen t-Test gegen a, d.h. sein

asymptotisches Niveau ist a. Ferner ist der zweiseitige t-Test konsistent, weil seine


und somit die zu (1) analoge Aussage mit der Schätzung ac n statt a c n

(5) n---+ 00

N(O,l) .

Die Teststatitistik aus 2.5.2 für die ersten n Beobachtungen

TA

(6) Tn

C ()(n) - Co A

acn

verhält sich asymptotisch wie folgt

(7) T L N(O,l) für T C () = co' n n---+ 00

(8) T P für T -00 C () < Co ' n n---+ 00

(9) T P für T +00 C () > Co .

n n---+ 00

6.3.2 Asymptotische Eigenschaften des t-Test

Wir wollen jetzt zeigen, daß der ein- bzw. zweiseitige t-Test aus Abschnitt 2.5 das

asymptotische Niveau a hat und konsistent ist. Die Schärfe des zweiseitigen t-Test

zum (nominellen) Niveau a ist

(1)

und unter Verwendung der Konvergenz der t-Quantile

(2) t ) Z n - Si (X n---+ 00 (X

ergibt sich für n ---+ 00 die asymptotische Schärfe

(3) = { al Powoo(a) : = lim pow(n)(a) 2 n---+oo 2

unter

unter

H=: cT

() = Co

T H;;t:: c ():;= Co

}.

Folglich konvergiert das Fehlerrisko 1. Art des zweiseitigen t-Test gegen a, d.h. sein

asymptotisches Niveau ist a. Ferner ist der zweiseitige t-Test konsistent, weil seine


Schärfe unter der Alternative H gegen 1 konvergiert.:;Z:

8.7.10 6-12

Die Schärfe des einseitigen t-Tests zum (nominellen) Niveau a ist

(4)

und konvergiert für n ---+ 00 gegen die asymptotische Schärfe

(5)fürfürfür

cT(} < CocT(} = CocT(} > Co }

Das maximale asymptotische Fehlerrisiko 1. Art für die Nullhypothese H<: cT(}< Co ist

daher gleich a, d.h. der einseitige t-Test hat das asymptotische Niveau a. Er ist

auch konsistent, weil seine Schärfe unter der Alternative H>: cT() > Co gegen 1 kon

vergiert.

Wegen die Quantilkonvergenz (2) kann man für großes n statt der t-Tests auch die

asymptotisch äquivalenten Gauß-Tests verwenden:

(6) Zweiseitiger Gauß-Test von H= vs. H:;z: zum asymptotischen Niveau a:

Ablehnung von H_

(7) Einseitiger Gauß-Test von H< vs. H> zum asymptotischen Niveau a:

Ablehnung von H< T>z ,- Q

Die t-Tests haben jedoch gegenüber diesen Gauß-Tests den Vorteil, daß sie unter

der Normalverteilungsannahme (NVY) sogar das exakte Niveau a haben, während

das Niveau der Gauß-Test in diesem Fall sogar > a ist, weil (vgl. Johnson €J Kotz

Sec. 27.2):

(8) z < tQ m,Q

für jedes a < ~ und mE lN.


Schärfe unter der Alternative H gegen 1 konvergiert. :;Z:

8.7.10

Die Schärfe des einseitigen t-Tests zum (nominellen) Niveau a ist

(4)

und konvergiert für n ---+ 00 gegen die asymptotische Schärfe

(5) für für für

cT(} < Co cT(} = Co cT(} > Co

6-12

} Das maximale asymptotische Fehlerrisiko 1. Art für die Nullhypothese H<: cT

(}< Co ist

daher gleich a, d.h. der einseitige t-Test hat das asymptotische Niveau a. Er ist

auch konsistent, weil seine Schärfe unter der Alternative H >: cT () > Co gegen 1 kon

vergiert.

Wegen die Quantilkonvergenz (2) kann man für großes n statt der t-Tests auch die

asymptotisch äquivalenten Gauß-Tests verwenden:

(6) Zweiseitiger Gauß-Test von H = vs. H:;z: zum asymptotischen Niveau a:

Ablehnung von H_

(7) Einseitiger Gauß-Test von H< vs. H> zum asymptotischen Niveau a:

Ablehnung von H< T>z , - Q

Die t-Tests haben jedoch gegenüber diesen Gauß-Tests den Vorteil, daß sie unter

der Normalverteilungsannahme (NVY) sogar das exakte Niveau a haben, während

das Niveau der Gauß-Test in diesem Fall sogar > a ist, weil (vgl. Johnson €J Kotz

Sec. 27.2):

(8) für jedes a < ~ und mE lN. z < t Q m,Q


6.3.3 Schärfeapproximation für den asymptotischen t-Test

Beim ein- bzw. zweiseitigen t-Test konvergiert die Schärfe unter der jeweiligen Al

ternative für n ---+ 00 gegen 1. Dies ist zwar beruhigend, liefert aber für einen konkre

ten Stichprobenumfang n keine Information. Wir wollen daher jetzt noch eine Ap

proximation der Schärfe für "großes n" angeben. Ausgangspunkt der Schärfe-Ap

proximation für den einseitigen Tests ist die Darstellung

(1)

(2)

(3)

pow~n)(a) = P{ Tn > tn-S

.a

},TA T

C ()(n) - C ()

TC ()- co

= p{ U +V > z - "( }n n - a n

(Nichtzentralität) .

mit

und

Aus der asymptotischen Verteilung von U und V

(4) U cf N(O, 1) ,-------+n

(5) V P

°-------+n

ergibt sich

(6) U±V cf N(O, 1) .-------+n n

Mit (1) ergibt sich als vorläufige Schärfe-Approximation

(7) für großes n

Da diese Approximation insbesondere auch im Normalverteilungsmodell (NVY)

gilt, läßt sich die in 2.5.3 hergeleitete exakte Schärfe ebenfalls so approximieren, d.h.

(8) für großes n.

Zusammen mit (7) ergibt sich daher als endgültige Schärfe-Approximation

(9) für großes n,

die für normalverteiltes Y sogar exakt ist. Anders formuliert: die für normalverteiltes

Y hergeleitete exakte Schärfe des einseitigen t-Tests liefert auch bei nicht vorliegen

der Normalverteilung (unter den Voraussetzungen aus 6.1) für großes n eine Approxi-


6.3.3 Schärfe approximation für den asymptotischen t-Test

Beim ein- bzw. zweiseitigen t-Test konvergiert die Schärfe unter der jeweiligen Al

ternative für n ---+ 00 gegen 1. Dies ist zwar beruhigend, liefert aber für einen konkre

ten Stichprobenumfang n keine Information. Wir wollen daher jetzt noch eine Ap

proximation der Schärfe für "großes n" angeben. Ausgangspunkt der Schärfe-Ap

proximation für den einseitigen Tests ist die Darstellung

(1) pow~n)(a) = P{ Tn > tn -S

.a } =p{U+V>z-l'} mit , n n - a n

TA T o-c n . tn- S·a (2) Un C (}(n) - C {}

Vn und z - , a

acn acn

T C {}- c

(3) I'n 0 (Nichtzentralität) .

acn

Aus der asymptotischen Verteilung von U und V

(4) U L N(O, 1) , -----+ n

(5) V P

° -----+ n

ergibt sich

(6) U±V L N(O, 1) . -----+ n n

Mit (1) ergibt sich als vorläufige Schärfe-Approximation

(7) für großes n

Da diese Approximation insbesondere auch im Normalverteilungsmodell (NVY)

gilt, läßt sich die in 2.5.3 hergeleitete exakte Schärfe ebenfalls so approximieren, d.h.

(8) für großes n.

Zusammen mit (7) ergibt sich daher als endgültige Schärfe-Approximation

(9) für großes n,

die für normalverteiltes Y sogar exakt ist. Anders formuliert: die für normalverteiltes

Y hergeleitete exakte Schärfe des einseitigen t-Tests liefert auch bei nicht vorliegen

der Normalverteilung (unter den Voraussetzungen aus 6.1) für großes n eine Approxi-


mation der Schärfe. Abschließend sei noch bemerkt, daß die Approximation (7) ge

genüber (9) auch konservativer ist, weil für mE lN, "( > 0 und a < ~ die Abschätzung

gilt (vgl. z.B. das Skript G. Osius: Einführung in die Statistik, 16.1):

Und für den zweiseitigen t-Test liefert eine analoge Überlegung, daß die unter der

Normalverteilungsannahme (NVY) in 2.5.3 hergeleitete exakte Schärfe bei nicht

vorliegender Normalverteilung und großem n eine Approximation der Schärfe liefert

(11) POw(2n)(a) ~ p{ F

1_ ("(2) > F

1-So }

,n S\ n ,n ,afür großes n.

6.3.4 Asymptotische Konfidenzbereiche

Aus der asymptotischen Verteilung der geschätzten Linearkombination ergibt sich,

daß die in 2.5.2 angegebenen Konfidenzgrenzen für cT()

(1)TA

c ()(n) - L1n (untere Grenze) bzw.

mit

cTO(n) + L1n (obere Grenze)

L1 =0- ·tn cn n-S,a

die asymptotische Sicherheit 1- ahaben, d.h. es gilt

(2)

(3)

n---+ 00

n---+ 00

1- a,

1- a.

Auch der Konfidenzbereich aus 4.7.1 für den gesamten Parametervektor ()

(4)

(5)

{()EIRSIII()-O(n) lien <fan}

0- 2 ·S· Fn S,n-S,a'

mit

hat die asymptotische Sicherheit 1- a, d.h. es gilt

(6) ----+l 1-a.n---+ 00


mation der Schärfe. Abschließend sei noch bemerkt, daß die Approximation (7) ge

genüber (9) auch konservativer ist, weil für mE lN, "( > 0 und a < ~ die Abschätzung

gilt (vgl. z.B. das Skript G. Osius: Einführung in die Statistik, 16.1):

Und für den zweiseitigen t-Test liefert eine analoge Überlegung, daß die unter der

Normalverteilungsannahme (NVY) in 2.5.3 hergeleitete exakte Schärfe bei nicht

vorliegender Normalverteilung und großem n eine Approximation der Schärfe liefert

(11) POw(2n)(a) ~ p{ Pl

_ ("(2) > Pl

-So } ,n S\ n ,n ,a

für großes n.

6.3.4 Asymptotische Konfidenzbereiche

Aus der asymptotischen Verteilung der geschätzten Linearkombination ergibt sich,

daß die in 2.5.2 angegebenen Konfidenzgrenzen für cT ()

(1) T" c ()(n) - L1n (untere Grenze) bzw.

mit

die asymptotische Sicherheit 1- ahaben, d.h. es gilt

(2)

(3)

P { T()" ;\ T() } c (n) - L.Jn < c

P { T() T()" ;\} C < C (n) + L.Jn

n---+ 00

n---+ 00

cTO(n) + L1n (obere Grenze)

L1 =5 ·t n cn n-S,a

1- a,

1- a.

Auch der Konfidenzbereich aus 4.7.1 für den gesamten Parametervektor ()

(4)

(5)

{()EIRSIII()-O(n) lien <fan}

5 2 ·S·P n S,n-S,a'

hat die asymptotische Sicherheit 1- a, d.h. es gilt

(6) ----tl 1-a. n---+ 00

mit

6.4 Asymptotische Tests für lineare Hypothesen 16.7.10 6-15

6.4 Asymptotische Tests für lineare Hypothesen

Nachdem wir bereits gesehen haben, daß der t-Test auch ohne die Normalvertei

lungsannahme (NVY) asymptotisch korrekt ist, wollen wir die analogen Resultate

auch für den F-Test von linearen Hypothesen zeigen. Hierfür setzen in diesem Ab

schnitt - neben den generellen Voraussetzungen aus 6.1 - auch wieder die Gültigkeit

des Modells (LM}j}J voraus. Der Einfachheit halber wollen wir weiterhin die Covari

ablen-Bedingung (CB) voraussetzen, obwohl sich mit der in 6.2 erläuterten "Teil

folgen-Argumentation" alle Ergebnisse dieses Abschnitts, die den Grenzwert V

nicht enthalten, auch aus der schwächeren Bedingung (CB)* herleiten lassen.

Die linearen Hypothesen formulieren wir hier unter Verwendung des Parameter

vektors (), weil dieser im Gegensatz zum Erwartungsvektor Jl - nicht vom Stichn

probenumfang n abhängt. Für einen linearen Teilraum f?TO

C lRS des Parameterrau-

mes mit

(1) S := Dirn f?T < So 0

betrachten wir daher die linearen Hypothesen

(LH) " Alternative H : () \t f?To.

Unter der Nullhypothese ist die Schätzungen von () für den Beobachtungsvektor Yn

nach 4.6.2 (7) gegeben durch

(2) mit

1.-Unter Verwendung des orthogonalen Komplements f?T

Ovon f?T

Oergibt sich das

Cn-orthogonale Komplement ~n von f?Tomit Exkurs SP 2 (10) zu

(3)

und die Abweichung von der Nullhypothese läßt sich nach 4.6.2 (4), (9) darstellen

(4)

Zur Bestimmung der asymptotischen Verteilung von LiDev zeigen wir zunächstn


6.4 Asymptotische Tests für lineare Hypothesen

Nachdem wir bereits gesehen haben, daß der t-Test auch ohne die Normalvertei

lungsannahme (NVY) asymptotisch korrekt ist, wollen wir die analogen Resultate

auch für den F-Test von linearen Hypothesen zeigen. Hierfür setzen in diesem Ab

schnitt - neben den generellen Voraussetzungen aus 6.1 - auch wieder die Gültigkeit

des Modells (LM)W voraus. Der Einfachheit halber wollen wir weiterhin die Covari

ablen-Bedingung (CB) voraussetzen, obwohl sich mit der in 6.2 erläuterten "Teil

folgen-Argumentation" alle Ergebnisse dieses Abschnitts, die den Grenzwert V

nicht enthalten, auch aus der schwächeren Bedingung (CB)* herleiten lassen.

Die linearen Hypothesen formulieren wir hier unter Verwendung des Parameter

vektors (), weil dieser im Gegensatz zum Erwartungsvektor Jl - nicht vom Stichn

probenumfang n abhängt. Für einen linearen Teilraum f?TO

C lRS des Parameterrau-

mes mit

(1) S := Dirn f?T < S o 0

betrachten wir daher die linearen Hypothesen

(LH) " Alternative H : () \t f?To .

Unter der Nullhypothese ist die Schätzungen von () für den Beobachtungsvektor Y n

nach 4.6.2 (7) gegeben durch

(2) mit

~ Unter Verwendung des orthogonalen Komplements f?T

O von f?T

O ergibt sich das

Cn-orthogonale Komplement ~n von f?To mit Exkurs SP 2 (10) zu

(3)

und die Abweichung von der Nullhypothese läßt sich nach 4.6.2 (4), (9) darstellen

(4)

Zur Bestimmung der asymptotischen Verteilung von ~Dev zeigen wir zunächst n


(5) °o(n)p P V ())

n---+ 00 fY '0

(6) 1.. L,Devp V 2

)11 () - p OT () 11 V 'n n n---+ 00 0'0

(7) 11 p;n (0 -()) 112 cf 2 2 mit L,FG = 5 - So.) a . Xl:o.FG0'ln (n) Cn n---+ 00

Hieraus ergibt sich für die asymptotische Verteilung der F-Statistik

L,Dev 2

(8) Unter Ho: () E q-o gilt: F n cf Xl:o.FG- )-n 5 2 ·UG n---+ 00 UGn

(9) Unter H : () \t q-o gilt: Fp

) 00n n---+ 00

Wir wollen jetzt zeigen, daß der F-Test aus Abschnitt 2.6 das asymptotische Niveau

a hat und konsistent ist. Die Schärfe des F-Test zum (nominellen) Niveau a ist

und unter Verwendung der Konvergenz der F-Quantile

(11) Fl:o.FG, n-S;a

1 2n---+ (0) MG· X l:o.FG,a '

ergibt sich für n ---+ 00 die asymptotische Schärfe des F-Tests

(12)unter

unter

HO: () E q-o

H:()\tq-O}.

Folglich konvergiert das Fehlerrisko 1. Art des F-Test gegen a, d.h. sein asymptoti

sches Niveau ist a. Ferner ist der F-Test konsistent, weil seine Schärfe unter der Al

ternative H gegen 1 konvergiert. - Wegen die Quantilkonvergenz (11) kann man für

großes n statt des F-Tests auch den asymptotisch äquivalenten Test verwenden:

(13) Deviance-Chiquadrat-Test zum asymptotischen Niveau a:

Ablehnung von Ho1 2~ L,Dev > X A DG .a ~ ,a

Der F-Test hat jedoch gegenüber diesem Chiquadrat-Test den Vorteil, daß er unter

der Normalverteilungsannahme (NVY) sogar das exakte Niveau a hat.


(5) °o(n) p P V ()

n---+ 00 fY ' 0

(6) 1.. L,Dev p V 2

) 11 () - p OT () 11 V ' n n n---+ 00 0''0

(7) 11 p;n (0 -()) 112 L 2 2 mit L,FG = 5 - So. ) a . Xl:o.FG 0'ln (n) Cn n---+ 00

Hieraus ergibt sich für die asymptotische Verteilung der F-Statistik

L,Dev 2

(8) Unter Ho: () E q-o gilt: F n L Xl:o.FG --

5 2 ·UG n n---+ 00 UG n

(9) Unter H : () \t q-o gilt: F p

) 00 n n---+ 00

Wir wollen jetzt zeigen, daß der F-Test aus Abschnitt 2.6 das asymptotische Niveau

a hat und konsistent ist. Die Schärfe des F-Test zum (nominellen) Niveau a ist

und unter Verwendung der Konvergenz der F-Quantile

(11) F l:o.FG, n-S;a

1 2 n---+ (0) MG· X l:o.FG,a '

ergibt sich für n ---+ 00 die asymptotische Schärfe des F-Tests

unter (12)

unter

HO: () E q-o

H:()\tq-O }.

Folglich konvergiert das Fehlerrisko 1. Art des F-Test gegen a, d.h. sein asymptoti

sches Niveau ist a. Ferner ist der F-Test konsistent, weil seine Schärfe unter der Al

ternative H gegen 1 konvergiert. - Wegen die Quantilkonvergenz (11) kann man für

großes n statt des F-Tests auch den asymptotisch äquivalenten Test verwenden:

(13) Deviance-Chiquadrat-Test zum asymptotischen Niveau a:

Ablehnung von Ho 1 2 ~ L,Dev > X A DG . a ~ ,a

Der F-Test hat jedoch gegenüber diesem Chiquadrat-Test den Vorteil, daß er unter

der Normalverteilungsannahme (NVY) sogar das exakte Niveau a hat.

Literatur

Literatur

16.7.10 L-1

Die folgende Liste enthält nur Quellen, die auch zur Vorbereitung des Kurses verwendet wurden. Weitere Literaturhinweise sind dort angegeben.

Statistik: allgemein

Johnson, N.L., Kotz, S. (1970-72): Distributions in Statistics) Vol. 1-4. New York: Wiley.

Kinder, H.P., Osius, G., Timm, J. (1982): Statistik für Biologen und Mediziner.Braunschweig: Vieweg.

Osius, G. (2006): Einführung in die Statistik (Vorlesungsskript), Institut für Statistik,FB 3, Universität Bremen.

Osius, G. (2009): Statistik in den Naturwissenschaften. Mathematik Arbeitspapiere No.59, Universität Bremen.

Rao, GR. (1973): Linear Statistical Inference and its Applications. New York: Wiley.

Statistik: (lineare) Modelle

Draper, N.R., Smith, H. (1967): Applied Regression Analysis. New York: Wiley.

Habermann, S.J. (1974): The Analysis of Frequency Data. Chicago: University Press.

Miller, A.J. (1990). Subset Seleetion in Regression. Chapman and Hall, London.

Schach, S., Schäfer, T. (1978): Regressions- und Varianzanalyse. Berlin: Springer.

Scheffe, H. (1959): The Analysis of Variance. New York: Wiley.

Seber, G.A.F. (1977): Linear Regression Analysis. New York: Wiley.

Toutenburg, H (2003): Lineare Modelle (2. Auflage).Heidelberg, Physica-Verlag

Wahrscheinlichkeitstheorie

Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.

Billingsley, P., (1979, 2nd edition 1986): Probability and Measure. New York: Wiley

Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.

Analysis, Lineare Algebra und N umerik

Dieudonne, J. (1960): Foundations of Modern Analysis. New York: Academic Press.

Fleming, W. (1977): Funetions of Several Variables. Berlin: Springer

Fischer, W., Gamst, J., Horneffer, K. (1977,1981): Skript zur Analysis) Bd. 1-2.Mathematik-Arbeitspapiere Nr. 4, 23. Universität Bremen.

Fischer, W., Gamst, J., Horneffer, K. (1983,1984): Skript zur Linearen Algebra) Bd. 1-2.Mathematik-Arbeitspapiere Nr. 14, 26. Universität Bremen.

Kowalsky, H.-J. (1972): Lineare Algebra. Berlin: W. de Gruyter

Stoer, J. (1983, 1978): Einführung in die Numerische Mathematik I) II. Berlin: Springer(Heidelberger Taschenbücher 105, 114).

Literatur 16.7.10 L-1

Literatur Die folgende Liste enthält nur Quellen, die auch zur Vorbereitung des Kurses verwendet wurden. Weitere Literaturhinweise sind dort angegeben.

Statistik: allgemein

Johnson, N.L., Kotz, S. (1970-72): Distributions in Statistics) Vol. 1-4. New York: Wiley.

Kinder, H.P., Osius, G., Timm, J. (1982): Statistik für Biologen und Mediziner. Braunschweig: Vieweg.

Osius, G. (2006): Einführung in die Statistik (Vorlesungsskript), Institut für Statistik, FB 3, Universität Bremen.

Osius, G. (2009): Statistik in den Naturwissenschaften. Mathematik Arbeitspapiere No. 59, Universität Bremen.

Rao, GR. (1973): Linear Statistical Inference and its Applications. New York: Wiley.

Statistik: (lineare) Modelle

Draper, N.R., Smith, H. (1967): Applied Regression Analysis. New York: Wiley.

Habermann, S.J. (1974): The Analysis of Frequency Data. Chicago: University Press.

Miller, A.J. (1990). Subset Selection in Regression. Chapman and Hall, London.

Schach, S., Schäfer, T. (1978): Regressions- und Varianzanalyse. Berlin: Springer.

Scheffe, H. (1959): The Analysis of Variance. New York: Wiley.

Seber, G.A.F. (1977): Linear Regression Analysis. New York: Wiley.

Toutenburg, H (2003): Lineare Modelle (2. Auflage).Heidelberg, Physica-Verlag

Wahrscheinlichkeitstheorie

Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.

Billingsley, P., (1979, 2nd edition 1986): Probability and Measure. New York: Wiley

Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.

Analysis, Lineare Algebra und N umerik

Dieudonne, J. (1960): Foundations of Modern Analysis. New York: Academic Press.

Fleming, W. (1977): Functions of Several Variables. Berlin: Springer

Fischer, W., Gamst, J., Horneffer, K. (1977,1981): Skript zur Analysis) Bd. 1-2. Mathematik-Arbeitspapiere Nr. 4, 23. Universität Bremen.

Fischer, W., Gamst, J., Horneffer, K. (1983,1984): Skript zur Linearen Algebra) Bd. 1-2. Mathematik-Arbeitspapiere Nr. 14, 26. Universität Bremen.

Kowalsky, H.-J. (1972): Lineare Algebra. Berlin: W. de Gruyter

Stoer, J. (1983, 1978): Einführung in die Numerische Mathematik I) II. Berlin: Springer (Heidelberger Taschenbücher 105, 114).

Lineare Modelle in der Statistik 8.7.10 Index -1

Index

Der Index enthält für jedes Stichwort nur die wichtigsten (nicht alle) Textstellen, andenen es erwähnt wird.

2-5

2-342-313-18

3-13 5-6 5-72-6 2-73-10

6-122-18 2-20

1-1 1-31-65-7

Gauß-Markov-ModellGauß-Markov-TheoremGauß-Testgeneralisierte InverseGewichtGewichtete Lineare Modellgewichtete minimale Quadrategewichtetes Gauß-Markov-Modell

4-2 4-4 4-81-8gewichtetes Varianz-Modell

Design-Matrix 1-6Deviance 2-9Deviance-Chiquadrat-Test 6-16Diagonale 3-3Dimensionsbedingungen 5-16direkte Parametrisierung 3-7Dispersions-Parameter 1-3 1-8doppelt-nichtzentrale F-Verteilung 4-21doppelt-nichtzentrale t- Verteilung 4-14Eeindimensionale Nullhypotheseeinfach-nichtzentrale F-Verteilungeinfache Covarianz-Analyseeinfache VarianzanalyseEinheitsvektoreinseitiger Gauß-Testeinseitiger t-TestEinzelbeobachtungErwartungs-Vektorexperimentelles Design

FF-Statistik 2-31 3-14 4-20 5-18 6-16F-Test 2-31 4-21 5-16 5-25 6-16Faktor 3-1 3-6 3-9 3-18 3-28Fehlerrisiko, asymptotisches 6-12Fehlervariable 1-1Fehlspezifikation 5-2 5-6 5-10FG 2-10Freiheitsgrad 4-6- des Modells 2-10Gg-InverseGauß-Markov-Covarianzstruktur

2-1 4-1 5-12-1 4-3

2-86-122-51-81-44-8

4-55-7

5-7 5-11

Covariablen-MatrixCovariablen-VektorCovarianz-Analyse- einfacheCovarianz-ModellDD-orthogonale ProjektionDesign, experimentellesDesign, randomisiertes

Aabsteigende sequentielle Testprozedur

5-264-1

4-1 4-3 4-92-31 4-20

5-14

Bedingtes Lineares ModellBeobachtungsvektorbesser (Schätzer)BestimmtheitsmaßBLUEBonferroni-KonfidenzintervalleBonferroni-UngleichungCCovariablen-Bedingung

6-3 6-5 6-9 6-10 6-151-6 2-11-1 1-6

3-193-181-8

Aitken-CovarianzstrukturAitken-ModellAnalyse der DevianceAnpassungstestAsymptotik-- wachsender Stichprobenumfang 6-2asymptotische Normalverteilung 6-8 6-10asymptotische Schärfe 6-11 6-16asymptotische Sicherheit 6-12asymptotische Verteilung 6-10 6-16asymptotischer Konfidenzbereich 6-14asymptotischer t-Test 6-12asymptotischer Test 6-12 6-16asymptotisches Fehlerrisiko 6-12asymptotisches Niveau 6-11 6-16aufsteigende sequentielle Testprozedur

5-25

BBedingte Normalverteilung 1-5bedingtes homogenes Varianzmodell 1-5Bedingtes Klassisches Lineares Modell

1-51-25-7 5-11

1-62-8

2-322-8

4-284-28

Lineare Modelle in der Statistik 8.7.10 Index -1

Index

Der Index enthält für jedes Stichwort nur die wichtigsten (nicht alle) Textstellen, an denen es erwähnt wird.

A absteigende sequentielle Testprozedur

5-26 Aitken-Covarianzstruktur Aitken-Modell

4-1 4-1 4-3 4-9

Analyse der Deviance 2-31 4-20 An passungstest 5-14 Asymptotik-- wachsender Stichprobenumfang 6-2 asymptotische Normalverteilung 6-8 6-10 asym ptotische Schärfe 6-11 6-16 asymptotische Sicherheit 6-12 asymptotische Verteilung 6-10 6-16 asymptotischer Konfidenzbereich 6-14 asym ptotischer t-Test 6-12 asym ptotischer Test 6-12 6-16 asym ptotisches Fehlerrisiko 6-12 asymptotisches Niveau 6-11 6-16 aufsteigende sequentielle Testprozedur

5-25

B Bedingte Normalverteilung 1-5 bedingtes homogenes Varianzmodell 1-5 Bedingtes Klassisches Lineares Modell

Bedingtes Lineares Modell Beobachtungsvektor besser (Schätzer) Bestimmthei tsmaß BLUE

1-5 1-25-7 5-11

1-6 2-8

2-32 2-8

Bonferroni-Konfidenzintervalle 4-28 Bonferroni-Ungleichung 4-28 C Covariablen-Bedingung

6-3 6-5 6-9 6-10 6-15

Design-Matrix 1-6 Deviance 2-9 Deviance-Chiquadrat-Test 6-16 Diagonale 3-3 Dimensionsbedingungen 5-16 direkte Parametrisierung 3-7 Dispersions-Parameter 1-3 1-8 doppelt-nichtzentrale F-Verteilung 4-21 doppelt-nichtzentrale t- Verteilung 4-14 E eindimensionale Nullhypothese 2-34 einfach-nichtzentrale F-Verteilung 2-31 einfache Covarianz-Analyse 3-18 einfache Varianzanalyse 3-13 5-6 5-7 Einheitsvektor 2-6 2-7 3-10 einseitiger Gauß-Test einseitiger t-Test Einzel b eo bach tung Erwartungs-Vektor experimentelles Design

F

6-12 2-18 2-20

1-1 1-3 1-6 5-7

F-Statistik F-Test Faktor

2-31 3-14 4-20 5-18 6-16 2-314-21 5-16 5-25 6-16

3-1 3-6 3-9 3-18 3-28 Fehlerrisiko, asymptotisches 6-12 Fehlervariable 1-1 Fehlspezifikation 5-2 5-6 5-10 FG 2-10 Freiheitsgrad 4-6 - des Modells 2-10 G g-Inverse 2-5 Gauß-Mar kov -Covarianzstruktur

2-1 4-1 5-1 Gauß-Markov -Modell

Covariablen-Matrix Covariablen-Vektor Covarianz-Analyse - einfache Covarianz-Modell D

1-6 2-1 Gauß-Markov-Theorem 1-1 1-6 Gauß-Test

2-1 4-3 2-8

6-12 2-5 1-8 1-4

D-orthogonale Projektion Design, experimentelles Design, randomisiertes

3-19 3-18 1-8

4-5 5-7

5-7 5-11

generalisierte Inverse Gewicht Gewichtete Lineare Modell gewichtete minimale Quadrate 4-8 gewichtetes Gauß-Markov-Modell

4-2 4-4 4-8 gewichtetes Varianz-Modell 1-8

Lineare Modelle in der Statistik 8.7.10 Index - 2

3-23-263-19

4-23-152-212-21

1-8

5-321-3

4-22 6-15

2-103-24

3-13-1 3-4

2-3 4-52-9

5-3 5-6

2-3 2-14

5-7 5-115-65-7 5-11

5-71-72-4 6-3

2-4 5-33-8

2-265-10 5-11

2-52-9

5-195-20

2-92-9 4-7 5-19

5-31

2-216-11 6-16

2-35 4-24 3-164-156-134-314-30

SSchärfe- asymptotische- des F-Test- des t-TestSchärfeapproximationScheffe-IntervalleScheffe-Konfidenzintervalle

Qquadratische Form: Erwartungswertquadratisches Regressionsmodellqualitative Variablequantitative VariableRrandomisiertes DesignRandomisierungRandomisierungsverteilungRangbedingungRBReferenzstufeRegression- lineareRegressionsmodellResidual Sum of SquaresResiduenanalyseResiduenplotsResiduenvektorResiduumRückwärts-Suchverfahren

MQ-SchätzungNnichtzentrale t-Verteilung 2-172-20Nichtzentralität 2-17 2-20 2-30 6-13Niveau, asymptotisches 6-11 6-16Norm 4-5Normalen-Gleichung 2-4Normalverteilung 4-9- asymptotische 6-8 6-10Normalverteilungs-Annahme 2-2 5-1nulldimensionales Modell 2-28NVY 2-13 5-1oorthogonale Projektionorthogonales KomplementOrthogonalitätsbedingungPP-Level 2-17 2-18P-Wert 2-172-182-324-21Parametrisierung. direkte 3-7Polynom-Regressionsmodell 3-6 2-6Power 2-21

3-21-3 1-9 2-29

1-52-13

4-26 4-276-14

2-192-204-176-144-28

6-11 6-166-8 6-9

3-3 5-183-8

3-27

MMaximum-Likelihood 2-14 4-10Maximum-Likelihood-Schätzung 2-14 4-10Maximum-Norm 6-4Mindestumfang 3-17minimale Quadrate 2-3minimale Quadrate-Schätzung 2-3ML-Schätzung 2-14Modell, vollständiges 3-9Modell-Such-Verfahren 5-23 5-28Modellraum des Erwartungswerts 1-7

GewichtsfaktorenGruppenunterschiedeGüteGütefunktionGVarMHhierarchisches Modellhomogenes VarianzmodellHypothese, lineareIIndikatorvariableInteraktionIntra-Class-RegressionsmodelKKlassifizierungKlassisches Lineares Modell- bedingtesKLMKonfidenzbereich- asymptotischerKonfidenzgrenzeKonfidenzintervallkonsistentKonsistenzkonstantes ModellKontrast-ParametrisierungKrümmungs-ParameterLLH 4-194-24Likelihood 2-14Likelihood-Quotienten-Test 2-32lineare Hypothese 2-28 4-19 4-22 6-15lineare Regression 5-10 5-11lineares Modell 2-1- bedingtes 1-2 5-7 5-11- zufälliges 1-11-4 5-9 5-13lineares Regressionsmodell 3-6 3-19lineares Testproblem 2-28 4-19Linearkombination 2-19 6-10Linksinverse 2-4


Gewichtsfaktoren 4-2 Gru ppenunterschiede 3-15 Güte 2-21 Gütefunktion 2-21 GVarM 1-8 H hierarchisches Modell 5-32 homogenes Varianzmodell 1-3 Hypothese, lineare 4-22 6-15 I Indikatorvariable 3-2 Interaktion 3-26 Intra-Class-Regressionsmodel 3-19 K Klassifizierung 3-2 Klassisches Lineares Modell 1-3 1-9 2-29 - bedingtes 1-5 KLM 2-13 Konfidenzbereich 4-26 4-27

8.7.10

MQ-Schätzung N

Index - 2

2-3 2-14

nichtzentrale t-Verteilung 2-172-20 Nichtzentralität 2-17 2-20 2-30 6-13 Niveau, asymptotisches 6-11 6-16 Norm 4-5 Normalen-Gleichung 2-4 Normalverteilung 4-9 - asym ptotische 6-8 6-10 Normalverteilungs-Annahme 2-2 5-1 nulldimensionales Modell 2-28 NVY 2-13 5-1 0 orthogonale Projektion 2-3 4-5 orthogonales Komplement 2-9 Orthogonali täts bedingung 5-3 5-6 P P-Level 2-17 2-18 P-Wert 2-172-182-324-21

- asym ptotischer Konfidenzgrenze Konfidenzintervall konsistent

6-14 Parametrisierung. direkte 3-7 2-19 2-20 4-176-14 Polynom-Regressionsmodell 3-6 2-6

4-28 Power 2-21 6-11 6-16 Q

Konsistenz 6-8 6-9 quadratische Form: Erwartungswert 2-10 konstantes Modell Kontrast-Parametrisierung Krümmungs-Parameter

3-3 5-18 quadratisches Regressionsmodell 3-24 3-8 qualitative Variable 3-1

3-27 quantitative Variable 3-1 3-4 L LH Likelihood

4-19 4-24 2-14

Likelihood-Quotienten-Test 2-32 lineare Hypothese 2-28 4-19 4-22 6-15 lineare Regression 5-10 5-11 lineares Modell 2-1 - bedingtes 1-2 5-7 5-11 - zufälliges 1-11-4 5-9 5-13 lineares Regressionsmodell 3-6 3-19 lineares Testproblem 2-28 4-19 Linearkombination 2-19 6-10 Linksinverse M

2-4

Maximum-Likelihood 2-14 4-10 Maximum-Likelihood-Schätzung 2-14 4-10 Maximum-Norm 6-4 Mindestumfang 3-17 minimale Quadrate 2-3 minimale Quadrate-Schätzung 2-3 ML-Schätzung 2-14 Modell, vollständiges 3-9 Modell-Such-Verfahren 5-23 5-28 Modellraum des Erwartungswerts 1-7

R randomisiertes Design Randomisierung Randomisierungsverteilung Rangbedingung RB Referenzstufe Regression - lineare Regressionsmodell Residual Sum of Squares Resid uenanalyse Residuen plots Resid uenvektor Residuum Rückwärts-Suchverfahren S Schärfe - asym ptotische - des F-Test - des t-Test Schärfeapproximation Scheffe-Intervalle Scheffe-Konfidenzintervalle

5-7 5-11 5-65-7 5-11

5-7 1-72-4 6-3

2-4 5-3 3-8

2-26 5-10 5-11

2-5 2-9

5-19 5-20

2-9 2-9 4-7 5-19

5-31

2-21 6-11 6-16

2-35 4-24 3-16 4-15 6-13 4-31 4-30

1-81-71-81-8

6-116-124-154-153-223-14

6-12 6-165-23

2-17 2-19 4-13


Score-Vektor 6-8sequentielle Testprozedur 5-23- absteigende 5-26- aufsteigende 5-25Sicherheit, asymptotische 6-14Signifikanzniveau 2-172-182-324-21Skalarprodukt 4-5Skalenparameter 1-3skaliertes Residuum 5-19SKLM 2-13Spur-Operator 2-10standardisiertes Residuum 5-20Streuungszerlegung 2-30 4-20 5-17Struktur-Matrix 1-6Stufe eines Faktors 3-2

Tt-Test- asymptotischer- einseitig- zweiseitigTafel der CovarianzanalyseTafel der VarianzanalyseTest, asymptotischerTestprozedur, sequentielleTeststatistikUUnAbUnabhängigkeitUnKorUnkorreliertheit

vVarianzanalyse, einfache

3-133-16 5-6 5-7verallgemeinerter Minimale Quadrate-

Schätzer 4-5verallgemeinerte Inverse 2-5 4-5Verteilung, asymptotische 6-16VMQ-Schätzer 4-5vollständiges Modell 2-28 3-6 3-9 3-10 3-30Vorwärts-Suchverfahren 5-30

WWechselwirkung 3-20 3-25 3-26 3-29Wechselwirkungsmodell 3-26 3-27Wurzel einer Matrix 4-3ZZentrierung 1-1Zufälliges Lineares Modell 1-11-4 5-9 5-13zweiseitiger Gauß-Test 6-12zweiseitiger t-Test 2-17 2-18 2-20 4-15

8.7.10 Index - 3Lineare Modelle in der Statistik

Score-Vektor 6-8 sequentielle Testprozedur 5-23 - absteigende 5-26 - aufsteigende 5-25 Sicherheit, asymptotische 6-14 Signifikanzniveau 2-172-182-324-21 Skalarprodukt 4-5 Skalenparameter 1-3 skaliertes Residuum 5-19 SKLM 2-13 Spur-Operator 2-10 standardisiertes Residuum 5-20 Streuungszerlegung 2-30 4-20 5-17 Struktur-Matrix 1-6 Stufe eines Faktors 3-2

T t-Test 6-11 - asym ptotischer 6-12 - einseitig 4-15 - zweiseitig 4-15 Tafel der Covarianzanalyse 3-22 Tafel der Varianzanalyse 3-14 Test, asym ptotischer 6-12 6-16 Testprozedur, sequentielle 5-23 Teststatistik 2-17 2-19 4-13 U UnAb 1-8 Unabhängigkeit 1-7 UnKor 1-8 Unkorreliertheit 1-8

V Varianzanalyse, einfache

3-133-16 5-6 5-7 verallgemeinerter Minimale Quadrate-

Schätzer 4-5 verallgemeinerte Inverse 2-5 4-5 Verteilung, asymptotische 6-16 VMQ-Schätzer 4-5 vollständiges Modell 2-28 3-6 3-9 3-10 3-30 Vorwärts-Suchverfahren 5-30

W Wechselwirkung 3-20 3-25 3-26 3-29 Wechselwirkungsmodell 3-26 3-27 Wurzel einer Matrix 4-3 Z Zentrierung 1-1 Zufälliges Lineares Modell 1-11-4 5-9 5-13 zweiseitiger Gauß-Test 6-12 zweiseitiger t-Test 2-17 2-18 2-20 4-15

8.7.10 Index - 3