Einfuhrung in die¨ Numerische Mathematik (Numerik 0)lehre/notes/num0/numerik0.pdf · Einfuhrung in...

Einfuhrung in dieNumerische Mathematik

(Numerik 0)

Rolf Rannacher

Institut fur Angewandte Mathematik

Universitat Heidelberg

Vorlesungsskriptum SS 2005

27. April 2006

ii

Adresse des Autors:

Institut fur Angewandte Mathematik

Universitat Heidelberg

Im Neuenheimer Feld 293/294

D-69120 Heidelberg, Deutschland

[email protected]

http://numerik.uni-hd.de/

Inhaltsverzeichnis

Literaturverzeichnis vii

0 Einleitung 1

1 Fehleranalyse 5

1.1 Zahldarstellung und Rundungsfehler . . . . . . . . . . . . . . . . . . . . . 5

1.2 Konditionierung numerischer Aufgaben . . . . . . . . . . . . . . . . . . . . 8

1.2.1 Arithmetische Grundoperationen . . . . . . . . . . . . . . . . . . . 11

1.2.2 Losung quadratischer Gleichungen . . . . . . . . . . . . . . . . . . . 12

1.3 Stabilitat numerischer Algorithmen . . . . . . . . . . . . . . . . . . . . . . 13

1.3.1 Losung quadratischer Gleichungen . . . . . . . . . . . . . . . . . . . 13

1.3.2 Auswertung arithmetischer Ausdrucke . . . . . . . . . . . . . . . . 14

1.3.3 Auswertung von Polynomen . . . . . . . . . . . . . . . . . . . . . . 15

1.4 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Interpolation und Approximation 23

2.1 Polynominterpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.1.1 Auswertung von Polynomen . . . . . . . . . . . . . . . . . . . . . . 27

2.1.2 Interpolation von Funktionen . . . . . . . . . . . . . . . . . . . . . 29

2.1.3 Hermite-Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2 Extrapolation zum Limes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2.1 Fehlerkontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.3 Spline-Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.4 Trigonometrische Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.4.1 “Schnelle” Fourier-Transformation (“FFT”) . . . . . . . . . . . . . 54

2.5 Gauß-Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.6 Tschebyscheff-Approximation . . . . . . . . . . . . . . . . . . . . . . . . . 68

2.6.1 “Optimale” Lagrange-Interpolation . . . . . . . . . . . . . . . . . . 71

2.7 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3 Numerische Integration 79

3.1 Interpolatorische Quadraturformeln . . . . . . . . . . . . . . . . . . . . . . 79

iii

iv INHALTSVERZEICHNIS

3.2 Gaußsche Quadraturformeln . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.3 Das Rombergsche Integrationsverfahren . . . . . . . . . . . . . . . . . . . . 94

3.4 Praktische Aspekte der Integration . . . . . . . . . . . . . . . . . . . . . . 97

3.5 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4 Lineare Gleichungssysteme I (Direkte Verfahren) 101

4.1 Storungstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.1.1 Vektor- und Matrizennormen . . . . . . . . . . . . . . . . . . . . . 102

4.1.2 Eigenwerte und Skalarprodukte . . . . . . . . . . . . . . . . . . . . 105

4.1.3 Fehleranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.2 Eliminationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

4.2.1 Konditionierung der Gauß-Elimination . . . . . . . . . . . . . . . . 118

4.2.2 Nachiteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

4.2.3 Determinantenberechnung . . . . . . . . . . . . . . . . . . . . . . . 121

4.2.4 Rangbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

4.2.5 Inversenberechnung (Gauß-Jordan-Algorithmus) . . . . . . . . . . . 122

4.2.6 Direkte LR-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . 127

4.3 Spezielle Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 129

4.3.1 Bandmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

4.3.2 Diagonaldominante Matrizen . . . . . . . . . . . . . . . . . . . . . . 131

4.3.3 Positiv definite Matrizen . . . . . . . . . . . . . . . . . . . . . . . . 132

4.4 Nicht regulare Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

4.4.1 Gaußsche Ausgleichsrechnung . . . . . . . . . . . . . . . . . . . . . 136

4.4.2 Householder-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 141

4.5 Die Singularwertzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

4.6 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

5 Nichtlineare Gleichungen 155

5.1 Das Newton-Verfahren im R1 . . . . . . . . . . . . . . . . . . . . . . . . . 156

5.2 Das Konvergenzverhalten iterativer Verfahren . . . . . . . . . . . . . . . . 163

5.3 Interpolationsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

5.4 Methode der sukzessiven Approximation im Rn . . . . . . . . . . . . . . . 172

5.5 Das Newton-Verfahren im Rn . . . . . . . . . . . . . . . . . . . . . . . . . 178

INHALTSVERZEICHNIS v

5.5.1 Gedampftes Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . 182

5.6 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

6 Lineare Gleichungssysteme II (Iterative Verfahren) 189

6.1 Fixpunktiterationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

6.1.1 Jacobi- und Gauß-Seidel-Verfahren . . . . . . . . . . . . . . . . . . 196

6.1.2 SOR-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

6.2 Abstiegsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

6.2.1 Gradienten-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 205

6.2.2 CG-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

6.2.3 Allgemeinere CG-Verfahren und Vorkonditionierung . . . . . . . . . 214

6.3 Ein Modellproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

6.4 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

7 Matrizeneigenwertaufgaben 225

7.1 Konditionierung des Eigenwertproblems . . . . . . . . . . . . . . . . . . . . 227

7.2 Iterative Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

7.3 Reduktionsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

7.4 Tridiagonal- und Hessenberg-Matrizen . . . . . . . . . . . . . . . . . . . . 240

7.4.1 LR- und QR-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 240

7.4.2 Verfahren von Hyman . . . . . . . . . . . . . . . . . . . . . . . . . 244

7.4.3 Verfahren der Sturmschen Kette . . . . . . . . . . . . . . . . . . . . 246

7.5 Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

8 Lineare Optimierung 251

8.1 Lineare Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

8.2 Das Simplex-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

Index 268

vi INHALTSVERZEICHNIS

Literaturverzeichnis

[1] J. Stoer, und R. Bulirsch: Einfuhrung in die Numerische Mathematik, Teil I (1. Auf-lage 1971, J. Stoer), Teil II (1. Auflage 1993, J. Stoer und R. Bulirsch); Springer(Neuauflagen).

[2] G. Hammerlin und K.-H. Hoffmann: Numerische Mathematik; Springer 1989.

[3] P. Deuflhard und A. Hohmann: Numerische Mathematik 1; Teil I (1. Auflage 1991),W. de Gruyter (3. Auflage, 2002).

[4] A. Quarteroni, R. Sacco und F. Saleri: Numerische Mathematik 1/2; Springer (Uber-setzung 2002).

[5] R. Schaback, und H. Werner: Praktische Mathematik I/II; Springer Hochschultext,1. Auflage 1970 (Neuauflagen).

[6] F. Stummel, und K. Hainer: Praktische Mathematik; B.G. Teubner, 1. Auflage 1978(Neuauflage).

[7] L. Collatz und W. Wetterling: Optimierungsaufgaben; Springer 1966.

vii

viii LITERATURVERZEICHNIS

0 Einleitung

Aufgabenstellung der “numerischen” Mathematik ist die Entwicklung von Methoden, mitdenen die Losungen mathematischer Problemstellungen effektiv berechnet bzw. moglichstmit Fehlerangabe angenahert werden konnen. Bis in die 50-er Jahre unseres Jahrhundertszeichneten sich erfolgreiche praktische Mathematiker durch ein besonderes Geschick aus,mit großen Formel- und Datenmengen umzugehen. Seit dem Aufkommen der immer lei-stungsfahigeren elektronischen Rechenanlagen haben sich die Gewichte verschoben. Die“praktische” Mathematik wurde zur “numerischen” Mathematik, d.h. der Theorie der aufDigitalrechnern realisierbaren numerischen Algorithmen. Eins der Hauptanwendungsge-biete numerischer Methoden ist in der Simulation komplexer Naturvorgange auf Rechen-anlagen. Man mochte teure Experimente wie z.B. Windkanalversuche bei der Flugzeug-konstruktion oder Festigkeitstests bei Betonkonstruktionen durch beliebig oft und schnellwiederholbare Modellrechnungen ersetzen. Die dabei verwendeten numerischen Verfahrensind dabei aus einer Reihe von einfachen Bausteinen zusammengesetzt (z.B. Integralbe-rechnungen, Losung linearer Gleichungssysteme, Berechnung von Nullstellen etc.). Dieseeinfuhrende Vorlesung befaßt sich vor allem mit diesen elementaren Bausteinen, derenUrsprunge meist noch in der Vor-Computer-Zeit liegen.

Zur numerischen Losung eines Problems der Praxis gehort unbedingt auch eine Infor-mation uber den dabei gemachten Fehler, um das Resultat richtig einschatzen zu konnen.Der Gesamtfehler setzt sich zusammen aus den “Modellfehlern”:

– Idealisierungsfehler: Zur Beschreibung eines physikalischen Sachverhalts wird einmathematisches Modell gebildet. Bei der mathematischen Formulierung mussen Ver-einfachungen (z.B. Linearisierungen) vorgenommen werden.

– Datenfehler: Die Daten eines mathematischen Modells (z.B. Koeffizienten einer Dif-ferentialgleichung) sind aufgrund ungenauer Kenntnis von Materialeigenschaftennotwendig mit Fehlern behaftet.

und den “numerischen” Fehlern:

– Diskretisierungsfehler: Kontinuierliche Prozesse werden durch endliche ersetzt (z.B.Approximation des Riemannschen Integrals durch Riemannsche Summen).

– Abbruchfehler: Unendliche Algorithmen werden nach endlich vielen Schritten abge-brochen (z.B. die Iteration xn+1 = 1

2(xn + a/xn) → √

a (n→ ∞) ) .

– Rundungsfehler: Auf der Rechenanlage mussen alle Rechnungen auf einem endlichenZahlbereich durchgefuhrt werden (z.B. 1/3 ∼ 0, 3 . . . 3 ).

Das Zusammenwirken all dieser Fehlereinflusse soll anhand des folgenden, einfachen Bei-spiels demonstriert werden:

Ein Stahlseil der Lange L = 1 sei an den Spitzen zweier Masten befestigt, so daß esunter Einwirkung der Schwerkraft (fast) straff gespannt erscheint. Gefragt ist nun nach

1

2 Einleitung

der Auslenkung des Seils aus dieser Ruhelage, wenn ein Trapezkunstler in seiner Mittesteht.

-?

t

...........................................................................................................................................................................................................................................................................................................................................................

.......................................................................................................................................................................................................................................

Punktbelastung f(t)

P0 1

Auslenkung y(t)

Das physikalische Modell besteht in der (wohl begrundeten) Annahme, daß sich dietatsachliche Auslenkung als Graph einer Funktion y(t) beschreiben laßt, fur welche diesog. “potentielle Gesamtenergie” (c eine Materialkonstante, f(t) Belastungsdichte)

E(y) =c

2

1∫

0

y′(t)2

√

1 + y′(t)2dt−

1∫

0

f(t)y(t) dt

einen minimalen Wert annimmt. Dies sehen wir als das “exakte” mathematische Modelldes angegebenen physikalischen Sachverhalts an. Zur Vereinfachung des Problems wirdnun angenommen, daß die Belastung f(t) so klein ist, daß nur kleine Auslenkungsgradi-enten auftreten, d.h.: |y′(t)| ≪ 1 . In diesem Fall kann das Funktional E(y) vereinfachtwerden zu

E(y) =c

2

1∫

0

y′(t)2 dt−1∫

0

f(t) y(t) dt .

Dies ist nun das eigentliche “mathematische” Problem, mit dem der “praktische” Ma-thematiker konfrontiert ist. Der bis hierher entstandene Modellfehler ist im Augenblicknicht Gegenstand unseres Interesses. Als notwendige (und hinreichende) Bedingung furdie Minimalitatseigenschaft der Funktion y(t) erhalt man durch Variation

d

dαE(y + αϕ) |α=0 = 0 ∀ ”zulassigen”ϕ = ϕ(t)

die folgende (lineare) Differentialgleichung mit Randbedingungen:

−cy′′(t) = f(t) , t ∈ (0, 1) , y(0) = y(1) = 0 .

Zur Losung des Problems wird nun eine Diskretisierung vorgenommen:

ti ≡ ih , i = 0, . . . , N + 1 , fi ≡ f(ti) , h = 1/(N + 1) ,

y′′(ti) ∼1

h2y(ti+1) − 2y(ti) + y(ti−1) ,

die auf ein lineares Gleichungssystem

3

c

h2

2 −1 0

−1 2. . .

. . .. . .

2 −1

0 −1 2

η1

...

ηN

=

f1

...

fN

,

bzw. abgekurzt Aη = b , fur den Vektor η = (η1, . . . , ηN)T der Naherungswerte zu y(ti)fuhrt. Dieses Gleichungssystem besitzt wegen (det(A) 6= 0) eine eindeutige Losung. Diesekann aufgrund der Identitat

Dη = Dη − Aη + b , D ≡ c

h2

2 0. . .

0 2

,

ausgehend von einem Startvektor η(0) ∈ RN durch die Iteration

η(n+1) = η(n) −D−1[Aη(n) − b]

angenahert werden. Man kann zeigen, daß η(n) → η (n → ∞) konvergiert. In der Pra-xis muß die Iteration aber nach endlich vielen Schritten mit einem Naherungswert η(k)

abgebrochen werden. Tatsachlich wird aber auf dem Rechner statt η(k) eine Naherungη(k) geliefert, da alle arithmetischen Operationen auf einem endlichen Zahlbereich durch-gefuhrt werden. Von diesem Ergebnis

η(k) = (η(k)1 , . . . , η(k)

n )T

sollen nun Ruckschlusse auf die zu erwartende Auslenkung des Stahlseils gewonnen wer-den. Der dabei aufgetretene Fehler setzt sich zusammen aus

– Diskretisierungsfehler: maxi=1,...,N |ηi − y(ti)| .

– Abbruchfehler: maxi=1,...,N |η(k)i − ηi| .

– Rundungsfehler: maxi=1,...,N |η(k)i − η

(k)i | .

4 Einleitung

1 Fehleranalyse

1.1 Zahldarstellung und Rundungsfehler

Bei der Verarbeitung numerischer Algorithmen auf dem “Computer” treten zwangslaufigFehler auf, die durch die Endlichkeit des Bereiches der auf einer solchen Maschine darstell-baren Zahlen bedingt sind. Zur Approximation von reellen Zahlen und der elementarenarithmetischen Operationen zwischen ihnen werden sog. “Maschinenzahlen” und “Ma-schinenoperationen” verwendet, welche auf dem Computer realisierbar sind.

Eine “(normalisierte) Gleitkommazahl” zur Basis b ∈ N, b ≥ 2, ist eine Zahl x ∈ R

dargestellt in der Form

x = ±m · b±e (1.1.1)

mit der “Mantisse” m = m1b−1 + . . . + mrb

−r + . . . ∈ R, und dem “Exponenten” e =es−1b

s−1 + . . . + e0b0 ∈ N ∪ 0 , wobei mi, ei ∈ 0, . . . , b − 1 . Fur x 6= 0 ist diese

Darstellung durch die Normierungsvorschrift m1 6= 0 eindeutig bestimmt. Fur x = 0setzt man m = 0 .

Bemerkung 1.1: Die Verwendung der Gleitkommadarstellung im numerischen Rechnenist wesentlich, um Zahlen sehr unterschiedlicher Große verarbeiten zu konnen; z.B. Ruhe-masse Elektron M0 = 9.11 · 10−28 g , Lichtgeschwindigkeit c = 2.998 · 1010 cm/sec .

Auf dem Rechner stehen fur die Darstellung von reellen Zahlen nur endlich viele Stellenzur Verfugung:

r Ziffern + 1 Vorzeichen fur die Mantisse

s Ziffern + 1 Vorzeichen fur den Exponenten.

Die Speicherung einer solchen Zahl

x = ± [m1b−1 + . . .+mrb

−r] · b±[es−1bs−1+...+e0b0]

erfolgt dann in der Form x : (±) [m1 . . . mr](±)[es−1 . . . e0] . Aus technischen Grundenverwenden moderne Rechner eine Zahldarstellung mit den Basen b = 2 (Dualsystem)oder b = 16 (Sedezimalsystem) oder Mischungen davon. Die in der obigen Form aufeinem Rechner dargestellten (rationalen) Zahlen werden “Maschinenzahlen” genannt; siebilden das sog. “numerische Gleitkommagitter” A = A(b, r, s) . Da A endlich ist, gibt eseine großte/kleinste darstellbare Zahl:

xmax / min = ± (b− 1)b−1 + . . .+ b−r · b(b−1)bs−1+...+b0 = ± (1 − b−r) · bbs−1

sowie eine kleinste positive/großte negative darstellbare Zahl:

xposmin/negmax = ± b−1 · b−(b−1)bs−1+...+b0 = ± b−bs

.

5

6 Fehleranalyse

Beispiel 1.1: Beim sog. “IEEE-Format” (ublich auf UNIX-Workstations) werden zurDarstellung von doppelt genauen Zahlen (REAL*8 in FORTRAN) 64 Bits (=8 Bytes)verwendet:

x = ±m · 2c−1022 .

Dabei stehen 1 Bit fur das Vorzeichen, 52 Bits fur die Mantisse m = 2−1 + m22−2 +

. . .+m532−53 (die erste Mantissenstelle ist aus Normierungsgrunden stets 1) und 11 Bits

fur die sog. “Charakteristik” c = c020 + . . . + c102

10 ∈ [1, 2046] zur Verfugung, wobeimi , ci ∈ 0, 1 Dualzahlen sind. Durch die vorzeichenfreie Darstellung des Exponentenin der Form e = c − 1022 wird der Zahlbereich um eine Zweierpotenz erweitert. FurREAL*8-Zahlen gilt somit:

xmax ∼ 21024 ∼ 1.8 · 10308 , xmin ∼ −21024 ∼ −1.8 · 10308 ,

xposmin = 2−1022 ∼ 2.2 · 10−308 , xnegmax = −2−1022 ∼ −2.2 · 10−308 .

Die ausgenommenen Werte c = 0 und c = 2047 der Charakteristik werden zur Darstel-lung der Null (m2 = . . . = m53 = 0, c0 = . . . = c10 = 0) sowie einer Sondergroße “nan”(not a number) verwendet.

Die Ausgangsdaten x ∈ R einer numerischen Aufgabe und die Zwischenergebnisseeiner Rechnung mussen durch Maschinenzahlen dargestellt werden. Fur Zahlen innerhalbdes “zulassigen” Bereiches

D := [xmin, xnegmax] ∪ 0 ∪ [xposmin, xmax]

wird eine “Rundungsoperation” rd : D → A verwendet, an die man die naturliche For-derung stellt

|x− rd(x)| = miny∈A

|x− y| ∀x ∈ D . (1.1.2)

Dies ist beim IEEE-Format z.B. realisiert durch “naturliche” Rundung:

rd(x) = sign(x) ·

0.m1 · · ·m53 · 2e , fur m54 = 0

(0.m1 · · ·m53 + 2−53) · 2e , fur m54 = 1 .

Andere manchmal vorkommende Rundungsarten, welche (1.1.2) nicht erfullen, werdenim folgenden nicht betrachtet. Fur Zahlen außerhalb des zulassigen Bereiches D (z.B.als Resultat einer Division durch Null) wird von einigen Maschinen Exponentenuberlauf(“overflow” oder “underflow”) registriert und die Verarbeitung abgebrochen, wahrend imIEEE-Format in diesem Fall mit der unbestimmten Variable “nan” weitergearbeitet wird.

Der mit der Rundung verbundene sog. “absolute Rundungsfehler”

|x− rd(x)| ≤ 1

2b−rbe (1.1.3)

1.1 Zahldarstellung und Rundungsfehler 7

hangt jeweils noch vom Exponenten e von x ab. Dagegen ist der sog. “relative Run-dungsfehler”

∣∣∣∣

x− rd(x)

x

∣∣∣∣≤ 1

2

b−rbe

|m|be ≤ 1

2b−r+1 (1.1.4)

fur x ∈ D, x 6= 0 , beschrankt durch die sog. “Maschinengenauigkeit” eps := 12b−r+1 .

Fur x ∈ D ist dann offenbar

rd(x) = x(1 + ε) mit |ε| ≤ eps . (1.1.5)

Bei Anwendung des IEEE-Formats ist der maximale relative Rundungsfehler

epsREAL∗8 ≤1

22−52 ∼ 10−16 .

Die arithmetischen Grundoperationen ∗ ∈ +,−, ·, / werden auf der Rechenanlagedurch entsprechende “Maschinenoperationen” ⊙∗ ∈ ⊕,⊖,⊙,⊘ ersetzt, welche Maschi-nenzahlen wieder in Maschinenzahlen uberfuhren. Dies ist meist fur x, y ∈ A im Fallex ∗ y ∈ D gemaß

x⊙∗ y = rd(x ∗ y) = (x ∗ y)(1 + ε) , |ε| ≤ eps , (1.1.6)

realisiert. Dazu werden die Operationen maschinenintern (meist unter Verwendung einererhohten Stellenzahl fur die Mantisse) ausgefuhrt, in normalisierte Form gebracht unddann gerundet. Im Fall x∗ y /∈ D erscheint meist eine Fehlermeldung. Bei dem Gebrauchvon “IF-Abfragen” in Programmen ist zu berucksichtigen, daß die Maschinenoperationen⊕ und ⊙ dem Assoziativgesetz und dem Distributivgesetz nur naherungsweise genugen;i. Allg. ist fur x, y, z ∈ A :

(x⊕ y) ⊕ z 6= x⊕ (y ⊕ z) , (x⊕ y) ⊙ z 6= (x⊙ z) ⊕ (y ⊙ z) .

Insbesondere gilt i. Allg. fur Zahlen x, y ∈ A :

x⊕ y = x, fur |y| ≤ |x|b

eps. (1.1.7)

Hieraus laßt sich fur einen konkreten Rechner die Große der Maschinengenauigkeit epsexperimentell ermitteln.

8 Fehleranalyse

1.2 Konditionierung numerischer Aufgaben

Eine numerische Aufgabe (z.B. Bestimmung einer Nullstelle, Losung eines linearen Glei-chungssystems etc.) wird als “gut konditioniert” bezeichnet, wenn eine kleine Storung derEingangsdaten auch nur eine kleine Anderung der Ergebnisse zur Folge hat.

Beispiel 1.2: Als Beispiel betrachten wir das lineare Gleichungssystem

[

1.2969 0.8648

0.2161 0.1441

] [

x

y

]

=

[

0.8642

0.1440

]

mit der (eindeutig bestimmten) Losung (x, y)T = (2,−2)T . Storung der rechten Seite zu(0.86419999, 0.14400001)T erzeugt die “Naherungslosung” (x, y)T = (0.9911,−0.4870)T

Diese numerische Aufgabe ist offenbar sehr schlecht konditioniert.

Zur Prazisierung des Begriffes “Konditionierung” mussen wir zunachst den der “nu-merischen Aufgabe” definieren. Wir wollen hier unter einer numerischen Aufgabe die Be-rechnung endlich vieler Großen yi (i = 1, . . . , n) aus gewissen Großen xj (j = 1, . . . , m)mittels einer funktionalen Vorschrift yi = fi(x1, . . . , xm) verstehen. Der Einfachheit hal-ber betrachten wir hier nur den Fall, daß die yi, xj reelle (oder komplexe) Zahlen sind,und verwenden zur Abkurzung die vektorielle Schreibweise y = f(x) mit

x = (x1, . . . , xm)T , y = (y1, . . . , yn)T , f = (f1, . . . , fn)T .

Als Beispiel kann die Berechnung eines Vektors x ∈ Rn als Losung eines linearen Glei-chungssystems Ax = b dienen, wobei f(x) = A−1b.

Definition 1.1: Bei Verwendung fehlerhafter Eingangsdaten xj + ∆xj (z.B. aufgrunddes Rundungsfehlers) ergeben sich fehlerhafte Resultate yi + ∆yi . Wir bezeichnen |∆yi|als den “absoluten” Fehler und |∆yi/yi| (fur yi 6= 0 ) als den “relativen” Fehler.

Große absolute Fehler konnen offenbar, “relativ” gesehen, klein sein und umgekehrt; z.B.mag ein Fehler von ± 100 km beim Messen der Entfernung Erde-Mond als “klein” an-gesehen werden, wahrend derselbe Fehler bezogen auf die Entfernung Heidelberg-Parissicherlich als “groß” anzusehen ist.

Wir haben gesehen, daß der relative Rundungsfehler durch die Maschinengenauigkeiteps beschrankt ist. Hier wird uns auch hauptsachlich nur dieser interessieren. Im Fol-genden betreiben wir eine sog. “differentielle” Fehleranalyse, die sich auf die Betrachtungdes Einflusses relativ kleiner Datenfehler |∆xj | ≪ |xj| beschrankt. Sind die Funktionenfi = fi(x1, . . . , xm) stetig partiell differenzierbar nach den Argumenten xj , so gilt nachdem Taylorschen Satz

∆yi = fi(x+ ∆x) − fi(x) =

m∑

j=1

∂fi

∂xj(x) ∆xj +Rf

i (x; ∆x), i = 1, . . ., m, (1.2.8)

1.2 Konditionierung numerischer Aufgaben 9

mit einem Restglied Rfi (x; ∆x) , welches schneller als |∆x| = maxj=1,...,m |∆xj | gegen

Null geht; wir schreiben dies abgekurzt als Rfi (x; ∆x) = o(|∆x|) . Der Einfachheit halber

nehmen wir an, daß sogar Rfi (x; ∆x) = O(|∆x|2) gilt, was im Falle der zweimaligen

Differenzierbarkeit der Funktion f gesichert ist.

Definition 1.2: Wir verwenden hier und im Folgenden die sog. “Landauschen1 Symbole”O(·) und o(·) zur quantitativen Beschreibung von Grenzprozessen. Fur Funktionen g(t)und h(t) der Variablen t ∈ R+ bedeutet die Schreibweise

g(t) = O(h(t)) (t→ 0) ,

daß fur kleine t ∈ (0, t0] mit einer Konstanten c ≥ 0 gilt

| g(t) | ≤ c | h(t) | .

Entsprechend bedeutet g(t) = o(h(t)) fur t → 0 , daß fur kleine t ∈ (0, t0] mit einerFunktion c (t) → 0 (t→ 0) gilt

| g(t) | ≤ c (t) | h(t) | .

Analoge Schreibweisen verwendet man fur Grenzubergange t→ ∞ .

Beispiel 1.3: Fur eine zweimal stetige differenzierbare Funktion g (t) folgt aus

g (t+ ∆t) = g (t) + ∆t g′(t) +∆t2

2g′′(τ) , τ ∈ (t, t+ ∆t) ,

fur den sog. “vorwarts genommenen Differenzenquotienten” die Beziehung

1

∆tg (t+ ∆t) − g (t) = g′(t) +O(∆t) .

Die obige Formel (1.2.8) besagt, daß der Fehler ∆yi “in erster Naherung”, d.h. bis aufeine Große der Ordnung O(|∆x|2) , gleich dem ersten Summanden auf der rechten Seiteist; in Symbolen:

∆yi.=

m∑

j=1

∂fi

∂xj(x) ∆xj . (1.2.9)

Fur den komponentenweisen relativen Fehler gilt dann

1Edmund Georg Hermann Landau (1877-1938): Deutscher Mathematiker; seit 1909 Professor inGottingen (Nachfolger von Minkowski); 1934 wegen seiner judischen Abstammung zwangsweise pensio-niert; fundamentale Beitrage zur analytischen Zahlentheorie, insbesondere zur Primzahlverteilung, undzur komplexen Funktionentheorie.

10 Fehleranalyse

∆yi

yi

.=

m∑

j=1

∂fi

∂xj(x)

∆xj

yi=

m∑

j=1

∂fi

∂xj(x)

xj

fi(x)︸︷︷︸

=: kij(x)

∆xj

xj. (1.2.10)

Dabei verhalt sich der vernachlassigte Term wie

∣∣∣Rf

i (x; ∆x)

yi

∣∣∣ = O

( |∆x|2|yi|

)

.

Unter der Voraussetzung, daß |∆x| = o(|yi|) kann er gegen den fuhrenden O(|∆x|)-Term vernachlassigt werden. Wir werden im Folgenden stets annehmen, daß sich dieauszuwertende Große und die betrachteten Datenstorungen verhalten wie

|∆x| = o(|yi|), i = 1, . . ., n.

Andernfalls darf der Restgliedterm nicht vernachlassigt werden.

Definition 1.3: Die Großen kij(x) heißen “(relative) Konditionszahlen” der Funktionf im Punkt x . Sie sind ein Maß dafur, wie sich kleine relative Fehler in den Ausgangs-daten im Ergebnis auswirken. Man nennt die Aufgabe, y = f(x) aus x zu berechnen,“schlecht konditioniert”, wenn ein |kij(x)| ≫ 1 ist; andernfalls “gut konditioniert” oderauch “gutartig”. Im Fall |kij(x)| < 1 spricht man von “Fehlerdampfung” und im Fall|kij(x)| > 1 von “Fehlerverstarkung”. Fehler durch Storungen in der Funktion f(·) wer-den hier nicht betrachtet; dies bleibt spater speziellen Situationen vorbehalten (z.B.: lineareGleichungssysteme).

Die Konditionierung einer numerischen Aufgabe ist eng verknupft mit der Frage nachberechenbaren Fehlerschranken fur zugehorige Naherungslosungen. Beim Problem der di-rekten Funktionsauswertung y = f(x) ist die relative Fehlerempfindlichkeit beschrie-ben durch die Relation (1.2.10). Interessanter ist das umgekehrte Problem der Glei-chungslosung x = f−1(y), bei dem zu gegebenem y die Losung der Gleichung f(x) = ygesucht ist. Hierbei wird o.B.d.A. Gleichheit der Dimensionen n = m angenommen. AlsBeispiele konnen wieder die Losung eines linearen Gleichungssystems oder die Bestim-mung der Wurzeln einer quadratischen Gleichung dienen. In diesem Fall liegt es nahe,eine Fehlerabschatzung fur irgendeine Naherungslosung x auf dem Weg der “Probe” zuerzielen. Zu diesem Zweck bildet man den sog. “Defekt” d(x) = y − f(x) . Die Frage istnun, ob fur einen kleinen Defekt auch der tatsachliche Fehler ∆x = x − x klein ist. Diedifferentielle Fehleranalyse liefert hierzu

∆xi

xi

.=

n∑

j=1

k(−1)ij

∆yj

yj, k

(−1)ij :=

∂f−1i

∂yj(y)

yj

xi,

1.2 Konditionierung numerischer Aufgaben 11

mit den Konditionszahlen k(−1)ij der inversen Abbildung f−1(·) . Wir fassen die Kondi-

tionszahlen zu Matrizen K = (kij)ni,j=1 und K(−1) = (k

(−1)ij )n

i,j=1 zusammen. Fur derenProdukt gilt dann

(K(−1)K)ij =n∑

k=1

k(−1)ik kkj =

n∑

k=1

∂f−1i

∂xk

xk

yi

∂fk

∂xj

yj

xk=yj

yi

n∑

k=1

∂f−1i

∂xk

∂fk

∂xj= δij ,

wobei das sog. “Kronecker2-Symbol” δij fur die Alternative δij = 1 , fur i = j , bzw.δij = 0 , fur i 6= j , steht. Die Matrix K(−1) ist also gerade die Inverse von K.

1.2.1 Arithmetische Grundoperationen

Im folgenden diskutieren wir die Konditionierung, d. h. die Anfalligkeit gegenuber kleinerStorungen der Eingangsdaten, einiger einfacher Grundaufgaben.

1) Die Addition y = f(x1, x2) = x1 + x2 zweier Zahlen x1, x2 ∈ R , x1, x2 6= 0 , mit

k1 =∂f

∂x1

x1

f= 1 · x1

x1 + x2=

1

1 + x2/x1

k2 =∂f

∂x2

x2

f= 1 · x2

x1 + x2=

1

1 + x1/x2

ist “schlecht” konditioniert fur x1/x2 ∼ −1 . Bei der Addition ahnlich großer Zahlen mitunterschiedlichem Vorzeichen kann bei der Fortpflanzung von kleinen Storungen in denEingangsgroßen sog. “Ausloschung” wesentlicher Stellen auftreten.

Definition 1.4 (Ausloschung): Unter “Ausloschung” versteht man den Verlust an we-sentlichen Dezimalstellen bei der Subtraktion von Zahlen gleichen Vorzeichens. Dies istgefahrlich im Fall, daß eine oder beide der Zahlen keine Maschinenzahlen sind und vorAusfuhrung der Operation gerundet werden. Bei der Subtraktion von Maschinenzahlen istAusloschung naturlich unschadlich.

Beispiel 1.4: Dezimale Gleitpunktrechnung mit r = 4 und s = 1

x1 = 0.11258762 · 102 → rd(x1) = 0.1126 · 102

x2 = 0.11244891 · 102 → rd(x2) = 0.1124 · 102

x1 + x2 = 0.22503653 · 102 , rd(x1) + rd(x2) = 0.2250 · 102

x1 − x2 = 0.13871 · 10−1 , rd(x1) − rd(x2) = 0.2000 · 10−1

Im zweiten Fall gilt k1 ∼ k2 ∼ 810 , d.h. fast 1000-fache Fehlerverstarkung.

2Leopold Kronecker (1823-1891): deutscher Mathematiker; wirkte in Berlin als “Privatgelehrter”; be-trieb die Arithmetisierung der Mathematik; wichtiger Vertreter des “Konstruktivismus”, welcher die gene-relle Verwendung des Widerspruchsbeweises und des “aktual Unendlichen” in Form z.B. der allgemeinenreellen Zahlen ablehnt.

12 Fehleranalyse

2) Die Multiplikation y = f(x1, x2) = x1 · x2 mit

k1 =∂f

∂x1

x1

f= x2

x1

x1 · x2= 1 , k2 = . . . = 1 ,

ist generell “gut” konditioniert. Dasselbe gilt auch fur die Division (Ubungsaufgabe).

1.2.2 Losung quadratischer Gleichungen

Fur Zahlen p, q ∈ R wird die folgende quadratische Gleichung betrachtet:

y2 − py + q = 0 (o.b.d.A. q 6= 0).

Fur die Wurzeln y1 und y2 gilt y1,2 = y1,2(p, q) = p/2±√

p2/4 − q sowie p = y1+y2 , q =y1 · y2 (Vietascher3 Wurzelsatz). Damit erhalt man:

∂y1

∂p+∂y2

∂p= 1

∂y1

∂py2 + y1

∂y2

∂p= 0

⇒ ∂y2

∂p=

y2

y2 − y1,

∂y1

∂p=

y1

y2 − y1

∂y1

∂q+∂y2

∂q= 0

∂y1

∂qy2 + y1

∂y2

∂q= 1

⇒ ∂y1

∂q=

1

y1 − y2= −∂y2

∂q

k11 =∂y1

∂p

p

y1=

y1

y2 − y1

p

y1=y1 + y2

y1 − y2=

1 + y2/y1

1 − y2/y1

k12 =∂y1

∂q

q

y1=

1

y1 − y2

q

y1=

y2

y1 − y2=

1

1 − y2/y1

Fur k21 und k22 gilt Analoges. Die Berechnung von y1, y2 ist schlecht konditioniert fury1/y2 ∼ 1 , d.h. wenn die Wurzeln relativ dicht beeinander liegen.

Beispiel 1.5: p = 4 , q = 3.999 , y1,2 = 2 ± 0.01 ,

k12 =1

1 − y1/y2

= 99.5 ⇒ fast 100-fache Fehlerverstarkung.

3Francois Viete, lat. Franciscus Vieta (1540-1603): Franzosischer Mathematiker; Arbeiten uber alge-braische Gleichungen und spharische Trigonometrie; gab trigonometrische Tafeln heraus und fuhrte diesystematische Buchstabenrechnung ein.

1.3 Stabilitat numerischer Algorithmen 13

1.3 Stabilitat numerischer Algorithmen

Gegeben sei wieder eine numerische Aufgabe der Art y = f(x) mit einer Abbildungf : Rm → Rn . Unter einem “Verfahren” (oder “Algorithmus”) zur gegebenenfalls nahe-rungsweisen Berechnung von y aus x verstehen wir eine endliche (oder auch abzahlbarunendliche) Folge von “elementaren” Abbildungen ϕ(k) , die durch sukzessive Anwendungeinen Naherungwert y zu y liefern:

x = x(0) → ϕ(1) (x(0)) = x(1) → . . .→ ϕ(k+1) (x(k)) = x(k+1) → . . . y .

Im einfachsten Fall sind die ϕ(k) arithmetische Grundoperationen.

Definition 1.5: Bei der Durchfuhrung des Algorithmus auf einer Rechenanlage tretenin jedem Schritt Fehler auf (z.B. Rundungsfehler, Auswertungsfehler von transzenden-ten Funktionen, etc.), die sich bis zum Ende der Rechnung akkumulieren konnen. DerAlgorithmus wird “stabil” (oder auch “gutartig”) genannt, wenn die im Verlaufe derAusfuhrung akkumulierten Fehler den durch die Konditionierung der Aufgabe y = f(x)bedingten unvermeidbaren Problemfehler nicht ubersteigen.

Eine der Hauptaufgaben der numerischen Mathematik ist es, fur die in den Anwendungenauftretenden Aufgaben stabile Losungsalgorithmen zu finden. Wir diskutieren im folgen-den einige elementare Beispiele.

1.3.1 Losung quadratischer Gleichungen

Wir betrachten die Auflosung einer quadratischen Gleichung der Form

y2 − py + q = 0 (0 6= q < p2/4) , y1,2 = f(p, q) = p/2 ±√

p2/4 − q .

Fur |y1/y2| ≫ 1 , d.h. fur q ≪ p2/4 , ist die Aufgabe gut konditioniert. Der Algorithmuszur Berechnung der Wurzeln konnte wie folgt aussehen:

u = p2/4 , v = u− q , w =√v (≥ 0) .

Im Fall p < 0 wird zur Vermeidung von Ausloschung zunachst y2 = p/2 − w berechnetmit der akzeptablen Fehlerfortpflanzung

∣∣∣∆y2

y2

∣∣∣ ≤

∣∣∣

1

1 − 2w/p

∣∣∣

︸︷︷︸

≈ 1

∣∣∣∆p

p

∣∣∣+∣∣∣

1

1 − p(2w)

∣∣∣

︸︷︷︸

≈ 1

∣∣∣∆w

w

∣∣∣.

Die zweite Wurzel konnte dann auf folgenden Wegen bestimmt werden:

Variante A Variante B

y1 = p/2 + w y1 = q/y2 (wegen q = y1y2)

14 Fehleranalyse

Fur q ≪ p2/4 ist w ≈ −p/2 , d.h. bei Variante A tritt zwangslaufig Ausloschung ein. DieRundungsfehler in p und w ubertragen sich auf y1 wie

∣∣∣∣

∆y1

y1

∣∣∣∣≤∣∣∣

1

1 + 2w/p

∣∣∣

︸︷︷︸

≫ 1

∣∣∣∆p

p

∣∣∣

︸︷︷︸

≤ eps

+∣∣∣

1

1 + p/2w

∣∣∣

︸︷︷︸

≫ 1

∣∣∣∆w

w

∣∣∣

︸︷︷︸

≈ eps

.

Dieser Algorithmus ist offenbar im vorliegenden Fall q ≪ p2/4 sehr instabil. Bei VarianteB gilt dagegen

∣∣∣∆y1

y1

∣∣∣ ≤

∣∣∣∆q

q

∣∣∣

︸︷︷︸

≤ eps

+∣∣∣∆y2

y2

∣∣∣

︸︷︷︸

≈ eps

.

d.h. dieser Algorithmus ist stabil.

Regel 1.3.1: Bei der Losung quadratischer Gleichungen sollten nicht beide Wurzeln ausder Losungsformel berechnet werden.

Beispiel 1.6: p = −4 , q = 0.01 (vierstellige Rechnung)

u = 4

v = 3.99

w = 1.9974984 . . .

y2 = −3.9974984 . . .

y1 =

exakt : −0.0025015 . . .

A : −0.0030 (rel. Fehler 0.2)

B : −0.0025

1.3.2 Auswertung arithmetischer Ausdrucke

Im Folgenden bedienen wir uns einer sog. “Forwartsrundungsfehleranalyse”, bei welcherdie Akkumulation des Rundungsfehlers ausgehend vom Startwert abgeschatzt wird. Wirbeginnen mit der Auswertung eines einfachen arithmetischen Ausdrucks der Art

y = f(x1, x2) = x21 − x2

2 = (x1 + x2) · (x1 − x2).

Der Problemfehler durch Rundung der Ausgangsdaten verhalt sich wie

∣∣∣∣

∆y

y

∣∣∣∣≤

2∑

j=1

∣∣∣∣

∂f

∂xj

xj

f

∣∣∣∣

∣∣∣∣

∆xj

xj

∣∣∣∣≤∣∣∣2x1

x1

x21 − x2

2

∣∣∣+∣∣∣2x2

x2

x21 − x2

2

∣∣∣ = 2

∣∣∣∣

(x1/x2)2 + 1

(x1/x2)2 − 1

∣∣∣∣

eps .

Fur |x1/x2| ≈ 1 liegt also schlechte Konditionierung vor. Zur algorithmischen Auswertungdieses Ausdrucks gibt es zwei Alternativen, wobei die Ausgangsdaten x1, x2 ∈ A alsMaschinenzahlen gegeben seien.


Algorithmus A: Algorithmus B:

u = x1 ⊙ x1 u = x1 ⊕ x2

v = x2 ⊙ x2 v = x1 ⊖ x2

y = u⊖ v y = u⊙ v

Zur Rundungsfehleranalyse beachten wir, daß fur die Maschinenoperationen ⊙∗ auf derMenge A der Maschinenzahlen gilt:

a⊙∗ b = rd(a ∗ b) = (a ∗ b)(1 + ε) mit |ε| ≤ eps .

Unter Verwendung dieser Beziehung erhalten wir fur den ersten Algorithmus:

(A) u = x21 (1 + ε1) , v = x2

2 (1 + ε2)

y = [x21 (1 + ε1) − x2

2 (1 + ε2)] (1 + ε3)

= x21 − x2

2︸︷︷︸

= y

+x21ε1 − x2

2ε2 + (x21 − x2

2)︸︷︷︸

= y

ε3 +O(eps2)

∣∣∣∣

∆y

y

∣∣∣∣≤ eps

x21 + x2

2 + |x21 − x2

2||x2

1 − x22|

= eps

1 +

∣∣∣∣

(x1/x2)2 + 1

(x1/x2)2 − 1

∣∣∣∣

.

Der Rundungsfehlereinfluß wird groß fur |x1/x2| ∼ 1 , ubersteigt aber nicht den Problem-fehleranteil, d.h.: Der Algorithmus A ist nach unserer Definition stabil.

Fur den zweiten Algorithmus gilt:

(B) u = (x1 + x2) (1 + ε1) , v = (x1 − x2) (1 + ε2)

y = (x1 + x2) (1 + ε1) (x1 − x2) (1 + ε2) (1 + ε3)

= x21 − x2

2︸︷︷︸

= y

+ (x21 − x2

2)︸︷︷︸

= y

(ε1 + ε2 + ε3) +O(eps2)

∣∣∣∣

∆y

y

∣∣∣∣≤ |ε1 + ε2 + ε3| ≤ 3 eps .

Algorithmus B ist offenbar i. Allg. stabiler als Algorithmus A. Es sei nochmals betont,daß hierbei von bereits gerundeten Ausfgangsdaten in A ausgegangen wird. An diesemBeispiel kann man bereits eine einfache Regel ablesen, die allgemein gultigen Charakterhat. Die Auswirkung dieser Regel wird andand des nachsten Beispiels noch klarer werden.

Regel 1.3.2: Bei der Durchfuhrung einer numerischen Rechnung sollte man die nume-risch schlechter konditionierten Operationen moglichst fruhzeitig ansetzen.

1.3.3 Auswertung von Polynomen

y = p(x) = a0 + a1x+ . . .+ anxn .

Als Modellfall betrachten wir zunachst das Polynom

16 Fehleranalyse

p(x) = a1x+ a2x2 = x(a1 + a2x) .

Zu seiner Auswertung in einem Punkt ξ bietet sich der Algorithmus

A) u = ξ ⊙ ξ , v = a2 ⊙ u , w = a1 ⊙ ξ , y = v ⊕ w ,

und, bei Berucksichtigung der obigen Faustregel, der Algorithmus

B) u = a2 ⊙ ξ , v = a1 ⊕ u , y = ξ ⊙ v ,

an. Bei Algorithmus B spart man offensichtlich eine arithmetische Operation. Die zu-gehorige Rundungsfehleranalyse sieht wie folgt aus:

(A) u = ξ2(1 + ε1), v = a2ξ2(1 + ε1)(1 + ε2), w = a1ξ(1 + ε3)

y = [a2ξ2(1 + ε1)(1 + ε2) + a1ξ(1 + ε3)](1 + ε4)

= a2ξ2 + a1ξ + (a2ξ

2 + a1ξ)ε4 + a2ξ2(ε1 + ε2) + a1ξε3 +O(eps2)

= y + yε4 + a2ξ2(ε1 + ε2) + a1ξε3 +O(eps2)

∣∣∣∆y

y

∣∣∣ ≤ ε4 +

a1ξε3 + a2ξ2(ε1 + ε2)

a1ξ + a2ξ2= ε4 + ε3 +

ξ

a1/a2 + ξ(ε1 + ε2 − ε3)

(B) u = a2ξ(1 + ε1), v = [a1 + a2ξ(1 + ε1)](1 + ε2)

y = ξ[a1 + a2ξ(1 + ε1)](1 + ε2)(1 + ε3)

= y + a1ξ(ε2 + ε3) + a2ξ2(ε1 + ε2 + ε3) +O(eps2)

∣∣∣∆y

y

∣∣∣.= ε2 + ε3 +

ξ

a1/a2 + ξε1 .

Fur ξ ∼ −a1/a2 (d.h. wenn ξ nahe bei einer Nullstelle von p(x) liegt) ist AlgorithmusB offensichtlich etwas stabiler als Algorithmus A.

Dieses Resultat legt zur Auswertung des allgemeinen Polynoms n-ter Ordnung, aus-gehend von der Darstellung

p(x) = a0 + x(a1 + x(a2 + . . .+ x(an−1 + xan) . . .)) ,

den folgenden Algorithmus nahe:

Definition 1.6: Das sog. “Horner4-Schema”

bn = an, k = n− 1, . . . , 0 : bk = ak + ξbk+1, (1.3.11)

liefert den Funktionswert p(ξ) = b0 des Polynoms p(x) .

4William George Horner (1786-1837): Irischer Mathematiker; Betreiber verschiedener Schulen; be-kannt durch das “Horner-Schema” (1830) zur Auswertung algebraischer Gleichungen; dessen Prinzip waraber bereits vorher anderen Autoren bekannt (fruheste Quelle ist Zhu Shijie im China des 13. Jahrh.).


Zur Auswertung eines Polynoms in der allgemeineren Darstellung

p(x) = a0 + a1(x− x0) + a2(x− x0)(x− x1) + . . .+ an(x− x0). . .(x− xn−1)

mit gewissen Zahlen xi, i = 0, . . ., xn−1 , wird das Horner Schema wie folgt modifizert:

bn = an, k = n− 1, . . . , 0 : bk = ak + (ξ − xk)bk+1, p(ξ) = b0. (1.3.12)

Regel 1.3.3: Die Auswertung von Polynomen sollte mit Hilfe des Horner-Schemas er-folgen.

Bei der Auswertung von Polynomen mit Hilfe des Horner Schemas spielt auch die Ein-sparung von arithmetischen Operationen eine Rolle. Dies wird hier und in vielen ahnlichgelagerten Fallen besonders wichtig, wenn die algorithmische Komponente sehr haufigwiederholt werden soll. Den Rechenaufwand zahlt man dabei ublicherweise in Form vonarithmetische Operationen (abgekurzt “a.Op.”). Eine a.Op. setzt sich zusammen aus je-weils einer Addition und einer Multiplikation. Die Unterschiedliche Betrachtung von Ad-dition und Multiplikation geschah bisher aus technischen Grunden, da auf den alterenProzessoren eine Multiplikation deutlich mehr Zeit in Anspruch nahm als eine Addition.Inzwischen hat sich dieser Unterschied aber nivelliert, so daß Addition und Multiplika-tion als praktisch gleich schnell im Verhaltnis zur etwas langsameren Division angesetztwerden mußten.

Beispiel 1.7: Ausfuhrungszeiten von jeweils 109 a. Op.:

1) (“Antiker”) Prozessor 68040 von Motorola (Macintosh Quadra 700):

Addition 1220 Sek., Multiplikation 1320 Sek., Division 2540 Sek.

2. Alterer 32 Bit-Prozessor Atlon 1.4 GHz (Standard PC):

Addition 4, 5 Sek., Multiplikation 4, 5 Sek., Division 6 Sek.

3. Aktueller 64 Bit-Prozessor Atlon 3500+ (High-end PC):

Addition 2, 5 Sek., Multiplikation 2, 5 Sek., Division 4, 5 Sek.

Bei diesen Leistungsmessungen spielt die verwendete Optimierungsstufe des Compilerseine nicht unwesentliche Rolle. Diese Zahlen sind erreichbar sowohl in C/C++ als auchin MATLAB.

18 Fehleranalyse

1.4 Ubungsaufgaben

Aufgabe 1.4.1: Man schreibe die folgenden Ausdrucke in der Form f(h) = O(hp) , furh ց 0 mit moglichst großem p ∈ N , bzw. g(n) = O(nq) fur n ր ∞ mit moglichstkleinem q ∈ N :

a) f(h) = 4(h2 + h)2 − 4h4, b) g(n) = 4(n2 + n)2 − 4n4,

c) f(h) =eh − e−h

2h− 1, d) g(n) = sup

x>0

1 − e−nx

1 − e−x.

e) Wie laßt sich das asymptotische Verhalten von f(h) = 1/ ln(h) beschreiben?

Aufgabe 1.4.2: Man untersuche die Konditionierung der folgenden Rechenoperationen:

a) f(x1, x2) =x1

x2(x2 6= 0), b) f(x1, x2) = xx2

1 (x1 > 0).

Sind die einfachen Operationen f(x) = 1/x und f(x) =√x gut konditioniert?

Aufgabe 1.4.3: Die Ausdrucke

a(x) =1 − x

1 + 2x− 1 − 2x

1 + x, b(x) =

3x2

(1 + 2x)(1 + x)

stellen fur x > 0 dieselbe Funktion f(x) dar.

a) Wie sieht es mit der Konditionierung der jeweiligen numerischen Aufgaben, f(x) fur0 < |x| ≪ 1 aus diesen Darstellungen zu berechnen?

b) Wie wurde man bei der praktischen Auswertung von f(x) fur 0 < |x| ≪ 1 zurGewahrleistung guter numerischer Stabilitat vorgehen?

Aufgabe 1.4.4: Man gebe einen Weg zur experimentellen Bestimmung der Maschinen-genauigkeit

eps := maxx∈D,x 6=0

∣∣∣rd(x) − x

x

∣∣∣

an. Dabei kann verwendet werden, daß fur die Maschinenoperationen ⊙∗ gilt:

x⊙∗ y = (x ∗ y)(1 + ε), x, y ∈ A, |ε| ≤ eps.

Aufgabe 1.4.5: (Praktische Aufgabe):

a) Man bestimme mit einem Testprogramm die Maschinengenauigkeit des benutztenRechners (in der jeweils verwendeten Programmiersprache).

b) Man schreibe ein (Matlab-)Programm zur Berechnung der Exponentialfunktion ex mitHilfe ihrer Taylor-Summen

Tn(x) =

n∑

k=0

xk

k!.

1.4 Ubungsaufgaben 19

Man plotte fur n ∈ [0, 20] den relativen Fehler fur die Argumente x ∈ 10, 1,−1,−10 .Man erklare die schlechten Ergebnisse fur negative Argumente und gebe eine Modifikationan, mit deren Hilfe negative wie positive Argumente gleich gut behandelt werden konnen.

Aufgabe 1.4.6: Man schreibe die folgenden Ausdrucke in der Form f(h) = O(hm) bzw.f(h) = o(hm) fur h ∈ R+, h→ 0 , mit einem moglichst großem m ∈ N :

a) f(h) =sin(1 + h) − 2 sin(1) + sin(1 − h)

h2+ sin(1);

b) f(h) =h

ln(h).

Aufgabe 1.4.7: Wie groß ist in erster Naherung der relative Fehler bei der Bestimmungder Molmenge m eines idealen Gases (mit Gaskonstante γ = 0, 082) aus der Formel

m(P, V, T ) =PV

γT,

wenn die Temperatur T mit 200 ± 0, 5 Grad, der Druck P mit 2 ± 0, 01 atm und dasVolumen V mit 10 ± 0, 2 l bestimmt wurden. Welche Messung muß verfeinert werden,um den Fehler unter 1% zu drucken?

Aufgabe 1.4.8: In vielen Fallen kann die Konvergenzordnung eines Grenzprozesses

a(h) → a (h→ 0), a(h) − a = O(hα),

nur experimentell bestimmt werden. Dazu werden bei bekanntem Limes a fur zwei Werteh und h/2 die Fehler a(h)−a und a(h/2)−a berechnet und dann die Ordnung α uberden formalen Ansatz a(h) − a = chα aus der folgenden Formel ermittelt:

α =1

log(2)log

(∣∣∣a(h) − a

a(h/2) − a

∣∣∣

)

.

a) Man rekapituliere die Rechtfertigung dieser Formel und uberlege, wie man vorgehenkonnte, wenn kein exakter Limes a bekannt ist.

b) Man bestimme die inharenten Konvergenzordnungen fur die folgenden von Funktionena(h) und b(h) abgegriffenen Werte:

20 Fehleranalyse

h a(h) b(h)

2−1 7.188270827204928 8.89271737217539

2−2 7.095485351135761 8.971800326329658

2−3 7.047858597600531 8.992881146463981

2−4 7.023726226390662 8.998220339291473

2−5 7.011579000356371 8.999559782988968

2−5 7.005485409034109 8.999895247704067

Limes a(0) = 7.0 b(0) =?

Aufgabe 1.4.9: Man betrachte die Funktion

f(x) =1 − cos(x)

x.

a) Fur welche x ist die Auswertung von f(x) gut bzw. schlecht konditioniert?

b) Man gebe fur |x| ≪ 1 einen stabilen Algorithmus zur Berechnung von f(x) an.Dabei sei angenommen, daß cos(x) mit Maschinengenauigkeit berechnet wird. (Hinweis:Die Darstellung von f kann mit Hilfe der Rechenregeln fur trigonometrische Funktionenumgeformt werden.)

Aufgabe 1.4.10: (Praktische Aufgabe): Man berechne Naherungswerte

n∑

k=0

xk

k!≈ ex

fur x = −5, 5 mit n = 1, 2, . . ., 30 , auf die folgenden drei Arten:

1) mit der obigen Formel;

2) mit der Umformung e−5,5 = 1/e5,5 und der obigen Formel;

3) mit der Umformung e−5,5 = (e−0,5)11 und der obigen Formel.

Der exakte Wert ist e−5,5 = 0, 0040867714 . . . . Wie sind die beobachteten Effekte zuinterpretieren? Dies ist ein Beispiel dafur, daß scheinbar kleine Modifikationen in numeri-schen Algorithmen gravierende Konsequenzen fur die Approximationsgenauigkeit habenkonnen. Welche Ergebnisse ergeben sich, wenn die Auswertung der Taylor-Polynome mitHilfe des Horner-Schemas erfolgt?


Aufgabe 1.4.11: Sei A ∈ Rn×n beliebig gegeben. Man gebe einen Algorithmus an zurAuswertung des Matrixpolynoms

p(A) =

m∑

i=0

aiAi

mit Koeffizienten ai ∈ R , der moglichst wenig Speicherplatz und arithmetische Opera-tionen (1 a.Op. = 1 Mult. + 1 Add.) benotigt.

Aufgabe 1.4.12: Es seien die Nullstellen eines Polynoms p(x) =∑m

i=0 aixi zu bestim-

men. Man zeige, daß fur eine Naherung z zu einer einfachen Nullstelle z 6= 0 in ersterNaherung die folgende Abschatzung gilt:

∣∣∣z − z

z

∣∣∣ ≤

∣∣∣p(z)

p′(z)z

∣∣∣.

Dies motiviert die Genauigkeitskontrolle bei der Berechnung von Nullstellen von Poly-nomen in der Praktischen Aufgabe 5. (Hinweis: Die Aufgabe ist leichter als sie aussieht;Taylor-Entwicklung.)

Aufgabe 1.4.13: Die Funktion f(x) = x + 1 stelle eine physikalische Große dar, vonder Werte f(xi) ≈ f(xi) an aquidistant verteilten Punkten

xi = ih, 0 ≤ i ≤ n := 103, h = 10−3,

mit einem maximalen Fehler von 0, 1% gemessen werden. Man zeige, daß bei der Appro-ximation der Ableitungswerte f ′(xi) mit dem zentralen Differenzenquotienten

f ′(xi) ≈f(xi+1) − f(xi−1)

2h, i = 1, . . ., n− 1

aus diesen Werten ein relativer Fehler von 100% auftreten kann. Dies zeigt die Fragwurdig-keit der Approximation von Ableitungen durch Differenzenquotienten. (Hinweis: Man kon-struiere spezielle Storungen.)

Aufgabe 1.4.14: Gegeben seien n + 1 paarweise verschiedene Punkte xi ∈ R1, i =0, 1, . . ., n, und die zugehorigen n + 1 sog. Lagrangeschen Polynome

L(n)i (x) =

n∏

j=0,j 6=i

x− xj

xi − xj, i = 0, . . ., n.

Man zeige, daß die Polynome L(n)i , i = 0, . . ., n, eine Basis des Polynomraums Pn (Vek-

torraum aller Polynome vom Grad kleiner oder gleich n ) bilden, und daß die folgenden

22 Fehleranalyse

Beziehungen gelten:

i)n∑

i=0

L(n)i (x) = 1, x ∈ R

1,

ii)

n∑

i=0

xkiL

(n)i (0) = 0, k = 1, . . ., n,

iii)n∑

i=0

xn+1i L

(n)i (0) = (−1)n

n∏

i=0

xi.

(Hinweis: Man verwende die Eindeutigkeit des Lagrangeschen Interpolationspolynoms unddie Darstellung des Fehlers bei der Lagrange-Interpolation.)

Aufgabe 1.4.15: (Praktische Aufgabe): Man schreibe ein Programm zur Berechnungder reellen Losungen der quadratischen Gleichung

p(x) = ax2 + bx+ c = 0,

zu gegebenen a, b, c ∈ R . Es sollen alle moglichen Falle der Degenerierung (z. B.: a = 0 )berucksichtigt und der Einfluß des Rundungsfehlers minimiert werden. Man erprobe dasProgramm anhand der folgenden Falle:

a : 0 0 0 0 2 2 2 4 1 1 1 −1 −1 −4 −1 −4 −1 −1 2, 5 · 109

b : 0 0 1 2 0 0 0 2 2 2 2 0 0 0 2 8 2 2 −105

c : 0 1 0 1 0 1 −4 0 −3 1 2 0 −1 2 0 12 −1 −5 1

Die berechneten Losungen sollen akzeptiert werden, wenn das heuristische Kriterium (s.Aufgabe 2)

∣∣∣p(z)

p′(z)z

∣∣∣ < 10−12

erfullt ist.

2 Interpolation und Approximation

Ein Grundproblem der numerischen Praxis ist die Darstellung und Auswertung von Funk-tionen. Dabei ergeben sich folgende Aufgabenstellungen:

(i) Eine Funktion f(x) ist nur in einer diskreten Menge von Argumenten x0, . . ., xn

bekannt und soll mit dieser Information rekonstruiert werden (z.B. zur graphischenDarstellung oder zur Auswertung an Zwischenstellen).

(ii) Eine analytisch gegebene Funktion f(x) soll auf der Rechenanlage so dargestelltwerden, daß jederzeit Funktionswerte zu beliebigem Argument x leicht berechnetwerden konnen (z.B. trigonometrische Funktionen).

In beiden Fallen hat man ein System mit unendlich vielen Freiheitsgraden, namlichdie funktionale Abhangigkeit y = f(x) , durch einen endlichen Datensatz zu simulieren.Hierzu bedient man sich gewisser Klassen P von einfach strukturierten Funktionen; z.B.:

Polynome: p(x) = a0 + a1x+ . . .+ anxn,

rationale Funktionen: r(x) = a0 + a1x+ . . .+ anxn

b0 + b1x+ . . .+ bmxm ,

trigonometrische Polynome: t(x) = 12a0 +

n∑

k=1

ak cos(kx) + bk sin(kx).

Exponentialsummen: e(x) =n∑

k=1

ak exp(bkx).

Definition 2.1: Geschieht die Zuordnung eines Elementes g ∈ P zur Funktion f durchFixieren von Funktionswerten

g(xi) = yi := f(xi), i = 0, . . ., n,

so spricht man von “Interpolation”. Ist g ∈ P als in einem gewissen Sinne “beste”Darstellung von f zu bestimmen, z.B.:

maxa≤x≤b

|f(x) − g(x)| minimal fur g ∈ P,

oder(∫ b

a

|f(x) − g(x)|2 dx)1/2

minimal fur g ∈ P,

so spricht man allgemein von “Approximation”. Die jeweilige Wahl der Konstruktionvon g ∈ P hangt von der zu erfullenden Aufgabe ab. Offenbar ist die Interpolation einespezielle Art der Approximation mit

maxi=0,...,n

|f(xi) − g(xi)| minimal fur g ∈ P.

23


2.1 Polynominterpolation

Wir bezeichnen mit Pn den Vektorraum der Polynome vom Grad kleiner oder gleich n :

Pn := p(x) = a0 + a1x+ . . .+ anxn | ai ∈ R, i = 0, . . ., n .

Definition 2.2: Die sog. “Langrangesche1 Interpolationsaufgabe” besteht darin, zu n+1paarweise verschiedenen Stutzstellen (auch “Knoten” genannt) x0, . . ., xn ∈ R und gegebe-nen Knotenwerten y0, . . ., yn ∈ R ein Polynom p ∈ Pn zu bestimmen mit der Eigenschaft

p(xi) = yi, i = 0, . . ., n. (2.1.1)

Satz 2.1 (Langrange-Interpolation): Die Langrangesche Interpolationsaufgabe ist ein-deutig losbar.

Beweis: Wir zeigen zunachst die Eindeutigkeit. Sind p1, p2 ∈ Pn zwei Losungen, so giltfur p := p1 − p2 ∈ Pn : p(xi) = 0, i = 0, . . ., n , d. h.: p hat n + 1 Nullstellen, undist folglich identisch Null (folgt mit Hilfe des Satzes von Rolle2). Zur Existenz betrachtenwir die Gleichungen p(xi) = yi, i = 0, . . ., n . Dies kann man interpretieren als ein linea-res Gleichungssystem mit n + 1 Gleichungen fur die n + 1 unbekannten Koeffizientena0, . . ., an von p ∈ Pn . Wegen der Eindeutigkeit von p muß dieses System dann notwen-dig eine Losung haben. Q.E.D.

Zur Konstruktion des Interpolationspolynoms p ∈ Pn verwenden wir die sog. “La-grangeschen Basispolynome”

L(n)i (x) :=

n∏

j=0,j 6=i

x− xj

xi − xj∈ Pn , i = 0, . . ., n.

Daß der Satz von Polynomen L(n)i , i = 0, . . ., n tatsachlich eine Basis von Pn ist, wird

als Ubungsaufgabe gestellt. Offenbar ist

L(n)i (xk) =

1 , falls i = k

0 , falls i 6= k

=: δik (Kronecker-Symbol).

Definition 2.3: Das Polynom

p :=

n∑

i=0

yiL(n)i ∈ Pn (2.1.2)

1Joseph Louis de Lagrange (1736-1813): franzosischer Mathematiker; 1766-87 Direktor der mathem.Klasse der Berliner Akademie, dann Prof. in Paris; bahnbrechende Arbeiten zur Variationsrechnung, zurkomplexen Funktionentheorie sowie zur theor. Mechanik und Himmelsmechanik.

2Michel Rolle (1652-1719): franzosischer Mathematiker und Autodidakt; wirkte in Paris und leisteteBeitrage zur Analysis, Algebra und Geometrie; der nach ihm benannten Satz wurde 1691 publiziert.

2.1 Polynominterpolation 25

hat dann die gewunschten Eigenschaften p(xj) = yj . Es wird die “Lagrangesche Darstel-lung” des (Lagrangeschen) Interpolationspolynoms zu den Stutzpunkten (x0, y0), . . ., (xn, yn)genannt (abgekurzt “Lagrangesches Interpolationspolynom”).

Das Lagrangesche Darstellung des Interpolationspolynoms hat den Nachteil, daß sichdie verwendeten Basisfunktionen von Pn bei Hinzunahme eines weiteren Stutzpunktes(xn+1, yn+1) vollig andern. Dies wird vermieden bei Verwendung der sog. “Newtonschen3

Basispolynome”

N0(x) := 1 ; i = 1, . . ., n : Ni(x) :=i−1∏

j=0

(x− xj).

Aus diesen laßt sich das Interpolationspolynom systematisch aufbauen. Fur den Ansatz

p(x) =n∑

i=0

aiNi(x)

findet man durch sukzessive Auswertung in x0, . . ., xn das gestaffelte Gleichungssystem

y0 = p(x0) = a0

y1 = p(x1) = a0 + a1(x1 − x0)

...

yn = p(xn) = a0 + a1(xn − x0) + . . .+ an(xn − x0). . .(xn − xn−1),

woraus sich die Koeffizienten ai rekursiv berechnen lassen. Die Hinzunahme eines weiterenPunktes (xn+1, yn+1) ist nun leicht durch Fortsetzung dieses Prozesses mit der Basisfunk-tion Nn+1 zu bewerkstelligen. In der Praxis bestimmt man die ai jedoch auf eine andere,numerisch stabilere Weise, die im folgenden beschrieben wird.

Satz 2.2 (Newtonsche Darstellung): Das Lagrangesche Interpolationspolynom zu denPunkten (xi, yi), i = 0, . . ., n, laßt sich bzgl. der Newtonschen Polynombasis schreiben inder Form

p(x) =n∑

i=0

y[x0, . . ., xi]Ni(x). (2.1.3)

Dabei bezeichnen y[x0, . . ., xi] die zu den Punkten (xi, yi) gehorenden sog. “dividiertenDifferenzen”, welche rekursiv definiert sind durch

i = 0, . . ., n : y[xi] := yi

k = 1, . . ., n− i : y[xi, . . ., xi+k] :=y[xi+1, . . ., xi+k] − y[xi, . . ., xi+k−1]

xi+k − xi.

3Isaac Newton (1643-1727): englischer Physiker und Mathematiker; Professor an der Universitat Cam-bridge; entwickelte u.a. die Grundlagen der klassischen Mechanik und der Differentialrechnung.


Beweis: Es bezeichne pi,i+k ∈ Pk das Polynom, welches die Punkte (xi, yi), . . ., (xi+k, yi+k) ,interpoliert. Speziell ist also p0,n = p das gesuchte Interpolationspolynom. Wir zeigen

pi,i+k(x) = y[xi] + y[xi, xi+1](x− xi) + . . .+ y[xi, . . ., xi+k](x− xi). . .(x− xi+k−1),

was offensichtlich die Aussage des Satzes als Spezialfall beinhaltet. Der Beweis wird durchInduktion bzgl. der Indexdifferenz k = (i+k)− i gefuhrt. Fur k = 0 ist pi,i = yi = y[xi] ,i = 0, . . ., n . Sei die Behauptung richtig fur k − 1 ≥ 0 . Konstruktionsgemaß gilt nun

pi,i+k(x) = pi,i+k−1(x) + a(x− xi). . .(x− xi+k−1).

Zu zeigen ist also, daß a = y[xi, . . ., xi+k] . Offenbar ist a der Koeffizient von xk inpi,i+k(x) . Nach Induktionsannahme ist weiter

pi,i+k−1(x) = . . .+ y[xi, . . .xi+k−1]xk−1,

pi+1,i+k(x) = . . .+ y[xi+1, . . ., xi+k]xk−1,

wobei “. . . ” fur Polynomanteile vom Grad kleiner oder gleich k−2 steht. Wie man leichtverifiziert, interpoliert das durch

q(x) =(x− xi)pi+1,i+k(x) − (x− xi+k)pi,i+k−1(x)

xi+k − xi

= pi,i+k−1(x) + (x− xi)pi+1,i+k(x) − pi,i+k−1(x)

xi+k − xi

gegebene Polynom q ∈ Pk die k + 1 Stutzpunkte (xj , yj) , j = i, . . ., i + k . Wegen derEindeutigkeit des Interpolationspolynoms ist dann notwendig q ≡ pi,i+k . Der fuhrendeKoeffizient in pi,i+k(x) ist demnach

a =y[xi+1, . . ., xi+k] − y[xi, . . ., xi+k−1]

xi+k − xi= y[xi, . . ., xi+k],

was den Beweis vervollstandigt. Q.E.D.

Korollar 2.1: Die Aussage von Satz 2.2 impliziert eine wichtige Invarianzeigenschaft derdividierten Differenzen. Der fuhrende Koeffizient y[x0, . . ., xn] des Lagrangeschen Interpo-lationspolynoms ist gleichzeitig der Koeffizient des Monoms xn in seiner Standarddarstel-lung. Da dieser unabhangig von der Reihenfolge in der Anordnung der Punkte x0, . . ., xn

ist, gilt dasselbe folglich auch fur die dividierte Differenz, d. h.: Es gilt

y[x0, . . ., xn] = y[x0, . . ., xn] (2.1.4)

fur jede beliebige Permutation x0, . . ., xn dieser Punkte.

Die im Beweis von Satz 2.2 verwendete Beziehung zwischen den Polynomen pi,i+k

kann direkt zur rekursiven Berechnung des Interpolationspolynoms p = p0,n verwendetwerden.


Definition 2.4: Das durch dir Rekursion

i = 0, . . ., n : pi,i(x) = yi,

k = 0, . . ., n− i : pi,i+k(x) = pi,i+k−1(x) + (x− xi)pi+1,i+k(x) − pi,i+k−1(x)

xi+k − xi

,(2.1.5)

erzeugte Polynom p0,n ist die sog. “Nevillesche4 Darstellung” des Interpolationspolynomszu den Stutzpunkten (x0, y0), . . ., (xn, yn) .

Bei der praktischen Berechnung der Nevilleschen darstellung geht man nach folgendemSchema vor:

x0 y0 p0,1(x) p0,2(x) p0,3(x) . . . p0,n−1(x) p0,n(x)

x1 y1 p1,2(x) p1,3(x) p1,4(x) . . . p1,n(x)

x2 y2 p2,3(x) p2,4(x) p2,5(x) . . ....

......

......

xn−1 yn−1 pn−1,n(x)

xn yn

Auch hier ist die Hinzunahme eines weiteren Stutzpunktes (xn+1, yn+1) problemlos. DieNevillesche Darstellung des Interpolationspolynoms bietet eine sehr effiziente und nume-risch stabile Moglichkeit zur Berechnung einzelner Funktionswerte p(ξ)(ξ 6= xi) ohne vor-herige Bestimmung der Koeffizienten in der Newtonschen Darstellung. Dazu setzt man imobigen Neville-Schema einfach x = ξ und verwendet zur Berechnung von pi,k := pi,k(ξ)(aus Stabilitatsgrunden) die Rekursionsformeln

i = 0, · · · , n : pi,i = yi

k = 1, · · · , n− i : pi,i+k = pi,i+k−1 + (ξ − xi)pi+1,i+k − pi,i+k−1

xi+k − xi

= pi,i+k−1 +pi,i+k−1 − pi+1,i+k

(ξ − xi+k)/(ξ − xi) − 1.

(2.1.6)

2.1.1 Auswertung von Polynomen

Ist ein Polynom p ∈ Pn in der Form p(x) = a0 + a1x + . . . + anxn gegeben, so werden

einzelne Werte p(ξ) mit Hilfe des sog. “Horner-Schemas” berechnet (siehe Kapitel 1):

bn = an; k = n− 1, . . ., 0 : bk ≡ ak + ξbk+1; p(ξ) = b0.

4Eric Harold Neville (1889-1961): Englischer Mathematiker; Professor an der Universitat in Reading,England (1919-1954); Beitrage zur numerischen Mathematik, u. a. zur praktischen Polynominterpolation.


Zu pn := p ∈ Pn wird durch

pn−1(x) := b1 + b2x+ . . .+ bnxn−1

ein Polynom pn−1 ∈ Pn−1 definiert. Wegen ak = bk − ξbk+1 gilt offenbar

p(x) = (x− ξ)pn−1(x) + r0, r0 = p(ξ) = b0,

d. h.: Das Horner-Schema leistet unter anderem die Abspaltung des Linearfaktors x− ξvom Polynom p(x) (Euklidischer Algorithmus). Weiter ist dann

p(x) − p(ξ)

x− ξ= pn−1(x), x 6= ξ,

d. h.: Fur x → ξ folgt die Beziehung p′(ξ) = pn−1(ξ). Zur Berechnung von p′(ξ) wirddas Horner-Schema auf das Polynom pn−1 angewendet. Dies liefert Koeffizienten ck ,k = 2, . . ., n , sowie ein Polynom pn−2 ∈ Pn−2 mit der Eigenschaft

pn−1(x) = (x− ξ)pn−2(x) + r1, r1 = pn−1(ξ) = c1.

Durch fortgesetzte Abspaltung des Linearfaktors x−ξ erhalt man so eine (endliche) Folgevon Polynomen pn, pn−1, pn−2, . . ., p0 mit der Eigenschaft

pn−j(x) = (x− ξ)pn−j−1(x) + rj, j = 0, . . ., n− 1; p0 = rn,

und damit die Darstellung

pn(x) = r0 + r1(x− ξ) + . . .+ rn(x− ξ)n. (2.1.7)

Vergleicht man dies mit der Taylor-Entwicklung von p an der Stelle ξ , so findet man

rj =1

j!p(j)(ξ), j = 0, . . ., n. (2.1.8)

Die Koeffizienten des Polynoms pn−j seien mit a(j)k bezeichnet:

pn−j(x) = a(j)j + a

(j)j+1x+ . . .+ a(j)

n xn−j, j = 0, . . ., n.

Sie werden berechnet durch die rekursive Vorschrift

j = 0, . . ., n : a(j+1)n = a

(j)n ,

k = n− 1, . . ., j : a(j+1)k = a

(j)k + ξa

(j+1)k+1 ,

und es gilt p(j)(ξ) = j!a(j+1)j , j = 0, . . ., n .

Die Koeffizienten a(j)k bilden das sog. “vollstandige Horner-Schema” zur Auswertung des

Polynoms p im Punkt ξ .


Das Horner-Schema kann leicht zur Auswertung eines Polynoms

p(x) = a0 + a1(x− x0) + . . .+ an(x− x0). . .(x− xn−1)

in allgemeiner Newtonscher Darstellung modifiziert werden:

bn = an; k = n− 1, . . ., 0 : bk ≡ ak + (ξ − xk)bk+1; p(ξ) = b0.

Ist man an den Ableitung p(j)(ξ) eines in Newtonscher Form gegebenen Polynomsinteressiert, so ist dies weitgehend aquivalent mit dem Problem, zu einer gegebenen Dar-stellung

p(x) = a0 + a1(x− x0) + . . .+ an(x− x0). . .(x− xn−1)

die Koeffizienten bk , k = 0, . . ., n , in der Darstellung

p(x) = b0 + b1(x− y0) + . . .+ bn(x− y0). . .(x− yn−1)

bzgl. anderer (paarweise verschiedener) Punkte yk , k = 0, . . ., n− 1 , zu bestimmen. Dieswird durch das folgende “verallgemeinerte Horner-Schema” geleistet:

k = 0, . . ., n : a(0)k ;

j = 0, . . ., n− 1 : a(j+1)n = a

(j)n ;

k = n− 1, . . ., j : a(j+1)k = a

(j)k + (yj − xk−j)a

(j+1)k+1 , bj = a

(j+1)j .

2.1.2 Interpolation von Funktionen

Wir betrachten nun den Fall, daß die Knotenwerte yi durch eine Funktion f auf einemdie Stutzpunkte xi enthaltenden Intervall [a, b] gegeben sind:

yi = f(xi), xi ∈ [a, b], i = 0, . . ., n.

Zunachst stellt sich die Frage, wie gut das zugehorige Interpolationspolynom p ∈ Pn

die Funktion f auf [a, b] approximiert. Im Folgenden bezeichne (x0, . . ., xn) das kleinsteIntervall, das alle in den Klammern eingeschlossenen Punkte enthalt. Ferner bezeichnetC[a, b] den Vektorraum der uber [a, b] stetigen Funktionen und analog Ck[a, b] den Vek-torraum der uber [a, b] k-mal stetig differenzierbaren Funktionen.

Satz 2.3 (Interpolationsfehler 1): Sei f ∈ Cn+1[a, b] . Dann gibt es zu jedem x ∈[a, b] ein ξx ∈ (x0, . . ., xn, x) , so daß gilt:

f(x) − p(x) =f (n+1)(ξx)

(n + 1)!

n∏

j=0

(x− xj) . (2.1.9)


Beweis: Fur x ∈ x0, . . ., xn ist alles klar. Sei also x ∈ [a, b]\x0, . . ., xn . Wir setzen

l(t) :=

n∏

j=0

(t− xj), c(x) :=f(x) − p(x)

l(x).

Die Funktion F (t) = f(t)− p(t)− c(x)l(t) besitzt dann mindestens die n+2 Nullstellenx0, . . ., xn, x in [a, b] . Durch wiederholte Anwendung des Satzes von Rolle erschließt man,daß dann die Ableitung F (n+1) eine Nullstelle ξx ∈ (x0, . . ., xn, x) hat. Mit

0 = F (n+1)(ξx) = f (n+1)(ξx) − p(n+1)(ξx) − c(x)l(n+1)(ξx) = f (n+1)(ξx) − c(x)(n + 1) !

folgt die Behauptung. Q.E.D.

Satz 2.4 (Interpolationsfehler 2): Sei f ∈ Cn+1[a, b] . Dann gestattet der Fehler beider Polynominterpolation fur x ∈ [a, b]\x0, · · · , xn die Darstellung

f(x) − p(x) = f [x0, . . ., xn, x]n∏

j=0

(x− xj), (2.1.10)

mit der Notation f [xi, . . ., xi+k] := y[xi, . . ., xi+k] , und es ist

f [x0, . . ., xn, x] =

∫ 1

0

∫ t1

0

. . .

∫ tn−1

0

∫ tn

0

f (n+1) (x0 + t1(x1 − x0) + . . .

+ tn(xn − xn−1) + t(x− xn)) dtdtn. . .dt2dt1.

Beweis: Der Beweis wird durch Induktion nach der Anzahl der Stutzstellen (in der Rei-hung x0, x1, x2, . . . ) gefuhrt. Fur n = 0 gilt trivialerweise

f(x) − p0(x) = f(x) − f(x0) =

f [x0, x](x− x0),

(x− x0)∫ 1

0f

′

(x0 + t(x− x0)) dt.

Sei die Behauptung nun richtig fur n− 1 ≥ 0 . Dann ist

f(x) − pn(x) = f(x) −n∑

i=0

f [x0, . . ., xi]i−1∏

j=0

(x− xj)

= f(x) − pn−1(x) − f [x0, . . ., xn]

n−1∏

j=0

(x− xj)

= f [x0, . . ., xn−1, x]

n−1∏

j=0

(x− xj) − f [x0, . . ., xn]

n−1∏

j=0

(x− xj)

=f [x0, . . ., xn−1, x] − f [x0, . . ., xn]

x− xn

n∏

j=0

(x− xj),


und somit, wegen f [x0, . . ., xn−1, x] = f [x, x0, . . ., xn−1] , unter Ausnutzung der Definitionder dividierten Differenzen:

f(x) − pn(x) = f [x0, . . ., xn, x]n∏

j=0

(x− xj) .

Ferner ist nach Induktionsvoraussetzung

f [x0, . . ., xn−1, x] − f [x0, . . ., xn]

=

∫ 1

0

∫ t1

0

. . .

∫ tn−1

0

f (n)(x0 + t1(x1 − x0) + . . .+ tn(x− xn−1))

−f (n)(x0 + t1(x1 − x0) + . . .+ tn(xn − xn−1))dtn . . . dt1

=

∫ 1

0

∫ t1

0

. . .

∫ tn

0

d

dtf (n)(x0 + . . .+ tn(xn − xn−1) + t(x− xn))

︸︷︷︸

f (n+1)(. . .)(x− xn)

dtdtn. . .dt1

und folglich, nach Definition der dividierten Differenzen,

f [x0, . . ., xn, x] =

∫ 1

0

∫ t1

0

. . .

∫ tn−1

0

∫ tn

0

f (n+1)(. . .) dtdtn. . .dt1.

Dies vervollstandigt den Beweis. Q.E.D.

Die obige Integraldarstellung der dividierten Differenzen f [x0, . . ., xn] gestattet ihrestetige Fortsetzung fur den Fall, daß einige der Stutzstellen zusammenfallen:

f [x0, . . ., xr, xr, . . ., xn] := limε→0

f [x0, . . ., xr, xr + ε, . . ., xn].

Im Extremfall x0 = . . . = xn wird

f [x0, . . ., xn] =

∫ 1

0

∫ t1

0

. . .

∫ tn−1

0

f (n)(x0) dtn. . .dt2dt1 =1

n!f (n)(x0) ,

und das Newtonsche Interpolationspolynom geht uber in das Taylor-Polynom n-ten Gra-des von f in x0 :

pn(x) =

n∑

i=0

f [x0, . . ., xi]

i−1∏

j=0

(x− xj) =

n∑

i=0

1

i!f (i)(x0)(x− x0)

i .

Ferner sehen wir, daß sich die dividierten Differenzen einer hinreichend oft differenzierba-ren Funktion durch Zwischenwerte der entsprechenden Ableitungen ausdrucken lassen:

f [x0, . . ., xn, x] =1

(n+ 1)!f (n+1)(ξx), (2.1.11)

mit einer Zwischenstelle ξx ∈ (x0, ..., xn, x).


Wir wollen nun allgemein den Fehler bei der Lagrangeschen Interpolation diskutieren:

f(x) − p(x) =f (n+1)(ξx)

(n + 1)!

n∏

j=0

(x− xj). (2.1.12)

Fur großes n wird 1/n! sehr klein, und das Produkt wird klein, wenn die Stutzstellenimmer dichter zusammenrucken. Sind die Ableitungen von f beschrankt auf [a, b] , sogilt also sicher

maxa≤x≤b

|f(x) − p(x)| → 0 (n→ ∞) .

Meist haben die Ableitungen der zu interpolierenden Funktionen jedoch ein zu starkesWachstum fur n→ ∞ , z.B.:

f(x) = (1 + x2)−1, |f (n)(x)| ≈ 2nn!O(|x|−2−n) ,

so daß gleichmaßige Konvergenz des Approximationsprozesses nicht mehr zu erwarten ist.

Beispiel 2.1: Fur die Funktion f(x) = |x|, x ∈ [−1, 1] , ergibt die Lagrange-Interpolationin den Stutzstellen xi = −1+ih, i = 0, . . ., 2m , mit h = 1/m und x 6∈ xi, i = 0, . . ., 2mdas Verhalten

pm(x) 6→ f(x) (m→ ∞).

Dieser Effekt ist nicht auf nicht differenzierbare Funktionen beschrankt, wie das obigeBeispiel f(x) = (1 + x2)−1, x ∈ [−5, 5] zeigt (s. Ubungsaufgabe).

Bemerkung 2.1: Der Weierstraßsche Approximationssatz besagt, daß jede Funktionf ∈ C[a, b] beliebig gut gleichmaßig auf [a, b] durch Polynome approximiert werdenkann. Die Vermutung, daß dies mit Lagrangeschen Interpolationspolynomen geschehenkann, ist jedoch i. Allg. falsch.

Ein weiterer Defekt der Lagrange-Interpolation besteht in ihrer großen Fehlerempfind-lichkeit. Fehlerhafte Daten yi + ∆yi wirken sich auf die Gestalt des Polynoms nicht nurlokal bei der Stutzstelle xi aus, sondern verandern den Verlauf auch relativ dramatischuber dem ganzen Intervall.

Beispiel 2.2: xi = −1 + ih , i = 0, . . ., 2m , h = 1/m ; yi = 0 fur i 6= m , ym = ε ;

p(x) = ε

2m∏

j=0j 6=m

x− xj

xj(Lagrange-Polynom zum Aufpunkt xm = 0)

Dies liegt daran, daß auch fur “gutartige” Funktionen der Term |n∏

j=0

(x − xj)| fur x 6∈

(x0, . . ., xn) sehr schnell anwachst. Die Verwendung der Polynominterpolation zur weit-reichenden “Extrapolation” ist also nur bedingt zu empfehlen. Hierfur erweist sich dieInterpolation mit rationalen Funktionen als wesentlich geeigneter.


-15

-10

-5

0

5

10

15

20

25

-1 -0.5 0 0.5 1-15

-10

-5

0

5

10

15

20

25

-1 -0.5 0 0.5 1-15

-10

-5

0

5

10

15

20

25

-1 -0.5 0 0.5 1-15

-10

-5

0

5

10

15

20

25

-1 -0.5 0 0.5 1

Abbildung 2.1: Storungsverlauf bei wachsendem Polynomgrad

2.1.3 Hermite-Interpolation

Die Aufgabenstellung der Lagrange-Interpolation laßt sich verallgemeinern zur sog. “Her-mite5-Interpolation”:.

Definition 2.5: Die Hermitesche Interpolationsaufgabe lautet wie folgt:

Gegeben: xi, i = 0, . . ., m (paarweise verschieden)

y(k)i , i = 0, . . ., m k = 0, . . ., µi (µi ≥ 0) .

Gesucht: p ∈ Pn, n = m+m∑

i=0

µi : p(k)(xi) = y(k)i .

Die Punkte xi werden als (µi + 1) -fache Stutzstellen bezeichnet.

Analog zu Satz 2.1 beweist man:

Satz 2.5 (Hermite-Interpolation): Die Hermitesche Interpolationsaufgabe besitzt ei-ne eindeutige Losung.

Sind die Knotenwerte y(k)i = f (k)(xi) durch eine Funktion f gegeben, so gilt:

5Charles Hermite (1822-1901): franzosischer Mathematiker; Prof. an der Ecole Polytechnique und derSorbonne in Paris; Beitrage zur Zahlentheorie und zur Theorie elliptischer Funktionen.


Satz 2.6 (Interpolationsfehler): Ist f ∈ Cn+1[a, b] , so gibt es zu jedem x ∈ [a, b] einξx ∈ (x0, . . ., xm, x) , so daß fur die Losung p ∈ Pn der Hermiteschen Interpolationsauf-gabe gilt:

f(x) − p(x) = f [x0, . . ., x0, . . ., xm, . . ., xm, x]

m∏

i=0

(x− xi)µi+1

=1

(n+ 1)!f (n+1)(ξx)

m∏

i=0

(x− xi)µi+1.

(2.1.13)

Beweis: Analog zu Satz 2.3 bzw. Satz 2.4. Q.E.D.

Aus Stetigkeitsgrunden besitzt das Hermitesche Interpolationspolynom einer Funktionf ∈ Cn+1[a, b] die Darstellung

p(x) =m∑

i=0

µi+1∑

r=1

f [ x0, . . ., x0︸︷︷︸

(µ0 + 1)-mal

, . . ., xi−1, . . ., xi−1︸︷︷︸

(µi−1 + 1)-mal

, xi, . . ., xi︸︷︷︸

r-mal

] ×

×i−1∏

j=0

(x− xj)µj+1(x− xi)

r−1.

Die dividierten Differenzen f [. . .] sind durch ein zur Lagrangeschen Interpolation analo-ges Rekursionsschema bestimmt, wobei immer dann, wenn Differenzen wegen des Zusam-menfallens von Stutzpunkten nicht nach der Definitionsformel gebildet werden konnen,sinngemaß die Stutzwerte hoherer Ordnung einzusetzen sind; z.B.:

y[xi, xi] = y(1)i , y[xi, xi, xi+1] =

y[xi, xi+1] − y(1)i

xi+1 − xi,

y[xi, xi, xi] =1

2y

(2)i , y[xi, xi, xi, xi+1] =

y[xi, xi, xi+1] − 12y

(2)i

xi+1 − xi

.

Eine weitere Verallgemeinerung der Lagrange- und Hermite-Interpolation ist die sog.“Hermite-Birkhoff6-Interpolation”, bei der Funktions- bzw. Ableitungswerte in verschie-denen Punkten beliebig gemischt vorgegeben werden, z.B.:

p ∈ P3 : p(0) = 1 , p′(1) = 2 , p(2) = 0 , p′(3) = 3.

Die Frage nach der Losbarkeit der allgemeinen Hermite-Birkhoffschen Interpolationsauf-gabe ist noch nicht vollstandig geklart. Es konnen im Gegensatz zur Lagrangeschen undzur Hermiteschen Aufgabe alle Falle von “eindeutig losbar” uber “unendlich mehrdeutiglosbar” bis “unlosbar” auftreten (Ubungsaufgabe).

6George David Birkhoff (1884-1944): US-Amerikanischer Mathematiker; Professor an der HarvardUniversity, Boston, USA; Beitrage zu sehr verschiedenen Gebieten der Mathematik: dynamische Systeme(Ergoden-Theorem), Gravitationstheorie und Mathematik der Asthetik.

2.2 Extrapolation zum Limes 35

2.2 Extrapolation zum Limes

Eine wichtige Anwendung der Polynominterpolation ist die sog. “Richardsonsche7 Extra-polation zum Limes”. Ein numerischer Prozeß liefere fur jeden Wert eines Parametersh ∈ R+ (h→ 0) einen Wert a(h) . Gesucht ist die nicht direkt berechenbare Große

a(0) = limh→0

a(h). (2.2.14)

Zur Annaherung von a(0) berechnet man a(hi) fur gewisse Werte hi, i = 0, . . . , n ,und nimmt den Wert pn(0) des zugehorigen Interpolationspolynoms zu (hi, a(hi)) alsSchatzung fur a(0) .

Beispiel 2.3: Wir betrachten die numerische Realisierung der l’Hospitalschen8 Regel.Zur Berechnung von

a(0) := limx→+0

cos(x) − 1

sin(x)(= 0)

setzen wir

a(x) :=(cos(x) − 1)

sin(x)

und interpolieren a(x) an einigen Stutzstellen hi nahe bei 0 :

h0 = 18,

h1 = 116,

h2 = 132,

a(h0) = −6.258151 · 10−2 ,

a(h1) = −3.126018 · 10−2 ,

a(h2) = −1.562627 · 10−2 .

Das interpolierende Polynom ist in Lagrangescher Darstellung:

p2(x) = a(h0)(x− 1

16)(x− 1

32)

(18− 1

16)(1

8− 1

32)

+ a(h1)(x− 1

8)(x− 1

32)

( 116

− 18)( 1

16− 1

32)

+ a(h2)(x− 1

8)(x− 1

16)

( 132

− 18)( 1

32− 1

16),

und wir erhaltena(0) ∼ p2(0) = −1.02 · 10−5.

Numerisch gunstiger ware die Berechnung von p2(0) mit Hilfe des Nevilleschen Algorith-mus nach dem Schema

pi,i+k(0) = pi,i+k−1(0) +pi,i+k−1(0) − pi+1,i+k(0)

xi+k/xi − 1, k = 1, 2.

7Lewis Fry Richardson (1881-1953): englischer Mathematiker und Physiker; wirkte an verschiedenenInstitutionen in England und Schottland; typischer “angewandter Mathematiker”; leistete Pionierbeitragezur Modellierung und Numerik in der Wettervorhersage.

8Guilliome F. A. Marquis de L’Hospital (1661-1704): Franzosischer Mathematiker; Schuler von JohannBernoulli; veroffentlichte 1696 das erste Lehrbuch der Differentialrechnung, welches auch die nach ihmbenannte Regel enthalt.


i xi pi,i(0) = a(hi) pi,i+1(0) pi,i+2(0)

0 x0 = 18

−6.258151 · 10−2 6.115 · 10−5 −1.02 · 10−5

1 x1 = 116

−3.126018 · 10−2 7.64 · 10−6

2 x2 = 132

−1.562627 · 10−2

Beispiel 2.4: Wir betrachten die numerische Differentiation. Fur C1-Funktionen f ist

limh→0

f(x+ h) − f(x)

h= f ′(x),

und fur f ∈ C2 folgt durch Taylor-Entwicklung

f(x+ h) − f(x)

h= f ′(x) +

h

2f ′′(ζx) , ζx ∈ (x, x+ h).

Im Falle f ∈ C3 erhalt man eine bessere Naherung zu f ′(x) durch den zentralen Diffe-renzenquotienten

f(x+ h) − f(x− h)

2h= f ′(x) +

h2

6f ′′′(ζx) , ζx ∈ (x+ h, x− h).

Ist f analytisch, so gilt sogar

a(h) :=f(x+ h) − f(x− h)

2h= f ′(x) +

∞∑

i=1

f (2i+1)(x)

(2i)!h2i,

d.h.: a(h) ist eine “gerade” Funktion in h . Zur Extrapolation von a(h) verwendet mandaher zweckmaßigerweise auch gerade Polynome, d. h. Polynome in h2 . Als Beispielbetrachten wir f(x) = sin(x) mit f ′(0) = cos(0) = 1 und

a(h) ≡ sin(h) − sin(−h)2h

=sin(h)

h.

Auswertung von a(h) in

h0 = 18, h1 = 1

16, h2 = 1

32(”heimliche” Knoten: − 1

8, − 1

16, − 1

32)

a(h0) = 0.9973979 , a(h1) = 0.9993491 , a(h2) = 0.9998372 ,

ergibt dann

p2(h) = a(h0)(h2 − 1

162 )(h2 − 1

322 )

( 182 − 1

162 )(182 − 1

322 )+ . . . , p2(0) = 0.999999926 .

Der folgende Satz liefert die theoretische Grundlage der Richardson-Extrapolation.


Satz 2.7 (Extrapolationsfehler): Fur die Funktion a(h) , h ∈ R+ , sei bekannt, daßeine asymptotische Entwicklung der Form

a(h) = a0 +

n∑

j=1

ajhjq + an+1(h)h

(n+1)q (2.2.15)

gilt, mit einem q > 0 , und gewissen Koeffizienten aj und an+1(h) = an+1 + o(1) furh→ 0 . Sei (hk)k=0,1,2,... eine monoton fallende Folge positiver Zahlen mit der Eigenschaft

0 <hk+1

hk≤ ρ < 1 . (2.2.16)

Fur das Interpolationspolynom p(k)n ∈ Pn (in hq) durch (hq

k, a(hk)), . . . , (hqk+n, a(hk+n))

gilt dann:

a(0) − p(k)n (0) = O(h

(n+1)qk ) (k → ∞). (2.2.17)

Beweis: Wir setzen zur Abkurzung z = hq und zk = hqk. Das Interpolationspolynom zu

den Stutzpunkten (zk+i; a(hk+i)) , i = 0, . . . , n , ist in Lagrangescher Darstellung:

pn(z) =n∑

i=0

a(hk+i)L(n)k+i(z) , L

(n)k+i(z) =

n∏

l=0l6=i

z − zk+l

zk+i − zk+l

.

Aus der Fehlerdarstellung

f(x) − pn(x) =1

(n + 1)!f (n+1)(ζx)

n∏

i=0

(x− xk+i) , ζx ∈ [0, h0] ,

fur f ≡ 1 sowie f(x) = xr liest man ab, daß (Ubungsaufgabe)

n∑

i=0

zrk+iL

(n)k+i(0) =

1 , fur r = 0 ,

0 , fur r = 1, . . . , n ,

(−1)n

n∏

i=0

zk+i , fur r = n+ 1 .

Damit erschließen wir:

pn(0) =

n∑

i=0

a0 +

n∑

j=1

ajzjk+i + an+1(hk+i)z

n+1k+i

L(n)k+i(0)

= a0

n∑

i=0

L(n)k+i(0) +

n∑

j=1

aj

n∑

i=0

zjk+iL

(n)k+i(0)

+

an+1

n∑

i=0

zn+1k+i L

(n)k+i(0) +

n∑

i=0

o(1)zn+1k+i L

(n)k+i(0),


pn(0) = a0 + an+1(−1)nn∏

i=0

hqk+i + o(h

(n+1)qk ).

Hier wurde (2.2.16) benutzt, um die von hk unabhangige Abschatzung

∣∣∣L

(n)k+i(0)

∣∣∣ =

n∏

l=0,l 6=i

∣∣∣∣

zk+l

zk+i − zk+l

∣∣∣∣=

n∏

l=0,l 6=i

∣∣∣∣

1

zk+i/zk+l − 1

∣∣∣∣≤ γ(n, ρ) (2.2.18)

zu garantieren. Wegenn∏

i=0

hqk+i = O(h

(n+1)qk )

ergibt sich (2.2.17) gleichmaßig fur alle k . Q.E.D.

Ublicherweise wird ein Extrapolationsprozeß anhand des folgenden “Extrapolationsta-bleaus” zur Berechnung der Werte pi,i+k = pi,i+k(0) durchgefuhrt. Es sei daran erinnert,daß pi,i+k(h) das Polynom (in hq ) ist, welches die Punkte (hq

i , a(hi)), . . ., (hqi+k, a(hi+k))

interpoliert. Die Funktionswerte pi,i+k erhalt man nach dem Neville-Algorithmus:

pi,i+k = pi,i+k−1 +pi,i+k−1 − pi+1,i+k

xi+k/xi − 1.

Der Konvention folgend setzen wir aik ≡ pi−k,i :

ai0 = a(hi)

h0 a00 Extrapolationstableau

h1 a10 → a11

h2 a20 → a21 → a22

......

......

. . .

hi ai0 ai1 ai2 · · · aii

Die Tableaueintrage werden sukzessive nach der folgenden Rekursionsformel berechnet:

i = 0, 1, 2, . . . : ai,0 = a(hi) ,

i = 1, 2, 3, . . ., k = 1, 2, 3, . . ., i : aik = ai,k−1 +ai,k−1 − ai−1,k−1

(hi−k/hi)q − 1.

(2.2.19)

Nach Satz 2.7 gilt dann fur festes k :

a(0) − aik = O(h(k+1)qi−k ) (i→ ∞), (2.2.20)

vorausgesetzt die Schrittweitenfolge genugt der Bedingung (2.2.16). Gebrauchliche Folgensind gegeben durch hi ≡ h0/ni mit

i) ni = 2i, ii) ni = 2, 4, 6, 8, 12, 16, . . ., iii) ni = 1, 2, 3, . . . (unzulassig).


2.2.1 Fehlerkontrolle

Zur praktischen Durchfuhrung der Extrapolation gehort ein Kriterium, wann der Extra-polationsprozeß abzubrechen ist. Sei eine zu erzielende Fehlertoleranz TOL vorgegeben.Der Fehlerdarstellung (siehe den Beweis von Satz 2.7)

aik = a(0) + ak+1(−1)kk∏

j=0

hqi−k+j + o(h

(k+1)qi−k )

entnehmen wir, daß fur festes k und genugend großes i der Fehler aik − a(0) monotongegen Null konvergiert (falls ak+1 6= 0 ). Mit den neu definierten Großen

bik ≡ 2ai+1,k − aik

gilt dann im Falle q ≥ 1 :

bik − a(0) = 2ai+1,k − a(0) − aik − a(0)

= 2ak+1(−1)k

k∏

j=0

hqi+1−k+j + o(h

(k+1)qi+1−k ) − ak+1(−1)k

k∏

j=0

hqi−k+j + o(h

(k+1)qi−k )

=

k∏

j=0

hqi−k+j −ak+1(−1)k + 2 (

hi+1

hi−k)q ak+1(−1)k + o(h

(k+1)qi−k ).

Wegen hqi+1/h

qi−k ≪ 1 gilt also in erster Naherung

bik − a(0).= −(−1)k ak+1

k∏

j=0

hqi−k+j,

und folglich

aik − a(0).= − (bik − a(0)) , (2.2.21)

fur festes k und genugend großes i . Wegen der monotonen Konvergenz aik − a(0) →0 (i → ∞) gilt also asymptotisch entweder aik ≤ a(0) ≤ bik oder aik ≥ a(0) ≥ bik , undbeide Seiten konvergieren monoton gegen a(0) fur i → ∞ . Dieses Verhalten der Fol-gen (aik)i∈N und (bik)i∈N (fur festes k ) kann zur Konstruktion eines Abbruchkriteriumsherangezogen werden:

|aik − bik| < TOL ⇒ STOP . (2.2.22)

Bemerkung 2.2: Fur die Praxis lohnt es sich, den Extrapolationsprozeß vollstandigdurchzufuhren, d.h. die Diagonalelemente aii des Tableaus zu berechnen. In der Tatkann man zeigen, daß die “Diagonalfolge” (aii)i∈N schneller gegen a(0) konvergiert alsjede der Spaltenfolgen (aik)i∈N , k ≥ 0 .


2.3 Spline-Interpolation

Lagrangesche Interpolationspolynome eignen sich nicht besonders gut zur Approximationvon (nicht glatten) Funktionen, da sie bei Vermehrung der Stutzstellenzahl dazu neigen,zwischen den Stutzstellen immer großere Werte anzunehmen. Dies ist eine Folge ihrer“Steifheit” bedingt durch die Forderung von C∞-Ubergangen in den Knoten. Zur Re-duzierung dieser Steifheit setzt man die interpolierende Funktion ϕ nur als “stuckweisepolynomial” bzgl. der Zerlegung a = x0 < x1 < . . . < xn = b an. In den Knoten xi

werden dann geeignete Differenzierbarkeitseigenschaften (z.B. ϕ ∈ C2[a, b] ) gefordert.

a = x0 x1 xi−1 Ii xi xn = b

yi

f(x)

r

r

r

r

r

r

r

r

r

.................................................................................................................................................................................................................................................................................................................

...............................

...................................................................................

..........................................................................................................................................................................................................................................................................

Abbildung 2.2: Spline-Approximation

Die Lange des Teilintervalls Ii = [xi−1, xi] ist hi = xi−xi−1 , und die Feinheit der gan-zen Intervallunterteilung wird durch die Große h := maxi=1,...,n hi beschrieben. Auf einersolchen Intervallzerlegung werden Vektorraume von stuckweise polynomialen Funktionenbetrachtet

S(k,r)h [a, b] =

p ∈ Cr[a, b], p|Ii

∈ Pk(Ii)

fur k, r ∈ 0, 1, 2, . . . . Zu einem Satz von Stutzwerten in Punkten aus dem Intervall[a, b] , die etwa wieder von einer zu interpolierenden Funktion f genommen werden, wird

dann eine ”Interpolierende” p ∈ S(k,r)h [a, b] mit Hilfe von geeigneten Interpolationsbedin-

gungen bestimmt. Wir betrachten im folgenden einige einfache Beispiele.

a = x0 x1 xi−1 Ii xi xn = b

f(x)

p(x)r

r

r

r

r

r

r

r

r

..........................................................................................................................................................................................................................................................................................................................................................................................................................

................................................................................................................................................................................................................................................................................

......................................................................................................................................................

...............................................................................................................................................................

.......................................

........................................................................

.........................................................................................................................................................................................................................................................................

Abbildung 2.3: Stuckweise lineare Interpolation

2.3 Spline-Interpolation 41

Beispiel 2.5: Die stuckweise lineare Lagrange-Interpolation (Fall k= 1, r= 0) approxi-miert eine gegebene Funktion f auf [a, b] durch einen Polygonzug in den Stutzstellenxi, i=0, . . . , n :

p ∈ S(1,0)h [a, b] =

p ∈ C[a, b], p|Ii

linear, p(xi) = f(xi) , i = 0, . . . , n.

Anwendung der Fehlerabschatzung fur die Lagrange-Interpolation separat auf jedem derTeilintervalle Ii ergibt die globale Fehlerabschatzung

maxx∈[a,b]

|f(x) − p(x)| ≤ 12h2 max

x∈[a,b]|f ′′(x)| .

AA

AA

AA

AAA

r

r

r

xi−1 xi xi+1

ϕi(x)

1

- x

Abbildung 2.4: “Lineare” Knotenbasisfunktion

Fur die Konstruktion der Interpolierenden verwendet man die sog. Knotenbasis vonS

(1,0)h [a, b] bestehend aus den “Dachfunktionen” ϕi ∈ S

(1,0)h [a, b], i= 0, . . . , n , die durch

die Bedingungϕi(xj) = δij

eindeutig bestimmt sind. Daß dies tatsachlich eine Basis ergibt, ist durch elementareArgumente einzusehen und sei als Ubungsaufgabe gestellt. Die Interpolierende p von flaßt sich dann in der Form

p(x) =

n∑

i=0

f(xi)ϕi(x).

darstellen. Diese Konstruktion ist analog zur Lagrangeschen Darstellung des Lagrange-Interpolationspolynoms. Da die Dachfunktionen ϕi nur in den direkt an den jeweiligenAufpunkt xi angrenzenden Teilintervallen von Null verschieden sind, nennt man dieseBasis “lokal”. Hohere globale Glattheit als Stetigkeit ist sinnvoll mit stuckweise linea-ren Interpolierenden offensichtlich nicht erzielbar. Dazu benotigt man Polynomansatzehoherer Ordnung.

Beispiel 2.6: Wir betrachten noch die stuckweise Interpolation mit kubischen Polyno-men ( k=3, r=0 oder r=1): S

(3,0)h [a, b] und S

(3,1)h [a, b] . Zur Erzielung globaler Stetigkeit


(r=0) verwendet man als Interpolationsbedingungen

p(xi) = f(xi) , p(xij) = f(xij),

mit jeweils zwei zusatzlichen Interpolationspunkten xij ∈ Ii , i=1, . . . , n, j=1, 2 . Durchstuckweise kubische Lagrange-Interpolation ist dadurch eindeutig eine global stetige In-terpolierende p ∈ S

(3,0)h [a, b] festgelegt. Analog erhalt man durch stuckweise kubische

Hermite-Interpolation aus den Interpolationsbedingungen

p(xi) = f(xi), p′(xi) = f ′(xi), i = 0, . . . , n,

eine global stetig differenzierbare Interpolierende p ∈ S(3,1)h [a, b] . In beiden Fallen folgt

aus den jeweiligen Fehlerabschatzungen die globale Fehlerabschatzung

maxx∈[a,b]

|f(x) − p(x)| ≤ 14!h4 max

x∈[a,b]|f (4)(x)|.

Analog zum Fall k = 1 lassen sich auch hier wieder “lokale” Knotenbasen der An-satzraume S

(3,0)h und S

(3,1)h angeben. Derartige rein lokale Interpolationsprozesse haben

Anwendungen etwa bei der numerischen Losung von gewohnlichen und partiellen Diffe-rentialgleichungen.

Die Forderung nach hoherer globaler Glattheit, etwa Interpolation in S(3,2)h , fuhrt auf

die sog. “Spline-Interpolation”, welche von großer praktischer Bedeutung z.B. bei der glat-ten Darstellung von Flachen in der Computer-Graphik ist. Der Begriff “Spline” stammtaus dem Englischen und bedeutet soviel wie “biegsames Kurvenlineal” (“Biegestab”):

-x0 x1 x2 x3

Stab s(x)

r

r

r

r

..

..

......................................................................................................................................................................................................................................................................................................

.......................................................................

..

.................................................

.........................................................................................................................................................................................................................................................................

.

..................................................

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

..

.

.

.

..

.

.

.

.

..

.

.

.

..

.

.

.

.

..

.

.

.

..

.

.

.

.

..

.

.

.

.

..

.

.

.

..

.

.

.

.

..

.

.

.

..

.

.

.

.

..

.

.

.

.

Abbildung 2.5: Spline-Funktion

Nach einem Grundgesetz der Mechanik (Prinzip vom Minimum der potentiellen Gesamt-energie) stellt sich der Biegestab so ein, daß die Gesamtkrummung minimiert wird, d. h.in linearisierter Naherung:

∫ xn

x0

s′′(x)2 dx = min ! (2.3.23)


bzgl. aller moglichen interpolierenden (hinreichend glatten) Funktionen. Außerhalb desInterpolationsintervalls [x0, xn] kann s(x) als linear angenommen werden, d. h.

s′′(x0) = s′′(xn) = 0. (2.3.24)

Diese sog. “naturlichen” Randbedingungen stellen sich also automatisch ein, wenn derStab nicht willkurlich zu einem anderen Verhalten gezwungen wird (“erzwungene” Rand-bedingungen: z.B. s′(x0) = s′(xn) = 0 ). Wir betrachten hier der Einfachheit halbernur die am haufigsten verwendeten “kubischen” Spline-Funktionen; sie ergeben sich aufnaturliche Weise aus dem obigen Biegestabmodell aufgrund der Forderung (2.3.23).

Definition 2.6: Eine Funktion sn : [a, b] → R heißt “kubischer Spline” bzgl. einer Zer-legung a = x0 < x1 < . . . < xn = b , wenn gilt:

(i) sn ∈ C2[a, b] ;

(ii) sn|[xi−1,xi] ∈ P3 , i = 1, . . . , n .

Gilt zusatzlich

(iii) s′′n(a) = s′′n(b) = 0 ,

so wird der kubische Spline “naturlich” genannt.

Wir fragen nun nach der Existenz des interpolierenden kubischen Splines zu vorgege-benen Knotenwerten

sn(xi) = yi , i = 0, . . . , n.

Satz 2.8 (Spline-Interpolation): Der interpolierende kubische Spline existiert und isteindeutig bestimmt durch zusatzliche Vorgabe von s′′n(a) und s′′n(b) .

Beweis: Jeder kubische Spline (bzgl. der Zerlegung a = x0 < . . . < xn = b) hat dieForm s(x)|[xi−1,xi] = pi(x) , i = 1, . . . , n , mit Polynomen pi ∈ P3 . Die jeweiligen 4 Ko-effizienten dieser n Polynome ergeben 4n freie Parameter. Zu ihrer Bestimmung stehenfolgende lineare Beziehungen zur Verfugung:

s(xi) = yi , i = 0, . . . , n : 2n Gleichungen

s′ ∈ C[a, b] : n− 1 ”

s′′ ∈ C[a, b] : n− 1 ”

Zusatzbedingungen : 2 ”∑

: 4n ”


Zum Nachweis der Existenz einer Losung dieses (quadratischen) Gleichungssystems genugtes wieder zu verifizieren, daß das zugehorige homogene System nur die triviale Losung hat.Dazu fuhren wir die folgende Funktionenmenge ein:

N ≡ w ∈ C2[a, b] | w(xi) = 0, i = 0, . . ., n.

Seien nun s(1)n , s

(2)n zwei interpolierende Splines. Fur die Differenz s ≡ s

(1)n −s(2)

n ∈ N giltdann mit beliebigem w ∈ N :

∫ b

a

s′′(x)w′′(x) dx =n−1∑

i=0

∫ xi+1

xi

s′′(x)w′′(x) dx

=

n−1∑

i=0

s′′w′ ∣∣xi+1

xi− s(iii)w

∣∣xi+1

xi+

∫ xi+1

xi

s(iv)(x)w(x) dx

=

n−1∑

i=0

s′′w′ ∣∣xi+1

xi= s′′(b)w′(b) − s′′(a)w′(a) = 0.

Speziell fur w ≡ s ∈ N ist also

∫ b

a

|s′′(x)|2 dx = 0,

d. h.: s ist linear. Wegen s(a) = s(b) = 0 folgt s ≡ 0 . Q.E.D.

Die obige Orthogonalitatsbeziehung hat die interessante Konsequenz, daß sich der inter-polierende Spline durch eine besonders geringe Oszillation auszeichnet.

Satz 2.9: Fur den interpolierenden, naturlichen, kubischen Spline sn gilt

∫ b

a

|s′′n(x)|2 dx ≤∫ b

a

|f ′′(x)|2 dx (2.3.25)

bzgl. aller anderen Funktionen f ∈ C2[a, b] mit f(xi) = yi, i = 0, . . . , n .

Beweis: Sei N wieder definiert wie im Beweis von Satz 2.8. Jede interpolierende Funktionf ∈ C2[a, b] kann in der Form f = sn + w mit einem w ∈ N geschrieben werden. Wirhaben (siehe oben)

∫ b

a

s′′n(x)w′′(x) dx = 0 ∀ w ∈ N.


Wegen der Identitat

∫ b

a

|f ′′(x)|2 dx =

∫ b

a

|s′′n(x) + w′′(x)|2 dx

=

∫ b

a

|s′′n(x)|2 dx+ 2

∫ b

a

s′′n(x)w′′(x) dx

︸︷︷︸

= 0

+

∫ b

a

|w′′(x)|2 dx︸︷︷︸

≥ 0

folgt die Behauptung. Q.E.D.

Die Aussage von Satz 2.9 laßt sich dahingehend umkehren, daß jede interpolierende Funk-tion s ∈ C2[a, b] , s(xi) = yi , mit der Eigenschaft (2.3.25) notwendig ein naturlicherkubischer Spline ist.

Zur expliziten Berechnung des interpolierenden Splines sn schreiben wir seine Be-standteile sn|[xi−1,xi] = pi ∈ P3 in der Form

pi(x) = a(i)0 + a

(i)1 (x− xi) + a

(i)2 (x− xi)

2 + a(i)3 (x− xi)

3, i = 1, . . ., n,

und bestimmen die 4n Koeffizienten a(i)0 , . . ., a

(i)3 . Dies wird im folgenden fur den inter-

polierenden “naturlichen” Spline durchgefuhrt:

– Die Interpolationsbedingung pi(xi) = yi, pi(xi−1) = yi−1 impliziert:

(1) a(i)0 = yi , i = 1, . . ., n ,

und mit hi = xi − xi−1 :

(2) yi−1 − yi = −a(i)1 hi + a

(i)2 h

2i − a

(i)3 h

3i , i = 1, . . ., n .

– Die Randbedingung p′′1(x0) = p′′n(xn) = 0 impliziert:

(3) a(1)2 − 3a

(1)3 h1 = 0 , a

(n)2 = 0 .

– Die Stetigkeit der 1. Ableitung p′i(xi) = p′i+1(xi) impliziert:

(4) a(i)1 = a

(i+1)1 − 2a

(i+1)2 hi+1 + 3a

(i+1)3 h2

i+1 , i = 1, . . ., n− 1 .

– Die Stetigkeit der 2. Ableitung p′′i (xi) = p′′i+1(xi) impliziert:

(5) a(i)2 = a

(i+1)2 − 3a

(i+1)3 hi+1 , i = 1, . . ., n− 1 .

Damit haben wir 4n Gleichungen (1)-(5) fur die a(i)k gefunden. Zunachst werden nun

die a(i)1 und a

(i)3 durch die a

(i)2 ausgedruckt. Zur Vereinfachung wird a

(0)2 := 0 und

a(n+1)2 := 0 gesetzt.

Die Gleichungen (3) und (5) ergeben (i→ i− 1) :


(6) a(i)3 =

a(i)2 − a

(i−1)2

3hi

, i = 1, . . ., n .

(2) und (6) ergeben:

(7)

a(i)1 =

yi − yi−1

hi+ a

(i)2 hi − a

(i)3 h

2i

=yi − yi−1

hi

+ hia(i)2 − a

(i)2 − a

(i−1)2

3

=yi − yi−1

hi+hi

32a(i)

2 + a(i−1)2 , i = 1, . . ., n .

(4), (7) und (6) ergeben:

yi − yi−1

hi+hi

32a(i)

2 + a(i−1)2

︸︷︷︸

= a(i)1

=

=yi+1 − yi

hi+1+hi+1

32a(i+1)

2 + a(i)2

︸︷︷︸

= a(i+1)1

−2a(i+1)2 hi+1 + 3a

(i+1)3 h2

i+1

=yi+1 − yi

hi+1

+hi+1

32a(i+1)

2 + a(i)2 − hi+1 a(i+1)

2 + a(i)2 , i = 1, . . ., n− 1 .

Dies wird fur i = 1, . . ., n− 1 umgeschrieben zu

hia(i−1)2 + 2(hi + hi+1)a

(i)2 + hi+1a

(i+1)2 = 3

yi+1 − yi

hi+1

− yi − yi−1

hi

.

Damit haben wir fur den (n − 1)-Vektor (a(1)2 , . . ., a

(n−1)2 )T ein (n − 1) × (n − 1)-Glei-

chungssystem aufgestellt; die Koeffizientenmatrix

A =

2(h1 + h2) h2 0

h2 2(h2 + h3). . .

h3 . . .. . . 2(hn−2 + hn−1) hn−1

0 hn−1 2(hn−1 + hn)

ist symmetrisch, d.h.: aij = aji , und strikt diagonaldominant.

n−1∑

j=1j 6=i

|aij| < |aii|. (2.3.26)


Hieraus folgt nach einem bekannten Satz der Linearen Algebra ebenfalls die Regularitatvon A . Durch Losung dieses Gleichungssystems erhalt man zunachst die Koeffizientena

(1)2 , . . ., a

(n−1)2 ; a

(n)2 = 0 aufgrund der Randbedingungen. Einsetzen der Werte in (7) und

(6) liefert dann die anderen Koeffizienten a(1)1 , . . ., a

(n)1 sowie a

(1)3 , . . ., a

(n)3 . Zur Losung

des tridiagonalen (symmetrischen) Gleichungssystems kann eine spezielle Variante desGaußschen Eliminationsverfahrens verwendet werden.

Interpolierende Spline-Funktionen besitzen wesentlich bessere Approximationseigen-schaften fur

h := maxi=0,...,n−1

|xi+1 − xi| → 0

als die Lagrangeschen Interpolationspolynome. Allgemein konvergiert

maxa≤x≤b

|f(x) − sn(x)| → 0 (h→ 0) (2.3.27)

sogar fur absolutstetiges f mit∫ b

a|f ′(x)|2 dx <∞ .

Satz 2.10 (Approximationsfehler): Sei f ∈ C4[a, b] . Erfullt der interpolierende ku-bische Spline s′′n(a) = f ′′(a) und s′′n(b) = f ′′(b) , so gilt

maxa≤x≤b

|f(x) − sn(x) | ≤ 12h4 max

a≤x≤b|f (4)(x)|. (2.3.28)

Beweis: Siehe Werner/Schaback II. Q.E.D.

Neben den guten Approximationseigenschaften weisen Splinefunktionen auch eine we-sentlich bessere Stabilitat gegenuber kleinen Storungen in den Interpolationsdaten yi aufals Lagrange-Polynome; lokale Storungen klingen nach rechts und links schnell ab.


2.4 Trigonometrische Interpolation

In vielen Anwendungsbereichen treten “periodische” Funktionen, d. h. Funktionen mitder Eigenschaft f(x+ ω) = f(x), x ∈ R , auf, mit der sog. “Periode” ω > 0 . Hier bietetsich die Interpolation mit “trigonometrischen Summen” an:

tn(x) =1

2a0 +

m∑

k=1

ak cos(kx 2π

ω

)

+ bk sin(kx 2π

ω

)

, n := 2m,

welche ebenfalls ω-periodisch sind. O.B.d.A. konnen wir im folgenden ω = 2π anneh-men. Das Interpolationsintervall ist dann [0, 2π] , und die Stutzstellen werden aquidistantgewahlt zu

xk = k2π

n+ 1, k = 0, . . . , n.

Beim Arbeiten mit trigonometrischen Summen erweist sich die “komplexe” Schreibweiseals vorteilhaft.

Satz 2.11 (Trigonometrische Interpolation): Zu gegebenen Zahlen y0, . . . , yn ∈ C

gibt es genau eine Funktion der Gestalt (i =√−1)

t∗n(x) =

n∑

k=0

ckeikx, (2.4.29)

welche den Interpolationsbedingungen t∗n(xj) = yj (j = 0, . . . , n) genugt. Die Koeffizientensind bestimmt durch

ck =1

n + 1

n∑

j=0

yje−ijxk , k = 0, . . ., n . (2.4.30)

Beweis: Mit den Abkurzungen

w = eix , wk = eixk = eik2π/(n+1) , k = 0,±1, · · · ± n,

wird

t∗n(x) = pn(w) =n∑

k=0

ckwk , pn(·) ∈ Pn.

Offenbar gilt wn+1k = eik2π = 1 , d. h.: Die wk sind sog. (n+1)-te “Einheitswurzeln”.

Ferner istwj

k = ej(ik2π)/(n+1) = ek(ij2π)/(n+1) = wkj .

Die trigonometrische Interpolationsbedingung

t∗n(xk) = yk , k = 0, . . . , n,

2.4 Trigonometrische Interpolation 49

ist damit aquivalent zur polynomialen Interpolationsbedingung (im Komplexen)

pn(wk) = yk , k = 0, . . . , n,

Diese wiederum ist nach Satz 2.1 durch ein eindeutig bestimmtes Polynom pn ∈ Pn

erfullbar. Zur Berechnung der zugehorigen Koeffizienten ck schreiben wir

n∑

j=0

yjw−jk =

n∑

j=0

t∗n(wj)w−jk =

n∑

j=0

(n∑

l=0

clwlj

)w−j

k =

n∑

l=0

cl(

n∑

j=0

wl−kj

).

Die wk sind Wurzeln von wn+1 − 1 = (w − 1)(wn +wn−1 + . . .+ 1) = 0 . Wegen wk 6= 1fur k = ±1, . . . ,±n , muß also

∑nj=0w

jk = 0 sein. Dies ergibt

n∑

j=0

wl−kj =

n∑

j=0

wjl−k =

n + 1, l = k,

0, l 6= k.

Also istn∑

j=0

yjw−jk = ck(n+ 1),

bzw.

ck =1

n+ 1

n∑

j=0

yje−ijxk .


Fur Satz 2.11 ist es unwesentlich, ob n gerade oder ungerade ist. Im folgenden mussendiese beiden Falle aber unterschieden werden. Wir wollen zeigen, wie mit Hilfe der Aus-sagen von Satz 2.11 die gestellte trigonometrische Interpolationsaufgabe gelost werdenkann. Dies fuhrt zur sog. “diskreten Fourier9-Analysis”.

Satz 2.12 (Diskrete Fourier-Analyse): Fur n ∈ N0 gibt es zu gegebenen reellen Zah-len y0, . . . , yn genau ein trigonometrisches Polynom der Form

tn(x) =1

2a0 +

m∑

k=1

ak cos(kx) + bk sin(kx) +θ

2am+1 cos((m+ 1)x) ,

mit tn(xj) = yj , j = 0, . . . , n , wobei

θ = 0 , m = 12n , falls n gerade,

θ = 1 , m = 12(n− 1) , falls n ungerade.

9Jean-Baptiste Baron de Fourier (1768-1830): franzosischer Mathematiker und Physiker; Mitglied derPariser Akademie lehrte an der Ecole Polytechniqe; begleitete Napoleon auf seinem Feldzug nach Agypten;zahlt zu den bedeutendsten Mathematikern des 19. Jahrhunderts; fand bei seinen Arbeiten zur Theorieder Warmeleitung die Darstellbarkeit periodischer Funktionen durch triginometrische Reihen.


Die Koeffizienten sind bestimmt durch

ak =2

n+ 1

n∑

j=0

yj cos(jxk), bk =2

n + 1

n∑

j=0

yj sin(jxk).

Beweis: (i) Sei t∗n das Interpolationspolynom nach Satz 2.11:

t∗n(x) =n∑

k=0

ckeikx , ck =

1

n+ 1

n∑

j=0

yje−ijxk, k = 0, . . . , n.

Wegen der 2π-Periodizitat von e−ix gilt

e−ijxn+1−k = e−ij(n+1−k)2π/(n+1) = e−ij2π+ijxk = eijxk,

und folglich fur k = 1, . . . , m :

cn+1−k =1

n + 1

n∑

j=0

yje−ijxn−1−k =

1

n+ 1

n∑

j=0

yjeijxk =: c−k.

Mit dieser Bezeichnung setzen wir

ak := ck + c−k, bk := i (ck−c−k), k = 1, . . . , m,

und am+1 := 2cm+1 im Falle n = 2m+ 1 ungerade, und definieren das trigonometrischePolynom

tn(x) :=1

2a0 +

m∑

k=1

ak cos(kx) + bk sin(kx)

+θ

2am+1 cos((m+ 1)x).

(ii) Wir wollen zeigen, daß t∗n(xj) = tn(xj) = yj , j = 0, . . . , n , ist. Zunachst gilt

tn(xj) = c0 +m∑

k=1

(ck+c−k) cos(kxj) + i (ck−c−k) sin(kxj)

+

+ θcm+1 cos((m+1)xj)

= c0 +m∑

k=1

ck

cos(kxj) + i sin(kxj) +m∑

k=1

c−kcos(kxj)−

− i sin(kxj) + θ cm+1cos((m+1)xj) + i sin((m+ 1)xj).

Da sin((m+1)xj) = 0 (wegen (m + 1)xj = jπ fur n = 2m + 1 ungerade), folgt beiBeachtung von eiz = cos(z) + i sin(z)

tn(xj) = c0 +

m∑

k=1

ckeikxj +

m∑

k=1

c−ke−ikxj + θcm+1e

i(m+1)xj .


Mit Hilfe von c−k = cn+1−k und e−ikxj = eikj2π/(n+1) = ei(n+1−k)j2π/(n+1) = ei(n+1−k)xj

ergibt sich wie gewunscht

tn(xj) =

n∑

k=0

ckeikxj = yj.

Das trigonometrische Polynom th(·) erfullt also die Interpolationsbedingungen.

(iii) Als nachstes betrachten wir die Koeffizienten ak und bk . Unter Verwendung derBeziehungen

sin(z) =1

2i(eiz−e−iz) , cos(z) =

1

2(eiz+e−iz),

gilt

ak = ck + c−k =1

n + 1

n∑

j=0

yj e−ijxk +eijxk =2

n+ 1

n∑

j=0

yj cos(jxk),

bk = i (ck−c−k) =1

n+ 1

n∑

j=0

yji e−ijxk−eijxk =2

n+ 1

n∑

j=0

yj sin(jxk).

Dies zeigt die gewunschte Darstellung der Koeffizienten und auch, daß sie reell sind.

(iv) Es bleibt, die Eindeutigkeit des interpolierenden trigonometrischen Polynoms zu zei-gen. Die n+1 Bedingungen tn(xj) = yj, j = 0, . . . , n , lassen sich als lineares Gleichungs-system fur die n+ 1 unbekannten Koeffizienten ak, bk auffassen. Da dieses System nachdem eben Gezeigten fur alle rechten Seiten y0, . . . , yn losbar ist, sind die Losungen aucheindeutig. Q.E.D.

Bei der trigonometrischen Interpolation von (stetigen) Funktionen f : R → R sindin Satz 2.12 die Werte yj durch f(xj) zu ersetzen. Ist f allerdings nicht 2π-periodisch,wird es zunachst einmal zu einer 2π-periodischen Funktion f gemacht (s. Abb. 2.6):

f(x) :=

f(x), x ∈ (0, 2π),12f(0) + f(2π), x = 0,

2π-periodisch auf R fortgesetzt.

@@

@

@@

@

@@

@r r r

-2π -π 0 π 2π 3π 4π x

-

Abbildung 2.6: Periodische Fortsetzung

Besitzt f im Intervall [0, 2π] eine Unstetigkeitsstelle ζ , so definiert man noch

f(ζ) := 12f (ζ+) + f (ζ−).


Dies ist dadurch motiviert, daß bekanntlich die Fourier-Reihe einer stuckweise stetigenFunktion in den Unstetigkeitsstellen gerade gegen diesen Mittelwert konvergiert.

In Anwendungen tritt haufig der Fall auf, daß eine Funktion f nur auf dem Intervall[0, π] gegeben ist. Ihre 2π-periodische Fortsetzung auf ganz R wurde dann i. Allg. beix = π eine Unstetigkeit in f oder in f ′ besitzen, welche die Approximationsgute destrigonometrischen Interpolationspolynoms auf [0, 2π] reduziert. Durch geeignete Wahlder Fortsetzung kann dieser Effekt haufig gemildert werden. Ist f auf [0, π] gegeben mitf(0) = f(π) = 0 , so wird eine 2π-periodische Fortsetzung von f erklart durch

f(x) :=

f(x), x ∈ [0, π],

−f(2π−x), x ∈ [π, 2π],

2π-periodisch auf R fortgesetzt.

Offenbar ist dann f in x = π stetig differenzierbar (falls f in x = π einseitig differen-zierbar war):

limh→+0

f(π + h) − f(π)

h= lim

h→+0

−f(π − h) + f(π)

h= f ′(π)

limh→+0

f(π) − f(π − h)

h= lim

h→+0

f(π) + f(π − h)

h= f ′(π).

Beispiel 2.7: a) Beispiel einer “ungeraden” periodischen Fortsetzung:

-x

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

.

..

..

..

..

..

..

..

..

..

...

...

...............................................

..........................................................................................................................................................

.......................................................................

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

.

..

..

..

..

..

..

..

..

..

...

...

...............................................

..........................................................................................................................................................

.......................................................................

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

.

..

..

..

..

..

..

..

..

..

...

...

...............................................

.......................................................

-2π -π 0 π 2π 3π

f(x)

f(x)

∫ 2π

0

f(x) dx = 0

Abbildung 2.7: Ungerade periodische Fortsetzung

b) Beispiel einer “geraden” periodischen Fortsetzung:

-x

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

..

..

.

..

..

..

..

..

..

..

...

..................................................

..............................................................................................................................................................................

...

..

..

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

..

..

.

..

..

..

..

..

..

..

...

..................................................

..............................................................................................................................................................................

...

..

..

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

..

..

.

..

..

..

..

..

..

..

...

..................................................

.....................................................

-2π -π 0 π 2π 3π

f(x) f(x)∫ 2π

0

f(x) dx = 2

∫ π

0

f(x) dx

Abbildung 2.8: Gerade periodische Fortsetzung

Je nachdem ob f : [0, π] → R als “ungerade” oder als “gerade” Funktion 2π-periodisch fortgesetzt wird, ergeben sich bei der trigonometrischen Interpolation von fdie folgenden Sonderfalle: (Beachte f(0) = f(π) = 0 .)


a) Gerade Fortsetzung:

xk = k2π

n+ 1, k = 0, . . . , n = 2m+ 1

yk =

f(xk) , k = 0, . . . , m ,

f(2π − xk) , k = m+ 1, . . . , n⇒ yk = yn+1−k, k = 1, . . . , n .

Fur k = 1, . . ., m folgt:

ck =1

n + 1

n∑

j=0

yje−ijxk =

1

n+ 1

n∑

j=0

yn+1−je−ijxk

=1

n + 1

n∑

j=0

yje−i(n+1−j)xk = cn+1−k = c−k,

bk = i(ck − c−k) = 0 ,

ak = 2ck =2

n+ 1

m∑

j=0

yje−ijxk +

2

n + 1

n∑

j=m+1

yje−ijxk

=2

n + 1

m∑

j=0

yje−ijxk +

2

n+ 1

m∑

j=1

yn+1−j︸︷︷︸

= yj

e−i(n+1−j)xk

=2

n + 1

m∑

j=0

yje−ijxk +

2

n+ 1

m∑

j=1

yjeijxk (n = 2m+ 1)

=4

n + 1

m∑

j=1

yj12(eijxk + e−ijxk)︸︷︷︸

= cos(jxk)

(y0 = ym+1 = 0)

=2

m+ 1

m∑

j=1

yj cos(jxk).

Die gerade fortgesetzte Funktion laßt sich also durch eine “Cosinus-Summe” interpolieren:

s(x) =1

2a0 +

m+1∑

k=1

ak cos(kx) , ak =2

m+ 1

m∑

j=1

f (xj) cos(jxk).

b) Ungerade Fortsetzung:

xk = k2π

n+ 1, k = 0, . . ., n = 2m+ 1,

yk =

f (xk) , k = 0, . . . , m

−f(2π−xk) , k = m+ 1, . . . , n⇒ yk = −yn+1−k , k = 1, . . . , n


Dies ergibt analog wie im Fall (a):

ck = −c−k ⇒ ak = 0 , bk = 2ick = . . ..

Die ungerade fortgesetzte Funktion laßt sich also durch eine “Sinus-Summe” interpolieren:

s (x) =m∑

k=1

bk sin(kx) , bk =2

m+ 1

m∑

j=1

f (xj) sin(jxk).

2.4.1 “Schnelle” Fourier-Transformation (“FFT”)

Wir diskutieen nun noch die effiziente Berechnung des trigonometrischen Interpolations-polynoms.

Definition 2.7: Die in Satz 2.12 behandelte Aufgabenstellung wird “diskrete Fourier-Analyse” genannt: Den n + 1 Werten yj = f(xj), (j = 0, . . . , n) einer Funktion f :[0, 2π] → R werden (eindeutig) die n + 1 Koeffizienten ak, bk des trigonometrischenInterpolationspolynoms zugeordnet

tn (x) =1

2a0 +

m∑

k=1

ak cos(kx) + bk sin(kx) +θ

2am+1 cos((m+ 1) x).

Die Abbildung yj → ak, bk heißt “diskrete Fourier-Transformation”; sie ist offenbarumkehrbar.

Interpretiert man cos(kx) , sin(kx) als Grundschwingungsformen eines 2π-periodischenProzesses y = f (x) , so bedeutet eine (diskrete) Fourier-Analyse die Bestimmung der je-weiligen Anteile ak, bk dieser Grundschwingungen am Prozeß. Zur Berechnung dieserKoeffizienten ak, bk bzw. zur Bestimmung des Polynoms tn(·) nach den Formeln

ak = ck + c−k , bk = i (ck−c−k)

sind n+ 1 Summen der Form

ck :=1

n+ 1

n∑

j=0

yjeijk2π/(n+1) =

n∑

j=0

yjwjk , k = 0, . . . , n,

zu berechnen mit den Abkurzungen (Man beachte, daß wn+1 = 1 ist.)

yj := 1n+1

yj , w := e−i2π/(n+1).

Das Horner-Schema erfordert dazu jeweils n (komplexe) Operationen (1 komplexeMultiplikation und 1 komplexe Addition), d. h.: Insgesamt sind n2 + n Operationenerforderlich. Fur große n und bei mehrfacher Ausfuhrung der Fourier-Analyse bedeu-tet dies einen betrachtlichen numerischen Aufwand. Im Jahre 1965 gaben Cooley und


Tukey10 einen Algorithmus an, der diese Aufgabe wesentlich effizienter lost, die sog.“Schnelle Fourier-Transformation” (“Fast Fourier Transform” oder auch kurz “FFT”).Wir erlautern diese fur den Spezialfall n + 1 = 2p , p ∈ N :

Idee der FFT: Durch Aufspaltung der Summe

ck = y0w0k + y1w

1k + y2w2k + y3w

3k + . . .+ y2p−2w(2p−2)k + y2p−1w

(2p−1)k

=

y0(w2)0k

−−−−−−−+ y1(w

2)0kwk

·····················+

y2(w2)1k

−−−−−−−+ y3(w

2)1kwk

························+ · · ·

· · ·+

y2p−2(w2)(2p−1−1)

−−−−−−−−−−−−−+ y2p−1(w

2)(2p−1−1)wk

··········································

bzgl. gerader (“—”) und ungerader (“· · ·”) Indizes erhalt man

ck =2p−1−1∑

j=0

y2j(w2)jk +

2p−1−1∑

j=0

y2j+1(w2)jkwk.

Sei k1 ∈ 0, 1, . . . , 2p−1−1 der ganzzahlige Rest bei Division von k durch 2p−1 :

k ≡ k1 (mod 2p−1).

Wegen w2p

= 1 gilt mit einem geeigneten λ ∈ N

(w2)jk = (w2)λ2pj (w2)jk1 = (w2p

)λj (w2)jk1 = (w2)jk1.

Folglich ist

ck =2p−1−1∑

j=0

y2j(w2)jk1 + wk

p−1−1∑

j=0

y2j+1(w2)jk1

bzw.ck = ck1 + wkck1 , k = 0, . . . , 2p − 1 , k ≡ k1 (mod 2p−1),

mit den Teilsummen

ck1 :=2p−1−1∑

j=0

y2j(w2)jk1 , ck1 :=

2p−1−1∑

j=0

y2j+1(w2)jk1 , k1 = 0, . . . , 2p−1−1.

Zur Berechnung der n+1 = 2p Großen ck genugt es also, die 2 · 2p−1 Großen ck1 , ck1

zu bestimmen, d. h.: Die Fourier-Analyse mit n+1 = 2p Termen wird ersetzt durch zweiFourier-Analysen mit jeweils 2p−1 Termen. Anwendung derselben Aufspaltung auf ck1

und ck1 ergibt vier Fourier-Analysen mit jeweils 2p−2 Termen usw. Am Schluß verbleibenals Startpunkt des Algorithmus 2p Fourier-Analysen mit jeweils einem Term. Diese “tri-

10John Wilder Tukey (1915-2000): US-Amerikanischer Mathematiker; arbeitete seit 1945 an der Princ-ten University, seit 1956 als Direktor der Statistics research Group; bekannt vor allem durch die gemein-sam mit J.W. Cooley (IBM Cooperation) entwickelte FFT: An algorithm for the machine calculationof complex Fourier series, Math. Comput. 19, 297-301 (1965); wichtige Beitrage auch zur praktischenStatistik.


vialen” Fourier-Analysen ordnen den einzelnen Stutzpunkten xk, (k = 1, · · · , n) geradedie Werte yk zu, welche die jeweiligen Koeffizienten der trigonometrischen Approximation0-ter Ordnung durch konstante Funktionen darstellen.

Satz 2.13 (Schnelle Fourier-Transformation): Im Fall n+1 = 2p lost die “SchnelleFourier-Transformation” das Problem der Berechnung der n + 1 Fourier-Koeffizientenc0, . . . , cn, mit 2 (n+ 1) log2(n+ 1) (komplexen) Operationen.

Beweis: Sei rp die Anzahl der (komplexen) Operationen zur Berechnung aller Koeffizi-enten c0, . . . cn im Falle n + 1 = 2p . Sind die Großen ck1, ck1 (k1 = 0, . . . , 2p−1−1)bekannt, so erfordert die Berechnung der Potenzen wk (k = 1, . . . , n) und der Koeffizi-enten ck = ck1 + wkck1 (k = 0, . . . , n) offenbar hochstens (n−1) + (n+1) = 2n ≤ 2 · 2p

Operationen. (Eine große Ersparnis ware durch vorausgehende Berechnung und Speiche-rung der wk zu erzielen!) Also wird

rp ≤ 2 · rp−1 + 2 · 2p , p = 1, 2, 3, . . . .

Wir wollen zeigen, daß rp ≤ 2p · 2p gilt. Ausgehend von r0 = 0 folgt durch Induktion,daß

rp ≤ 2 · rp−1 + 2 · 2p = 2 ·(2(p− 1) · 2p−1

)≤ 2p · 2p = 2 log2(n+ 1) (n+ 1),


Beispiel 2.8: n = 27 − 1 = 127

n2 + n = 16.256 , 2 (n+ 1) log2 (n+ 1)︸︷︷︸

∼ 7

= 1.792.

Implementierung: Bei der konkreten Implementierung der FFT geht man genau ent-gegengesetzt zu ihrer obigen Herleitung vor. Zunachst werden die 2p ein-elementigenFourier-Analysen durchgefuhrt, welche die gegebenen Stutzwerte yj, (j = 1, . . . , 2p − 1)verwenden. Danach werden nur noch die rekursiven Formeln

ck = ck1 + wkck1 , k = 0, . . . , 2p−1 , k ≡ k1 (mod 2p−1),

abgearbeitet. Ein FORTRAN-Unterprogramm zur Durchfuhrung der FFT im Spezialfalln + 1 = 2p lautet etwa wie folgt (in Anlehnung an das in der Arbeit von Cooley, Lewisund Welch, IEEE Transactions, E-12, 1 (March 1965) angegebene Programm):


FORTAN-Programm FFT (Fall n + 1 = 2p ):

1. SUBROUTINE FFT(C,P)

2. COMPLEX C(1),U,W,T

3. C Setze M:=N+1, C:=Y/(N+1)

4. M=2**P

5. M2=M/2

6. M1=M-1

7. J=1

8. C Umsortieren der C(I)

9. DO 3 I=1,M1

10. IF(I.GE.J) GO TO 1

11. T=C(J)

12. C(J)=C(I)

13. C(I)=T

14. 1 K=M2

15. 2 IF(K.GE.J) GO TO 3

16. J=J-K

17. K=K/2

18. GO TO 2

19. 3 J=J+K

20. DO 5 L=1,P

21. LE=2**L

22. LE1=LE/2

23. U=(1.,0.)

24. ANG=3.14159265358979/LE1

25. W=CMPLX(COS(ANG),SIN(ANG))

26. DO 5 J=1,LE1

27. DO 4 I=J,M,LE

28. IP=I+LE1

29. T=C(IP)*U

30. C(IP)=C(I)-T

31. 4 C(I)=C(I)+T

32. 5 U=U*W

33. RETURN


2.5 Gauß-Approximation

Wir fassen im folgenden die Menge C[a, b] der uber einem Intervall [a, b] stetigen reell-bzw. komplex-wertigen Funktionen als einen (unendlich dimensionalen) Vektorraum uberdem Zahlkorper K = R bzw. K = C auf.

Bemerkung 2.3: Die Aussagen dieses Abschnitts gelten sinngemaß auch fur den Vektor-raum R[a, b] der uber dem Intervall [a, b] Riemann-integrierbaren Funktionen oder sogarfur den Vektorraum L2(a, b) der uber (a, b) im Lebesgueschen Sinne quadrat-integrablenFunktionen.

Gegeben sei eine Funktion f ∈ C[a, b] sowie ein endlich dimensionaler Teilraum S ⊂C[a, b], dessen Elemente zur Approximation von f dienen sollen, z.B.: S = Pn , Raumder Polynome vom Grad ≤ n . Im Gegensatz zur Interpolation verwendet die “Gauß-Approximation” das sog. “quadratische Mittel”

‖f‖ ≡(∫ b

a

|f (x)|2 dx)1/2

als Maß fur die Gute einer Approximation. d. h.: Gesucht ist ein g ∈ S , so daß

‖f − g‖ = minϕ∈S

‖f − ϕ‖. (2.5.31)

Ein g ∈ S mit dieser Eigenschaft heißt dann “Bestapproximation” von f (in S bzgl.‖·‖ ). Durch ‖·‖ ist auf C[a, b] eine Norm gegeben, d. h. eine Funktion ‖·‖ : C[a, b] → R+

mit analogen Eigenschaften wie die wohlbekannte euklidische Vektornorm auf dem Kn.Es sei an die folgenden Eigenschaften einer “Norm” erinnert:

1. Definitheit: ‖f‖ ∈ R+, ‖f‖ = 0 ⇒ f = 0 .

2. Sublinearitat: ‖f + g‖ ≤ ‖f‖ + ‖g‖ (Dreiecksungleichung),

3. Homogenitat: ‖αf‖ = |α| ‖f‖, α ∈ K .

Das Analogon zum euklidischen Skalarprodukt ist in diesem Fall das sog. L2-Skalarprodukt

(f, g) ≡∫ b

a

f (t)g (t) dt , (f, f) = ‖f‖2.

Hierfur liegen wieder die fur ein “Skalarprodukt” charakteristischen Eigenschaften vor:

1. Definitheit: (f, f) ∈ R+, (f, f) = 0 ⇒ f = 0 .

2. Linearitat: (αf + g, h) = α(f, g) + (h, g), α ∈ K ,

3. Symmetrie: (f, g) = (g, f) .

2.5 Gauß-Approximation 59

Nicht jede Norm gehort zu einem Skalarprodukt; z.B.: die sog. Lp-Normen ‖ · ‖p furp ∈ [1,∞) \ 2, sowie die sog. “Maximumnorm” ‖ · ‖∞ :

‖f‖p :=(∫ b

a

‖f(x)‖p dx)1/p

, ‖f‖∞ := maxa≤x≤b

|f(x)|.

Wir notieren noch die wichtige “Holdersche11 Ungleichung” fur Skalarprodukte (auch“Schwarzsche12 Ungleichung” im Fall allgemeiner Skalarprodukte)

|(f, g)| ≤ ‖f‖ ‖g‖.

Versehen mit dem L2-Skalarprodukt wird C[a, b] zu einem sog. “unitaren Raum”. Furdie Gauß-Approximation in unitaren Raumen haben wir die folgende allgemeine Aussage:

Satz 2.14 (Allgemeine Gauß-Approximation): Seien H ein unitarer Raum und S ⊂H ein endlich dimensionaler Teilraum. Dann existiert zu jedem f ∈ H eine eindeutigbestimmte “beste Approximation” g ∈ S :

‖f − g‖ = minϕ∈S

‖f − ϕ‖. (2.5.32)

Beweis: (i) Wir wollen die Eigenschaft der besten Approximation zunachst durch eineetwas handlichere Bedingung charakterisieren. Sei g ∈ S eine beste Approximation. Dannbesitzt fur beliebiges, fest gewahltes ϕ ∈ S die quadratische Funktion

Fϕ(t) := ‖f − g − tϕ‖2, t ∈ R,

bei t = 0 ein Minimum. Folglich ist

d

dtF (t)|t=0 =

d

dt‖f − g − tϕ‖2

|t=0 = 0.

Ausgeschrieben bedeutet dies (f − g − tϕ, ϕ)|t=0 = 0 und folglich

(f − g, ϕ) = 0 ∀ϕ ∈ S. (2.5.33)

Diese Beziehung kann man so interpretieren, daß der Fehler f − g auf dem approximie-renden Teilraum S “orthogonal” ist bzgl. des L2-Skalarprodukts (·, ·) .

Genuge nun umgekehrt g ∈ S der Bedingung (2.5.33). Dann gilt mit einem beliebigenϕ ∈ S :

‖f − g‖2 = (f − g, f − g) = (f − g, f − ϕ) + (f − g, ϕ− g) ≤ ‖f − g‖ ‖f − ϕ‖

11Ludwig Otto Holder (1859-1937): deutscher Mathematiker; Prof. in Tubingen; Beitrage zunachst zurTheorie der Fourier-Reihen und spater vor allem zur Gruppentheorie; fand 1884 die nach ihm benannteUngleichung.

12Hermann Schwarz (1843-1921): Deutscher Mathematiker; wirkte in Halle, Gottingen und Berlin;leistete grundlegende Arbeiten zur Funktionentheorie, Differentialgeometrie und Variationsrechnung.


und folglich‖f − g‖ ≤ inf

ϕ∈S‖f − ϕ‖,

d. h.: g ist auch beste Approximation.

(ii) Eindeutigkeit der besten Approximation: Seien g1, g2 ∈ S zwei Bestapproximationen.Dann gilt notwendig

(f − g1, ϕ) = 0 = (f − g2, ϕ) ∀ϕ ∈ S,

und folglich(g1 − g2, ϕ) = 0 ∀ϕ ∈ S.

Wahlen wir ϕ := g1 − g2 , ergibt sich ‖g1 − g2‖2 = 0 und somit g1 = g2 .

(iii) Existenz der besten Approximation: Der endlich dimensionale Teilraum S ⊂ Hbesitzt eine Basis ψ1, . . . , ψn, n := dimH , bzgl. derer sich die gesuchte besten Appro-ximation g ∈ S darstellen laßt in der Form

g =n∑

k=1

αkψk.

Einsetzen dieses Ansatzes in die notwendige Orthogonalitatsbedingung (2.5.33) ergibt

(f −n∑

i=k

αkψik, ϕ) = (f, ϕ) −n∑

k=1

αk(ψk, ϕ) = 0 ∀ϕ ∈ S.

Dies ist bei sukzessiver Wahl von ϕ := ψi fur i = 1, . . . , n , aquivalent zu dem linearenn× n-Gleichungssystem

n∑

k=1

(ψk, ψi)αk = (f, ψi), i = 1, · · · , n. (2.5.34)

Mit der Notation

α := (αk)nk=1, b := ((f, ψi))

ni=1, A := ((ψk, ψi))

ni,k=1,

laßt sich dies in der kompakten Form Aα = b schreiben. Die Matrix A ist als “GramscheMatrix” der Basis ψ1, . . . , ψn regular. Dies ersieht man aus der Beziehung

αTAα =

n∑

i,k=1

αiαk(ψk, ψi) = (g, g),

welche die Injektivitat von A impliziert. Ferner ist A offenbar “symmetrisch” (im FallK = R ) bzw. “hermitesch” (im Fall K = C ) und folglich “positiv definit”. Das Glei-chungssystem Aα = b ist also fur jede rechte Seite b , d. h. fur jedes f ∈ H eindeutiglosbar. Folglich bestimmt die Orthogonalitatsbedingung (2.5.33) eindeutig ein Elementg ∈ S , welches dann notwendig eine Bestapproximation ist. Q.E.D.


Zur Konstruktion der besten Approximation g ∈ S zu einer Funktion f ∈ H kannzunachst das Gleichungssystem (2.5.34) dienen:

n∑

k=1

(ψk, ψi)αk = (f, ψi), i = 1, · · · , n. (2.5.35)

Es besitzt eine besonders einfache Losung, wenn die Basis ψ1, . . . , ψn ein “Orthonor-malsystem” (“ONS”) ist, d. h.: (ψk, ψi) = δki . Dann gilt offenbar

αk = (f, ψk), k = 1, . . . , n,

d. h.: Die beste Approximation ist explizit bestimmt durch

g =

n∑

k=1

(f, ψk)ψk. (2.5.36)

Hilfssatz 2.1 (Gram-Schmidt-Algorithmus): Zu jeder Basis ψ1, . . . , ψn von Slaßt sich ein Orthonormalsystem mit dem “Gram13-Schmidt14-Algorithmus” konstruieren:

ϕ1 := ψ1 , ϕ1 := ‖ϕ1‖−1ϕ1,

k = 2, . . . , n : ϕk := ψk −k−1∑

i=1

(ψk, ϕi)ϕi , ϕk := ‖ϕk‖−1ϕk.

Das Ergebnis ist ein Orthonormalsystem ϕ1, . . . , ϕn in S .

Beweis: Dies zeigt man durch Induktion nach n = dimS . Im Fall ψ1 6= 0 ist ϕ1

wohldefiniert. Sei nun ϕ1, . . . , ϕn−1 wohldefiniert und ONS. Im Fall

ϕn = ψn −n−1∑

k=1

(ψn, ϕk)ϕk = 0

ware ψ1, . . . , ψn linear abhangig, im Widerspruch zur Annahme. Also ist ϕn wohlde-finiert. Weiter ist fur k = 1, . . . , n− 1 :

(ϕn, ϕk) = (ψn, ψk) −n−1∑

i=1

(ψn, ϕi) (ϕi, ϕk)︸︷︷︸

= δik

= 0 ,

13Jørgen Pedersen Gram (1850-1916): danischer Mathematiker, Mitarbeiter und spater Eigentumereiner Versicherungsgesellschaft, Beitrage zur Algebra (Invariantentheorie), Wahrscheinlichkeitstheorie,Numerik und Forstwissenschaft; das u.a. nach ihm benannte Orthogonalisierungsverfahren geht aber wohlauf Laplace zuruck und wurde bereits von Cauchy 1836 verwendet.

14Erhard Schmidt (1876-1959): deutscher Mathematiker, Prof. in Berlin, Grunder des dortigen Institutsfur Angewandte Mathematik 1920, nach dem Krieg Direktor des Mathematischen Instituts der Akademieder Wissenschaften der DDR; Beitrage zur Theorie der Integralgleichungen und der Hilbert-Raume sowiespater zur Topologie.


und ‖ϕn‖ = 1 nach Konstruktion. Q.E.D.

Im folgenden wollen wir die obigen allgemeinen Aussagen zur Gauß-Approximationmit Polynomen anwenden. O.B.d.A. legen wir das Intervall [a, b] = [−1, 1] zugrunde (ge-gebenenfalls Variablentransformation). Nach Satz 2.14 existiert zu jedem f ∈ C[−1, 1]die eindeutig bestimmte beste Approximation g ∈ S = Pn . Zu ihrer Berechnung seizunachst die Basis 1, x, . . . , xn von Pn herangezogen. Die Koeffizienten in der Darstel-lung g =

∑nk=0 αkx

k ergeben sich dann als Losung eines linearen Gleichungssystems mitder Koeffizientenmatrix A = (aik)

ni,k=0 , wobei

A = 2

1 0 1/3 0 1/5 · · ·0 1/3 0 1/5

1/3 0 1/5 0

0 1/5. . .

1/5...

.

aik =

∫ 1

−1

xkxi dx =

0 , falls i+ k ungerade2

i+ k + 1, falls i+ k gerade

Diese Matrix (sog. Hilbert-Matrix) ist zwar regular, doch ist ihre Invertierung so extremschlecht konditioniert, daß fur große n die Berechnung von g auf diesem Wege unmoglichist. Statt dessen wird die Basis 1, . . . , xn bzgl. des (reellen) Skalarprodukts (K = R)

(f, g) :=

∫ 1

−1

f(x)g(x) dx

orthonormalisiert. Das Ergebnis fassen wir in folgendem Satz zusammen.

Satz 2.15 (Legendre-Polynome): Durch Orthogonalisierung der naturlichen Monom-basis 1, x, ..., xn, n ∈ N , mit dem Gram-Schmidt-Algorithmus ergeben sich Polynomepk ∈ Pk (nicht normalisiert), welche sich in der Form

pk(x) =k!

(2k)!

dk

dxk(x2 − 1)k, k = 0, 1, ..., n, (2.5.37)

darstellen lassen. Fur sie gilt die zweistufige Rekursionsformel

p0 (x) ≡ 1 , p1(x) = x ,

pk+1(x) = xpk(x) −k2

4k2−1pk−1(x), k = 1, 2, . . . , n− 1.

(2.5.38)


sowie

‖pk‖ =k!2

(2k)!

√

22k+1

2k+1, pk(1) =

2kk!2

(2k)!. (2.5.39)

Durch Normierung bei x = 1 erhalt man die sog. “Legendre15-Polynome”

Lk(x) :=(2k)!

2kk!2pk(x), Lk(1) = 1, k = 0, 1, 2, . . . , n . (2.5.40)

Beweis: Wir fuhren den Beweis in mehreren Schritten, wobei einige Rechnungen alsUbungsaufgabe gestellt sind.

(i) Wir zeigen zunachst, daß die durch (2.5.37) definierten Polynome pk ∈ Pk bzgl. desSkalarprodukts (·, ·) orthogonal sind. Dies ergibt sich durch partielle Integration uberdem Intervall [−1, 1] (Ubungsaufgabe). Analog erschließen wir die Beziehungen (2.5.39).

(ii) Der fuhrende Term von pk(x) ist gemaß der Definition xk . Folglich sind die pk geradedie durch den Gram-Schmidt-Algorithmus aus der Monombasis erzeugten orthogonalenPolynome.

(iii) Das Polynom (x2 − 1)k ist eine gerade Funktion. Seine k-ten Ableitungen sind dannungerade oder gerade je nachdem, ob k ungerade oder gerade ist. Folglich ist

pk(x) = (−1)kpk(−x) .

(iv) Wegen pk+1(x) = xk+1 + ... ist pk+1(x) − xpk(x) = γkxk + γk−1x

k−1 + ... + γ0 mitgewissen Koeffizienten γk, ..., γ0 . Ist nun k + 1 gerade, so ist das Polynom pk+1(x) −xpk(x) gerade aber xk ungerade, so daß notwendig γk = 0 sein muß. Es gibt daher eineDarstellung

pk+1(x) − xpk(x) =

k−1∑

i=0

γipi(x)

mit den Polynomen p0, ..., pk−1 , die ja als Orthogonalsystem eine Basis von Pk−1 bilden.Wegen der Orthogonalitat der pk folgt dann fur j = 0, ..., k − 2 :

0 = (pk+1 − xpk, Lj) =

k−1∑

i=0

γi(pi, pj) = γj‖pj‖2,

bzw. γ0 = ... = γk−2 = 0 . Es besteht also eine zweistufige Rekursion der Form

pk+1(x) = xpk(x) + γk−1pk−1(x).

15Adrien-Marie Legendre (1752-1833): franzosischer Mathematiker; Mitglied der Pariser Akademie derWissensch.; Beitrage zur Himmelsmechanik, Zahlentheorie und Geometrie.


Zur Bestimmung des Koeffizienten γk−1 verwenden wir pk(1) = k!2

(2k)!2k . Es ergibt sich

γk−1 =pk+1(1) − pk(1)

pk−1(1)=

(k+1)!2

(2k+2)!2k+1 − k!2

(2k)!2k

(k−1)!2

(2k−2)!2k−1

=4k2(k + 1)2 − 2k2(2k + 2)(2k + 1)

(2k + 2)(2k + 1)2k(2k − 1)=k(k + 1) − k(2k + 1)

(2k + 1)(2k − 1)= − k2

4k2 − 1,

wie behauptet. Q.E.D.

Die Rekursionsformel (2.5.38) fur die Polynome pn ist ein Spezialfall eines allgemeinenResultats fur “orthogonale Polynome”; siehe den folgenden Satz 2.17.

Die Gauß-Approximation mit orthogonalen Polynomen hat den Vorteil der formaleinfachen Berechenbarkeit der besten Approximation

g (x) =

n∑

k=0

(∫ 1

−1

|pk(x)|2 dx)−1(

∫ 1

−1

f(ξ)pk(ξ) dξ)

pk(x).

Die Berechnung der Koeffizienten erfordert i. Allg. numerische Quadratur.

Die Maximalabweichung der Gauß-Approxierenden

‖f − g‖∞ = max−1≤x≤1

|f(x)−g(x)|

wird jedoch i. Allg. groß; insbesondere in der Nahe der Intervallenden treten große Fehlerauf. Zur Unterdruckung dieses Defektes verwendet man das gewichtete Skalarprodukt

(f, g)ω =

∫ 1

−1

f(x)g(x)ω(x) dx , ω(x) ≡ 1√1−x2

,

wodurch eine starkere Bindung in der zugehorigen Fehlernorm

‖f − g‖ω =(∫ 1

−1

|f(x) − g(x)|2 dx√1 − x2

)1/2

an den Intervallenden impliziert wird. Zur Anwendung von Satz 2.14 wird die Basis1, x, . . . , xn von Pn nun bzgl. dieses neuen Skalarproduktes orthogonalisiert.

Satz 2.16 (Tschebyscheff-Polynome): Durch Orthogonalisierung der naturlichen Mo-nombasis 1, x, ..., xn, n ∈ N, bzgl. des gewichteten Skalarprodukts (·, ·)ω mit dem Gram-Schmidt-Algorithmus ergeben sich Polynome pk ∈ Pk (nicht normalisiert), welche sich inder Form

p0(x) ≡ 1, pk(x) = 2k−1 cos[k arccos(x)], k = 1, 2, ..., n, (2.5.41)


darstellen lassen. Fur sie gilt die zweistufige Rekursionsformel

p0 (x) ≡ 1 , p1(x) = x ,

pk+1(x) = 4xpk(x) − 4pk−1(x), k = 1, 2, . . ., n,(2.5.42)

sowie

‖pk‖ω =

√π, k = 0

√

π/2, k 6= 0,pk(1) = 2k−1. (2.5.43)

Durch Normierung bei x = 1 erhalt man die sog. “Tschebyscheff 16-Polynome”

Tk(x) = cos[k arccos (x)], Tk(1) = 1, k = 0, 1, 2, . . . . (2.5.44)

Beweis: Zunachst gilt fur die Funktionen gk := cos[k arccos(x)] im Fall k = 0, 1 :g0 ≡ 1 , g1(x) = x . Weiter folgt aus der Identitat

cos((n+1)x) + cos((n−1)x) = 2 cos(x) cos(nx)

die rekursive Beziehung

gk+1(x) = cos[(k+1) arccos (x)]

= 2 cos[arccos (x)] cos[k arccos (x)] − cos[(k−1) arccos (x)]

= 2xgk − gk−1.

Weiter erhalt man mit Hilfe der Variablentransformation x = cos(θ) mit

dx = − sin θ dθ = −√

1 − cos2(θ) dθ = −√

1 − x2 dθ

die Beziehung

∫ 1

−1

gk(x)gj(x)ω(x) dx = −∫ 0

π

cos(kθ) cos(jθ) dθ =

π, k = j = 0

π/2, k = j 6= 0

0, k 6= j

.

Hieraus entnehmen wir, daß die gk tatsachlich Polynome k-ten Grades uber [−1, 1] sind,paarweise orthogonal bzgl. (·, ·)ω sind und den fuhrenden Koeffizienten gk(x) = 2k−1xk +. . . haben. Die skalierten Polynome p0 ≡ 1 und pk := 2k−1qk haben dann den fuhrendenKoeffizienten pk(x) = xk + . . . und genugen der zweistufigen Rekursionsformel

pk+1(x) = 4xpk − 4pk−1.

Sie sind also gerade die durch das Gram-Schmidtsche Orthogonalisierungsverfahren er-zeugten Polynome. Q.E.D.

16Pafnuty Lvovich Tschebyscheff (russ.: Chebyshev) (1821-1894): russischer Mathematiker; Prof. inSt. Petersburg; Beitrage zur Zahlentheorie, Wahrscheinlichkeitstheorie und vor allem zur Approximati-onstheorie; entwickelte eine allgemeine Theorie orthogonaler Polynome.


Die beste Approximation einer Funktion f ∈ C[−1, 1] in Pn bzgl. des gewichtetenSkalarproduktes (·, ·)ω hat also die Gestalt

g =n∑

k=0

αkTk(x)

mit den Koeffizienten

α0 =1

π

∫ 1

−1

f(x)ω(x) dx , αk =2

π

∫ 1

−1

f(x)Tk(x)ω(x) dx , k = 1, . . . , n .

Das Bestehen von zweistufigen Rekusionsformeln fur die Gauß-Legendre sowie fur dieTschebyscheff-Polynome legt nahe, daß dies vielleicht generell fur orthogonale Polynomenbzgl. Skalarprodukten der betrachteten Form (·, ·)ω gilt. Dazu gilt der folgende Satz.

Satz 2.17 (Orthogonale Polynome): Das allgemeine Skalarprodukt (·, ·) auf C[−1, 1]habe die auf dem Vektorraum P der Polynome die Symmetrieeigenschaft

(p, xq) = (xp, q) ∀p, q ∈ P. (2.5.45)

Dann genugen die durch das Gram-Schmidtsche Orthonormalisierungsverfahren aus derBasis 1, x, x2, . . . gewonnenen orthogonalen Polynome pk, k = 0, 1, 2, . . . (nicht nor-malisiert), den rekursiven Beziehungen beginnend mit p0(x) ≡ 1, p1(x) = x− β0 :

pk+1(x) = (x− βk)pk − γkpk−1, k = 1, 2, 3, . . ., (2.5.46)

mit den Koeffizienten

βk =(xpk, pk)

‖pk‖2, k = 0, 1, 2, . . ., γk =

‖pk‖2

‖pk−1‖2, k = 1, 2, 3, . . ..

Beweis: Das Gram-Schmidt-Verfahren erzeugt die Polynome pk nach der Vorschrift

p0 ≡ 1, k = 1, 2, . . . : pk = xk −k−1∑

i=0

(xk, pi)

‖pi‖2pi.

Also ist p0 ≡ 1 und p1 = x−β0 . Wir setzen qk+1 := (x−βk)pk − γkpk−1 . Dann giltoffenbar wegen pk ⊥ Pk−1 und der Symmetrieeigenschaft von (·, ·) :

(qk+1, pk) = (xpk, pk) − βk‖pk‖2 − γk (pk−1, pk)︸︷︷︸

= 0

= 0,

(qk+1, pk−1) = (xpk, pk−1) − βk (pk, pk−1)︸︷︷︸

= 0

− γk‖pk−1‖2

︸︷︷︸

= ‖pk‖2

= (pk, xpk−1 − pk︸︷︷︸

∈ Pk−1

) = 0,


sowie fur j = 0, . . . , k − 2 :

(qk+1, pj) = (pk, xpj︸︷︷︸

∈ Pk−1

) − βk (pk, pj)︸︷︷︸

= 0

−γk (pk−1, pj)︸︷︷︸

= 0

= 0.

Also ist qk+1 orthogonal zu Pk = Spanp0, . . . , pk und hat die Gestalt

qk+1(x) = xk+1 + r(x) , r ∈ Pk.

Entwickelt man r nach p0, . . . , pk ,

r(x) =

k∑

i=0

(r, pi)‖pi‖−2 pi(x),

so ergibt sich mit

qk+1(x) = xk+1 +k∑

i=0

(r, pi)

‖pi‖2pi(x)

= xk+1 +k∑

i=0

(qk+1, pi)︸︷︷︸

= 0

−(xk+1, pi)‖pi‖−2pi(x) = pk+1(x)

schließlich die Behauptung. Q.E.D.


2.6 Tschebyscheff-Approximation

Im folgenden betrachten wir nur reell-wertige Funktionen. Die Gauß-Approximation hatgewisse Probleme mit der gleichmaßigen Approximation auf dem ganzen zugrunde liegen-den Intervall; sie ist aber verhaltnismaßig einfach zu realisieren. Die sog. “Tschebyscheff-Approximation” verwendet direkt die “Maximumnorm”

‖f‖∞ = maxa≤x≤b

|f(x)|

zur Bestimmung der “besten” Approximation g ∈ S ⊂ C[a, b] .

‖f−g‖∞ = minϕ∈S

‖f−ϕ‖∞. (2.6.47)

Die Norm ‖ · ‖∞ auf C[a, b] wird nicht durch ein Skalarprodukt erzeugt; die Existenzder besten Approximation kann also nicht aus Satz 2.12 erschlossen werden. Tatsachlichist i. Allg. die beste Approximation nicht einmal eindeutig bestimmt. Ihre Existenz istjedoch allgemein in normierten Raumen gesichert.

Beispiel 2.9: Das Beispiel belegt die mogliche Mehrdeutigkeit der “besten” Tschebyscheff-Approximation.

[a, b] = [0, 1] , f(x) ≡ 1

S = g| g(x) = αx , α ∈ R , dim S = 1

‖f−g‖∞ ≥ 1 ∀g ∈ S

‖f−g‖∞ = 1 ∀g = αx , 0 ≤ α ≤ 2

1

2

x

f(x)≡1

1

αx

Satz 2.18 (Allgemeine Tschebyscheff-Approximation): Sei E ein normierter Vek-torraum mit Norm ‖ · ‖ und S ⊂ E ein endlich dimensionaler Teilraum. Dann gibt eszu jedem f ∈ E eine beste Approximation g ∈ S :

‖f−g‖ = minϕ∈S

‖f−ϕ‖. (2.6.48)

Beweis: Ein g0 ∈ S mit ‖g0‖ > 2‖f‖ kann keine beste Approximation sein, da

‖f−g0‖ ≥ ‖g0‖−‖f‖ > ‖f‖ = ‖f−0‖ ≥ infϕ∈S

‖f−ϕ‖.

Die optimale Approximation ist also in der beschrankten Teilmenge

S0 := ϕ ∈ S : ‖ϕ‖ ≤ 2‖f‖ ⊂ S

zu suchen. Sie ist abgeschlossen und, da S endlich dimensional ist, kompakt (Satz vonBolzano/Weierstraß). Die auf S stetige Funktion F (ϕ) := ‖f−ϕ‖ nimmt dann auf S0

2.6 Tschebyscheff-Approximation 69

ein Minimum g an, d. h.:

‖f−g‖ = minϕ∈S0

‖f−ϕ‖ = minϕ∈S

‖f−ϕ‖.

Q.E.D.

Die Eindeutigkeit der Tschebyscheff-Approximation wird durch die sog. “Haarsche17

Bedingung” (H) an den Ansatzraum S ⊂ C[a, b] mit dim S = n garantiert:

Definition 2.8: (H) Man sagt, daß der (endlich dimensionale) Teilraum S der “Haar-schen Bedingung” genugt, wenn die Lagrangesche Interpolationsaufgabe g(xi) = yi , i =1, . . . , n mit beliebigen Stutzstellen a ≤ x1 < x2 < . . . < xn ≤ b und Werten y1, . . . , yn ∈R stets durch ein g ∈ S losbar ist.

Fur einen Teilraum S ⊂ C[a, b] ist die Haarsche Bedingung aquivalent zur eindeutigenLosbarkeit der Lagrangeschen Interpolationsaufgabe. Dies sieht man wie folgt:

Sei g1, . . . , gn eine Basis von S . Die Existenz eines interpolierenden g =∑ai gi ∈ S

ist aquivalent zur Losbarkeit des linearen Gleichungssystems

n∑

i=1

aigi(xj) = yj , j = 1, . . . , n, (2.6.49)

fur den Koeffizientenvektor (ai, . . . , an)T . Die Haarsche Bedingung ist aquivalent zur Re-gularitat der Matrix (gi(xj))i,j=1,...,n , d. h. zur eindeutigen Losbarkeit der Interpolations-aufgabe.

Beispiel 2.10: Wir geben Beispiele von Systemen S , fur welche die Haarsche Bedingung(H) erfullt ist.

1. Die Polynomraume Pn erfullen die Haarsche Bedingung auf jedem Intervall [a, b] .

2. Der Raum S = Spanx, . . . , xn erfullt die Haarsche Bedingung nicht, wenn 0 ∈[a, b] :

x1 = 0 ⇒ xk1 = 0 , k = 1, . . . , n ⇒ det(xj

i )i,j=1,...,n = 0.

Satz 2.19 (Tschebyscheffscher Alternantensatz): Fur den Teilraum S ⊂ C[a, b]mit dim S = n sei die Haarsche Bedingung (H) erfullt. Dann ist die Tschebyscheff-Approximation g ∈ S, einer Funktion f ∈ C[a, b] durch folgende Eigenschaft charakteri-siert:

17Alfred Haar (1885-1933): Ungarischer Mathematiker; Prof. in Kolozsvar (Cluj), Budapest und Szeged;viele wichtige Beitrage zur Approximationstheorie (“Haarsche Bedingung”) und Analysis auf Gruppen(“Haar measure”).


(A) Es existieren m ≥ n + 1 Stellen a ≤ x0 < . . . < xm ≤ b (sog. “Alternante”, so daßfur die Fehlerfunktion e(x) = f(x) − g(x) gilt:

|e(xi)| = ‖e‖∞ , e (xi) = −e (xi+1) ; i = 1, . . . , n . (2.6.50)

Insbesondere ist die beste Approximation eindeutig bestimmt.

Beweis: Fur den nicht trivialen Beweis der Alternantenaussage verweisen wir auf dieLiteratur; z.B. [20]. Q.E.D.

. . . .

.

||e||∞

-||e||∞

xn+1≤bxnx3x2a≤x1

Abbildung 2.9: Schema der Alternantenregel

Korollar 2.2: Der Alternantensatzes impliziert, daß die beste Approximation fur denSpezialfall S = Pn−1 eindeutig bestimmt ist.

Beweis: Seien g1, g2 zwei beste Approximationen mit e1 = f −g1 , e2 = f −g2 . Fur λ ∈(0, 1) ist dann ‖λe2‖∞ < ‖e1‖∞ , so daß der Graph von λe2(x) den von e1(x) mindestensn-mal schneidet (siehe Abbildung 2.9). Jede der Funktionen ϕλ(x) = e1(x) − λe2(x)hat also mindestens n Nullstellen. Durch Grenzubergang λ → 1 folgt, daß ϕ1(x) =e1(x)−e2(x) = g2(x)−g1(x) mindestens n (ihrer Vielfachheit entsprechend oft gezahlte)Nullstellen besitzt. Wegen g2 − g1 ∈ Pn−1 ergibt sich zwangslaufig g1 ≡ g2 . Q.E.D.

Bemerkung 2.4: Der Alternantensatz ist die Grundlage des sog. “Remez18-Algorithmus”zur Konstruktion der Tschebyscheff-Approximation. Ware eine Alternante x1, . . . , xn+1bekannt, so konnte man bei gegebener Basis ϕ1, . . . , ϕn von S die beste Approximation

g =

n∑

i=1

αiϕi

18Evgeny Yakovlevich Remez (1896-1975): Russischer Mathematiker; Professor an der Universitat Kiew(1935); Beitrage zur konstruktiven Approximationstheorie (“Remez-Algorithmus”) und zur numerischenLosung von Differentialgleichungen.


sowie die Große αn+1 := σ‖f−g‖∞ , σ ∈ −1, 1 , aus dem linearen Gleichungssystem

n∑

i=1

αiϕi(xk) + (−1)kαn+1 = f (xk) , k = 1, . . . , n+ 1,

berechnen. Der Remez-Algorithmus besteht aus der systematischen iterativen Suche nachder Alternante x1, . . . , xn+1 . In jedem Schritt wird mit der Naherung x(t)

i , . . . , x(t)n+1

das Gleichungssystem fur α(t)1 , . . . , α

(t)n und α

(t)n+1 gelost und fur

g (t) =n∑

i=1

α(t)i ϕi

das Optimalitatskriterium‖f − g(t)‖∞ = |α(t)

n+1|

abgefragt. Im allg. konvergiert x(t)1 , . . . , x

(t)n+1 gegen x1, . . . , xn+1 , allerdings nicht in

endlich vielen Schritten.

Beispiel 2.11: f (x) = cos (x) , [a, b] = [0, π/2] , S = P1

0 0.2 0.4 0.6 0.8 1.0 1.2 1.40

0.2

0.4

0.6

0.8

1.0

1.2

.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...........................................f(x).

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

....g(x)

0 0.2 0.4 0.6 0.8 1.0 1.2 1.4-0.15

-0.10

-0.05

0

0.05

0.10

0.15

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

..

.

.

.

.

..

.

.

..

.

..

.

..

..

..

..

..

..

.

..

.

..

.

..

..

.

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..............................................................................................................................................................................................................................................................................

................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................

...........................................e(x). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

....e(0)

-----------------------------------

----−e(0)

Abbildung 2.10: Anwendung der Alternantenregel

2.6.1 “Optimale” Lagrange-Interpolation

Zur Anwendung der Tschebyscheff-Approximation stellen wir die Frage nach der “op-timalen” Wahl der Stutzstellen bei der Lagrange-Interpolation. Fur das LagrangescheInterpolationspolynom p ∈ Pn einer Funktion f ∈ Cn+1[a, b] zu den Stutzstellen a ≤x0 < x1 < . . . xn ≤ b gilt nach Satz 2.3 die Fehlerdarstellung

f(x) − pn(x) =1

(n+ 1)!f (n+1)(ζx)L(x) , x ∈ [x0, . . . , xn],


wobei L(x) =∏n

j=0 (x− xj) . Die Stutzstellen x0, . . . , xn solle so bestimmt werden, daß

maxa≤x≤b

|L(x)| = ‖L‖∞ (2.6.51)

minimal wird. Damit hatte man eine “optimale” Darstellbarkeit von Funktionen ausCn+1[a, b] durch Lagrangesche Interpolationspolynome in Pn . Nun ist L(x) = xn+1 − pmit einem p ∈ Pn , d. h.: Die Aufgabe “optimale” Stutzstellen zu bestimmen, ist aquiva-lent zur Konstruktion der Tschebyscheff-Approximation zu f(x) = xn+1 bzgl. S = Pn .Nach dem Alternantensatz hat die Fehlerfunktion e = xn+1 − p mindestens n + 1 Null-stellen im Intervall [a, b] .

Satz 2.20 (Optimale Stutzstellen): Auf dem Intervall [a, b] = [−1, 1] ist die Tschebyscheff-Approximation g ∈ Pn zu f(x) = xn+1 gegeben durch

g(x) = xn+1 − 2−nTn+1(x) (2.6.52)

mit dem (n+ 1)-ten Tschebyscheff-Polynom

Tn+1(x) = cos[(n+1) arccos(x)].

Die Nullstellen

xk = cos(π

2

2k + 1

n+ 1

)

, k = 0, . . ., n (2.6.53)

von Tn+1 sind gerade die “optimalen” Stutzstellen der Lagrange-Interpolation auf [−1, 1] .

Beweis: Das Polynom Tn+1 ∈ Pn+1 hat die n+1 Nullstellen xk = cos(π2

2k+1n+1

) , k =

0, . . . , n , und es gilt (Ubungsaufgabe)

max−1≤x≤1

n∏

k=0

|x− xk| = 2−n.

Der rekursiven Beziehung

T0 ≡ 1 , T1(x) = x , Tn+1(x) = 2xTn(x) − Tn−1(x),

entnimmt man, daß Tn+1(x) = 2nxn+1 + q(x) mit einem q ∈ Pn . Also ist

2−nTn+1(x) =

n∏

k=0

(x−xk) = L(x).

Weiter nimmt Tn+1(x) = cos((n+1) arccos(x)) im Intervall [−1, 1] offenbar genau (n+2)-mal einen Extremwert an, abwechselnd ±1 (siehe Abb. 2.11). Diese n+2 Extremalstellenbilden dann eine Alternante fur die Approximation g(x) = xn+1 − 2−nTn+1(x) ∈ Pn zuxn+1 . Nach dem Alternantensatz ist g also die eindeutig beste Approximation zu xn+1 .Mit den Nullstellen xk von Tn+1(x) gilt folglich


max−1≤x≤1

|n∏

k=0

(x−xk)| = 2−n max−1≤x≤1

|Tn+1(x)|

= max−1≤x≤1

|xn+1 − [xn+1 − 2−nTn+1(x)]|

= minp∈Pn

max−1≤x≤1

|xn+1 − p(x)|

= min−1≤ζ0<...<ζn≤1

max−1≤x≤1

|n∏

k=0

(x−ζk)|

und damit die behauptete Optimalitatseigenschaft. Q.E.D.

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

y-A

chse

x-Achse

Tschebyscheff-Polynome

tp(1,x)tp(2,x)tp(3,x)tp(4,x)tp(5,x)

Abbildung 2.11: Anwendung der Alternantenregel

Die optimalen Stutzstellen der Lagrange-Interpolation auf einem beliebigen Intervall[a, b] gewinnt man aus dem Resultat von Satz 2.20 mit Hilfe der Transformation ϕ :[a, b] → [−1, 1] :

x = ϕ(y) :=2

b− ay − a + b

b− a,

zu

yk =b− a

2xk +

a+ b

2, k = 0, . . ., n.

Fur den Interpolationsfehler einer Funktion f ∈ Cn+1[a, b] gilt dann

‖f − pn‖∞ ≤ 1

(n+ 1)!

(b− a)n+1

22n+1‖f (n+1)‖∞. (2.6.54)


2.7 Ubungsaufgaben

Aufgabe 2.7.1: Fur verschiedene Orte wurde an einem bestimmten Tag die Tageslangegemessen:

Ort Tageslange Lage

A 17h 28m 55, 7o

B 18h 00m 57, 7o

C 18h 31m 59, 3o

D 19h 56m 62, 6o

E 22h 34m 65, 6o

Man bestimme die Tageslange am Ort F bei 61, 7o durch Auswertung des zugehorigenInterpolationspolynoms mit Hilfe des Neville-Algorithmus. (Es genugt 4-stellige Dezimal-rechnung.)

Aufgabe 2.7.2: Es soll eine 10-stellige Wertetabelle von

f(x) =

∫ x

0

sin(t)2 dt, x ∈ [0, π],

erstellt werden (in Festkommadarstellung), so daß kubische Lagrange-Interpolation einenFehler kleiner als 5 · 10−9 fur jeden Wert von x im Intervall [0, π] ergibt. Reichen dazudie Werte zu 250 aquidistant verteilten Stutzstellen aus? (Hinweis: Der Auswertungs-fehler setzt sich zusammen aus dem absoluten Interpolationsfehler und dem absolutenRundungsfehler in den zur Interpolation verwendeten Stutzwerten.)

Aufgabe 2.7.3: Gegeben sei die Funktion f(x) = eλx, λ ∈ R , auf einem Intervall [a, b] .Man zeige, daß in diesem Fall der Fehler f − pn der Lagrange-Interpolation von f uberbeliebig verteilten n + 1 (paarweise verschiedenen) Stutzstellen aus [a, b] fur n → ∞gleichmaßig gegen Null konvergiert:

maxx∈[a,b]

|f(x) − pn(x)| → 0 (n→ ∞).

Was unterscheidet diese Funktion von dem in der Vorlesung angegebenen Beispiel f(x) =(1 + x2)−1 , fur welches die Lagrange-Interpolation fur n → ∞ nicht konvergiert (s.Aufgabe 3.5)?

Aufgabe 2.7.4: Wir betrachten die Hermitesche Interpolationsaufgabe, zu (paarweise

verschiedenen) Stutzstellen xi (i = 0, . . ., m) und zu gegebenen Werten y(0)i , y

(1)i (i =

0, . . ., m) ein Polynom p ∈ Pn, n = 2m+ 1 , so zu bestimmen, daß

p(xi) = y(0)i , p′(xi) = y

(1)i (i = 0, . . ., m).


Man zeige:

a) Die Hermitesche Interpolationsaufgabe besitzt eine eindeutig bestimmte Losung.

b) Im Falle der Interpolation einer (n+1)-mal differenzierbaren Funktion f , d.h. p(xi) =f(xi), p

′(xi) = f ′(xi) (i = 0, . . ., m) gilt die Fehlerdarstellung

f(x) − p(x) =f (n+1)(ξx)

(n + 1)!

m∏

i=0

(x− xi)2

mit x-abhangigen Zwischenstellen ξx ∈ [a, b] . (Hinweis: Man modifiziere die entsprechendeArgumentation der Vorlesung oder des Skriptums fur die Lagrange-Interpolation.)

Aufgabe 2.7.5: (Praktische Aufgabe) Man berechne die Lagrangeschen Interpolations-polynome der Funktionen

f(x) =1

1 + 25x2, g(x) =

√

|x|, −1 ≤ x ≤ 1,

in Nevillescher Darstellung, jeweils zu den Stutzstellen xi = −1 + ih, i = 0, ..., n , mith = 2/n , fur n = 5, 10, 15, 20 . Man stelle die Polynome graphisch dar und vergleiche diePolynomgraphen mit den richtigen Funktionsverlaufen.

Aufgabe 2.7.6: Auf einer Zerlegung 0 = x0 < x1 < . . . < xN−1 < xN = 1 des Inter-valls I = [0, 1] werde eine Funktion stuckweise quintisch interpoliert, d.h.: Auf jedem

der Teilintervalle Ik = [xk−1, xk], k = 1, . . ., N , wird f durch ein Polynom p(k)5 ∈ P5

interpoliert, wobei jeweils einer der folgenden Satze an Bedingungen verwendet wird:

(i) p(k)5 (ξ) = f(ξ), ξ ∈ xk−1 + jhk/5, j = 0, . . ., 5, hk = xk − xk−1,

(ii) p(k)5 (ξ) = f(ξ) , (p

(k)5 )′(ξ) = f ′(ξ) , (p

(k)5 )′′(ξ) = f ′′(ξ), ξ ∈ xk−1, xk .

Im ersten Fall (Lagrange-Interpolation) ist die resultierende zusammengesetzte Funktionauf dem Intervall I stetig, und im zweiten Fall (Hermite-Interpolation) zweimal stetigdifferenzierbar. Man zeige, daß fur f ∈ C6[0, 1] in beiden Fallen die Abschatzung gilt:

maxx∈I

|f(x) − p(x)| ≤ h6

720maxx∈I

|f (6)(x)|, h := maxk=1,...,N

hk .

(Hinweis: Man wende die Fehlerdarstellung der Vorlesung fur die Lagrange- bzw. dieHermite-Interpolation auf jedem der Teilintervalle Ik an.)


Aufgabe 2.7.7: Fur die Funktion f(x) = cosh(x) ist die Wertetabelle gegeben

x f(x)

0.52 1, 1382741

0.56 1, 1609408

0.60 1, 1854652

0.64 1, 2118867

0.68 1, 2402474.

Man bestimme durch Extrapolation eines geeigneten Differenzenquotienten moglichst guteNaherungen zum Ableitungswert f ′(0.6) = 0, 63665358... .

Aufgabe 2.7.8: Welche von den Indexfolgen

(i) ni = 2i− 1, i ∈ N, (ii) ni = 3i, i ∈ N, (iii) ni = i2, i ∈ N,

fur Schrittweiten hi = h/ni ist zulassig fur die Extrapolation zum Limes?

Aufgabe 2.7.9: Es bezeichne S0 den Vektorraum der kubischen, naturlichen Spline-Funktionen zu den Stutzstellen x0 = 0, x1 = 1, x2 = 2 .

a) Sind die folgenden Funktionen in S0 ?

(i) f(x) = x3 − x2,

(ii) f(x) = x2(x− 6) − (x− 2)3,

(iii) f(x) = max0, x− 13 − 12x3.

b) Man bestimme den interpolierenden Spline s2 ∈ S0 fur f(x) = x3 . Wie lautet dasErgebnis, wenn die naturlichen Randbedingungen durch s′′2(x0) = f ′′(x0), und s′′2(x2) =f ′′(x2) ersetzt werden.

Aufgabe 2.7.10: (Praktische Aufgabe) Zur naherungsweisen Bestimmung des halbenUmfangs

π = 3, 1415 92653 58979 32384 62643 . . .

des Einheitskreises verwendeten schon die “alten Griechen” den Umfang einbeschriebenerregularer Polygone. Mit Hilfe des 96-seitigen Polygons fand z.B. Archimedes den Wertπ ≈ 3, 142 . Die allgemeine Formel fur den Umfang Tn des n-seitigen einbeschriebenen,regularen Polygons ist

(∗) Tn = 2n sin(π/n) → 2π (n→ ∞).

Man kann die Tn fur n = 6 · 2i mit Hilfe der Rekursionsformel (nachprufen!)

T6 = 6, T2n = 2

√

2n2 − n√

4n2 − T 2n ,


ohne Auswertung des Sinus berechnen.

i) Man bestimme mit Hilfe der Richardson-Extrapolation aus den Stutzwerten

Tn, n = 6 · 2i, i = 0, . . ., k,

fur k = 1, . . ., 30, Approximationen fur π und plotte den resultierenden Fehler in Abhan-gigkeit von k . (Hinweis: Man setze xn = 1/n und T (xn) := Tn und extrapoliere dieFunktion T (x) := 2/x sin(πx) nach x = 0 .)

ii) Man wiederhole die Rechnung mit den Stutzwerten Ti, i = 3, 4, . . ., k fur k =4, . . ., 33 , wobei die benotigten Werte Ti direkt aus der Definitionsformel (∗) bestimmtwerden sollen.

Wie sind die beobachteten Phanomene zu erklaren?

Ubung 2.1: Man zeige, daß die Funktionen

ϕ0(x) = 1/√

2x, ϕk(x) =1√π

cos(kx), ψk(x) =1√π

sin(kx), k = 1, . . ., n,

ein Orthonormalsystem des Teilraums Tn ⊂ C[−π, π] der trigonometrischen Polynomevom Grad kleiner oder gleich n bzgl. des L2-Skalarprodukts uber dem Intervall [−π, π]bilden und bestimme die beste Approximation der Funktion f(x) = x in Tn .

Ubung 2.2: Man zeige, daß die durch

ϕk(x) =k!

(2k)!

dk

dxk(x2 − 1)k, k = 0, 1, . . ., n,

definierten Polynome orthogonal bzgl. des L2-Skalarprodukts uber [−1, 1] sind, und daß

‖ϕk‖ =k!2

(2k)!

√

22k+1

2k + 1, ϕk(1) =

k!2

(2k)!2k.

Durch Normierung erhalt man hieraus die sog. Gauß-Legendre-Polynome

Lk(x) :=(2k)!

k!22kϕk(x), L(1) = 1.

(Hinweis: Man verwende partielle Integration, leite fur die Integrale Ik :=∫ 1

−1(1−x2)k dx

eine einstufige Rekursionsformel her und differenziere die Funktion (x2 − 1)k .)

Ubung 2.3: Man zeige die folgenden Eigenschaften einer Norm ‖ · ‖ auf einem Vektor-raum E (nicht notwendig endlich dimensional):

a) ‖x− y‖ ≥∣∣‖x‖ − ‖y‖

∣∣, x, y ∈ E .

b) Die Funktion N(·) = ‖ · ‖ : E → R ist stetig.


c) Ist E endlich dimensional, so sind alle Normen auf E aquivalent, d.h.: Zu je zweiNormen ‖ · ‖1, ‖ · ‖2 auf E gibt es stets Konstanten M ≥ m > 0 , so daß

m‖x‖1 ≤ ‖x‖2 ≤M‖x‖1, x ∈ E.

(Hinweis: Fur eine Basis e1, . . ., en von E betrachte man die Funktion F (α1, . . ., αn) :=‖∑n

i=1 αiei‖ auf der Einheitssphare des R

n .)

Ubung 2.4: Man bestimme die Gauß-Approximationen der Funktion f(x) =√x bzgl.

der L2-Norm uber dem Intervall [0, 1] in den Polynomraumen P0 , P1 und P2 . Manstelle die Ergebnisse graphisch dar.

Ubung 2.5: (Praktische Aufgabe) Man berechne rekursiv die Gauß-Legendre- und dieTschebyscheff-Polynome Lk und Tk auf dem Intervall [−1, 1] aus den Beziehungen

a) Lk(x) :=(2k)!

2kk!2ϕk(x), k = 0, 1, 2, . . . ,

ϕ0(x) = 1, ϕ1(x) = x, ϕk+1(x) = xϕk(x) −k2

4k2 − 1ϕk−1,

b) T0(x) = 1, T1(x) = x, Tk+1(x) = 2xTk(x) − Tk−1(x),

fur k = 0, 1, 2, . . ., 10 und stelle sie graphisch dar.

3 Numerische Integration

Die Berechnung bestimmter Integrale kann in der Praxis meist nur naherungsweise mitHilfe von sog. “Quadraturformeln” erfolgen. Dazu macht man fur eine Funktion f ∈C[a, b] den Ansatz

I(f) =

∫ b

a

f(x) dx ∼ I(n)(f) =

n∑

i=0

αif(xi)

mit Stutzstellen a ≤ x0 < . . . < xn ≤ b und Gewichten αi ∈ R . Ein einfaches Beispielist die sog. “(summierte) Rechteckregel”:

I(f) ≈n−1∑

i=0

(xi+1 − xi)f(xi).

3.1 Interpolatorische Quadraturformeln

Ein naheliegender Weg zur Konstruktion von Quadraturformeln ist der uber die Polyno-minterpolation. Zu den (paarweise verschiedenen) Stutzstellen a ≤ x0 < . . . < xn ≤ bwird das Lagrangesche Interpolationspolynom gebildet

pn(x) =

n∑

i=0

f(xi)L(n)i (x)

und dann gesetzt

I(n)(f) :=

∫ b

a

pn(x) dx =n∑

i=0

f(xi)

∫ b

a

L(n)i (x) dx

︸︷︷︸

≡ αi

. (3.1.1)

Die Quadraturgewichte αi hangen offenbar nur von [a, b] und den Stutzstellen x0, . . . , xn

ab. Der Quadraturfehler einer solchen sog. “interpolatorischen” Quadraturformel laßt sichleicht angeben:

Satz 3.1 (Lagrange-Quadratur): Fur interpolatorische Quadraturformeln gilt:

I(f) − I(n)(f) =

∫ b

a

f [x0, . . . , xn, x]

n∏

j=0

(x− xj)dx. (3.1.2)

Beweis: Die allgemeine Darstellung des Quadraturfehlers folgt aus der Restglieddarstel-lung der Interpolation in Satz 2.4. Q.E.D.

79


Aus der Fehlerdarstellung (3.1.2) folgt, daß die interpolatorische QuadraturformelI(n)(·) “exakt” ist fur Polynome p ∈ Pn ; dies ergibt sich ja bereits aus ihrer Konstruktion.

Definition 3.1: Eine Quadraturformel I(n)(·) wird “(mindestens) von der Ordnung m”genannt, wenn durch sie wenigstens alle Polynome aus Pm−1 exakt integriert werden.

Die interpolatorischen Quadraturformeln I(n)(·) zu n + 1 Stutzstellen sind also minde-stens von der Ordnung n+ 1 .

Ein wichtiger Spezialfall sind die auf aquidistant verteilten Stutzstellen basierendensog. “Newton-Cotes1-Quadraturformeln”:

(a) “abgeschlossene” Newton-Cotes-Formeln (a, b sind Stutzstellen)

xi = a+ iH , i = 0, . . . , n , H =b− a

n,

(b) “offene” Newton-Cotes-Formeln (a, b sind keine Stutzstellen)

xi = a+ (i+ 1)H , i = 0, . . . , n , H =b− a

n + 2,

Zur Berechnung der Gewichte αi geht man z.B. im Fall der abgeschlossenen Formelnwie folgt vor: Jedes x ∈ [a, b] ist darstellbar als x = a+ tH mit einem t ∈ [0, n] . DurchKoordinatentransformation x→ t = (x− a)/H erhalt man

L(n)i (x) =

n∏

j=0j 6=i

x− xj

xi − xj=

n∏

j=0j 6=i

a+ tH − a− jH

a+ iH − a− jH=

n∏

j=0j 6=i

t− j

i− j.

Also ist

αi =

∫ b

a

L(n)i (x) dx = H

∫ n

0

n∏

j=0j 6=i

t− j

i− jdt , i = 0, . . . , n.

Diese Gewichte werden ein fur allemal berechnet und tabelliert. Fur die offenen Newton-Cotes-Formeln verfahrt man analog.

1Roger Cotes (1682-1716): Englischer Mathematiker; Professor fur Astronomy und Experimentalphi-losophie an der Universitat Cambridge (1706) (zusammen mit Newton); Beitrage zu vielen konkretenFragen der reellen Analysis, insbesondere zur Numerik, Intzerpolation und Integraltafelnberechnung).

3.1 Interpolatorische Quadraturformeln 81

Beispiel 3.1: Als abgeschlossene Newton-Cotes-Formel fur n = 2, H := (b− a)/2:

a0 = H

∫ 2

0

t− 1

0 − 1

t− 2

0 − 2dt =

H

2

∫ 2

0

(t2 − 3t+ 2) dt =1

3H

a1 = H

∫ 2

0

t− 0

1 − 0

t− 2

1 − 2dt = −H

∫ 2

0

(t2 − 2t) dt =4

3H

a2 = H

∫ 2

0

t− 0

2 − 0

t− 1

2 − 1dt =

H

2

∫ 2

0

(t2 − t) dt =1

3H

ergibt sich die sog “Simpson2-Regel”:

I(2)(f) =H

3

(

f(a) + 4f(a+ b

2

)

+ f(b))

.

Beispiel 3.2: Wir geben im folgenden einige der einfachsten Newton-Cotes-Formeln an:

(a) Abgeschlossene Formeln (n = 1, 2, 3, 4) : H := (b− a)/n

I(1)(f) =b− a

2

f(a) + f(b)

(“Trapezregel” bzw. “Sehnen-Trapezregel”)

I(2)(f) =b− a

6

f(a) + 4f(a+ b

2

)

+ f(b)

(“Simpson-Regel”)

I(3)(f) =b− a

8

f(a) + 3f(a+H) + 3f(b−H) + f(b)

(“3

8-Regel)”

I(4)(f) =b− a

90

7f(a) + 32f(a+H) + 12f(a+ b

2

)

+ 32f(b−H) + 7f(b)

.

(b) Offene Formeln (n = 0, 1, 2, 3) H := (b− a)/n

I(0)(f) = (b− a)f(a + b

2

)

(“Mittelpunktregel” bzw. “Tangenten-Trapezregel”)

I(1)(f) =b− a

2

f(a+H) + f(b−H)

I(2)(f) =b− a

3

2f(a+H) − f(a + b

2

)

+ 2f(b−H)

I(3)(f) =b− a

24

11f(a+H) + f(a+ 2H) + f(b− 2H) + 11f(b−H)

.

2Thomas Simpson (1710-1761): Englischer Mathematiker; seit 1743 Professor an der Royal MilitaryAcademny at Woolwich; neben der nach ihm benannten Quadraturformel Beitrage zur Geometrie, Trogo-nometrie, Wahrscheinlichkeitstheorie und Astronomie; auf ihn gehen die heutige ublichen BezeichnungenSinus, Cosinus, Tangens und Cotangens zuruck, auch die differentielle Form Newton-Verfahrens wurdevon ihm 1740 eingefuhrt.


Bemerkung 3.1: Im Gegensatz zu den Newton-Cotes-Formeln verwenden die sog. “Bes-selschen3 Formeln” auch Stutzstellen außerhalb von [a, b] ; z.B.:

I(3)(f) =b− a

24

− f(2a− b) + 13f(a) + 13f(b) − f(2b− a)

.

Die sog. “Hermiteschen Formeln” verwenden Ableitungswerte; z.B.:

I(3)(f) =b− a

2

f(a) + f(b)

+

(b− a)2

12

f ′(a) − f ′(b)

.

Sie basieren auf dem Hermiteschen Interpolationspolynom zu n+1 = 2m+2 Stutzstellena ≤ x0 < . . . < xm ≤ b und Stutzwerten f(xi), f

′(xi), i = 0, . . . , m .

Wir wollen nun fur die drei einfachsten Newton-Cotes-Formeln, die Trapezregel, dieSimpson-Regel und die Mittelpunktregel, die Restglieddarstellungen ableiten.

Satz 3.2 (Quadraturrestglieder): Es gelten die folgenden Restglieddarstellungen(i) fur die Trapezregel:

I(f) − b− a

2

f(a) + f(b)

= −(b− a)3

12f ′′(ζ), f ∈ C2[a, b] ,

(ii) fur die Simpson-Regel:

I(f) − b− a

6

f(a) + 4f(a+ b

2

)

+ f(b)

= −(b− a)5

2880f (4)(ζ) , f ∈ C4[a, b],

(iii) fur die Mittelpunktregel:

I(f) − (b− a)f(a+ b

2

)

=(b− a)3

24f ′′(ζ), f ∈ C2[a, b] ,

mit gewissen Zwischenstellen ζ ∈ [a, b] .

Beweis: (i) Wegen (x− a)(x− b) ≤ 0 in [a, b] gilt

I(f) − I(1)(f) =f ′′(ζ)

2

∫ b

a

(x− a)(x− b) dx = −(b− a)3

12f ′′(ζ).

(ii) Da (x − a)(x − a+b2

)(x − b) in [a, b] einen Vorzeichenwechsel hat, kann der in (i)verwendete trick nicht direkt angewendet werden. Mit der Newtonschen Form des Inter-

3Friedrich Wilhelm Bessel (1784-1846): deutscher Astromom und Mathematiker; Direktor des Obser-vatoriums in Konigsberg und Mitglied der Berliner Akademie; grundlegende Beitrage zur mathematischenFehlerkorrektur bei astronomischen Beobachtungen und zur Sternpositionierung.


polationsrestglieds gilt

I(f) − I(2)(f) =

∫ b

a

f [a, a+b2, b, x](x− a)(x− a+b

2)(x− b) dx

=

∫ b

a

f [a, a+b2, b, x] − f [a, a+b

2, b, a+b

2]

x− a+b2

(x−a)(x− a+b2

)2(x−b)︸︷︷︸

≤ 0

dx+

+ f [a, a+b2, b, a+b

2]

∫ b

a

(x− a)(x− a+b2

)(x− b) dx

︸︷︷︸

= 0

.

Nach dem verallgemeinerten Mittelwertsatz der Integralrechnung folgt

I(f) − I(2)(f) =

∫ b

a

f [a, a+b2, a+b

2, b, x](x− a)(x− a+b

2)2(x− b) dx

=f (4)(ζ)

4!

∫ b

a

(x− a)(x− a+b2

)2(x− b) dx.

(iii) Da x− a+b2

in [a, b] einen Vorzeichenwechsel hat, verwenden wir eine analoge Schluß-weise wie in (ii):

I(f) − I(0)(f) =

∫ b

a

f [a+b2, x](x− a+b

2) dx

=

∫ b

a

f [a+b2, x] − f [a+b

2, a+b

2]

x− a+b2

(x− a+b2

)2

︸︷︷︸

≥ 0

dx+ f ′(a+b2

)

∫ b

a

(x− a+b2

) dx

︸︷︷︸

= 0

=

∫ b

a

f [a+b2, a+b

2, x](x− a+b

2)2 dx =

f ′′(ζ)

2

∫ b

a

(x− a+b2

)2 dx.

Analog lassen sich die Restglieddarstellungen der Newton-Cotes-Formeln hoherer Ord-nung herleiten. Q.E.D.

Bemerkung 3.2: Besitzen die in den Restgliedern auftretenden Ableitungen von f auf[a, b] festes Vorzeichen, so gestattet der Vergleich der abgeschlossenen und offenen For-meln (unter Vernachlassigung des Rundungsfehlers) eine Einschließung des Integralwer-tes. Zum Beispiel ergibt sich fur “konvexe” Funktionen f (f ′′ ≥ 0) mit der (Sehnen)-Trapezregel und der (Tangenten)-Trapezregel (Mittelpunktsregel):

(b− a)f(a+ b

2

)

≤ I(f) ≤ b− a

2

f(a) + f(b)

. (3.1.3)


Bei den abgeschlossenen Newton-Cotes-Formeln treten ab n = 7 und bei den offenenab n = 2 negative Gewichte αi auf. Dadurch erhoht sich die Rundungsfehleranfalligkeitdieser Formeln (Ausloschungsgefahr). Außerdem kann i.Allg. keine Konvergenz

I(n)(f) → I(f) (n→ ∞)

erwartet werden, da die Lagrange-Interpolation kein generell konvergenter Prozeß ist. Manwendet daher zur Berechnung von I(f) die Quadraturformeln nur auf Teilintervalle derLange h an und summiert die Einzelbeitrage zu den sog. “summierten” Quadraturfor-meln.

I(n)h (f) :=

N−1∑

i=0

I(n)[xi,xi+1]

(f), h =b− a

N. (3.1.4)

Gilt fur die verwendete Quadraturformel die Fehlerdarstellung

I[xi,xi+1](f) − I(n)[xi,xi+1]

(f) = ωn hm+2f (m+1)(ζi) , ζi ∈ [xi, xi+1],

mit einem m ≥ n , so ergibt sich mit dem Zwischenwertsatz fur den Fehler die Darstellung

I(f) − I(n)h (f) =

N−1∑

i=0

ωn hm+2 f (m+1)(ζi) = ωn h

m+2 N f (m+1)(ζ),

mit einem ζ ∈ [a, b] . Wegen N = b−ah

folgt also

I(f) − I(n)h (f) = ωn(b− a) hm+1 f (m+1)(ζ) , ζ ∈ [a, b] . (3.1.5)

Beispiel 3.3: Wir geben die Restglieder fur die einfachsten Formeln an:

(1) Summierte Trapezregel (m = 1)

I(1)h (f) =

N−1∑

i=0

xi+1 − xi

2

f(xi) + f(xi+1)

=h

2

f(a) + 2N−1∑

i=1

f(xi) + f(b)

.

I(f) − I(1)h (f) = −b− a

12h2 f ′′(ζ) , ζ ∈ [a, b]. (3.1.6)

(2) Summierte Simpson-Regel (m = 3)

I(2)h (f) =

N−1∑

i=0

xi+1 − xi

6

f(xi) + 4f(xi + xi+1

2

)

+ f(xi+1)

=h

6

f(a) + 2

N−1∑

i=1

f(xi) + 4

N−1∑

i=0

f(xi + xi+1

2

)

+ f(b)

.


I(f) − I(2)h (f) = −b− a

2880h4 f (4)(ζ) , ζ ∈ [a, b]. (3.1.7)

(3) Summierte Mittelpunktregel (m = 1)

I(0)h (f) =

N−1∑

i=0

(xi+1 − xi)f(xi + xi+1

2

)

= hN−1∑

i=0

f(xi + xi+1

2

)

.

I(f) − I(0)h (f) =

b− a

24h2 f ′′(ζ), ζ ∈ [a, b]. (3.1.8)


3.2 Gaußsche Quadraturformeln

Die interpolatorischen Quadraturformeln

I(n)(f) =

n∑

i=0

αif(xi) (3.2.9)

zu den Stutzstellen x0, . . . , xn ∈ [a, b] sind nach Konstruktion mindestens von der Ord-nung n+ 1 , d.h.: Fur ihr Restglied gilt:

R(n)(p) ≡ I(p) − I(n)(p) = 0, p ∈ Pn. (3.2.10)

Fur den Spezialfall der Newton-Cotes-Formeln mit geradem n > 0 haben wir gesehen(Ubungsaufgabe), daß sogar Polynome aus Pn+1 exakt integriert werden. Es stellt sichnun die Frage, die Stutzstellen x0, . . . , xn und die Gewichte α0, . . . , αn so zu wahlen, daßPolynome moglichst hohen Grades exakt integriert werden.

Hilfssatz 3.1: Eine obere Grenze fur die Ordnung einer Quadraturformel der Art I(n)(·)ist 2n+ 2 .

Beweis: Ware I(n)(·) von hoherer Ordnung, d.h. insbesondere also exakt fur das Polynom

p(x) =n∏

i=0

(x− xi)2 ∈ P2n+2,

so ergabe sich der Widerspruch

0 <

∫ b

a

p(x) dx = I(n)(p) = 0.

Q.E.D.

Wir wollen im folgenden zeigen, daß es tatsachlich interpolatorische Quadraturfor-meln zu n + 1 Stutzstellen gibt, welche die Maximalordnung 2n + 2 haben. Sie heißen“Gaußsche Quadraturformeln”. Seien pn ∈ Pn und p2n+1 ∈ P2n+1 die Lagrangeschen In-terpolationspolynome einer Funktion f ∈ C[a, b] zu den n+ 1 bzw. 2n+ 2 Stutzstellenx0, . . . , xn, xn+1, . . . , x2n+1 ∈ [a, b] . Fur die zugehorigen Quadraturformeln I(n)(·) bzw.I(2n+1)(·) gilt dann

I(f) − I(2n+1)(f) = I(f) −2n+1∑

i=0

f [x0, . . . , xi]

∫ b

a

i−1∏

j=0

(x− xj) dx

= I(f) − I(n)(f) −2n+1∑

i=n+1

f [x0, . . . , xi]

∫ b

a

i−1∏

j=0

(x− xj) dx.

3.2 Gaußsche Quadraturformeln 87

Wir schreiben fur i = n+ 1, . . . , 2n+ 1 :

∫ b

a

i−1∏

j=0

(x− xj) dx =

∫ b

a

n∏

j=0

(x− xj)

︸︷︷︸

∈ Pn+1

i−1∏

j=n+1

(x− xj)

︸︷︷︸

∈ Pn

dx.

Die n+ 1 Polynome

1, x− xn+1, (x− xn+1) (x− xn+2), . . . ,

2n∏

j=n+1

(x− xj)

bilden eine Basis von Pn . Wahlen wir nun die ersten n+1 Stutzstellen x0, . . . , xn ∈ [a, b]so, daß

∫ b

a

n∏

j=0

(x− xj)q(x) dx = 0 ∀ q ∈ Pn, (3.2.11)

so folgtI(f) − I(n)(f) = I(f) − I(2n+1)(f),

d.h.: Die interpolatorische Quadraturformel I(n)(·) ist exakt fur Polynome aus P2n+1 ,also von der Ordnung 2n+ 2 .

Auf dem Funktionenraum C[a, b] verwenden wir im folgenden wieder das ubliche L2-Skalarprodukt und die zugehorige Norm

(f, g) :=

∫ b

a

f(x)g(x) dx, ‖f‖ := (f, f)1/2.

Die obige Bedingung (3.2.11) besagt dann, daß das Polynom

p(x) ≡n∏

j=0

(x− xj) = xn+1 + r(x) , r ∈ Pn,

bzgl. des Skalarprodukts (·, ·) “orthogonal” zum Teilraum Pn[a, b] ⊂ C[a, b] sein muß.Zur Konstruktion von p und damit seiner Nullstellen x0, . . . , xn wenden wir das Gram-Schmidt-Verfahren auf die Monombasis 1, x, . . . , xn+1 von Pn+1[a, b] an:

p0(x) := 1, k = 1, . . . , n+ 1 : pk(x) := xk −k−1∑

j=0

(xk, pj)

‖pj‖2pj(x). (3.2.12)

Dann ist p0, . . . , pn+1 ein “Orthogonalsystem” in Pn+1[a, b] . Offenbar ist

pn+1(x) = xn+1 + r(x) , r ∈ Pn,


so daß wir p(x) := pn+1(x) setzen konnen. Die n + 1 Nullstellen λ0, . . . , λn von p(x)sind dann mogliche Kandidaten fur “optimale” Integrationspunkte.

Wir legen im folgenden ein Skalarprodukt der allgemeineren Gestalt

(f, g)ω :=

∫ b

a

f(x)g(x)ω(x) dx

mit einer integrablen Gewichtsfunktion ω(x) ≥ 0, x ∈ (a, b) , mit hochstens endlich vielenNullstellen in [a, b] , zugrunde. Seien dann pn , n = 0, 1, 2, . . . , die mit Hilfe des Gram-Schmidt-Verfahren aus 1, x, x2, . . . , gewonnenen bzgl. (·, ·)ω orthogonalen Polynome.

Satz 3.3 (Nullstellen orthogonaler Polynome): Die bzgl. des Skalarproduktes (·, ·)ω

orthogonalen Polynome pn besitzen lauter reelle, einfache Nullstellen, die alle im Innerndes Intervalls [a, b] liegen.

Beweis: Wir definieren die Menge

Nn := λ ∈ (a, b)| λ Nullstelle ungerader Vielfachheit von pn

und setzen

q(x) := 1 fur Nn = ∅,

q(x) :=m∏

i=1

(x− λi) fur Nn = λ1, . . . , λm.

Dann ist pn · q ∈ Pn+m reell und hat in (a, b) keinen Vorzeichenwechsel. Es gilt

(pn, q)ω =

∫ b

a

pn(x)q(x)ω(x) dx 6= 0.

Fur m < n ist dies ein Widerspruch zu pn ⊥ Pn−1 . Q.E.D.

Die orthogonalen Polynome pn bzgl. des Skalarprodukts (·, ·) auf [−1, 1] sind ge-rade Vielfache der “Legendre-Polynome” Ln(x) mit der Normierung pn(1) = xn + . . . .Aufgrund von Satz 3.3 konnen wir nun die Nullstellen λ0, . . . , λn des (n+1)-ten Legendre-Polynoms Ln+1 als Stutzstellen einer interpolatorischen Quadraturformel auf dem Inter-vall [−1, 1] verwenden:

I(n)(f) =n∑

i=0

αif(λi) , αi =

∫ 1

−1

n∏

j=0j 6=i

x− λj

λi − λj

dx. (3.2.13)

Wir fassen die Ergebnisse dieser Voruberlegungen in folgendem Satz zusammen.

Satz 3.4 (Gaußsche-Quadraturformeln): Es gibt genau eine interpolatorische Qua-draturformel zu n+1 paarweise verschiedenen Stutzstellen uber dem Intervall [−1, 1] mit


der Ordnung 2n+2 . Ihre Stutzstellen sind gerade die Nullstellen λ0, . . . , λn ∈ (−1, 1) des(n+ 1)-ten Legendre-Polynoms Ln+1 ∈ Pn+1 , und ihre Gewichte genugen der Beziehung

αi =

∫ 1

−1

n∏

j=0j 6=i

( x− λj

λi − λj

)2

dx > 0, i = 0, . . . , n. (3.2.14)

Fur f ∈ C2n+2[−1, 1] besitzt ihr Restglied die Darstellung

R(n)(f) =f (2n+2)(ξ)

(2n+ 2)!

∫ 1

−1

n∏

j=0

(x− λj)2 dx , ξ ∈ (−1, 1). (3.2.15)

Beweis: (i) Das orthogonale Polynom pn+1 ist orthogonal zu Pn[−1, 1] und hat mitseinen (reellen) Nullstellen λ0, . . . , λn ∈ (−1, 1) die Darstellung

pn+1(x) =n∏

i=0

(x− λi) = xn+1 + . . . .

Aufgrund der obigen Vorbetrachtung ist die zugehorige interpolatorische Quadraturformeldann von (2n+ 2)-ter Ordnung. Zur Bestimmung der Gewichte αi setzen wir

li(x) :=

n∏

j=0j 6=i

x− λj

λi − λj, i = 0, . . . , n,

und erhalten wegen l2i ∈ P2n

0 <

∫ 1

−1

li(x)2 dx =

n∑

j=0

αj li(λj)2

︸︷︷︸

δij

= αi.

(ii) Zum Beweis der Eindeutigkeit der Gaußschen Quadraturformel sei angenommen, esgabe eine zweite Formel

I(n)(f) =n∑

i=0

αi f(λi)

der Ordnung 2n+2 . Mit den analog gebildeten Polynomen li ∈ Pn folgte dann ebenfallsαi > 0 . Also ware

0 =

∫ 1

−1

1

αi

li(x)︸︷︷︸

∈ Pn

pn+1(x) dx =n∑

j=0

αj

αi

li(λj)︸︷︷︸

= δij

pn+1(λj) = pn+1(λi).

Wegen der eindeutigen Bestimmtheit der Nullstellen λi von pn+1 bzw. Ln+1 folgte damitλi = λi sowie αi = αi .


(iii) Es bleibt, die Restglieddarstellung herzuleiten. Nach Satz 2.5 und 2.6 gibt es einPolynom h ∈ P2n+1 , welches die Hermitesche Interpolationsaufgabe

h(λi) = f(λi) , h′(λi) = f ′(λi) , i = 0, . . . , n,

lost und fur f ∈ C2n+2[−1, 1] die Restglieddarstellung hat:

f(x) − h(x) = f [λ0, λ0, λ1, λ1, . . . , λn, λn, x]n∏

i=0

(x− λi)2.

Anwendung der Gaußschen Quadraturformel auf h(x) ergibt dann wegen der IdentitatI(n)(h) = I(h) :

I(f) − I(n)(f) = I(f − h) − I(n)(f − h)

=

∫ 1

−1

f [λ0, λ0, . . . , λn, λn, x]

n∏

i=0

(x− λi)2

︸︷︷︸

≥ 0

dx−n∑

i=0

αi f(λi) − h(λi)︸︷︷︸

= 0

=f (2n+2)(ξ)

(2n+ 2)!

∫ 1

−1

n∏

i=0

(x− λi)2 dx.


Die Legendre-Polynome Ln ∈ Pn bzw. ihre Vielfachen pn lassen sich auf [−1, 1] inder Form

pn(x) =n!

(2n)!

dn

dxn(x2 − 1)n (0! := 1)

schreiben und genugen der rekursiven Beziehung

p0(x) ≡ 1 , p1(x) ≡ x , pn+1(x) = xpn(x) − n2

4n2 − 1pn−1(x) , n ≥ 1.

Ihre Nullstellen werden analytisch bzw. (fur n > 3 ) numerisch bestimmt und konnenTabellenwerken entnommen werden; z.B.:

p2(x) = x2 − 13

: λ0 = −√

1/3 , λ1 =√

1/3

p3(x) = x3 − 35x : λ0 = −

√

3/5 , λ1 = 0 , λ2 =√

3/5 .

Die Gewichte der zugehorigen Quadraturformeln bestimmt man gemaß

αi =

∫ 1

−1

n∏

j=0j 6=i

x− λj

λi − λjdx =

1

p′n+1(λi)pn(λi)· (n!)4 22n+1

(2n)!3(2n+ 1),

und fur die Restglieder gilt


R(n)(f) =22n+3 [(n + 1)!]4

(2n+ 3)[(2n+ 2)!]3f (2n+2)(ζ) , ζ ∈ (−1, 1).

Fur n = 1 und n = 2 ergeben sich also die Quadraturformeln

I(1)(f) = f(−√

1/3)

+ f(√

1/3)

=

∫ 1

−1

f(x) dx− 1

135f (iv)(ζ) ,

I(2)(f) =1

9

5f(−√

3/5)

+ 8f(0) + 5f(√

3/5)

=

∫ 1

−1

f(x) dx− 1

15.750f (vi)(ζ) , ζ ∈ (−1, 1) .

Gaußsche Quadraturformeln uber einem beliebigen (beschrankten) Intervall [a, b] ge-winnt man durch Anwendung der Koordinatentransformation ϕ : [−1, 1] → [a, b] ,

y = ϕ(x) =b− a

2x+

b+ a

2. (3.2.16)

Es ist dann

∫ b

a

f(y) dy =b− a

2

∫ 1

−1

f(ϕ(x)) dx

=b− a

2

n∑

i=0

αi f(ϕ(λi)) +b− a

2R(n)(f(ϕ(·))),

wobei

R(n)(f(ϕ(·))) =2(2n+3) (n+ 1)!4

(2n+ 3)(2n+ 2)!3

(b− a

2

)2n+2

f (2n+2)(ϕ(ζ)),

d.h.: Die Stutzstellen und Gewichte der Quadraturformel (2n+2)-ter Ordnung uber [a, b] ,

I(n)(f) =n∑

i=0

αif(λi),

sind gegeben durch

λi = 12(b− a)λi + 1

2(b+ a) , αi = 1

2(b− a)αi , i = 0, . . . , n.

Fur n = 1 und n = 2 erhalten wir mit c = b+a2

und h = b−a2

die Quadraturformeln

I(1)(f) =b− a

2f(c−

√

1/3h) + f(c+√

1/3h) ,

I(2)(f) =b− a

185f(c−

√

3/5h) + 8f(c) + 5f(c+√

3/5h).

Die zugehorigen summierten Gaußschen Quadraturformeln haben die Gestalt (xj = a +jh , h = (b− a)/N) :


I(1)h (f) =

h

2

N−1∑

j=0

f(xj + h′) + f(xj+1 − h′)

mit h′ = (12− 1

2√

3)h ∼ 0.2113249 h ,

I(2)(f) =h

18

N−1∑

j=0

5f(xj + h′) + 8f(xj + 12h) + 5f(xj+1 − h′)

mit h′ =(

12− 1

2

√35

)h ∼ 0, 1127012 h .

Satz 3.5 (Konvergenz der Gauß-Quadratur): Sei I(n)(f) die (n+1)-punktige Gauß-Formeln zur Berechnung von

I(f) =

∫ 1

−1

f(x) dx.

Fur jede Funktion f ∈ C[−1, 1] konvergiert dann

I(n)(f) → I(f) (n→ ∞).

Beweis: Fur die Gewichte der Gauß-Formel gilt

I(n)(f) =n∑

i=0

α(n)i f(λ

(n)i ) , α

(n)i > 0 ,

n∑

i=0

α(n)i = 2.

Sei ε > 0 beliebig vorgegeben. Nach dem Weierstraßschen Approximationssatz gibt esein pε ∈ Pm (m hinreichend groß), so daß

max−1≤x≤1

|f(x) − pε(x)| ≤ ε4.

Es ist R(n)(pε) = 0 fur 2n+ 2 > m hinreichend groß. Fur solche n ist also

|I(f) − I(n)(f)| ≤ | I(f − pε)︸︷︷︸

≤ ε4· 2

| + | I(pε) − I(n)(pε)︸︷︷︸

= 0

| + | I(n)(pε − f)︸︷︷︸

≤ ε4· 2

| ≤ ε .

Wegen der beliebigen Wahl von ε > 0 muß I(n)(f) → I(f) konvergieren fur n → ∞ .Q.E.D.

Die Methode zur Gewinnung der Gauß-Formeln zur “optimalen” Berechnung von I(f)laßt sich ubertragen auf den Fall von Integralen

I(fω) =

∫ b

a

f(x)ω(x) dx


mit einer (uneigentlich) R-integrabierbaren Gewichtsfunktion ω(x) ≥ 0 mit hochstensendlich vielen Nullstellen auf (a, b) . Hierbei verwendet man als Stutzstellen gerade dieNullstellen der bzgl. des gewichteten Skalarprodukts

(p, q)ω =

∫ b

a

p(x)q(x)ω(x) dx

orthogonalen Polynome, was durch Satz 3.3 gesichert ist; Satz 3.4 gilt dann sinngemaß.

Beispiel 3.4: Wir betrachten den Fall

[a, b] = [−1, 1], ω(x) =1√

1 − x2.

Die orthogonalen Polynome pn ∈ Pn[−1, 1] sind in diesem Fall Vielfache der “Tscheby-scheff-Polynome” Tn(x) ∈ Pn[−1, 1] und sind durch die rekursive Beziehung

p0(x) = 1 , p1(x) = x , pn+1(x) = 2xpn(x) − pn−1(x) , n ≥ 1,

bestimmt. Die Stutzstellen und Gewichte der zugehorigen Quadraturformeln sind

λi = cos(π

2

2i+ 1

n+ 1

)

, αi =π

n+ 1, i = 0, . . . , n.

Die Restglieder haben die Form

R(n)(f) =2π

22n+2(2n+ 2)!f (2n+2)(ζ) , ζ ∈ (−1, 1).

Fall n = 2 :

∫ 1

−1

f(x)ω(x)dx =π

3

f(− 1

2

√3)

+ f(0) + f(

12

√3)

+π

23.040f (vi)(ζ).


3.3 Das Rombergsche Integrationsverfahren

Die zusammengesetzten Quadraturformeln mit Schrittweite h = b−aN

legen es nahe, dasPrinzip der Extrapolation zum Grenzwert h = 0 zu verwenden. Die dazu notige haufi-ge Anwendung der Quadraturformeln erfordert solche mit einfacher Struktur und einermoglichst geringen Anzahl von Funktionsauswertungen. Wir beschranken uns daher imfolgenden auf die zusammengesetzte Trapezregel. Das durch Extrapolation der Trapezre-gel gewonnene Integrationsverfahren geht auf Romberg4 (1955) zuruck und tragt daherauch seinen Namen. Wir setzen h = (b− a)/N und xj = a + jh, j = 0, . . ., N . Fur diezusammengesetzte Trapezregel gilt dann

∫ b

a

f(x) dx ≤ h1

2f(a) +

N−1∑

j=1

f(xj) +1

2f(b)

− h2 b− a

12f ′′(ζ). (3.3.17)

Ist f ∈ C[a, b] , so konvergiert bekanntlich

a(h) = h

N−1∑

j=0

f(xj) +h

2

f(b) − f(a)

︸︷︷︸

→ 0

→∫ b

a

f(x) dx (h→ 0).

Die Grundlage der Berechnung von limh→0 a(h) durch Extrapolation ist wieder eineasymptotische Entwicklung von a(h) nach Potenzen der Gitterweite h .

Satz 3.6 (Euler-Maclaurinsche Summenformel): Fur f ∈ C2m+2[a, b] gilt die sog.“Euler5-Maclaurinsche6 Summenformel”

a(h) =

b∫

a

f(x) dx+m∑

k=1

h2k B2k

(2k)!

f (2k−1)(b) − f (2k−1)(a)

+

+ h2m+2 b− a

(2m+ 2)!B2m+2f

(2m+2)(ζ) , ζ ∈ [a, b],

mit den Bernoulli7-Zahlen B2k .

4Werner Romberg (1909-2003): Deutscher Mathematiker; emigrierte 1937 aus polit. Grunden nachRußland und spater nach Norwegen; 1950-1968 Professor in Trondheim und 1968-1977 Inhaber des Lehr-stuhls fur Mathematische Methoden der Naturwissensch. und Numerik in Heidelberg; Beitrage zur Nume-rik von Differentialgleichungen und numerischen Integration (“Rombergsches Extrapolationsverfahren”).

5Leonhard Euler (1707-1783), geb. in Basel: universeller Mathematiker und Physiker; bedeutendsterund produktivster Mathematiker seiner Zeit; wirkte in Berlin und St. Petersburg; Arbeiten zu allen ma-themischen Gebieten seiner Zeit.

6Colin Maclaurin (1698-1746): Schottischer Mathematischer; Professor an den Universitaten Aber-deen (1717) und Edinburgh (1725); Beitrage zur damals neuenNewtonschen Differentialrechnung (erstesystematische Darstellung des Newtonschen “Kalkuls” und Entwicklung der nach ihm benannten Inte-gralformel (1742)), zur klassischen Mechanik, Geometrie und Algebra.

7Bernoulli: Schweizer Mathematiker Familie; Jakob Bernoulli (1655-1705) lehrte in Basel; verwendete

3.3 Das Rombergsche Integrationsverfahren 95

Beweis: Siehe z.B. Stoer I. Die Bernoulli-Zahlen sind z. B. bestimmt als die Koeffizientenin der Potenzreihenentwicklung

x

ex − 1=

∞∑

k=0

Bk

k!xk, (3.3.18)

und genugen der Rekursionsformel

Bk = −k−1∑

j=0

k!

j!(k − j + 1)!Bj , k = 1, . . . . (3.3.19)

B0 = 1 , B1 = −12, B2 = 1

6, B4 = − 1

30, B6 = 1

42, B8 = − 1

30, . . . .

Fur ungerade Indizes gilt B2j+1 = 0, und fur k → ∞ wachsen die Bernoulli-Zahlen sehrschnell an wie

B2k ≈ (2k)!/(2π)2k.

Q.E.D.

Die summierte Trapezregel besitzt also eine Entwicklung nach geraden Potenzen vonh . Dieser Umstand macht die Extrapolation mit geraden Polynomen, d. h. solchen in h2 ,besonders effizient. Zur Berechnung von

limh→0

a(h) =

b∫

a

f(x) dx

geht man nach dem Extrapolationsprinzip wie folgt vor:

1. Fur eine Folge von Schrittweiten h0 > h1 > h2 > . . . > hm wird a(hk) berechnet.Dabei verwendet man in der Regel die sog. “Romberg-Folge” hk = h/2k . Diesebietet den Vorteil der Wiederverwendbarkeit der schon berechneten Funktionswerte,fuhrt aber auf eine rasch anwachsende Zahl von Stutzstellen.

2. Das Interpolationspolynom in h2 zu den Stutzpunkten (h2i , a(hi)), i = 0, . . . , m

wird an der Stelle h = 0 nach dem Neville-Schema ausgewertet:

ai0 = a(hi) , i = 0, . . . , m , k = 1, . . . , m :

aik = ai,k−1 +ai,k−1 − ai−1,k−1(

hi−k

hi

)2

− 1, i = k, . . . ,m.

bereits die vollstandige Induktion; Entdecker der “Bernoulli-Zahlen” und Mitbegrunder der Wahrschein-lichkeitsrechnung; sein jungerer Bruder Johann Bernoulli (1667-1748) wirkte zuletzt in Basel und galtnach dem Tode seines Bruders Jakob als fuhrender Mathematiker seiner Zeit; er leistete Beitrage uberReihen und Differentialgleichungen; sein Sohn Daniel Bernoulli (1700-1782) setzte diese Arbeiten fort;er wirkte in St. Petersburg und Basel und leistete wichtige Beitrage zur Hydromechanik und Gasdynamik.


Dies ist das sog. “Integrationsverfahren von Romberg”. Es baut also sukzessive folgendesExtrapolationsschema auf:

k 0 1 2 m− 1 m

h0 a00

h1 a10 a11

h2 a20 a21 a22

......

......

. . .

hm−1 am−1,0 am−1,1 am−1,2 · · · am−1,m−1

hm am,0 am,1 am,2 · · · am,m−1 am,m

Die Diagonalelemente ak,k sind gerade die Naherungen zu a(0) , die man durch Extrapo-lation der Stutzpunkte (h2

i , a(hi)), i = 0, . . . , k , gewinnt.

Als Folgerung aus dem allgemeinen Satz 2.7 erhalt man die Konvergenzaussage:

Satz 3.7 (Romberg-Integration): Es sei f ∈ C2m+2[a, b] . Der fur die Schrittweiten-folge hk = h/2k, k = 0, . . . , m , berechnete extrapolierte Wert am,m konvergiert gegena(0) fur h→ 0 mit der Fehlerordnung

a(0) − am,m = O(h2m+2). (3.3.20)

Bemerkung 3.3: Sei f ∈ C2m+2(−∞,∞) mit der Periode [a, b] . Dann ist f (k)(a) =f (k)(b) , und Satz 3.6 ergibt

a(h) =

∫ b

a

f(x) dx+O(h2m+2).

Ist sogar f ∈ C∞(−∞,∞) , so konvergiert die zusammengesetzte Trapezregel schnellerals jede Potenz von h gegen das Integral von f uber ein ganzes Periodenintervall. Wegenf(a) = f(b) ist in diesem Fall

a(h) = h

N−1∑

j=0

f(xj), (3.3.21)

d.h.: Die Trapezregel fallt mit der summierten Rechteckregel zusammen. Diese primi-tivste Quadraturregel konvergiert also bereits besser als jede Potenz von h , so daß dieAnwendung komplizierter Formeln eher schadlich ware.

3.4 Praktische Aspekte der Integration 97

3.4 Praktische Aspekte der Integration

Das Hauptproblem bei der numerischen Integration ist die Gewinnung realistischer Schatzun-gen fur den Fehler. Die z. B. fur die summierten Newton-Cotes-Formeln hergeleitete apriori Fehlerabschatzung (n ungerade)

|I(f) − I(n)h (f)| ≤ ωn(b− a) max

a≤x≤b|f (k)(x)| hk

ist dazu in der Regel ungeeignet, da hohere Ableitungen f (k) des Integranden nur schwerzu berechnen sind. (Man berechne z.B. die 4-te Ableitung von f(x) = (1+x2)−1/2 tan(x) !)Die Verwendung der numerischen Differentiation scheidet wegen des damit verbundenengroßen Rundungsfehlers und des erneuten Bedarfs von Fehlerabschatzungen aus.

Bei Quadraturformeln, die wie die summierten Newton-Cotes-Formeln von einemSchrittweitenparameter h abhangen, kann das Restglied naherungsweise aus den tatsachlichberechneten Werten durch eine sog. “a posteriori” Fehlerabschatzung bestimmt werden.Fur eine Quadraturformel Ih(f) zur Schrittweite h gelte

I(f) = Ih(f) + ωfhk + r(f ; h)hk+1. (3.4.22)

Zur Bestimmung des Restgliedkoeffizienten ωf berechnet man fur ein gewisses h zusatz-lich zu Ih(f) noch den Wert Ih/2(f) zur halbierten Schrittweite. Fur diesen gilt dann

I(f) = Ih/2(f) + ωf

(h

2

)k

+ r(

f ;h

2

)(h

2

)k+1

. (3.4.23)

Durch Elimination von I(f) aus (3.4.22) und (3.4.23) folgt

Ih/2(f) − Ih(f) = ωf

hk −(h

2

)k

+ hk+1r(f ; h) −(h

2

)k+1

r(

f ;h

2

)

= ωfhk(1 − 2−k) +O(hk+1)

bzw.

hkωf =Ih/2(f) − Ih(f)

1 − 2−k+O(hk+1). (3.4.24)

Durch den Quotienten

Ih/2(f) − Ih(f)

1 − 2−kh−k .

= ωf (3.4.25)

erhalt man also eine Schatzung fur den fuhrenden Koeffizienten ωf im Restglied bis aufeinen Fehler der Ordnung O(h) , der vernachlassigt wird. Dies kann zu einem heuristischenAbbruchkriterium fur die numerische Quadratur ausgebaut werden:

Fur eine Funktion f ∈ Ck+1[a, b] soll das Integral I(f) uber [a, b] mit Hilfe einerinterpolatorischen Quadraturformel der Ordnung k berechnet werden. Die vorgegebene


Fehlertoleranz sei TOL . Das Problem ist also die Bestimmung einer geeigneten Schritt-weite h . Wir nehmen wieder an, daß die Quadraturformel eine asymptotische Entwicklungder Art (3.4.22) gestattet. In erster Naherung wollen wir h so bestimmen, daß wenigstensfur den fuhrenden Fehlerterm gilt

|I(f) − Ih(f)| ≤|ωfhk| ≤ TOL ! (3.4.26)

Aufgrund der Schatzung fur ωf sollte also gelten:

∣∣∣∣

Ih/2(f) − Ih(f)

1 − 2−k

∣∣∣∣≤ TOL . (3.4.27)

Wegen Ih(f) → I(f) (h → 0) wird nach einer gewissen Anzahl von Schrittweitenhal-bierungen diese Bedingung erfullt sein. Aus (3.4.26) laßt sich die gesuchte Schrittweitenaherungsweise bestimmen zu

hTOL ≈(TOL

ωf

)1/k

. (3.4.28)

Zur Uberprufung der Gultigkeit dieser Schrittweitenwahl, d. h. der Verlaßlichkeit derSchatzung von ωf , vergleicht man noch hTOL mit der Schatzschrittweite h. Im FallehTOL ≈ h wird das Ergebnis akzeptiert. Ist dagegen hTOL ≪ h, so wird der ganzeSchatzprozeß mit der neuen Schatzschrittweite h := hTOL wiederholt, bis schließlich dererste Fall eintritt. Bei Unterschreiten einer vorgegebenen minimal erlaubten Schrittweitehmin wird der Approximationsprozeß abgebrochen, da das Integral offenbar mit dem zurVerfugung stehenden Aufwand nicht verlaßlich berechenbar ist.

Bei gleichem Rechenaufwand (gemessen an der Zahl der Funktionsauswertungen) lie-fert die Gaußsche Integrationsmethode die genauesten Resultate. Wenn man bei einemvorgelegten Integral I(f) und gewunschter Genauigkeit ε wußte, welche Schrittweite hman zu nehmen hatte, so waren die Gaußschen Formeln den anderen Methoden uberle-gen. Da dies aber a priori kaum moglich ist, mussen die beschriebenen Methoden zur aposteriori Fehlerabschatzung verwendet werden. Da man im Gegensatz zu den Extrapola-tionsverfahren beim Ubergang von h nach h/2 die bis dahin berechneten Funktionswer-te von f(x) nicht weiter verwenden kann, gehen die Vorzuge des Gaußschen Verfahrensschnell verloren. Im Fall [a, b] = [0, 1] berechnet sich mit h = 1/N der Rechenaufwandder summierten (abgeschlossene) Newton-Cotes-Formeln (fur ungerades n ) zu etwa n/hFunktionsauswertungen, d. h.: Zur Erzielung der Ordnung O(h2n+2) sind etwa n/h2

Funktionsauswertungen erforderlich. Die summierten Gauß-Formeln benotigen fur die-selbe Genauigkeit nur etwa n/h Funktionsauswertungen. Das Romberg-Verfahren (furhi = 2−ih ) liegt mit etwa 2n/h Funktionsauswertungen auch nocht recht gut.

Beispiel 3.5: Fur n = 3 und h = 10−2 ergibt sich ein Fehler der Große 10−16f (8)(ζ) .Die drei Verfahren benotigen hierfur folgende Anzahlen von Funktionsauswertungen:

Newton− Cotes : 30.000 , Gauß : 400 , Romberg : 800.


3.5 Ubungsaufgaben

Ubung 3.1: Mit wievielen Funktionsauswertungen kann das Integral

I =

∫ 1

0

dx

1 + 2x= 0, 54930614. . .

mit einem Fehler kleiner als 10−8 berechnet werden,

a) mit Hilfe der summierten Trapezregel,

b) mit Hilfe der summierten Simpson-Regel ?

(Hinweis: Das Integral soll hierzu nicht explizit berechnet werden!)

Ubung 3.2: Man berechne das Integral

I =

∫ π/2

0

sin(x) dx

mit Hilfe des Romberg-Verfahrens (Schrittweitenfolge hi = 2−i−1π, i = 0, 1, 2, . . ., ) mit ei-nem Fehler kleiner 10−4 . Die Genauigkeit kontrolliere man dabei mit der in der Vorlesungangegebenen Methode zur a posteriori Fehlerabschatzung beim Extrapolationsverfahren.

Ubung 3.3: Man bestimme eine Gaußsche Quadraturformel, welche das Integral

I =

∫ 1

−1

f(x)√

|x| dx

fur alle Polynome aus P3 exakt integriert.

Ubung 3.4: Man gebe eine Quadraturformel zur Berechnung des Integrals

I =

∫ 1

−1

cos(πx/2)√1 − x2

dx

mit einem garantierten Fehler ε ≤ 10−4 an (bei Vernachlassigung der Rundungsfehler).Die Quadraturformel soll so gewahlt sein, daß moglichst wenige Funktionsauswertungenerforderlich sind.

Ubung 3.5: (Praktische Aufgabe) Man schreibe ein Programm zur naherungsweisen Be-rechnung des Integrals I(f) mit dem Romberg-Verfahren und wende dieses an fur dasIntegral

I(f) =

∫ 1

0

4

x2 + 1dx.

Welcher “exakte” Wert ergibt sich fur das Integral?


a) Der Extrapolationsprozeß zur Schrittweitenfolge hi = 2−i (i = 0, 1, 2, . . .) liefert Nahe-rungswerte Ri(f) := aii (Diagonalelemente im Extrapolationstableau). Man setze denExtrapolationsprozeß fort, bis entweder der Fehler kleiner als 10−10 oder i = 20 ist.Dabei kontrolliere man die Genauigkeit von Ri(f) jeweils mit Hilfe der in der Vorlesungangegebenen Methode zur a posteriori Fehlerschatzung. Man gebe die Folgen aii ausund stelle die Entwicklung des geschatzten und des tatsachlichen Fehlers |bii − aii| bzw.|Ri(f) − I(f)| graphisch dar.

b) Zur Illustration der Aussagekraftigkeit der Theorie des Extrapolationsverfahrens wie-derhole man die Rechnungen (und die graphischen Ausgaben) fur die Extrapolation nachPotenzen von h (statt h2 ) sowie fur die Schrittweitenfolge hi = (i+ 1)−1, i = 0, . . ., 20 .)

4 Lineare Gleichungssysteme I (Direkte Verfahren)

Seien A eine Matrix und b ein Vektor

A = (ajk)m,nj,k=1 =

a11 · · · a1n

......

am1 · · · amn

, b = (bj)j=1,...,m =

b1...

bm

.

Gesucht ist ein Vektor x = (xk)k=1,...,n mit der Eigenschaft

a11x1 + a12x2 + · · · + a1nxn = b1...

am1x1 + am2x2 + · · · + amnxn = bm

oder abgekurzt geschrieben: Ax = b .

Definition 4.1: Das lineare Gleichungssystem Ax = b heißt “unterbestimmt” im Fallm < n , “quadratisch” im Fall m = n und “uberbestimmt” im Fall m > n .

Das lineare Gleichungssystem ist genau dann losbar, wenn Rang(A) = Rang[A, b] , mitder zusammengesetzten Matrix

[A, b] =

a11 · · · a1n b1...

......

am1 · · · amn bm

.

Im “quadratischen” Fall sind die folgenden Aussagen aquivalent:

(i) Ax = b ist fur jedes b eindeutig losbar.

(ii) Rang(A) = n .

(iii) det(A) 6= 0 .

(iv) Alle Eigenwerte von A sind ungleich Null.

Wir beschaftigen uns im folgenden hauptsachlich mit der Losung von quadratischenGleichungssystemen. Die dazu verwendeten Verfahren lassen sich grob in zwei Klasseneinteilen:

Definition 4.2: Ein “direktes” Verfahren zur Losung des Gleichungssystems Ax = bist ein Algorithmus, der (bei Vernachlassigung von Rundungsfehlern) in endlich vielenSchritten die Losung x liefert. Im Gegensatz dazu erzeugen die “iterativen” Verfahrensukzessive eine Folge von Vektoren (x(t))t∈N , die im Limes fur t → ∞ immer bessereApproximationen zur Losung x sind.

101


4.1 Storungstheorie

Wir beschaftigen uns zunachst mit dem Problem der “Konditionierung” von quadratischenlinearen Gleichungssystemen. Bei der Losung eines Gleichungssystems Ax = b treten zweiFehlereinflusse auf:

a) Fehler in der “theoretischen” Losung aufgrund von Eingangsfehlern in den Elemen-ten von A und b ,

b) Fehler in der “numerischen” Losung aufgrund des Rundungsfehlers im Verlaufe desLosungsprozesses.

4.1.1 Vektor- und Matrizennormen

Zur Erfassung dieser Fehler benotigen wir ein Maß fur die “Große” von Vektoren undMatrizen. Dazu dienen ublicherweise Normen auf dem n-dimensionalen Zahlenraum Kn ,K = R oder K = C . (Im Hinblick auf spatere Anwendungen lassen wir im folgendenauch komplexe Vektoren bzw. Matrizen zu.)

Definition 4.3: Eine Abbildung ‖ · ‖ : Kn → R+ heißt “Norm”, wenn sie folgendeEigenschaften besitzt:

(N1) ‖x‖ > 0 , x ∈ Kn \ 0 (Definitheit),

(N2) ‖αx‖ = |α| ‖x‖ , x ∈ Kn, α ∈ K (positive Homogenitat),

(N3) ‖x+ y‖ ≤ ‖x‖ + ‖y‖ , x, y ∈ Kn (Subadditivitat).

Beispiel 4.1: Gebrauchliche Beispiele von Vektornormen sind:

‖x‖2 :=( n∑

i=1

|xi|2)1/2

“Euklidische Norm” (l2-Norm)

‖x‖∞ := maxi=1,...,n

|xi| “Maximumnorm” (l∞-Norm)

‖x‖1 :=n∑

i=1

|xi| “l1-Norm”

Mit Hilfe einer Norm ‖ · ‖ auf Kn laßt sich die Konvergenz einer Folge von Vektorengegen einen Vektor erklaren durch

x(t) → x (t→ ∞) :⇐⇒ ‖x(t) − x‖ → 0 (t→ ∞) .

Die sog. “Dreiecksungleichung” (N3) ergibt uber die Beziehung ‖x‖ = ‖x − y + y‖ diewichtige Ungleichung

‖x− y‖ ≥∣∣‖x‖ − ‖y‖

∣∣ , x, y ∈ K

n , (4.1.1)

welche u.a. die Stetigkeit von Normen als Funktionen von Kn in R impliziert.

4.1 Storungstheorie 103

Hilfssatz 4.1 (Normaquivalenz): Auf dem endlich dimensionalen Vektorraum Kn sindalle Normen aquivalent, d.h.: Zu je zwei Normen ‖ · ‖ , ‖ · ‖′ gibt es positive Konstantenm, M , mit denen gilt:

m ‖x‖ ≤ ‖x‖′ ≤M ‖x‖ , x ∈ Kn . (4.1.2)

Beweis: Es genugt, die Behauptung fur den Fall zu zeigen, daß eine der beiden Normendie Maximumnorm ‖ · ‖∞ ist. Sei ‖ · ‖ irgendeine zweite Norm. Bzgl. der kartesischenEinheitsvektoren e1, . . . , en hat jeder Vektor x ∈ Kn die Darstellung x =

∑ni=1 xiei .

Folglich gilt

‖x‖ ≤ γ ‖x‖∞ , γ :=

n∑

i=1

‖ei‖ .

Die Norm ‖·‖ ist also auch stetig bzgl. der komponentenweisen Konvergenz von Vektoren.Die Punktmenge

S ≡ x ∈ Kn, ‖x‖∞ = 1 ⊂ K

n

ist beschrankt und abgeschlossen (und damit kompakt). Die Norm ‖ · ‖ nimmt also alsstetige Funktion auf S ihr Minimum und Maximum an. Es existieren also x0, x1 ∈ S , sodaß

0 < ‖x0‖ ≤ ‖x‖ ≤ ‖x1‖ <∞ , ∀x ∈ S .

Fur beliebiges y ∈ Kn \ 0 ist y/‖y‖∞ ∈ S und folglich

‖x0‖ ≤ ‖y‖/‖y‖∞ ≤ ‖x1‖ .

Mit m ≡ ‖x0‖ und M ≡ ‖x1‖ gilt daher

m ‖y‖∞ ≤ ‖y‖ ≤M ‖y‖∞ , ∀y ∈ Kn

Q.E.D.

Die Beziehung (4.1.2) impliziert, daß die durch eine beliebige Norm induzierte Konvergenzvon Vektoren stets aquivalent zur “komponentenweisen” Konvergenz ist.

Wir betrachten nun den Vektorraum der n × n-Matrizen A ∈ Kn×n . Offenbar kanndieser mit dem Vektorraum der n2-Vektoren identifiziert werden. Somit ubertragen sichalle Aussagen fur Vektornormen auf Normen fur Matrizen. Insbesondere sind alle Normenfur n×n-Matrizen aquivalent, und die Konvergenz von Matrizen ist die komponentenweiseKonvergenz:

A(t) → A (t→ ∞) ⇐⇒ a(t)jk → ajk (t→ ∞) , j, k = 1, . . . , n .

Definition 4.4: Eine Norm ‖ · ‖ auf Kn×n heißt “vertraglich” mit einer Vektornorm‖ · ‖ auf Kn , wenn gilt:

‖Ax‖ ≤ ‖A‖ ‖x‖ , x ∈ Kn , A ∈ K

n×n.


Sie heißt “Matrizennorm”, wenn sie submultiplikativ ist:

‖AB‖ ≤ ‖A‖ ‖B‖ , A,B ∈ Kn×n.

Z.B. ist die Quadratsummennorm (sog. “Frobenius1-Norm”)

‖A‖Fr :=( n∑

j,k=1

|ajk|2)1/2

eine mit der euklidischen Vektornorm vertragliche Matrizennorm. Fur eine beliebige Vek-tornorm ‖ · ‖ auf Kn wird durch

‖A‖ := supx∈Kn\0

‖Ax‖‖x‖ = sup

x∈Kn,‖x‖=1

‖Ax‖

eine mit ‖ · ‖ vertragliche Matrizennorm erklart (Ubungsaufgabe). Diese heißt die von‖ · ‖ erzeugte “naturliche” Matrizennorm. Fur naturliche Matrizennormen gilt

‖I‖ = supx∈Kn\0

‖Ix‖‖x‖ = 1.

Hilfssatz 4.2: Die naturlichen Matrizennormen zu ‖ · ‖∞ und ‖ · ‖1 sind die “maximaleZeilensumme” bzw. die “maximale Spaltensumme”:

‖A‖∞ := max1≤j≤n

n∑

k=1

|ajk|, ‖A‖1 := max1≤k≤n

n∑

j=1

|ajk| . (4.1.3)

Beweis: Wir geben den Beweis nur fur ‖ · ‖∞ . Fur ‖ · ‖1 verlauft er analog.(i) Die maximale Zeilensumme ‖ · ‖∞ ist eine eine Matrizennorm. Die Normeigenschaften(N1) - (N3) folgen mit Hilfe der entsprechenden Eigenschaften des Absolutbetrags, undfur ein Matrizenprodukt AB gilt

‖AB‖∞ = max1≤i≤n

∣∣∣

n∑

j=1

( n∑

k=1

aikbkj

)∣∣∣ ≤ max

1≤i≤n

n∑

k=1

(

|aik|n∑

j=1

|bkj|)

≤ max1≤i≤n

n∑

k=1

|aik| max1≤k≤n

n∑

j=1

|bkj | = ‖A‖∞‖B‖∞.

(ii) Weiter ist die maximale Zeilensumme wegen

‖Ax‖∞ = max1≤j≤n

|n∑

k=1

ajkxk| ≤ max1≤j≤n

n∑

k=1

|ajk| max1≤k≤n

|xk| = ‖A‖∞‖x‖∞

1Ferdinand Georg Frobenius (1849-1917): deutscher Mathematiker; Prof. in Zurich und Berlin;bed. Beitrage zur Theorie der Differentialgleichungen, zu Determinanten und Matrizen sowie zurGruppentheorie.


vertraglich mit ‖ · ‖∞ , und es gilt

sup‖x‖∞=1

‖Ax‖∞ ≤ ‖A‖∞.

(iii) Im Falle ‖A‖∞ = 0 ist A = 0 , d.h. trivialerweise

‖A‖∞ = sup‖x‖∞=1

‖Ax‖∞.

Sei also ‖A‖∞ > 0 und m ∈ 1, . . . , n ein Index mit der Eigenschaft

‖A‖∞ = max1≤j≤n

n∑

k=1

|ajk| =

n∑

k=1

|amk|.

Wir setzen fur k = 1, . . . , n:

zk :=

|amk|/amk fur amk 6= 0,

0, sonst,

d.h.: z = (zk)nk=1 ∈ K

n, ‖z‖∞ = 1 . Fur v := Az gilt dann

vm =

n∑

k=1

amkzk =

n∑

k=1

|amk| = ‖A‖∞.

Folglich ist‖A‖∞ = vm ≤ ‖v‖∞ = ‖Az‖∞ ≤ sup

‖y‖∞=1

‖Ay‖∞,

was zu zeigen war. Q.E.D.

4.1.2 Eigenwerte und Skalarprodukte

Die “Eigenwerte” λ ∈ K einer Matrix A ∈ Kn×n sind definiert als die Nullstellen ihrescharakteristischen Polynoms p(λ) = det(A−λI) . Folglich existieren genau n (ihrer Viel-fachheit als Nullstelle entsprechend oft gezahlte) Eigenwerte λ , und zu jedem λ existiertmindestens ein “Eigenvektor” w ∈ K

n \ 0 : Aw = λw . Sei nun ‖ · ‖ eine beliebigeVektornorm und ‖ · ‖ eine damit vertragliche Matrizennorm, (wobei die beiden Normender Einfachheit halber gleich bezeichnet werden). Mit einem normierten Eigenvektor zumEigenwert λ gilt

|λ| = |λ| ‖w‖ = ‖Aw‖ ≤ ‖A‖ ‖w‖ = ‖A‖, (4.1.4)

d.h. alle Eigenwerte von A liegen in einer Kreisscheibe in C mit Mittelpunkt Null undRadius ‖A‖ . Speziell mit ‖A‖∞ erhalt man die Abschatzung


max |λ| ≤ ‖A‖∞ = max1≤j≤n

n∑

k=1

|ajk|.

Eine Matrix A ∈ Kn×n heißt “hermitesch”, wenn gilt:

A = AT bzw. ajk = akj, j, k = 1, . . . , n .

Reelle hermitesche Matrizen werden “symmetrisch” genannt. Hermitesche Matrizen habennur reelle Eigenwerte und besitzen dazu eine Orthonormalbasis von Eigenvektoren. DerBegriff der Symmetrie ist eng verknupft mit dem des Skalarprodukts.

Definition 4.5: Eine Abbildung (·, ·) : Kn×K

n → K wird ein “Skalarprodukt” genannt,wenn sie folgende Eigenschaften hat:

(S1) (x, y) = (y, x) , x, y ∈ Kn (Symmetrie),

(S2) (αx+ βy, z) = α(x, z) + β(y, z) , x, y, z ∈ Kn, α, β ∈ K (Linearitat),

(S3) (x, x) > 0 , x ∈ Kn \ 0 (Definitheit).

Ein Skalarprodukt auf Kn × K

n erzeugt eine zugehorige Vektornorm durch

‖x‖ := (x, x)1/2, x ∈ Kn.

Im folgenden wird fast ausschließlich das sog. “euklidische” Skalarprodukt verwendet:

(x, y)2 =

n∑

j=1

xjyj , (x, x)2 = ‖x‖22.

Mit Hilfe des euklidischen Skalarprodukts laßt sich die Eigenschaft einer Matrix, hermi-tesch zu sein, aquivalent ausdrucken durch:

A = AT ⇐⇒ (Ax, y)2 = (x,Ay)2, x, y ∈ Kn.

Die von der euklidischen Vektornorm erzeugte naturliche Matrizennorm heißt die “Spek-tralnorm” und wird mit ‖ · ‖2 bezeichnet. Diese Bezeichnung ist durch das folgendeResultat gerechtfertigt:

Hilfssatz 4.3: Fur die Spektralnorm hermitescher Matrizen A ∈ Kn×n gilt

‖A‖2 = max|λ|, λ Eigenwert von A . (4.1.5)

Fur allgemeine Matrizen A ∈ Kn×n gilt

‖A‖2 = max|λ|1/2, λ Eigenwert von ATA. (4.1.6)


Beweis: Bekanntlich besitzt eine hermitesche Matrix A ∈ Kn×n nur reelle Eigenwerteund zwar genau n Stuck (ihrer Vielfachheit entsprechend oft gezahlt), λ1, . . . , λn ∈ R .Ferner existiert ein zugehoriges “Orthonormalsystem” von Eigenvektoren

w1, . . . , wn ⊂ Kn : Awi = λiw

i , (wi, wj)2 = δij, i, j = 1, . . . , n.

Jedes x ∈ Kn besitzt eine Darstellung der Form

x =

n∑

i=1

αiwi , αi = (x, wi)2,

und es gilt

‖x‖22 = (x, x)2 =

n∑

i,j=1

αiαj (wi, wj)2 =

n∑

i=1

|αi|2,

‖Ax‖22 = (Ax,Ax)2 =

n∑

i,j=1

λiαiλjαj (wi, wj)2 =n∑

i=1

λ2i |αi|2.

Hiermit folgt

‖A‖22 = sup

x∈Kn\0

‖Ax‖22

‖x‖22

= supx∈Kn\0

∑ni=1 λ

2i |αi|2

∑ni=1 |αi|2

≤ max1≤i≤n

|λi|2.

Wegen der Eigenwertschranke (4.1.4) ergibt sich damit die Behauptung. Q.E.D.

Eine Matrix A ∈ Kn×n heißt “positiv definit”, wenn gilt:

(Ax, x)2 ∈ R , (Ax, x)2 > 0 ∀x ∈ Kn \ 0.

Lemma 4.1: Eine symmetrische Matrix A ∈ Rn×n ist genau dann positiv definit, wennalle ihre (reellen) Eigenwerte positiv sind. Alle ihre Hauptdiagonalelemente sind positiv,und ihr betragsmaßig großtes Element liegt auf der Hauptdiagonalen.

Beweis: Seien λ1, . . ., λn ∈ R die (ihrer Vielfachheiten entsprechend oft gezahlten) Eigen-werte der symmetrischen matrix A und w1, . . ., wn eine zugehorige Orthonormalbasisvon Eigenvektoren.

(i) Sei λ ∈ R Eigenwert und v ∈ Rn, ‖v||2 = 1, ein zugehoriger Eigenvektor von A ,

Av = λv.

Aus der positiven Definitheit von A folgt λ = λ‖v‖22 = (Av, v)2 > 0 . Sind umgekehrt

alle Eigenwerte von A positiv, so folgt fur beliebigen Vektor v =∑n

i=1 αiwi 6= 0 :

(Av, v)2 =

n∑

i,j=1

λiαiαj(wi, wj)2 =

n∑

i=1

λiα2i > 0.


(ii) Mit dem k-ten kartesischen Einheitsvektor ek liefert die positive Definitheit von A :

akk =

n∑

i,j=1

aijδikδjk = (Aek, ek)2 > 0.

(iii) Sei aij 6= 0 ein betragsmaßig großtes Element von A , und sei i 6= j . Wir wahlenx = ei − sign(aij)e

j 6= 0 und erhalten wieder aus der positiven Definitheit von A denfolgenden Widerspruch:

0 < (Ax, x)2 = (Aei, ei)2 − 2 sign(aij)(Aei, ej)2 + sign(aij)

2(Aej, ej)2

= aii − 2 sign(aij)aij + ajj = aii − 2|aij | + ajj ≤ 0.


Im folgenden werden wir in Verbindung mit der Eigenschaft “positiv definit” stets auchdie Eigenschaft “hermitesch” (bzw. “symmetrisch” im Reellen) einer Matrix annehmen.Dies ist im Komplexen automatisch gegeben, im Rellen aber eine zusatzliche Bedingung.Wir werden spater sehen, daß lineare Gleichungssysteme mit positiv definiten Koeffizien-tenmatrizen besonders gunstige Losbarkeitseigenschaften besitzen.

4.1.3 Fehleranalyse

Wir kommen nun zur Fehleranalyse fur lineare Gleichungssysteme

Ax = b (4.1.7)

mit regularer Koeffizientenmatrix A ∈ Kn×n . Die Matrix A und der Vektor b seien mitFehlern δA bzw. δb behaftet, so daß ein gestortes System

Ax = b (4.1.8)

mit A = A + δA , b = b + δb und x = x + δx gelost wird. Wir wollen den Fehler δxin Abhangigkeit von δA und δb abschatzen. Dazu sei im folgenden ‖ · ‖ eine beliebigeVektornorm und entsprechend ‖ · ‖ die zugehorige naturliche Matrizennorm.

Hilfssatz 4.4: Die Matrix B ∈ Kn×n habe die Norm ‖B‖ < 1 . Dann ist die MatrixI +B regular, und es gilt

‖(I +B)−1‖ ≤ 1

1 − ‖B‖ . (4.1.9)

Beweis: Fur alle x ∈ Kn gilt

‖(I +B)x‖ ≥ ‖x‖ − ‖Bx‖ ≥ (1 − ‖B‖)‖x‖.


Wegen 1 − ‖B‖ > 0 ist also I +B injektiv und folglich regular. Mit der Abschatzung

1 = ‖I‖ = ‖(I +B)(I +B)−1‖ = ‖(I +B)−1 +B(I +B)−1‖≥ ‖(I +B)−1‖ − ‖B‖ ‖(I +B)−1‖ = ‖(I +B)−1‖ (1 − ‖B‖) > 0

erhalt man die behauptete Ungleichung. Q.E.D.

Nach diesen Vorbereitungen konnen wir den folgenden allgemeinen Storungssatz furlineare Gleichungssysteme beweisen:

Satz 4.1 (Storungssatz): Die Matrix A ∈ Kn×n sei regular, und es sei

‖δA‖ < 1

‖A−1‖ . (4.1.10)

Dann ist die gestorte Matrix A = A + δA ebenfalls regular, und fur den relativen Fehlerder Losung gilt:

‖δx‖‖x‖ ≤ cond(A)

1 − cond(A)‖δA‖/‖A‖

‖δb‖‖b‖ +

‖δA‖‖A‖

, (4.1.11)

mit der sog. Konditionszahl cond(A) := ‖A‖ ‖A−1‖ von A .

Beweis: Aufgrund der Voraussetzung ist

‖A−1δA‖ ≤ ‖A−1‖ ‖δA‖ < 1,

so daß auch A+ δA = A[I + A−1δA] nach Hilfssatz 4.4 regular ist. Aus

(A + δA)x = b+ δb , (A+ δA)x = b+ δAx

folgt dann fur δx = x− x(A+ δA)δx = δb− δAx,

und damit unter Verwendung von Hilfssatz 4.4

‖δx‖ ≤ ‖(A+ δA)−1‖‖δb‖ + ‖δA‖ ‖x‖

= ‖(A(I + A−1δA)

)−1‖‖δb‖ + ‖δA‖ ‖x‖

= ‖(I + A−1δA)−1A−1‖‖δb‖ + ‖δA‖ ‖x‖

≤ ‖(I + A−1δA)−1‖ ‖A−1‖‖δb‖ + ‖δA‖ ‖x‖

≤ ‖A−1‖1 − ‖A−1δA‖

‖δb‖ + ‖δA‖ ‖x‖

≤ ‖A−1‖ ‖A‖ ‖x‖1 − ‖A−1‖ ‖δA‖ ‖A‖ ‖A‖−1

‖δb‖‖A‖ ‖x‖ +

‖δA‖‖A‖

.


Wegen ‖b‖ = ‖Ax‖ ≤ ‖A‖ ‖x‖ folgt schließlich

‖δx‖ ≤ cond(A)

1 − cond(A)‖δA‖‖A‖−1

‖δb‖‖b‖ +

‖δA‖‖A‖

‖x‖,


Die Konditionszahl cond(A) hangt offenbar von der bei ihrer Definition zugrunde-gelegten Vektornorm ab. Meistens verwendet man die Maximumnorm ‖ · ‖∞ oder dieeuklidische Norm ‖ · ‖2 . Im ersten Fall ist

cond∞(A) := ‖A‖∞‖A−1‖∞

mit der maximalen Zeilensumme ‖ · ‖∞ . Speziell fur “hermitesche” Matrizen gilt nachHilfssatz 4.3

cond2(A) := ‖A‖2‖A−1‖2 =|λmax||λmin|

mit den betragsmaßig großten bzw. kleinsten Eigenwerten λmax und λmin von A ; dieGroße cond2(A) wird auch die “Spektralkonditionszahl” von A genannt.

Ist cond(A)‖δA‖ ‖A‖−1 ≪ 1 , so wird in Satz 4.1

‖δx‖‖x‖ ≤ cond(A)

‖δb‖‖b‖ +

‖δA‖‖A‖

,

d.h.: cond(A) ist gerade der Verstarkungsfaktor, mit dem sich die relativen Fehler in Aund b auf den in x auswirken. Diese Fehlerabschatzung erlaubt folgenden Schluß:

Regel 4.1.1: Die Kondition von A sei cond(A) ∼ 10s . Sind dann die Elemente von Aund b mit einem relativen Fehler der Art

‖δA‖‖A‖ ∼ 10−k ,

‖δb‖‖b‖ ∼ 10−k (k > s)

behaftet, so muß mit einem relativen Fehler im Ergebnis der Großenordnung

‖δx‖‖x‖ ∼ 10s−k

gerechnet werden, d.h.: Im Fall ‖ · ‖ = ‖ · ‖∞ verliert man s Stellen Genauigkeit.

Beispiel 4.2: Wir betrachten die folgende Koeffizientenmatrix A :

A =

[

1.2969 0.8648

0.2161 0.1441

]

, A−1 = 108

[

0.1441 −0.8648

−0.2161 1.2969

]

‖A‖∞ = 2.1617 , ‖A−1‖∞ = 1.513 · 108 ⇒ cond(A) ≈ 3.3 · 108.


Bei der Losung des Gleichungssystems Ax = b gehen also im ungunstigsten Fall 8wesentliche Stellen an der Genauigkeit, mit der die Elemente ajk und bj gegeben sind,verloren. Dieses System ist extrem “schlecht konditioniert”.

Wir demonstrieren anhand der Spektralkondition, daß die Abschatzung in Satz 4.1im wesentlichen scharf ist. Sei A eine positiv definite n × n-Matrix mit kleinstem undgroßtem Eigenwert λ1 bzw. λn sowie zugehorigen normierten Eigenvektoren w1 bzw.wn . Wir wahlen

δA ≡ 0, b ≡ wn, δb ≡ εw1 (ε 6= 0).

Dann haben die Gleichungen Ax = b und Ax = b+ δb die Losungen

x =1

λn

wn , x =1

λn

wn + ε1

λ1

w1 .

Folglich ist fur δx = x− x

‖δx‖2

‖x‖2

= ελn

λ1

‖w1‖2

‖wn‖2

= cond2(A)‖δb‖2

‖b‖2

.


4.2 Eliminationsverfahren

Im folgenden diskutieren wir “direkte” Losungsmethoden fur (reelle) quadratische lineareGleichungssysteme

Ax = b . (4.2.12)

Besonders leicht losbar sind gestaffelte Systeme, z.B. solche mit einer oberen Dreiecksma-trix A = (ajk) als Koeffizientenmatrix

a11x1 + a12x2 + . . . + a1nxn = b1

a22x2 + . . . + a2nxn = b2...

annxn = bn

.

Im Falle ajj 6= 0, j = 1, . . . , n , erhalt man die Losung durch sog. “Ruckwartseinsetzen”:

xn =bnann

, j = n− 1, . . . , 1 : xj =1

ajj(bj −

n∑

k=j+1

ajk xk) .

Dazu sind offensichtlich n2/2 +O(n) arithmetische Operationen erforderlich (1 a.Op. :=1 Multiplikation (+ 1 Addition) oder 1 Division).

Das klassische direkte Verfahren zur Losung (regularer) Gleichungssysteme ist dasGaußsche2 Eliminationsverfahren Dabei wird das gegebene System Ax = b schrittweisein ein oberes Dreieckssystem Rx = c umgeformt, welches dieselbe Losung x besitztund dann durch Ruckwartseinsetzen gelost wird. Dazu stehen die folgenden elementarenUmformungen zur Verfugung:

– Vertauschung zweier Gleichungen,

– Addition des Vielfachen einer Gleichung zu einer anderen.

(Die Vertauschung zweier Spalten von A ist ebenfalls zulassig, wenn die Unbekannten xi

entsprechend umnumeriert werden.)

In der praktischen Durchfuhrung des Gaußschen Eliminationsverfahrens wendet mandie elementaren Umformungen auf die zusammengesetzte Matrix [A, b] an. Im folgendenwird A als regular angenommen. Zunachst setzt man A(0) ≡ A, b(0) ≡ b und bestimmta

(0)r1 6= 0, r ∈ 1, . . . , n . (Solch ein Element existiert, da A sonst singular ware). Vertau-

sche die 1-te und die r-te Zeile. Das Resultat sei [A(0), b(0)] . Dann wird fur j = 2, . . . , n

2Carl Friedrich Gauß (1777-1855): bedeutender deutscher Mathematiker, Astronom und Physiker;wirkte in Gottingen; fundamentale Beitrage zur Arithmetik, Algebra und Geometrie, Begrunder dermodernen Zahlentheorie, Bestimmung von Planetenbahnen durch “Gauß-Ausgleich”, Arbeiten zum Erd-magnetismus und Konstruktion eines elektromagnetischen Telegraphen.

4.2 Eliminationsverfahren 113

das qj1-fache der 1-ten Zeile von der j-ten Zeile abgezogen:

qj1 ≡ a(0)j1 /a

(0)11 (= a

(0)r1 /a

(0)rr ), a

(1)ji := a

(0)ji − qj1a

(0)1i , b

(1)j := b

(0)j − qj1b

(0)1 .

Das Resultat ist

[A(1), b(1)] =

a(0)11 a

(0)12 . . . a

(0)1n b

(0)1

0 a(1)22 . . . a

(1)2n b

(1)2

......

0 a(1)n2 . . . a

(1)nn b

(1)n

.

Den Ubergang [A(0), b(0)] → [A(0), b(0)] → [A(1), b(1)] kann man mit Hilfe von Matrizen-multiplikation beschreiben

[A(0), b(0)] = P1[A(0), b(0)] , [A(1), b(1)] = G1[A

(0), b(0)] ,

wobei P1 eine “Permutationsmatrix” und G1 eine sog. “Frobenius-Matrix” der folgendenGestalt sind:

P1 =

1 r

0 · · · 1

1...

. . ....

1

1 · · · 0

1. . .

1

1

r G1 =

1

1

−q21 1...

. . .

−qn1 1

1

Beide Matrizen P1 und G1 sind regular (Determinante = ±1), und es gilt

P−11 = P1 , G−1

1 =

1

q21 1...

. . .

qn1 1

.

Die Gleichungssysteme Ax = b und A(1)x = b(1) haben offenbar dieselbe Losung:

Ax = b ⇐⇒ A(1)x = G1P1Ax = G1P1b = b(1) .


Definition 4.6: Das Element ar1 = a(0)11 heißt “Pivotelement” und der ganze Teilschritte

seiner Bestimmung “Pivotsuche”. Aus Grunden der numerischen Stabilitat trifft mangewohnlich die Wahl

|ar1| = max1≤j≤n

|aj1| . (4.2.13)

Der ganze Prozeß inkl. Zeilenvertauschung wird dann “Spaltenpivotierung” genannt. Sinddie Elemente der Matrix A von sehr unterschiedlicher Großenordnung, so empfiehlt essich, sog. “Totalpivotierung” vorzunehmen. Diese besteht aus der Wahl

|ars| = max1≤j,k≤n

|ajk| (4.2.14)

und anschließender Vertauschung der 1-ten mit der r-ten Zeile und der 1-ten mit ders-ten Spalte. Entsprechend der Spaltenvertauschung mussen dann die Unbekannten xk

umnumeriert werden. Bei großen Gleichungssystemen ist die totale Pivotierung meist zuaufwendig, so daß man sich mit der Spaltenpivotierung begnugt.

Die im 1. Schritt erzeugte Matrix A(1) ist wieder regular. Dasselbe gilt auch fur dieum die erste Zeile und Spalte reduzierte Teilmatrix, so daß auf sie der Eliminationsprozeßanalog zu Schritt 1 angewendet werden kann. Durch Weiterfuhrung dieses Eliminations-prozesses erhalt man in n− 1 Schritten eine Kette von Matrizen

[A, b] → [A(1), b(1)] → . . .→ [A(n−1), b(n−1)] =: [R, c] ,

wobei[A(i), b(i)] = GiPi[A

(i−1), b(i−1)] , [A(0), b(0)] := [A, b] ,

mit Permutationsmatrizen Pi und (regularen) Frobenius-Matrizen Gi der Form

Pi =

i r

1. . .

1

0 · · · 1

1...

. . ....

1

1 · · · 0

1. . .

1

i

r

Gi =

i

1. . .

1

−qi+1,i 1...

. . .

−qni 1

i


Das Endresultat

[R, c] = Gn−1Pn−1 . . . G1P1[A, b] (4.2.15)

entspricht einem oberen Dreieckssystem Rx = c , welches dieselbe Losung wie das Aus-gangssystem Ax = b besitzt.

Im i-ten Eliminationsschritt [A(i−1), b(i−1)] → [A(i), b(i)] werden in der i-ten Spalte dieElemente unterhalb der Diagonalen annuliert. Den frei werdenden Platz benutzt man zurAbspeicherung der wesentlichen Elemente qi+1,i, . . . , qn,i der Frobenius-Matrizen G−1

i (i =1, . . . , n − 1) . Da im i-ten Eliminationsschritt die vorausgehenden Zeilen 1 bis i nichtverandert werden, arbeitet man also mit Matrizen der Form

r11 r12 · · · r1i r1,i+1 · · · r1n c1

λ21 r22 · · · r2i r2,i+1 · · · r2n c2

λ31 λ32 r3i r3,i+1 · · · r3n c3

......

. . ....

......

...

λi1 λi2 rii ri,i+1 · · · rin ci

λi+1,1 λi+2,2 λi+1,i a(i)i+1,i+1 · · · a

(i)i+1,n b

(i)i+1

......

......

......

λn,1 λn,2 · · · λn,i a(i)n,i+1 · · · a

(i)n,n b

(i)n

Dabei sind die Subdiagonalelemente λk+1,k, . . . , λnk der k-ten Spalte Permutationen derElemente qk+1,k, . . . , qnk von G−1

k , da die Zeilenvertauschungen (nur diese!) an der ge-samten Matrix vorgenommen werden. Als Endresultat erhalt man eine Matrix

r11 · · · r1n c1

l21 r22 r2n c2

.... . .

. . ....

...

ln1 · · · ln,n−1 rnn cn

.

Satz 4.2 (LR-Zerlegung): Die Matrizen

L =

1 0

l21 1...

. . .. . .

ln1 · · · ln,n−1 1

, R =

r11 r12 · · · r1n

r22 · · · r2n

. . ....

0 rnn

bilden eine sog. “LR-Zerlegung” der Matrix PA :

PA = LR , P = Pn−1 · · ·P1 . (4.2.16)

Diese Zerlegung ist im Falle P = I eindeutig bestimmt.


Beweis: Wir fuhren den Beweis fur den Fall, daß keine Pivotierung erforderlich ist, d.h.:Pi = I . Dann ist R = Gn−1 · · ·G1A bzw.

G−11 · · ·G−1

n−1R = A .

Wegen L = G−11 · · ·G−1

n−1 folgt die Behauptung. Zum Nachweis der Eindeutigkeit, seiennun A = L1R1 = L2R2 zwei LR-Zerlegungen. Dann ist

L−12 L1 = R2R

−11 = I ,

da L−12 L1 untere Dreiecksmatrix mit Einsen auf der Hauptdiagonalen und R2R

−11 obere

Dreiecksmatrix ist. Folglich ist L1 = L2 und R1 = R2 . Q.E.D.

Lemma 4.2: Die zur Losung eines n × n Gleichungssystems Ax = b mit Hilfe desGaußschen Eliminationsverfahrens erforderliche Anzahl von arithmetischen Operationen(“a. Op.”) ist

NGauß(n) =n3

3+O(n2).

Dasselbe gilt fur die Bestimmung der Dreieckszerlegung PA = LR .

Beweis: Der k-te Eliminationsschritt

a(k)ij = a

(k−1)ij − a

(k−1)ik

a(k−1)kk

a(k−1)kj , b

(k)i = b

(k−1)i − a

(k−1)ik

a(k−1)kk

b(k−1)k , i, j = k, . . ., n,

erfordert n − k Divisionen sowie (n − k) + (n − k)2 Multiplikationen und Additionen;also zusammen

n−1∑

k=1

k2 +O(n2) =1

3n3 +O(n2) a. Op.

fur die n − 1 Schritte der Vorwartselimination. Damit werden alle Elemente der Zerle-gungsmatrizen L und R bestimmt. Q.E.D.

Beispiel 4.3: Mit · wird das Pivotelement markiert.

3 1 6

2 1 3

1 1 1

x1

x2

x3

=

2

7

4

→

Pivotierung

3 1 6 2

2 1 3 7

1 1 1 4

Elimination

3 1 6 2

2/3 1/3 −1 17/3

1/3 2/3 −1 10/3

→

Pivotierung

3 1 6 2

1/3 2/3 −1 10/3

2/3 1/3 −1 17/3


Elimination

3 1 6 2

1/3 2/3 −1 10/3

2/3 1/2 −1/2 4

→x3 = −8

x2 = 32(10

3 − x3) = −7

x1 = 13(2 − x2 − 6x3) = 19 .

LR-Zerlegung:

P1 = I , P2 =

1 0 0

0 0 1

0 1 0

,

PA =

3 1 6

1 1 1

2 1 3

= LR =

1 0 0

1/3 1 0

2/3 1/2 1

3 1 6

0 2/3 −1

0 0 −1/2

.

Beispiel 4.4: Zur Demonstration der Bedeutung der Pivotierung beim Gaußschen Eli-minationsverfahren betrachten wir das folgende Gleichungssystem

[

10−4 1

1 1

] [

x1

x2

]

=

[

1

2

]

(4.2.17)

mit der exakten Losung x1 = 1.00010001, x2 = 0.99989999 . Bei 3-stelliger Gleitpunkt-rechnung mit korrekter Rundung erhalt man:

a) ohne Pivotierung:

x1 x2

0.1 · 10−3 0.1 · 101 0.1 · 101

0 −0.1 · 105 −0.1 · 105

x2 = 1 , x1 = 0

b) mit Pivotierung:

x1 x2

0.1 · 101 0.1 · 101 0.2 · 101

0 0.1 · 101 0.1 · 101

x2 = 1 , x1 = 1

Beispiel 4.5: Der positive Effekt der Spaltenpivotierung ist allerdings nur dann gesi-chert, wenn die (betragsmaßigen) Zeilensummen der Matrix in etwa gleich groß sind. AlsBeispiel betrachte man das Gleichungssystem

[

2 20000

1 1

] [

x1

x2

]

=

[

20000

2

]

,

welches aus (4.2.17) durch Multiplikation der ersten Zeile mit dem Faktor 20000 hervor-geht. Da nun in der ersten Spalte das betragsgroßte Element in der Diagonalen steht,liefert der Gauß-Algorithmus mit und ohne Spaltenpivotierung dasselbe inakzeptable Re-sultat (x1, x2)

T = (0, 1)T . Man fuhrt daher vor der Rechnung eine sog. “Aquilibrierung”


durch, das heißt, man multipliziert mit einer Diagonalmatrix D

Ax = b → DAx = Db , di =( n∑

j=1

|aij|)−1

,

die alle Zeilensummen der Matrix auf 1 transformiert. Eine verbesserte Stabilisierung imFall stark unterschiedlicher Großenordnung der Matrixeintrage ist die “totale” Pivotie-rung. Vor der Durchfuhrung wird hier eine Aquilibrierung (zeilenweise und spaltenweise)vorgenommen.

4.2.1 Konditionierung der Gauß-Elimination

Wir diskutieren nun noch die Konditionierung des Losens eines linearen Gleichungssy-stems Ax = b mit Hilfe des Gaußschen Eliminationsverfahrens. Die (regulare) Matrix Abesitze mit Spaltenpivotierung eine LR-Zerlegung der Form PA = LR . Dann gilt

R = L−1PA, R−1 = (PA)−1L.

Wegen der Spaltenpivotierung sind die Elemente der Dreiecksmatrix L alle kleiner gleicheins, und es gilt somit

cond∞(L) = ‖L‖∞‖L−1‖∞ ≤ n.

Folglich ist

cond∞(R) = ‖R‖∞‖R−1‖∞ = ‖L−1PA‖∞‖(PA)−1L‖∞≤ ‖L−1‖∞‖PA‖∞‖(PA)−1‖∞‖L‖∞ ≤ n2 cond∞(PA).

Nach dem allgemeinen Storungssatz gilt dann fur die Losung des Systeme LRx = Pb :

‖δx‖∞‖x‖∞

≤ cond∞(L)cond∞(R)‖δPb‖∞‖Pb‖∞

≤ n2 cond∞(PA)‖δPb‖∞‖Pb‖∞

.

Die Konditionierung des Ausgangssystems wird also durch die LR-Zerlegung im schlimm-sten Fall nur mit n2 verschlechtert.

Wir geben zum Abschluß noch ein Resultat von Wilkinson an, das die Fortpflanzungdes Rundungsfehlers im Verlaufe der Gaußschen Elimination beschreibt.

Satz 4.3 (Rundungsfehlereinfluß): Die Matrix A ∈ Rn×n sei regular, und das Glei-chungssystem Ax = b werde mit Gaußscher Elimination mit Spaltenpivotierung gelost.Dann ist die unter dem Einfluß von Rundungsfehlern tatsachlich berechnete Losung x+δxexakte Losung eines gestorten Systems (A + δA)(x+ δx) = b , wobei (eps = Maschinen-genauigkeit)

‖δA‖∞‖A‖∞

≤ 1.01 · 2n−1(n3 + 2n2) eps. (4.2.18)


In Verbindung mit der Fehlerabschatzung von Satz 4.1 ergibt das Wilkinsonsche Re-sultat die folgende Abschatzung fur den Rundungsfehlereinfluß:

‖δx‖∞‖x‖∞

≤ cond(A)

1 − cond(A)‖δA‖∞/‖A‖∞1.01 · 2n−1(n3 + 2n2) eps . (4.2.19)

Diese Abschatzung ist, wie die Praxis zeigt, viel zu pessimistisch, da sie am ungunstigstenFall ausgerichtet ist und keine Rundungsfehlerausloschungen berucksichtigt. Zur Erfas-sung der letzteren ware eine statistische Theorie erforderlich. Außerdem gilt die obigeAbschatzung allgemein fur “vollbesetzte” Matrizen. Fur “dunnbesetzte” Matrizen sindwesentlich gunstigere Resultate zu erwarten. Insgesamt sieht man, daß der Gaußsche Eli-minationsprozeß (in Abhangigkeit von der Dimension n ) ein gutartiger numerischer Algo-rithmus ist, d.h.: Der Rundungsfehlereinfluß kann abgeschatzt werden allein in Abhangig-keit von der Kondition cond(A) , die ja auch die Konditionierung der numerischen Aufgabeselber beschreibt.

4.2.2 Nachiteration

Wir diskutieren nun noch einige Varianten und weitere Anwendungsmoglichkeiten desGaußschen Eliminationsverfahrens. Das Gaußsche Eliminationsverfahren uberfuhrt einGleichungssystem Ax = b in ein oberes Dreieckssystem Rx = c , aus dem sich dieLosung x durch einfaches Ruckwartsauflosen berechnen laßt. Nach Satz 4.2 ist dieserProzeß gleichbedeutend mit der Erstellung einer Dreieckszerlegung PA = LR und deranschließenden Losung der beiden gestaffelten Systeme

Ly = Pb , Rx = y . (4.2.20)

Diese Variante des Gaußschen Algorithmus ist insbesondere dann vorzuziehen, wenn das-selbe Gleichungssystem nacheinander fur verschiedene rechte Seiten b gelost werden soll.Aufgrund des unvermeidlichen Rundungsfehlers erhalt man in der Praxis nur eine fehler-hafte LR-Zerlegung

LR 6= PA

und damit nur eine Naherungslosung x0 mit dem (exakten) “Defekt”

d0 := b− Ax0 6= 0 .

Unter Verwendung der bereits erstellten Dreieckszerlegung LR ∼ PA lost man nun(naherungsweise) die sog. “Defektgleichung”

Ak = d0, LRk1 = d0, (4.2.21)

und erhalt daraus eine Korrektur k1 fur x0 :

x1 := x0 + k1 . (4.2.22)


Hatte man die Defektgleichung exakt gelost, d.h. k1 ≡ k , so ware

Ax1 = Ax0 + Ak = Ax0 − b+ b+ d0 = b ,

d.h.: x1 = x ware die exakte Losung des Systems Ax = b . I. Allg. wird x1 auch beifehlerhafter Losung der Defektgleichung eine bessere Naherung zu x als x0 sein. Dazuist es jedoch erforderlich, den Defekt d mit erhohter Genauigkeit zu berechnen. Dies wirddurch die folgende Fehleranalyse belegt (der Einfachheit halber sei P = I ):

Wir nehmen an, daß sich der relative Fehler bei der LR-Zerlegung der Matrix A durcheine kleine Zahl ε beschranken laßt. Nach dem allgemeinen Storungssatz 4.1 gilt danndie Abschatzung

‖x0 − x‖‖x‖ ≤ cond(A)

1 − cond(A)‖A−LR‖‖A‖

‖A− LR‖‖A‖

︸︷︷︸

∼ ε

.

Der Verlust von Stellen entspricht der Große von cond(A) . Zusatzlich auftretende Run-dungsfehler werden vernachlassigt. Den exakten Defekt d0 ersetzen wir durch den Aus-druck d0 := b− Ax0 , wobei A eine genauere Approximation fur A ist,

‖A− A‖‖A‖ ≤ ε≪ ε .

Nach Konstruktion gilt

x1 = x0 + k1 = x0 + (LR)−1[b− Ax0]

= x0 + (LR)−1[Ax− Ax0 + (A− A) x0],

und daher

x1 − x = x0 − x− (LR)−1A(x0 − x) + (LR)−1(A− A) x0

= (LR)−1[LR− A](x0 − x) + (LR)−1(A− A) x0.

WegenLR = A−A+ LR = A

(I − A−1(A− LR)

)

folgt mit Hilfssatz 4.4:

‖(LR)−1‖ ≤ ‖A−1‖ ‖ [I −A−1(A− LR)]−1‖

≤ ‖A−1‖1 − ‖A−1(A− LR)‖

≤ ‖A−1‖1 − ‖A−1‖ ‖A− LR‖

=‖A−1‖

1 − cond(A) ‖A−LR‖‖A‖

.

Dies impliziert schließlich

‖x1 − x‖‖x‖ ∼ cond(A)

[ ‖A− LR‖‖A‖

︸︷︷︸

∼ ε

‖x0 − x‖‖x‖

︸︷︷︸

∼ cond(A)ε

+‖A− A‖‖A‖

︸︷︷︸

∼ ε

‖x0‖‖x‖

]

.


Diese Korrektur der Losung kann naturlich iteriert werden, in dem die jeweils neuenNaherungen xi wieder in die Defektgleichung eingesetzt werden. Diesen Prozeß nennt man“Nachiteration”; in der Praxis wird der Fehler in x schon durch wenige Korrekturschritte(meist 2 − 3) auf die Großenordnung der Genauigkeit der Defektauswertung gedruckt,d.h.: ‖x3 − x‖/‖x‖ ∼ ε .

Beispiel 4.6: Das Gleichungssystem

[

1.05 1, 02

1.04 1, 02

] [

x1

x2

]

=

[

1

2

]

hat die exakte Losung x = (−100, 103.921 . . .)T . Das Gaußsche Eliminationsverfah-ren ergibt bei Verwendung 3-stelliger Gleitpunktarithmetik (mit korrekter Rundung) diegenaherten Zerlegungsmatrizen

L =

[

1 0

0.990 1

]

, R =

[

1.05 1.02

0 0.01

]

,

LR− A =

[

0 0

5 · 10−4 2 · 10−4

]

(im Rahmen der Maschinengenauigkeit korrekt) .

Die damit bestimmte “Losung” x0 = (−97, 1.101)T hat den Defekt

d0 = b− Ax0 =

(0, 0)T 3-stellige Rechnung

(0, 065, 0, 035)T 6-stellige Rechnung .

Die approximative Korrekturgleichung

[

1 0

0.990 1

][

1.05 1.02

0 0.01

][

k11

k12

]

=

[

0.065

0.035

]

hat (3-stellige Rechnung) die Losung k1 = (, )T . Die durch Nachkorrektur verbesserteLosung ist also

x1 = x0 + k1 = (−99.9, 104)T ,

welche deutlich genauer als die erste Naherung x0 ist.

4.2.3 Determinantenberechnung

Fur quadratische Matrizen gilt der Determinantensatz

det(AB) = det(A) det(B) . (4.2.23)


Fur die durch Gaußsche Elimination aus der gegebenen Matrix A gewonnene Dreiecks-matrix

R = Gn−1Pn−1 · · ·G1P1A

folgt somit unter Beachtung von

det(P−1i ) = det(Pi) = −1 , det(G−1

i ) = 1 ,

die Beziehung

det(A) = det(P−11 G−1

1 · · ·P−1n−1G

−1n−1R) = ± det(R) = ±

n∏

j=1

rjj . (4.2.24)

Das Vorzeichen in det(A) ist +/− , je nachdem, ob eine gerade oder ungerade Anzahlvon Zeilenvertauschungen vorgenommen wurde. Laßt sich im Verlaufe des Eliminations-prozesses einmal in einer Spalte kein von Null verschiedenes Pivotelement finden, so istdie Matrix A singular und folglich det(A) = 0 . (Man beachte, daß bei Rechnung inGleitpunktarithmetik aufgrund des Rundungsfehlers durchaus auch im Falle det(A) = 0der tatsachlich berechnete Wert 6= 0 sein kann!)

4.2.4 Rangbestimmung

Ist die Elimination durchfuhrbar, d.h. laßt sich immer ein Pivotelement 6= 0 finden, undist schließlich auch das letzte Diagonalelement a

(n−1)n,n 6= 0 , so ist det(A) 6= 0 , d.h.

Rang(A) = n

(dies naturlich nur bei Vernachlassigung der Rundungsfehler!). Gilt dagegen im i-tenEliminationsschritt fur alle Elemente in der i-ten Spalte

a(i−1)ji = 0 , j = i, . . . , n ,

so ist A singular. In diesem Fall wird zur weiteren Rangberechnung Totalpivotierungvorgenommen:

|a(i−1)rs | = max

j,k=1,...,n|a(i−1)

jk | .

(Zeilen- und Spaltenvertauschungen andern Rang(A) nicht!) Gilt dann nach dem i-tenEliminationsschritt

a(i)jk = 0 , j, k = i+ 1, . . . , n ,

so ist Rang(A) = i . Dieser Prozeß kann naturlich auch zur Rangbestimmung bei nichtquadratischen Matrizen verwendet werden.

4.2.5 Inversenberechnung (Gauß-Jordan-Algorithmus)

Grundsatzlich kann die Inverse A−1 einer regularen Matrix A wie folgt berechnet werden:


(i) Berechnung der LR-Zerlegung von PA ;

(ii) Losung der gestaffelten Systeme

Ly(i) = Pe(i), Rx(i) = y(i), i = 1, . . . , n,

mit den kartesischen Basisvektoren e(i) des Rn ;

(iii) A−1 = [x(1), . . . , x(n)] .

Praktischer ist jedoch eine simultane Elimination (hier ohne Berechnung der Matrizen Lund R ), die direkt auf die Inverse fuhrt (ohne Zeilenvertauschungen):

1 0

A. . .

0 1

→

Vorwartselimination

r11 · · · r1n 1 0. . .

.... . .

rnn ∗ 1

Ruckwartselimination

r11 0. . . ∗

0 rnn

→

Skalierung

1 0. . . A−1

0 1

Beispiel 4.7: Es markiere · das Pivotelement.

A =

3 1 6

2 1 3

1 1 1

:

Vorwartselimination

3 1 6 1 0 0

2 1 3 0 1 0

1 1 1 0 0 1

→

→

Zeilenvertauschung

3 1 6 1 0 0

0 1/3 −1 −2/3 1 0

0 2/3 −1 −1/3 0 1

→

Vorwartselimination

3 1 6 1 0 0

0 2/3 −1 −1/3 0 1

0 1/3 −1 −2/3 1 0

→

→


3 1 6 1 0 0

0 2/3 −1 −1/3 0 1

0 0 −1/2 −1/2 1 −1/2

→


3 1 0 −5 12 −6

0 2/3 0 2/3 −2 2

0 0 −1/2 −1/2 1 −1/2

→


→

Skalierung

3 0 0 −6 15 −9

0 2/3 0 2/3 −2 2

0 0 −1/2 −1/2 1 −1/2

→ 1 0 0 −2 5 −3

0 1 0 1 −3 3

0 0 1 1 −2 1

⇒ A−1 =

−2 5 −3

1 −3 3

1 −2 1

.

Eine alternative Methode zur Berechnung der Inversen einer Matrix ist das sog. “Aus-tauschverfahren” (manchmal auch “Gauß-Jordan3-Algorithmus” oder “Pivotierungsme-thode”) genannt. Gegeben sei ein (nicht notwendig quadratisches) lineares Gleichungssy-stem

Ax = y mit A ∈ Rm×n , x ∈ R

n , y ∈ Rm . (4.2.25)

Eine Losung wird berechnet durch sukzessiven Austausch der Komponenten von x gegensolche von y . Ist ein Matrixelement apq 6= 0 , so kann die p-te Gleichung nach xq aufgelostwerden:

xq = −ap1

apq

x1 − . . .− ap,q−1

apq

xq−1 +1

apq

yp −ap,q+1

apq

xq+1 − . . .− apn

apq

xn .

Durch Substitution von xq in den anderen Gleichungen,

aj1x1 + . . .+ aj,q−1xq−1 + ajq xq + aj,q+1xq+1 + . . .+ ajnxn = yj ,

erhalt man fur j = 1, . . . , m , j 6= p :

[

aj1 −ajqap1

apq

]

x1 + . . .+

[

aj,q−1 −ajqap,q−1

apq

]

xq−1 +ajq

apqyp +

+

[

aj,q+1 −ajqap,q+1

apq

]

xq+1 + . . .+

[

ajn − ajqapn

apq

]

xn = yj .

Das Resultat ist ein zum Ausgangssystem aquivalentes System

A

x1

...

yp

...

xn

=

y1

...

xq

...

ym

, (4.2.26)

3Marie Ennemond Camille Jordan (1838-1922): franzosischer Mathematiker; Prof. in Paris; Beitragezur Algebra, Gruppentheorie, Analysis und Topologie.


wobei die Elemente der Matrix A wie folgt bestimmt sind:

Pivotelement : apq = 1/apq ,

Pivotzeile : apk = apk/apq , k = 1, . . . , n , k 6= q ,

Pivotspalte : ajq = ajq/apq , j = 1, . . . , m , j 6= p ,

sonstige : ajk = ajk − ajqapk/apq , j = 1, . . . , m, j 6= p, k = 1, . . . , n , k 6= q.

Gelingt es, durch Fortsetzung des Verfahrens alle Komponenten von x durch solche vony zu ersetzen, so hat man eine explizite Darstellung der Losung von y = A−1x . Im Fallm = n ergibt sich so auch die Inverse A−1 , allerdings i. Allg. mit vertauschten Zeilen undSpalten. Bei der Festlegung des Pivotelementes empfiehlt es sich aus Stabilitatsgrunden,unter allen in Frage kommenden apq jeweils eines von moglichst großem Betrag zu wahlen.

Satz 4.4 (Gauß-Jordan-Algorithmus): Es konnen genau r = Rang(A) Austausch-schritte durchgefuhrt werden.

Beweis: Das Verfahren breche nach r Austauschschritten ab. O.B.d.A. seien x1, . . . , xr

gegen y1, . . . , yr ausgetauscht, so daß das resultierende System die Gestalt hat:

r

m − r

∗ ∗

∗ 0

y1

...

yr

xr+1

...

xn

=

x1

...

xr

yr+1

...

ym

.

︸︷︷︸

r︸︷︷︸

n−r

Wahlt man nun y1 = · · · = yr = 0, xr+1 = λ1, · · · , xn = λn−r , so sind die x1, · · · , xr

dadurch eindeutig bestimmt, und es folgt yr+1 = · · · = ym = 0 . Fur beliebige Werteλ1, · · · , λn−r ist also

A

x1(λ1, · · · , λn−r)...

xr(λ1, · · · , λn−r)

λ1

...

λn−r

=

0

...

0

,

d.h.: dim(Kern(A)) ≥ n − r . Andererseits ist wegen der moglichen freien Wahl vony1, · · · , yr offenbar dim(Bild(A)) ≥ r . Da dim(Bild(A)) + dim(Kern(A)) = n ist, folgtRang(A) = dim(Bild(A)) = r . Q.E.D.


Fur ein quadratisches Gleichungssystem mit regularer Koeffizientenmatrix A ist dasGauß-Jordan-Verfahren zur Berechnung von A−1 also stets durchfuhrbar.

Beispiel 4.8:

1 2 1

−3 −5 −1

−7 −12 −2

x1

x2

x3

=

y1

y2

y3

Austauschschritte: Mit · wird das Pivotelement markiert.

x1 x2 x3

1 2 1 y1

−3 −5 −1 y2

−7 −12 −2 y3

x1 y3 x3

−1/6 −1/6 2/3 y1

−1/12 5/12 −1/6 y2

−7/12 −1/12 −1/6 x2

x1 y3 y1

1/4 1/4 3/2 x3

−1/8 3/8 −1/4 y2

−5/8 −1/8 −1/4 x2

y2 y3 y1

−2 1 1 x3

−8 3 −2 x1

5 −2 1 x2

Inverse:

−2 −8 3

1 5 −2

1 −2 1

Lemma 4.3: Die zur Invertierung einer regularen n×n-Matrix mit Hilfe der simultanenElimination oder des Gauß-Jordan-Algorithmus erforderliche Anzahl von arithmetischenOperationen (“a. Op.”) ist

NGauß−Jordan(n) = n3 +O(n2).

Beweis: (i) Die n−1 Schritte der Vorwartselimination an der Matrix A erfordert 13n3 +

O(n2) a. Op.. Die simultane Bearbeitung der Spalten der Einheitsmatrix erfordert wegender Dreicksgestalt von I zusatzliche 1

6n3 +O(n2) a. Op.. Die Ruckwartselimination zur

Erstellung der Einheitsmatrix links erfordert schließlich nochmal

(n− 1)n+ (n− 2)n+ . . .+ n =n(n− 1)

2n =

1

2n3 +O(n2)

Multiplikationen und Additionen und nachfolgend n2 Divisionen. Fur die gesamte Be-rechnung der Inversen ergibt sich also:

1

3n3 +

1

6n3 +

1

2n3 +O(n2) = n3 + O(n2).


(ii) Beim Gauß-Jordan-Verfahren erfordert der k-te Austauschschritt 2n + 1 Divisionenin Pivotzeile und -spalte und (n− 1)2 Multiplikationen und Additionen fur den Updateder Restmatrix, also insgesamt n2 + O(n) a. Op. Zur Berechnung der Inversen sind nAustauschschritte durchzufuhren, so daß sich ebenfalls ein Gesamtaufwand von n3+O(n2)a. Op. ergibt. Q.E.D.

4.2.6 Direkte LR-Zerlegung

Der Gaußsche Algorithmus zur Berechnung der LR-Zerlegung A = LR (falls sie existiert)kann auch in direkter Form geschrieben werden, bei der die Elemente ljk von L und rjk

von R rekursiv berechnet werden.

Die Gleichung A = LR ergibt n2 Bestimmungsgleichungen fur die n2 unbekanntenGroßen rjk , j ≤ k , ljk , j > k (ljj = 1) :

ajk =

min(j,k)∑

i=1

lji rik. (4.2.27)

Die Reihenfolge der Berechnung von ljk, rjk ist zunachst noch offen. Beim sog. “Algo-rithmus von Crout4 ” wird die Matrix A = LR wie folgt parkettiert:

1

3

5...

2 4 6 · · ·

Die einzelnen Schritte des Algorithmus sind dann (lii ≡ 1) :

k = 1, · · · , n : a1k =

1∑

i=1

l1irik ⇒ r1k := a1k,

j = 2, · · · , n : aj1 =1∑

i=1

ljiri1 ⇒ lj1 := r−111 aj1,

k = 2, · · · , n : a2k =2∑

i=1

l2irik ⇒ r2k := a2k − l21r1k,

...

4Prescott D. Crout (????-????): US-Amerikanischer Mathematiker und Ingenieur; Professor am Mas-sachusetts Institute of Technology (MIT); Beitrage zur numerischen Linearen Algebra (“A short methodfor evaluating determinants and solving systems of linear equations with real or complex coefficients”,Trans. Amer. Inst. Elec. Eng. 60, 1235-1241, 1941) und zur numerischen Elektrodynamik.


und allgemein fur j = 1, · · · , n :

rjk := ajk −j−1∑

i=1

ljirik , k = j, j + 1, · · · , n ,

lkj := r−1jj

(

akj −j−1∑

i=1

lkirij

)

, k = j + 1, j + 2, · · · , n .(4.2.28)

Die Gauß-Elimination und die direkte Dreieckszerlegung unterscheiden sich nur in derReihenfolge der Operationen und sind algebraisch vollig aquivalent.

4.3 Spezielle Gleichungssysteme 129

4.3 Spezielle Gleichungssysteme

4.3.1 Bandmatrizen

Die Anwendung des Gaußschen Eliminationsverfahrens zur Losung “großer” Gleichungs-systeme (n > 1000) ist mit großen technischen Schwierigkeiten verbunden, wenn derKernspeicher des Rechners nicht zur Speicherung der ganzen Koeffizientenmatrix aus-reicht. In diesem Fall mussen externe Speicher verwendet werden, was wegen des Daten-transfers die Rechenzeit in die Hohe treibt. Viele der in der Praxis auftretenden großenMatrizen besitzen jedoch eine besondere Struktur, welche es erlaubt, bei der Durchfuhrungdes Gaußschen Verfahrens Speicherplatz zu sparen.

Definition 4.7: Eine Matrix A ∈ Rn,n heißt “Bandmatrix” vom Bandtyp (ml, mr) mit0 ≤ ml, mr ≤ n− 1 , wenn gilt:

ajk = 0 fur k < j −ml oder k > j +mr (j, k = 1, . . . , n) .

Die Elemente von A sind also bis auf die Hauptdiagonale und hochstens ml + mr Ne-bendiagonalen gleich Null. Die Große m = ml +mr + 1 ist dann die “Bandbreite”.

Beispiel 4.9: Wir geben einige einfache Beispiele von Bandmatrizen an:

Typ (n− 1, 0) untere Dreiecksmatrix

Typ (0, n− 1) obere Dreiecksmatrix

Typ (1, 1) Tridiagonalmatrix

Beispiel einer (16 × 16)-Matrix vom Bandtyp (4, 4) :

A =

B −I

−I B −I

−I B −I

−I B

16

B =

4 −1

−1 4 −1

−1 4 −1

−1 4

4

I =

1

1

1

1

4

Satz 4.5 (Bandmatrix): Ist A ∈ Rn×n eine Bandmatrix vom Typ (ml, mr) , fur diedas Gaußsche Eliminationsverfahren ohne Zeilenvertauschung durchfuhrbar ist, dann sindauch alle reduzierten Matrizen Bandmatrizen desselben Typs, und die Faktoren L und R


der Dreieckszerlegung von A sind Bandmatrizen vom Typ (ml, 0) bzw. (0, mr) . DerAufwand fur die Berechnung der LR-Zerlegung einer Bandmatrix vom Typ (ml, mr) ist

N =1

3nmlmr +O(n(ml +mr)).

Beweis: Man erhalt die Behauptung durch Nachrechnen (Ubung). Q.E.D.

Zur Durchfuhrung der Gaußschen Elimination genugt es also bei Bandmatrizen, das“Band” zu speichern. Bei Großenordnungen n ∼ 10.000 und m ∼ 100 macht dies dieAnwendung des Verfahrens erst moglich. Bei der obigen Modellmatrix ergibt sich einreduzierter Speicherplatzbedarf von 16×9 = 144 (oder weniger) anstatt der 16×16 = 256fur die volle Matrix. (Die Ausnutzung der Symmetrie wird spater noch diskutiert.)

Eine extreme Ersparnis ergibt sich naturlich bei den besonders einfach strukturiertenTridiagonalmatrizen

a1 b1

c2. . .

. . .

. . .. . . bn−1

cn an

.

Hier lassen sich die Elemente der LR-Zerlegung

L =

1

γ2. . .

. . . 1

γn 1

, R =

α1 β1

. . .. . .

αn−1 βn−1

αn

durch einfache, rekursive Beziehungen bestimmen (Beweis durch Probe):

i = 2, . . . , n− 1 :

α1 = a1 , β1 = b1 ,

γi = ci/αi−1 , αi = ai − γiβi−1 , βi = bi ,

γn = cn/αn−1 , αn = an − γnβn−1 .

Hierzu sind offenbar nur 3n− 2 Speicherplatze und 2n− 2 a. Op. erforderlich.

Haufig sind Bandmatrizen auch noch “dunn besetzt”, d.h.: Die meisten Elementeinnerhalb des Bandes sind Null. Dieser Umstand kann beim Gaußschen Eliminationsver-fahren jedoch nicht zur Speicherersparnis ausgenutzt werden, da i. Allg. das ganze Bandim Verlaufe des Verfahrens mit Elementen ungleich Null aufgefullt wird.

Wesentlich fur Satz 4.5 war, daß das Gaußsche Verfahren ohne Zeilenvertauschungendurchgefuhrt werden kann, da andernfalls die Bandbreite anwachst. Wir betrachten imfolgenden zwei Klassen von Matrizen, bei denen dies der Fall ist.


4.3.2 Diagonaldominante Matrizen

Definition 4.8: Eine Matrix A = (aij)ni,j=1 ∈ Rn×n heißt “diagonaldominant”, wenn

n∑

k=1,k 6=j

|ajk| ≤ |ajj| , j = 1, . . . , n . (4.3.29)

Satz 4.6 (Existenz der LR-Zerlegung): Die Matrix A ∈ Rn×n sei regular und diago-

naldominant. Dann existiert eine LR-Zerlegung A = LR , die mit Gaußscher Eliminationohne Pivotierung bestimmt werden kann.

Beweis: Da A regular und diagonaldominant ist, muß a11 6= 0 sein. Folglich kann dererste Eliminationsschritt A := A(0) → A(1) ohne Pivotierung durchgefuhrt werden. DieElemente a

(1)jk erhalt man durch a

(1)1k = a1k, k = 1, . . . , n , und

j = 2, . . . , n , k = 1, . . . , n : a(1)jk = ajk − qj1a1k , qj1 =

aj1

a11.

Also gilt fur j = 2, . . . , n :

n∑

k=2,k 6=j

|a(1)jk | ≤

n∑

k=2,k 6=j

|ajk| + |qj1|n∑

k=2,k 6=j

|a1k|

≤n∑

k=1,k 6=j

|ajk|︸︷︷︸

≤ |ajj|

−|aj1| + |qj1|︸︷︷︸

=∣∣∣aj1

a11

∣∣∣

n∑

k=2

|a1k|︸︷︷︸

≤ |a11|

−|qj1||a1j |

≤ |ajj| − |qj1a1j | ≤ |ajj − qj1a1j | = |a(1)jj |.

Die Matrix A(1) = G1A(0) ist regular und offenbar wieder diagonaldominant, und folglich

ist a(1)22 6= 0 . Diese Eigenschaft bleibt also bei Durchfuhrung der Gaußschen Elimination

erhalten. Der ganze Prozeß ist somit ohne Zeilenvertauschungen durchfuhrbar. Q.E.D.

Bemerkung 4.1: Gilt in (4.3.29) fur alle j ∈ 1, . . . , n die strikte Ungleichung, soheißt die Matrix A “strikt diagonaldominant”. Der Beweis von Satz 4.6 zeigt, daß fureine solche die Gaußsche Elimination stets ohne Pivotierung durchfuhrbar ist, d.h.: DieMatrix ist notwendig “regular”. Die obige Modellmatrix ist zwar diagonaldominant, abernicht strikt diagonaldominant. Daß sie trotzdem regular ist, wird sich spater aufgrundeines scharferen Kriteriums ergeben.


4.3.3 Positiv definite Matrizen

Wir erinnern daran, daß eine (symmetrische) Matrix A ∈ Rn×n mit der Eigenschaft

(Ax, x)2 > 0 , x ∈ Rn \ 0

“positiv definit” genannt wird.

Satz 4.7 (Existenz der LR-Zerlegung): Fur positiv definite Matrizen A ∈ Rn×n istdas Gaußsche Eliminationsverfahren ohne Zeilenvertauschung durchfuhrbar, und die dabeiauftretenden Pivotelemente a

(i)ii sind positiv.

Beweis: Da A symmetrisch und positiv definit ist, ist notwendig a11 > 0 , und dieBeziehung

a(1)jk = ajk −

aj1

a11a1k = akj −

ak1

a11a1j = a

(1)kj

fur j, k = 2, . . . , n zeigt, daß die im ersten Eliminationsschritt erzeugte (n − 1) × (n −1)-Matrix A(1) = (a

(1)jk )j,k=2,...,n ebenfalls symmetrisch ist. Wir wollen zeigen, daß sie

auch positiv definit ist, so daß wieder a(1)22 > 0 . Der Eliminationsprozeß kann dann mit

positivem Pivotelement fortgesetzt werden, und die Behauptung folgt durch Induktion.

Sei x = (x2, . . . , xn)T ∈ Rn−1 \ 0 und x = (x1, x)T ∈ Rn mit

x1 = − 1

a11

n∑

k=2

a1kxk .

Dann ist

0 <

n∑

j,k=1

ajkxjxk =

n∑

j,k=2

ajkxjxk + 2x1

n∑

k=2

a1kxk + a11x21

− 1

a11

n∑

j,k=2

ak1a1jxkxj +1

a11

( n∑

k=2

a1kxk

)2

︸︷︷︸

= 0 (ajk = akj)

=

n∑

j,k=2

(

ajk −ak1a1j

a11

)

︸︷︷︸

= a(1)jk

xjxk + a11

(

x1 +1

a11

n∑

k=2

a1kxk

)2

︸︷︷︸

= 0

und somit xT A(1)x > 0 . Q.E.D.

Fur positiv definite Matrizen existiert also stets eine LR-Zerlegung A = LR mitpositiven Pivotelementen

rii = a(i)ii > 0 , i = 1, . . . , n .


Wegen A = AT gilt aber auch

A = AT = (LR)T = (LDR)T = RTDLT

mit den Matrizen

R =

1 r12/r11 · · · r1n/r11

. . .. . .

...

1 rn−1,n/rn−1,n−1

0 1

, D =

r11 0. . .

0 rnn

.

Mit der Eindeutigkeit der LR-Zerlegung folgt aus

A = LR = RTDLT

notwendig L = RT bzw. R = DLT . Damit haben wir den folgenden Satz bewiesen.

Satz 4.8: Positiv definite Matrizen gestatten eine sog. “Cholesky5-Zerlegung”.

A = LDLT = LLT (4.3.30)

mit der Matrix L := LD1/2 . Bei der Berechnung der Cholesky-Zerlegung genugt es, dieMatrizen D und L zu bestimmen. Dies reduziert die benotigten Operationen auf

NCholesky(n) = n3/6 +O(n2).

Der sog. “Algorithmus von Cholesky” zur Berechnung der Zerlegungsmatrix

L =

l11 0...

. . .

ln1 · · · lnn

geht direkt von der Beziehung A = LLT aus, die man als ein System von n(n + 1)/2

Gleichungen fur die Großen ljk , k ≤ j , auffassen kann. Ausmultiplizieren von

l11 0...

. . .

ln1 · · · lnn

l11 · · · ln1

. . ....

0 lnn

=

a11 · · · a1n

......

an1 · · · ann

ergibt in der ersten Spalte von L :

l211 = a11 , l21 l11 = a21 , . . . , ln1 l11 = an1 ,

5Andre Louis Cholesky (1975-1918): franzosischer Mathematiker; Militarkarriere; Beitrage zur Nu-merischen Linearen Algebra.


woraus sich

l11 =√a11 , j = 2, . . . , n : lj1 =

aj1

l11=

aj1√a11

, (4.3.31)

berechnet. Seien nun fur ein i ∈ 2, · · · , n die Elemente ljk , k = 1, . . . , i − 1, j =k, . . . , n , schon bekannt. Dann erhalt man aus

l2i1 + l2i2 + . . .+ l2ii = aii , lii > 0 ,

lj1li1 + lj2li2 + . . .+ ljilii = aji,

die nachsten Elemente lii und lji , j = i+ 1, . . . , n , gemaß

lii =√

aii − l2i1 − l2i2 − . . .− l2i,i−1 ,

lji = l−1ii

aji − lj1li1 − lj2li2 − . . .− lj,i−1li,i−1

, j = i+ 1, . . . , n,

4.4 Nicht regulare Systeme 135

4.4 Nicht regulare Systeme

Mit einer (nicht notwendig quadratischen) Matrix A ∈ Rm×n und einem Vektor b ∈ R

m

sei das Gleichungssystem

Ax = b (4.4.32)

gegeben. Es wird hier auch Rang(A) < Rang[A, b] zugelassen, d.h.: Das System muß nichtunbedingt im eigentlichen Sinne losbar sein. In diesem Fall wird ein geeigneter erweiterterLosungsbegriff eingefuhrt. Wir betrachten im folgenden die auf Gauß zuruckgehende sog.“Methode der kleinsten Fehlerquadrate”. Dabei wird ein Vektor x ∈ Rn gesucht, dessenDefekt d ≡ b − Ax bzgl. der euklidischen Norm minimal ist. Dieser Losungsbegriff falltnaturlich im Falle Rang(A) = Rang[A, b] mit dem ublichen zusammen.

Satz 4.9 (“Least-Squares”-Losung): Es existiert stets eine “Losung” x ∈ Rn von(4.4.32) mit kleinsten Fehlerquadraten (“Least-Squares”-Losung)

‖Ax− b‖2 = minx∈Rn

‖Ax− b‖2. (4.4.33)

Dies ist aquivalent dazu, daß x Losung der sog. “Normalgleichung” ist:

ATAx = AT b. (4.4.34)

Im Falle Rang(A) = n ist x eindeutig bestimmt, andernfalls ist jede weitere Losung vonder Form x+ y mit y ∈ Kern(A) .

Beweis: (i) Sei x Losung der Normalgleichung. Fur ein beliebiges x ∈ Rn gilt dann

‖b−Ax‖22 = ‖b−Ax+ A(x− x)‖2

2

= ‖b−Ax‖22 + 2 (b− Ax

︸︷︷︸

∈Kern(AT )

, A[x− x])︸︷︷︸

∈Bild(A)

+‖A(x− x)‖22 ≥ ‖b−Ax‖2

2,

d.h.: x ist Minimallosung. Fur eine Minimallosung x gilt umgekehrt notwendig

0 =∂

∂xi‖Ax− b‖2

2|x=x =∂

∂xi

( n∑

j=1

∣∣

n∑

k=1

ajkxk − bj∣∣2)

|x=x

= 2n∑

j=1

aji

( n∑

k=1

ajkxk − bj

)

= 2(ATAx−AT b)i,

d.h.: x lost die Normalgleichung.

(ii) Wir untersuchen nun die Losbarkeit der Normalgleichung. Das orthogonale Komple-ment von Bild(A) in Rm ist Kern(AT ) . Also besitzt b eine eindeutige Zerlegung

b = s+ r , s ∈ Bild(A) , r ∈ Kern(AT ).


Fur ein x ∈ Rn mit Ax = s gilt dann

ATAx = AT s = AT s+ AT r = AT b ,

d.h.: x lost die Normalgleichung. Im Falle Rang(A) = n ist Kern(A) = 0 undBild(A) = Rn . Aus ATAx = 0 folgt also wegen Kern(AT )⊥Bild(A) notwendig Ax = 0bzw. x = 0 . Die Matrix ATA ∈ R

n×n ist regular und folglich x eindeutig bestimmt. ImFalle Rang(A) < n gilt fur jede weitere Losung x1 der Normalgleichung

b = Ax1 + (b−Ax1) ∈ Bild(A) + Kern(AT ) .

Wegen der Eindeutigkeit dieser orthogonalen Zerlegung ist notwendig Ax1 = Ax bzw.x− x1 ∈ Kern(A) . Q.E.D.

4.4.1 Gaußsche Ausgleichsrechnung

Im Anschluß an Satz 4.9 betrachten wir als klassische Anwendung der Methode der klein-sten Fehlerquadrate, die sog. “Gaußsche Ausgleichsrechnung” (kurz Gauß-Ausgleich). DieAufgabenstellung ist dabei die folgende:

Zu gegebenen Funktionen u1, . . . , un und Punkten (xj, yj) ∈ R2 , j = 1, . . . , m , m > n ,ist eine Linearkombination

u(x) =

n∑

k=1

ckuk(x)

so zu bestimmen, daß die sog. “mittlere Abweichung”

∆2 ≡( m∑

j=1

|u(xj) − yj|2)1/2

moglichst klein wird. (Die sog. “Tschebyscheffsche Ausgleichsaufgabe”, bei der die “ma-ximale Abweichung”

∆∞ ≡ maxj=1,...,m

|u(xj) − yj|

minimiert wird, ist i. Allg. wesentlich schwieriger zu behandeln.)

Zur Losung der Gaußschen Ausgleichsaufgabe setzen wir

y ≡ (y1, . . . , ym)T , c ≡ (c1, . . . , cn)T ,

ak ≡ (uk(x1), . . . , uk(xm))T , k = 1, . . . , n , A ≡ [a1, . . . , an].

Zu minimieren ist also bzgl. c ∈ Rn das Funktional

F (c) = ‖Ac− y‖2.

Dies ist gleichbedeutend damit, fur das (uberbestimmte) Gleichungssystem Ac = y eine“Losung” mit kleinsten Fehlerquadraten zu ermitteln. Im Falle Rang(A) = n ist die


eindeutige “Losung” c dann bestimmt als Losung der Normalgleichung

ATAc = ATy.

Ist speziell uk(x) = xk−1 , so nennt man die “optimale” Losung

u(x) =

n∑

k=1

ckxk−1

die “Gaußsche Ausgleichsparabel” zu den Punkten (xj , yj), j = 1, . . . , m . Wegen derRegularitat der sog. “Vandermondschen6 Determinante”

det

1 x1 · · · xn−11

1 x2 · · · xn−12

......

...

1 xn · · · xn−1n

=n∏

j,k=1,j<k

(xk − xj) 6= 0

fur paarweise verschiedene Stutzstellen xj ist dann stets Rang(A) = n , d.h.: Die Aus-gleichsparabel ist eindeutig bestimmt.

Beispiel 4.10: Zu den Meßdaten

xi −2 −1 0 1 2

yi 0.5 0.5 2 3.5 3.5

soll mit Hilfe der Gaußschen Ausgleichsrechnung eine lineare Funktion y(x) = a + bxangepaßt werden. Dies ist aquivalent zur Losung des uberbestimmten Gleichungssystems

1 −2

1 −1

1 0

1 1

1 2

[

a

b

]

=

0.5

0.5

2

3.5

3.5

.

6Alexandre-Thophile Vandermonde (1735-1796): Franzosischer Mathematiker; begabter Musiker, kamspat zur Mathematik und publizierte hierzu nur vier Arbeiten (trotzdem Mitglied der Akademie der Wis-senschaften in Paris); Beitrage zur Determinantentheorie und kombinatorischer Probleme (kurioserweisetaucht die nach ihm benannte “Determinante” in keiner dieser Arbeiten explizit auf).


Die zugehorige Normalgleichung lautet

[

1 1 1 1 1

−2 −1 0 1 2

]

1 −2

1 −1

1 0

1 1

1 2

[

a

b

]

=

[

1 1 1 1 1

−2 −1 0 1 2

]

0.5

0.5

2.0

3.5

3.5

→[

5 0

0 10

][

a

b

]

=

[

10

9

]

→[

a

b

]

=

[

2

0.9

]

.

Es ergibt sich die Losung y(x) = 2 + 0.9x mit der mittleren Abweichung:

∆2 =( 5∑

i=1

|y(xi) − yi|2)1/2

=√

0.9 < 1,

und der maximalen Abweichung:

∆∞ = max1≤i≤5

|y(xi) − yi| = 0.6.

Durch geometrische Anschauung erhalt man in diesem Fall auch die Losung des Tsche-byscheffschen Ausgleichproblems:

-2 -1 0 1 2 3-3

1

2

3

4

y(x) = 2+x

∆2 = 1

∆∞ = 0.5

Abbildung 4.1: Losung der Tschebyscheffschen Ausgleichsaufgabe

Bemerkung 4.2: Wesentlich fur die Anwendbarkeit der Gaußschen Ausgleichsrechnungist, daß fur die zu bestimmenden Großen eine “lineare” Beziehung gegeben ist, z. B.y(x) = a+ bx . Ist die gegebene Beziehung (etwa aus physikalischen Grunden) nichtlinear,so kann man versuchen, aus ihr eine lineare Beziehung fur unter Umstanden andere Großen


zu gewinnen, aus denen sich dann nachtraglich die eigentlich gesuchten Großen bestimmenlassen; z. B.:

y(x) =a

1 + bx.

Umformung:1

a+b

ax =

1

y(x), neue Großen: a =

1

a, b =

b

a.

Zur Berechnung der Losung mit kleinsten (Fehler-)Quadraten eines irregularen Sy-stems Ax = b muß die Normalgleichung ATAx = AT b gelost werden. Dessen Matrixbesitzt einige Besonderheiten, die in folgendem Lemma zusammengefaßt sind.

Lemma 4.4: Fur eine Matrix A ∈ Km×n mit m ≥ n ist die Matrix ATA ∈ Kn×n stets

hermitesch (symmetrisch) und positiv semi-definit. Im Fall Rang(A) = n ist ATA sogar

positiv definit.

Beweis: Nach den Regeln der Matrizenrechnung gilt:

(ATA)T = AT A = ATA, xT (ATA)x = (Ax)TAx = ‖Ax‖2

2 ≥ 0,

d.h.: ATA ist hermitesch und positiv semi-definit. Im Fall Rang(A) = n ist die Matrixals Abbildung A : Rn → Rm (n ≤ m) injektiv, d.h.: ‖Ax‖2 = 0 impliziert x = 0 . DieMatrix ATA ist also positiv definit. Q.E.D.

Die Losung des Normalgleichungssystems kann wegen der Symmetrie der Matrix ATAprinzipiell mit dem Cholesky-Algorithmus erfolgen. Im Allg. ist sie aber sehr schlechtkonditioniert; im Fall m = n ist

cond(ATA) ∼ cond(A)2 . (4.4.35)

Beispiel 4.11: Bei 3-stelliger Rechnung erhalt man

A =

1.07 1.10

1.07 1.11

1.07 1.15

→ ATA =

[

3.43 3.60

3.60 3.76

]

.

Aber ATA ist nicht positiv definit: (−1, 1) ·ATA · (−1, 1)T = −0.01 , d.h. Das Cholesky-Verfahren wird i. Allg. keine Losung liefern!

Wir werden nun eine Methode betrachten, die es gestattet, x ohne explizite Aufstel-lung der Normalgleichung zu berechnen. Fur spatere Zwecke wird dabei der Fall komplexerMatrizen zugelassen.


Satz 4.10 (QR-Zerlegung): Sei A ∈ Km×n eine rechteckige Matrix mit m ≥ n undRang(A) = n . Dann existiert eine eindeutig bestimmte Matrix Q ∈ Km×n mit der Ei-genschaft

QTQ = I (K = C) , QTQ = I (K = R), (4.4.36)

und eine eindeutig bestimmte obere Dreiecksmatrix R ∈ Kn×n mit reellen Diagonalele-

menten rii > 0 , i = 1, . . . , n , so daß

A = QR. (4.4.37)

Wegen QTQ = I sind offenbar die Spalten von Q paarweise orthonormal; Q wird daher“orthogonale” (genauer “orthonormale”) Matrix genannt (im Falle m = n “unitare”Matrix).

Beweis: Die Matrix Q wird durch sukzessive Orthonormalisierung der Spaltenvektorenak, k = 1, . . . , n , von A erzeugt. Nach dem Gram-Schmidt-Verfahren setzt man

q1 ≡ ‖a1‖−12 a1

k = 2, . . . , n : qk ≡ ak −k−1∑

i=1

(ak, qi)2 qi , qk ≡ ‖qk‖−12 qk.

Wegen Rang(A) = n sind die n Spaltenvektoren a1, . . . , an linear unabhangig, undder Orthonormalisierungsprozeß kann folglich nicht vorzeitig abbrechen.

Die Matrix Q ≡ [q1, . . . , qn] ist konstruktionsgemaß orthonormal. Ferner gilt fur k =1, . . . , n :

ak = qk +

k−1∑

i=1

(ak, qi)2 qi = ‖qk‖2 qk +

k−1∑

i=1

(ak, qi)2 qi

bzw.

ak =

k∑

i=1

rik qk , rkk ≡ ‖qk‖2 ∈ R+ , rik ≡ (ak, qi)2 .

Setzt man noch rik ≡ 0 fur i > k , so ist dies aquivalent zur Gleichung

A = QR

mit der oberen Dreiecksmatrix R = (rik) ∈ Kn×n .

Zum Beweis der Eindeutigkeit der QR-Zerlegung seien A = Q1R1 und A = Q2R2 zweisolche Zerlegungen. Da R1 und R2 regular sind (det(Ri) > 0) , gilt:

Q := QT2Q1 = R2R

−11 rechte obere Dreiecksmatrix ,

QT = QT1Q2 = R1R

−12 rechte obere Dreiecksmatrix .


Wegen QTQ = R1R−12 R2R

−11 = I ist Q orthonormal und diagonal mit |λi| = 1 . Aus

QR1 = R2 folgt λir1ii = r2

ii > 0 und damit λi ∈ R sowie λi = 1 . Also ist Q = I , d.h.

R1 = R2 , Q1 = AR−11 = AR−1

2 = Q2


Im Fall K = R geht die Normalgleichung ATAx = AT b bei Verwendung der QR-Zerlegung uber in

ATAx = RTQTQRx = RTRx = RTQT b,

bzw. wegen der Regularitat von RT ,

Rx = QT b. (4.4.38)

Dieses System ist nun durch Ruckwartseinsetzen losbar. Wegen

ATA = RTR (4.4.39)

ist mit R also die Cholesky-Zerlegung von ATA bestimmt, ohne ATA explizit berechnenzu mussen. Bei einer quadratischen Matrix A ∈ Rn×n erfordert die Berechnung der QR-Zerlegung etwa den doppelten Aufwand wie zur Berechnung der LR-Zerlegung mit demGaußschen Algorithmus.

4.4.2 Householder-Verfahren

Das in Satz 4.9 verwendete Gram-Schmidtsche Orthogonalisierungsverfahren zum Nach-weis der Existenz der QR-Zerlegung ist ungeeignet zur praktischen Berechnung von Qund R , da aufgrund von Rundungsfehlern die Orthonormalitat der Spalten von Q raschverloren geht. Das Gram-Schmidtsche Orthogonalisierungsverfahren ist kein numerischgutartiger Algorithmus. Eine stabilere Methode zur Erstellung der Zerlegung A = QRist das sog. “Householder7-Verfahren”, welches wir nun beschreiben werden. Zur Verwen-dung an spaterer Stelle lassen wir dabei wieder komplexe Matrizen zu. Fur einen Vektorv ∈ Km nennt man

vvT :=

v1

...

vm

[v1, . . . , vm] =

|v1|2 v1v2 · · · v1vm

...

vmv1 vmv2 · · · |vm|2

∈ K

m×m

sein “dyadisches Produkt” (nicht zu verwechseln mit dem “skalaren Produkt” vTv =‖v‖2

2 ).

7Alston Scott Householder (1904-1993): US-Amerikanischer Mathematiker; Direktor des Oak RidgeNatioanl Laboratory (1948-1969), danach Professor an der University of Tennessee; Arbeiten zur mathe-matischen Biologie, aber am besten bekannt durch fundamentalen Beitrage zur Numerik, insbesonderezur numerischen linearen Algebra.


Definition 4.9: Fur einen Vektor v ∈ Kn mit ‖v‖2 = 1 , heißt die Matrix

S = I − 2vvT ∈ Km×m

“Householder-Transformation”. Offenbar ist S = ST = S−1 d.h.: S (und auch ST ) isthermitesch und unitar. Ferner ist das Produkt von zwei Householder-Transformationenwieder unitar.

Zur geometrischen Interpretation der Householder-Transformation S beschranken wiruns auf den R2 und betrachten dort fur irgendeinen normierten Vektor v , ‖v‖2 = 1 , dieBasis v, v⊥ , wobei vTv⊥ = 0 . Fur einen Vektor u = αv + βv⊥ ∈ R2 ist dann

Su = (I − 2vvT ) (αv + βv⊥)

= αv + βv⊥ − 2α (v vT ) v︸︷︷︸

=1

−2β(v vT ) v⊥︸︷︷︸

=0

= −αv + βv⊥ .

Die Anwendung von S = I − 2vvT auf einen Vektor u bewirkt also in der EbeneSpanv, u eine Spiegelung von u an der orthogonalen Achse Spanv⊥ .

Ausgehend von einer Matrix A ∈ Km×n erzeugt nun das Householder-Verfahren in nSchritten eine Folge von Matrizen

A := A(0) → · · · → A(i−1) → · · · → A(n) := R ,

wobei A(i−1) die Gestalt hat:

A(i−1) =

∗ ∗∗

. . ....

∗∗ · · · ∗

0

∗ · · · ∗

i

i

Im i-ten Schritt wird eine Householder-Transformation Si ∈ Km×m so bestimmt, daß

SiA(i−1) = A(i).

Nach n Schritten ist dann

R = A(n) = SnSn−1 · · ·S1A =: ¯QTA,

wobei ¯Q ∈ Km×m als Produkt unitarer Matrizen selbst unitar ist, und R ∈ Km×n dieGestalt hat:


R =

r11 · · · r1n

. . ....

0 rnn

0 · · · 0

n

m.

Dies ergibt die DarstellungA = ST

1 · · · STn R = QR.

Hieraus erhalt man die gewunschte QR-Zerlegung von A einfach durch Streichen derletzten m− n Spalten in Q sowie der letzten m− n Zeilen in R :

A =

Q ∗

·

R

0

n

m − n

= QR

︸︷︷︸

n︸︷︷︸

m - n

Man beachte, daß hier die Diagonalelemente von R nicht notwendig positiv sein mussen,d.h.: Der Householder-Algorithmus liefert in der Regel nicht die durch Satz 4.10 gegebene“eindeutig bestimmte” QR-Zerlegung.

Wir beschreiben nun den Transformationsprozeß im Detail. Seien ak die Spaltenvek-toren der Matrix A .

1. Schritt: S1 wird so gewahlt, daß S1a1 ∈ Spane1 .

−||a1||2e1||a1||2e1

a1−||a1||2e1 a1+||a1||2e1a1

Spiegelungsachse

x1

Abbildung 4.2: Schema der Householder-Transformation

Im Folgenden werden euklidische Norm und Skalarprodukt zur Abkurzung mit ‖·‖ = ‖·‖2

und (·, ·) = (·, ·)2 bezeichnet. Der Vektor a1 wird an der Achse Spana1 +‖a1‖e1 (oder


Spana1 − ‖a1‖e1 ) in die x1-Achse gespiegelt. (Zur Vermeidung von Rundungsfehlerndurch Ausloschung wahlt man gewohnlich das Vorzeichen entsprechend sign(a11) !) ImFalle a11 ≥ 0 ist also

v1 =a1 + ‖a1‖e1

‖a1 + ‖a1‖e1‖, v⊥1 =

a1 − ‖a1‖e1‖a1 − ‖a1‖e1‖

.

Die Matrix A(1) = (I − 2v1vT1 )A hat dann die Spaltenvektoren

a(1)1 = −‖a1‖e1 , a

(1)k = ak − 2(ak, v1)v1, k = 2, . . . , n .

Sei nun die transformierte Matrix A(i−1) schon berechnet.

i-ter Schritt: Fur Si machen wir den folgenden Ansatz:

Si =

I 0

0 I − 2vi¯vTi

= I − 2vivTi , vi =

0...

0

vi

i - 1

m

︸︷︷︸

i - 1

Die Anwendung der (unitaren) Matrix Si von links auf A(i−1) laßt die ersten i−1 Zeilen-und Spalten von A(i−1) unverandert. Zur Konstruktion von vi wenden wir die Uberlegungvom 1. Schritt auf die Teilmatrix:

A(i−1) =

a(i−1)ii · · · a

(i−1)in

......

a(i−1)mi · · · a

(i−1)mn

=[

a(i−1)i , . . . , a(i−1)

n

]

an. Es ist demnach

vi =a

(i−1)i − ‖a(i−1)

i ‖ei

‖ . . . ‖ , v⊥i =a

(i−1)i + ‖a(i−1)

i ‖ei

‖ . . . ‖ ,

und die Matrix A(i) hat die Spaltenvektoren

a(i)k = a

(i−1)k , k = 1, . . . , i− 1 ,

a(i)i = (a

(i−1)1i , . . . , a

(i−1)i−1,i , ‖a

(i−1)i ‖ , 0, . . . , 0)T ,

a(i)k = a

(i−1)k − 2(a

(i−1)k , vi)vi, k = i+ 1, . . . , n.

4.5 Die Singularwertzerlegung 145

4.5 Die Singularwertzerlegung

Die in den vorhergehenden Abschnitten vorgestellten Methoden zur Losung linearer Glei-chungssysteme oder Ausgleichsprobleme (Methode der kleinsten Quadrate) werden nu-merisch unzuverlassig, wenn die Matrizen sehr schlecht konditioniert sind. Es kann sein,daß eine eigentlich regulare Matrix fur die numerische Rechnung singular erscheint. DieBestimmung des Ranges einer Matrix ist mit der LR- oder QR-Zerlegung oft nicht mitgenugender Sicherheit zu entscheiden. Die derzeit zuverlassigste Technik zur Behandlungnahezu rang-defizienter linearer Gleichungs- und Ausgleichsprobleme verwendet die sog.“Singularwertzerlegung” (“singular value decomposition”, “SVD”) einer Matrix. Dabeihandelt es sich um einer spezielle “orthogonale” Zerlegung, welche die Matrix von beidenSeiten transformiert.

Es sei A ∈ Rm×n gegeben. Weiter seien Q ∈ Rm×m und Z ∈ Rn×n orthogonal. Danngilt zunachst

‖QAZ‖2 = ‖A‖2, (4.5.40)

so daß auch solche beidseitigen Transformationen die Kondition der Matrix A nichtverschlechtern. Fur geeignete Matrizen Q und Z erhalt man nun prazise Informationenuber den Rang einer Matrix. Außerdem laßt sich das Ausgleichsproblem auch im Fallreduzierten Ranges befriedigend losen. Allerdings ist die numerisch stabile Berechnungsolcher Transformationen recht aufwendig, wie aus der Tabelle am Ende dieses Abschnitteshervorgeht.

Satz 4.11 (Singularwertzerlegung): Es sei A ∈ Rm×n . Dann existieren orthogonaleMatrizen V ∈ Rn×n und U ∈ Rm×m , so daß

UTAV = Σ = diag(σ1, . . . , σp) ∈ Rm×n , p = min(m,n), (4.5.41)

wobei σ1 ≥ σ2 ≥ · · · ≥ σp ≥ 0 .

Je nachdem, ob m ≤ n oder m ≥ n ist, erhalt Σ die Gestalt

σ1 0. . . 0

0 σm

oder

σ1

. . .

σn

0

.

Man nennt die Werte σi die “singularen Werte” der Matrix A . Aus (4.5.41) liest manunmittelbar ab, daß mit den Spaltenvektoren ui , vi von U , V gilt:

Avi = σiui, ATui = σivi,


fur i = 1, . . . ,min(m,n) . Daraus ergibt sich

ATAvi = σ2i vi, AATui = σ2

i ui.

Die singularen Werte σi , i = . . . ,min(m,n) sind also gerade die Wurzeln der Eigenwertevon ATA bzw. AAT .

Die Existenz einer Zerlegung der Form (4.5.41) laßt sich mit der letzten Uberlegungunmittelbar darauf zuruckfuhren, daß ATA sich durch orthogonale Matrizen auf Diago-nalgestalt transformieren laßt,

QT (ATA)Q = D.

Wir geben hier einen anderen Beweis.

Beweis: Es sei σ = ‖A‖2 . Wegen ‖A‖2 = max‖x‖2=1 ‖Ax‖2 existiert ein x ∈ Rn mit

Ax = σy , ‖x‖2 = ‖y‖2 = 1.

Wir erganzen x und y zu Orthonormalbasen des Rn und Rm :

U = [y, y] , V = [x, x].

Damit ergibt sich

A1 ≡ UTAV =

(

σ wT

0 B

)

mit einem Vektor w ∈ Rn−1 und einer Matrix B . Da U und V orthogonal sind, folgtaus (4.5.40)

‖A1‖2 = ‖A‖2 = σ.

Andererseits gilt

‖A1(σ, w)T‖22 = ‖(σ2 + ‖w‖2

2, Bw)T‖22 ≥ (σ2 + ‖w‖2

2)2 = (σ2 + ‖w‖2

2)‖(σ, w)T‖22

und somit w ≡ 0 . Der Rest folgt mit vollstandiger Induktion. Q.E.D.

Wir stellen nun einige einfache Folgerungen aus (4.5.41) zusammen. Die singularenWerte seien geordnet in der Form σ1 ≥ · · · ≥ σr > σr+1 = · · · = σp = 0 , p = min(m,n) .

- Rang(A) = r ,

- Kern(A) = Spanvr+1, . . . , vn ,

- Bild(A) = Spanu1, . . . , ur ,

- A = UrΣrVTr ≡∑r

i=1 σiuivTi (Singularwertzerlegung von A ),

- ‖A‖2 = σ1 = σmax ,

- ‖A‖F = (σ21 + · · ·+ σ2

r )1/2 .


Wir betrachten nun das Problem der Bestimmung des “numerischen Rangs” einer Matrix.Wir definieren

Rang(A, ε) = min‖A−B‖2≤ε

Rang(B) .

Man bezeichnet eine Matrix als “numerisch rang-defizient”, falls

Rang(A, ε) < min(m,n) , ε = eps‖A‖2 .

Stammen die Eintrage der Matrix z.B. aus Meßreihen, so ist statt dessen ε an die Ge-nauigkeit der Meßergebnisse zu knupfen.

Satz 4.12 (Fehlerabschatzung): Es seien A , U , V , Σ wie in Satz 4.11. Falls k <r = Rang(A) , so gilt mit der abgeschnittenen Singularwertzerlegung

Ak =k∑

i=1

σiuivTi

die Abschatzungmin

Rang(B)=k‖A− B‖2 = ‖A−Ak‖2 = σk+1 .

Als Konsequenz ergibt sich fur rε = Rang(A, ε) die Beziehung

σ1 ≥ · · · ≥ σrε> ε ≥ σrε+1 ≥ · · · ≥ σp , p = min(m,n) .

Beweis: Wegen

UTAkV = diag(σ1, . . . , σk, 0, . . . , 0)

folgt Rang(Ak) = k . Weiter erhalt man

UT (A−Ak)V = diag(0, . . . , 0, σk+1, . . . , σp)

und wegen der Orthogonalitat von U und V somit

‖A−Ak‖2 = σk+1.

Es bleibt zu zeigen, daß fur jede andere Matrix B mit Rang k die Ungleichung

‖A−B‖2 ≥ σk+1

gilt. Dazu wahlt man eine Orthonormalbasis x1, . . . , xn−k von Kern(B) . Aus Dimen-sionsgrunden gilt offensichtlich

Spanx1, . . . , xn−k ∩ Spanv1, . . . , vk+1 6= ∅.


Sei z mit ‖z‖2 = 1 aus dieser Menge. Es gilt dann

Bz = 0 , Az =k+1∑

i=1

σi(vTi z)ui

und somit

‖A− B‖22 ≥ ‖(A− B)z‖2

2 = ‖Az‖22 =

k+1∑

i=1

σ2i (v

Ti z)

2 ≥ σ2k+1 .

Hier wurde ausgenutzt, daß z =∑k+1

i=1 (vTi z)vi und deshalb

1 = ‖z‖22 =

k+1∑

i=1

(vTi z)

2 .

Q.E.D.

Mit Hilfe der Singularwertzerlegung laßt sich auch das Ausgleichsproblem elegantlosen. Es sei im folgenden wieder m ≥ n . Wir haben bereits gesehen, daß jede Mini-mallosung,

‖Ax− b‖2 = min!

notwendig der NormalgleichungATAx = AT b

genugt. Die Losung ist jedoch nur im (numerisch nicht unbedingt eindeutig feststellba-ren) Fall, daß Rang(A) = n maximal ist, eindeutig bestimmt. In diesem Fall ist ATAinvertierbar und es gilt

x = (ATA)−1AT b.

Im Fall Rang(A) < n besitzen die Normalgleichungen unendlich viele Losungen. Ein-deutigkeit erzielt man durch die Zusatzforderung, daß diejenige Losung gesucht wird, dieminimale euklidische Norm besitzt. Sie heißt die “Minimallosung” des Ausgleichsproblems.

Satz 4.13 (Minimallosung): Es sei A = UΣV T die Singularwertzerlegung der MatrixA ∈ Rm×n und es sei r = Rang(A) . Dann ist

x =

r∑

i=1

uTi b

σivi

die eindeutig bestimmte Losung der Normalgleichung mit minimaler euklidischer Norm.Der Fehler genugt der Beziehung

ρ2 = ‖Ax− b‖22 =

m∑

i=r+1

(uTi b)

2.


Beweis: Fur jedes x ∈ Rn gilt die Identitat

‖Ax− b‖22 = ‖AV V Tx− b‖2

2 = ‖UTAV V Tx− UT b‖22 = ‖ΣV Tx− UT b‖2

2.

Mit der Abkurzung z = V Tx liefert dies

‖Ax− b‖22 = ‖Σz − UT b‖2

2 =r∑

i=1

(σizi − uTi b)

2 +m∑

i=r+1

(uTi b)

2.

Ein Minimum erfullt also notwendig

σizi = uTi b , i = 1, . . . , r.

Unter allen z mit dieser Eigenschaft hat dasjenige mit zi = 0 , i = r + 1, . . . , m , dieminimale euklidische Norm. Die Identitat fur den Fehler ist offensichtlich. Q.E.D.

Die eindeutig bestimmte Minimallosung des Ausgleichsproblems laßt sich kompakt wiefolgt darstellen: Es sei

Σ+ = diag(σ−11 , . . . , σ−1

r , 0, . . . , 0) ∈ Rn×m.

Wir nennen die Matrix

A+ = VΣ+UT (4.5.42)

die “Pseudo-Inverse” der Matrix A (oder auch die die “Penrose8-Inverse” (1955)). Derletzte Satz besagt

x = A+b , ρ = ‖(I − AA+)b‖2. (4.5.43)

Die Pseudo-Inverse ist die eindeutige Losung von

minX∈Rn×m

‖AX − I‖F ,

mit der Frobenius-Norm ‖ · ‖F . Da die Identitat in (4.5.43) fur alle b gilt, folgt

Rang(A) = n ⇒ A+ = (ATA)−1AT

Rang(A) = n = m ⇒ A+ = A−1 .

In der numerischen Praxis ist bei der Definition der Pseudoinversen naturlich der (ge-eignet definierte) numerische Rang zu benutzen. Die numerisch stabile Berechnung derSingularwertzerlegung ist recht aufwendig. Auf Einzelheiten kann hier nicht eingegangenwerden; es sei auf das Buch von Golub/van Loan: Matrix Computations, verwiesen.

8Roger Penrose (1931-): Englischer Mathematiker; Professor am Birkbeck College in London (1964)und seit 1973 Professor an der Universitat Oxford; fundamentale Beitrage in der Mathematik zur Theorievon Halbgruppen, zur Matrix-Analysis und zur Theorie von “Kachelungen” sowie in der TheoretischenPhysik zur Kosmologie, Relativitats- und Quantentheorie.


4.6 Ubungsaufgaben

Ubung 4.1: Man zeige, daß fur jede Vektornorm ‖ · ‖ auf Kn durch

‖A‖ := sup

‖Ax‖‖x‖ , x ∈ K

n, x 6= 0

= sup‖Ax‖, x ∈ K

n, ‖x‖ = 1

eine mit ihr “vertragliche” Matrizennorm erklart ist. Diese wird als die von ‖ · ‖ erzeug-te “naturliche” Matrizennorm bezeichnet. Warum kann die Quadratsummennorm (sog.“Frobenius-Norm”) keine naturliche Matrizennorm sein?

‖A‖FR =( n∑

i,j=1

|aij |2)1/2

Ubung 4.2: Man betrachte das lineare Gleichungssystem

(

0, 5 0, 5

0, 5 −1

)(

x1

x2

)

=

(

1

1

)

.

Wie groß sind die relativen Fehler ‖δx‖1/‖x‖1 und ‖δx‖∞/‖x‖∞ , wenn der relativeFehler in den Matrixelementen hochstens ±1% und der in den Komponenten der rechtenSeite hochstens ±3% betragt? Man zeichne die Punktmenge im R2 , in denen die Losungx+ δx des gestorten Systems liegt. (Hinweis: Man berechne die Inverse der Koeffizienten-matrix und bestimme damit die l1- und die l∞-Kondition.)

Ubung 4.3: a) Man lose durch Gaußsche Elimination (ohne Pivotierung) das lineareGleichungssystem Ax = b , wobei (Hinweis: Der Losungsvektor ist ganzzahlig.)

A =

−12 9 −2 1

−32 30 −12 0

1 −15 0 −4

0 −6 18 8

, b =

3

3

2

−4

.

b) Man bestimme die LR-Zerlegung von A und berechne die Determinante det(A) . c)Man bestimme die Inverse A−1 und die Konditionszahl cond∞(A) = ‖A‖∞‖A−1‖∞ .

Ubung 4.4: Sei A = (aij)ni,j=1 ∈ Rn×n eine symmetrische, positiv definite Matrix. Der

Gaußsche Zerlegungsalgorithmus (ohne Pivotierung) erzeugt bei Anwendung auf A eineFolge von Matrizen A = A(0) → . . . → A(k) → . . . → A(n−1) = R mit einer oberen Drei-ecksmatrix R = (rij)

ni,j=1 als Resultat. Man zeige, daß dieser Algorithmus im folgenden

Sinne “stabil” ist:

k = 1, . . ., n− 1 : a(k)ii ≤ a

(k−1)ii , i = 1, . . ., n, max

1≤i,j≤n|rij| ≤ max

1≤i,j≤n|aij|.

(Hinweis: Man gehe von den Rekursionsformeln der Eliminationsprozesses aus.)


Ubung 4.5: (Praktische Aufgabe) Das folgende MATLAB-Programm leistet die Berech-nung der LR-Zerlegung A = LR (sofern sie existiert) einer regularen Matrix:

function [L,R] = LR(A)

%------------------------------------------------------------------

% Berechnet eine LR-Zerlegung (Gauss-Elimination).

% Eingabe: A nxn-regulre Matrix.

% Ausgabe: L nxn-untere Dreiecksmatrix, R nxn-obere Dreiecksmatrix.

%------------------------------------------------------------------

[m,n] = size(A);

if (m ~= n), error(’Matrix A ist nicht quadratisch’), end

for k=1:n-1

A(k+1:n,k) = A(k+1:n,k)/A(k,k);

A(k+1:n,k+1:n) = A(k+1:n,k+1:n)-A(k+1:n,k)*A(k,k+1:n);

end

L = eye(n,n) + tril(A,-1); R = triu(A); return;

(i) Man berechne die LR-Zerlegung der symmetrischen, positiv definiten Blockmatrix

An =

Bm −Im−Im Bm

. . .. . .

. . . −Im−Im Bm

∈ Rn×n, Bm =

4 −1

−1 4. . .

. . .. . . −1

−1 4

∈ Rm×m

(n = m2) mit der m-dimensionalen Einheitsmatrix Im , fur m = 2k, k = 1, . . ., 7 . DieLeerstellen sind dabei mit Nullen besetzt gedacht. Mit Hilfe eines selbst erstellten Pro-gramms bestimme man mit Hilfe der gewonnenen LR-Zerlegung An = LnRn noch dieCholesky-Zerlegung An = LnL

Tn und die Inverse A−1

n . Die Genauigkeit uberprufe manjeweils durch Berechnung der Fehlernormen

‖An − LnRn‖∞, ‖An − LnLTn‖∞, ‖AnA

−1n − In‖∞ .

(ii) Was laßt sich uber die l∞-Konditionszahl cond∞(An) = ‖An‖∞‖A−1n ‖∞ von An in

Abhangigkeit von der Dimension n sagen?

Ubung 4.6: Man zeige fur allgemeine Matrizen A ∈ Kn×n die Beziehung

‖A‖2 := sup

‖Ax‖2

‖x‖2, x ∈ K

n, x 6= 0

= sup√

|λ|, λ Eigenwert von ATA.

(Hinweis: Siehe den Beweis fur hermitesches A in der Vorlesung. Man beachte, daß furallgemeines A die Matrix ATA stets hermitesch ist und somit eine Orthonormalbasisvon Eigenvektoren besitzt.)


Ubung 4.7: Unter einer “LR-Zelegung” einer regularen Matrix A ∈ Rn×n versteht manallgemein eine Produktzerlegung der Form A = LR mit einer unteren Dreiecksmatrix L ,mit Einsen auf der Hauptdiagonalen, und einer (regularen) oberen Dreiecksmatrix R .

(i) Man verifiziere, daß die regularen unteren Dreiecksmatrizen L ∈ Kn×n , mit Einsenauf der Hauptdiagonalen, und ebenso die allgemeinen regularen oberen DreiecksmatrizenR ∈ Kn×n bezuglich der ublichen Matrizenmultiplikation “Gruppen” bilden. Sind dieseGruppen abelsch?

(ii) Man zeige damit, daß die mit dem Gaußschen Verfahren erzeugte LR-Zerlegung einerregularen Matrix A ∈ Kn×n (falls sie existiert) eindeutig bestimmt ist.

Ubung 4.8: Gegeben sei das Gleichungssystem Ax = b mit

A =

5 −5 0 0

−5 7 −2 0

0 −2 20 −18

0 0 −18 19

, b =

5

−7

20

−17

und der Losung x = (2, 1, 2, 1)T .

a) Man bestimme eine Naherungslosung mit dem Cholesky-Algorithmus unter Verwen-dung 4-stelliger Arithmetik mit korrekter Rundung.

b) Man versuche, das Ergebnis durch einen Nachiterationsschritt unter Verwendung 8-stelliger Arithmetik fur den Defekt zu verbessern.

Ubung 4.9: Sei A ∈ Rn×n eine regulare Matrix, fur die eine LR-Zerlegung existiert. Inder Vorlesung wurde gezeigt, daß sich diese mit dem Gaußschen Eliminationsverfahren(ohne Pivotierung) in 1

3n3 +O(n2) a. Op. berechnen laßt. Im Falle einer symmetrischen

Matrix reduziert sich dieser Aufwand zu 16n3+O(n2) a. Op. Dabei entspricht eine “a. Op.”

gerade einer Multiplikation (mit einer Addition) oder einer Division.

Frage: Wie sehen diese Aufwandszahlen fur Band-Matrizen vom Typ (ml, mr) mit ml =mr aus? Man konkretisiere dies anhand der Modellmatrix aus der Vorlesung (s. Aufgabe8.5a) fur die Werte m = 102 bzw. n = m2 = 104 .

Ubung 4.10: (Praktische Aufgabe) a) Man schreibe ein MATLAB-Programm zur Be-rechnung der Cholesky-Zerlegung von symmetrischen positiv definiten Matrizen mit Hilfedes Algorithmus von Cholesky und wende es an fur die Modellmatrix

An =

Bm −Im−Im Bm

. . .. . .

. . . −Im−Im Bm

∈ Rn×n, Bm =

4 −1

−1 4. . .

. . .. . . −1

−1 4

∈ Rm×m


(n = m2) mit der m-dimensionalen Einheitsmatrix Im , fur m = 2, . . ., 20 . Man uber-prufe die Genauigkeit wieder durch die Probe ‖An − LT

nLn‖∞ . Welche Einsparungen anSpeicherplatz und a. Op. ließen sich hier durch Ausnutzen der Matrixstruktur erzielen?

b) Man wende das Programm auf die Hilbert-Matrix

Hn =

1 12

13

. . . 1n

12

13

14

. . . 1n+1

13

14

15

. . . 1n+2

......

.... . .

...1n

1n+1

1n+2

. . . 12n−1

,

an fur n = 2, . . ., 20 und plotte die Residuennorm ‖An − LTnLn‖∞ . Welche Ergebnisse

liefert hier das MATLAB-interne Programm zur Cholesky-Zerlegung?

Ubung 4.11: Betrachtet werde das Gleichungssystem Ax = b der Form

1 3 −4

3 9 −2

4 12 −6

2 6 2

x1

x2

x3

=

1

1

1

1

.

a) Man untersuche, ob das System losbar ist (mit Begrundung).

b) Man bestimme eine Losung nach der Methode der kleinsten Fehlerquadrate.

c) Ist diese Losung eindeutig?

d) Ist die Matrix ATA positiv definit?

Ubung 4.12: Wenn in dem Gleichungssystem von Aufgabe 9.1 einzelnen der Gleichungenbei der Losung mehr Gewicht beibemessen werden soll, z.B. weil die zugehorigen Meßwertezuverlassiger als die anderen sind, so kann dies dadurch berucksichtigt werden, daß statt‖Ax− b‖2 eine gewichtete Quadratsumme ‖D(Ax− b)‖2 minimiert wird. Dabei ist D =diag(dii) eine Diagonalmatrix mit Elementen dii > 0 . Wie lautet in diesem Fall daszugehorige Normalgleichungssystem?

Ubung 4.13: Man berechne die QR-Zerlegung der Matrix

A =

0 0 0 2

−2 1 0 0

0 −2 1 0

0 0 −2 1

mit Hilfe des Householder-Verfahrens.


Ubung 4.14: Nach dem ersten Keplerschen Gesetz bewegt sich ein Komet im Sonnensy-stem auf einer ebenen Bahn von Ellipsen- oder Hyperbelform, wenn Storungen durch diePlaneten vernachlassigt werden. Bezuglich eines in der Sonne zentrierten polaren (r, ϕ)-Koordinatensystems wird diese Bahn durch die sog. “Kegelschnittgleichung”

r =p

1 − e cos(ϕ)

beschrieben mit der sog. “Exzentrizitat” e und einem Parameter p . Fur 0 ≤ e < 1 liegteine Ellipse, fur e = 1 eine Parabel und fur e > 1 eine Hyperbel vor. Fur einen neuentdeckten Kometen wurden die folgenden Beobachtungen gemacht:

Meßtag 15. Jan. 15. April 15. Juni 15. MAug. 15. Sept.

r 10 5 2.5 1.3 1 (Einheiten)

cos(ϕ) ∼ 0, 63 ∼ 0, 39 ∼ 0, 12 ∼ −0, 31 ∼ −0, 59

Man bestimme mit Hilfe der Gaußschen Ausgleichsrechnung den Typ der Kometenbahn.(Hinweis: Man schreibe die Kegelschnittgleichung zunachst in der Form 1/p−e/p cos(ϕ) =1/r , die linear in 1/p und 1/e ist. Es genugt zweistellige Rechnung).

Ubung 4.15: (Praktische Aufgabe) a) Man schreibe ein Programm zur Berechnung derQR-Zerlegung einer Matrix A ∈ Rn×n mit dem Householder-Verfahren und teste es furdie Matrix aus Aufgabe 9.3.

b) Die numerische Stabilitat des Algorithmus untersuche man anhand der Hilbert-Matrix

Hn =

1 12

13

. . . 1n

12

13

14

. . . 1n+1

13

14

15

. . . 1n+2

......

.... . .

...1n

1n+1

1n+2

. . . 12n−1

,

fur n = 2k, k = 1, 2, . . ., 8 . Man uberprufe die Genauigkeit der QR-Zerlegung anhand derDefektnorm ‖A−QR‖∞ .

c) Die QR-Zerlegung einer Matrix A ∈ Rn×n liefert die Cholesky-Zerlegung der MatrixATA gemaß ATA = RTR . Man uberprufe die Qualitat dieser Zerlegung fur die Hilbert-Matrix Hn anhand der Defektnorm ‖ATA−RTR‖∞ und vergleiche dies mit der Cholesky-Zerlegung von ATA , welche mit Hilfe des Programms aus Aufgabe 7.5 erzeugt wird.

5 Nichtlineare Gleichungen

Es sei f eine (reellwertige) stetige Funktion auf einem Intervall I = [a, b] . Das einfachsteVerfahren zur Bestimmung von Nullstellen von f beruht auf der folgenden Konsequenzdes Zwischenwertsatzes fur stetige Funktionen: Existiert ein Teilintervall I0 = [a0, b0] ⊂ Imit f(a0)f(b0) < 0 , so hat f in I0 mindestens eine Nullstelle. Die sog. “Intervall-schachtelung” erzeugt nun ausgehend von einem solchen I0 eine Folge von IntervallenIt = [at, bt], t = 1, 2, . . . , welche jeweils mindestens eine Nullstelle von f enthalten,durch die Iteration

xt := 12(at + bt) , ( f(xt) = 0 ⇒ STOP ),

mit der Auswahlvorschrift

f(at)f(xt) < 0 ⇒ at+1 := at , bt+1 := xt ,

f(at)f(xt) > 0 ⇒ at+1 := xt , bt+1 := bt.

Offenbar ist dann at ≤ at+1 ≤ bt+1 ≤ bt und

|bt+1 − at+1| = 12|bt − at| = 2−t−1|b0 − a0|. (5.0.1)

Die monotonen Zahlenfolgen (at)t∈N, (bt)t∈N konvergieren gegen ein z ∈ I0 , welcheswegen f(z)2 = limt→∞ f(at)f(bt) ≤ 0 notwendig Nullstelle von f ist. Dieses Verfahrenist numerisch sehr stabil, aber auch sehr langsam; fur b0 − a0 = 1 erhalt man z.B. ausder obigen a priori Abschatzung (2−10 ≤ 10−3):

|x9 − z| < 10−3 , |x19 − z| < 10−6 , |x29 − z| < 10−9.

Die Intervallschachtelung fur stetige Funktionen liefert stets eine Nullstelle, sofern fur dasStartintervall ein Vorzeichenwechsel vorliegt. Dieses Vorgehen ist naturgemaß auf reelleFunktionen beschrankt. Die im folgenden betrachteten Verfahren sind dagegen teilweiseauch fur komplexwertige Funktionen anwendbar.

155


5.1 Das Newton-Verfahren im R1

Ist die gegebene Funktion f auf dem Intervall [a, b] stetig differenzierbar, so kann dieseZusatzinformation zur effizienteren Berechnung einer Nullstelle verwendet werden. Das(klassische) “Newton-Verfahren” (auch “Newton-Raphson1-Verfahren” genannt) ist mo-tiviert durch die folgende graphische Uberlegung (s. Abb. 5.1).

f(x)

xt xt+1 zxt+2

Abbildung 5.1: Geometrische Interpretation des Newton-Verfahrens

Im Punkt xt wird die Tangente an f(x) berechnet und deren Schnittpunkt mit der x-Achse als neue Naherung xt+1 fur die Nullstelle z von f genommen. Die Tangente istgegeben durch die Gleichung

T (x) = f ′(xt)(x− xt) + f(xt).

Ihre Nullstelle xt+1 ist bestimmt durch

xt+1 = xt −f(xt)

f ′(xt). (5.1.2)

Diese Iteration ist offenbar moglich, wenn die Ableitungswerte f ′(xt) nicht zu klein wer-den. In dieser Form gestattet das Newton-Verfahren es also, einfache Nullstellen zu ap-proximieren.

Satz 5.1 (Newton-Verfahren): Die Funktion f ∈ C2[a, b] habe im Innern des Inter-valls [a, b] eine Nullstelle z , und es sei

m := mina≤x≤b

|f ′(x)| > 0 , M := maxa≤x≤b

|f ′′(x)|.

1Joseph Raphson (1648-1715): Englischer Mathematiker; wirkte an der Universitat Cambride; seinBuch “Analysis Aequationum Universalis” (1660) enthalt bereits die Newton-Methode (50 Jahre vorNewton selbst); ubersetzte einige Werke Newtons (von Latein nach Englisch); wichtige eigene Beitragezur Analysis.

5.1 Das Newton-Verfahren im R1 157

Sei ρ > 0 so gewahlt, daß

q :=M

2mρ < 1, Kρ(z) := x ∈ R| |x− z| ≤ ρ ⊂ [a, b]. (5.1.3)

Dann sind fur jeden Startpunkt x0 ∈ Kρ(z) die Newton-Iterierten xt ∈ Kρ(z) definiertund konvergieren gegen die Nullstelle z . Dabei gelten die a priori Fehlerabschatzung

|xt − z| ≤ 2m

Mq(2t) , t ∈ N, (5.1.4)

und die a posteriori Fehlerabschatzung

|xt − z| ≤ 1

m|f(xt)| ≤

M

2m|xt − xt−1|2, t ∈ N. (5.1.5)

Beweis: Der Beweis erfordert einige Vorbereitungen. Fur Punkte x, y ∈ [a, b], x 6= y , giltaufgrund des Mittelwertsatzes der Differentialrechnung mit einem ζ ∈ [x, y] :

∣∣∣∣

f(x) − f(y)

x− y

∣∣∣∣= |f ′(ζ)| ≥ m,

und folglich

|x− y| ≤ 1

m|f(x) − f(y)|.

(Die Nullstelle z von f ist also die einzige in [a, b] .) Weiter gilt die Taylor-Formel mitRestglied zweiter Ordnung:

f(y) = f(x) + (y − x)f ′(x) + (y − x)2

1∫

0

f ′′(x+ s(y − x))(1 − s) ds

︸︷︷︸

=: R (y; x)

.

Mit Hilfe der Voraussetzung erhalten wir

|R(y; x)| ≤M |y − x|21∫

0

(1 − s) ds =M

2|y − x|2.

Fur x ∈ Kρ(z) setzen wir g(x) := x− f(x)f ′(x)

und finden

g(x) − z = x− f(x)

f ′(x)− z = − 1

f ′(x)f(x) + (z − x)f ′(x)︸︷︷︸

= −R (z; x)

.


Also ist

|g(x) − z| ≤ M

2m|x− z|2 ≤ M

2mρ2 < ρ, (5.1.6)

d. h.: g(x) ∈ Kρ(z) . Die Abbildung g bildet die Menge Kρ(z) in sich ab. Fur x0 ∈ Kρ(z)bleiben also alle Newton-Iterierten in Kρ(z) . Setzt man

ρt :=M

2m|xt − z|,

so impliziert (5.1.6), daß

ρt ≤ ρ2t−1 ≤ . . . ≤ ρ2t

0 , |xt − z| ≤ 2m

Mρ2t

0 .

Fur ρ0 = M2m

|x0 − z| ≤ M2mρ < 1 liegt also die Konvergenz xt → z(t → ∞) vor mit der

behaupteten a priori Fehlerabschatzung. Zum Beweis der a posteriori Fehlerabschatzungsetzt man in der Taylor-Formel y = xt, x = xt−1 , und erhalt

f(xt) = f(xt−1) + (xt − xt−1)f′(xt−1)

︸︷︷︸

= 0

+R(xt; xt−1)

bzw.

|xt − z| ≤ 1

m|f(xt) − f(z)

︸︷︷︸

= 0

| ≤ M

2m|xt − xt−1|2.


Fur eine zweimal stetig differenzierbare Funktion f existiert zu jeder einfachen Null-stelle z (f(z) = 0, f ′(z) 6= 0 ) stets eine (moglicherweise sehr kleine) Umgebung Kρ(z) ,fur welche die Voraussetzungen von Satz 5.1 erfullt sind. Das Problem beim Newton-Verfahren ist also die Bestimmung eines im “Einzugsbereich” der Nullstelle z gelegenenStartpunktes x0 . Ist ein solcher einmal gefunden, so konvergiert das Newton-Verfahrenenorm schnell gegen die Nullstelle z : Im Fall q ≤ 1

2gilt z.B. nach nur 10 Iterationsschrit-

ten bereits (210 > 1.000)

|x10 − z| ≤ 2m

Mq1.000 ∼ 2m

M10−300.

Beispiel 5.1: Newton-Verfahren zur Wurzelberechnung:Die n-te Wurzel einer Zahl a > 0 ist Nullstelle der Funktion f(x) = xn−a . Das Newton-Verfahren zur Berechnung von z = n

√a > 0 hat die Gestalt

xt+1 = xt −xn

t − a

nxn−1t

=1

n

(n− 1) xt +a

xn−1t

. (5.1.7)


Aufgrund von Satz 5.1 konvergiert xt → z (t → ∞) , wenn nur x0 nahe genug bei zgewahlt wird. Bei diesem einfachen Beispiel kann aber mit Hilfe der folgenden geome-trischen Betrachtung die Konvergenz fur jeden Startpunkt x0 > 0 gesichert werden (s.Abb. 5.1) Die monoton fallende Folge (xt)t∈N konvergiert notwendig gegen n

√a . Fur

hinreichend großes t ist dann xt i.m Einzugsbereich der Nullstelle z , und die Fehler-abschatzung von Satz 5.1 gelten mit diesem xt als Startpunkt. Auf diese Weise wird aufvielen Rechenern die Wurzel n

√a berechnet.

f(x)

x0

-a

x1

x2a1/n

x0 > 0 ⇒

xt > n√a , t ∈ N .

n√a < xt+1 < xt

Abbildung 5.2: Newton-Iteration zur Wurzelberechnung

Fur den Spezialfall n = 2 wollen wir den Einzugsbereich der quadratischen Konver-genz des Newton-Verfahrens bestimmen. Es gilt

xt+1 −√a =

1

2

xt +a

xt

−√a =

1

2xt

x2

t + a− 2xt

√a

=1

2xt(xt −

√a)2,

also fur t ≥ 1 (wegen xt >√a )

|xt+1 −√a| ≤ 1

2√a|xt −

√a|2.

Quadratische Konvergenz liegt vor fur Startwerte x0 mit der Eigenschaft

1

2√a|x0 −

√a| < 1 bzw. |x0 −

√a| < 2

√a.

Aus der Ungleichung√a ≤ xt , t ∈ N , ergibt sich noch die Beziehung

a

xt

≤ √a ≤ xt,

was fur ein Abbruchkriterium verwendet werden kann:

0 ≤ et := xt −a

xt≤ ε =⇒ STOP.


Die folgende Tabelle zeigt das Konvergenzverhalten der Newton-Iteration zur Berechnungvon x =

√2 = 1.414213562373095 . . . (16-stellige Rechnung). In jedem Iterationsschritt

verdoppelt sich die Anzahl der richtigen Dezimalen:

x0 = 2

x1 = 1.5

x2 = 1.416 , e2 ≤ 5 · 10−3

x3 = 1.41421568627451 , e3 ≤ 5 · 10−6

x4 = 1.41421356137469 , e4 ≤ 5 · 10−12.

Bemerkung 5.1: Die Bedingungen von Satz 5.1 lassen sich so modifizieren, daß auf dieVoraussetzung der Existenz einer Nullstelle verzichtet werden kann, und, ahnlich wiebeim Banachschen Fixpunktsatz, die Konvergenz der Newton-Folge gegen eine (lokaleindeutige) Nullstelle folgt. Diese Variante von Satz 5.1, der sog. “Satz von Newton-Kantorowitsch”, wird im Rahmen der Diskussion des Newton-Verfahrens im Rn bewiesenwerden.

Bemerkung 5.2: Das Hauptproblem bei der Durchfuhrung des Newton-Verfahrens istdie Bestimmung eines geeigneten Startwertes x0 , da der Einzugsbereich der quadratischenKonvergenz in der Praxis haufig sehr klein ist. Deshalb arbeitet man stets mit dem sog.“gedampften Newton-Verfahren”

xt+1 = xt − λtf(xt)

f ′(xt), (5.1.8)

mit einem “Dampfungsparameter” λt ∈ (0, 1] . Die geeignete Wahl dieses Dampfungs-parameters ist eine Wissenschaft fur sich. Sie wird spater im Zusammenhang mit demNewton-Verfahren im Rn diskutiert werden.

Mehrfache Nullstellen

Wir betrachten nun den kritischen Fall, daß mit dem Newton-Verfahren eine mehrfa-che Nullstelle berechnet werden soll. Sei dazu zunachst z eine zweifache Nullstelle derFunktion f , d. h.: f(z) = f ′(z) = 0, f ′′(z) 6= 0 . Fur die Newton-Iteration gilt dann

xt+1 = xt −f(xt) − f(z)

f ′(xt) − f ′(z)= xt −

f ′(ζt)

f ′′(ηt)

mit Zwischenpunkten ζt, ηt ∈ [xt, z] . Der Quotient f(xt)/f′(xt) bleibt also fur xt → z

wohl definiert. Sei nun allgemein z eine p-fache Nullstelle der Funktion f ∈ Cp+1[a, b] :

f(z) = . . . = f (p−1)(z) = 0 , f (p)(z) 6= 0.


Aus der Taylor-Formel um z

f(x) = f(z)︸︷︷︸

= 0

+ . . .+1

(p− 1)!(x− z)p−1 f (p−1)(z)

︸︷︷︸

= 0

+(x− z)p 1

p!f (p)(ζx)

︸︷︷︸

=: Q(z; x)

folgt durch Ableiten

f ′(x) = Q′(z; x)(x− z)p + pQ(z; x)(x− z)p−1.

Also ist fur f ′(x) 6= 0:

f(x)

f ′(x)=

(x− z)Q(z; x)

Q′(z; x)(x− z) + pQ(z; x)

=x− z

p− 1

p(x− z)2 Q′(z; x)

Q′(z; x)(x− z) + pQ(z; x).

Fur den Iterationsansatz

xt+1 = xt − αf(xt)

f ′(xt)(5.1.9)

folgt dann

xt+1 − z = xt − z − αf(xt)

f ′(xt)

= (xt − z)(

1 − α

p

)

+ (xt − z)2 αQ′(z; xt)

pQ′(z; xt)(xt − z) + p2Q(z; xt).

Bei der Wahl von α = p erhalt man fur das so modifizierte Newton–Verfahren

xt+1 = xt − pf(xt)

f ′(xt). (5.1.10)

ein analoges “quadratisches” Konvergenzverhalten wie im Fall einer einfachen Nullstelle.

Vereinfachtes Newton-Verfahren

Ist z Nullstelle einer stetig differenzierbaren Funktion f , so konvergiert die Newton-Iteration

xt+1 = xt −f(xt)

f ′(xt)→ z (t→ ∞),

wenn x0 hinreichend nahe bei z gewahlt war. Jeder Iterationsschritt erfordert die Aus-wertung der Ableitung f ′(xt) , was bei komplizierten (moglicherweise auch nur implizitdefinierten) Funktionen f unter Umstanden zuviel Aufwand erfordert. In solchen Fallen


geht man zum sog. “vereinfachten Newton-Verfahren” uber

xt+1 = xt −f(xt)

f ′(c)(5.1.11)

mit einem festen, geeignet gewahlten Punkt c . Diese Iteration ist Spezialfall der allge-meineren “Fixpunktiteration”

xt+1 = xt + σ f(xt) (5.1.12)

mit einer geeigneten Zahl σ ∈ R , σ 6= 0 , zur Berechnung einer Nullstelle von f . Kon-vergiert hier xt → z (t→ ∞) , so gilt im Limes

xt+1 = xt + σf(xt)

↓ ↓ ↓ (t→ ∞)

z = z + σf(z)

d. h.: z ist “Fixpunkt” der Abbildung g(x) = x+σf(x) und wegen σ 6= 0 notwendig Null-stelle von f . Der Vorteil der obigen Fixpunktiteration besteht in ihrer ableitungsfreienForm. Kriterien fur die Konvergenz einer Fixpunktiteration xt+1 = g(xt) , t = 0, 1, 2, . . . ,werden wir spater in einem etwas allgemeineren Rahmen herleiten.

Wir wollen nun noch das Newton-Verfahren zur Berechnung von Nullstellen von Po-lynomen

p(x) = a0 + a1x+ . . .+ anxn , an 6= 0,

spezialisieren. Zunachst verschafft man sich etwa (im Reellen) mit der Intervallschachte-lung einen groben Uberblick uber die Lage der Nullstellen. Nach Vorgabe einer Fehlerto-leranz ε≫ eps lautet der Newton-Algorithmus dann wie folgt:

1. Wahl eines Startwertes x ;

2. Auswertung von p(x) und p′(x) mit dem Horner Schema:

i = n, n− 1, . . . , 0 : αi = ai + αi+1x , βi = αi + βi+1x

(αn+1 = βn+1 = 0)

p(x) = α0 , p′(x) = β1 ,

(β1 = 0 : Startwert andern) sei β1 6= 0 ;

3. Newton-Korrektur q =α0

β1, |q| ≤ ε

ja : x wird akzeptiert;

nein : Iterationsschritt;

4. Iterationsschritt x := x− q , weiter mit (2).

5.2 Das Konvergenzverhalten iterativer Verfahren 163

5.2 Das Konvergenzverhalten iterativer Verfahren

Das Newton-Verfahren besitzt lokal in der Umgebung einer Nullstelle die charakteristischeKonvergenzeigenschaft

|xt − z| ≤ c|xt−1 − z|2. (5.2.13)

Man nennt es daher “quadratisch konvergent” oder auch “von 2-ter Ordnung”.

Definition 5.1: Allgemein spricht man bei einem Iterationsverfahren zur Berechnungeiner Große z von Konvergenz mit der “Ordnung” α, α ≥ 1 , wenn gilt

|xt − z| ≤ c|xt−1 − z|α , (5.2.14)

mit einer festen Konstante c > 0 . Im Fall α = 1 , d. h. “linearer” Konvergenz, heißt die“beste” Konstante c “lineare Konvergenzrate”. Gilt die Abschatzung

|xt − z| ≤ ct|xt−1 − z| (5.2.15)

mit einer Nullfolge ct → 0 (t→∞) , so spricht man von “superlinear” Konvergenz.

Im Fall α > 1 impliziert die Beziehung (5.2.14) wiederum Konvergenz xt → z (t→ ∞) ,wenn der Startwert x0 hinreichend nahe bei z liegt:

c1

α−1 |xt − z| ≤[

c1

α−1 |xt−1 − z|]α

≤ . . . ≤[

c1

α−1 |x0 − z|]

︸︷︷︸

<1 !

αt

→ 0.

Im Fall α = 1 folgt Konvergenz fur c < 1 :

|xt − z| ≤ c|xt−1 − z| ≤ . . . ≤ ct|x0 − z| → 0 (t→ ∞).

Bei Fixpunktiterationen xt+1 = g(xt) mit stetig differenzierbarer Abbildung g gilt

∣∣∣∣

xt+1 − z

xt − z

∣∣∣∣=

∣∣∣∣

g(xt) − g(z)

xt − z

∣∣∣∣→ |g′(z)| (t→ ∞),

d. h.: Die lineare Konvergenzrate ist asymptotisch (fur t → ∞ ) gerade gleich |g′(z)| .Im Falle g′(z) = 0 liegt also (mindestens) superlineare Konvergenz der Fixpunktiterationvor.

Definition 5.2: Ein Fixpunkt z einer stetig differenzierbaren Abbildung g heißt “anzie-hend”, wenn |g′(z)| < 1 ist, da dann die sukzessive Approximiert fur jeden hinreichendnahe bei z gelegenen Startwert gegen ihn konvergiert. Im Fall |g′(z)| > 1 heißt er “ab-stoßend”, da er durch sukzessive Approximation i. Allg. nicht angenahert werden kann.

Einen Hinweis zur Konstruktion von Verfahren hoherer Ordnung gibt der folgendeSatz.


Satz 5.2 (Iterative Verfahren): Die Funktion g sei in einer Umgebung des Fixpunk-tes z p-mal stetig differenzierbar mit p ≥ 2 . Genau dann hat die Fixpunktiterationxt+1 = g(xt) die genaue Ordnung p , wenn

g′(z) = . . . = g(p−1)(z) = 0 und g(p)(z) 6= 0. (5.2.16)

Beweis: Sei g′(z) = . . . = g(p−1)(z) = 0 . Die Taylor-Formel mit dem Restglied p-terOrdnung erhalt dann im Punkt z die Form

xt+1 − z = g(xt) − g(z) =

p−1∑

i=1

(xt − z)i

i!g(i)(z) +

(xt − z)p

p!g(p)(ζt),

und folglich

|xt+1 − z| ≤ 1

p!max |g(p)| |xt − z|p.

Sei nun umgekehrt die Iteration von p-ter Ordnung, d. h.: |xt+1 − z| ≤ c|xt − z|p . Gabees ein minimales m ≤ p − 1 mit g(m)(z) 6= 0 , aber g(i)(z) = 0 , i = 1, . . . , m − 1 , sokonvergierte jede Iteriertenfolge (xt)t∈N mit hinreichend kleinem |x0 − z| 6= 0 notwendiggegen z wie

|xt − z| = | 1

m!g(m)(ζt)| |xt−1 − z|m

Dies impliziert aber im Widerspruch zur Annahme:

|g(m)(z)| = limt→∞

|g(m)(ζt)| ≤ c m! limt→∞

|xt − z|p−m = 0.

Hieraus folgt auch, daß im Fall g′(z) = . . . = g(p−1)(z) = 0 , aber g(p)(z) 6= 0 , die Iterationnicht von hoherer als p-ter (ganzzahliger) Ordnung sein kann. Q.E.D.

Beispiel 5.2: Beim Newton-Verfahren zur Bestimmung einer einfachen Nullstelle derFunktion f ist g(x) = x− f(x)/f ′(x) also

g′(z) = 1 − f ′(z)2 − f(z)f ′′(z)

f ′(z)2= 0,

und i.allg. g′′(z) 6= 0 . Die Newton-Iteration ist also, wie wir schon gesehen haben, von2-ter Ordnung.

Beispiel 5.3: Bei einer Fixpunktiteration von mindestens 3-ter Ordnung muß g′(z) =g′′(z) = 0 gelten. Zur Konstruktion eines solchen Verfahrens zur Nullstellenbestimmungmachen wir den Ansatz

g(x) = x− r(x) + s(x)r(x)2 mit r(x) =f(x)

f ′(x).

5.2 Das Konvergenzverhalten iterativer Verfahren 165

Wegen r(z) = 0 und r′(z) = 1 ist hier automatisch g′(z) = 0 . Die zusatzliche Forderungg′′(z) = 0 wird z.B. erfullt fur

s(x) =r′′(x)

2r′(x)2.

Dieses Verfahren erfordert also die Auswertung der Ableitungen bis zur Ordnung 3 derFunktion f .

Zur Klarung der numerischen Bedeutung des Ordnungsbegriffes definieren wir fur eineIterationsfolge (xt)t∈N

et := xt − z (absoluter Fehler) , et :=et

z(relativer Fehler).

Haben xt und z die dezimalen Gleitpunktdarstellungen (mit gemeinsamen Exponentenund m gleichen Mantissenstellen)

z = am . . . a1.a−1 . . . · 10s , am 6= 0 ,

xt = am . . . a1.a−1 . . . · 10s,

so gilt

|et| =

∣∣∣∣

xt − z

z

∣∣∣∣≤ 10−m,

d. h.: Die Große

ρt := − log10 |et| = m

gibt ungefahr die Anzahl der richtigen Mantissendezimalen von xt an. Wegen

|et+1| =

∣∣∣∣

xt+1 − z

z

∣∣∣∣= |g′(ζt)|

∣∣∣∣

xt − z

z

∣∣∣∣, ζt ∈ [xt, xt+1],

giltρt+1 = − log10 |et+1| = − log10 |g′(ζt)| − log10 |et|

︸︷︷︸

ρt

und im Limes

ρt+1 − ρt → − log10 |g′(z)| (t→ ∞). (5.2.17)

Die numerische Bedeutung der “asymptotischen” linearen Konvergenzrate |g′(z)| einerFixpunktiteration ist also, daß sich in jedem Iterationsschritt (fur große t ) die Anzahlder richtigen Mantissendezimalen um − log10 |g′(z)| erhoht (fur |g′(z)| 6= 0 ).

Fur eine Iteration p-ter Ordnung mit p ≥ 2 gilt

|xt+1 − z| =1

p!|g(p)(ζt)| |xt − z|p , t ≥ 1,


mit ζt→z (t→∞) . Also ist in diesem Fall

|et+1| =

∣∣∣∣

xt+1 − z

z

∣∣∣∣=

∣∣∣∣

1

p!g(p)(ζt)

∣∣∣∣|z|p−1

︸︷︷︸

=: σt

∣∣∣∣

xt − z

z

∣∣∣∣

p

︸︷︷︸

= |et|p

und

σt →∣∣∣∣

1

p!g(p)(z)

∣∣∣∣|z|p−1 (t→ ∞).

Es folgt die Beziehung (ρt = − log10 |et|)

ρt+1 = p ρt − log10 σt,

und hieraus wegen ρt→ ∞ (t→∞)

limt→∞

ρt+1

ρt= p. (5.2.18)

Dies laßt sich so interpretieren, daß sich bei einer Iteration p-ter Ordnung (fur großet ) die Anzahl der richtigen Mantissendezimalen in jedem Schritt etwa ver-p-facht. Dieswird durch unser obiges Beispiel beim Newton-Verfahren bestatigt. Wir fassen die bisherabgeleiteten reglen zusammen:

Regel 5.2.1: Bei einem “linear” konvergenten Iterationsverfahren erhoht sich in jedemSchritt die Anzahl von exakten Dezimalstellen in der Naherung in etwa um den Sum-manden | log10(g

′(z))| ; bei einer Iteration der Ordnung p > 1 ver-p-facht sich in jedemSchritt die Anzahl der exakten Dezimalstellen.

5.3 Interpolationsmethoden 167

5.3 Interpolationsmethoden

Das Ziel ist die iterative Berechnung von Nullstellen ohne Auswertung von Ableitungen,aber effizienter als mit Intervallschachtelung oder einfacher sukzessiver Approximation.Dabei werden wir auf ein Iterationsverfahren mit nicht ganzzahliger Ordnung gefuhrt.

Die “Sekantenmethode” berechnet ausgehend von einem Paar von Werten xt−1, xt dieneue Iterierte xt+1 als Nullstelle der Geraden (Sekante) durch die Punkte (xt−1, f(xt−1)) ,(xt, f(xt)) (s. Abb. 5.3):

f(x)

xt xt+1 zxt+2

s(x) = f(xt) + (x− xt)f(xt) − f(xt−1)

xt − xt−1

Iteration:

xt+1 = xt − f(xt)xt − xt−1

f(xt) − f(xt−1).

Abbildung 5.3: Geometrische Interpretation des Sekanten-Verfahrens

Im Gegensatz zu den bisher betrachteten Verfahren handelt es sich hierbei um ein sog.“Zweischrittverfahren”, d. h.: Die Iterierte xt+1 wird jeweils aus den beiden vorausge-henden Iterierten xt , xt−1 berechnet. Zum Starten der Sekantenmethode sind zwei An-fangsschatzungen x0 , x1 fur die Nullstelle erforderlich. Analog zum Konvergenzsatz 5.1fur das Newton-Verfahren haben wir auch eine Konvergenzaussage fur die Sekantenme-thode. Dabei spielen die durch die Vorschrift

γ0 = γ1 = 1 , γt+1 = γt + γt−1 , t ∈ N,

definierten sog. “Fibonacci2-Zahlen” γt eine wichtige Rolle.

Satz 5.3 (Sekanten-Methode): Die Funktion f ∈ C2[a, b] habe im Innern des Inter-valls [a, b] eine Nullstelle z , und es sei

m := mina≤x≤b

|f ′(x)| > 0 , M := maxa≤x≤b

|f ′′(x)| <∞. (5.3.19)

2Leonardo Pisano (aus Pisa), genannt Fibonacci (um 1170 - um 1250): “erster” bedeutender Mathe-matiker des Abendlandes; gehorte zum Gelehrtenkreis um Kaiser Friedrich II; brachte von ausgedehntenReisen eine systematische Einfuhrung in das indisch-arabische Zahlensystem nach Europa; in seinem Re-chenbuch “Liber abacci” untersuchte er u.a. die nach ihm benannte Folge als einfaches Modell fur dasWachstum von Populationen.


Sei ferner ρ > 0 so gewahlt, daß

q ≡ M

2mρ < 1, Kρ(z) = x ∈ R | |x− z| ≤ ρ ⊂ [a, b].

Dann sind fur jedes Paar von Startwerten x0, x1 ∈ Kρ(z) , x0 6= x1 , die Iterierten xt ∈Kρ(z) der Sekantenmethode wohl definiert und konvergieren gegen die Nullstelle z . Dabeigelten die a priori Fehlerabschatzung

|xt − z| ≤ 2m

Mqγt , t ∈ N, (5.3.20)

und die a posteriori Fehlerabschatzung

|xt − z| ≤ 1

m|f(xt)| ≤

M

2m|xt − xt−1| |xt − xt−2| , t ∈ N. (5.3.21)

Beweis: Die Argumentation ist ahnlich wie im Beweis von Satz 5.1 fur das Newton-Verfahren. Fur je zwei Punkte x, y ∈ [a, b], x 6= y , gilt wieder

|x− y| ≤ 1

m|f(x) − f(y)|,

woraus u.a. die Eindeutigkeit der Nullstelle z folgt. Weiter ist

f(x) − f(y)

x− y= −

∫ 1

0

d

drf(x+ r(y − x))

dr

x− y=

∫ 1

0

f ′(x+ r(y − x)) dr.

Mit einem dritten Punkt ζ ∈ [a, b] , ζ 6= x , ergibt sich hiermit

f(x) − f(y)

x− y− f(x) − f(ζ)

x− ζ=

∫ 1

0

f ′(x− r(y − x)) − f ′(x+ r(ζ − x))

dr

= −∫ 1

0

∫ r

0

d

dsf ′(x+ r(y − x) + s(ζ − y)) ds

dr

=

∫ 1

0

∫ r

0

f ′′(x+ r(y − x) + s(ζ − y)) ds

dr (y − ζ),

bzw.∣∣∣f(x) − f(y)

x− y− f(x) − f(ζ)

x− ζ

∣∣∣ ≤ M

2|y − ζ |.

Fur Punkte x, y ∈ Kρ(z) , x 6= y, x 6= z, y 6= z definieren wir

g(x, y) := x− f(x)x− y

f(x) − f(y).


Dann gilt

g(x, y)− z = x− z − f(x)x− y

f(x) − f(y)

=x− y

f(x) − f(y)

(x− z)f(x) − f(y)

x− y− f(x) + f(z)

︸︷︷︸

= 0

und folglich

|g(x, y) − z| ≤ |x− z|∣∣f(x) − f(y)

x− y− f(x) − f(z)

x− z

∣∣

≤ M

2m|x− z| |y − z| ≤ M

2mρ2 < ρ.

Die Iterierten xt der Sekantenmethode bleiben also in der Menge Kρ(z) , und es gilt

|xt+1 − z| ≤ M

2m|xt − z| |xt−1 − z|.

Setzt man ρt := M2m

|xt − z| , so folgt

ρt+1 ≤ ρtρt−1 , t ∈ N,

d. h. mit ρ0 ≤ q , ρ1 ≤ q gilt ρt ≤ qγt , t ∈ N . Wegen γt → ∞ (t → ∞) und q < 1konvergiert also

|xt − z| =2m

Mρt ≤ 2m

Mqγt → 0 (t→ ∞).

Zum Nachweis der a posteriori Fehlerabschatzung setzen wir oben x = xt−1 , y = xt undζ = xt−2 (xt−2 6= xt−1 , da sonst bereits f(xt−1) = 0 ) und finden

|xt − z| ≤ 1

m|f(xt) − f(z)|

≤ 1

m

∣∣∣f(xt−1) + (xt − xt−1)

f(xt) − f(xt−1)

xt − xt−1

∣∣∣

≤ 1

m|xt − xt−1|

∣∣∣f(xt) − f(xt−1)

xt − xt−1− f(xt−1) − f(xt−2)

xt−1 − xt−2

∣∣∣

≤ M

2m|xt − xt−1| |xt − xt−2|.

Q.E.D.


Zur Beurteilung der Konvergenzgeschwindigkeit der Sekantenmethode benotigen wirInformationen uber das Anwachsen der Fibonacci-Zahlen γt fur t→ ∞ .

Hilfssatz 5.1: Die Fibonacci-Zahlen verhalten sich asymptotisch wie

γt ∼λ1√

5λt

1 ∼ 0.723 · (1.618)t, (5.3.22)

wobei λ1 := 12(1 ±

√5) gerade der sog. “goldene Schnitt” ist.

Beweis: Die Fibonacci-Zahlen genugen nach Konstruktion der (linearen) homogenen Dif-ferenzengleichung

γt+2 − γt+1 − γt = 0 , t ≥ 0. (5.3.23)

Zu ihrer Losung machen wir den Ansatz γt = λt und erhalten die Gleichung

λt(λ2 − λ− 1) = 0

zur Bestimmung von λ . Die Wurzeln λ1,2 = 12(1 ±

√5) der quadratischen Gleichung

λ2 − λ− 1 = 0 ergeben durch

γt = c1λt1 + c2λ

t2 , c1, c2 beliebig, (5.3.24)

die allgemeine Losung der Differenzengleichung. Durch Berucksichtigung der Anfangsbe-dingungen γ0 = γ1 = 1 werden die Konstanten c1, c2 festgelegt:

c1 + c2 = 1

c1λ1 + c2λ2 = 1

⇒ c1 =1 − λ2

λ1 − λ2=

λ1√5, c2 =

λ1 − 1

λ1 − λ2= − λ2√

5.

Die Fibonacci-Zahlen haben also die Gestalt

γt =1√5

λt+1

1 − λt+12

, λ1,2 =

1

2(1 ±

√5). (5.3.25)

Asymptotisch fur t→ ∞ verhalt sich γt wie

γt ∼λ1√

5λt

1 ∼ 0.723 · (1.618)t,


Die Sekantenmethode konvergiert also asymptotisch mindestens so schnell wie ein Ein-Schrittverfahren der Ordnung p = 1.6 . In jedem Schritt ist dabei nur eine neue Funkti-onsauswertung, namlich die von f(xt) , erforderlich. Ein Schritt des Newton-Verfahrens(Auswertung von f(xt) und f ′(xt) ) ist also mindestens so aufwendig wie zwei Schrit-te der Sekantenmethode. Faßt man jedoch zwei Schritte der Sekantenmethode zu einem


Makroschritt zusammen, so erhalt man wegen

|x2t − z| ≤ 2m

Mqγ2t , γ2t ∼ 0.723 (2.618)t (λ2

1 = λ1 + 1), (5.3.26)

ein Verfahren der Ordnung p ≥ 2.6 . Bei gleichem Arbeitsaufwand konvergiert also dieSekantenmethode asymptotisch (fur große t ) schneller als das Newton-Verfahren. Diesertheoretische Vorteil wird aber in der Praxis oft durch eine große Rundungsfehleranfallig-keit der Sekantenmethode relativiert. Konvergiert namlich hier f(xt) → 0 monoton (mitnicht alternierenden Vorzeichen), so tritt im Sekantenschritt

xt+1 = xt − f(xt)xt − xt−1

f(xt) − f(xt−1). (5.3.27)

Ausloschung auf. Zur Stabilisierung der Methode kombiniert man sie mit der Intervall-schachtelungsidee zur sog. “regula falsi”.

Definition 5.3: Werden im Sekanten-Verfahren die Intervallendpunkte at < bt so gewahlt,daß f(at)f(bt) < 0 ist, d. h. daß f eine Nullstelle z ∈ (at, bt) hat, so spricht man vonder “Regula falsi”.

Beim Sekantenschritt unter berucksichtigung der Regula falsi,

xt := at − f(at)at − bt

f(at) − f(bt), (5.3.28)

tritt dann keine Ausloschung im Term f(at)− f(bt) auf, solange bt − at ≫ eps . Offenbarist at ≤ xt ≤ bt . Das neue Intervall [at+1, bt+1] wird bestimmt durch die Vorschrift:(f(xt) = 0 ⇒ STOP )

f(xt)f(at) > 0 =⇒ at+1 = xt , bt+1 = bt ,

f(xt)f(at) < 0 =⇒ at+1 = at , bt+1 = xt.(5.3.29)

Die regula falsi ist offensichtlich numerisch stabiler als die ihr zugrunde liegende Sekan-tenmethode, doch konvergiert sie i.allg. linear. In Extremfallen ist sie sogar langsamer(großere Konvergenzrate) als das einfache Intervallschachtelungsverfahren.


5.4 Methode der sukzessiven Approximation im Rn

Im folgenden betrachten wir iterative Verfahren zur Losung nichtlinearer Gleichungssys-teme im Rn

fi(x1, . . . , xn) = 0 , i = 1, . . . , n, (5.4.30)

bzw. f(x) = 0 mit f = (f1, . . . , fn)T und x = (x1, . . . , xn)T . Zur Berechnung einerLosung z verwendet die sog. “Methode der sukzessiven Approximation” die Iteration (inAnlehnung an das vereinfachte Newton-Verfahren in einer Dimension und unter Hochstel-lung des Iterationsindexes bei vektor- oder matrix-wertigen Großen)

xt+1 = xt + C−1f(xt) , t = 0, 1, 2, . . . (5.4.31)

mit einer geeigneten regularen Matrix C ∈ Rn×n . Konvergiert dann xt → z (t → ∞) ,so ist fur stetiges f im Limes z = z + C−1f(z) bzw. f(z) = 0 . Die Losung z desGleichungssystems ist also ein sog. “Fixpunkt” der Abbildung g(x) := x+ C−1f(x) .

Wir wollen nun die Konvergenz von Fixpunktiterationen der Form

xt+1 = g(xt) , t = 0, 1, 2, . . . , (5.4.32)

untersuchen. Dazu sei im folgenden ‖ · ‖ eine beliebige Vektornorm auf Rn , ‖ · ‖ diezugehorige naturliche Matrizennorm

Definition 5.4: Sei G ⊂ Rn eine (nichtleere) abgeschlossene Menge. Eine Abbildungg : G→ Rn heißt “Lipschitz3-stetig” (kurz “L-stetig”), wenn mit einem q > 0 gilt:

‖g(x) − g(y)‖ ≤ q ‖x− y‖, x, y ∈ G. (5.4.33)

Ist die sog. “Lipschitz-Konstante” q < 1 , so nennt man g eine “Kontraktion” auf G .

Beispiel 5.4: a) Die Funktion f(x) = |x| ist L-stetig auf ganz R , wegen

| |x| − |y| | ≤ |x− y|.

b) Die Funktion f(x) =√

|x| ist nicht L-stetig bei x = 0 :

| |x|1/2 − |0|1/2 | = |x|1/2 ≥ |x|−1/2|x− 0|.

Der folgende fundamentale “Banachsche4Fixpunktsatz” sichert die Existenz von Fix-punkten von Kontraktionen.

3Rudolf O.S. Lipschitz (1832-1903): Deutscher Mathematiker aus Konigsberg; seit 1864 Prof. in Bonn;arbeitete auf verschiedenen Gebieten der Mathematik.

4Stefan Banach (1892-1945): Polnischer Mathematiker; Prof. in Lvov; begrundete dieFunktionalanalysis.

5.4 Methode der sukzessiven Approximation im Rn 173

Satz 5.4 (Sukzessive Approximation): Sei G ⊂ Rn eine nichtleere, abgeschlossenePunktmenge und g : G→ G eine Kontraktion. Dann existiert genau ein Fixpunkt z ∈ Gvon g , und fur jeden Startpunkt x0 ∈ G konvergiert die Folge der durch (5.4.32) erzeugtensukzessiven Approximationen xt → z (t → ∞) . Es gelten die a posteriori und a prioriFehlerabschatzungen

‖xt − z‖ ≤ q

1 − q‖xt − xt−1‖ ≤ qt

1 − q‖x1 − x0‖. (5.4.34)

Beweis: Da g die Menge G in sich abbildet, sind fur x0 ∈ G die Iterierten xt =g(xt−1) = . . . = gt(x0) definiert, und es gilt

‖xt+1 − xt‖ = ‖g(xt) − g(xt−1)‖≤ q ‖xt − xt−1‖ ≤ . . . ≤ qt ‖x1 − x0‖.

Wir wollen zeigen, daSS (xt)t∈N eine Cauchy-Folge ist. Seien dazu ε > 0 und m ≥ 1beliebig vorgegeben:

‖xt+m − xt‖ ≤ ‖xt+m − xt+m−1‖ + . . .+ ‖xt+1 − xt‖≤ qt+m−1 + . . .+ qt︸︷︷︸

‖x1 − x0‖

= qt

m−1∑

i=0

qi = qt 1 − qm

1 − q≤ ε furt ≥ t(ε).

Also existiert z = limt→∞ xt ∈ G (wegen der Abgeschlossenheit von G ) mit z = g(z) .Die Eindeutigkeit des Fixpunktes z folgt sofort aus der Kontraktionseigenschaft von g .Zum Nachweis von (5.4.34) schreiben wir

‖xt+m − xt‖ ≤ ‖xt+m − xt+m−1‖ + . . .+ ‖xt+1 − xt‖≤ qm + . . .+ q︸︷︷︸

≤ q/(1 − q)

‖xt − xt−1‖ , m ≥ 1.

Durch Grenzubergang m→ ∞ folgt daraus

‖z − xt‖ ≤ q

1 − q‖xt − xt−1‖ ≤ qt

1 − q‖x1 − x0‖.

Q.E.D.

Zur Anwendung des Banachschen Fixpunktsatzes auf eine Abbildung g : G → Rn

muß gezeigt werden, daß es eine abgeschlossene (nichtleere) Teilmenge von G gibt, dievon g in sich abgebildet wird, und auf der g eine Kontraktion ist. Sei g eine Kontraktionauf der Kugel

Kρ(c) ≡ x ∈ Rn | ‖x− c‖ ≤ ρ , ρ > 0,


um einen Punkt c ∈ Rn mit Lipschitz-Konstante q < 1 . Fur x ∈ Kρ(c) gilt dann

‖g(x) − c‖ ≤ ‖g(x) − g(c)‖︸︷︷︸

≤ qρ

+‖g(c) − c‖.

Unter der Bedingung

‖g(c) − c‖ ≤ (1 − q)ρ (5.4.35)

bildet dann g die Menge Kρ(c) in sich ab. Ist g differenzierbar, so wird die Matrix

g′(x) ≡( ∂gi

∂xj

)

i,j=1,...,n∈ R

n×n

der partiellen Ableitungen die “Jacobi5-Matrix” genannt.

Hilfssatz 5.2 (L-Stetigkeit): Die Abbildung g : G→ Rn sei stetig differenzierbar, unddie Menge G sei konvex. Dann gilt

‖g(x) − g(y)‖ ≤ supζ∈G

‖g′(ζ)‖ ‖x− y‖, x, y ∈ G, (5.4.36)

d. h.: Im Falle supζ∈G ‖g′(ζ)‖ < 1 ist g eine Kontraktion auf G .

Beweis: Seien x, y ∈ G . Wir setzen fur i = 1, . . . , n :

ϕi(s) := gi(x+ s(y − x)) , 0 ≤ s ≤ 1,

und haben damit

gi(y) − gi(x) = ϕi(1) − ϕi(0) =

∫ 1

0

ϕ′i(s) ds.

Wegen

ϕ′i(s) =

n∑

j=1

∂gi

∂xj

(x+ s(y − x))(y − x)j

und den Stetigkeitseigenschaften der Vektornorm folgt

‖g(y) − g(x)‖ =∥∥∥

∫ 1

0

g′(x+ s(y − x)) · (y − x) ds∥∥∥

≤∫ 1

0

‖g′(x+ s(y − x))‖ ds ‖y − x‖ ≤ supζ∈G

‖g′(ζ)‖ ‖y − x‖.

Dies impliziert die Bahauptung. Q.E.D.

5Carl Gustav Jakob Jacobi (1804-1851): Deutscher Mathematiker; schon als Kind hochbegabt; wirk-te in Konigsberg und Berlin; Beitrage zu vielen Bereichen der Mathematik: Zahlentheorie, elliptischeFunktionen, partielle Differentialgleichungen, theoretische Mechanik.


Korollar 5.1: Mit Hilfe der Abschatzung aus Hilfssatz 5.2 und (5.4.35) ergibt sich, daßes zu jedem Fixpunkt z ∈ G von g , in dem ‖g′(z)‖ < 1 gilt, eine Umgebung

Kρ(z) = x ∈ Rn| ‖x− z‖ ≤ ρ ⊂ G

gibt, so daß g eine Kontraktion von Kρ(z) in sich ist.

Wir betrachten nun wieder die Losung der Gleichung f(x) = 0 mit Hilfe der sukzes-siven Approximation

xt+1 = xt + C−1f(xt) , t = 0, 1, 2, . . . . (5.4.37)

Nach den obigen Uberlegungen ist die Konvergenz dieser Iteration z.B. gesichert, wennf auf einer geeigneten Kugel Kρ(c) ⊂ Rn stetig differenzierbar ist, und wenn dort gilt

supζ∈Kρ(c)

‖I + C−1f ′(ζ)‖ =: q < 1 , ‖C−1f(c)‖ ≤ (1 − q)ρ . (5.4.38)

Beispiel 5.5: Seien A ∈ Rn×n und b ∈ Rn gegeben. Das lineare GleichungssystemAx = b ist aquivalent zur Nullstellenaufgabe f(x) := b − Ax = 0 . Zu deren iterativenLosung betrachten wir mit einer regularen Matrix C ∈ Rn×n die Fixpunktaufgabe

x = g(x) := x+ C−1f(x) = x+ C−1(b−Ax) = (I − C−1A)︸︷︷︸

= B

x+ C−1b︸︷︷︸

= c

.

Die Matrix B := I−C−1A wird die “Iterationsmatrix” der zugehorigen Fixpunktiteration(“sukzessive Approximation”) genannt:

xt+1 = BxT + c, t = 1, 2, . . ..

Die Abbildung g ist wegen

‖g(x) − g(y)‖ = ‖B(x− y)‖ ≤ ‖B‖ ‖x− y‖

fur ‖B‖ < 1 eine Kontraktion auf ganz Rn . Dabei ist ‖ · ‖ eine geeignete (naturliche)Matrizennorm. Nach dem Banachschen Fixpunktsatz konvergiert daher die sukzessiveApproximation gegen den (eindeutig bestimmten) Fixpunkt der Abbildung g bzw. dieLosung des Gleichungssystems Ax = b .

Beispiel 5.6: Die Funktion f(x) = cosh(x) − 2x = 12(ex + e−x) − 2x hat genau zwei

Nullstellen z1 ∼ 0.59 , z2 ∼ 2.1 . Zu ihrer Approximation machen wir den Ansatz

g(x) = x+ 12cosh(x) − 2x = 1

2cosh(x), g′(x) = 1

2sinh(x),

Offensichtlich bildet g das Intervall [0, z2] in sich ab. Da die Beziehung

max0≤x≤b

|g′(x)| = 12sinh(b) < 1 (arcsinh(2) = 1.44 . . .)


notwendig b < 2 voraussetzt, muß |g′(z2)| > 1 sein. Fur alle Startwerte x0 ∈ (z2,∞)divergieren die Iterierten xt → ∞ fur t → ∞ . Tatsachlich konvergiert aber xt →z1 (t→ ∞) sogar fur alle x0 ∈ [0, z2] (geometrische Uberlegung). Die Bedingung, daß guberall eine Kontraktion sein muß, ist nicht notwendig fur die Konvergenz der sukzessivenApproximation. Der Fixpunkt z1 mit |g′(z1)| < 1 in Beispiel 5.4 ist also “anziehend”,der Fixpunkt z2 dagegen “abstoßend”, da hier wegen |g′(z2)| > 1 in jeder Umgebungvon z2 Startpunkte x0 existieren, fur die die sukzessive Approximation nicht gegen z2konvergiert.

0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

z1 1 2z2

...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...........................................0.5 ∗ cosh(x)

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

....x

g(x)

Abbildung 5.4: Nullstellenproblem

Nach Wahl einer Fehlertoleranz ε > eps (z.B.: ε = 10−4 ) wird ausgehend von x0 = 0iteriert gemaß xt+1 = 1

2cosh(xt)(t = 0, 1, 2, . . .) bis

∣∣∣∣

xt+1 − xt

xt+1

∣∣∣∣≤ ε.

x1 = 0.5, x2 = 0.563, . . ., x7 = 0.58931, x8 = 0.58936, . . ., x19 = 0.5893877633.∣∣∣∣

x8 − x7

x8

∣∣∣∣≤ 0.8532 · 10−4.

Auf dem Intervall [0, 1] gilt

q = max0≤x≤1

|g′(x)| = 12

sinh(1) ∼ 0.6.

Die a priori Fehlerabschatzungen von Satz 5.2 ergibt dann

|x8 − z1| ≤0.68

1 − 0.6|x1 − x0| ∼ 2 · 10−2.


Beispiel 5.7: Zur Bestimmung der Quadratwurzel A1/2 ∈ Rn×n einer positiv definitenMatrix A ∈ Rn×n betrachtet man die Abbildung

g(X) = 12(X2 +B)

mit der Matrix B = I − A . Dies wird motiviert durch die Aquivalenz

Z = g(Z) = 12(Z2 +B) ⇔ (I − Z)2 = I −B = A,

bzw. I−Z = A1/2 . Im Falle ‖B‖ = q < 1 gilt fur X, Y ∈ Kq(0) = C ∈ Rn×n | ‖C‖ ≤ q

‖g(X)‖ ≤ 1

2(‖X‖2 + ‖B‖) ≤ 1

2(q2 + q) ≤ q

und

‖g(X) − g(Y )‖ =1

2‖X2 − Y 2‖ =

1

2‖X(X − Y ) + (X − Y )Y ‖

≤ 1

2(‖X‖ + ‖Y ‖) ‖X − Y ‖ ≤ q‖X − Y ‖,

d. h.: g ist eine Kontraktion der abgeschlossenen Teilmenge Kq(0) ⊂ Rn×n in sich. Nachdem Banachschen Fixpunktsatz existiert also genau ein Fixpunkt Z ∈ Kq(0) von g , unddie Folge der sukzessiven Iterierten X t = g(X t−1) , t ∈ N , konvergiert fur jeden StartwertX0 ∈ Kq(0) : X t → Z (t → ∞) . Wegen der obigen Aquivalenz ist dann I − Z = A1/2 .Alle Iterierten X t und damit auch der Fixpunkt Z sind symmetrisch. Wegen ‖Z|| ≤ qist daher I −Z auch positiv definit, so daß mit A1/2 := I −Z die eindeutug bestimmte,“positive” Wurzel von A bestimmt ist.


5.5 Das Newton-Verfahren im Rn

Wir betrachten nun das Newton-Verfahren zur Losung nichtlinearer Gleichungssystememit stetig differenzierbaren Abbildungen f : D ⊂ Rn → Rn . Formal lautet die Newton-Iteration

xt+1 = xt − f ′(xt)−1f(xt) , t = 0, 1, 2 . . . , (5.5.39)

mit der Jacobi-Matrix f ′(·) von f . In jedem Iterationsschritt ergibt sich ein lineares(n× n)-Gleichungssystem mit f ′(xt) als Koeffizientenmatrix:

f ′(xt)xt+1 = f ′(xt)xt − f(xt) , t = 0, 1, 2 . . . . (5.5.40)

Dies macht das Newton-Verfahren wesentlich aufwendiger als die einfache Fixpunktitera-tion; dafur konvergiert es aber auch sehr viel schneller. Das Newton-Verfahren wird meistin Form einer Defektkorrekturiteration durchgefuhrt (mit dem “Defekt” dt := −f(xt) ):

f ′(xt)δxt = −f(xt), xt+1 = xt + δxt , t = 0, 1, 2 . . . . (5.5.41)

Dies spart gegenuber (5.5.40) pro Iterationsschritt eine Matrix-Vektor-Multiplikation.

Im Folgenden geben wir ein Konvergenzresultat fur das Newton-Verfahren, welches ne-benbei auch die Existenz einer Nullstelle sichert. Mit ‖·‖ seien die euklidische Vektornormund ebenso die zugehorige naturliche Matrizennorm bezeichnet. Sei f : G ⊂ R

n → Rn

eine differenzierbare Abbildung, fur die eine Nullstelle z gesucht ist. Die Jacobi-Matrixf ′(·) sei auf der Niveaumenge

D∗ := x ∈ G| ‖f(x)‖ ≤ ‖f(x∗)‖

zu einem festen Punkt x∗ ∈ G regular mit gleichmaßig beschrankter Inverser:

‖f ′(x)−1‖ ≤ β, x ∈ D∗.

Ferner sei f ′(·) auf D∗ gleichmaßig L-stetig:

‖f ′(x) − f ′(y)‖ ≤ γ‖x− y‖, x, y ∈ D∗.

Mit diesen Bezeichnungen haben wir den folgenden Satz von Newton-Kantorovich6

Satz 5.5 (Newton-Kantorovich): Unter den vorausgehenden Voraussetzungen gelte furden Startpunkt x0 ∈ D∗ mit α := ‖f ′(x0)−1f(x0)‖ die Bedingung

q := 12αβγ < 1.

6Leonid Vitalyevich Kantorovich (1912-1986): Russischer Mathematiker; Professor an der UniversitatLeningrad (1934-1960), an der Akademie der Wissenschaften (1961-1971) und an der Universitat Moskau(1971-1976); fundamentale Beitrage zur Anwendung der linearen Optimierung in der Okonomie, zurFunktionalanalysis und Numerik.

5.5 Das Newton-Verfahren im Rn 179

Dann erzeugt die Newton-Iteration

f ′(xt)xt+1 = f ′(xt)xt − f(xt), t ≥ 1,

eine Folge (xt)t∈N ⊂ D , welche quadratisch gegen eine Nullstelle z ∈ D von f konver-giert, mit der a priori Fehlerabschatzung

‖xt − z‖ ≤ α

1 − qq(2t−1) , t ≥ 1. (5.5.42)

Beweis: Zum Startpunkt x0 ∈ D∗ gehort die abgeschlossene, nicht leere Niveaumenge

D0 := x ∈ G| ‖f(x)‖ ≤ ‖f(x0)‖ ⊂ D∗.

Wir betrachten die stetige Abbildung g : D0 → Rd : g(x) := x− f ′(x)−1f(x) .

(i) Wir wollen zunachst einige Hilfsresultate ableiten. Fur x ∈ D0 sei

xr := x− rf ′(x)−1f(x), 0 ≤ r ≤ 1,

und R := maxr| xs ∈ D0, 0 ≤ s ≤ r = maxr| ‖f(xs)‖ ≤ ‖f(x0)‖, 0 ≤ s ≤ r . Fur dieVektorfunktion h(r) := f(xr) gilt

h′(r) = −f ′(xr)f′(x)−1f(x), h′(0) = −h(0).

Fur 0 ≤ r ≤ R ergibt dies

‖f(xr)‖ − (1−r)‖f(x)‖ ≤ ‖f(xr) − (1−r)f(x)‖ = ‖h(r) − (1−r)h(0)‖

=∥∥∥

∫ r

0

h′(s) ds+ rh(0)∥∥∥ =

∥∥∥

∫ r

0

h′(s) − h′(0) ds∥∥∥

≤∫ r

0

‖h′(s) − h′(0)‖ ds,

und ferner wegen xs − x = −sf ′(x)−1f(x) :

‖h′(s) − h′(0)‖ = ‖f ′(xs) − f ′(x)f ′(x)−1f(x)‖≤ γ‖xs − x‖‖f ′(x)−1f(x)‖ ≤ γs‖f ′(x)−1f(x)‖2.

Dies ergibt

‖f(xr)‖ − (1−r)‖f(x)‖ ≤ 12r2γ‖f ′(x)−1f(x)‖2. (5.5.43)

Mit der Große αx := ‖f ′(x)−1f(x)‖ und ‖f ′(x)−1‖ ≤ β folgt

‖f(xr)‖ ≤ (1 − r + 12r2αxβγ)‖f(x)‖.

Im Falle αx ≤ α gilt dann wegen der Voraussetzung 12αβγ < 1 :

‖f(xr)‖ ≤ (1 − r + r2)‖f(x)‖.


Folglich ist in diesem Fall R = 1 , d.h.: g(x) ∈ D0 . Fur solche x ∈ D0 gilt weiter

‖g(x) − g2(x)‖ = ‖g(x) − g(x) + f ′(g(x))−1f(g(x))‖ ≤ β‖f(g(x))‖.

Mit Hilfe der Abschatzung (5.5.43) fur r = 1 folgt bei Beachtung von g(x) = x1 :

‖g(x) − g2(x)‖ ≤ 12βγ‖f ′(x)−1f(x)‖2 = 1

2βγ‖x− g(x)‖2. (5.5.44)

(ii) Nach diesen Vorbereitungen kommen wir nun zum Beweis des Satzes. Zunachst wollenwir zeigen, daß die Newton-Iterierten (xt)t∈N in D0 existieren und die Ungleichung

‖xt − g(xt)‖ = ‖f ′(xt)−1f(xt)‖ ≤ α

erfullen. Dies erfolgt durch vollstandige Induktion. Fur t = 0 ist die Aussage trivialerweiserichtig; insbesondere ist wegen αx0 = α nach dem oben gezeigten g(x0) ∈ D0 . Sei nunxt ∈ D0 eine Iterierte mit g(xt) ∈ D0 und ‖xt − g(xt)‖ ≤ α . Dann folgt

‖xt+1 − g(xt+1)‖ = ‖g(xt) − g2(xt)‖ ≤ 12βγ‖xt − g(xt)‖2 ≤ 1

2α2βγ ≤ α

und somit nach dem oben Gezeigten g(xt+1) ∈ D0 . Also existiert (xt)t∈N ⊂ D0 . Alsnachstes zeigen wir, daß diese Folge Cauchy-Folge ist. Mit Hilfe von (5.5.44) ergibt sich

‖xt+1 − xt‖ = ‖g2(xt−1) − g(xt−1)‖ ≤ 12βγ‖g(xt−1) − xt−1‖2 = 1

2βγ‖xt − xt−1‖2,

und bei Iteration dieser Abschatzung:

‖xt+1 − xt‖ ≤ 12βγ(

12βγ‖xt−1 − xt−2‖2

)2 ≤ (12βγ)(22−1)‖xt−1 − xt−2‖(22)

≤ (12βγ)(22−1)

(12βγ‖xt−2 − xt−3‖2

)(22)= (1

2βγ)(23−1)‖xt−2 − xt−3‖(23).

Fortsetzung der Iteration bis t = 0 ergibt mit q = 12αβγ :

‖xt+1 − xt‖ ≤ (12βγ)(2t−1)‖x1 − x0‖(2t) ≤ (1

2βγ)(2t−1)α(2t) ≤ αq(2t−1).

Fur beliebiges m ∈ N folgt damit wegen q < 1 :

‖xt+m − xt‖ ≤ ‖xt+m − xt+m−1‖ + · · ·+ ‖xt+2 − xt+1‖ + ‖xt+1 − xt‖≤ αq(2t+m−1−1) + · · ·+ αq(2t+1−1) + αq(2t−1)

≤ αq(2t−1)(q(2t))(2m−1−1) + · · ·+ q(2t) + 1

≤ αq(2t−1)

∞∑

j=0

(q(2t))j ≤ αq(2t−1)

1 − q(2t).

Dies besagt, daß (xt)t∈N ⊂ D0 Cauchy-Folge ist. Deren Limes z ∈ D0 ist dann notwendigein Fixpunkt von g bzw. Nullstelle von f :

z = limt→∞

xt = limt→∞

g(xt−1) = g(z).


Durch Grenzubergang m→ ∞ erhalten wir auch die Fehlerabschatzung

‖z − xt‖ ≤ α

1 − qq(2t−1),


Bemerkung 5.3: Unter der Annahme, daß eine Nullstelle z ∈ G von f existiert kanndie Aussage von Satz 5.1 fur das Newton-Verfahren im R1 sinngemaß auf den Rn mit derMaximumnorm ‖ · ‖∞ verallgemeinert werden. Dabei sind die auftretenden Konstantensind gemaß m = 1/β,M = γ zu identifizieren. Inbesondere gilt neben der a priori Fehler-abschatzung (5.5.42) auch die folgende a posteriori Fehlerabschatzung (Ubungsaufgabe):

‖xt − z‖∞ ≤ 1

m‖f(xt)‖∞ ≤ M

2m‖xt − xt−1‖2

∞, t ∈ N. (5.5.45)

Beispiel 5.8: Zur Bestimmung der Inversen Z = A−1 einer regularen Matrix A ∈ Rn×n

wird gesetztf(X) := X−1 − A,

fur X ∈ Rn×n regular. Eine Nullstelle dieser Abbildung f(·) : Rn×n → Rn×n ist geradedie Inverse Z = A−1. Diese soll mit dem Newton-Verfahren berechnet werden. Dazu istzunachst eine Umgebung von A bzw. von A−1 zu bestimmen, auf der f(·) definiert unddifferenzierbar ist. Fur X ∈ Kρ(A) mit ρ < ‖A−1‖−1 folgt aus X = A − A + X =A(I − A−1(A−X)) die Beziehung

‖A−1(A−X)‖ ≤ ‖A−1‖ ‖A−X‖ ≤ ρ‖A−1‖ < 1,

d. h.: I−A−1(A−X) und damit auch X sind regular. Als nachstes ist die Jacobi-Matrixf ′(·) von f(·) als Abbildung von Rn×n in sich zu bestimmen. Fur die Durchfuhrung desNewton-Verfahrens genugt es offensichtlich, die Wirkung von f ′(·) auf Matrizen Y ∈Rn×n zu bestimmen. Wir wollen zeigen , daß

f ′(X)Y = −X−1Y X−1 , Y ∈ Rn×n.

Dies sieht man wie folgt: Aus f(X) = X−1 − A folgt Xf(X) = I − XA . Fur dieJacobi-Matrizen der rechten und linken Seite gilt

([Xf(X)]′Y

)

j,k=∑

pq

∂

∂xpq

∑

l

xjlflk(X) ypq

=∑

p,q

∑

l

∂xjl

∂xpq︸︷︷︸

δjp·δlq

flk(X) + xjl∂flk

∂xpq

(X)

ypq

=∑

q

fqk(X)yjq +∑

p,q

∑

l

xjl∂flk

∂xpq(X)ypq

=(Y f(X) +Xf ′(X)Y

)

jk.


Analog finden wir[I −XA]′Y = −Y A .

Also ist−Y A = Y f(X) +Xf ′(X)Y = Y X−1 − Y A−Xf ′(X)Y

bzw.f ′(X)Y = −X−1Y X−1 .

Das Newton-Verfahrenf ′(X t)X t+1 = f ′(X t)X t − f(X t)

erhalt in diesem Fall also die Gestalt

−X t−1

X t+1X t−1

= −X t−1

X tX t−1

︸︷︷︸

=I

−X t−1

+ A

bzw.

X t+1 = 2X t −X tAX t = X t2I −AX t. (5.5.46)

Diese Iteration ist das mehrdimensionale Analogen der Iteration xt+1 = xt(2 − axt) imskalaren Fall zur divisionsfreien Berechnung des Kehrwertes 1/a einer Zahl a 6= 0 . Uberdie Identitat

X t+1 − Z = 2X t −X tAX t − Z = −(X t − Z)A(X t − Z) (5.5.47)

gewinnt man die Fehlerabschatzung

‖X t+1 − Z‖ ≤ ‖A‖ ‖X t − Z‖2. (5.5.48)

Der Einzugsbereich der quadratischen Konvergenz fur das Newton-Verfahren ist in diesemFall also die Menge

X ∈ Rn×n| ‖X − Z‖ < ‖A‖−1.

5.5.1 Gedampftes Newton-Verfahren

Bei der Durchfuhrung des Newton-Verfahrens zur Losung nichtlinearer Gleichungssystemetreten zwei Hauptschwierigkeiten auf:

(i) hoher Aufwand pro Iterationsschritt,

(ii) “guter” Startpunkt x0 erforderlich.

Zur Uberwindung dieser Probleme verwendet man gegebenenfalls das sog. “vereinfachteNewton-Verfahren”

f ′(c)δxt = −f(xt), xt+1 = xt + δxt, (5.5.49)


mit einem geeigneten c ∈ Rn , etwa c = x(0) , welches nahe bei der Nullstelle z liegt. Da-bei haben alle zu losenden Gleichungssysteme dieselbe Koeffizientenmatrix und konnenmit Hilfe einer einmal berechneten LR-Zerlegung von f ′(c) effizient gelost werden. An-dererseits fuhrt man zur Vergroßerung des Konvergenzbereiches des Newton-Verfahrenseine “Dampfung” ein,

f ′(xt)δxt = −f(xt), xt+1 = xt + λtδxt, (5.5.50)

wobei der Parameter λt ∈ (0, 1] zu Beginn klein gewahlt wird und dann nach endlichvielen Schritten gemaß einer geeigneten Dampfungsstrategie λt = 1 gesetzt wird. Derfolgende Satz gibt ein konstruktives Kriterium fur die a posteriori Wahl des Dampfungs-parameters λt .

Satz 5.6 (gedampftes Newton-Verfahren): Unter den Voraussetzungen von Satz 5.5erzeugt fur jeden Startpunkt x0 ∈ D∗ die gedampfte Newton-Iteration (5.5.50) mit

λt := min

1,1

αtβγ

, αt := ‖f ′(xt)−1f(xt)‖,

eine Folge (xt)t∈N , fur welche nach t∗ Schritten q∗ := 12αt∗βγ < 1 erfullt ist, so daß ab

dann xt quadratisch konvergiert, mit der a priori Fehlerabschatzung

‖xt − z‖ ≤ α

1 − q∗q(2t−1)∗ , t ≥ t∗. (5.5.51)

Beweis: Wir verwenden wieder die Bezeichnungen aus dem Beweis von Satz 5.5. Furein x ∈ D0 gilt mit xr := x − rf ′(x)−1f(x), 0 ≤ r ≤ 1 , und αx := ‖f ′(x)−1f(x)‖ dieAbschatzung

‖f(xr)‖ ≤ (1 − r + 12r2αxβγ)‖f(x)‖, 0 ≤ r ≤ R = maxr| xs ∈ D0, 0 ≤ s ≤ r ≤ 1.

Der Vorfaktor wird minimal fur

r∗ = min

1,1

αxβγ

> 0 : 1 − r∗ + 12r2∗αxβγ ≤ 1 − 1

2αxβγ< 1.

Bei Wahl von

rt := min

1,1

αtβγ

ist also (xt)t∈N ⊂ D0 , und die Norm ‖g(xt)‖ fallt streng monoton, d.h.:

‖f(xt+1)‖ ≤(

1 − 1

2αtβγ

)

‖f(xt)‖.

Nach endlich vielen, t∗ ≥ 1 , Iterationsschritten ist dann 12αt∗βγ < 1 , und die quadrati-

sche Konvergenz der weiteren Folge (xt)t≥t∗ folgt aus Satz 5.5. Q.E.D.


5.6 Ubungsaufgaben

Ubung 5.1: Man berechne mit einem Fehler kleiner 10−6 die Nullstelle z = π derFunktion f(x) = sin(x) :

a) mit der Intervallschachtelung zum Startintervall [2, 4] ;

b) mit der Fixpunktiteration xt = xt−1 + f(xt−1) zum Startwert x0 = 4 ;

c) mit dem Newton-Verfahren xt = xt−1 − f ′(xt−1)−1f(xt−1) zum Startwert x0 = 4 .

Warum konvergiert in diesem Fall die Fixpunktiteration (b) genauso schnell wie dasNewton-Verfahren ?

Ubung 5.2: Zur Berechnung der Losung z ∈ [0.5, 0.6] der Gleichung x + ln(x) = 0werden folgende Fixpunktiterationen vorgeschlagen:

a) xt = − ln(xt−1);

b) xt = e−xt−1 ;

c) xt = 12(xt−1 + e−xt−1).

Welche dieser Iterationen kann man verwenden, welche sollte man verwenden, und laßtsich vielleicht eine noch “bessere” Iteration angeben?

Ubung 5.3: Es sei a > 0 gegeben. Man zeige, daß fur beliebigen Startwert x0 > 0 dieFixpunktiteration

xt =x3

t−1 + 3axt−1

3x2t−1 + a

, t = 1, 2, . . .,

monoton gegen z =√a konvergiert. Wie groß ist die lokale Konvergenzordnung? Man

uberprufe durch einen numerischen Test das theoretische Ergebnis.

Ubung 5.4: Fur zweimal stetig differenzierbare Funktionen f konvergiert das Newton-Verfahren lokal quadratisch gegen eine Nullstelle z . Man zeige, daß es fur (nur) stetigdifferenzierbare Funktionen immer noch “super-linear” konvergiert,

∣∣∣xt − z

xt−1 − z

∣∣∣→ 0 (t→ ∞),

d.h.: Es ist asymptotisch schneller als die einfache Fixpunktiteration.

Ubung 5.5: (Praktische Aufgabe) Man schreibe ein Programm zur Berechnung der Null-stellen eines Polynoms

p(x) = a0 + a1x+ . . .+ anxn, an 6= 0,

mit Hilfe des Newton-Verfahrens, wobei zur Auswertung von p(x) und p′(x) das HornerSchema zu verwenden ist. Startwerte sollen etwa durch Intervallschachtelung ermittelt


werden. Als Abbruchkriterium frage man ab, ob gilt:

|xt+1 − xt||xt|

=

∣∣∣∣

p(xt)

p′(xt)xt

∣∣∣∣≤ 10−8.

Dieses Kriterium wird auch im Fall einer mehrfachen Nullstelle, d. h. p′(xt) → 0 (t→ ∞) ,verwendet. Es muß allerdings abgefragt werden, ob p′(xt)xt 6= 0 ist.

Man berechne mit diesem Programm samtliche Nullstellen der Legendre- und der Tscheby-scheff-Polynome vom Grad p = 4 und p = 5 , d. h. die Stutzstellen der entsprechendenGaußschen Quadraturformeln. Dabei sollen jeweils alle Iterierte inkl. der Startwertberech-nung bis zur Erfullung des Abbruchkriteriums ausgegeben werden.(Hinweis: Die Polynome Lk(x) und Tk(x) erhalt man mit Hilfe der Rekursionsformelnfur die Legendre- und die Tschebyscheff-Polynome.)

Ubung 5.6: Zur Berechnung der Inversen A−1 einer regularen Matrix A ∈ Rn×n werdendie beiden Fixpunktiterationen

a) Xt = Xt−1(I −AC) + C, t = 1, 2, . . . , C ∈ Rn×n regular,

b) Xt = Xt−1(2I − AXt−1), t = 1, 2, . . .,

betrachtet. Man gebe hinreichende Kriterien fur die Konvergenz dieser Iterationen an.Wie wurde in diesem Fall das Newton-Verfahren lauten?

Ubung 5.7: Es sollen die Schnittpunkte des durch x21 + x2

2 = 2 gegebenen Kreises undder durch x2

1 − x22 = 1 gegebenen Hyperbel bestimmt werden. Wie lauten die exakten

Losungen?

a) Man schreibe die Aufgabenstellung als Nullstellenproblemn einer geeigneten Abbildungf = f(x1, x2) : R2 → R2 und iteriere ausgehend von dem Startwert x(0) = (1, 1)T mitdem Newton-Verfahren bis das Inkrement ‖x(t) − x(t−1)‖∞ kleiner als 2 × 10−3 ist.

b) Man bestimme zu der Abbildung f aus (a) eine Matrix C ∈ R2×2 in der Form

C =

[

c c

c −c

]

, c 6= 0,

so daß die Fixpunktiteration

x(t+1) = x(t) − Cf(x(t))

ausgehend vom Startwert x(0) = (1, 1)T garantiert gegen die Nullstelle z von f imersten Quadranten der (x1, x2)-Ebene konvergiert. Wie viele Schritte mußte man mit dergewahlten Fixpunktiteration machen, damit ‖x(t)−z‖∞ kleiner als 2×10−3 ist? (Hinweis:Bei den Abschatzungen verwende man die Maximumnorm.)


Ubung 5.8: Die Eigenwertaufgabe Ax = λx einer Matrix A ∈ Rn×n ist aquivalent zudem nichtlinearen Gleichungssystem

Ax− λx = 0,

‖x||22 − 1 = 0,

von n+ 1 Gleichungen in den n + 1 Unbekannten x1, . . ., xn, λ .

a) Man gebe die Newton-Iteration zur Losung dieses Gleichungssystems an.

b) Man fuhre zwei (oder bei Interesse auch mehr) Newton-Schritte durch fur die Matrix

A =

[

4 0

−1 4

]

mit den Startwerten x01 = 0, x0

2 = 1.5, λ0 = 3.5 . Man berechne die Eigenwerte undEigenvektoren dieser Matrix und stelle fest, ob das Newton-Verfahren in diesem Fallquadratisch konvergiert.

Ubung 5.9: Man untersuche die Konvergenz der Fixpunktiteration

xt = Bxt−1 + c

fur die Matrizen

(i) B =

0.6 0.3 0.1

0.2 0.5 0.7

0.1 0.1 0.1

, (ii) B =

0 0.5 0

1 0 0

0 0 2

.

Was ist der Limes der Folgen im Falle der Konvergenz? (Hinweis: Es sind die Eigenwerteder Matrizen abzuschatzen. Dazu kann eine geeignete Norm oder auch der Zusammen-hang zwischen den Eigenwerten und der Determinante einer Matrix dienen.)

Ubung 5.10: (Praktische Aufgabe) Man schreibe ein Programm zur Realisierung derIterationsverfahren aus Aufgabe 11.1 fur die (positiv definite) Tridiagonalmatrix

A =

2 −1

−1 2. . .

. . .. . . −1

−1 2

fur n = 2k, k = 2, . . ., 10 . Zur Vermeidung zu langer Rechenzeiten sollte eine obereSchranke (etwa k ≤ 105 fur die Anzahl der Iterationsschritte gesetzt werden. Mit derMatrix C = 1

8I ∈ Rn×n ist in diesem Fall nach Aufgabe 11.1 die Konvergenz der Iteration


(a) fur jeden Startwert garantiert. Man verwende daher versuchsweise fur beide Iterationen(a) und (b) die Startmatrix X0 = 1

8I . Als Abbruchkriterium wahle man die Große des

Residuums AXt − I gemaß

‖AXt − I‖∞ = maxi=1,...,n

( n∑

j=1

|(AXt)ij − δij |)

≤ 10−8.

Man gebe die Anzahl der benotigten Iterationen in Abhangigkeit von n an. Sind die-se Verfahren konkurrenzfahig mit der direkten Berechnung der Inversen mit Hilfe desGaußschen Eliminationsverfahrens?

6 Lineare Gleichungssysteme II (Iterative Verfahren)

Fur sehr große Gleichungssysteme mit n≫ 1.000 ist das Gaußsche Eliminationsverfahrennur sehr schwer zu realisieren, da es zu viel Speicherplatz erfordert. Fur eine n×n-MatrixA mit n = 106 und Bandbreite m = 102 sind dies bereits 108 Speicherplatze, wasdie Kernspeicherkapazitat der meisten zur Zeit im Einsatz befindlichen Rechenanlagenubersteigt. Zur Durchfuhrung der Elimination mußte man in diesem Fall also mit exter-nen Speichern arbeiten, was wegen des aufwendigen Datentransfers die Rechenzeit starkverlangert. Bei vielen in der Praxis auftretenden großen Gleichungssystemen hat man esjedoch mit sehr dunn besetzten Bandmatrizen mit 5− 25 von Null verschiedene Elemen-te pro Zeile zu tun. Die im folgenden betrachteten “iterativen Verfahren” benotigen zurnaherungsweisen Losung des Gleichungssystems Ax = b nicht viel mehr Speicherplatz,als zur Speicherung von A erforderlich ist.

Als erstes betrachten wir Fixpunktiterationen zur Losung des Gleichungssystems Ax =b mit einer regularen n×n-Matrix A und einem n-Vektor b . Zur Konstruktion solcherIterationsvorschriften geht man etwa wie folgt vor:

Das Gleichungssystem Ax = b lautet ausgeschrieben

ajjxj +

n∑

k=1k 6=j

ajkxk = bj , j = 1, . . . , n.

Im Falle ajj 6= 0 ist dies aquivalent zu

xj =1

ajj

bj −n∑

k=1k 6=j

ajkxk

, j = 1, . . . , n.

Das sog. “Gesamtschritt-Verfahren” (oder auch “Jacobi-Verfahren”) erzeugt Iteriertext ∈ Rn, t = 1, 2, . . . , durch die Iterationsvorschrift

xtj =

1

ajj

bj −n∑

k=1k 6=j

ajkxt−1k

, j = 1, . . . , n. (6.0.1)

Zum Zeitpunkt der Berechnung von xtj sind die vorausgehenden neuen Komponenten

xtr, r < j , bereits berechnet. Zur Beschleunigung der Konvergenz liegt es also nahe, diese

Zusatzinformation schon zur Berechnung von xtj auszunutzen. Dies ist die Grundlage des

“Einzelschritt-Schritt-Verfahren (oder auch “Gauß-Seidel1-Verfahrens”):

xtj =

1

ajj

bj −∑

k<j

ajkxtk −

∑

k>j

ajkxt−1k

, j = 1, . . . , n. (6.0.2)

1Philipp Ludwig von Seidel (1821-1896): deutscher Mathematiker; Prof. in Munchen; Beitrage zurAnalysis (u.a. Methode der kleinsten Fehlerquadrate) owie Himmelsmechanik und Astronomie.

189


6.1 Fixpunktiterationen

Zur kompakteren Schreibweise der betrachteten Iterationsverfahren fuhren wir die Auf-spaltung A = D + L+R ein, wobei

D =

a11 · · · 0. . .

. . .

0 · · · ann

L =

0 · · · 0

a21. . .

.... . .

. . .

an1 · · · an,n−1 0

R =

0 a12 · · · a1n

. . .. . .

.... . . an−1,n

0 · · · 0

Damit schreibt sich das Jacobi-Verfahren in der Form

xt = D−1b− (L+R)xt−1 = −D−1(L+R)︸︷︷︸

J

xt−1 +D−1b,

mit der sog. “Jacobi-Matrix” J und das Gauß- Seidel-Verfahren in der Form

xt = D−1b− Lxt −Rxt−1 = −(D + L)−1R︸︷︷︸

H1

xt−1 + (D + L)−1b.

mit der sog. “Gauß-Seidel-Matrix” H1 (Die Notation H1 fur die Gauß-Seidel-Matrix wirdspater klar werden.). Beide Verfahren besitzen also die Gestalt

xt = Bxt−1 + c (6.1.3)

mit einer sog. “Iterationsmatrix” B . Konvergiert nun die Folge der Iterierten (x(t))t∈N

gegen einen Vektor x ∈ Rn , so gilt fur diesen offenbar

x = Bx+ c, (6.1.4)

d. h. er ist ein “Fixpunkt” der Abbildung g : x → Bx + c ; daher auch die Bezeichnung“Fixpunktiteration”. Ein sinnvolles iteratives Verfahren dieser Art muß also so gebautsein, daß die Fixpunkte von g automatisch Losungen des ursprunglichen Gleichungssy-stems Ax = b sind. Dies ist beim Jacobi- und beim Gauß-Seidel-Verfahren aufgrund ihrerKonstruktion der Fall. Zur Konstruktion allgemeinerer iterativer Verfahren dieses Typswahlt man etwa eine regulare n×n-Matrix C und iteriert ausgehend von der Beziehung

Ax = b ↔ Cx = Cx− Ax+ b ↔ x = x+ C−1(b− Ax)

in der Form

xt = (I − C−1A)︸︷︷︸

=: B

xt−1 + C−1b︸︷︷︸

=: c. (6.1.5)

6.1 Fixpunktiterationen 191

Dies wird in der Praxis auf dem Rechner als sog. “Defektkorrekturiteration” realisiert,bei der in jedem Schritt im wesentlichen ein lineares Gleichungssystem mit der gewahltenMatrix C gelost werden muß:

dt−1 = b− Axt−1 , Cδxt = dt−1 , xt = xt−1 + δxt.

Ein hinreichendes Kriterium fur die Konvergenz der Iteration (6.1.3) ist nach demBanachschen Fixpunktsatz, daß

‖B‖ < 1

fur irgendeine Matrizennorm ‖ · ‖ auf Rn×n . Die Gultigkeit dieser Beziehung kann aberfur eine konkrete Matrix sehr wohl von der speziellen Wahl der Norm abhangen. Daherverwendet man zur Charakterisierung der Fixpunktiteration besser den sog. “Spektralra-dius” der Iterationsmatrix:

spr (B) := max |λ| : λ ∈ σ(B) .

Hierbei bezeichnet σ(B) ⊂ C das “Spektrum” der Matrix B , d. h.: die Menge ihrerEigenwerte. Offenbar ist spr (B) der Radius der kleinsten Kreisscheibe um den Nullpunktin der komplexen Zahlenebene, die alle Eigenwerte von B enthalt. Mit einer beliebigennaturlichen Matrizennorm gilt

spr (B) ≤ ‖B‖. (6.1.6)

Fur symmetrisches B ist sogar

spr (B) = ‖B‖2 = supx∈Rn\0

‖Bx‖2

‖x‖2

; (6.1.7)

jedoch ist spr (·) keine Norm auf Rn×n , da im allgemeinen die Dreiecksungleichung nichtgilt.

Satz 6.1 (Fixpunktiteration): Die durch

xt = Bxt−1 + c (6.1.8)

erzeugten Iterierten xt ∈ Rn, t = 1, 2, . . ., konvergieren genau dann fur jeden Startwertx0 ∈ Rn gegen die Losung x ∈ Rn der Fixpunktgleichung x = Bx+ c , wenn

spr (B) < 1. (6.1.9)

Im Falle der Konvergenz ist das asymptotische Konvergenzverhalten bzgl. einer beliebigenVektornorm ‖ · ‖ charakterisiert durch

supx0∈Rn

lim supt→∞

( ‖xt − x‖‖x0 − x‖

)1/t

= spr(B). (6.1.10)


Beweis: Wir fuhren die Fehlervektoren et := xt − x ein und finden (wegen x = Bx+ c )

et = xt − x = Bxt−1 + c− (Bx+ c)︸︷︷︸

= x

= Bet−1,

d. h. et = Bte0, t ∈ N .

(i) Im Falle spr (B) < 1 existiert gemaß Hilfssatz 6.1 eine naturliche Matrizennorm ‖·‖ε ,so daß

‖B‖ε ≤ spr (B) + ε < 1

fur ein ε < 1 − spr (B) . Folglich konvergiert in der zugehorigen Vektornorm ‖ · ‖ε furt→ ∞ :

‖et‖ε = ‖Bte0‖ε ≤ ‖Bt‖ε ‖e0‖ε ≤ ‖B‖tε ‖e0‖ε → 0.

Aufgrund der Aquivalenz aller Normen auf Rn konvergiert also xt → x (t→ ∞) .

(ii) Aus der Konvergenz der Iteration (fur jeden Startwert) folgt bei Wahl von x0 = w+xmit einem Eigenvektor w ∈ Rn \ 0 zum betragsgroßten Eigenwert λ von B :

λtw = Btw = Bte0 = et → 0 (t→ ∞).

Dies impliziert notwendig |λ| < 1 fur λ ∈ σ(B), d. h. spr (B) < 1 . Als Nebenprodukterhalten wir noch die Beziehung

(‖et‖‖e0‖

)1/t

= |λ|.

(iii) Zu beliebig kleinen ε > 0 sei wieder ‖ ·‖ε eine naturliche Matrizennorm mit ‖B‖ε ≤spr (B) + ε . Dann existieren Zahlen m,M > 0 , so daß fur die gegebene (beliebige)Vektornorm ‖ · ‖ gilt

m‖x‖ ≤ ‖x‖ε ≤M‖x‖ , x ∈ Rn,

Damit erhalten wir

‖et‖ ≤ 1

m‖et‖ε =

1

m‖Bte0‖ε ≤

1

m‖B‖t

ε‖e0‖ε

≤ M

m(spr (B) + ε)t‖e0‖,

bzw. wegen(

Mm

)1/t → 1 (t→ ∞) :

lim supt→∞

(‖et‖‖e0‖

)1/t

≤ spr (B) + ε.

Da ε > 0 beliebig klein gewahlt werden kann, ergibt sich die Behauptung. Q.E.D.

Wir tragen noch den im obigen Beweis verwendeten Hilfssatz nach:

Hilfssatz 6.1 (Spektralradius): Fur jede Matrix B ∈ Rn×n gibt es zu jedem beliebig


kleinen ε > 0 eine naturliche Matrizennorm ‖ · ‖ε , so daß

spr(B) ≤ ‖B‖ε ≤ spr(B) + ε. (6.1.11)

Beweis: Die Matrix B ist ahnlich zu einer Dreiecksmatrix

B = T−1RT , R =

r11 · · · r1n

. . ....

0 rnn

,

mit den Eigenwerten von B auf der Hauptdiagonalen, d. h.:

spr (B) = max1≤i≤n

|rii|.

Fur ein beliebiges δ ∈ (0, 1] setzen wir

Sδ =

1 0

δ. . .

0 δn−1

, R0 =

r11 0. . .

0 rnn

,

Qδ =

0 r12 δr13 · · · δn−2r1n

. . .. . .

. . ....

. . .. . . δrn−2,n

. . . rn−1,n

0

,

und haben damit

Rδ := S−1δ RSδ =

r11 δr12 · · · δn−1r1n

. . .. . .

.... . . δrn−1,n

0 rnn

= R0 + δQδ.

Wegen der Regularitat von S−1δ T wird durch

‖x‖δ := ‖S−1δ Tx‖2 , x ∈ R

n,

eine Vektornorm erklart. Dann ist wegen R = SδRδS−1δ :

B = T−1RT = T−1SδRδS−1δ T


fur alle x ∈ Rn und y = S−1δ Tx :

‖Bx‖δ = ‖T−1SδRδS−1δ Tx‖δ = ‖Rδy‖2

≤ ‖R0y‖2 + δ‖Qδy‖2 ≤ max1≤i≤n |rii| + δµ ‖y‖2

≤ spr (B) + δµ‖x‖δ

mit der Konstante

µ =( n∑

i,j=1

|rij|2)1/2

.

Also ist

supx∈Rn\0

‖Bx‖δ

‖x‖δ

≤ spr (B) + µδ,

und die Behauptung folgt mit δ = ε/µ . Q.E.D.

Der Spektralradius der Iterationsmatrix B bestimmt also das asymptotische Konver-genzverhalten der Iterierten xt bzgl. jeder Vektornorm. Zu jedem ε > 0 existiert eintε ∈ N , so daß

‖xt − x‖ ≤ (spr (B) + ε)t‖x0 − x‖ (t ≥ tε).

Dies laßt sich wie folgt interpretieren: Ist etwa spr (B) ≤ ρ < 1 , so erhalt man nach t0Schritten die zur weiteren Reduktion des Fehlers ‖xt0 −x‖ um den Faktor 10−1 (d. h. zurGewinnung einer Dezimalstelle Genauigkeit) erforderliche Anzahl von Iterationsschrittenaus der Beziehung ρt ≤ 10−1 zu

t ∼ − 1

log10 ρ= − ln(10)

ln(ρ). (6.1.12)

In ungunstigsten Fallen mit z.B. spr (B) ∼ 0.99 ist t1 ∼ 230 . Fur Gleichungssystemeder Großenordnung n > 1000 bedeutet dies einen betrachtlichen Rechenaufwand zurErlangung einer akzeptablen Genauigkeit.

Abbruchkriterien

Bei iterativen Verfahren ist es erforderlich, ein Abbruchkriterium anzugeben. Zunachst er-halten wir direkt durch Anwendung des Banachschen Fixpunktsatzes die Fehlerabschatzung

‖xt − z‖ ≤ q

1 − q‖xt − xt−1‖, (6.1.13)

mit der “Kontraktionskonstante” q = ‖B‖ < 1 . Bei vorgegebener Fehlertoleranz ε > 0konnte man das Verfahren dann abbrechen, sobald fur die relative Anderung gilt:

‖δt‖‖xt‖ ≤ ‖B‖

1 − ‖B‖ ε. (6.1.14)


Zur Realisierung dieser Strategie wird aber eine Schatzung fur die Norm ‖B‖ bzw. furspr (B) benotigt. Diese muß indirekt aus den berechneten Iterierten xt , d. h. a posterioriim Verlauf der Rechnung, gewonnen werden. In der Regel kann die Iterationsmatrix B =I − C−1A mit vertretbarem Aufwand gar nicht explizit gebildet werden. Methoden zurBestimmung von spr (B) werden im Kapitel uber Eigenwertaufgaben diskutiert.

Alternativ konnte man auch das Residuum ‖Axt − b‖ abfragen. Uber die Argumen-tation

et = xt − x = A−1(Axt − b) , b = Ax

‖et‖ ≤ ‖A−1‖ ‖Axt − b‖ , 1

‖b‖ ≥ 1

‖A‖ ‖x‖erhalt man

‖et‖‖x‖ ≤ cond(A)

‖Axt − b‖‖b‖ .

Dies hat allerdings den Nachteil, daß dazu extra Axt berechnet werden mußte, und daß imFalle cond(A) ≫ 1 eine starke Unterschatzung des tatsachlichen Fehlers erfolgt. Zudemist cond(A) selbst naturlich wieder nur schwer schatzbar (noch schwieriger als spr (B) ).Wir verweisen hierfur auch auf das Kapitel uber Eigenwertaufgaben.

Konstruktion von Iterationsverfahren

Bei der Konstruktion der Iterationsverfahren etwa auf dem ersten der angegebenem Wege,d. h. bei der Wahl der Matrix C , mussen zwei wesentliche Ziele berucksichtigt werden:

– spr (I − C−1A) soll moglichst klein sein.

– Die Gleichungssysteme Cxt = (C − A)xt−1 + b sollen moglichst leicht (und mitwenig zusatzlichem Speicherplatzbedarf!) losbar sein.

Leider widersprechen sich diese beiden Pramissen; die extremen Losungen sind:

C = A ⇒ spr (I−C−1A) = 0

C =D ⇒ spr (I−D−1A) ∼ 1.

Man wird also einen gewissen Kompromiß eingehen. Inwieweit dies beim Jacobi- undbeim Gauß-Seidel-Verfahren gelungen ist, wollen wir jetzt untersuchen. Zunachst ist fest-zustellen, daß Punkt (ii) in beiden Fallen gut erfullt ist, denn in jedem Iterationsschrittist beim Jacobi-Verfahren nur ein Diagonalsystem und beim Gauß-Seidel-Verfahren einunteres Dreieckssystem zu losen. Es wird außerdem nicht mehr Speicherplatz benotigt, alszur Speicherung der Matrix A erforderlich ist. Dies laßt vermuten, daß der Spektralradiusvon I − C−1A nicht besonders klein sein wird. Trotzdem laßt sich fur eine große Klassevon Matrizen wenigstens die Konvergenz der Verfahren garantieren, wenn diese auch oftsehr langsam ist.


6.1.1 Jacobi- und Gauß-Seidel-Verfahren

Satz 6.2 (Starkes Zeilensummenkriterium): Genugen die Zeilensummen der Ma-trix A ∈ Rn×n der Bedingung (strikte Diagonaldominanz)

n∑

k=1,k 6=j

|ajk| < |ajj| , j = 1, . . . , n, (6.1.15)

so ist spr(J) < 1 und spr(H1) < 1 , d.h. Jacobi- und Gauß-Seidel-Verfahren konvergieren.

Beweis: Seien λ ∈ σ(J) bzw. µ ∈ σ(H1) und v bzw. w zugehorige Eigenvektoren(beachte ajj 6= 0 ), d. h.:

λv = Jv = −D−1(L+R)v

bzw.µw = H1w = −(D+L)−1Rw ⇐⇒ µw = −D−1(µL+R)w.

Hieraus folgt zunachst im Falle ‖v‖∞ = ‖w‖∞ = 1

|λ| ≤ ‖D−1(L+R)‖∞ = maxj=1,...,n

1

|ajj|

n∑

k=1,k 6=j

|ajk|

< 1.

Ferner ist

|µ| ≤ ‖D−1(µL+R)‖∞ ≤ max1≤j≤n

1

|ajj|[∑

k<j

|µ| |ajk| +∑

k>j

|ajk|]

.

Im Falle |µ| ≥ 1 ergabe sich der Widerspruch

|µ| ≤ |µ| ‖D−1(L+R)‖∞ < |µ|,

so daß auch |µ| < 1 sein muß. Q.E.D.

Matrizen mit der Eigenschaft aus Satz 6.2 heißen “strikt diagonaldominant”. Fur dieBedurfnisse der Praxis ist die Bedingung zu einschrankend; die einfache Modellmatrix ausAbschnitt 4.3

A =

B −I4−I4 B −I4

−I4 B −I4−I4 B

16 , B =

4 −1

−1 4 −1

−1 4 −1

−1 4

4

ist z.B. zwar diagonaldominant, aber nicht strikt diagonaldominant. Sie ist jedoch ineinigen Zeilen (z.B. der ersten) strikt diagonaldominant. Dieser Umstand kann nun zumNachweis der Konvergenz des Jacobi- und des Gauß-Seidel-Verfahrens verwendet werden.


Definition 6.1: Eine Matrix A ∈ Rn×n heißt “irreduzibel”, wenn es keine Permutati-onsmatrix P gibt, so daß

PAP T =

[

A11 0

A21 A22

]

(simultane Zeilen- und Spaltenvertauschung) mit Matrizen A11 ∈ Rp×p, A22 ∈ Rq×q, A21

∈ Rq×p, p, q > 0, p+ q = n .

Hilfssatz 6.2 (Irreduzibilitat): Eine Matrix A ∈ Rn×n ist genau dann irreduzibel,wenn der zugehorige gerichtete Graph

G(A) :=Knoten P1, ..., Pn , Kanten PjPk ⇔ ajk 6= 0, j, k = 1, ..., n

zusammenhangend ist, d. h.: wenn zu jedem Knotenpaar Pj, Pk eine gerichtete Kan-tenverbindung zwischen Pj und Pk existiert.

Beweis: Die Reduzibilitat von A laßt sich auch wie folgt formulieren: Es existiert eine(nicht–triviale) Zerlegung Nn = J ∪ K der Indexmenge Nn = 1, ..., n, J, K 6= ∅ ,J ∩ K = ∅ , so daß ajk = 0 fur alle Paare j, k ∈ J × K . Der Zusammenhang desGraphen G(A) bedeutet nun, daß es zu je zwei Indizes j, k stets eine Kette von Indizesi1, . . . , im ∈ 1, . . . , n gibt, so daß

aji1 6= 0 , ai1i2 6= 0 , . . . , aim−1im 6= 0 , aimk 6= 0.

Hieraus liest man direkt die behauptete Charakterisierung ab (Ubungsaufgabe). Q.E.D.

Fur irreduzible Matrizen kann die Bedingung des starken Zeilensummenkriteriumsentscheidend abgemildert werden.

Satz 6.3 (Schwaches Zeilensummenkriterium): Genugen die Zeilensummen einerirreduziblen Matrix A ∈ Rn×n den Bedingungen

n∑

k=1,k 6=j

|ajk| ≤ |ajj| fur j = 1, . . . , n, (6.1.16)

n∑

k=1,k 6=r

|ark| < |arr| fur ein r ∈ 1, . . . , n, (6.1.17)

so ist A regular und spr(J) < 1 sowie spr(H1) < 1 , d.h. Jacobi- und Gauß-Seidel-Verfahren konvergieren.

Beweis: Wegen der Irreduzibilitat von A ist notwendig

n∑

k=1

|ajk| > 0 , j = 1, . . . , n,


und wegen der Diagonaldominanz folglich ajj 6= 0, j = 1, . . . , n . Jacobi- und Gauß-Seidel-Verfahren sind also durchfuhrbar. Mit Hilfe der Diagonaldominanz erschließt man analogzum Beweis von Satz 6.2:

spr (J) ≤ 1 , spr (H1) ≤ 1.

Angenommen, es gibt einen Eigenwert λ ∈ σ(J) mit |λ| = 1 . Sei v ∈ Cn ein zugehorigernormierter Eigenvektor, so daß |vs| = ‖v‖∞ = 1 . Es gilt dann

|λ| |vi| ≤1

|aii|∑

k 6=i

|aik| |vk| , i = 1, . . . , n. (6.1.18)

Aufgrund der Irreduzibilitat von A gibt es nun Indizes i1, . . . , im , so daß asi1 6= 0 , . . .,aimr 6= 0 . Durch mehrfache Anwendung von (6.1.18) folgt so der Widerspruch (|λ| = 1)

|vr| = |λvr| ≤ 1|arr|

∑

k 6=r

|ark| ‖v‖∞ < ‖v‖∞

|vim | = |λvim | ≤ 1|aimim |

∑

k 6=im,r

|aimk| ‖v‖∞ + |aimr|︸︷︷︸

6= 0

|vr|

< ‖v‖∞

...

|vi1 | = |λvi1 | ≤ 1|ai1i1 |

∑

k 6=i1,i2

|ai1k| ‖v‖∞ + |ai1i2|︸︷︷︸

6= 0

|vi2 |

< ‖v‖∞

‖v‖∞ = |λvs| ≤ 1|ass|

∑

k 6=s,i1

|ask| ‖v‖∞ + |asi1|︸︷︷︸

6= 0

|vi1|

< ‖v‖∞.

Also muß spr (J) < 1 sein. Analog erschließt man unter Verwendung von (6.1.18) auchspr (H1) < 1 . Wegen A = D(I−J) muß A regular sein. Q.E.D.

6.1.2 SOR-Verfahren

Fur die in der Praxis auftretenden großen aber dunn besetzten Matrizen ist spr (J)bzw. spr (H1) nahe bei Eins, so daß Jacobi- und Gauß-Seidel-Verfahren viel zu langsamkonvergieren. Man versucht daher, die Konvergenz durch Einfuhrung eines (oder mehre-rer) sog. “Relaxationsparameter” zu beschleunigen. Beim “SOR-Verfahren” (SuccessiveOverRelaxation method) berechnet man im t-ten Iterationsschritt ausgehend von demGauß-Seidel-Zwischenwert

xtj =

1

ajj

bj −∑

k<j

xtk −

∑

k>j

xt−1k

die nachste Iterierte xtj als Linearkombination

xtj = ωxt

j + (1 − ω) xt−1j


mit einem Parameter ω ≥ 1 . Im Falle ω = 1 ist dies gerade das Gauß-Seidel-Verfahren.Im Falle ω < 1 spricht man von “Unterrelaxation”. Die Iterationsmatrix des Relaxati-onsverfahrens erhalt man aus den Beziehungen

xt = ωD−1 b− Lxt − Rxt−1 + (1 − ω) xt−1

alsHω = (D + ωL)−1 [ (1 − ω)D − ωR ],

d. h.: Der Iterationsschritt lautet

xt = Hωxt−1 + ω (D + ωL)−1b. (6.1.19)

Der folgende Hilfssatz zeigt, daß man sich beim Relaxationsverfahren auf den Parameter-bereich 0 < ω < 2 beschranken muß.

Hilfssatz 6.3 (Relaxation): Fur eine beliebige Matrix A ∈ Rn×n mit regularem Dia-gonalanteil D gilt

spr (Hω) ≥ |ω − 1| , ω ∈ R. (6.1.20)

Beweis: Wir formen um

Hω = (D+ωL)−1[ (1−ω)D− ωR ] = (I+ωD−1L︸︷︷︸

=: L′)−1D−1D︸︷︷︸

= I

[ (1−ω) I − ωD−1R︸︷︷︸

=: R′]

Dann giltdet(Hω) = det(I+ωL′)

︸︷︷︸

= 1

)−1 · det((1−ω) I−ωR′ )︸︷︷︸

= (1−ω)n

= (1−ω)n.

Wegen det (Hω) =∏n

i=1 λi (λi ∈ Hω ) folgt notwendigerweise

spr (Hω) = max1≤i≤n

|λi| ≥( n∏

i=1

|λi|)1/n

= |1 − ω|.

Q.E.D.

Fur positiv definite Matrizen laßt sich diese Aussage in gewisser Weise umkehren.

Satz 6.4 (SOR-Verfahren): Fur eine positiv definite Matrix A ∈ Rn×n gilt

spr(Hω) < 1 , fur 0 < ω < 2 ; (6.1.21)

insbesondere ist das Gauß-Seidel-Verfahren konvergent.


Beweis: Wegen der Symmetrie von A ist R = LT , d. h. A = L+D+LT . Sei λ ∈ σ(Hω)beliebig fur 0 < ω < 2 , mit einem Eigenvektor v ∈ Rn , d. h. Hωv = λv . Es gilt also

((1−ω)D−ωLT

)v = λ (D+ωL) v

bzw.ω (D+LT ) v = (1−λ)Dv − λωLv.

Hiermit erschließt man

ωAv = ω (D+LT ) v + ωLv

= (1−λ)Dv − λωLv + ωLv

= (1−λ)Dv + ω (1−λ)Lv ,

und

λωAv = λω (D+LT ) v + λωLv

= λω (D + LT ) v + (1−λ)Dv − ω (D+LT ) v

= (λ−1)ω(D+LT ) v + (1−λ)Dv

= (1−λ)(1−ω)Dv− (1−λ)ωLTv.

Wegen vTLv = vTLTv folgt

ωvTAv = (1−λ) vTDv + ω (1−λ) vTLv

λωvTAv = (1−λ)(1−ω) vTDv − (1−λ)ωvTLv,

und hieraus durch Addition

ω (1+λ) vTAv = (1−λ) (2−ω) vTDv.

Da mit A auch D positiv definit ist, gilt

vTAv > 0, vTDv > 0.

Folglich ist (0<ω<2) λ 6= ±1 , und es gilt

µ :=1 + λ

1 − λ=

2 − ω

ω

vTDv

vTAv> 0.

Durch Auflosen nach λ erhalten wir schließlich

|λ| =

∣∣∣∣

µ− 1

µ+ 1

∣∣∣∣< 1,



Definition 6.2: Die qualitative Konvergenzaussagen der letzten Satze lassen sich fur einegewisse Klasse von Matrizen wesentlich verscharfen. Man nennt die Matrix A ∈ Rn×n

mit der additiven Aufspaltung A = L+D+R “konsistent geordnet”, wenn die Eigenwerteder Matrizen

J(α) = −D−1αL+ α−1R , α ∈ C,

unabhangig vom Parameter α also stets gleich denen der Jacobi–Matrix J = J(1) sind.

Man kann zeigen, daß neben anderen die oben eingefuhrte Modellmatrix “konsistentgeordnet” ist. Die Bedeutung dieser Eigenschaft besteht darin, daß man in diesem Fallexplizit angeben kann, wie die Eigenwerte von J mit denen von Hω zusammenhangen.

Satz 6.5 (Optimales SOR-Verfahren): Die Matrix A ∈ Rn×n sei konsistent geordnetund 0 ≤ ω ≤ 2. Dann besteht zwischen den Eigenwerten µ ∈ σ(J) und λ ∈ σ(Hω) dieBeziehung

λ1/2ωµ = λ+ ω − 1. (6.1.22)

Beweis: Seien λ, µ ∈ C zwei Zahlen, welche der Gleichung (6.1.22) genugen. Im Falle0 6= λ ∈ σ(Hω) ist dann Hωv = λv aquivalent zu

((1 − ω)I − ωD−1R

)v = λ(I + ωD−1L)v

bzw.(λ+ ω − 1)v = −λ1/2ω

(λ1/2D−1L+ λ−1/2D−1R

)v = λ1/2ωJ(λ1/2) v.

Also ist v Eigenvektor von J(λ1/2) zum Eigenwert

µ =λ+ ω − 1

λ1/2ω.

Mit der Voraussetzung an A folgt auch µ ∈ σ(J). Umgekehrt erhalt man fur µ ∈ σ(J)auf diese Weise auch λ ∈ σ(Hω). Q.E.D.

Als direkte Folgerung aus diesem Resultat erhalten wir fur konsistent geordnete Matrizenfur das Gauß-Seidel-Verfahren (Fall ω = 1 ) alternativ spr (H1) = 0 oder die Beziehung

spr (H1) = spr (J)2. (6.1.23)

Im Falle spr (J) < 1 konvergiert das Jacobi-Verfahren. Zur Reduzierung des Fehlers umden Faktor 1/10 sind dann mit dem Gauß-Seidel-Verfahren nur halb so viel Iterationenerforderlich. Im allgemeinen ist das Gauß-Seidel-Verfahren dem Jacobi-Verfahren vorzu-ziehen. (Dies darf jedoch nicht generalisiert werden, da man Beispiele konstruieren kann,bei denen jeweils das eine, aber nicht das andere Verfahren konvergiert.)

Fur konsistent geordnete Matrizen laßt sich aus der Identitat (6.1.22) der “optimale”Relaxationsparameter ωopt ∈ (0, 2) mit

spr (Hωopt) ≤ spr (Hω) , ω ∈ (0, 2),


explizit ableiten. Im Falle ρ := spr (J) < 1 gilt fur 0 < ω < 2 :

spr (Hω) =

ω − 1 , ωopt ≤ ω14

(ρ ω +

√

ρ2ω2 − 4(ω − 1))2

, ω ≤ ωopt ,

0

0.2

0.4

0.6

0.8

1

1 ωopt 2

................................................................................................................................................................................................................................................................................................................................................................................................................................................................

- ω

spr (Hω)

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Abbildung 6.1: Spektralradius der SOR-Matrix als Funktion von ω

Dann ist

ωopt =2

1 +√

1 − ρ2, spr (Hωopt) = ωopt − 1 =

1 −√

1 − ρ2

1 +√

1 − ρ2< 1. (6.1.24)

Im allgemeinen ist der genaue Wert fur spr (J) nicht bekannt. Da die linksseitige Ab-leitung der Funktion f(ω) = spr (Hω) fur ω → ωopt singular wird, ist es bei Schatzungenvon ωopt besser, einen etwas zu großen als zu kleinen Wert zu nehmen. Mit Hilfe von Ein-schließungssatzen oder auch nur der Schranke ρ ≤ ‖J‖∞ erhalt man obere Schatzungenρ ≥ ρ . Im Falle ρ < 1 erhalt man damit durch

ω :=2

1 +√

1 − ρ2≥ 2

1 +√

1 − ρ2= ωopt

eine obere Schatzung ω ≥ ωopt mit

spr (Hω) = ω − 1 =1 −

√

1 − ρ2

1 +√

1 − ρ2< 1 . (6.1.25)

Dies setzt naturlich voraus, daß die Formel (6.1.24) uberhaupt anwendbar ist.

Beispiel 6.1: Konvergenzverbesserung durch Uberrelaxation

spr (H1) = spr (J)2 =

0.81

0.99=⇒ spr (Hωopt) =

0.39

0.8.

6.2 Abstiegsverfahren 203

6.2 Abstiegsverfahren

Im folgenden betrachten wir eine Klasse von Verfahren zur Losung linearer Gleichungs-systeme, die primar auf positiv definite Koeffizientenmatrizen zugeschnitten sind.

Sei A ∈ Rn×n eine (symmetrische) positiv definite Matrix, d. h.:

(Ax, y) = (x,Ay) , ∀ x , y ∈ Rn

(Ax, x) > 0 , ∀ x ∈ Rn×n \ 0.(6.2.26)

Es bezeichnet wieder (·, ·) das euklidische Skalarprodukt auf Rn und ‖ · ‖ ist die eukli-dische Vektornorm. Zugehorig zur Matrix A werden das sog. “A-Skalarprodukt” und diezugehorige “A-Norm” definiert:

(x, y)A := (Ax, y) , ‖x‖A := (Ax, x)1/2. (6.2.27)

Wir haben fruher schon einige wichtige Eigenschaften positiv definiter Matrizen kennen-gelernt: Ihre Eigenwerte sind reell und positiv, λ := λ1 ≤ . . . ≤ λn =: Λ und es existierteine zugehorige Orthonormalbasis w1, . . . , wn von Eigenvektoren. Fur den Spektralra-dius und die Spektralkonditonszahl gilt

spr(A) = Λ , cond2(A) =Λ

λ. (6.2.28)

Grundlegend fur das Folgende ist die Charakterisierung der Losung x ∈ Rn des Glei-

chungssystems Ax = b als Minimum eines quadratischen Funktionals auf Rn .

Satz 6.6 (Minimierungseigenschaft): Die Matrix A sei (symmetrisch) positiv defi-nit. Die eindeutige Losung des Gleichungssystems Ax = b ist charakterisiert durch dieEigenschaft

Q(x) < Q(y) ∀ y ∈ Rn , y 6= x, (6.2.29)

mit dem quadratischen Funktional

Q(y) := 12(Ay, y)− (b, y) . (6.2.30)

Beweis: Sei zunachst Ax = b . Fur y 6= x ist dann

Q(y) −Q(x) = 12 (Ay, y)− 2(b, y) − (Ax, x) + 2(b, x)

= 12 (Ay, y)− 2(Ax, y) + (Ax, x)

= 12(A[x− y], x− y) > 0,

wegen der Definitheit von A . Ist umgekehrt Q(x) < Q(y) , fur x 6= y , d. h. ist x einMinimum der Funktion Q auf Rn , so muß notwendig gradQ(x) = 0 sein. Dies bedeutet


gerade, daß gilt:

∂Q

∂xi(x) =

1

2

∂

∂xi

n∑

j,k=1

ajkxjxk −∂

∂xi

n∑

k=1

bkxk =n∑

k=1

aikxk − bi = 0 ,

fur i = 1, . . . , n ; man beachte ajk = akj . Also ist Ax = b . Q.E.D.

Wir halten fest, daß der Gradient von Q in einem Punkt y ∈ Rn gegeben ist durch

grad Q(y) = 12(A+ AT )y − b = Ay − b. (6.2.31)

(Dies ist gerade der negative “Defekt” im Punkt y .) Die sog. “Abstiegsverfahren” bestim-men nun ausgehend von einem geeigneten Startvektor x(0) ∈ Rn eine Folge von Iteriertenxt , t ∈ N , durch

xt+1 = xt + αtrt. (6.2.32)

Dabei sind die rt vorgegebene oder auch erst im Verlauf der Iteration berechnete “Ab-stiegsrichtungen”, und die “Schrittweiten” αt ∈ R sind durch die Vorschrift bestimmt(sog. “line search”):

Q(xt+1) = minα∈R

Q(xt + αrt). (6.2.33)

Wegend

dαQ(xt + αrt) = gradQ(xt + αrt) · rt = (Axt − b, rt) + α(Art, rt)

ist notwendig

αt = − (gt, rt)

(Art, rt), gt := Axt − b = gradQ(xt) .

Definition 6.3: Das allgemeine Abstiegsverfahren bestimmt ausgehend von einem Start-wert x0 ∈ Rn eine Folge von Iterierten xt ∈ Rn, t = 1, 2, . . . nach der Vorschrift:

Gradient gt = Axt − b, Abstiegsrichtung rt,

αt = − (gt, rt)

(Art, rt), xt+1 = xt + αtr

t.

Praktisch gunstiger ist die folgende Schreibweise, bei der man eine Matrix-Vektor-Multiplikation spart, wenn man den Vektor Art abspeichert:

Startwerte: x0 ∈ Rn, g0 := Ax0 − b

fur t ≥ 0: gt = Axt − b, Abstiegsrichtung rt

αt = − (gt, rt)(Art, rt)

, xt+1 = xt + αtrt, gt+1 = gt + αtAr

t.


Unter Verwendung der Notation ‖y‖B := (By, y)1/2 gilt

2Q(y) = ‖Ay − b‖2A−1 − ‖b‖2

A−1 = ‖y − x‖2A − ‖x‖2

A, (6.2.34)

d. h.: Die Minimierung des Funktionals Q(·) ist aquivalent zur Minimierung der Defekt-norm ‖Ay − b‖A−1 bzw. der Fehlernorm ‖y − x‖A .

6.2.1 Gradienten-Verfahren

Die verschiedenen Abstiegsverfahren unterscheiden sich im wesentlichen durch die jewei-lige Wahl der Abstiegsrichtungen rt. Die einfachste Moglichkeit ware, die Richtungen rt

zyklisch die kartesischen Einheitsvektoren e1, . . . , en durchlaufen zu lassen. Die so er-haltene iterative Methode wird “Koordinatenrelaxation” genannt; sie ist aquivalent zumGauß-Seidel-Verfahren (Ubungsaufgabe). Naheliegender ist die Wahl der Richtung desstarksten Abfalls von Q(·) im Punkt xt als Suchrichtung:

rt = −gradQ(xt) = −gt. (6.2.35)

Definition 6.4: Das “Gradientenverfahren” bestimmt eine Folge von Iterierten xt ∈ Rn

gemaß der Vorschrift:

Startwerte: x0 ∈ Rn , g0 := Ax0 − b

fur t ≥ 0: αt =‖gt‖2

(Agt, gt)

xt+1 = xt − αtgt, gt+1 = gt − αtAg

t.

Im Falle (Agt, gt) = 0 ist notwendig auch gt = 0 , d. h.: Die Iteration kann nur mitAxt = b abbrechen.

Satz 6.7 (Gradientenverfahren): Ist die Matrix A ∈ Rn×n positiv definit, so kon-vergiert das Gradientenverfahren fur jeden Startvektor x0 ∈ Rn gegen die Losung desGleichungssystems Ax = b .

Beweis: Wir fuhren das “Fehlerfunktional” ein

E(y) := ‖y − x‖2A = (y − x,A[y−x]) , y ∈ R

n,

und setzen zur Abkurzung et := xt − x . Mit diesen Bezeichnungen gilt dann

E(xt) −E(xt+1)

E(xt)=

(et, Aet) − (et+1, Aet+1)

(et, Aet)

=(et, Aet) − (et − αtg

t, A[et − αtgt])

(et, Aet)

=2αt(e

t, Agt) − α2t (g

t, Agt)

(et, Aet)


und folglich, wegen Aet = Axt − Ax = Axt − b = gt,

E(xt) − E(xt+1)

E(xt)=

2αt‖gt‖2 − α2t (g

t, Agt)

(gt, A−1gt)

=‖gt‖4

(gt, Agt)(gt, A−1gt).

Fur die positiv definite Matrix A gilt

λ‖y‖2 ≤ (y, Ay) ≤ Λ‖y‖2 , Λ−1‖y‖2 ≤ (y, A−1y) ≤ λ−1‖y‖2,

mit λ = λmin(A) und Λ = λmax(A) . Im Falle xt 6= x , d. h. E(xt) 6= 0 und gt 6= 0 ,erschließt man damit

‖gt‖4

(gt, Agt)(gt, A−1gt)≥ ‖gt‖4

Λ‖gt‖2 λ−1‖gt‖2=λ

Λ,

bzw.E(xt+1) ≤ 1 − κ−1 E(xt) , κ := condnat(A).

Wegen 0 < 1 − 1/κ < 1 konvergiert somit fur jedes x0 ∈ Rn das FehlerfunktionalE(xt) → 0 (t→ ∞) , d. h.: xt → x (t→ ∞) . Q.E.D.

Fur eine verscharfte Abschatzung der Konvergenzgeschwindigkeit des Gradientenver-fahrens benotigen wir das folgende Resultat von Kantorowitsch:

Hilfssatz 6.4 (Lemma von Kantorowitsch): Fur die positiv definite Matrix A ∈ Rn

mit kleinstem Eigenwert λ und großtem Eigenwert Λ gilt

4λΛ

(λ− Λ)2≤ ‖y‖4

(y, Ay)(y, A−1y), ∀ y ∈ R

n. (6.2.36)

Beweis: Seien λ = λ1 ≤ . . . ≤ λn = Λ die Eigenwerte von A und w1, . . . , wn einezugehorige Orthonormalbasis von Eigenvektoren. Ein beliebiger Vektor y ∈ R

n gestattetdie Entwicklung y =

∑ni=1 yiwi mit den Koeffizienten yi = (y, wi) . Dann gilt

‖y‖4

(y, Ay)(y, A−1y)=

(∑n

i=1 y2i )

2

(∑n

i=1 λiy2i ) (∑n

i=1 λ−1i y2

i )=

1

(∑n

i=1 λiζi) (∑n

i=1 λ−1i ζi)

=ϕ(ζ)

ψ(ζ)

mit den Bezeichnungen

ζ = (ζi)i=1,...,n , ζi = y2i (

n∑

i=1

y2i )

−1,

ψ(ζ) =

n∑

i=1

λ−1i ζi , ϕ(ζ) = (

n∑

i=1

λiζi)−1.


Da die Funktion f(λ) = λ−1 konvex ist, folgt aus 0 ≤ ζi ≤ 1 und∑n

i=1 ζi = 1 , daß gilt

n∑

i=1

λ−1i ζi ≥ (

n∑

i=1

λiζi)−1.

Wir setzen g(λ) := (λ1 + λn − λ)/(λ1λn) .

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

AAAAAAAAAAAA

AAAAAAAAAAAA

g(λ)f(λ)

λ1 λn λ

Abbildung 6.2: Skizze zu Beweis des Lemma von Kantorowitsch

Offenbar liegt ϕ(ζ) fur alle Argumente ζ stets auf der Kurve f(λ) , und ψ(ζ) liegt stetszwischen den Kurven f(λ) und g(λ) (schraffierter Bereich). Folglich gilt

ϕ(ζ)

ψ(ζ)≥ min

λ1≤λ≤λn

f(λ)

g(λ)=f([λ1 + λn]/2)

g([λ1 + λn]/2)=

4λ1λn

(λ1 + λn)2.

Q.E.D.

Satz 6.8 (Fehlerabschatzung): Fur das Gradientenverfahren gilt die Fehlerabschatzung

‖xt − z‖A ≤(1 − 1/κ

1 + 1/κ

)t

‖x0 − z‖A , t ∈ N, (6.2.37)

mit der Spektralkonditionszahl κ = cond2(A) = Λ/λ von A .

Beweis: Im Beweis von Satz 6.7 wurde die folgende Identitat gezeigt:

E(xt+1) =

1 − ‖gt‖4

(gt, Agt) (gt, A−1gt)

E(xt).

Diese ergibt mit der Ungleichung von Kantorowitsch

E(xt+1) ≤

1 − 4λΛ

(λ+ Λ)2

E(xt) =( λ− Λ

λ+ Λ

)2

E(xt).


Daraus folgt dann durch sukzessive Anwendung

‖xt − x‖2A ≤

( λ− Λ

λ + λ

)2t

‖x0 − x‖2A , t ∈ N.

Q.E.D.

Der Beziehung

(gt+1, gt) = (g(t) − αtAgt, gt)

= ‖gt‖2 − αt(Agt, gt) = 0.

(6.2.38)

entnehmen wir, daß die Abstiegsrichtungen r(t) = −g(t) des Gradientenverfahrens in je-weils direkt aufeinanderfolgenden Schritten orthogonal sind. Dagegen kann g(t+2) weitvon Orthogonalitat zu g(t) abweichen. Dies fuhrt zu einem stark oszillatorischen Konver-genzverhalten des Gradientenverfahrens besonders bei Matrizen A mit weit auseinanderliegenden Eigenwerten. Dies bedeutet etwa in Fall n = 2 , daß das Funktional Q(·) starkexzentrische Niveaulinien hat, und sich die Iterierten in einem Zickzackkurs der Losungannahern (siehe Abb. 6.2.1).

Abbildung 6.3: Oszillierende Konvergenz des Gradientenverfahrens

6.2.2 CG-Verfahren

Das Gradientenverfahren nutzt die Struktur des quadratischen Funktionals Q(·) , d. h. dieVerteilung der Eigenwerte der Matrix A , nur lokal von einem Schritt zum nachsten aus.Es ware gunstiger, wenn bei der Wahl der Abstiegsrichtungen auch die bereits gewonnenenInformationen uber die globale Struktur von Q(·) berucksichtigt wurde, d. h. wenn etwadie Abstiegsrichtungen paarweise orthogonal waren. Dies ist die Grundidee des “Verfah-rens der konjugierten Richtungen” (“conjugate gradient method”; “CG-Verfahren”) nachHestenes2 und Stiefel3 (1992), welches sukzessive eine Folge von Abstiegsrichtungen d(t)

2Magnus R. Hestenes (1906-1991): US-Amerikanischer Mathematiker; arbeitete am National Bureauof Standards (NBS)und an der University of California at Los Angeles (UCLA); Beitrage zur Optimierungund Kontrolltheorie und zur Numerischen Linearen Algebra.

3Eduard Stiefel (1909-1978): Schweizer Mathematiker; seit 1943 Professor fur Angewandte Mathematikan der ETH Zurich; wichtige Beitrage zu Topologie, Gruppentheorie, Numerische Lineare Algebra (CG-


erzeugt, die bzgl. des Skalarprodukts (·, ·)A orthogonal sind “A-orthogonal”).

Zur Herleitung des CG-Verfahrens verwenden wir den Ansatz

Bt := spand0, · · · , dt−1 (6.2.39)

mit einem noch zu bestimmenden linear unabhangigen Satz von Vektoren di und suchendie Iterierten in der Form

xt = x0 +

t−1∑

i=0

αidi ∈ x0 +Bt (6.2.40)

so zu bestimmen, daß

Q(xt) = miny∈x0+Bt

Q(y) ↔ ‖Axt − b‖A−1 = miny∈x0+Bt

‖Ay − b‖A−1 . (6.2.41)

Durch Nullsetzten der Ableitungen von Q(·) nach den αi sehen wir, daß dies aquivalentist zu den sog. “Galerkin4-Gleichungen”:

(Axt − b, di) = 0 , i = 0, . . . , t− 1. (6.2.42)

bzw. in Kurzschreibweise Axt − b = gt ⊥ Bt .

Bemerkung 6.1: Wir bemerken, daß (6.2.42) nicht von der Symmetrie der Matrix Aabhangt. Ausgehend von dieser Beziehung lassen sich auch CG-artige Verfahren fur un-symmetrische und sogar indefinite Gleichungssysteme ableiten. Diese werden allgemein“Projektionsverfahren” genannt.

Setzt man den obigen Ansatz fur xt in die Orthogonalitatsbedingung (6.2.42) ein, soerhalt man ein regulares Gleichungssystem fur die Koeffizienten αi (i = 0, . . . , t−1) . Essei nochmals daran erinnert, daß die Galerkin-Gleichungen (6.2.42) aquivalent sind zurMinimierung der Defektnorm ‖Axt−b‖A−1 oder der Fehlernorm ‖xt−x‖A uber x0 +Bt .Eine naturliche Wahl fur Bt sind die sog. Krylow5-Raume

Bt = Kt(d0;A) := spand0, Ad0, . . . , At−1d0, (6.2.43)

mit einem Vektor d0 , etwa dem Anfangsdefekt d0 = b−Ax0 zu irgend einem Startvektorx0. Dies ist motiviert durch die Beobachtung, daß aus Atd0 ∈ Kt(d

0;A) notwendig −gt =b − Axt = d0 + A(x0 − xt) ∈ d0 + AKt(d

0;A) ∈ Kt(d0;A) folgt. Wegen gt ⊥ Kt(d

0;A)impliziert dies dann gt = 0 gemaß Konstruktion.

verfahren) und Approximationstheorie sowie zur Himmelsmechanik.4Boris Grigorievich Galerkin (1871-1945): russischer Bauingenieur und Mathematiker; Prof. in St.

Petersburg; Beitrage zur Struktur-Mechanik, insbesondere zur Plattentheorie.5Aleksei Nikolaevich Krylov (1863-1945): russischer Mathematiker; Prof. an der Sov. Akademie der

Wissensch. in St. Petersburg; Beitrage zu Fourier-Analysis und Differentialgleichungen, Anwendungen inder Schiffstechnik.


Das CG-Verfahren erzeugt nun Abstiegsrichtungen, die eine A-orthogonale Basis desKrylow-Raumes Kt(d

0;A) bilden. Dazu wird induktiv vorgegangen: Ausgehend von einemStartpunkt x0 mit Defekt d0 = b− Ax0 seien Iterierte xi und zugehorige Abstiegsrich-tungen di(i = 0, ..., t−1) bereits bestimmt, so daß d0, ..., dt−1 eine A-orthogonale Basisvon Kt(d

0;A) ist. Zur Konstruktion des nachsten dt ∈ Kt+1(d0;A) mit der Eigenschaft

dt ⊥A Kt(d0;A) machen wir den Ansatz

dt = −gt +

t−1∑

j=0

βt−1j dj ∈ Kt+1(d

0;A) (6.2.44)

Dabei wird o.B.d.A. angenommen, daß gt = Axt − b /∈ Kt(d0;A) ist, da andernfalls

gt = 0 bzw. xt = x ware. Dann gilt fur i = 0, ..., t− 1 :

(dt, Adi) = (−gt, Adi) +

t−1∑

j=0

βt−1j (dj , Adi) = (−gt + βt−1

i di, Adi) . (6.2.45)

Fur i < t− 1 ist (gt, Adi) = 0 wegen Adi ∈ Kt(d0;A) und demnach βt−1

i = 0 . Furi = t− 1 fuhrt die Bedingung

0 = (−gt, Adt−1) + βt−1t−1(d

t−1, Adt−1) (6.2.46)

zu den Formeln

βt−1 := βt−1t−1 =

(gt, Adt−1)

(dt−1, Adt−1), dt = −gt + βt−1d

t−1. (6.2.47)

Die nachsten Iterierten xt+1 und gt+1 = Axt+1 − b sind dann bestimmt durch

αt = − (gt, dt)

(dt, Adt), xt+1 = xt + αtd

t , gt+1 = gt + αtAdt . (6.2.48)

Dies sind die Rekursionsformeln des klassischen CG-Verfahrens. Nach Konstruktion gilt

(dt, Adi) = (gt, di) = 0, i ≤ t− 1 , (gt, gt−1) = 0. (6.2.49)

Damit folgern wir, daß

‖gt‖2 = (dt − βt−1dt−1,−gt+1 + αtAd

t) = αt(dt, Adt), (6.2.50)

‖gt+1‖2 = (gt + αtAdt, gt+1) = αt(Ad

t, gt+1). (6.2.51)

Dies gestattet einige Vereinfachungen in den Formeln, namlich

αt =‖gt‖2

(dt, Adt), βt =

‖gt+1‖2

‖gt‖2, (6.2.52)


solange die Iteration nicht mit gt = 0 abbricht.

Definition 6.5: Das CG-Verfahren bestimmt eine Folge von Iterierten xt ∈ Rn gemaßder Vorschrift:

Startwerte: x0 ∈ Rn , d0 = −g0 = b− Ax0,



t, gt+1 = g(t) + αtAdt,

βt =‖g(t+1)‖2

‖g(t)‖2 , dt+1 = −gt+1 + βtdt.

Nach Konstruktion erzeugt das CG-Verfahren eine Folge von Abstiegsrichtungen dt,welche automatisch paarweise A-orthogonal sind. Dies impliziert, daß die Vektoren d0, . . . , dt

jeweils linear unabhangig sind, und daß folglich gilt

spand0, . . . , dn−1 = Rn. (6.2.53)

Wir fassen die bisher abgeleiteten Eigenschaften des CG-Verfahrens zusammen:

Satz 6.9 (CG-Verfahren): Das CG-Verfahren bricht fur jeden Startvektor x0 ∈ Rn

(bei rundungsfreier Rechnung) nach spatestens n Schritten mit xtn = x ab. Dabei gilt injedem Schritt

Q(xt) = minα∈R

Q(xt−1 + αdt−1) = miny∈x0+Bt

Q(y) (6.2.54)

mit Bt := spand0, . . . , dt−1 .

Die Methode der konjugierten Richtungen gehort also im Gegensatz zum Gradienten-verfahren eigentlich zur Klasse der “direkten” Verfahren. In der Praxis wird sie jedochwie ein iteratives Verfahren angewendet, da

1. aufgrund von Rundungsfehlern die Richtungen dt nicht wirklich A-orthogonal sind,und die Iteration nicht abbricht;

2. bei großen Matrizen auch mit deutlich weniger als n Iterationsschritten schonbrauchbare Naherungen erzielbar sind.

Zur Vorbereitung des Hauptsatzes uber die Konvergenzgeschwindigkeit des CG-Verfahrensbeweisen wir zunachst den folgenden Hilfssatz.

Hilfssatz 6.5 (Polynomiale Normschranke): Fur ein Polynom p ∈ Pt , p(0) = 1 ,gelte auf einer Menge S ⊂ R , welche alle Eigenwerte von A enthalt,

supµ∈S

|p(µ)| ≤M. (6.2.55)


Dann gilt

‖xt − x‖A ≤M‖x0 − x‖A. (6.2.56)

Beweis: Unter Beachtung der Beziehung

‖xt − x‖A = min

y∈x0+Bt

‖y − x‖A,

Bt = spand0, . . . , dt−1 = spanA0g(0), . . . , At−1g0finden wir

‖xt − x‖A = minp∈Pt−1

‖x0 − x+ p(A)g0‖A.

Wegen g0 = Ax0 − b = A(x0 − x) folgt weiter

‖xt − x‖A = minp∈Pt−1

‖[I + Ap(A)](x0 − x)‖A

≤ minp∈Pt−1

‖I + Ap(A)‖A ‖x0 − x‖A ≤ minp∈Pt, p(0)=1

‖p(A)‖A ‖x0 − x‖A,

mit der von ‖ · ‖A erzeugten naturlichen Matrizennorm ‖ · ‖A . Fur beliebiges y ∈ Rn

gilt mit einer Orthonormalbasis w1, . . . , wn aus Eigenvektoren von A :

y =n∑

i=1

γiwi , γi = (y, wi),

und folglich

‖p(A)y‖2A =

n∑

i=1

λip(λi)2γ2

i ≤M2n∑

i=1

λiγ2i = M2 ‖y‖2

A.

Dies impliziert

‖p(A)‖A = supy∈Rn, y 6=0

‖p(A)y‖A

‖y‖A≤M

und damit die Behauptung. Q.E.D.

Als Folgerung von Hilfssatz 6.5 erhalten wir die folgende a priori Fehlerabschatzung:

Satz 6.10 (CG-Konvergenz): Fur das CG-Verfahren gilt die Fehlerabschatzung

‖xt − x‖A ≤ 2(1 − 1/

√κ

1 + 1/√κ

)t

‖x0 − x‖A , t ∈ N , (6.2.57)

mit der Spektralkonditionszahl κ = cond2(A) = Λ/λ von A . Zur Reduzierung des An-fangsfehlers um den Faktor ε sind hochstens

t(ε) ≤ 1

2

√κ ln

(2

ε

)

+ 1 (6.2.58)


Iterationsschritte erforderlich.

Beweis: Setzt man S := [λ,Λ] in Hilfssatz 6.5, so folgt

‖xt − x‖A ≤ minp∈Pt, p(0)=1

sup

λ≤µ≤Λ|p(µ)|

‖x0 − x‖A .

Dies ergibt die Behauptung, wenn wir zeigen konnen, daß

minp∈Pt, p(0)=1

sup

λ≤µ≤Λ|p(µ)|

≤ 2

(1 −√

λ/Λ

1 +√

λ/Λ

)t

.

Dabei handelt es sich um ein Problem der Bestapproximation mit Polynomen bzgl. derMaximumnorm (Tschebyscheff-Approximation). Die Losung p ist gegeben durch

p(µ) = Tt

(Λ + λ− 2µ

Λ − λ

)

Tt

(Λ + λ

Λ − λ

)−1

,

mit dem t-ten Tschebyscheff-Polynom Tt auf [−1, 1] . Dabei ist

supλ≤µ≤Λ

p(µ) = Tt

(Λ + λ

Λ − λ

)−1

.

Aus der Darstellung

Tt(µ) = 12

[(µ+

√

µ2 − 1)t

+(µ−

√

µ2 − 1)t]

, µ ∈ [−1, 1],

fur die Tschebyscheff-Polynome folgt uber die Identitat

κ+ 1

κ− 1+

√(κ + 1

κ− 1

)2

− 1 =κ+ 1

κ− 1+

2√κ

κ− 1=

(√κ + 1)2

κ− 1=

√κ+ 1√κ− 1

die Abschatzung nach unten

Tt

(Λ + λ

Λ − λ

)

= Tt

(κ+ 1

κ− 1

)

=1

2

[(√κ+ 1√κ− 1

)t

+(√κ− 1√

κ + 1

)t]

≥ 1

2

(√κ+ 1√κ− 1

)t

.

Also wird

supλ≤µ≤Λ

p(µ) ≤ 2(√κ− 1√

κ+ 1

)t

,

was (6.2.57) impliziert. Zur Herleitung von (6.2.58) fordern wir

2(√κ− 1√

κ + 1

)t(ε)

< ε

bzw.

t(ε) > ln(2

ε

)

ln(√κ+ 1√

κ− 1

)−1

.


Wegen

lnx+ 1

x− 1= 2

1

x+

1

3

1

x3+

1

5

1

x5+ . . .

≥ 2

x

ist dies erfullt fur t(ε) ≥ 12

√κ ln(2/ε) . Q.E.D.

Wegen κ = condnat(A) > 1 ist√κ < κ . Da die Funktion f(λ) = (1−λ−1) (1+λ−1)−1

fur λ > 0 streng monoton wachsend ist (f ′(λ) > 0) , folgt

1 − 1/√κ

1 + 1/√κ<

1 − 1/κ

1 + 1/κ,

d. h.: Die Methode der konjugierten Richtungen sollte schneller konvergieren als das Gra-dientenverfahren. Dies ist auch praktisch der Fall. Beide Verfahren konvergieren offenbarumso schneller, je naher die Kondition condnat(A) bei 1 liegt. Ist aber Λ ≫ λ , was in derPraxis leider haufig der Fall ist, konvergiert auch die Methode der konjugierten Richtungennur sehr langsam. Eine Beschleunigung der Konvergenz kann durch sog. “Vorkonditionie-rung” erreicht werden, die wir weiter unten beschreiben werden.

6.2.3 Allgemeinere CG-Verfahren und Vorkonditionierung

Zur Losung allgemeiner Gleichungssysteme Ax = b mit einer regularen, aber nicht not-wendig positiv definiten Matrix A ∈ Rn mit Hilfe des CG-Verfahrens kann man etwa zudem aquivalenten System

ATAx = AT b (6.2.59)

mit der positiv definiten Matrix ATA ubergehen. Hierauf angewendet, schreibt sich dasCG-Verfahren wie folgt:

Startwerte: x0 ∈ Rn , d0 = AT (b− Ax0)


‖Adt‖2 , (gt = ATAx− AT b)

xt+1 = xt + αtdt, gt+1 = gt + αtA

TAdt

βt =‖gt+1‖2

‖gt‖2 , dt+1 = −gt+1 + βtdt .

Die Konvergenzgeschwindigkeit ist dabei charakterisiert durch κ(ATA) . Das ganze Ver-fahren beruht offenbar auf der Minimierung des Funktionals

Q(y) := 12(ATAy, y)− (AT b, y) = ‖Ay − b‖2 − 1

2‖b‖2. (6.2.60)

Da κ(ATA) ∼ κ(A)2 ist, muß man mit einer recht langsamen Konvergenz des CG-Verfahrens fur nicht symmetrische Systeme rechnen.

Offensichtlich funktioniert das Verfahren der konjugierten Richtungen um so besser,


je naher die Kondition der Matrix A bei Eins liegt:

κ(A) =λmax(A)

λmin(A)≥ 1. (6.2.61)

Daher wird eine “Vorkonditionierung” vorgenommen, d. h.: Das System Ax = b wird inein aquivalentes umgeformt, Ax = b , dessen Matrix A naher bei I liegt. Sei C einesymmetrische, positiv definite Matrix, welche sich als Produkt darstellen laßt,

C = KKT (6.2.62)

mit einer regularen Matrix K . Das System Ax = b wird dann in der aquivalenten Formgeschrieben

K−1A (KT )−1

︸︷︷︸

A

KTx︸︷︷︸

x

= K−1b︸︷︷︸

b

. (6.2.63)

Das Verfahren der konjugierten Richtungen wird nun auf das System Ax = b angewendet.Die Idee dabei ist, die Matrix C so zu wahlen, daß κ(A) ≪ κ(A) wird. Die Beziehung

(KT )−1AKT = (KT )−1K−1A(KT )−1KT = C−1A (6.2.64)

zeigt, daß bei der Wahl C = uivA die Matrix A ahnlich zu I , d. h. κ(A) = κ(I) = Iware. Folglich wird man C als moglichst gute Approximation von A wahlen, wobeinaturlich die Zerlegung C = KKT bekannt sein muß. Das CG-Verfahren sieht dann wiefolgtaus:

Startwerte: x(0) ∈ Rn , d0 = −g0 = b− Ax0


(dt, Adt)

xt+1 = xt + αtdt, gt+1 = gt + αtAd

t

βt =‖gt+1‖2

‖gt‖2 , dt+1 = −gt+1 + βtdt.

Diesen Algorithmus schreibt man ublicherweise bezogen auf die ursprungliche Matrix Aund erhalt so das sog. “PCG-Verfahren” (“Preconditioned PC method”).

Definition 6.6: Das PCG-Verfahren mit (regularer) Vorkonditionierungsmatrix C =KKT bestimmt eine Folge von Iterierten xt ∈ R

n gemaß der Vorschrift:

Startwerte: x0 ∈ Rn , g0 = Ax0 − b , Cρ0 = g0 , d0 = −ρ0

fur t ≥ 0: αt =(gt, ρt)


t, gt+1 = gt + αtAd(t)

Cρt+1 = gt+1

βt =(gt+1, ρt+1)

(gt, ρt), dt+1 = −ρt+1 + βtd

t.


Beim PCG-Verfahren ist in jedem Iterationsschritt ist also ein lineares Gleichungssystemmit der Koeffizientenmatrix C = KKT zu losen. Dies bedingt, daß K etwa eine Drei-ecksmatrix sein sollte, so daß die Losung von Cρt = gt durch einfaches Vorwarts- undRuckwartseinsetzen erfolgen kann.

Beispiel 6.2: Wir geben einige einfache Beispiele von Vorkonditionierungen fur das CG-Verfahren.

a) Skalierung: Mit der ublichen Zerlegung A = D + L+R, R = LT wird gesetzt:

C = D , K = D1/2 Skalierungsmatrix

A = D−1/2AD−1/2 ⇒ aii = 1 (1 ≤ i ≤ n).

Die Skalierung bewirkt, daß die Elemente von A auf etwa gleiche Großenordnung gebrachtwerden. Dies reduziert die Kondition, denn es gilt folgender Satz: Der kleinste (großte) Ei-genwert einer symmetrischen, positiv definiten Matrix ist hochstens (mindestens) so großwie das kleinste (großte) Diagonalelement, und die Kondition der Matrix ist mindestensso groß wie der Quotient aus dem großten und dem kleinsten Diagonalelement.

b) SSOR-Vorkonditionierung: Mit einem Parameter ω wird gesetzt

C = (D + ωL)D−1(D + ωR) = (D1/2 + ωLD−1/2

︸︷︷︸

K

)(D1/2 + ωD−1/2R︸︷︷︸

KT

).

Offenbar besitzt die Dreiecksmatrix K dieselbe schwache Besetzung wie A . Pro Itera-tionsschritt erfordert das so vorkonditionierte Verfahren etwa doppelt so viel Aufwandwie das einfache Verfahren. Dagegen gilt fur die Modellmatrix (vgl. Abschnitt 6.3) beioptimaler Wahl des Parameters ω (i.a. nicht leicht zu bestimmen!)

κ(A) =√

κ(A).

c) ICCG-Vorkonditionierung (Incomplete Cholesky Conjugate Gradient): Die symmetri-sche, positiv definite Matrix A besitzt eine Cholesky-Zerlegung A = LLT mit einerunteren Dreiecksmatrix

L =

l11 0...

. . .

ln1 · · · lnn

.

Die Elemente von L sind bestimmt durch die Rekursionsformeln

lii = [ aii −i−1∑

k=1

l2ik ]1/2 , i = 1, . . . , n ,

lji = [aji −i−1∑

k=1

ljklik]/lii , j = i+ 1, . . . , n.


Die Matrix L hat i.a. innerhalb der Hulle von A von Null verschiedene Elemente, erfor-dert also in der Regel weit mehr Speicherplatz als A selbst. Dies wird jedoch dadurchausgeglichen, daß man nur eine “unvollstandige Cholesky-Zerlegung” vornimmt, d. h.: ImCholesky-Algorithmus werden einige der lji willkurlich Null gesetzt, z.B.:

lji = 0 , wenn aji = 0. (6.2.65)

Dies ergibt dann eine Zerlegung

A = LLT + E (6.2.66)

mit einer unteren Dreiecksmatrix L = (lij)i,j=1,...,n , welche eine ahnliche (dunne) Be-setzungsstruktur wie A besitzt. Man spricht von der ICCG(0)-Variante, wenn (6.2.65)gefordert wird. Werden im Fall einer Bandmatrix A weitere p Nebendiagonalen mit vonNull verschiedenen Elementen in L hinzugefugt bzw. weggestrichen, so nennt man diesdie ICCG(+p) bzw. ICCG(-p)-Variante.

Zur Vorkonditionierung verwendet die ICCG-Methode die Matrix

C = KKT = LLT . (6.2.67)

Obwohl keine strenge theoretische Begrundung fur den Erfolg dieses Ansatzes vorliegt, sozeigen doch numerische Tests an Modellproblemen, welchen Einfluß diese Konditionierungauf die Verteilung der Eigenwerte der Matrix A hat. Zwar wird die Konditionszahl κ(A)nicht deutlich kleiner als κ(A) , doch die Eigenwerte von A haufen sich im Gegensatz zudenen von A stark bei λ = 1 . Dies bewirkt, wie eine feinere Analyse in (6.2.55) zeigt,eine deutliche Beschleunigung der Konvergenz.


6.3 Ein Modellproblem

Wir wollen im folgenden die Leistungsfahigkeit der bisher untersuchten Verfahren zurLosung linearer Gleichungssysteme anhand eines Modellproblems vergleichen. Dazu be-trachten wir zunachst das sog. “1. Randwertproblem des Laplace6-Operators”

−∂2u

∂x2 (x, y) − ∂2u

∂y2 (x, y) = f(x, y) fur (x, y) ∈ Q

u(x, y) = 0 fur (x, y) ∈ ∂Q,

(6.3.68)

auf dem Einheitsquadrat Q = (0, 1) × (0, 1) ⊂ R2 . Die Losung u beschreibt z.B. dieAuslenkung einer (idealisierten) elastischen Membran, die uber dem Gebiet R horizontalgespannt und mit einer Kraftdichte f vertikal belastet wird. Eine Losung u(x, y) ist i.allg.nicht geschlossen angebbar, so daß man sich numerisch eine Naherungslosung verschafft.Dazu wird zunachst das Gebiet Q mit einem Quadratgitter uberdeckt.

1

5

9

13

2

6

10

14

3

7

11

15

4

8

12

16

h

h

h = 1m+ 1 Gitterweite

n = m2 Anzahl der gesuchten

Knotenwerte

Abbildung 6.4: Zur Diskretisierung des Modellproblems

Die “inneren” Gitterpunkte werden zeilenweise durchnumeriert. Ersetzt man dann in derobigen Differentialgleichung die 2. Ableitungen durch die entsprechenden zentralen Diffe-renzenquotienten 2. Ordnung und fordert die Gleichung nur in den inneren Gitterpunkten,so erhalt man

−h−2u(x+h, y)− 2u(x, y) + u(x−h, y) + u(x, y+h) − 2u(x, y) + u(x, y−h)

∼= f(x, y)

Durch Berucksichtigung der Randbedingung u(x, y) = 0 fur (x, y) ∈ ∂Q ist dies aquiva-

6Pierre Simon Marquis de Laplace (1749-1827): franzosischer Mathematiker und Astronom; Prof. inParis; begrundete u.a. die Wahrscheinlichkeitsrechnung.

6.3 Ein Modellproblem 219

lent zu einem linearen Gleichungssystem

Ax = b (6.3.69)

fur den Vektor x ∈ Rn der unbekannten Knotenwerte

xi ∼ u(Pi) , Pi Gitterpunkt.

Die Matrix hat die schon bekannte Gestalt

A =

B −I−I B −I

−I B. . .

. . .. . .

n B =

4 −1

−1 4 −1

−1 4. . .

. . .. . .

m

mit der m×m-Einheitsmatrix I . Die rechte Seite ist

b = h2(f(P1), . . . , f(Pn))T .

Die Matrix A ist

– eine dunn besetzte Bandmatrix mit der Bandbreite 2m+ 1 ;

– symmetrisch, irreduzibel;

– schwach diagonal dominant und positiv definit;

– derartig, daß die Theorie fur das SOR-Verfahren anwendbar ist.

Die Eigenwerte und zugehorigen Eigenvektoren von A lassen sich explizit angeben. Furk, l = 1, . . . , m ergibt sich (h = 1/(m+ 1)) :

λkl = 4 − 2 (cos(khπ) + cos(lhπ))

wkl = (sin(ikhπ) sin(jlhπ))i,j=1,...,m.

Also ist (fur h≪ 1)

Λ := λmax = 4 − 4 cos (1 − h)π ≈ 8

λ := λmin = 4 − 4 cos (hπ) = 4 − 4 (1 − π2

2h2 +O(h4)) ≈ 2π2h2

und somit

κ := condnat(A) ≈ 4

π2h2(6.3.70)


Die Eigenwerte der Jacobi-Matrix J = −D−1(L+R) sind

µkl = 12(cos(khπ) + cos(lhπ)) (k, l = 1, . . . , m)

Folglich wird

µmax = cos(hπ) = 1 − π2

2h2 +O(h4),

bzw.

ρ := spr (J) = µmax ≈ 1 − π2

2h2. (6.3.71)

Fur die Iterationsmatrizen H1 und Hωopt des Gauß-Seidel-Verfahrens und des optimalenSOR-Verfahrens gilt dann

spr (H1) = ρ2 = 1 − π2h2 +O(h4),

spr (Hωopt) =1 −

√

1 − ρ2

1 +√

1 − ρ2=

1 − πh+O(h2)

1 + πh +O(h2)= 1 − 2 πh+O(h2) .

Wir kommen nun zum Leistungsvergleich der verschiedenen Verfahren. Um den An-fangsfehler ‖x(0) −x‖2 durch Anwendung der Fixpunktiterationen um den Faktor ε≪ 1zu reduzieren, sind etwa

T (ε) ≈ ln(ε)

ln spr (B), B = I − C−1A Iterationsmatrix,

Iterationsschritte erforderlich. Es ergibt sich somit

TJ (ε) ∼ − ln(1/ε)

ln(1 − π2

2h2)

∼ 2ln(1/ε)

π2h2=

2

π2n ln(1/ε),

TGS(ε) ∼ − ln(1/ε)

ln(1 − π2h2)∼ ln(1/ε)

π2h2=

1

π2n ln(1/ε),

TSOR(ε) ∼ − ln(1/ε)

ln(1 − 2πh)∼ ln(1/ε)

2πh=

1

2π

√n ln(1/ε).

Das Gradientenverfahren und das CG-Verfahren benotigen zur Reduzierung des Anfangs-fehlers ‖x0 − x‖2 um den Faktor ε ≪ 1 die folgenden Iterationszahlen:

TG(ε) =1

2κ ln (2/ε) ∼ 2

π2h2ln(

1

ε) ∼ 2

π2n ln(

1

ε),

TCG(ε) =1

2

√κ ln(2/ε) ∼ 1

πhln(

2

ε) ∼ 1

π

√n ln(

2

ε).

Wir sehen, daß das Jacobi-Verfahren und das Gradientenverfahren ungefahr gleich schnellsind. Das CG-Verfahren ist zwar nur halb so schnell wie das “optimale” SOR-Verfahren,erfordert aber nicht die Bestimmung eines Iterationsparameters.

6.3 Ein Modellproblem 221

Fur die spezielle rechte Seite f(x, y) = 2π2 sin(πx) sin(πy) ist die exakte Losung derobigen Randwertaufgabe gerade

u(x, y) = sin(πx) sin(πy). (6.3.72)

Fur den Diskretisierungsfehler der Differenzenapproximation laßt sich folgende Darstel-lung zeigen

maxPi

|u(Pi) − xi| =π2

12h2 +O(h4). (6.3.73)

Zur Erzielung einer Genauigkeit von ε = 10−4 (vier Stellen) ist also die Gitterweite

h ∼√

12

π10−2 ∼ 10−2

erforderlich. Die Anzahl von Unbekannten ist dann n ∼ 104 . Fur die Spektralradien bzw.Konditionszahlen der betrachteten Iterationsverfahren und fur die Anzahl der Iterations-schritte, die zur Erzielung einer Fehlergroße von etwa 10−4 erforderlich sind, ergibt sichin diesem Fall (ln(1/ε) ∼ 10) :

spr (J) ∼ 0, 9995 TJ(ε) ∼ 20.000

spr (H1) ∼ 0.999 TGS(ε) ∼ 10.000

spr (Hω∗) ∼ 0, 995 TSOR(ε) ∼ 170

condnat(A) ∼ 5.000 TG(ε) ∼ 20.000, TCG(ε) ∼ 340

Zum Vergleich der Effizienz der Iterationsverfahren muß naturlich auch der Aufwand proIterationsschritt berucksichtigt werden. Fur die Anzahl “OP” der arithmetischen Opera-tionen (1 Multiplikation + 1 Addition) pro Iterationsschritt gilt

OPJ ≈ OPH1 ≈ OPHω≈ 6 n ,

OPG ≈ OPCG ≈ 10 n .

Als Endresultat finden wir, daß zur Bestimmung der Losung des durch Diskretisierung derRandwertaufgabe (6.3.68) entstehenden (n × n)-Gleichungssystems Ax = b das Jacobi-Verfahren, das Gauß-Seidel-Verfahren und das Gradientenverfahren O(n2) a. Op. benoti-gen. Zur Losung des Gleichungssystems Ax = b mit einem direkten Verfahren wurdeman das Cholesky-Verfahren verwenden. Bei Berucksichtigung der speziellen Strukturder Modellmatrix erfordert dies O(n2) = O(m2n) a. Op. zur Berechnung der ZerlegungA = LLT und weitere O(n3/2) = O(mn) a. Op. fur Vorwarts- und Ruckwartseinset-zen. Damit scheint das direkte Verfahren z. B. dem Gauß-Seidel-Verfahren uberlegen zusein. Es ist jedoch zu berucksichtigen, daß letzteres nur O(n) Speicherplatze benotigt imGegensatz zu den O(n3/2) = O(mn) fur das Cholesky-Verfahren. In den letzten Jahrenwurden sehr effiziente Verfahren zur Losung von Problemen des obigen Typs entwickelt,die im wesentlichen die n Unbekannten mit O(n) Operationen berechnen.


6.4 Ubungsaufgaben

Ubung 6.1: Fur die Matrizen

A1 =

2 −1 2

1 2 −2

2 2 2

, A2 =

5 5 0

−1 5 4

2 3 8

,

untersuche man, ob das Jacobi- und das Gauß-Seidel-Verfahren fur die Gleichungssyste-me Aix = b (i = 1, 2) konvergiert. (Hinweis: Man wende die Konvergenzkriterien derVorlesung an bzw. schatze den Spektralradius ab.)

Ubung 6.2: Das Gleichungssystem

[

3 −1

−1 3

][

x1

x2

]

=

[

−1

1

]

soll mit dem Jacobi- und dem Gauß-Seidel-Verfahren gelost werden. Wieviele Iterationensind jeweils ungefahr erforderlich, um den Iterationsfehler ‖x(t) − x‖2 um den Faktor10−6 zu reduzieren? (Hinweis: Man verwende die Fehlerabschatzung der Vorlesung.)

Ubung 6.3: Zur Losung des linearen (2 × 2)-Gleichungssystems

[

1 −a−a 1

]

x = b, x, b ∈ R2,

sei das folgende Iterationsverfahren angesetzt

[

1 0

−ωa 1

]

xt =

[

1 − ω ωa

0 1 − ω

]

xt−1 + ωb, ω ∈ R.

a) Fur welche a ∈ R ist diese Methode mit ω = 1 konvergent?

b) Man bestimme fur a = 0.5 den Wert

ω ∈ 0.8, 0.9, 1.0, 1.1, 1.2, 1.3, 1.4,

fur den der Spektralradius der Iterationsmatrix Bω minimal wird und skizziere den Gra-phen der Funktion f(ω) = spr(Bω) .

Ubung 6.4: Man zeige, daß die in der Vorlesung angegebenen beiden Definitionen der“Irreduzibilitat” einer Matrix A ∈ Rn×n aquivalent sind.


(Hinweis: Die Definition der “Nichtzerlegbarkeit” des Gleichungssystems in einer Form

PAP T = A =

[

A11 0

A12 A22

]

, A11 ∈ Rp×p, A22 ∈ R

q×q, n = p + q,

laßt sich auch wie folgt ausdrucken: Es gibt keine (nicht-triviale) Partitionierung J,Kvon Nn = 1, . . ., n, J ∪K = Nn, J ∩K = ∅ , so daß ajk = 0 fur j ∈ J, k ∈ K .

Ubung 6.5: Man betrachte das lineare Gleichungssystem Anx = b mit der (n × n)-Blockmatrix (n = m2, h := (m+ 1)−1)

An =

Bm −Im−Im Bm

. . .. . .

. . . −Im−Im Bm

∈ Rn×n, Bm =

4 −1

−1 4. . .

. . .. . . −1

−1 4

∈ Rm×m

mit der Einheitsmatrix Im ∈ Rm×m und dem Vektor b = h2(1, . . ., 1)T ∈ Rn . Manschreibe ein Programm zur Losung dieses Gleichungssystems mit Hilfe

a) des Jacobi-Verfahrens;

b) des Gauß-Seidel-Verfahrens;

c) des SOR-Verfahrens mit “optimalem” Relaxationsparameter ωopt gemaß der in derVorlesung angegebenen Theorie:

1 < ωopt =2

1 +√

1 − spr(J)2< 2, spr(J) = cos(hπ) < 1.

Als Startvektoren verwende man jeweils x(0) = 0 und als Abbruchkriterium

‖Axt − b‖∞‖xt‖∞

≤ 10−8 oder tmax ≤ 20000.

Fur m = 2k, k = 1, . . ., 6 , vergleiche man das Konvergenzverhalten dieser Verfahren.(Das Programm soll moglichst sparsam im Speicherverbrauch sein!)

7 Matrizeneigenwertaufgaben

Im folgenden betrachten wir quadratische Matrizen A ∈ Kn×n mit Elementen aus K = R

oder K = C .

Definition 7.1: Eine Zahl λ ∈ C ist “Eigenwert” von A , wenn es einen zugehorigen“Eigenvektor” w ∈ Cn , w 6= 0 , gibt mit Aw = λw . Die Eigenwerte sind gerade dieNullstellen des “charakteristischen Polynoms” χA von A

χA(z) = det(A− zI) = (−1)nzn + b1zn−1 + . . .+ bn.

Es gibt genau n (ihrer Vielfachheit als Nullstelle entsprechend oft gezahlte) Eigenwerte,welche sich unabhangig voneinander bestimmen lassen.Man spricht vom “partiellen Eigenwertproblem”, wenn nur einzelne Eigenwerte (etwader kleinste oder der großte) und gegebenenfalls die zugehorigen Eigenvektoren gesuchtsind, und vom “vollstandigen Eigenwertproblem”, wenn alle Eigenwerte und eventuellzugehorige Eigenvektoren berechnet werden sollen.

Ist ein Eigenwert λ bekannt, so erhalt man die zugehorigen Eigenvektoren als Losungdes homogenen Gleichungssystems (A−λI)w = 0 . Umgekehrt bestimmt ein Eigenvektorw eindeutig den zugehorigen Eigenwert etwa durch den sog. “Rayleigh1-Quotienten”

λ =(Aw,w)2

‖w‖22

.

Dabei bezeichnen wieder (·, ·)2 das euklidische Skalarprodukt und ‖ · ‖2 die zugehori-ge Vektornorm. Im folgenden stellen wir einige Tatsachen und Definitionen der linearenAlgebra zusammen: Das charakteristische Polynom einer Matrix A ∈ Kn×n besitzt mitseinen paarweise verschiedenen Nullstellen λi (den Eigenwerten von A ) die Darstellung

χA(z) =m∏

i=1

(z − λi)σi ,

m∑

i=1

σi = n.

Die Eigenvektoren zum Eigenwert λi bilden einen Unterraum von Cn , den sog. “geome-

trischen Eigenraum” zu λi , mit der Dimension ρi = dim(Kern(A− λiI)) . Es heißen σi

die “‘algebraisch” und ρi die “geometrische” Vielfachheit von λi . Es ist stets ρi ≤ σi .

Beispiel 7.1: Die Bedeutung der folgenden Matrizen Cm(λ) liegt darin, daß aus ihnendie sog. “Jordansche2 Normalform” einer Matrix A aufgebaut ist (siehe Abschnitt 7.3):

1John William Strutt (Lord Rayleigh) (1842-1919): Englischer Mathematiker und Physiker; forschtezunachst als (adliger) Privatgelehrter, 1879-1884 Professor fur experimentelle Physik in Cambridge; fun-damentale Beitrage zur theoretischen Physik: Streutheorie, Akustik, Elektro-Magnetismus, Gasdynamik.

2Marie Ennemond Camille Jordan (1838-1922): Franzosischer Mathematiker; Prof. in Paris; Beitragezur Algebra, Gruppentheorie, Analysis und Topologie.

225


Cm(λ) =

λ 1 0

λ 1. . .

. . .

λ 1

0 λ

∈ Km×m , Eigenwerte: λ ∈ C

χCm(λ)(z) = (λ− z)m ⇒ σ = m, Rang(Cm(λ) − λI) = m− 1 ⇒ ρ = 1 .

Der naheliegende Weg zur Berechnung der Eigenwerte einer Matrix A ∈ Kn×n waredie Bestimmung der Koeffizienten ihres charakteristischen Polynoms pA(z) und die an-schließende Berechnung der Nullstellen von χA(z) mit einem geeigneten numerischenVerfahren. Dieses Vorgehen ist jedoch i. Allg. nicht angeraten, da die Nullstellenbestim-mung bei Polynomen ein hochgradig schlecht konditioniertes Problem ist, obwohl dasursprungliche Eigenwertproblem, wie wir sehen werden, meist gut konditioniert ist.

Beispiel 7.2: A ∈ R20×20 symmetrisch mit Eigenwerten λj = j , j = 1, . . . , 20 :

χA(z) =20∏

j=1

(z − j) = z20 −210︸︷︷︸

b1

z19 + . . .+ 20!︸︷︷︸

b20

Der Koeffizient b1 sei gestort: b1 = −210 + 2−23 ∼ −210, 000000119 . . . ,

relativer Fehler

∣∣∣∣∣

b1 − b1b1

∣∣∣∣∣∼ 10−10.

Das gestorte Polynom χA(z) hat dann u. a. die Wurzeln: λ± ∼ 16, 7 ± 2, 8i.

Uber das charakteristische Polynom werden die Eigenwerte nur fur sehr einfach struk-turierte Matrizen berechnet, bei denen dies moglich ist, ohne die Koeffizienten von χA(z)auszurechnen. Dies sind “Tridiagonalmatrizen” und allgemeiner sog. “Hessenberg3 -Matrizen”.

Tridiagonalmatrix Hessenberg-Matrix

a1 b1

c2. . .

. . .. . . bn−1

cn an

a11 · · · a1n

a21. . .

.... . . an−1,n

0 an,n−1 ann

3Karl Hessenberg (1904-1959): Deutscher Mathematiker; Dissertation “Die Berechnung der Eigenwerteund Eigenlosungen linearer Gleichungssysteme”, TU Darmstadt 1942.

7.1 Konditionierung des Eigenwertproblems 227

7.1 Konditionierung des Eigenwertproblems

Hilfssatz 7.1 (Stabilitat): Seien A,B ∈ Kn×n beliebige Matrizen und ‖·‖ eine naturli-che Matrizennorm. Dann gilt fur jeden Eigenwert λ von A , der nicht zugleich auchEigenwert von B ist, die Beziehung

‖(λI −B)−1 (A− B)‖ ≥ 1. (7.1.1)

Beweis: Ist w Eigenvektor zum Eigenwert λ von A , so folgt aus der Identitat

(A−B)w = (λI − B)w,

wenn λ kein Eigenwert von B ist,

(λI − B)−1 (A−B)w = w.

Also ist

1 ≤ supx∈Kn\0

‖(λI −B)−1 (A−B) x‖‖x‖ = ‖(λI − B)−1 (A−B)‖,


Als Folgerung aus Hilfssatz 7.1 erhalten wir zunachst den wichtigen Einschließungssatzvon Gerschgorin4 (1931).

Satz 7.1 (Satz von Gerschgorin): Alle Eigenwerte einer Matrix A ∈ Kn×n liegen inder Vereinigung der sog. “Gerschgorin-Kreise”

Kj :=

z ∈ C : |z − ajj| ≤n∑

k=1,k 6=j

|ajk|

, j = 1, . . . , n. (7.1.2)

Sind die Mengen U ≡ ∪mi=1Kji

und V ≡ ∪nj=1Kj \ U disjunkt, so liegen in U genau m

und in V genau n − m Eigenwerte von A (mehrfache Eigenwerte ihrer algebraischenVielfachheiten entsprechend oft gezahlt).

Beweis: (i) Wir setzen B ≡ D = diag(ajj) in Hilfssatz 7.1 und nehmen die ”maximaleZeilensumme” als naturliche Matrizennorm. Damit folgt dann fur λ 6= ajj:

‖(λI −D)−1 (A−D)‖∞ = maxj=1,...,n

1

|λ− ajj|n∑

k=1,k 6=j

|ajk| ≥ 1,

d. h.: λ liegt in einem der Gerschgorin-Kreise.

4Semyon Aranovich Gershgorin (1901-1933): Russischer Mathematiker; seit 1930 Professor in Lenin-grad (St. Petersburg); arbeitete uber Algebra, Funktionenthorie, Differentialgleichungen und Numerik.


(ii) Zum Beweis der zweiten Behauptung setzen wir At ≡ D+ t(A−D) . Offenbar liegengenau m Eigenwerte von A0 = D in U und n −m Eigenwerte in V . Dasselbe folgtdann auch fur A1 = A , da die Eigenwerte von At stetige Funktionen von t sind. Q.E.D.

Der Satz von Gerschgorin liefert sehr viel genauere Informationen uber die Lage derEigenwerte λ von A als die uns schon bekannte grobe Abschatzung |λ| ≤ ‖A‖∞ . DieMatrizen A und AT haben dieselben Eigenwerte. Durch Anwendung von Satz 7.1 aufAT erhalt man oft eine weitere Verscharfung der Abschatzung fur die Eigenwerte.

Beispiel 7.3:

A =

1 0.1 −0.2

0 2 0.4

−0.2 0 3

‖A‖∞ = 3.2 , ‖A‖1 = 3.6.

K1 = z ∈ C : |z − 1| ≤ 0.3K2 = z ∈ C : |z − 2| ≤ 0.4K3 = z ∈ C : |z − 3| ≤ 0.2

KT1 = z ∈ C : |z − 1| ≤ 0.2

KT2 = z ∈ C : |z − 2| ≤ 0.1

KT3 = z ∈ C : |z − 3| ≤ 0.6

|λ1 − 1| ≤ 0.2 , |λ2 − 2| ≤ 0.1 , |λ3 − 3| ≤ 0.2

AAAAAAAAA

AAAAAA

AAAAAA

||Α||1||Α||∞

1 2 3

Abbildung 7.1: Gerschgorin-Kreise

Weiter erhalten wir mit Hilfssatz 7.1 den folgenden Storungssatz:

Satz 7.2 (Stabilitatssatz): Sei A ∈ Kn×n eine Matrix, zu der es n linear unabhangigeEigenvektoren w1, . . . , wn gibt, und sei B ∈ Kn×n eine zweite Matrix. Dann gibt eszu jedem Eigenwert λ(B) von B einen Eigenwert λ(A) von A , so daß mit der MatrixW = [w1, . . . , wn] gilt:

|λ(A) − λ(B)| ≤ cond2(W) ‖A − B‖2 . (7.1.3)

7.1 Konditionierung des Eigenwertproblems 229

Beweis: Die Eigenwertgleichungen Aw(i) = λi(A)w(i) lassen sich in der Form AW =W · diag(λi(A)) schreiben mit der regularen Matrix W = [w1, . . . , wn] . Also ist

A = W diag(λi(A))W−1,

d. h.: A ist “ahnlich” zu der Diagonalmatrix Λ = diag(λi(A)) . Wenn λ = λ(B) nunkein Eigenwert von A ist, so gilt

‖(λI − A)−1‖2 = ‖W (λI − Λ)−1W−1‖2

≤ ‖W−1‖2‖W‖2‖(λI − Λ)−1‖2

= cond2(W ) maxi=1,...,n

|λ− λi(A)|−1 .

Hilfssatz 7.1 ergibt dann die Behauptung. Q.E.D.

Fur hermitesche Matrizen A ∈ Kn×n existiert eine Orthonormalbasis des K

n vonEigenvektoren, so daß die Matrix W in Satz 7.2 als unitar angenommen werden kann:WW T = I . In diesem Fall ist

cond2(W ) = ‖W T‖2 ‖W‖2 = 1. (7.1.4)

Wir fassen die gefundenen Ergebnisse zusammen.

Regel 7.1.1: Das Eigenwertproblem hermitescher Matrizen ist gut konditioniert, wahrenddas allgemeine Eigenwertproblem je nach Große von cond2(W ) beliebig schlecht kondi-tioniert sein kann.


7.2 Iterative Verfahren

Im folgenden betrachten wir ein iteratives Verfahren zur Losung des partiellen Eigenwert-problems einer Matrix A ∈ Kn×n .

Definition 7.2: Die “Potenzmethode” nach v. Mises5 erzeugt ausgehend von einem Start-vektor z0 ∈ C

n mit ‖z0‖ = 1 eine Folge von Iterierten zt ∈ Cn , t = 1, 2, . . . , durch

zt = Azt−1 , zt =zt

‖zt‖ . (7.2.5)

Fur einen beliebigen Index k ∈ 1, . . . , n (etwa den der “maximalen” Komponente vonzt ) wird gesetzt

λ(t) :=(Azt)k

ztk

. (7.2.6)

Zur Normierung wird ublicherweise ‖·‖ = ‖·‖∞ oder ‖·‖ = ‖·‖2 verwendet. Zur Analysedieses Verfahrens nehmen wir an, daß die Matrix A “diagonalisierbar”, d. h. ahnlich zueiner Diagonalmatrix, ist. Dies ist, aquivalent dazu, daß A eine Basis von Eigenvektorenw1, . . . , wn besitzt (Ubungsaufgabe). Diese Eigenvektoren wi seien normiert. Wir neh-men weiter an, daß z(0) eine nichttriviale Komponente bzgl. wn besitzt. Dies ist keinewesentliche Einschrankung, da aufgrund des unvermeidbaren Rundungsfehlers dieser Fallim Verlauf der Iteration sicher einmal eintritt

Satz 7.3 (Potenzmethode): Die Matrix A sei diagonalisierbar und ihr betragsgroßterEigenwert sei separiert von den anderen Eigenwerten, d. h.: |λn| > |λi|, i 6= n . Ferner ha-be der Startvektor z(0) eine nichttriviale Komponente bzgl. des zugehorigen Eigenvektorswn . Dann gibt es Zahlen σt ∈ C, |σt| = 1 , so daß

‖zt − σtwn‖ → 0 (t→ ∞), (7.2.7)

und es gilt

λ(t) − λn = O(∣∣∣λn−1

λn

∣∣∣

t)

(t→ ∞). (7.2.8)

Beweis: Sei z0 =∑n

i=1 αiwi die Basisdarstellung der Startvektoren. Fur die Iterierten zt

gilt

zt =zt

‖zt‖ =Azt−1

‖Azt−1‖ =Azt−1

‖zt−1‖‖zt−1‖‖Azt−1‖ = . . . =

Atz0

‖Atz0‖ .

5Richard von Mises (1883-1953): Ostereichischer Mathematiker; Professor fur Angewandte Mathe-matik und Mechanik in Straßburg (1909-1918), in Dresden und dann Grunder des neuen Institutsfur Angewandte Mathematik in Berlin (1919-1933), danach Emigration in die Turkei (Istambul) undschließlich in die USA (1938); Professor an der Harward University; wichtige Beitrage zur theoreti-schen Stromungsmechanik (Einfuhrung des “Spannungstensors”), Aerodynamik, Numerik, Statistik undWahrscheinlichkeitstheorie.

7.2 Iterative Verfahren 231

Ferner ist

Atz0 =n∑

i=1

αiλtiwi = λt

nαn

wn +n−1∑

i=1

αi

αn

( λi

λn

)t

wi

und folglich wegen |λi/λn| < 1, i = 1, . . . , n− 1 ,

Atz0 = λtnαnwn + o(1) (t→ ∞).

Dies ergibt

zt =λt

nαnwn + o(1)|λt

nαn| ‖wn + o(1)‖ =λt

nαn

|λtnαn|

︸︷︷︸

=: σt

wn + o(1).

Die Iterierten zt konvergieren also gegen spanwn. Weiter gilt (wegen αn 6= 0 )

λ(t) =(Azt)k

ztk

=(At+1 z0)k

‖Atz0‖‖Atz0‖(Atz0)k

=λt+1

n

αnwn,k +

∑n−1i=1 αi

(λi

λn

)t+1wi,k

λtn

αnwn,k +

∑n−1i=1 αi

(λi

λn

)twi,k

= λn +O(∣∣∣λn−1

λn

∣∣∣

t)

(t→ ∞).

Q.E.D.

Die Konvergenz der Potenzmethode ist um so besser, je mehr der betragsgroßte Ei-genwert λn von den ubrigen betragsmaßig separiert ist. Der Konvergenzbeweis laßt sichverallgemeinern fur diagonalisierbare Matrizen, bei denen der betragsgroßte Eigenwertzwar mehrfach sein kann, aber |λn| = |λi| notwendig λn = λi impliziert. Fur nochallgemeinere Matrizen ist die Konvergenz nicht mehr gesichert.

Bei hermiteschen Matrizen erhalt man im Rahmen der Potenzmethode bessere Eigen-wertnaherungen mit Hilfe des Rayleigh-Quotienten:

λ(t) := (Azt, zt) , ‖zt‖ = 1. (7.2.9)

In diesem Fall kann w1, . . . , wn als Orthonormalsystem gewahlt werden, so daß gilt:

λ(t) =(At+1z0, Atz0)

‖Atz0‖2=

∑ni=1 |αi|2λ2t+1

i∑n

i=1 |αi|2λ2ti

=λ2t+1

n

|αn|2 +

∑n−1i=1 |αi|2

(λi

λn

)2t+1

λ2tn |αn|2 +

∑ni=1 |αi|2 (λi|λn)2t = λn +O

(∣∣∣λn−1

λn

∣∣∣

2t)

.

Die Konvergenz der Eigenwertnaherungen ist hier also doppelt so schnell wie im nichthermiteschen Fall.

Fur die praktische Rechnung ist die einfache Potenzmethode nur bedingt brauchbar,da sie schlecht konvergiert, wenn |λn−1/λn| ∼ 1 ist, und auch nur den betragsgroßtenEigenwert liefert.


Eine Weiterentwicklung der Potenzmethode ist die sog. “Inverse Iteration” nach Wie-landt6 Hier wird davon ausgegangen, daß man bereits eine gute Naherung λ fur einenEigenwert λk der Matrix A kennt (durch Einschließungssatze oder andere Verfahren),so daß gilt:

|λk − λ| ≪ |λi − λ|, i = 1, . . . , n , i 6= k. (7.2.10)

Im Falle λ 6= λk hat (A − λI)−1 die Eigenwerte µi = (λi − λ)−1 , i = 1, . . . , n , und esgilt

∣∣∣

1

λk − λ

∣∣∣≫

∣∣∣

1

λi − λ

∣∣∣ , i = 1, . . . , n , i 6= k. (7.2.11)

Definition 7.3: Die “inverse Iteration” besteht in der Anwendung der Potenzmethodeauf die Matrix (A − λI)−1 mit einer a priori Schatzung λ zum gesuchten Eigenwertλk . Ausgehend von einem Startvektor z0 werden Iterierte zt bestimmt als Losungen derGleichungssysteme

(A− λI)zt = zt−1 , zt =zt

‖zt‖ , t = 1, 2, . . . . (7.2.12)

Die zugehorige Eigenwertnaherung wird bestimmt durch

µ(t) :=zt

k

((A− λI)zt)k

, ((A− λI)zt)k 6= 0, (7.2.13)

oder im symmetrischen Fall wieder mit Hilfe des Rayleigh-Quotienten.

Aufgrund der Aussagen uber die Potenzmethode liefert die inverse Iteration also fur einediagonalisierbare Matrix jeden Eigenwert, zu dem bereits eine hinreichend gute Naherungbekannt ist.

Beispiel 7.4: Wir wollen die eben beschriebenen Verfahren auf die Modellmatrix ausAbschnitt 6.3 anwenden. Zur Bestimmung der Schwingungsformen und Frequenzen eineruber dem Gebiet Ω gespannten Membran (Trommel) hat man das Eigenwertproblem desLaplace-Operators

−∂2w∂x2 (x, y) − ∂2w

∂y2 (x, y) = µw(x, y) fur (x, y) ∈ Ω,

w(x, y) = 0 fur (x, y) ∈ ∂ Ω,(7.2.14)

zu losen. Man kann zeigen, daß dieses Problem eine abzahlbar unendliche Folge von re-ellen, positiven Eigenwerten besitzt. Der kleinste von diesen µmin > 0 , beschreibt ge-

6Helmut Wielandt (1910-2001): Deutscher Mathematiker; Professor in Mainz (1946-1951) und Tubin-gen (1951-1977); Beitrage zu Gruppentheorie, Lineare Algebra und Matrix-Theorie.

7.2 Iterative Verfahren 233

rade den Grundton der Trommel und die zugehorige Eigenfunktion wmin die zugehori-ge Grundschwingungsform. Die Diskretisierung dieses Problems mit Hilfe des 5-Punkte-Differenzensterns fuhrt auf eine Matrizeneigenwertaufgabe

Az = λz , λ = h2µ (7.2.15)

mit derselben Blocktridiagonalmatrix A wie beim Randwertproblem. Unter Verwendungder Bezeichnungen des Abschnitts 6.3 lassen sich deren Eigenwerte explizit angeben durch

λkl = 4 − 2(cos(khπ) + cos(lhπ)) , k, l = 1, . . . , m.

Von Interesse ist nun offenbar insbesondere der kleinste Eigenwert λmin von A , dermit h−2λmin ≈ µmin eine Approximation zum kleinsten Eigenwert des Ausgangsproblems(3.2.9) liefert. Fur λmin und den darauffolgenden Eigenwert λ∗ > λmin gilt offenbar

λmin = 4 − 4 cos(hπ) = 2π2h2 +O(h4)

λ∗ = 4 − 2(cos(2hπ) + cos(hπ)) = 5π2h2 +O(h4).

Zur Berechnung von λmin konnte die inverse Iteration (mit Shift λ = 0 ) verwendetwerden. Dies erfordert in jedem Iterationsschritt die Losung eines Gleichungssystems

Azt = zt−1 (7.2.16)

Fur die zugehorige Eigenwertnaherung

λt =(Azt, zt)

‖zt‖2(7.2.17)

gilt dann mit dem auf λmin folgenden Eigenwert λ∗ > λmin die Konvergenzaussage

|λt − λmin| ≈ (λmin/λ∗)2t ≈ (0, 4)2t, (7.2.18)

d. h.: Die Konvergenzgeschwindigkeit ist unabhangig von der Gitterweite h bzw. derDimension n = m2 ≈ h−2 der Matrix A . Allerdings mußte zur Erzielung einer vorgege-benen Genauigkeit fur die Approximation µ(t) = h−2λ(t) die Toleranz mit h−2 skaliertwerden, was wiederum eine logarithmische h-Abhangigkeit der erforderlichen Iterations-zahl einfuhrt.

t(ε) ≈ log(εh2)

log(0, 4)≈ log(n). (7.2.19)

Dieser Weg zur Berechnung von µmin ware damit sehr aufwendig, wenn die Losung derProbleme (3.2.11) etwa mit Hilfe des PCG-Verfahrens auf maximale Genauigkeit erfolgenwurde. Zur Aufwandsreduktion konnte man die Abbruchgenauigkeit der CG-Iteration amAnfang niedrig ansetzen und sie erst im Laufe der außeren Iteration sukzessive erhohen.


7.3 Reduktionsmethoden

Wir rekapitulieren einige fur das Folgende wichtigen Eigenschaften “ahnlicher” Matrizen.

Definition 7.4: Zwei Matrizen A,B ∈ Cn×n heißen “ahnlich”, in Symbolen A ∼ B ,

wenn es eine regulare Matrix T ∈ Cn×n gibt, so daß gilt:

A = T−1BT. (7.3.20)

Wegen

det(A− zI) = det(T−1[B − zI]T )

= det(T−1) det(B − zI) det(T ) = det(B − zI)(7.3.21)

haben ahnliche Matrizen A,B dasselbe charakteristische Polynom und folglich dieselbenEigenwerte. Ist λ ein Eigenwert von A mit Eigenvektor w , so ist wegen

Aw = T−1BTw = λw

offenbar Tw ein Eigenvektor von B zum Eigenwert λ . Algebraische und geometrischeVielfachheiten von Eigenwerten ahnlicher Matrizen stimmen also uberein. Es liegt nunnahe, eine gegebene Matrix A durch eine Folge von Ahnlichkeitstransformationen

A = A(0) = T−11 A(1)T1 = Q . . . = T−1

i A(i)Ti = . . . (7.3.22)

auf eine Form zu bringen, fur welche Eigenwerte und zugehorige Eigenvektoren leicht zubestimmen sind. Dies ist die Vorgehensweise der sog. “Reduktionsmethoden”. Wir gebendazu (ohne Beweis) eine Reihe von grundlegenden Resultaten an:

Satz 7.4 (Jordansche Normalform): Die Matrix A ∈ Cn×n habe die (paarweise ver-schiedenen) Eigenwerte λi, i = 1, . . . , m , mit Vielfachheiten σi und ρi . Dann gibt es

Zahlen r(i)k ∈ N k = 1, . . . , ρi, σi = r

(i)1 + . . . + r

(i)ρi , so daß A ahnlich ist zu einer

Jordanschen Normalform

JA =

Cr(1)1

(λ1)

. . . 0

Cr(1)ρ1

(λ1)

. . .

Cr(m)1

(λm)

0. . .

Cr(m)ρm

(λm)

.

Die Zahlen r(i)k sind dabei bis auf die Reihenfolge eindeutig bestimmt.

7.3 Reduktionsmethoden 235

Laßt man als Ahnlichkeitstransformation nur solche mit unitaren Matrizen zu, so giltder folgende Satz von Schur7

Satz 7.5 (Schursche Normalform): Die Matrix A ∈ Cn×n habe die (ihrer algebrai-schen Vielfachheiten entsprechend oft gezahlten) Eigenwerte λi , i = 1, . . . , n . Dann gibtes eine unitare Matrix U ∈ Cn×n mit

UTAU =

λ1 ∗. . .

0 λn

. (7.3.23)

Ist A ∈ Cn×n hermitesch, AT = A , so ist auch UTAU hermitesch. Folglich sind her-mitesche Matrizen A ∈ Cn×n stets “unitar-ahnlich” zu einer Diagonalmatrix, UTAU =diag(λi) , d. h. “diagonalisierbar”.

Hilfssatz 7.2 (Diagonalisierbarkeit): Fur eine Matrix A ∈ Cn×n sind die folgendenAussagen aquivalent:

(i) A ist diagonalisierbar.

(ii) Es gibt eine Basis des Cn aus Eigenvektoren von A .

(iii) Fur alle Eigenwerte von A ist die algebraische gleich der geometrischen Vielfachheit.

Beweis: Ubungsaufgabe. Q.E.D.

Die direkte Transformation einer gegebenen Matrix auf Normalform ist i. Allg. nurbei vorheriger Kenntnis der Eigenvektoren in endlich vielen Schritten moglich. Dahertransformiert man in der Praxis eine Matrix zunachst nur in eine einfachere Form (z. B.Hessenberg-Form) und wendet auf diese dann andere Verfahren an:

A = A(0) → A(1) = T−11 A(0) T1 → . . . A(m) = T−1

m A(m−1) Tm.

Die Transformationsmatrizen Ti sollten dabei explizit durch die Elemente von A(i−1)

angebbar sein. Ferner sollte das Eigenwertproblem der Matrix A(i) = T−1i A(i−1) Ti nicht

wesentlich schlechter konditioniert sein als das von A(i−1) .

Sei ‖·‖ eine naturliche Matrizennorm zur Vektornorm ‖·‖ auf Cn . Fur zwei ahnlicheMatrizen B ∼ A gilt dann

B = T−1AT , B + δB = T−1(A+ δA)T , δA = TδBT−1,

7Issai Schur (1875-1941): Russisch-Deutscher Mathematiker; Professor in Bonn (1911-1916) und in Ber-lin (1916-1935), wo er eine beruhmte mathematische Schule begrundete; wegen seiner judischen Herkunftverfolgt emmigrierte er 1939 nach Palestina; fundamentale Arbeiten insbesondere zur Darstellungstheorievon Gruppen und zur Zahlentheorie.


bzw.‖B‖ ≤ cond(T ) ‖A‖ , ‖δA‖ ≤ cond(T ) ‖δB‖.

Folglich ist

‖δA‖‖A‖ ≤ cond(T )2 ‖δB‖

‖B‖ . (7.3.24)

Fur große cond(T ) ≫ 1 werden also kleine Anderungen in B die Eigenwerte unterUmstanden wesentlich starker verfalschen als solche in A . Um die Gutartigkeit der Re-duktionsmethode zu garantieren, hat man wegen

cond(T ) = cond(T1 . . . Tm) ≤ cond(T1) · . . . · cond(Tm)

die Matrizen Ti so zu wahlen, daß cond(Ti) nicht zu groß wird. Dies ist insbesondere beiden folgenden drei Typen von Transformationen der Fall:

a) Drehungen:

T =

1. . .

1

cos(ϕ) − sin(ϕ)

1. . .

1

sin(ϕ) cos(ϕ)

1. . .

1

=⇒ condnat(T ) = 1.

b) Spiegelungen (Householder-Transformationen):

T = I−2uuT =⇒ condnat(T ) = 1.

Die Householder-Transformationen sind unitar und folglich ist ihre Spektralkonditiongleich condnat(T ) = 1 .

c) Eliminationen

T =

1. . .

1

li+1,i 1...

. . .

ln,i 1

, |ljk| ≤ 1 =⇒ cond∞ (T ) ≤ 4.


Im folgenden betrachten wir nun das Eigenwertproblem reeller Matrizen. Die Grund-lage des sog. “Householder-Verfahrens” ist der folgende Satz:

Satz 7.6 (Hessenberg-Normalform): Zu jeder Matrix A ∈ Rn×n existiert eine Folgevon Householder-Matrizen Ti, i = 1, . . . , n−2 , so daß TAT T mit T = Tn−2 . . . T1 eineHessenberg-Matrix ist. Fur symmetrisches A ist TAT T eine Tridiagonalmatrix.

Beweis: A = [a1, . . . , an], ak Spaltenvektoren von A . Im ersten Schritt wird u1 =(0, u12, . . . , u1n)T ∈ Rn, ‖u1‖2 = 1 , so bestimmt, daß mit T1 = I−2u1u

T1 gilt:

T1a1 ∈ spane1, e2

Damit gilt dann

A(1) = T1AT1 =

a11 a12 . . . a1n

//// ∗0

︸︷︷︸

T1A

1 0 . . .

0 ∗...

︸︷︷︸

T T1

=

a11 ∗////

0A(1)

.

Im nachsten Schritt wendet man eine analoge Prozedur auf die reduzierte Matrix A(1)

an. Nach n−2 Schritten erhalt man so eine Matrix A(n−2) , welche offenbar Hessenberg-Gestalt hat. Mit A ist auch A(1) = T1AT1 symmetrisch und folglich auch A(n−2) . Dannist A(n−2) als symmetrische Hessenberg-Matrix eine Tridiagonalmatrix. Q.E.D.

Fur eine symmetrische Matrix A ∈ Rn×n erfordert das Householder-Verfahren zurReduktion von A auf Tridiagonalform 2

3n3 + O(n2) Operationen. Zur Reduktion einer

allgemeinen Matrix auf Hessenberg-Form sind 53n3 +O(n2) Operationen notig. In diesem

Fall erweist sich die folgende Methode von Wilkinson8 als gunstiger; sie erfordert nur etwahalb soviele Operationen. Zur Reduktion einer Matrix A ∈ Rn×n auf Hessenberg-Formwerden dabei Ahnlichkeitstransformationen mit Eliminationsmatrizen

Ep−1 =

p

1. . .

1

lp+1,p 1...

. . .

lnp 1

p , E−1p−1 =

p

1. . .

1

−lp+1,p 1...

. . .

−lnp 1

p

8James Hardy Wilkinson (1919-1986): Englischer Mathematiker; Wissenschaftler National PhysicalLaboratory in London (seit 1946); fundamentale Beitrage zur numerischen linearen Algebra, insbes. zurRundungsfehleranalyse; Mitbegrunder der NAG Library (1970).


und Permutationsmatrizen

Ppq =

p q

1. . .

1

0 · · · 1

1...

. . ....

1

1 · · · 0

1. . .

1

p

q

, P−1pq = Ppq,

verwendet:

A(i) = T−1i A(i−1)Ti , Ti = Ppiqi

Epi. (7.3.25)

Wie wir schon bei der Analyse des Gaußschen Eliminationsverfahrens (mit Spaltenpivo-tierung) gesehen haben, bewirkt die Multiplikation E−1

p A bzw. AEp die Subtraktion desljp-fachen (j = p + 1, . . . , n) der p-ten Zeile von der j-ten Zeile von A bzw. die Ad-dition des ljp-fachen der j-ten Spalte zur p-ten Spalte von A . Die Multiplikation PpqAbzw. APpq bewirkt die Vertauschung der p-ten mit der q-ten Zeile bzw. der p-ten mitder q-ten Spalte. Die Matrizen Ppq sind offenbar unitar und haben folglich die Konditi-on condnat(Ppq) = 1 . Die Eliminationsmatrizen Ep haben zwar eine gunstige Kondition,cond∞(Ep) ≤ 4 , doch zerstoren sie die eventuell vorhandene Symmetrie von A

Satz 7.7 (Reduktion auf Hessenbergmatrix): Zu jeder Matrix A ∈ Rn×n existierteine Folge von Permutations- und Eliminationsmatrizen Pi+1,qi

Ei, i = 1, . . . , n − 2 , sodaß T−1AT mit T = P2,q1E1 · · ·Pn−1,qn−2En−2 eine Hessenberg-Matrix ist.

Beweis: Die Permutationsmatrizen Pi+1,qidienen allein der Stabilisierung des Eliminati-

onsprozesses durch Spaltenpivotierung; dadurch wird garantiert, daß stets |lj,pi| ≤ 1 ist.

Im ersten Schritt ermittelt man zunachst das Pivotelement in der 1-sten Spalte

|ap11| = maxj=2,...,n

|aj1|,

und vertauscht die 2-te mit der p1-ten Zeile sowie die 2-te mit der p1-ten Spalte:

A′ := P2p1AP2p1 .

Dann werden durch den Eliminationsschritt die Elemente in der 1-sten Spalte unterhalbvon a′21 annuliert: A′′ := E−1

1 P2p1AP2p1 mit


E−11 =

1

1

−l32 1...

. . .

−ln2 1

, lj2 =a′j1a′21

, j = 3, . . . , n.

Die Ahnlichkeitstransformation erfordert noch die Multiplikation mit E1 von rechts:

A(1) = A′′E1 =

a′11 a′12 · · · a′1n

a′21 a′22 · · · a′2n

0 ∗

Dies bewirkt eine Addition von Vielfachen der k-ten Spalten, k = 3, . . . , n , zur 2-tenSpalte, d. h.: Die Elemente der 1-ten Spalte werden nicht mehr verandert. Nach n − 2solcher Transformationen erhalt man eine zu A ahnliche Hessenberg-Matrix. Q.E.D.

Das alteste Verfahren zur Reduktion einer gegebenen (hier reell symmetrischen) Matrixauf Tridiagonalform stammt von Givens9 (1958). Es verwendet Drehmatrizen der Form

Upq =

p q

1. . .

1

cos(α) · · · sin(α)

1...

. . ....

1

− sin(α) · · · cos(α)

1. . .

1

p

q

.

Dieser Algorithmus benotigt aber etwa doppelt so viele Operationen wie die Methode vonHouseholder, so daß wir hier nicht weiter darauf eingehen.

9James Wallace Givens, 1910-1993: US-Amerikanischer Mathematiker: arbeitete am Oak Ridge Natio-nal Laboratory; bekannt durch die nach ihm benannte Matrixtransformation “Givens-Rotation” (“Com-putation of plane unitary rotations transforming a general matrix to triangular form”, SIAM J. Anal.Math. 6, 26-50, 1958).


7.4 Tridiagonal- und Hessenberg-Matrizen

Im folgenden behandeln wir Verfahren zur Losung des Eigenwertproblems symmetrischerTridiagonalmatrizen und von Hessenberg-Matrizen, die durch Anwendung einer Redukti-onsmethode aus einer allgemeinen Matrix erzeugt werden.

7.4.1 LR- und QR-Verfahren

Sei A ∈ Rn×n zunachst eine beliebige Matrix. Wir betrachten zwei iterative Verfahrenzur Losung des vollstandigen Eigenwertproblems von A :

(I) Das “LR-Verfahren” nach Rutishauser10 (1958) erzeugt ausgehend von A(1) := A eineFolge von Matrizen A(t), t ∈ N , durch die Vorschrift

A(t) = L(t)R(t) (LR-Zerlegung), A(t+1) := R(t)L(t). (7.4.26)

WegenA(t+1) = R(t)L(t) = [L(t)]−1 L(t)R(t)

︸︷︷︸

= A(t)

L(t)

sind alle Iterierten A(t) ahnlich zu A und haben somit dieselben Eigenwerte. Untergeeigneten Voraussetzungen an A laßt sich zeigen, daß

limt→∞

A(t) = limt→∞

R(t) =

λ1 ∗. . .

0 λn

, lim

t→∞L(t) = I, (7.4.27)

wobei λi die Eigenwerte von A sind.

Das LR-Verfahren erfordert in jedem Schritt die Berechnung einer LR-Zerlegung mitHilfe des Gaußschen Algorithmus und ist folglich viel zu aufwendig fur allgemeine vollbe-setzte Matrizen. Bei Hessenberg-Matrizen ist der Aufwand jedoch vertretbar. Der schwer-wiegende Nachteil des LR-Verfahrens ist die notwendige Voraussetzung der Existenz derLR-Zerlegungen A(t) = L(t)R(t) . Hat man nur P (t)A(t) = L(t)R(t) mit einer Permutati-onsmatrix P (t) 6= I , so braucht keine Konvergenz vorzuliegen.

(II) Das “QR-Verfahren” nach Francis11 (1961) gilt als das derzeit effizienteste zur Losungdes Eigenwertproblems von Hessenberg-Matrizen. Zur Umgehung der Hauptschwierigkeitbeim LR-Verfahren liegt es nahe, eine analoge Iteration mit Hilfe der stets existierenden

10Heinz Rutishauser (1918-1970): Schweizer Mathematiker und Informatiker; seit 1962 Professor an derETH Zurich; Beitrage zu Numerische Lineare Algebra (LR-Verfahren: Solution of eigenvalue problemswith the LR transformation, Appl. Math. Ser. nat. Bur. Stand. 49, 47-81(1958).) und Analysis sowie zuGrundlagen der Computer-Arithmetik.

11J. F. G. Francis: the QR transformation. A unitary analogue to the LR transformation, ComputerJ. 4, 265-271 (1961/1962).

7.4 Tridiagonal- und Hessenberg-Matrizen 241

QR-Zerlegung anzusetzen:

A(t) = Q(t)R(t) , A(t+1) := R(t)Q(t) , t ∈ N, (7.4.28)

wobei Q(t) unitare und R(t) rechte obere Dreiecksmatrizen mit positiven Diagonalele-menten sind. Die QR-Zerlegung wird etwa mit Hilfe des Householder-Verfahrens vor-genommen. Auch hier kommt aus Okonomiegrunden nur eine Anwendung auf einfachstrukturierte Matrizen wie Hessenberg-Matrizen in Frage. Wegen

A(t+1) = R(t)Q(t) = Q(t)T

Q(t)R(t)

︸︷︷︸

= A(t)

Q(t)

sind wieder alle Iterierten A(t) ahnlich zu A . Zum Nachweis der Konvergenz des QR-Verfahrens benotigen wir den folgenden Hilfssatz:

Hilfssatz 7.3: Es seien E(t) ∈ Rn×n, t ∈ N , regulare Matrizen mit limE(t) = I und

E(t) = Q(t)R(t) zugehorige QR-Zerlegungen. Dann gilt notwendig

limt→∞

Q(t) = I = limt→∞

R(t). (7.4.29)

Beweis: Wegen

‖E(t) − I‖2 = ‖Q(t)R(t) −Q(t)Q(t)T ‖2 = ‖R(t) −Q(t)T ‖2 → 0

konvergiert q(t)jk → 0 (t→ ∞), j < k . Dies erzwingt wegen

I = Q(t)Q(t)T

=

→ 0

∗. . .

∗

∗∗ . . .

→ 0

notwendigq(t)jj → ±1 , q

(t)jk → 0 (t→ ∞) , j > k .

Also konvergiert Q(t) → diag(±1) (t→ ∞) . Wegen

Q(t)R(t) = E(t) → I (t→ ∞) , rjj > 0

ist also limt→∞ Q(t) = I . Dann ist aber auch

limt→∞

R(t) = limt→∞

Q(t)T

E(t) = I,



Satz 7.8 (QR-Algorithmus): Die Eigenwerte der Matrix A ∈ Rn×n seien betragsmassig separiert: |λ1| > |λ2| > . . . > |λn| . Dann gilt fur die durch das QR-Verfahren erzeugten

Matrizen A(t) = (a(t)jk )j,k=1,...,n :

limt→∞

a(t)jj | j = 1, . . . , n = λ1, . . . , λn. (7.4.30)

Beweis: Es gilt

A(t+1) = R(t)Q(t) = Q(t)T

Q(t)R(t)

︸︷︷︸

= A(t)

Q(t) =

= . . . = [Q(1) . . . Q(t)]TA [Q(1) . . . Q(t)]︸︷︷︸

=: P (t)

Die normierten Eigenvektoren wi, ‖wi‖ = 1 , zu den Eigenwerten λi sind linear un-abhangig. Die Matrix W = [w1, . . . , wn] ist also regular und genugt der BeziehungAW = WΛ mit der Diagonalmatrix Λ = diag(λi) . Folglich gilt

A = WΛW−1.

Sei QR = W die QR-Zerlegung von W und LS = PW−1 eine LR-Zerlegung von PW−1

(P geeignete Permutationsmatrix). Wir betrachten im folgenden den Fall P = I . Es ist

At = [WΛW−1]t = WΛtW−1 = WΛtLS = W [ΛtL(Λ−1)t]ΛtS

= W

1 0. . .

ljk

(λj

λk

)t

1

ΛtS = W [I +N (t)]ΛtS

= QR[I +N (t)]ΛtS = Q[R +RN (t)]ΛtS,

und somitAt = Q[I +RN (t)R−1]RΛtS.

Da die Eigenwerte λi betragsmaßig der Große nach geordnet sind, ist |λj/λk| < 1, j > k ,d. h.

N (t) → 0 , RN (t)R−1 → 0 (t→ ∞).

Fur die QR-Zerlegungen I +RN (t)R−1 = Q(t)R(t) folgt dann nach Hilfssatz 7.3

Q(t) → I , R(t) → I (t→ ∞).

Weiter istAt = QQ(t)[R(t)RΛtS]

offenbar eine QR-Zerlegung von At (mit nicht notwendig positiven Diagonalelementen


von R !). Aus

Q(1) . . . Q(t)

︸︷︷︸

= P (t)

R(t) . . . R(1)

︸︷︷︸

=: S(t)

= Q(1) . . . Q(t−1)

︸︷︷︸

= P (t−1)

A(t) R(t−1) . . . R(1)

︸︷︷︸

=: S(t−1)

= P (t−1) [P (t−1)T

A P (t−1)]︸︷︷︸

s. Beweisbeginn

S(t−1)

= A P (t−1)S(t−1)

folgtP (t)S(t) = AP (t−1)S(t−1) = . . . = At−1P (1)S(1) = At .

Also ist P (t)S(t) = At eine zweite QR-Zerlegung von At (mit positiven Diagonalelementenvon R !). Es gibt folglich Diagonalmatrizen D(t) = diag(±1) , so daß

P (t) = QQ(t)D(t)

︸︷︷︸

=: T (t)

, (|t(t)jk |)j,k=1,...,n → I (t→ ∞).

Damit finden wir, daß

A(t+1) = P (t)T

AP (t) = [QT (t)]TAQT (t) = T (t)T

QTAQT (t)

= T (t)T

RΛR−1T (t) (wegenW−1AW = Λ ⇔ R−1QTAQR = Λ).

= T (t)T

λ1 ∗. . .

0 λn

Q(t)D(t).

Wegen Q(t) → I (t→ ∞) konvergiert also

D(t)A(t+1)D(t) →

λ1 ∗. . .

0 λn

(t→ ∞).

Besitzt W−1 keine LR-Zerlegung, so erscheinen die Eigenwerte λi nicht mehr betragsmaßigder Große nach geordnet. Q.E.D.

Die Konvergenzgeschwindigkeit des QR-Verfahrens wird bestimmt durch die Großen

∣∣∣∣

λj

λk

∣∣∣∣< 1, j > k,

d. h.: Die Konvergenz ist um so schneller, je besser die Eigenwerte von A betragsmaßigsepariert sind. Fur positiv definite Matrizen kann man zeigen, daß das QR-Verfahren


doppelt so schnell konvergiert wie das entsprechende LR-Verfahren; es benotigt jedochpro Iterationsschritt auch etwa die doppelte Anzahl von Operationen. Unter gewissenBedingungen kann fur da QR-Verfahren sogar kubische Konvergenz erreicht werden, d. h.:|λ(t) − λ| ≤ c|λ(t−1) − λ|3 . Wie das LR-Verfahren wendet man das QR-Verfahren nurauf bereits reduzierte Matrizen an, fur die eine QR-Zerlegung leichter zu berechnen ist:Hessenberg-Matrizen, symmetrische Tridiagonalmatrizen oder allgemeiner Bandmatrizender Bandbreite 2m+ 1 ≪ n . Dies ist gerechtfertigt aufgrund der folgenden Aussage:

Hilfssatz 7.4: Ist A eine Hessenberg-Matrix (oder eine symmetrische 2m+1-Bandmatrix),so gilt dasselbe fur alle vom QR-Algorithmus erzeugten Matrizen A(t) .

Praktische Erfahrungen zeigen, daß das QR-Verfahren in Verbindung mit der Redukti-onsmethode allen anderen bekannten Verfahren zur Losung des vollstandigen Eigenwert-problems uberlegen ist.

7.4.2 Verfahren von Hyman

Die klassische Methode zur Berechnung der Eigenwerte einer Tridiagonal- oder Hessenberg-Matrix basiert auf der Bestimmung des charakteristischen Polynoms, allerdings ohne des-sen Koeffizienten explizit auszurechnen. Das “Verfahren von Hyman12 (1957) berechnetdas charakteristische Polynom pA(z) einer Hessenberg-Matrix A ∈ R

n×n . Wir nehmenan, daß die Matrix A nicht in zwei Teilmatrizen vom Hessenberg-Typ zerfallt, d. h.:aj+1,j 6= 0 , j = 1, . . . , n − 1 . Mit einer noch zu wahlenden Funktion c (z) wird dasGleichungssystem betrachtet:

(a11 − z)x1 + a12x2 + · · ·+ a1,n−1xn−1 + a1nxn = −c (z)

a21x1 + (a22 − z)x2 + · · ·+ a2,n−1xn−1 + a2nxn = 0

...

an,n−1xn−1 + (ann − z)xn = 0

Setzt man xn = 1 , so lassen sich xn−1, . . . , x1 sowie c (z) sukzessive bestimmen. Nachder Cramerschen Regel gilt

1 = xn =(−1)nc(z)a21a32 . . . an,n−1

det(A− zI).

Folglich ist c (z) = konst. · det(A − zI) , und man erhalt eine rekursive Formel zurBestimmung des charakteristischen Polynoms pA(z) = det(A− zI) .

12M. A. Hyman: Eigenvalues and eigenvectors of general matrices, Twelfth National Meeting A.C.M.,Houston, Texas, 1957.


Sei nun A ∈ Rn×n eine symmetrische Tridiagonalmatrix mit bi 6= 0 , i = 1, . . . , n− 1 :

A =

a1 b1 0

b1. . .

. . .. . . bn−1

0 bn−1 an

.

Zur Berechnung des charakteristischen Polynoms pA(z) dienen die Rekursionsformeln

p0(z) = 1 , p1(z) = a1 − z ,

pi(z) = (ai − z) pi−1(z) − b2i−1pi−2(z), i = 2, . . . , n.

Die Polynome pi ∈ Pi sind gerade die i-ten Hauptminoren von det(A − zI) , d. h.:pn = pA . Um dies einzusehen, entwickle man den (i + 1)-ten Hauptminor nach der(i+ 1)-ten Spalte:

a1 − z b1

b1. . .

. . .. . .

bi−1

bi−1 ai − z bi

bi ai+1 − z. . .

. . .. . .

= (ai+1 − z)pi(z) − b2i pi−1(z)︸︷︷︸

=: pi+1(z)

i− 1 i i+ 1

Es ist oft nutzlich, die Ableitung p′A zu kennen (z. B. bei der Anwendung des Newton-Verfahrens). Diese erhalt man durch die Rekursionsformeln

q0(z) = 0 , q1(z) = −1

qi(z) = −pi−1(z) + (ai − z)qi−1(z) − b2i−1qi−2(z) , i = 2, . . . , n ,

qn = p′A .

Hat man eine Nullstelle λ von pA , d. h. einen Eigenwert von A bestimmt, so erhalt maneinen zugehorigen Eigenvektor durch w (λ) , wobei

w (z) =

w0 (z)...

wn−1(z)

,

w0(z) ≡ 1 (bn := 1)

wi(z) :=(−1)ipi(z)

b1 . . . bi, i = 1, . . . , n .

(7.4.31)


Um dies zu verifizieren, berechnet man (A− zI)w(z) . Fur i = 1, . . . , n− 1 (b0 := 0) ist

bi−1wi−2(z) + aiwi−1(z) + biwi(z) − z wi−1(z) =

= bi−1(−1)i−2 pi−2(z)

b1 . . . bi−2

+ ai(−1)i−1 pi−1(z)

b1 . . . bi−1

+ bi(−1)i pi(z)

b1 . . . bi− z(−1)i−1 pi−1(z)

b1 . . . bi−1

= b2i−1(−1)i−2 pi−2(z)

b1 . . . bi−1+ ai(−1)i−1 pi−1(z)

b1 . . . bi−1+ (−1)i (ai − z) pi−1(z) − b2i−1pi−2(z)

b1 . . . bi−1

− z(−1)i−1 pi−1(z)

b1 . . . bi−1

= 0.

Fur i = n ist (bn := 1)

bn−1wn−2(z) + anwn−1(z) − z wn−1(z) =

= bn−1(−1)n−2 pn−2(z)

b1 . . . bn−2+ (an − z)(−1)n−1 pn−1(z)

b1 . . . bn−1

= −b2n−1(−1)n−1 pn−2(z)

b1 . . . bn−1

+ (an − z)(−1)n−1 pn−1(z)

b1 . . . bn−1

= (−1)n−1 pn(z)

b1 . . . bn−1= −wn(z) .

Wir finden also

(A− zI)w(z) =

0...

0

−wn(z)

. (7.4.32)

Fur einen Eigenwert λ von A ist wn(λ) = konst. · pA(λ) = 0 , d. h.

(A− λI)w (λ) = 0.

7.4.3 Verfahren der Sturmschen Kette

Wir werden nun ein Verfahren zur Bestimmung der Nullstellen des charakteristischenPolynoms PA einer symmetrischen (unzerlegbaren) Tridiagonalmatrix A ∈ Rn×n be-schreiben. Ableitung der Identitat (7.4.32) ergibt

[(A− zI)w(z)]′ = −w(z) + (A− zI)w′(z) =

0...

0

−w′n(z)

.


Wir setzen z = λ mit einem Eigenwert λ von A und multiplizieren mit −w(λ) :

0 < ‖w(λ)‖22 − ([A− λI]w(λ)

︸︷︷︸

= 0

, w′(λ))

= wn−1(λ)w′n(λ) = −pn−1(λ)p′n(λ)

b21 . . . b2n−1

.

Folglich ist p′n(λ) 6= 0 , d. h. wir haben allgemein:

(S1) Alle Nullstellen von pn sind einfach.

(S2) Fur jede Nullstelle λ von pn gilt

pn−1(λ)p′n(λ) < 0.

Weiter gilt

(S3) Fur jede reelle Nullstelle ζ von pi−1 ist

pi(ζ)pi−2(ζ) < 0 , i = 2, . . . , n;

denn in diesem Fall ist pi(ζ) = −b2i−1pi−2(ζ) und ware pi(ζ) = 0 , so folgte der Wider-spruch

0 = pi(ζ) = pi−1(ζ) = pi−2(ζ) = . . . = p0(ζ) = 1.

Schließlich gilt trivialerweise

(S4) p0 6= 0 hat keinen Vorzeichenwechsel.

Definition 7.5: Eine Folge von Polynomen p = pn, pn−1, . . . , p0 (oder allgemeiner steti-ger Funktionen fn, fn−1, . . . , f0 ) mit den Eigenschaften (S1)-(S4) heißt eine “SturmscheKette13 von p .

Die vorausgegangene Uberlegung hat also zu folgendem Resultat gefuhrt:

Satz 7.9 (Sturmsche Kette): Sei A ∈ Rn×n eine symmetrische, unzerlegbare Tridia-

gonalmatrix. Dann bilden die Hauptminoren pi(z) der Matrix A − zI eine SturmscheKette des charakteristischen Polynoms pA(z) = pn(z) von A .

Der Wert der Existenz einer Sturmschen Kette zu einem Polynom p beruht auf demfolgenden Resultat:

Satz 7.10 (Intervallschachtelung): Es sei p ein Polynom und p = pn, pn−1, . . . , p0

eine zugehorige Sturmsche Kette. Dann ist die Anzahl der reellen Nullstellen von p in

13Jacques Charles Franois Sturm (1803-1855): Franzosisch-Schweizer Mathematiker; Professor an derEcole Polytechnique in Paris seit 1840; Beitrage zur Mathematischen Physik, Differentialgleichungen,(“Sturm-Liouville-Problem”) und Differentialgeometrie.


einem Intervall [a, b] gleich N(b)−N(a) , wobei N(ζ) die Anzahl der Vorzeichenwechselder Kette pn(ζ), . . . , p0(ζ) bezeichnet.

Beweis: Wir betrachten die Zahl der Vorzeichenwechsel N(a) fur wachsendes a . N(a)bleibt konstant, solange a keine Nullstelle eines der pi passiert. Sei nun a Nullstelleeines der pi ; wir unterscheiden zwei Falle:

(i) Fall pi(a) = 0 fur i 6= n : In diesem Fall ist pi+1(a) 6= 0 , pi−1(a) 6= 0 . Die Vorzeichenvon pj(a) , j ∈ i − 1, i, i + 1 zeigen daher fur genugend kleines h > 0 ein Verhalten,das durch eines der zwei folgenden Tableaus skizziert werden kann:

a− h a a+ h

i− 1 − − −i +/− 0 −/+

i+ 1 + + +

a− h a a+ h

i− 1 + + +

i +/− 0 −/+i+ 1 − − −

In jedem Fall ist N(a − h) = N(a) = N(a + h) , und die Anzahl der Vorzeichenwechselandert sich nicht.

(ii) Fall pn(a) = 0 : In diesem Fall kann das Verhalten von pj(a) , j ∈ n − 1, n , durcheines der folgenden beiden Tableaus beschrieben werden (wegen (S2)):

a− h a a+ h

n − 0 +

n− 1 − − −

a− h a a+ h

n + 0 −n− 1 + + +

Also ist N(a − h) = N(a) = N(a + h) − 1 , d. h.: Beim Passieren einer Nullstelle vonpn kommt genau ein Vorzeichenwechsel hinzu. Fur a < b gibt daher N(b) − N(a) =N(b+h)−N(a−h) , h > 0 genugend klein, die Anzahl der Nullstellen von pn im Intervall[a−h, b+h] an. Da h beliebig klein gewahlt werden kann, folgt die Behauptung. Q.E.D.

Satz 7.10 fuhrt auf ein einfaches “Bisektionsverfahren” zur Bestimmung der Nullstellendes charakteristischen Polynoms pA einer symmetrischen, irreduziblen TridiagonalmatrixA ∈ Rn×n . Offenbar besitzt A nur reelle, einfache Eigenwerte

λ1 < λ2 < · · · < λn.

Fur x→ −∞ besitzt die Kette

p0(x) = 1 , p1(x) = a1 − x

i = 2, . . . , n : pi(x) = (ai − x)pi−1(x) − b2i pi−2(x) ,

die Vorzeichenverteilung +, . . . ,+ ; also ist N(x) = 0 . Folglich gibt N(ζ) gerade die


Anzahl der Nullstellen λ von pA mit λ < ζ an. Fur die Eigenwerte λi von A gilt also:

λi < ζ ⇐⇒ N(ζ) ≥ i. (7.4.33)

Zur Bestimmung des i-ten Eigenwertes λi startet man mit einem Intervall [a0, b0] , dasλi sicher enthalt, z. B.: a0 < λ1 < λn < b0 . Dann halbiert man sukzessiv das Intervallund testet mit Hilfe der Sturmschen Kette, in welchem der beiden neuen Teilintervalle λi

liegt, d. h.: Man bildet fur t = 0, 1, 2, . . . :

µt :=at + bt

2,

at+1 :=

at , falls N(µt) ≥ i

µt , falls N(µt) < i

bt+1 :=

µt , falls N(µt) ≥ i

bt , falls N(µt) < i

(7.4.34)

Es gilt dann stets λi ∈ [at+1, bt+1] ,

[at+1, bt+1] ⊂ [at, bt] , |at+1 − bt+1| = 12|at − bt|,

und at konvergiert monoton wachsend, bt monoton fallend gegen λi . Dies Verfahrenist zwar langsam, aber sehr genau (geringe Rundungsfehleranfalligkeit) und gestattet dieBestimmung eines jeden beliebigen Eigenwertes unabhangig von den ubrigen.

7.5 Ubungsaufgaben

Ubung 7.1:

8 Lineare Optimierung

8.1 Lineare Programme

“Lineares Programm” ist die historisch bedingte Bezeichnung fur lineare Optimierungs-aufgaben vom folgenden Typ:

Beispiel 8.1: Eine Fabrik kann zwei Typen A und B eines Produkts unter folgendenBedingungen herstellen:

Produkt Typ A Typ B maximal moglich

Stuck pro Tag x1 x2 100 Stuck

Arbeitszeit pro Stuck 4 1 160 Stunden

Kosten pro Stuck 20 10 1100 DM

Gewinn pro Stuck 120 40 ? DM

Wie mussen x1 und x2 gewahlt werden, damit der Gewinn maximal wird? Dabei mußoffenbar der lineare Ausdruck

Q(x1, x2) := 120x1 + 40x2

zu einem Maximum gemacht werden unter den linearen Nebenbedingungen

x1 + x2 ≤ 100

4x1 + x2 ≤ 160

20x1 + 10x2 ≤ 1100

, x1 ≥ 0 , x2 ≥ 0. (8.1.1)

Dies ist ein lineares Programm in der sog. “Standardform”.

Beispiel 8.2: Die Produktion von 7 Zuckerfabriken soll so auf 300 Verbrauchsorte verteiltwerden, daß der Bedarf befriedigt wird und die Transportkosten minimiert werden.

Fabrik Fj (j = 1, . . . , 7) , Verbrauchsort Gk (k = 1, . . . , 300)

Produktion aj (pro Monat) , Verbrauch rk (pro Monat)

transportierte Menge Fj → Gk : xj,k , Kosten cj,k (pro Einheit).

Es sei vorausgesetzt, daß Bedarf und Produktionsmenge gleich sind:

300∑

k=1

rk =

7∑

j=1

aj .

251


Zu minimieren sind die Gesamtkosten

Q(x1,1, . . . , x7,300) :=

7∑

j=1

300∑

k=1

cj,kxj,k

unter den Nebenbedingungen xj,k ≥ 0 und

7∑

j=1

xj,k = rk (k = 1, . . . , 300) ,300∑

k=1

xj,k = aj (j = 1, . . . , 7).

Diese Aufgabenstellungen lassen sich in folgenden allgemeinen Rahmen einordnen:(Fur einen Vektor x = (x1, . . . , xn)T bedeutet die Schreibweise x ≥ 0 , daß alle Kompo-nenten xi ≥ 0 sind.)

Fur 1 ≤ m ≤ n seien eine Matrix A ∈ Rm×n vom Rang m sowie Vektoren b ∈Rm, b ≥ 0 , und c ∈ Rn gegeben.

Definition 8.1: Als “lineares Programm in Normalform” (bzw. “kanonischer” Form),abgekurzt LP, bezeichnet man die Aufgabe, unter den Gleichungsnebenbedingungen undVorzeichenbedingungen

Ax = b , x ≥ 0

ein Minimum der Zielfunktion Q(x) := cTx zu bestimmen.

Anders ausgedruckt sucht ein lineares Programm im “zulassigen Bereich”

M := x ∈ Rn | Ax = b , x ≥ 0 (8.1.2)

ein x∗ ∈M zu bestimmen, so daß

cTx∗ = minx∈M

cTx. (8.1.3)

Zur Einordnung der obigen Beispiele in diesen Rahmen konnen folgende Umformungenherangezogen werden:

– Ein Ungleichung mit ≥ wird durch Multiplikation mit −1 in eine mit ≤ uberfuhrt.

– Eine Ungleichung a1x1 + . . .+anxn ≤ β wird durch Einfuhrung einer sog. “Schlupf-variablen” y in eine Gleichung und eine Vorzeichenbedingung uberfuhrt:

a1x1 + . . .+ anxn + y = β , y ≥ 0.

– Fur jede Gleichung a1x1 + . . .+ anxn = β kann (eventuell nach Multiplikation mit−1 ) stets β ≥ 0 vorausgesetzt werden.

– Fehlt fur eine Variable, etwa fur x1 , die Vorzeichenbedingung, so wird x1 durch dieDifferenz y1 − y2 zweier neuer Variablen ersetzt, und man fordert y1 ≥ 0 , y2 ≥ 0 .

8.1 Lineare Programme 253

– Gleichungen, die Linearkombinationen anderer Gleichungen sind, werden weggelas-sen, so daß fur die Matrix A ∈ Rm×n stets Rang A = m angenommen werdenkann.

– Wegen max cTx = −min (−cTx) kann man alle linearen Programme auf die Be-stimmung eines Minimums zuruckfuhren.

Der zulassige Bereich M eines LP ist der Durchschnitt einer linearen Mannigfaltigkeitmit Halbraumen und folglich abgeschlossen. Weiter ist M “konvex”:

x, y ∈M =⇒ λx+ (1 − λ) y ∈M ∀ λ ∈ [0, 1].

Ist M = ∅ , so besitzt das LP keine Losung. Im Fall M 6= ∅ existiert immer eineLosung, wenn M beschrankt (und damit kompakt) ist; fur unbeschranktes M brauchtkeine Losung zu existieren.

Beispiel 8.3: In einfachen Fallen lassen sich lineare Programme graphisch losen: Derzulassige Bereich M in Beispiel 1 (Standardformulierung) ist der Durchschnitt von 5Halbebenen des R2 , deren Begrenzungsgeraden durch die Gleichungen

x1 ≥ 0, x2 ≥ 0,

x1 + x2 = 100

4x1 + x2 = 160

20x1 + 10x2 = 1100

gegeben sind:

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

100

100

x1+x2=100

4x1+x2=160

20x1+x2=1100

Zielfunktion:

Q(x1,x2) = 120x1+40x2

Niveaulinie der Zielfunktion, Q(x1,x2) = 0

Abbildung 8.1: Grafische Losung eines Linearen Programms

Parallelverschiebung der Niveaulinie bis an den Rand von M ergibt als maximalen Wert


den der Niveaulinie durch den Punkt (x∗1, x∗2) mit

4x∗1 + x∗2 = 160

20x∗1 + 10x∗2 = 1100

=⇒ x∗2 = 60

x∗1 = 25,

Qmax = 120x∗1 + 40x∗2 = 5400.

Der optimale Punkt ist in diesem Fall eine Ecke des Polygongebiets M . Dies ist keinZufall und wird sich als wesentlicher Punkt bei der Behandlung allgemeinerer Problemedieses Typs erweisen. Die maximal mogliche Stuckzahl von x1 + x2 = 100 wird unterdem Kriterium der Gewinnmaximierung also nicht erreicht; dafur wird die zur Verfugungstehende Arbeitszeit voll genutzt.

Wir betrachten im folgenden die linearen Programmierungsaufgaben stets in Normal-form. Zunachst studieren wir die Struktur der Losungsmenge eines LP .

Definition 8.2: Ein Vektor x ∈ M heißt “Ecke” (oder“Extremalpunkt”) der zulassigenMenge M , wenn er keine Darstellung

x = λx(1) + (1 − λ)x(2)

mit x(1) , x(2) ∈ M , x(1) 6= x(2) , mit einem λ ∈ (0, 1) zulaßt. Fur x ∈ M setzenwir I(x) := i ∈ 1, . . . , n | xi > 0 . Weiter bezeichnen wir im folgenden mit ak dieSpaltenvektoren der Matrix A .

Hilfssatz 8.1 (Sekantensatz): Sind fur ein x ∈M die Spaltenvektoren in

B(x) := ak | k ∈ I(x) (8.1.4)

linear abhangig, so besitzt x eine Darstellung

x = 12(x(1) + y) (8.1.5)

mit x(1) , y ∈ M und I(x(1)) ⊂6= I(x) .

Beweis: O.B.d.A. sei I(x) = 1, . . . , k , so daß

k∑

i=1

xiai = b.

Ist B(x) linear abhangig, so gibt es Zahlen di , i = 1, . . . , k , nicht alle Null, so daß

k∑

i=1

diai = 0.

8.1 Lineare Programme 255

Der Vektorx(λ) = (x1 + λd1, . . . , xk + λdk, 0, . . . , 0

︸︷︷︸

n−k

)T

erfullt dann fur jedes λ ∈ R die Gleichung Ax(λ) = b . Wegen xi > 0, i = 1, . . . , k ,ist fur hinreichend kleines |λ| auch x(λ) ≥ 0 und somit x(λ) ∈ M . Laßt man nun λausgehend von Null wachsen oder fallen, so gelangt man in einem der beiden Falle zueinem λ∗ , fur das mindestens eine der Komponenten xi(λ

∗) , i = 1, . . . , k , verschwindet.Ferner ist x(λ) ∈ M fur |λ| ≤ |λ∗| . Mit x(1) = x(λ∗) und y = x(−λ∗) gilt dannx = 1

2(x(1) + y) und I(x(1)) ⊂

6= I(x) . Q.E.D.

Hilfssatz 8.2 (Eckensatz): Ein Vektor x ∈M ist genau dann Ecke, wenn die Spalten-vektoren in B(x) linear unabhangig sind.

Beweis: Aus Hilfssatz 8.1 folgt, daß fur eine Ecke x ∈ M notwendig B(x) linear un-abhangig sein muß. Sei nun B(x) linear unabhangig, aber x ∈ M keine Ecke, d. h.x = λx(1) + (1−λ)x(2) mit x(1), x(2) ∈M, x(1) 6= x(2), λ ∈ (0, 1) . Dann impliziert xi = 0

auch x(1)i = x

(2)i = 0 , so daß gilt:

∑

i∈I(x)

x(1)i ai =

∑

i∈I(x)

x(2)i ai = b.

Wegen x(1) 6= x(2) ist also B(x) linear abhangig im Widerspruch zur Annahme. Q.E.D.

Definition 8.3: Wegen Rang A = m besteht B(x) fur eine Ecke x ∈M aus hochstensm Vektoren. Ist fur eine Ecke x ∈ M aber dim B(x) < m , so heißt x “entarteteEcke”; in diesem Fall kann B(x) zu einer Basis B(x) aus Spaltenvektoren von A erganztwerden. In jedem Fall heißt eine solche Basis B(x) “Basis der Ecke x ”.

Durch eine Basis ist eine Ecke x ∈ M uber das Gleichungssystem Ax = b eindeutigbestimmt. Andererseits gibt es hochstens

( n

m

)

=n!

m!(n−m)!

Systeme von m linear unabhangigen Spaltenvektoren der Matrix A, d. h. Ecken von M .

Hilfssatz 8.3 (Eckenlosung): Besitzt das LP eine Losung x ∈M , so gibt es eine Eckex∗ ∈M , die ebenfalls Losung ist.

Beweis: Ist x selbst keine Ecke, so wenden wir Hilfssatz 8.1 an, d. h.: Das Minimumvon cTx wird im Mittelpunkt x = 1

2(x(1) + y) der Verbindungsgeraden zwischen x(1)

und y angenommen. Folglich ist cTx dort konstant, d. h.: x(1) ist auch Losung, aber mitI(x(1)) ⊂

6= I(x) . Auf diese Weise erreicht man in endlich vielen Schritten eine Ecke von M(im Extremfall x = 0. Q.E.D.


8.2 Das Simplex-Algorithmus

Im Folgenden entwickeln wir den sog. “Simplex-Algorithmus” nach G. B. Dantzig1 (1947)zur Losung von Linearen Programmen. Wir verwenden weiter die Bezeichnungen desvorherigen Abschnitts. Sei x0 eine Ecke des zulassigen Bereichs M der kanonischenProgrammierungsaufgabe

Ax = b , x ≥ 0 , cTx = min !

mit zugehoriger Basis B(x0) = ai , i ∈ I0 , I0 ⊇ I(x0) . Dann gilt

∑

i∈I0

x0i ai = b. (8.2.6)

Fur ein beliebiges x ∈ M ist Ax = b und folglich

∑

i∈I0

xi − x0i ai = −

∑

i6∈I0

xiai.

(Die Schreibweise “ i 6∈ I0” bedeutet i ∈ 1, . . . , n\I0 .) Wegen der linearen Unabhangig-keit von B(x0) kann nach den Differenzen xi − x0

i aufgelost werden, und man erhaltGleichungen der Form

xi =∑

k 6∈I0

αikxk + x0i , i ∈ I0. (8.2.7)

Der zugehorige Zielfunktionswert

cTx = cTx0 + cT (x− x0) = cTx0 +∑

i∈I0

ci(xi − x0i ) +

∑

i6∈I0

cixi.

ergibt sich nach Substitution von xi − x0i (i ∈ I0) in der Form

cTx =∑

k 6∈I0

γkxk + cTx0 (8.2.8)

γk =∑

i∈I0

αikci + ck , k 6∈ I0. (8.2.9)

Die Gleichungsnebenbedingung und die Zielfunktion cTx sind offenbar (bzgl. der BasisB(x0) ) durch das folgende (m+ 1) × (n−m+ 1)-Gleichungssystem wiedergegeben:

1George B. Dantzig (1914-): US-Amerikanischer Mathematiker; entwickelte 1947 den Simplex-Algorithmus warend seiner Tatigkeit in einem Forschungslabor der U.S. Air Force; s. sein Buch “Li-neare Programmierung und Erweiterungen”, Springer 1966 (Ubersetzung aus dem Englischen); seit 1966Professor an der Stanford University.

8.2 Das Simplex-Algorithmus 257

xi =∑

k 6∈I0

αikxk + x0i , i ∈ I0

cTx =∑

k 6∈I0

γkxk + cTx0.(8.2.10)

Die Komponenten xi , i ∈ I0 , und der zugehorige Zielfunktionswert z eines Vektorsx ∈ R

n sind durch Vorgabe von xk ≥ 0 (k 6∈ I0) in (8.2.10) eindeutig bestimmt. Giltdabei xi ≥ 0 (i ∈ I0) , so ist x ∈M . Fur die speziellen Werte xk = 0 (k 6∈ I0) ergibt sichgerade die Ausgangsecke x0 .

Wir betrachten nun die umgekehrte Situation, daß der zulassige Bereich M geradeaus denjenigen Vektoren x ≥ 0 besteht, deren Komponenten einem System der Gestalt(8.2.10) genugen, mit gewissen Zahlen x0

i ≥ 0 (i ∈ I0) . Dann ist der Vektor x0 ∈ Rn

mit den Komponenten x0i (i ∈ I0) , x0

i = 0 (i 6∈ I0) automatisch Ecke von M , denn ererfullt offensichtlich (8.2.10), d. h.: Ax0 = b , und jede Darstellung x0 = λx + (1 − λ)xmit x, x ∈ M , 0 < λ < 1 impliziert zunachst notwendig xk = xk = x0

k (k 6∈ I0) unddamit auch xi = xi = x0

i (i ∈ I0).

Das System (8.2.10) charakterisiert also zu einer festen Ecke x0 bzw. der zugehorigenBasis B(x0) den zulassigen Bereich M . Der Simplexalgorithmus sucht nun eine (zu x0 be-nachbarte) Ecke x1 von M , wobei moglichst cTx1 < cTx0 gelten soll. Der zugehorige Ba-siswechsel in der Darstellung (8.2.10) wird mit Hilfe des sog. “Gauß-Jordan-Algorithmus”bewerkstelligt (s. Kapitel 4.2). Der Vollstandigkeit halber rekapitulieren wir im Folgen-den den Gauß-Jordan-Algorithmus. Dieser dient zur Losung linearer GleichungssystemeAx = y mit A ∈ Rm×n, x ∈ Rn, y ∈ Rm , durch sukzessiven Austausch der Komponentenvon x gegen solche von y . Ist ein Matrixelement apq 6= 0 , so kann die p-te Gleichungnach xq aufgelost werden:

xq = −ap1

apqx1 − . . .− ap,q−1

apqxq−1 +

1

apqyp −

ap,q+1

apqxq+1 − . . .− apn

apqxn .

Durch Substitution von xq in den anderen Gleichungen

aj1x1 + . . .+ aj,q−1xq−1 + ajq xq + aj,q+1xq+1 + . . .+ ajnxn = yj

erhalt man fur j = 1, . . . , m, j 6= p :

[

aj1 −ajqap1

apq

]

x1 + . . .+

[

aj,q−1 −ajqap,q−1

apq

]

xq−1 +ajq

apq

yp+

+

[

aj,q+1 −ajqap,q+1

apq

]

xq+1 + . . .+

[

ajn − ajqapn

apq

]

xn = yj .


Das Resultat ist ein zum Ausgangssystem aquivalentes System

A

x1

...

yp

...

xn

=

y1

...

xq

...

ym

, (8.2.11)

wobei die Elemente der Matrix A wie folgt bestimmt sind:

– Pivotelement: apq = 1apq

,

– Pivotzeile: apk = −apkapq

, k = 1, . . . , n, k 6= q ,

– Pivotspalte: ajq =ajqapq

, j = 1, . . . , m, j 6= p ,

– sonstige: ajk = ajk − ajqapkapq

,j = 1, . . . , m, j 6= p

k = 1, . . . , n, k 6= q.

Gelingt es, durch Fortsetzung des Verfahrens alle Komponenten von x durch solche vony zu ersetzen, so hat man eine explizite Darstellung der Losung von Ax = y . Im Fallm = n ergibt sich so auch die Inverse A−1 , allerdings im allgemeinen mit vertauschtenZeilen und Spalten. Bei der Festlegung des Pivotelementes empfiehlt es sich aus Stabi-litatsgrunden, unter allen in Frage kommenden apq jeweils eines von moglichst großemBetrag zu wahlen. Fur ein quadratisches Gleichungssystem mit regularer Koeffizienten-matrix A ist das Gauß-Jordan-Verfahren zur Berechnung von A−1 stets durchfuhrbar.

Beispiel 8.4:

1 2 1

−3 −5 −1

−7 −12 −2

x1

x2

x3

=

y1

y2

y3


Austauschschritte: · Pivotelement

x1 x2 x3

1 2 1 y1

−3 −5 −1 y2

−7 −12 −2 y3

x1 y3 x3

−1/6 −1/6 2/3 y1

−1/12 5/12 −5/6 y2

−7/12 −1/12 −1/6 x2

x1 y3 y1

1/4 1/4 3/2 x3

−1/8 3/8 −1/4 y2

−5/8 −1/8 −1/4 x2

y2 y3 y1

−2 1 1 x3

−8 3 −2 x1

5 −2 1 x2

Inverse:

−2 −8 3

1 5 −2

1 −2 1

.

Der Simplexalgorithmus besteht aus zwei “Phasen”. In Phase I wird eine Ausgangseckex0 konstruiert und das zugehorige Tableau erstellt:

xk (k 6∈ I0)

xiαik (i ∈ I0, k 6∈ I0)

x0i

(i ∈ I0) (i ∈ I0)

z γk (k 6∈ I0) cTx0

In Phase II werden dann unter Verwendung des Gauß-Jordan-Algorithmus Basiswech-sel vollzogen, wobei der Zielfunktionswert jeweils moglichst stark verkleinert wird. Wirbeginnen mit der Beschreibung dieses Basisaustausches.

Phase II (Basisaustausch)

1. Gilt γi ≥ 0 (i /∈ I0) , so folgt fur beliebige Vorgabe von xi ≥ 0 (i /∈ I0) , d. h.: furbeliebige Punkte x ∈M , stets

z =∑

k 6∈I0

γkxk + cTx0 ≥ cTx0,

d. h. Die Startecke x0 ist bereits optimal.

2. Gibt es ein q /∈ I0 mit γq < 0 , so sind zwei Falle zu unterscheiden:

(a) Im Falle αiq ≥ 0 (i ∈ I0) erhalt man durch Vorgabe von xq := λ , λ ∈ R+ und


xk = 0 (k /∈ I0, k 6= q) Vektoren x ∈M ,

xi = αiqλ+ x0i ≥ 0,

mit Zielfunktionswert

z = γqλ+ cTx0 → −∞ (λ→ ∞).

Die Aufgabe ist also unlosbar.

(b) Gibt es Indizes p ∈ I0 mit αpq < 0 , so wird die Variable xq gegen eine nochauszuwahlende xp ausgetauscht. Die Elemente des Tableaus sind dabei gemaßdem Gauß-Jordan-Algorithmus wie folgt zu transformieren:

Pivotelement: αpq → α′qp =

1

αpq;

Pivotspalte: αiq → α′ip =

αiq

αpq

(i ∈ I0 \ p)

(γq → γp) γq → γ′p =γq

αpq;

Pivotzeile: αpk → α′qk = −αpk

αpq(k 6∈ I0, k 6= q)

(xp → xq) x0p → x1

q = − x0p

αpq

;

sonstige: αik → α′ik = αik −

αiqαpk

αpq

(xk → xk, xi → xi) x0i → x1

i = x0i −

αiqx0p

αpq

γk → γ′k = γk −γqαpk

αpq

cTx0 → cTx1 = cTx0 − γqx0p

αpq.

Auswahlregel (R): Der Index p ∈ I0 wird dabei gemaß der folgenden Regel ausgewahlt:

αpq < 0 ,x0

p

αpq= max

αiq<0,i∈I0

x0i

αiq. (8.2.12)

Satz 8.1 (Simplex-Algorithmus): Wird der Basisaustausch gemaß der Regel (R) vor-genommen, so ist der Vektor x1 ∈ R

n mit den Komponenten x1i > 0 (i ∈ I1 :=

[I0 \ p] ∪ q) , x1i = 0 (i 6∈ I1) wieder eine Ecke von M mit der zugehorigen Ba-

sis

B(x1) =[

B(x0) \ ap]

∪ aq, (8.2.13)


und es gilt cTx1 ≤ cTx0 . Im Falle x0p > 0 ist sogar cTx1 < cTx0 .

Beweis: Wegen αpq < 0 folgt x1q = −x0

p/αpq ≥ 0 . Ist weiter αiq ≥ 0 , so folgt x1i =

x0i − αiqx

0p/αpq ≥ 0 . Im Falle αiq < 0 gilt ebenfalls wegen der Auswahlregel (R):

x1i

αiq=

x0i

αiq− x0

p

αpq≤ 0 =⇒ x1

i ≥ 0 ..

Nach dem oben gesagten ist x1 also Ecke von M . Q.E.D.

Der Eckenaustausch nach (2b) kann solange fortgesetzt werden, bis Fall (1) oder Fall(2a) eintritt. Eine nicht entartete Ecke kann dabei nie ein zweites Mal erreicht werden,da ihr Austausch je zu einer Verkleinerung des Zielfunktionswertes fuhrt. Das Auftretenentarteter Ecken wird weiter unten diskutiert werden. Hier konnten sich (theoretisch) imLaufe des Verfahrens verschiedene Basen zu einer entarteten Ecke zyklisch wiederholen,so daß der Algorithmus nicht abbricht.

Beispiel 8.5: Beispiel 8.1.1 aus Abschnitt 8.1 erhalt nach Einfuhrung von Schlupfvaria-blen x3, x4, x5 die Form

−120x1 − 40x2 = min! , xi ≥ 0 , i = 1, . . . , 5,

x1 + x2 + x3 = 100

4x1 + x2 + + x4 = 160

20x1 + 10x2 + x5 = 1100

Offensichtlich ist x0 = (0, 0, 100, 160, 1100)T eine nicht entartete Ecke mit der Basis

B(x0) = a3, a4, a5 =

1

0

0

,

0

1

0

,

0

0

1

.

Das Ausgangstableau ist also:

I x1 x2 x6 = 1 x0i /αiq

x3 −1 −1 100 −100

x4 −4 −1 160 −40

x5 −20 −10 1100 −55

z -120 −40 0

Fall (2b)

Wahl q = 1 (oder q = 2)

Regel (R) =⇒ p = 4 .


Eckentausch (Pivotelement α41 )

II x4 x2 x6 = 1 x0i /αiq

x3 1/4 −3/4 60 −80

x1 −1/4 −1/4 40 −160

x5 5 −5 300 −60

z 30 −10 −4800

Fall (2b)

Wahl q = 2

Regel (R) =⇒ p = 5 .

Eckentausch (Pivotelement α52 )

III x4 x5 x6 = 1

x3 −1/2 −3/20 15

x1 −1/2 1/20 25

x2 1 −1/5 60

z 20 2 −5400

Fall (1)

Eckenlosung x3 = (25, 60, 15, 0, 0)T

Extremwert z = −5400 .

Wie wir schon gesehen haben, wird der maximale Gewinn von 5400 DM erreicht, wenn25 Produkte des Typs A und 60 des Typs B hergestellt werden.

Bemerkung 8.1: Zur Kontrolle der Rechnung sollten die Großen γk (k 6∈ I0) zusatzlichauch aus der folgenden Formel berechnet werden:

γk =∑

i∈I0

αikci + ck. (8.2.14)

Phase I (Konstruktion einer Startecke)

Wir diskutieren nun die Phase I des Simplexalgorithmus, d. h. die Konstruktion einerAusgangsecke x0 . Im Falle eines in Standardform gegebenen Programms mit b ≥ 0 istdies, wie obiges Beispiel zeigt, sehr einfach:

(I) cTx = max! , Ax ≤ b , x ≥ 0. (8.2.15)

Durch Einfuhrung von Schlupfvariablen v ∈ Rm geht (I) in die kanonische Form uber:

(I) cT x = min! , Ax = b , x ≥ 0, (8.2.16)

mitA = [A, Im] , b = b , c = (−c, 0m)T , x = (x, v)T .

Wegen b ≥ 0 ist der Vektor x0 = (0n, b) ∈ Rn+m automatisch eine Ecke von M , denndie zugehorigen Spaltenvektoren von A bilden gerade die Einheitsmatrix Im .


Ist die Programmierungsaufgabe in kanonischer Form gestellt,

(II) cTx = min! , Ax = b , x ≥ 0, (8.2.17)

oder ist in (I) b ≥ 0 nicht erfullt, so ist i. Allg. keine Ecke von M (oft nicht einmalein zulassiger Vektor) ersichtlich. Zu ihrer Konstruktion betrachte man das Hilfsproblem(o.B.d.A.: b ≥ 0)

(II) cT x = min! , Ax = b , x ≥ 0, (8.2.18)

mit v ∈ Rm ,

A = [A, Im] , b = b , c = (0n, 1, . . . , 1)T , x = (x, v)T .

Hier ist mit x0 = (0n, b) eine Ausgangsecke von M bekannt. Wegen x ≥ 0 auf M besitztdas Hilfsproblem stets eine Losung x∗ = (x∗, v∗) , die man mit Hilfe des Simplexverfahrensbestimmen kann. Ist v∗ = 0 , so liefern die ersten n Komponenten der Losung x∗ eineAusgangsecke des ursprunglichen LP :

x0i := x∗i , i = 1, . . . , n. (8.2.19)

Im Fall v∗i > 0 fur ein i muß M = ∅ sein, d. h.: Das LP besitzt keine Losung. Mitdem Simplexverfahren kann also auch die Frage nach der Losbarkeit des LP entschiedenwerden.

Nach den bisherigen Uberlegungen ist der Simplexalgorithmus (mit der Auswahlre-gel (R)) grundsatzlich geeignet zur Losung linearer Programmierungsaufgaben, bzw. zurEntscheidung ihrer Unlosbarkeit, vorausgesetzt, es treten keine entarteten Ecken auf. DasErscheinen einer entarteten Ecke x1 ist dadurch gekennzeichnet, daß im vorangehendenAustauschschritt das Kriterium (R) nicht zu einem eindeutig bestimmten Index p ∈ I0

fuhrt:

x1 nicht entartet ⇐⇒∃! p ∈ I0 : αpq < 0

x0p

αpq= max

αiq<0

x0i

αiq;

andernfalls folgte mit x0p/αpq = x0

p′/αp′q

x1p = x0

p − αpqx0p/αpq = 0

x1p′ = x0

p′ − αp′qx0p/αpq = 0

⇐⇒ x1 hat weniger als m

positive Komponenten.

Tritt im Verlaufe des Simplexverfahrens eine entartete Ecke x0 auf, so kann es passieren,daß fur den Index p ∈ I0 gerade x0

p = 0 ist. Dann bewirkt der Austauschschritt offenbarkeine Veranderung des Vektors x0 , insbesondere also keine Reduzierung des Zielfunktions-wertes, sonderen nur den Ubergang zu einer anderen Basis zur Ecke x0 . Wiederholt sichdann dieselbe Basis zyklisch, so fuhrt das Verfahren nicht zum Ziel. Obwohl in der Pra-xis haufig entartete Ecken auftreten, sind derartige Zyklen noch nicht beobachtet worden(nur bei eigens zu diesem Zweck konstruierten pathologischen Beispielen). Fur Belange


der Praxis erscheint der Simplexalgorithmus mit der Auswahlregel (R) (erganzt um einegeeignete Regel fur den Fall einer entarteten Ecke) als hinreichend robust. Vom theore-tischen Standpunkt ist diese Situation aber unbefriedigend, und man sucht nach einerAuswahlregel, mit der der Algorithmus grundsatzlich zum Ziel fuhrt.

Definition 8.4 (Lexikographische Ordnung): Ein Vektor u ∈ Rn heißt “lexikogra-

phisch positiv”, u→> 0 , wenn u 6= 0 ist und die erste nicht verschwindende Komponente

positiv ist. Ein Vektor u ∈ Rn heißt “lexikographisch kleiner (großer)” als ein v ∈ Rn ,

wenn v−u →> 0 (u−v →

> 0) . Damit ist auf dem Rn eine “Ordnung” erklart.

Das Simplexverfahren sei gestartet mit einer Ecke xstart mit der Basis B(xstart) =a1, . . . , am (gegebenenfalls nach Umbenennung der Variablen). Damit ist Istart = 1, . . . , m .Zur Einfuhrung einer erweiterten Auswahlregel werden die Parameter αik und γk auchfur k ∈ Istart erklart durch

αik := −δik , γk := 0 , i , k ∈ Istart,

Hilfssatz 8.4 (Hilfssatz): Fur die durch die Darstellungen

ai =∑

k∈I0

cikak , i ∈ 1, . . . , n (8.2.20)

eindeutig bestimmten Zahlen cik gilt

cki = −αik , k ∈ 1, . . . , n , i ∈ Istart. (8.2.21)

Beweis: Fur i, k ∈ Istart ist nach Definition

αik = −δki = −cki.

Sei nun x ∈M beliebig. Dann gilt

∑

i∈Istart

xi − x0i ai = −

∑

i6∈Istart

xiai = −∑

i6∈Istart

xi

∑

k∈Istart

cikak = −∑

i∈Istart

(∑

k 6∈Istart

ckixk)ai

und folglich wegen der linearen Unabhangigkeit von B(x0)

xi − x0i = −

∑

k 6∈Istart

ckixk , i ∈ Istart.

Da die αik in der Darstellung (8.2.10) eindeutig bestimmt sind, ergibt sich notwendigcki = −αik (k ∈ Istart) . Q.E.D.

Sei nun x0 eine im Verlaufe des Verfahrens erreichte Ecke und q ∈ I0 der Austausch-


index. Zur Bestimmung des Index p ∈ I0 bilde man fur alle r ∈ I0 mit

x0r

αrq

= maxαjq<0

x0j

αjq

, αrq < 0, (8.2.22)

die Vektoren

ur =

(x0

r

αrq

,−αr1

αrq

, . . . ,−αrm

αrq

)T

∈ Rm+1.

Auswahlregel (R): Der Index p ∈ I0 wird dann als derjenige mit der Eigenschaft(8.2.22) gewahlt, so daß up der lexikographisch großte unter den ur ist.

Im Falle, daß der “maximale” Index in (8.2.22) eindeutig bestimmt ist, stimmt dieAuswahlregel (R) offenbar mit (R) uberein. Ansonsten ist durch (R) eindeutig ein p ∈ I0

festgelegt; denn gabe es keines, so waren fur zwei p, p′ ∈ I0 die Vektoren up, up′ iden-tisch. Dies bedeutete aber, daß die quadratische Matrix (αik)i∈I0,k=1,...,m zwei zueinanderproportionale Zeilen hatte und somit singular ware. Nach Hilfssatz 8.4 ware dann auch(cik)i=1,...,m,k∈I0 singular im Widerspruch zur linearen Unabhangigkeit der Vektoren in

B(x0) und B(xstart) .

Der Ecke x0 ordnen wir nun den folgenden Vektor zu:

v0 = (cTx0, c1 − γ1, . . . , cm − γm)T ∈ Rm+1

Hilfssatz 8.5 (Reduktionssatz): Beim Eckenaustausch x0 → x1 unter der Bedingungder Auswahlvorschrift (R) wird der Vektor v0 durch einen lexikographisch kleineren Vek-toren v1 ersetzt.

Beweis: Die Indexmenge I0 wird ersetzt durch I1 = (I0\p) ∪ q . Die γi werdennach den folgenden Regeln transformiert:

k ∈ I0 , k 6= q : γk → γk − γqαpk

αpq

k = q : γq → 0 = γq − γqαpq

αpq

k 6∈ I0 , k 6= p : γk → 0

k = p : γp → γq1

αpq= γp − γq

αpp

αpq(γp = 0 , αpp = −1).

Ferner gilt: cTx0 → cTx0 − γkx0

p

αpq.

Fur den zur neuen Ecke x1 gehorenden Vektor v1 ∈ Rm+1 gilt also:

v1 = v0 − γq

x0p/αpq

−αp1/αpq

...

−αpm/αpq

= v0 − γqup.


Da γq < 0 , αpq < 0 bleibt zu zeigen, daß der Vektor wp = (x0p,−αp1, . . . ,−αpm)T ∈ Rm+1

lexikographisch positiv ist. Dies geschieht durch Induktion bzgl. der Zahl der durchgefuhr-ten Verfahrensschritte.

(i) Die zur Ausgangsecke xstart gehorenden Vektoren wk (k = 1, . . . , m) sind trivialer-weise lexikographisch positiv, denn es ist x0

k ≥ 0 und −αki = δki (i = 1, . . . , m) .

(ii) Sei x0 eine im Verlaufe des Verfahrens auftretende Ecke, und alle zu x0 gebildetenVektoren wk (k ∈ I0) seien lexikographisch positiv. Beim Ubergang von x0 zurEcke x1 ergeben sich die zugehorigen Vektoren wk (k ∈ I1) wie folgt:

k ∈ I1 , k 6= q : wk =

(

x0k −

αkqx0p

αpq,−αk1 +

αkqαp1αpq

, . . . ,−αkm +αkqαpmαpq

)T

= wk − αkqαpq

wp

k = q : wq =

(x0

pαpq

,+αp1αpq

, . . . ,+αpmαpq

)T

= − 1αpq

wp.

Hieraus entnehmen wir mit der Induktionsannahme:

k ∈ I1 , k 6= q : a) αkq ≥ 0 =⇒ wk = wk +∣∣∣αkqαpq

∣∣∣ wp

→> 0 ,

b) αkq < 0 =⇒ Auswahlregel (R) : up→> uk

=⇒ wk = αkquk − αkq

αpqαpqu

p→> 0 ,

k = q : wq =∣∣∣

1αpq

∣∣∣ wp

→> 0 .


Wir fassen die Ergebnisse der bisherigen Uberlegungen zusammen:

Satz 8.2 (Erweitertes Simplex-Verfahren): Unter der obigen Voraussetzung an dieAusgangsecke liefert der Simplexalgorithmus mit der Auswahlvorschrift (R) in endlichvielen Schritten eine Losung des kanonischen Problems (II) oder die Bestatigung seinerUnlosbarkeit.

Beweis: Nach Hilfssatz 8.5 kann aufgrund der Auswahlregel (R) keine Basis von Spal-tenvektoren von A zweimal auftreten, denn durch die Ecke x0 und eine zugehorige BasisB(x0) ist der Vektor v0 eindeutig bestimmt. Zyklen werden also vermieden. Q.E.D.

Index

3/8-Regel, 81

A-Norm, 203A-orthogonal, 209A-Skalarprodukt, 203Abbruchkriterium, 39, 159, 194Abstiegsrichtung, 204Abstiegsverfahren, 204Ahnlichkeitstransformation, 234Algorithmus, 13

stabiler, 13von Cholesky, 133von Crout, 127von Hyman, 244von Remez, 70

Alternante, 70Alternantensatz, 69Approximation, 23Approximationsfehler, 47arithmetische Operation, 17, 112Ausgleichsparabel, 137Ausloschung, 11, 13Austauschverfahren, 124Auswahlregel, 263

Banach (1892-1945), 172Banachscher Fixpunktsatz, 172Bandbreite, 129Bandmatrix, 129, 219Basisaustausch, 259Basispolynom

Lagrangesches, 24Newtonsches, 25

Bernoulli (1655-1705), 94Bernoulli-Zahl, 94Bessel (1784-1846), 82Bestapproximation, 58Birkhoff (1911-1996), 34Bisektionsverfahren, 248

CG-Verfahren, 209, 220Charakteristik, 6charakteristisches Polynom, 105, 225, 247Cholesky (1975-1918), 133Cholesky-Zerlegung, 133, 216Cosinus-Summe, 53

Cotes (1682-1716), 80

Dachfunktion, 41Dantzig (1914-), 256Defekt, 10Defektgleichung, 119Defektkorrektur, 191Determinantensatz, 121Differenzengleichung

homogene, 170Differenzenquotient

zentraler, 36, 218Diskretisierungsfehler, 221dividierte Differenz, 25, 30Drehung, 236Dreiecksmatrix, 112, 129Dreiecksungleichung, 102Dreieckszerlegung, 116dyadisches Produkt, 141

Ecke, 254entartete, 263

Eckenlosung, 255Eckensatz, 255Eigenvektor, 105Eigenwert, 105Eigenwertproblem

Konditionierung, 229partielles, 225vollstandiges, 225

Einzelschritt-Verfahren, 189Einzugsbereich, 158Elimination, 236Eliminationsmatrix, 238Euler (1707-1783), 94Exponent, 5Extrapolationsfehler, 36Extrapolationsschema, 96Extrapolationstableau, 38Extremalpunkt, 254

Fehlerabsoluter, 8relativer, 8, 109

Fehlerabschatzunga posteriori, 97, 157, 168

268

INDEX 269

a priori, 168Fehlerdampfung, 10Fehlerquadrate, 135Fehlertoleranz, 39, 98Fehlerverstarkung, 10FFT, 54Fibonacci (um 1170 - um 1250), 167Fibonacci-Zahl, 167Fixpunkt, 162, 172, 190

abstoßender, 176anziehender, 176

Fixpunktgleichung, 191Fixpunktiteration, 162, 172, 190Fortsetzung

gerade, 52ungerade, 52

Fourier (1768-1830), 49Fourier-Analyse

diskrete, 49, 54Frobenius (1849-1917), 104Frobenius-Matrix, 113Frobenius-Norm, 104, 149

Galerkin (1871-1945), 209Galerkin-Gleichung, 209Gauß(1777-1855), 112Gauß-Approximation, 58Gauß-Ausgleich, 136Gauß-Elimination, 112Gauß-Jordan-Algorithmus, 122, 257Gauß-Seidel-Matrix, 190Gauß-Seidel-Verfahren, 189, 196, 199, 220geometrischer Eigenraum, 225Gerschgorin-Kreis, 227Gershgorin (1901-1933), 227Gesamtschritt-Verfahren, 189Givens (1910-1993), 239Givens-Verfahren, 239Gleichungssystem

uberbestimmtes, 101unterbestimmtes, 101

Gleitkommazahlnormalisierte, 5

Gradientenverfahren, 205, 220Gram (1850-1916), 61

Gram-Schmidt-Verfahren, 61, 87, 140Gramsche Matrix, 60gutartig, 10

Holder (1859-1937), 59Haar (1885-1933), 69Haarsche Bedingung, 69Hermite (1822-1901), 33Hermite-Birkhoff-Interpolation, 34Hermite-Interpolation, 33, 42Hessenberg (1904-1959), 226Hessenberg-Matrix, 226Hessenberg-Normalform, 237Hestenes (1906-1991), 208Horner (1786-1837), 16Horner-Schema, 16, 28Householder (1904-1993), 141Householder-Transformation, 142, 236Householder-Verfahren, 141

ICCG-Vorkonditionierung, 216IEEE-Format, 6, 7IF-Abfrage, 7Interpolation, 23

trigonometrische, 48Interpolationsaufgabe

Hermite-Birkhoffsche, 34Hermitesche, 33, 90Langrangesche, 24

Interpolationsfehler, 29Interpolationspolynom

Hermitesches, 34Lagrangesches, 79Nevillesches, 27

Intervallschachtelung, 155, 162Inverse Iteration, 232Iterationsmatrix, 190

Jacobi (1804-1851), 174Jacobi-Matrix, 181, 190, 220Jacobi-Verfahren, 189, 196Jordan (1838-1922), 124, 225Jordansche Normalform, 234

Kantorovich (1912-1986), 178Knoten, 24

270 INDEX

Knotenwert, 24Konditionierung, 8, 102Konditionszahl, 11, 109

relative, 10Kontraktion, 172Kontraktionskonstante, 194Konvergenz

komponentenweise, 103lineare, 163quadratische, 159, 163superlineare, 163

Koordinatenrelaxation, 205Kronecker (1823-1891), 11Kronecker-Symbol, 11Krylov (1879-1955), 209Krylow-Raum, 210

L’Hospital (1661-1704), 35l’Hospitalsche Regel, 35l1-Norm, 102l2-Norm, 102L2-Skalarprodukt, 58l∞-Norm, 102Lagrange (1736-1813), 24Lagrange-Interpolation, 24, 41, 71Lagrange-Quadratur, 79Lagrangesche Darstellung, 25Landau (1877-1938), 9Landausche Symbole, 9Laplace (1749-1827), 218Laplace-Operator, 218, 232Least-Squares, 135Legendre (1752-1833), 63Legendre-Polynom, 62, 88, 90Lemma von Kantorowitsch, 206lexikographische Ordnung, 264line search, 204lineare Konvergenzrate, 163Lineares Programm, 251

Normalform, 252Standardform, 251

Lipschitz (1832-1903), 172Lipschitz-Konstante, 172Lipschitz-stetig, 172LR-Verfahren, 240

LR-Zerlegung, 115, 127, 131

Maclaurin (1698-1746), 94Mantisse, 5Maschinengenauigkeit, 7, 8, 118Maschinenoperation, 7Maschinenzahl, 5Matrix

ahnliche, 234dunn besetzte, 130diagonal-dominante, 131diagonalisierbare, 232, 235hermitesche, 106irreduzible, 197, 219konsistent geordnete, 201orthogonale, 140positiv definite, 108, 203rang-defiziente, 147schwach diagonal-dominante, 219strikt diagonal-dominante, 196symmetrische, 106, 203unitare, 140

Matrixrang, 122Matrizennorm, 104

naturliche, 104maximale Abweichung, 136maximale Spaltensumme, 104maximale Zeilensumme, 104Maximumnorm, 59Minimallosung, 135, 148Mises, von (1883-1953), 230Mittelpunktregel, 81mittlere Abweichung, 136

Nachiteration, 119, 121nan, 6Neville (1889-1961), 27Neville-Algorithmus, 35, 38Nevillesche Darstellung, 27Newton (1643-1727), 25Newton-Cotes-Formel, 97

abgeschlossene, 80offene, 80

Newton-Verfahren, 156, 178gedampftes, 160, 183vereinfachtes, 162

INDEX 271

Newtonsche Darstellung, 25Norm, 58, 102Normalgleichung, 135numerische Aufgabe, 8numerische Differentiation, 36numerischer Rang, 147numerisches Gleitkommagitter, 5

Ordnungeiner Fixpunktiteration, 164einer Quadraturformel, 80

orthogonale Polynome, 66, 88Orthogonalisierungsverfahren, 141Orthonormalsystem, 61, 107overflow, 6

PCG-Verfahren, 215Penrose (1931-), 149Permutationsmatrix, 113, 238Pivotelement, 114, 123, 258Pivotierung, 117Pivotspalte, 258Pivotsuche, 114Pivotzeile, 258Polynom, 15Potenzmethode, 230Projektionsverfahren, 209Pseudo-Inverse, 149

QR-Verfahren, 240QR-Zerlegung, 139quadratisches Mittel, 58Quadraturformel, 79

Besselsche, 82Gaußsche, 88Hermitesche, 82interpolatorische, 79Newton-Cotes, 80summierte, 84

Ruckwartseinsetzen, 112Randbedingung

erzwungene, 43naturliche, 43

Raphson (1648-1715), 156Rayleigh (1842-1919), 225

Rayleigh-Quotient, 225, 231Rechteckregel, 79Reduktionsmethode, 234regula falsi, 171Relaxationsparameter, 198Remez (1896-1975), 70Residuum, 195Restglied, 82Richardson (1881-1953), 35Richardson-Extrapolation, 35Rolle (1652-1719), 24Romberg (1909-2003), 94Romberg-Integration, 96, 98Rundung, 6

naturliche, 6Rutishauser (1918-1970), 240

Satz von Gerschgorin, 227Schmidt (1876-1959), 61Schnelle Fourier-Transformation, 54Schrittweite, 204Schrittweitenfolge, 38Schur (1875-1941), 235Schursche Normalform, 235Schwarz (1843-1921), 59Sehnen-Trapezregel, 83Seidel, von (1821-1896), 189Sekantenmethode, 167Sekantensatz, 254Simplex-Algorithmus, 256Simpson (1710-1761), 81Simpson-Regel, 81singularer Wert, 145Singularwertzerlegung, 145Sinus-Summe, 54Skalarprodukt, 58, 106

euklidisches, 106Skalierung, 216SOR-Verfahren, 198, 220Spaltenpivotierung, 114Spektralkonditionszahl, 110Spektralnorm, 106Spektralradius, 191, 193Spektrum, 191Spiegelung, 142, 236

272 INDEX

Spline, 42kubischer, 43naturlicher, 43

Spline-Funktion, 42Spline-Interpolation, 40SSOR-Vorkonditionierung, 216Startecke, 259Stiefel (1909-1978), 208Sturm (1803-1855), 247Sturmsche Kette, 247Sukzessive Approximation, 172Summenformel

Euler-Maclaurinsche, 94

Tangenten-Trapezregel, 83Totalpivotierung, 114, 122Trapezregel, 81, 94Tridiagonalmatrix, 129, 130, 226trigonometrische Summe, 48Tschebyscheff (1821-1894), 65Tschebyscheff-Approximation, 68, 70, 213Tschebyscheff-Polynom, 72, 93, 213Tukey (1915-2000), 55

Uberrelaxation, 202underflow, 6Ungleichung

Holdersche, 59Schwarzsche, 59

unitarer Raum, 59Unterrelaxation, 199

Vandermonde (1735-1796), 137Vandermondsche Determinante, 137Vektornorm

vertragliche, 103Verfahren

direktes, 101iteratives, 101

Vielfachheitalgebraische, 225geometrische, 225

Vieta (1540-1603), 12Vietascher Wurzelsatz, 12Vorkonditionierung, 215

Wielandt (1910-2001), 232

Wilkinson (1919-1986), 237Wurzelberechnung, 158

Zeilensummenkriteriumschwaches, 197starkes, 196

zulassiger Bereich, 252Zweischrittverfahren, 167

Einfuhrung in die¨ Numerische Mathematik (Numerik 0)lehre/notes/num0/numerik0.pdf · Einfuhrung in...

Documents

Transcript of Einfuhrung in die¨ Numerische Mathematik (Numerik 0)lehre/notes/num0/numerik0.pdf · Einfuhrung in...