Skriptum-OR2011

download Skriptum-OR2011

of 116

Transcript of Skriptum-OR2011

  • 5/28/2018 Skriptum-OR2011

    1/116

    Einfuhrung in dieMathematik des Operations Research

    Ulrich Faigle

    Skriptum zur Vorlesung

    Sommersemester 2011Universitat zu Koln

    Universitat zu Koln

    Mathematisches Institut

    Weyertal [email protected]

    www.zaik.uni-koeln.de/AFS

  • 5/28/2018 Skriptum-OR2011

    2/116

    Inhaltsverzeichnis

    Kapitel 0. Notationen und Terminologie 3

    1. Lineare Algebra 3

    2. Ordnungsrelationen 5

    3. Topologie 6

    4. Mathematische Optimierungsprobleme 8

    Kapitel 1. Lineare Theorie 11

    1. Lineare Funktionale, Polyeder, Konvexitat 11

    2. Die Stutzfunktion 13

    3. Stutzpunkte und Seitenflachen 16

    4. Dualitat und Kegel 19

    Kapitel 2. Lineare Ungleichungen und die Struktur von Polyedern 25

    1. Zeilen- und Spaltenoperationen 25

    2. Elimination nach Fourier-Motzkin 25

    3. Die Struktur von Polyedern 31

    Kapitel 3. Optimalitatsbedingugen 41

    1. Notwendige Bedingung 41

    2. Strafmethoden und Lagrangefunktion 46

    3. Lagrange-Dualitat 54

    4. Barrieremethoden 57

    Kapitel 4. M ethoden der Linearen Programmierung 59

    1. Rationale lineare Programme 59

    2. Die Methode innerer Punkte (IPM) 62

    3. Die Ellipsoidmethode 68

    4. Die Simplexmethode 76

    Kapitel 5. Unimodulare lineare Programme 89

    1. Unimodulare und total unimodulare Matrizen 89

    2. Total unimodulare lineare Programme 93

    3. Zirkulationen und das MAX-Flow-MIN-Cut-Theorem 97

    4. Kombinatorische Optimierung 101

    Kapitel 6. Schnittebenenverfahren und Heuristiken 105

    1

  • 5/28/2018 Skriptum-OR2011

    3/116

    2 INHALTSVERZEICHNIS

    1. Schnittebenen 105

    2. Heuristische Verfahren 111

    3. Enumeration 1134. Relaxierung 114

  • 5/28/2018 Skriptum-OR2011

    4/116

    KAPITEL 0

    Notationen und Terminologie

    1. Lineare Algebra

    Fur beliebige MengenR und Nnotiert man die Menge aller AbbildungenvonN nachR so:

    RN =

    {f :N

    R

    }.

    Fur f RN und i N setzt man auch fi = f(i) und nennt fi die iteKoordinatevonf.

    Besonders anwendungsrelevant sind die Skalarbereiche R = N, R = Z,R = Q oderR = R, wo man die Elemente (Funktionen) inRN koordina-tenweise miteinander addieren und mit Skalaren mutliplizieren kann.

    Im FallN= {1, . . . , n} schreibt man oft kurz:Rn =RN.1.1. Vektoren und Matrizen. Die Elemente von Rn heissenn-dimen-

    sionale Parametervektoren. Im Skriptum wird ein solches x Rn typi-scherweise fettnotiert und alsSpaltenvektorverstanden:

    x=

    x1...

    xn

    (xi R).

    AlsZeilenvektorwird der Parametervektor meistens transponiert notiert:

    xT = [x1, . . . , xn].

    0= [0, . . . , 0]T ist derNullvektor. Wenn der formale Unterschied zwischenSpalten- und Zeilenvektor nicht so wichtig ist, wird ein Parametervektor

    auch mit runden Klammern notiert:

    x= (x1, . . . , xn).

    Rmn ist die Menge aller(m n)-Matrizen. EinA = [aij] Rmn kannman entweder alsn-Tupel vonm-dimensionalen SpaltenvektorenAj oderalsm-Tupel vonn-dimensionalen ZeilenvektorenAi auffassen:

    [A1, . . . , An] =

    a11 . . . a1n... ...

    am1 . . . amn

    =A1...

    Am

    3

  • 5/28/2018 Skriptum-OR2011

    5/116

    4 0. NOTATIONEN UND TERMINOLOGIE

    FurA = [a1, . . . , an] Rmn undx = [x1, . . . , xn]T Rn notiert man dieentsprechende Linearkombination der Spaltenvektoren als

    Ax= x1a1+ . . . + xnan=n

    j=1

    xjaj.

    Fury Rm istyTA= (ATy)T die analoge Linearkombination der Zeilen-vektoren vonA.

    Ist B = [b1, . . . , bk] Rnk eine weitere Matrix, so kann man das folgendeMatrixprodukt bilden:

    AB= [Ab1, . . . , Abk] Rmk.

    1.2. Analytische Geometrie. Rn kann man auch als Menge der Koor-dinatenvektoren einesn-dimensionalen

    Universums von

    Punkten anse-

    hen. Geometrische PunkteP, Qkann man

    eigentlich nicht addieren oder

    subtrahieren. Die Differenz QPder entsprechenden Koordinatenvektorenist aber mathematisch sinnvoll. Man fasst

    P Q= Q P

    dann als einen Vektor auf, der eine

    Wirkung beschreibt, die den Ortszu-

    standPin den OrtszustandQverandert.

    1.3. Affine und lineare Teilraume. Ein Hyperebene in Rn ist eine

    Teilmenge der Form

    H= {x Rn | aTx= b} (a Rn \ {0}, b R).EinaffinerTeilraum A ist ein Durchschnitt von Hyperebenen. Insbesondere

    ist Rn ein affiner Teilraum. Aus der linearen Algebra weiss man:

    LEMMA 0.1. F ur eine beliebige nichtleere Teilmenge S Rn sind dieAussagenaquivalent:

    (0) Sist ein affiner Teilraum.(1) Es gibt einm N und eine MatrixA Rmn und einen Vektor

    b Rm

    so dassS= {x Rn

    | Ax= b}.(2) Es gibt Vektorenv0, v1, . . . , vk Rn so, dass

    S= {v0+k

    i=1 ivi| i R}.(3) F ur beliebigeu, v Sund Skalare R gilt:

    z= u + (1 )v S.

    Ein affiner Teilraum A heisstlinearim Fall0 A.

  • 5/28/2018 Skriptum-OR2011

    6/116

    2. ORDNUNGSRELATIONEN 5

    2. Ordnungsrelationen

    2.1. Koordinatenordnung. Fur Vektorenx = [x1, . . . , xn]T

    undy =[y1, . . . , yn]T schreibt man

    x y xi yi furallei = 1, . . . , nund

    x< y xi < yi furallei = 1, . . . , n.

    NOTA BEN E: Bei dieser Ordnungsrelation gibt es (im Fall n 2) immerVektorena, b Rn, die nicht miteinander vergleichbar sind, d.h.

    a b und b a.2.2. Lexikographische Ordnung. x ist lexikographisch kleiner(Nota-

    tion:x y) alsy, wenn es einen Index1 ngibt mit der Eigenschaftx < y und xj =yj fur allej < .

    LEMMA0.2. F ur beliebigea, b Rn gilt genau eine der drei Aussagen:(0) a= b(1) a

    b

    (2) b a.

    2.3. Mengenoperationen.

    2.3.1. Minkowski-Summe. Man kann Mengen im Rn z.B. folgender-

    massen addieren. Die Minkowski-Summeder TeilmengenS, T Rn ist dieTeilmenge

    S+ T = {s + t | s S, t T} Rn.

    Im Spezialfall einer einelementigen MengeT ={

    t}

    erhalt man dieTrans-

    lationvonSum den Vektort:

    S+ t= S+ {t} = {s + t | s S}.

    LEMMA0.3. Die Minkowski-Summe zweier affiner Teilr aume in Rn ist sel-

    ber ein affiner Teilraum.

  • 5/28/2018 Skriptum-OR2011

    7/116

    6 0. NOTATIONEN UND TERMINOLOGIE

    2.3.2. Koordinatenprojektionen. SeiN ={1, . . . , n} und =I N.Furx

    RN bezeichnet xIdie Restriktion vonx auf die Koordinaten inI.

    In einer etwas lockeren (aber bequemen) Schreibweise haben wir dann:

    x= xN=

    xIxJ

    mitJ=N\ I.

    Diese Schreibweise ist auch vorteilhaft bei allgemeiner Matrixnotation:

    Ax= ANxN=AIxI+ AN\IxN\I.

    (Hier istAI naturlich die Restriktion vonA auf dieIentsprechenden Spal-ten.)

    Fur beliebiges S Rn erhalten wir die Projektion I(S) vonS auf dieKoordinatenmenge Ials die Menge

    I(S) = {xI| x S} RI.

    BEISPIEL0.1. SeiI= {2, 3, . . . , n}. Dann gilt f urS Rn:I(S) = {(x2, x3, . . . , xn) | x1 R : (x1, x2, x3, . . . , xn) S}.

    3. Topologie

    Sei(xk)eine Folge von Vektoren xk R. Wir schreibenxk x bzw. x= lim

    kxk,

    wenn(xk)(komponentenweise) gegenx Rn konvergiert. Bzgl. dereukli-dischen Norm

    x =

    xTx=

    x21+ . . . + x2n

    kann man das auch so ausdrucken:

    xk

    x

    xk

    x

    2

    0.

    Eine MengeS Rn heisst abgeschlossen, wenn fur jede Folge (xk) mitxk Sgilt:

    xk x = x S.S istbeschrankt, wenn es eine Schrankec >0 mit der Eigenschaft

    x c x Sgibt. Eine beschrankte und abgeschlossene MengeS Rn istkompakt.

  • 5/28/2018 Skriptum-OR2011

    8/116

    3. TOPOLOGIE 7

    3.1. Stetigkeit. Eine Funktionf : S R heisst stetig, wenn fur allex

    Sund Folgen(xk)mit xk

    Sgilt:

    xk x = f(xk) f(x).Aus der Analysis weiss man:

    LEMMA 0.4. Sei = S Rn kompakt undf : S R stetig. Dannexistieren Punkte (Vektoren)xmin, xmax Smit der Eigenschaft

    f(xmin) f(x) f(xmax) f ur allex S.

    Quadratische und lineare Funktionen. Offenbar sind Summen und Pro-dukte stetiger Funktionen wieder stetig. Also ist insbesondere jedequadra-

    tischeFunktionf : Rn R, d.h. Funktion mit der Darstellung

    f(x1, . . . , xn) =n

    i=1

    nj=1

    aijxixjn

    k=1

    ckxk

    fur geeignete skalare Koeffizienten aij undck, stetig. Im Fall aij = 0 furallei, j heisst eine quadratische Funktionlinear.

    In Matrixschreibweise kann man mit A= [aij] Rnn die Funktion fauchso notieren:

    f(x) = xTAx cTx.3.2. Gradienten und Differenzierbarkeit. Sei S Rn eine offene

    Menge,f :S R eine Funktion undx0Sein Punkt, wo alle partiellenAbleitungen von f existieren. Dann bezeichnet man den (Zeilen-)Vektorder partiellen Ableitungen

    f(x0) =

    f(x0)

    x1, . . . ,

    f(x0)

    x1

    als denGradientenvonfan der Stellex0.

    Sind die partiellen Ableitungen x

    f(x)/xj

    stetige Funktionen (und

    somitx f(x) eine stetige vektorwertige Funktion aufS), dann kannman in jedem Punkt x0 zu jedem d Rn (mit den Komponenten dj) dieRichtungsableitungvonfmit Hilfe der Kettenregel berechnen:

    df(x0) = limt0

    f(x0+ td) f(x0)t

    =n

    j=1

    f(x0)

    xjdj = f(x0)d.

  • 5/28/2018 Skriptum-OR2011

    9/116

    8 0. NOTATIONEN UND TERMINOLOGIE

    BEISPIEL0.2. SeiA = [aij] Rnn eine symmetrische Matrix. Dann istdie quadratische Funktion

    x f(x) = xTAx=n

    i=1

    nj=1

    aijxixj

    aufRn stetig differenzierbar und hat den Gradienten

    f(x) = 2xTA=

    ni=1

    2ai1xi, . . . ,n

    i=1

    2ainxi

    .

    4. Mathematische Optimierungsprobleme

    Ein

    Optimierungsproblem ist im allgemeinen umgangssprachlich nicht

    so prazise formuliert, dass man es ohne weiteres mathematisch analysieren

    (und losen) kann. Es muss zuallerst in ein

    mathematisches Optimierungs-

    problem umformuliert werden.

    Zu einem mathematischen Optimierungsproblemgehoren:

    (1) eine Menge (der sog.Zul assigkeitsbereich);(2) eine MengeW(der sog.Wertebereich) und ausserdem eine Funk-

    tionf : W (die sog.Zielfunktion), welche die Elemente desZulassigkeitsbereichs bewertet.

    In dieser Vorlesung nehmen wir meist an:

    W = R und Rn (fur ein geeignetesn).Die Optimierungsaufgabe ist dann so ausgedruckt:

    max

    f() oder min

    f().

    Um mit uberhaupt rechnerisch umgehen zu konnen, muss der Zulassig-

    keitsbereich numerisch spezifiziert werden. Oft sucht man dazu Funktionen

    gi : Rn R (i I), wobeiIeine geeignete (endliche oder unendliche)

    Indexmenge ist, mit der Eigenschaft

    =

    {x

    Rn

    |gi(x)

    0

    i

    I

    }.

    Die Funktionen gi(x) heissen in diesem Fall Restrikitionsfunktionen unddas mathematische Optimierungsproblem wird dann z.B.

    maxxRn

    f(x) s.d. gi(x) 0 i= 1, . . . , m .Die Forderungengi(x) 0sind die sog.Nebenbedingungendes Problems.BEMERKUNG.Die Formulierung eines Optimierungsproblems aus dem Anwen-

    dungsbereich als mathematisches Optimierungsproblem ist im allgemeinen auf

  • 5/28/2018 Skriptum-OR2011

    10/116

    4. MATHEMATISCHE OPTIMIERUNGSPROBLEME 9

    sehr viel verschiedene Arten moglich. Es ist nicht immer klar, welches

    die be-

    ste ist.

    BEISPIEL0.3. Es gibtn Objekte mit Gewichtena1, . . . , an. Es sollen mog-lichst viele Objekte gewahlt werden, deren Gesamtgewicht die gegebene

    Schrankeb aber nicht uberschreiten darf.

    1. Formulierung: Repr asentiere die Objekte mit(0, 1)-Variablen xi undder Zielfunktion

    f(x1, . . . , xn) =x1+ . . . + xn =n

    i=1

    xi

    und erhalte

    maxn

    i=1

    xi s.d.n

    i=1

    aixi bx1, . . . , xn {0, 1}.

    2. Formulierung:

    maxxRn

    ni=1

    xi s.d.n

    i=1

    aixi bxi(1 xi) = 0 (i= 1, . . . , n).

    In dieser Formulierung hat man2n + 1viele auf dem gesamten Rn differen-

    zierbare Restriktionsfunktionen (und damit entsprechend viele Nebenbedin-gungen):

    g0(x1, . . . , xn) =( n

    i=1

    aixi b

    gi(x1, . . . , xn) = +xi(1 xi) (i= 1, . . . , n)hi(x1, . . . , xn) = xi(1 xi) (i= 1, . . . , n).

  • 5/28/2018 Skriptum-OR2011

    11/116

  • 5/28/2018 Skriptum-OR2011

    12/116

    KAPITEL 1

    Lineare Theorie

    1. Lineare Funktionale, Polyeder, Konvexitat

    Eine skalarwertige Funktionf : Rn R ist ein Funktional. Eine vektor-wertige Funktion f : Rn Rm besteht aus m Komponentenfunktionenfi: R

    n

    R, die selber Funktionale sind:

    f(x) =

    f1(x)...

    fm(x)

    .

    Ein lineares Funktional aufRn ist (bekanntlich) von der Form

    f(x1, . . . , xn) =c1x1+ . . . + cnxn=cTx

    fur einen geeigneten Koeffizientenvektorc = (c1, . . . , cn) und ist eine ste-tige Funktion. Also gilt fur jedesz Rn:

    H(c, z) :={xRn | cTx= z}= f1(z)ist eine abgeschlosse-ne Menge.

    P(c, z) :={x Rn | cTx z} = f1(, z] ist eine abge-schlossene Menge.

    f1(z, ) = {x Rn | cTx> z} ist eine offene Menge.

    1.1. Halbraume und Polyeder. Im Fall c= 0 ist H(c, z) eine Hy-perebene, P(c, z) ist ein (abgeschlossener) Halbraum. f1(z, ) ist einoffener Halbraum.

    BEMERKUNG. Vereinbarungsgemass werden der gesamte Raum Rn

    = P(0, 0)und die leere Menge =P(0, 1)als triviale Halbraumemitgezahlt.

    Geometrische Terminologie. Ein affiner Raum ist ein Durchschnitt von

    endlich vielen Hyperebenen. Auch Rn = H(0, 0) wird als affiner Raumbetrachtet.

    Ein Polyeder ist ein Durchschnitt von endlich vielen Halbraumen. So sind

    z.B. Rn und insbesondere Polyeder.11

  • 5/28/2018 Skriptum-OR2011

    13/116

    12 1. LINEARE THEORIE

    Algebraische Terminologie.Ein affiner Raum ist die Losungsmenge eines

    linearen Gleichungssystems

    a11x1 + a12x2 + . . . + a1nxn = b1a21x1 + a22x2 + . . . + a2nxn = b2

    ... ...

    am1x1 + am2x2 + . . . + amnxn = bm

    In Matrixnotation mit A = [aij] Rmn und b Rm notieren wir denaffinen Losungsraum auch als

    H(A, b) := {x Rn | Ax= b} =m

    i=1H(aTi, bi),

    wobei dieaTi die Zeilenvektoren der MatrixA sind.

    Analog erhalten wir ein Polyeder als Losungsmenge eines endlichen linea-

    ren Ungleichungssystems

    a11x1 + a12x2 + . . . + a1nxn b1a21x1 + a22x2 + . . . + a2nxn b2

    ... ...

    am1x1 + am2x2 + . . . + amnxn bmWir notieren das Polyeder entsprechend auch als

    P(A, b) := {x Rn | Ax b} = mi=1

    P(aTi, bi).

    BEMERKUNG.Aus der linearen Algebra weiss man, dass ein unendliches linearesGleichungssystem in n Variablen xjimmer zu einem endlichen linearen Teilsystemaquivalent ist (d.h. denselben Losungsraum hat).

    Vorsicht:Bei unendlichen linearen Ungleichungssystemen ist diesnichtnotwen-

    digerweise der Fall !!!

    1.2. Konvexitat. Eine MengeS

    Rn istkonvex, wenn gilt

    x, y S x + (1 )y S fur alle reellen Paramter0 1.

    Man macht sich leicht klar (Beweis?):

    Jeder Halbraum des Rn ist konvex. Beliebige Durchschnitte konvexer Mengen ergeben eine konvexe

    Menge.

    Da ebensolches auch fur

    abgeschlossen gilt, finden wir:

  • 5/28/2018 Skriptum-OR2011

    14/116

    2. DIE STUTZFUNKTION 13

    Beliebige Durchschnitte von Halbr aumen ergeben konevexe abge-schlossene Mengen. Insbesondere ist jedes Polyeder konvex und

    abgeschlossen.

    Zur Illustration betrachen wir ein (moglicherweise unendliches) lineares

    Ungleichungssystem:

    a11x1 + a12x2 + . . . + a1nxn b1a21x1 + a22x2 + . . . + a2nxn b2

    ... ...

    ... ...

    ... ...

    ... ...

    am1x1 + am2x2 + . . . + amnxn bm...

    ... ...

    ... ...

    ... ...

    ...

    Die Losungsmenge des Systems besteht aus all den Parametervektorenx Rn, die jede einzelne dieser Ungleichungen erfullen, also aus denjenigen

    x, die im Durchschnitt samtlicher entsprechender Halbraume liegen. Wir

    sehen:

    Die Losungsmenge eine beliebigen linearen Ungleichungssystemsmit n Variablen bildet eine konvexe abgeschlossene Teilmenge deseuklidischen Raums Rn.

    BEMERKUNG. Die Losungsmengen beliebiger linearer Ungleichungssysteme sind

    nicht notwendigerweisePolyeder. Hier liegt der entscheidende Unterschied zur li-nearen Algebra:

    Zu jedem n-dimensionalen linearenGleichungssystem gibt es ein endliches Teilsy-

    stem mit demselben Losungsraum. Bei linearenUngleichungssystemen ist das aber

    nicht immer der Fall.

    2. Die Stutzfunktion

    SeiS Rn eine gegebene Menge. Wir untersuchen nun Optimierungspro-bleme mit linearer Zielfunktion. Das sind Probleme vom Typ

    (1) maxxS cT

    x (mitc Rn

    ).

    Wir interessieren uns fur die Optimalwerte und betrachten dazu die sog.

    Stutzfunktion(S, ) : Rn R := R {, +} vonS, wobei

    (S, c) :=

    wennS= supxS

    cTx sonst,

  • 5/28/2018 Skriptum-OR2011

    15/116

    14 1. LINEARE THEORIE

    BEISPIEL1.1 (Minkowskisummen). Minkowskisummation von Mengen re-

    flektiert sich einfach in der Summation der St utzfunktionen:

    (S+ T, c) = sup{cT(s + t) | s S, t T}= sup

    sScTs + sup

    tTcTt

    = (S, c) + (T, c).

    Allgemein setzen wir weiter

    S0 := {c Rn | (S, c)< }= {c Rn | sTc (S, c)< s S}

    und

    S := {x Rn | cTx (S, c) c Rn}= {x Rn | cTx (S, c) c S0}.

    Aus der Definition ersieht man sofort:

    S0 undSsind Losungsmengen linearer Ungleichungssysteme undfolglich konvex und abgeschlossen.

    Ausserdem gilt fur alle TeilmengenS, T Rn:S

    T =

    S

    S

    T und T0

    S0.

    Mengen dieses Typs spielen eine zentrale Rolle in der Optimierungstheorie.

    Insbesondere fur die (spater noch zu diskutierende) diskrete Optimierung ist

    die folgende einfache Beobachtung von enormer Wichtigkeit.

    LEMMA1.1. (S, c) =(S, c)f ur allec Rn.

    Beweis. WegenS Sgilt sicher(S, c) (S, c). Andererseits gilt (nach derDefinition!)

    cTx (S, c) fur allex Sund deshalb(S, c) (S, c).

    2.1. Der Fundamentalsatz.

    SATZ 1.1 (

    Fundamentalsatz). SeiS Rn nichtleer undc Rn. Dannist das Optimierungsproblem

    maxxS

    cTx

  • 5/28/2018 Skriptum-OR2011

    16/116

    2. DIE STUTZFUNKTION 15

    entweder nach oben unbeschrankt oder es existiert ein x S mit derEigenschaft

    cTx = supxS

    cTx= (S, c).

    Beweis. Sei 0 ={(x0,x) Rn+1 | x S, x0 = cTx} der Graph der Funk-tionf(x) = cTx.0 ist eine abgeschlossene Menge (Beweis?). Wir nehmen dasOptimierungsproblem als beschrankt an und setzen

    := supx0

    x0= (S, c)< .

    Betrachten wir nun die Projektion von0 aufR:

    0:= {x0| (x0, x1, . . . , xn) 0} R.

    0ist als Projektion des Graphen der linearen Funktion

    f(x

    )abgeschlossen (Be-

    weis?). Ausserdem ist0nicht leer, da es (nach Annahme) einen Parametervektorx 0 gibt. Also ist

    0= 0 [x0, ]eine kompakte Menge und enthalt somit das Element

    x = supx00

    x0= (d.h. 0 = [x0,

    ]).

    Folglich existiert einx SmitcTx =.

    2.2. Der Trennungssatz. SeiS

    Rn beliebig undy /

    S. Dann gibt

    es einc Rn mit der Eigenschaft(i) cTy> (S, c).

    (ii) cTx (S, c)fur allex S(d.h.S P(c, (S, c))).In diesem Sinntrenntdie Hyperebene

    H(c, (S, c)) = {x Rn | cTx= (S, c)}den Punkty von der MengeS. Nach dem Fundamentalsatz existiert ausser-dem einx SmitcTx = (S, c). Wegen seiner grundlegenden Bedeu-tung formulieren wir diesen Zusammenhang als Satz.

    SATZ 1.2 (

    Trennungssatz). Sei S

    =

    undy

    Rn

    \S ein beliebiger

    Punkt. Dann existiert ein Vektorc Rn und der Punktx Sderart, dass(i) cTy> cTx, d.h. y / P(c, cTx).

    (ii) cTx cTx f ur allex S, d.h. S P(c, cTx).

    SATZ 1.3. S ist die kleinste konvexe und abgeschlossene Menge, die Senthalt.

  • 5/28/2018 Skriptum-OR2011

    17/116

    16 1. LINEARE THEORIE

    Beweis. Sei Sdie kleinste konvexe abgeschlossene Menge, die S enthalt. Danngilt S

    S (denn Durchschnitte von konvexen und abgeschlossenen Mengen sind

    immer konvex und abgeschlossen). Ausserdem ist sicherlich ist die Aussage desSatzes im FallS= richtig (denn es gilt ja: = = ).Nehmen wir also S= an und unterstellen, dass ein y S\ S existiert. Wirwollen diese Unterstellung zu einem Widerspruch fuhren. Dazu wahlen wir ein

    R >0 so gross, dass

    SR = {x S| y x R} = .Die Funktionf(x) = x y ist stetig und SRkompakt (warum?). Also existierteinx S, dasf(x)minimiert und wir haben

    0 z >cTx fur allex S.Insbesondere gilt z >0 (wegen 0 S). OBdA durfen wir z= 1annehmen. (Sonstdividieren wir c und z durch z und erhalten ein c und z = 1, die genausogutfunktionieren.)

    Daraus folgt aber c Spol und deshalb cTy 1 (wegen y (Spol)pol). Das istein Widerspruch zucTy> z= 1.

    UBUNG 1.4. Zeigen Sie an einem Beispiel, dass die Aussage von Satz 1.4

    im Fall0 / Sfalsch ist.

  • 5/28/2018 Skriptum-OR2011

    21/116

    20 1. LINEARE THEORIE

    4.1. Kegel. Wir nennen eine MengeK Rn einenKegel, wenn gilt(K0) 0

    K.

    (K1) x Kfur allex Kand Skalare >0.

    LEMMA1.3. SeiK Rn ein Kegel. Dann giltKpol =K

    Insbesondere istKpol =K ein konvexer abgeschlossener Kegel.

    Beweis. Wir beoachten zunachst, dass bei einem KegelKimmer gilt:

    (K, c) 0, dann kamen wir zu einem Widerspruch:

    lim+

    cT(x) = (cTx) lim+

    = +.

    Also finden wir

    Kpol = {c Rn | cTx (K, c)} = {c Rn | cTx 0 x K} =K.

    FOLGERUNG:

    (S) ist der kleinste konvexe und abgeschlossene Kegel, der Senthalt.

    Der KegelKist genau dann konvex und abgeschlossen, wennK= (K).

    4.1.1. Rezessionskegel. DerRezessionskegeleiner Menge =S Rnist die Menge

    RK(S) := {y Rn | S+ y S 0}.

    PROPOSITION 1.2. Sei = S Rn die Losungsmenge eines (endlichenoder unendlichen) linearen Ungleichungssystems

    Ax b ai1x1+ ai2x2+ . . . + ainxn bi (i I).Dann ist der Rezessionskegel vonSgleich der Menge aller Losungen deszugeordneten homogenen Systems:

    RK(S) = {y Rn | Ay 0} =A.

  • 5/28/2018 Skriptum-OR2011

    22/116

    4. DUALITAT UND KEGEL 21

    Beweis. Offenbar gilty + S Sfur jedesy A. Umgekehrt bedeutetz / AT,dassz (mindestens) eine Ungleichung

    ai1z1+ ai2z2+ . . . + ainzn> 0

    provoziert. Sei nunx Sirgendeine zulassige Losung vonAx b. Dann giltai1(x1+ z1) + ai2(x2+ z2) + . . . + ain(xn+ zn)> bi,

    wenn . Also hat manz / RK(S).

    SATZ 1.5. SeiS Rn konvex und abgeschlossen. Genau dann istSunbe-schr ankt, wenn der Rezessionskegel vonSnichttrivial ist.

    Beweis. OBdaA nehmen wirS=

    an. Existiert einy

    RK(S)mity

    =0, dann

    istSunbeschrankt, dennSenthalt (per Definition) die Halbgeraden

    {x + y| 0} fur allex Sundy RK(S).Sei umgekehrtS unbeschrankt und (xk) eine Folge von Elementen xk S mitxi . Wir schreiben diexk in der Form

    xk = idk mit k 0 und dk = 1.und somitk . Sei

    Ax b ai1x1+ ai2x2+ . . . + ainxn bi (i I)ein Ungleichungssystem mitSals Losungsmenge. GiltAdk 0 fur mindestenseink , dann ist ein nichttriviales Element im Rezessionskegel gefunden. Andern-falls betrachten wir die Parameter

    k := supiI

    ai1dk1+ ai2dk2+ . . . + aindkn.

    und den Limes d := limk dk, dessen Existenz wir oBdA annehmen durfen(warum?). Wegenk + undAxk bmuss gelten:

    limk

    k = 0 und folglich Ad 0.Also giltd RK(S). Wegen d = 1ist RK(S)also nichttrivial.

    BEISPIEL1.4 (Lineare Gleichungssysteme). Losungsbereiche linearer Glei-chungssysteme sind Spezialf alle von Losungsbereichen linearerUngleichungssysteme:

    ai1x1+ . . . + ainxn=bi

    ai1x1+ . . . + ainxn biai1x1 . . . ainxn bi

    Auf diesen Spezialfall angewendet, besagt Satz 1.5, dass ein lineares Glei-

    chungssystemAx= b einen beschr ankten Losungsbereich hat, wenn gilt

    ker A= {y Rn | Ay= 0} =A = {0}.

  • 5/28/2018 Skriptum-OR2011

    23/116

    22 1. LINEARE THEORIE

    4.2. Endlich erzeugte konvexe Mengen und Kegel. Seien a1, . . . , amRn beliebige Vektoren. Wir bezeichnen mit conv(a1, . . . , am)die Menge al-

    ler Vektorenz der Form

    z=mi=1

    yiai mity1, . . . , ym 0undmi=1

    yi= 1.

    Die Linearkombination z selber ist eine sog. Konvexkombination der Vek-

    torena1, . . . , am.

    BEMERKUNG. In der Wahrscheinlichkeitsrechnung bezeichnet man einen

    Parametervektor y = (y1, . . . , ym)mit nichtnegativen Komponentenyi 0und Komponentensumme1 als eineWahrscheinlichkeitsverteilung. In die-ser Interpretation kann man die Konvexkombination

    z=mi=1

    yiai

    als den Erwartungswertder Vektorenai bzgl. der Wahrscheinlichkeitsver-

    teilungy ansehen.

    Mit cone(a1, . . . , am)bezeichnen wir die Menge aller nichtnegativer Line-arkombinationen (das sind die sog. konischen Linearkominationen) , d.h.

    aller Vektorenz der Form

    z=m

    i=1 yiai mity1, . . . , ym 0.Allgemeiner definiert fur beliebiges S Rn man die konvexe H ulle conv(S)als die die kleinste konvexe Menge, dieSenthalt:

    conv(S) :=

    {K Rn | Kkonvex undS K}.Da jede konvexe Menge auch alle ihre Konvexkombinationen enthalten

    muss ist conv{a1, . . . , am}, wie oben definiert, sicherlich die kleinste kon-vexe Menge, die a1, . . . , amenthalt. Die allgemeine Begriffsbildung ist alsokonsistent.

    ABE R: WennS Rn unendlich ist, ist die konvexe Menge conv(S) nichtnotwendigerweise abgeschlossen (Beispiel?).Unsere bisherige Analyse zeigt:

    LEMMA1.4. Sei A Rmn die Matrix mit den mZeilenvektoren aTi . Danngilt

    (i) cone(AT) = {x Rn | Ax 0} =P(A, 0) =A.(ii) P(A, 0)ist einpolyedrischerKegel (d.h. ein Polyeder, das gleich-

    zeitig ein Kegel ist).

  • 5/28/2018 Skriptum-OR2011

    24/116

    4. DUALITAT UND KEGEL 23

    Wir werden spater (genauer: im nachsten Kapitel) beweisen, dass konvexeMengen vom Typ conv(S) und cone(S) sogar Polyeder sind, wenn |S| < garantiert werden kann.

    Polytope. Wir nennen eine konvexe Menge

    P= conv(S) mitS Rn endlicheinPolytop. Polytope werden sich als in der Optimierungstheorie besonders

    wichtige Polyeder erweisen.

    BEISPIEL 1.5 (Symmetrische und positiv semidefinite Matrizen). Wir be-

    trachten eine quadratische MatrixX = [xij]

    Rnn als einen Vektor mit

    n2 Komponenten xijund k onnen soRnn mitRn2 identifizieren. Xist genau

    dann symmetrisch, wenn das endliche lineare Gleichungssystem

    (2) xij xji = 0 (1 i < j n)erf ullt wird. Die Menge der symmetrischen Matrizen bildet also einen kon-

    vexen und abgeschlossenen polyedrischen Kegel (tatsachlich sogar einen

    linearern Teilraum), n amlich genau die L osungsmenge des (endlichen) li-

    nearen Systems (2).

    Eine symmetrische MatrixX = [xij] Rnn heisstpositiv semidefinit,wenn f ur alle Parametervektorena Rn gilt:

    (3) aTXa=n

    i=1

    nj=1

    aiajxij 0.

    Auch die Menge aller positiv semidefiniten Matrizen ist ein konvexer und

    abgeschlossener Kegel als die Losungsmenge des aus (2) und (3) zusam-

    mengesetzten unendlichen linearen Systems aber im allgemeinen nicht

    polyedrisch.

  • 5/28/2018 Skriptum-OR2011

    25/116

  • 5/28/2018 Skriptum-OR2011

    26/116

    KAPITEL 2

    Lineare Ungleichungen und die Struktur von Polyedern

    Wir betrachten in diesem Kapitel endliche lineare Ungleichungssysteme

    und deren Losungsmengen (d.h. Polyeder). Wir erinnern daran, dass linea-

    re Gleichungssysteme als Spezialfalle linearer Ungleichungssysteme aufge-

    fasst werden konnen.

    MAN BEACHTE:Ein lineares Ungleichungssystem Ax b lasst allerdingssich typischerweisenichtmit dem Gaussschen Algorithmus losen!

    1. Zeilen- und Spaltenoperationen

    SeiA Rmn eine Matrix. Wendet man die fundamentalen Operationender linearen Algebra auf die Zeilenvektoren von A an, so spricht man vonelementaren Zeilenoperation. Sie sind:

    Multiplikation eines ZeilenvektorsaTi mit einem Skalaryi= 0; Addition eines ZeilenvektorsaTi zu einem ZeilenvektoraTi .

    Bekanntlich lasst sich eine elementare Zeilenoperation algebraisch als Pro-dukt P A mit einer (von links multiplizierten) invertierbaren MatrixP be-schreiben. Das Produkt APT (mit der von rechts multiplizierten transpo-nierten MatrixPT) beschreibt die analoge elementare Spaltenoperation.

    Unter einem(r, k)-Pivotverstehen wir die Folge von elementaren Zeilen-operationen:

    (1) Dividiere eine Zeiler durchark;(2) Subtrahiere das aik-fache der neuen Zeile rvon denubrigen Zeilen

    i =r.

    NOTAB EN E:Genau im Fallark= 0ist ein(r, k)-Pivot durchf uhrbar.

    2. Elimination nach Fourier-Motzkin

    Die Methode von Fourier-Motzkin zur Losung linearer Ungleichungssyste-

    me beruht auf folgender Beobachtung. Zwei Ungleichungen vom Typ

    (4) (+1)x1 + a12x2 + . . . +a1nxn b1

    (1)x1 + a22x2 + . . . +a2nxn b225

  • 5/28/2018 Skriptum-OR2011

    27/116

    26 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN

    sindaquivalent zu

    (5) b2+n

    j=2

    a2jxj x1 b1 n

    j=2

    a1jxj.

    Ausserdem ist die Ungleichung

    (6) b2+n

    j=2

    a2jxj b1 n

    j=2

    a1jxj.

    aquivalent zur Summe der Ungleichungen in (4):

    (7)

    nj=2

    (a1j+ a2j)xj b1+ b2.

    LEMMA2.1. Die Losungen von (4) erhalt man folgendermassen:

    Man bestimme eine L osung(x2, . . . , xn)f ur (7)und erganze diese mit einemx1, das (5) erf ullt.

    Insbesondere ist (4) genau dann losbar, wenn (7) losbar ist.

    Die Idee ist nun, nach der Variablen x1der Reihe nach dieubrigen Variablenx2, . . . , xnzu eliminieren. Am Ende erweist sich dann das System entwedertrivialerweise als unlosbar, weil man einen Widerspruch

    0 b

  • 5/28/2018 Skriptum-OR2011

    28/116

    2. ELIMINATION NACH FOURIER-MOTZKIN 27

    Wir dividieren die Ungleichungen inI+Ijeweils durch |ai1| >0. Damiterhalten wir dasaquivalente System

    (9)

    (+1)x1 +n

    j=2

    asjxj bs (s I+)

    (1)x1 +n

    j=2

    atjxj bt (t I)n

    j=2

    aijxj bi (i I0)

    und bemerken

    (10) maxtI( bt+

    nj=2

    atjxj x1 minsI+ (bs

    nj=2

    asjxj

    Nun ersetzen wir die Ungleichungen in I+I durch alle Summen vonPaaren und erhalten das System

    (11)

    nj=2

    (asj+ atj)xj bs+ bt (s I+, t I)n

    j=2

    aijxj bi (i I0)

    SATZ2.1. (x1, . . . , xn)ist genau dann eine Losung von (8), wenn gilt

    (i) (x2, . . . , xn)l ost das lineare System (11);(ii) x1genugt der Bedingung (10).

    BEMERKUNG.Die Bestimmung vonx1 aus einer Losung(x2, . . . , xn) von (11)

    gemass (10) heisstR ucksubstitution.

    Zur Losung des Ungleichungssystems (8) kann man nun so vorgehen:

    (1) Man eliminiert der Reihe nach die Variablenx1, . . . , xn;(2) Das Endsystem erkennt man entweder trivialerweise als unzulassig

    oder zulassig. Im zulassigen Fall gelangt man vom Endystem der

    Reihe nach durch Rucksubstitutionen zu einer Losung von (8).

    Mit der Methode von Fourier-Motzkin kann man im Prinzip jedes endliche

    lineare Ungleichungssystem in endlich vielen Schritten losen. Allerdings ist

    das Verfahren in der Praxis oft sehr ineffizient. Denn:

    In einem Eliminationsschritt kann (beimUbergang von (9) zu (11))die Anzahl der Ungleichungen sehr stark wachsen!

  • 5/28/2018 Skriptum-OR2011

    29/116

    28 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN

    BEMERKUNG. Wie der Gausssche Algorithmus beruht auch das FM-Verfahren

    auf elementaren Zeilenoperationen: Addition von 2 Ungleichungen und Multipli-

    kation einer Ungleichung mit einem Skalar. Allerdings werden bei der skalarenMultiplikation (im Gegensatz zum Gauss-Verfahren) nur positiveSkalare zugelas-

    sen.

    2.1.1. Das Erf ullbarkeitsproblem. Wir rechnen uber dem Zahlbereich

    {0, 1} mit den Operationen 0 10 0 11 1 1

    0 10 0 01 0 1

    0 1

    1 0

    EineBoolesche Funktionist eine Funktion :{0, 1}n {0, 1}. Es ist be-kannt, dass eine Boolesche Funktion (x1, . . . , xn) in einer sog. konjuktivenNormalform(KNF) dargestellt werden kann:

    (x1, . . . , xn) =mi=1

    Ci,

    wobei dieKlauselnCi die Form haben

    Ci= ai1y1 . . . ainyn mitaij {0, 1} undyi {xi, xi}.

    BEISPIEL2.1. (x1, x2, x3) = (x1 x2) (x1 x2 x3) x3.

    ERF ULLBARKEITSPROBLEM: Man entscheide, ob die per KNF gegebene

    Boolesche Funktion den Wert 1 annehmen kann. Das heisst: Kann eineBelegung der Variablen gefunden werden derart, dass jede KlauselCi denWert1 annimmt?

    Das Problem kann man mit Ungleichungssystemen modellieren. In der Klau-

    selCi=ai1y1+ . . . ainynersetzen wirxj durch1 xj und haben dann dasProblem: Gibt es eine Losung mit ganzahligenxj {0, 1} derart, dass

    ai1y1+ . . . ainyn 1 ?

    BEISPIEL2.2. SeiC = x2 x5 x7. Dann istC erf ullbar, wenn es eineganzzahlige(0, 1)-Losung der Ungleichung

    x2+ (1 x5) + x7 1 x2+ x5 x7 0gibt.

  • 5/28/2018 Skriptum-OR2011

    30/116

    2. ELIMINATION NACH FOURIER-MOTZKIN 29

    Das Erfullbarkeitsproblem fragt also nach einer ganzahligen(0, 1)-Losungdes aus allen Klauseln gebildeten Ungleichungssystems.

    2-SAT: Das Erfullbarkeitsproblem fur Boolesche Funktionen in KNF, bei

    denen jede Klausel hochstens2 Variablen enthalt.

    2-SAT kann mit dem FM-Verfahren effizient(!) gelost werden. Um das ein-

    zusehen, betrachten wir das folgende typische Beispiel:

    BEISPIEL2.3 (Resolvente).

    C1 = xk xsC2 = xk xlC = xs xl

    xk xs 1xk xl 0

    xs xl 1C ist die sog. Resolvente der KlauselnC1 undC2. Offensichtlich sindC1undC2 genau dann gleichzeitig erf ullt, wenn ihre ResolventeC erf ullt ist.Im Ungleichungssystem entsprichtCder Summe der aus C1undC2gewon-nenen Ungleichungen.

    MAN ERKENNT: Die Resolventenbildung resultiert in einer Klausel mit

    hochstens 2 Variablen. Insgesamt sind aber sicher nicht mehr als 2n2 sol-cher Klauseln uberhaupt moglich.

    PROPOSITION 2.1. Wendet man das FM-Verfahren auf ein 2-SAT-Problemmitn Variablen an, so werden insgesamt h ochstens 2n2 verschiedene Un-

    gleichungen erzeugt.

    BEMERKUNG.Fur das allgemeine Erfullbarkeitsproblem ist beim gegenwartigen

    Stand der Wissenschaft kein effizienter Losungsalgorithmus bekannt.

    2.1.2. Das Lemma von Farkas. Nehmen wir an, wir hatten das FM-

    Verfahren auf das Ungleichungssystem

    Ax bangewandt und alle Variablen eliminiert. Dann haben wir insgesamt auf der

    linken Seite den Nullvektor als nichtnegative Linearkombination der ZeilenvonA erzeugt. Ist y 0 der zugehorige Koeffizientenvektor, dann habenwir die Situation

    yTAx= 0Tx yTb.Genau im Fall yTb < 0 liegt eine Widerspruchlichkeit vor. Das heisst:Ax berweist sich als unlosbar.Daraus folgt die Aussage des Farkas-Lemmas:

  • 5/28/2018 Skriptum-OR2011

    31/116

    30 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN

    LEMMA 2.2 (Farkaslemma). Auf das lineare UngleichungssystemAxbtrifft genau eine der Aussagen zu:

    (I) Ax bbesitzt eine zulassige Losungx;(II) Es gibt einen Koeffizientenvektory mit den Eigenschaften

    y 0, yTA= 0T undyTb< 0.

    2.2. Gultige und implizierte Ungleichungen. Man sagt, eine (lineare)

    UngleichungcTx zgiltfur die MengeS (bzw. wird von der MengeSimpliziert), wenn gilt

    cTs z fur alles S,d.h. wennSganz im HalbraumP(c, z)enthalten ist.

    BEISPIEL2.4. Sei Ax b ein lineares Ungleichungssystem mitA Rmnundy Rm+ ein beliebiger nichtnegativer Koeffizientenvektor. Wir setzencT := yTA und wahlen ein beliebigesz cTb. Dann istcTx zgultigf urP(A, b). (Beweis?)

    Ein fur die allgemeine (auch nichtlineare!) Optimierungstheorie (enorm!)

    wichtige Charakterisierung implizierter Ungleichungen folgt aus dem Far-

    kaslemma:

    SATZ 2.2. Sei = S = P(A, b). Genau dann istcT

    x zvonAx bimpliziert, wenn einy 0existiert mit der EigenschaftcT = yTA und yTb z.

    Beweis. Eine Richtung der Behauptung folgt aus Beispiel 2.4. Zum Beweis der

    anderen Richtung nehmen wir an,cTxz sei impliziert, aber es gebe keiny derbehaupteten Art. Dann ware das folgende System unlosbar:

    ATy cATy c

    Iy 0bTy z.

    Es gibt also (nach Farkas) nichtnegative Vektoren u,v,w 0 und einen Skalar 0derart, dass

    uTAT vTAT wT + bT = 0TuTc vTc wT0 + z < 0.

    Mitx := v ufolgt daraus:Ax b und cTx> z

  • 5/28/2018 Skriptum-OR2011

    32/116

    3. DIE STRUKTUR VON POLYEDERN 31

    und somit = 0. (Sonst wurde Division durch > 0 ja zeigen, dass die Unglei-chung cTx

    z gar nicht vonAx

    b impliziert ist!) Das bedeutet aber anderer-

    seits auchx =0.

    Sei nun x P(A,b). Dann gilt auch x +tx P(A,b) fur jedest 0. Dassteht aber im Widerspruch der Gultigkeit voncTx z:

    limt

    cT(x + tx) = cTx + (cTx) limt

    t= > z.

    BEMERKUNG. In der Literatur wird auch die Aussage von Satz 2.2 als

    Farkas-

    lemma bezeichnet.

    3. Die Struktur von Polyedern

    3.1. Endlich erzeugte Kegel und Polytope. Aus dem FM-Verfahrensleiten wir zunachst ab, dass Projektionen von Polyedern wieder Polyeder

    sind.

    SeiN ={1, . . . , n} die Menge der Indizes des betrachteten Koordinaten-raums und S N eine feste Teilmenge. Zu einem gegebenen x RNbezeichnen wir mitxSdie Einschrankung vonx auf die Koordinaten inS.

    IstX RN eine beliebige Teilmenge, so nennen wir die MengeXS= {xS| x X} RS

    dieProjektionvonXauf den Koordinatenraum RS.

    LEMMA2.3 (

    Projektionslemma).Die ProjektionPSeines beliebigen Po-lyedersP RN ist ein Polyeder.

    Beweis. Sei P die Losungsmenge des UngleichungssystemsAx b. Wir ver-suchen, dieses mit dem FM-Verfahren zu losen und eliminieren zuerst die Va-

    riablen xi mit Index i N\ S. Dann ist PS ={xS | x P(A,b)} genaudie Losungsmenge des vom FM-Verfahren bis dahin berechneten Ungleichungssy-

    stems Ax b, d.h.PS=P(A,b).

    Wir beweisen nun die fundamentale Aussage, dass endlicherzeugte konve-

    xe Kegel und konvexe Mengen immer Polyeder sind.

    SATZ2.3. SeiV = {v1, . . . , vk} Rn eine endliche Menge. Dann gilt(a) Die Menge cone(V) aller konischen Linearkombinationen ist ein

    Polyeder.

    (b) Die Mengeconv(V)aller Konvexkombinationen ist ein Polyeder.

  • 5/28/2018 Skriptum-OR2011

    33/116

    32 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN

    Beweis. Wir zeigen (a). (Die Behauptung (b) beweist man ganz analog.) Sei

    P =cone(V) = {k

    i=1

    ivi| 1, . . . , k 0}.

    Wir bezeichnen mitIdie Einheitsmatrix und bilden die Matrix V = [v1, . . . ,vk]mit den Spaltenvektorenvi. Nun betrachten wir die MengePaller (n + k)-dimen-sionalen Vektoren(z,x) Rn+k derart, dass

    (12) Iz Vx = 0

    x 0P ist Losungsmenge eines linearen Systems und somit ein Polyder. Pist die Pro-

    jektion vonPauf diez-Koordinaten und folglich auch ein Polyeder.

    NOTA BEN E. Mit dem FM-Verfahren kann man eine Matrix B berechnenmit der Eigenschaft

    cone(V) =P(B, 0),

    indem man einfach die x-Variablen aus dem System (12) eliminiert. Ganz

    analog ergibt sich aus dem FM-Verfahren eine Matrix Cund ein Vektorbmit der Eigenschaft

    conv(V) =P(C, b).

    BEMERKUNG.Offen ist die Suche nach einer algorithmisch effizienteren Metho-

    de als das FM-Verfahren zur Berechnung einer Darstellung

    cone(V) =P(B, 0) bzw. conv(V) =P(C,b).

    Mit Hilfe des Projektionslemmas lasst sich ebenso zeigen:

    PROPOSITION 2.2. Die Minkowskisumme S = P +Q zweier beliebigerPolyederP, Q Rn ist selber ein Polyeder in Rn.

    Beweis. Ubung.

    3.2. Der Darstellungssatz von Weyl-Minkowski. Wir betrachten ein

    beliebiges Polyeder P, das sich als Losungsmenge eines endlichen Systemsvon linearen UngleichungenaTi x bi (mit IndexmengeI) schreiben lasst:

    P = {x Rn | aTi x bi, i I}.Wir betrachten zuerst den Spezialfall

    0 Pund folglichbi 0fur allebi I.

  • 5/28/2018 Skriptum-OR2011

    34/116

    3. DIE STRUKTUR VON POLYEDERN 33

    Dividieren wir nun im Fallbi>0 die entsprechende Ungleichung durchbi,so erhalten wir einPdefinierendes System von Ungleichungen aTi x

    bi

    mitbi {0, +1} es gibt also MatrizenA, B derart, dass

    P = {x Rn |

    AB

    x

    1

    0

    },

    wobei1 = (1, 1, . . . , 1)T. Wir erinnern an die Polare:

    Spol = {x Rn | sTx 1fur alles S}.IstSendlich, so stellen wir unsST als die Matrix mit den ZeilenvektorensT vor und erkennen dann die Polare als Polyeder

    Spol =P(ST, 1).

    LEMMA2.4. Sei Pein Polyeder undA undBMatrizen mit der Eigenschaft

    P = {x | Ax 1, Bx 0}.Dann ist die Polare von Pdie Minkowskisumme des von den ZeilenvektorenvonA und dem Ursprung 0 bestimmten Polytops und des von den Zeilen-vektoren vonB erzeugten konvexen Kegels:

    Ppol =conv(AT, 0) +cone(BT)

    Insbesondere istPpol ein Polyeder (da die Minkowskisumme von Polyedernnach Proposition 2.2 immer ein Polyeder ergibt).

    Beweis. Ein Vektor c liegt in Ppol genau dann, wenn die Ungleichung cTx 1von dem linearen System

    AB

    x 1

    0

    impliziert wird. Das ist genau dann der Fall, wenn es Vektoren y, z 0 gibt mitder Eigenschaft

    cT =yTA + zTB und yT1 1.WegenATy conv(AT,0)und BTz cone(BT)folgt dann

    c Ppol c conv(AT,0) +cone(BT).

  • 5/28/2018 Skriptum-OR2011

    35/116

    34 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN

    3.3. Der Dekompositionssatz.

    SATZ 2.4 (Weyl-Minkowski). Genau dann ist eine nichtleere Menge PRn ein Polyeder, wenn es endliche MengenV, W Rn gibt mit der Eigen-schaft

    (13) P =conv(V) + cone(W).

    Beweis. Da conv(V)und cone(W)Polyeder sind, ist deren Minkowskisumme einPolyeder. Die Bedingung ist also hinreichend. Wir beweisen die Notwendigkeit

    und nehmen oBdAP= an.Wir betrachten zuerst den Fall0 P. Dann kannP in der Form

    P =

    {x

    |Ax

    1, Bx

    0

    }ausgedruckt werden. Nach Lemma 2.4 istQ= Ppol ein Polyeder und wir findenP = (Ppol)pol =Qpol.

    Wiederum aus Lemma 2.4 schliessen wir nun, dassPals Minkowskisumme einerendlich erzeugten konvexen Menge und eines endlich erzeugten konvexen Kegels

    ausgedruckt werden kann.

    Im Fall 0 / P wahlen wir irgendein t P und betrachten die Translation (Min-kowskisumme)

    P =P+ {t}.Wegen0

    Pgibt es endliche MengenV undWderart, dass

    P =conv(V) +cone(W).

    Nun verifiziert man leicht furV =V + {t} undW =W:P =conv(V) +cone(W).

    Aus dem Dekompositionssatz folgt sofort eine wichtige Charakterisierung

    von Polytopen:

    KOROLLAR2.1. Ein PolyederP Rn ist genau dann ein Polytop, wennP beschr ankt ist.

    Beweis. Wir nehmenP =conv(V) + cone(W)an. Ist nunP beschrankt, so kannWkeinen Vektor w=0 enthalten. Daraus folgt die Darstellung

    P =conv(V) + {0} =conv(V),diePals Polytop erweist. Umgekehrt macht man sich leicht klar, dass ein Polytopnicht nur ein Polyeder ist sondern auch beschrankt sein muss (Beweis?).

  • 5/28/2018 Skriptum-OR2011

    36/116

    3. DIE STRUKTUR VON POLYEDERN 35

    3.4. Dualitat von Darstellungen. Der Satz von Weyl-Minkowski zeigt,

    dass ein PolyederPzwei zueinander duale Sichtweisen erlaubt:

    IMPLIZIT: P ist Losungsmenge eines endlichen linearen Ungleichungs-

    systemsAx b;EXPLIZIT: Pist die Menge aller Vektoren (bzw. Punkte), die von den

    endlichen MengenV undW gemass (13) erzeugt werden.

    Die Situation verallgemeinert damit die bei linearen oder affinen Teilraum-

    enA Rn bekannte. Einerseits istALosungsmenge eines linearen Glei-chungssystems Ax = b. Andererseits gibt es eine endliche Menge S ={s1, . . . , sk} derart, dass A die Menge aller affinen Linearkombinationen

    x= 1s1+ . . . + ksk mitk

    i=1

    i= 1

    ist. Die Umrechnung von einer Darstellung zur anderen ist im linearen/af-

    finen Fall effizient moglich (z.B. mit dem Gauss-Verfahren).

    NOTAB EN E. Im linearen (und affinen) Fall sind alle minimalen Erzeugendensy-

    steme (Basen) gleichmachtig.Bei Ungleichungssystemen ist dies nicht notwendi-

    gerweise so!

    Im allgemeinen Fall ist die Umrechnung nicht so einfach moglich. Wie der

    Beweis des Dekompositionssatzes zeigt, ist im Prinzip eine Umrechnung

    mit Hilfe des Fourier-Motzin-Verfahrens erreichbar. Diese Methode ist aber

    nicht effizient. Ein effizienter Algorithmus fur das Umrechnungsproblem ist

    nicht bekannt.

    Zur Illustration betrachten wir ein lineares Optimierungsproblem

    max cTx s.d Ax bmit dem Optimalwert < (P(A, b, c)< +. Haben wir die Darstel-lung

    P(A, b) =P =conv(V) +cone(W),

    so erhalten wir fur die Stutzfunktion(P(A, b), c) = (conv(V), c) + (cone(W), c) =(conv(V), c)

    = (V , c) =(V, c)

    = maxvV

    cTv.

    FOLGERUNG:

    Im FallV= ist jede Eckex vonP inV enthalten.

  • 5/28/2018 Skriptum-OR2011

    37/116

    36 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN

    (Denn: Die lineare Funktion f(x) = cTx, welche die Seitenflache F =

    {x

    }bestimmt, wird ja in einem Element vonV optimiert.)

    3.5. Ecken von Polyedern. Wir betrachten ein PolyederP =P(A, b)in der Darstellung von Weyl-Minkowski:

    P =conv(V) + cone(W).

    und nehmen an, dassV nichtleer ist. (Den FallV = untersuchen wir imnachsten Abschnitt 3.5.1.) Wir wissen dann schon, dass die Ecken von P inder MengeVenthalten sind. Also genugt es, sich auf Polytope zuruckzu-ziehen und dort die Frage nach den Ecken zu untersuchen.

    SATZ 2.5 (Ecken von Polyedern). SeiV

    =

    eine minimale Menge mit der

    EigenschaftP =P(A, b) = conv(V) +cone(W)

    Dann istVgenau die Menge der Ecken vonP.

    Beweis. Wir durfen oBdA P = conv(V) annehmen. Wir haben schon gesehen,dass im Fall V = alle Ecken von P in V enthalten sind. Sei nun umgekehrtv V undV =V\ {v}. Wir setzen

    P = conv(V).

    Aus der Minimalitat von V folgt nun P = Pund insbesondere v / P (Be-weis?). Der Hauptsatz uber abgeschlossene konvexe Mengen garantiert somit eine

    Hyperebene, die v vonP trennt. D.h. es gibt einen Parametervektor c mit denEigenschaften

    cTx >cTv fur allev V.v ist somit der einzige Punkt in P, derf(x) = cTx uberP maximiert. Folglichistv eine Ecke vonP.

    KOROLLAR2.2. Jedes Polytop ist die konvexe Hulle seiner Ecken.

    3.5.1. Spitze Kegel. Wir betrachten nun den Fall eines polyedrischen

    KegelsK=cone(W) =P(A, 0),

    wobei A Rmn eine geeignete Matrix ist. Wegen (K, c) {0, +}ist klar, dass0Kder einzige Kandidat fur eine Ecke ist. Wir nennenKspitz, wenn0 tatsachlich eine Ecke ist.

    SATZ 2.6. Der polyedrische KegelK Rn ist genau dann spitz, wenn Kkeinen nichttirivialen linearen Teilraum von Rn enthalt.

  • 5/28/2018 Skriptum-OR2011

    38/116

    3. DIE STRUKTUR VON POLYEDERN 37

    Beweis. IstKspitz, so gibt es ein c Rn derart, dass gilt:cTx< 0 fur allex

    K

    \ {0}

    .

    Dann kann K keinen nichttrivialen linearen Teilraum enthalten (da mit jedemPunktx eines linearen Teilraums auch der Punkt(x)zu dem Teilraum gehort).IstKnicht spitz, so kannAnicht vollen Rang rgA= n besitzen. Sei namlich

    cT =mi=1

    aTi

    die Summe der Zeilenvektoren aTi vonA. Dann ist cTx 0 eine fur K gultige

    Ungleichung, die nur vonx = 0mit Gleichheit erfullt wird, wennA vollen Ranghat. Damit ware aber0 eine Ecke und folglichKspitz.

    Also gilt rg(A)n 1

    und folglichker A={

    0}

    . Wegenker AK

    enthaltKsomit einen nichttrivialen linearen Teilraum von Rn.

    3.6. Basislosungen. Wir betrachten ein System Ax b mit A

    Rmn undb Rm mit den einzelnen UngleichungenaTi x ai1x1+ . . . + ainxn bi.

    EinemxP(A, b)ordnen wir nun das Teilsystem der Ungleichungen zu,das vonx mit Gleichheit erfullt wird:

    J(x) := {i {1, . . . , m} | aTi x= bi}.AJ(x) bezeichne die entsprechende (Zeilen-)Teilmatrix vonA. Wir nennenx P(A, b)eine(zulassige) Basislosung, wenn gilt

    rg(AJ(x)) =n.

    LEMMA 2.5. Die Basislosungen x P(A, b) sind genau die Ecken vonP(A, b).

    Beweis. SeicT =

    iJ(x) aTi undz =

    iJ(x) bi. Dann istc

    Txz sicherlicheine gultige Ungleichung furP(A,b)(warum?). Folglich ist

    F ={x

    P(A,b)

    |cTx= z

    }=

    {x

    P(A,b)

    |AJ(x)x= bJ(x)

    }eine Seitenflache mitxF. Da die MatrixAJ(x) vollen Rangn hat, kannF nureinen Punkt enthalten.

    Sei umgekehrtv P(A,b)eine Ecke und cTx zeine gultige Ungleichung mitder Eigenschaft

    {x P(A,b) | cTx= z} = {v}.Damit ist die Gleichung cTx= z von dem System

    Ax b, AJ(v)x= bJ(v)

  • 5/28/2018 Skriptum-OR2011

    39/116

    38 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN

    impliziert. Jeder Vektorw, der dieses System erfullt, erreicht also den Wert

    cTw= z.

    Wir behaupten, dassker AJ(v) = {0} gelten muss. Denn zu jedem anderen Vektord ker AJ(v) \ {0} konnten wir sicherlich ein >0 finden mit der Eigenschaft

    aTi (v+ d) = bi wennaTi v= bi

    aTi (v+ d) bi wennaTi v< bi.Damit hatten wir Aw b und AJ(v)w = bJ(v) und folglich cTw = z. Daswurde aber der Eckeneigenschaft von v widersprechen!

    ker AJ(v)= {0} bedeutet nun, dass die Matrix AJ(v)vollen Spaltenrang n besitzt.Also istv eine Basislosung.

    3.7. Nichtnegative Losungen linearer Gleichungen. Wir interessie-

    ren uns furnichtnegativeLosungen linearer Gleichungssysteme d.h. fur Po-

    lyederPder Form

    (14) P = {x Rn | Ax= b, x 0},wobeiA Rmn undb Rm.Pist also genau die Losungsmenge von

    Ax bAx b

    Ix

    0.

    SeixP. Dann bestehtJ(x)aus allen Indizes, die den Zeilen vonA ent-sprechen (da diese ja immer mit Gleichheit zu erfullen sind). Dazu kommen

    noch die entsprechenden Zeilen der(n n)-Matrix(I):N(x) := {j {1, . . . , n} | xj = 0}.

    Wir setzen weiterhin

    B(x) = {j {1, . . . , n} | xj >0}.Also erhalten wir in diesem Kontext:

    LEMMA2.6. x Pist genau dann eine Basisl osung des SystemsAx= b, x 0,

    wenn die Teilmatrix AB(x) der Spaltenvektoren Aj mit Index j B(x)linear unabhangig sind, d.h. wenn

    rg(AB(x)) = |B(x)| =n |N(x)|.

  • 5/28/2018 Skriptum-OR2011

    40/116

    3. DIE STRUKTUR VON POLYEDERN 39

    Fur die lineare Programmierung (extrem!) wichtig ist der Umstand, dass

    man ohne grosse Muhe eine gute Basislosung konstruieren kann, sofern

    man schon eine gute Losung hat.

    SATZ 2.7. Sei x(0) P ={x Rn | Ax = b, x 0} gegeben. Dannkann man in hochstensnIterationen eine Basislosungx P konstruieren.

    Beweis. Wir bezeichen mitA0x= b0das lineare Gleichungssystem

    Ax= b und xj = 0 fur allej N(x(0)).Istx(0) keine Basislosung, dann existiert ein d = 0 derart, dass

    A0d= 0.

    Dann gilt sicherlich A(x(0) +d) = b fur jedes R. Wegen d= 0 gibt eseinen Indexj1 B(x(0))und ein1= 0mit der Eigenschaft

    x(1) + 1d P und x(1)j1 = 0.Daraus folgt |N(x(1)| |N(x(0)| + 1.Nun gehen wir von x(1) in gleicher Weise aus und konstruieren der Reihe nach

    Vektorenx(2),x(3), . . .bis eine Basislosung gefunden ist. Wegen

    |N(x(0)| + k N(x(k)| nwerden wir nach weniger alsnSchritten eine Basislosung gefunden haben.

    Den Algorithmus im Beweis von Satz 2.7 kann man so modifizieren, dass

    man eine Basislosung erhalt, die bzgl. einer gegebenen Zielfunktion f(x) =cTxmindestens so gut ist wiex(0) sofern(P, c)endlich ist. Dazu versu-chen wir, das modifizierte System

    cTd = 1

    A0d = 0

    zu losen. Wenn eine Losungd existiert, dann gilt fur jedes R:cT(x(0) + d) =cTx(0) + .

    Wegen(P, c)< gibt es somit ein1 > 0 derart, dassx(1) =x(0) + 1d P und |J(x(1)| |J(x(0)| + 1.

    Ausserdem giltcTx(1) =cTx(0) + 1 > cTx(0). Wie zuvor konnen wir nun

    einx(2) versuchen zu konstruieren usw.

    Existiert das gewunschte d mitcTd= 1nicht, so haben wir

    cTd= 0 fur alled ker A0.

  • 5/28/2018 Skriptum-OR2011

    41/116

    40 2. LINEARE UNGLEICHUNGEN UND DIE STRUKTUR VON POLYEDERN

    Wir konnen dann den Algorithmus genau wie im Beweis von Satz 2.7 ausfuhren

    und erhalten

    cTx(0) =cTx(1) =cTx(2) =. . .Der Zielfunktionswert verschlechtert sich also auf keinen Fall.

    3.8. Der Satz von Caratheodory. Als Anwendung der garantierten

    Existenz von Basislosungen leiten wir einen beruhmten geometrischen Satz

    ab.

    SATZ2.8 (Caratheodory). Sei X Rd eine beliebige nichtleere Menge vonVektoren undz conv(X). Dann lasst sich z als Konvexkombination vonhochstensd + 1 Vektoren ausXdarstellen.

    Beweis. Seienx1, . . . ,xn Xundy1, . . . , yn so, dassx1y1+ . . . + xnyn= z, y1+ . . . + yn= 1 und y1 . . . , yn 0.

    Dann isty = (y1, . . . , yn) nichtnegative Losung des obigen linearen Gleichungs-systems mit d + 1 Zeilen. Also existiert auch eine entsprechende Basislosung y .y hat als Basislosung hochstensd+ 1 Komponentenyj= 0und liefert somit diegewunschte Konvexkombination furz.

    UBUNG2.1. Zeigen Sie anhand eines Beispiels, dass eine

    Verbesserung der

    Behauptung des Satzes 2.8 von

    d + 1 auf

    d im allgemeinen nichtmoglich ist.

    KOROLLAR2.3. Sei X Rd eine beliebige nichtleere Menge von Vektorenundz cone(X). Dann lasst sichz als Kegelkombination von hochstensdVektoren ausXdarstellen.

    Beweis. Ubung.

  • 5/28/2018 Skriptum-OR2011

    42/116

    KAPITEL 3

    Optimalitatsbedingugen

    Wir betrachten ein mathematisches Optimierungsproblem der Form

    (15) minxS

    f(x)

    und nehmen an:

    Es gibt eine offene TeilmengeF Rn

    , die den Zulassigkeitsbe-reichS enthalt, und f :F R ist eine stetig differenzierbareFunktion.

    Ein Vektor d Rn der Lange d = 1heisstzulassige Richtungzum Punktx S, wenn es ein >0 gibt derart, dass

    x + td S fur alle0 t .1. Notwendige Bedingung

    SATZ 3.1. Seid eine zulassige Richtung zuxSderart, dass f(x)d0 mit der Eigenschaft

    y= x + td S und f(y)< f(x).Insbesondere istx keine Optimallosung des Optimierungsproblems (15).

    Beweis. Sei > 0 so, dass[x,x+d] Sgilt, undfd : [0, ] R definiertdurch

    fd(t) :=f(x + td) mit Ableitung fd(0) = f(x)d.

    Nach Voraussetzung haben wir fd(0) < 0. Somit istt0 = 0keine Optimallosungfur das Problem

    min0t

    fd(t).

    Anders ausgedruckt: Es gibt einy = x + td

    [x,x + d]mit der Eigenschaft

    f(y) =fd(t)< fd(0) =f(x).

    KOROLLAR3.1. Seix Seine Optimallosung des Problems (15). Danngilt notwendigerweise

    f(x)d 0 f ur alle zul assigen Richtungend zu x.

    41

  • 5/28/2018 Skriptum-OR2011

    43/116

    42 3. OPTIMALITATSBEDINGUGEN

    1.1. Gradientenverfahren. Satz 3.1 liefert die Motivation fur sog. Gra-

    dientenverfahrenin der mathematischen Optimierung. Dabei versucht man,

    das Problem (15) nach folgendem Muster zu losen:

    (1) Man bestimme (so man kann) ein Startelementx0 S.(2) Man bestimme (so man kann) eine zulassige Richtungd Rn mit

    f(x0)d< 0.(3) Man suche einx1 Sder Formx1=x0+ tdmit der Eigenschaft

    f(x1)< f(x0).(4) Nun verfahrt man mitx1wie eben mit x0.

    (5) Man wiederholt (so man kann) diese Prozedur so lange, bis man

    einxk Smit einem guten Wertf(xk)gefunden hat.

    In dieser Allgemeinheit kann man vorab keinerlei mathematische Garan-tie abgeben, dass ein Gradientenverfahren funktioniert. Dennoch zeigt die

    Erfahrung, dass Gradientenverfahren (oder Verfahren, die nach einem ahn-

    lichen Muster gestrickt sind) in der Praxis oft ganz passable Ergebnisse

    produzieren konnen.

    Wenn einem im konkreten Fall sonst nichts besseres einfallt, sollte man des-

    halb durchaus auch Gradientenverfahren fur eine praktische Problemlosung

    in Erwagung ziehen.

    BEMERKUNG. Die Vorlesung wird auf eine weitere Detaildiskussion moglicher

    Implementationen von Gradientenverfahren und deren Varianten nicht eingehen

    konnen.

    1.2. Hinreichende Bedingungen und Konvexitat. Wir geben nun ei-

    ne Klasse von Zielfunktionen an, bei denen die fur Optimalitat notwendige

    Bedingung aus Korollar 3.1 auch hinreichend ist.

    Die (nach wie vor als stetig differenziebar vorausgesetzte) Zielfunktion f :F R heisstS-konvex(oder einfach konvex, wenn der Kontext klar ist),wenn gilt:

    (i) Sist eine konvexe Menge.(ii) f(y) f(x) f(x)(y x) x, y S.

    SATZ3.2. Es sei die Zielfunktionfdes Optimierungsproblems (15) konvexundx Sein beliebiger Punkt. Dann sind die beiden Aussagen aquiva-lent:

    (i) x ist eine Optimallosung.

    (ii) Es giltf(x)d 0f ur alle zulassigen Richtungend.

  • 5/28/2018 Skriptum-OR2011

    44/116

    1. NOTWENDIGE BEDINGUNG 43

    BEISPIEL3.1. Sei S= Rn undx Sbeliebig. Dann ist jeder Einheitsvek-tor (und seine Negation) eine zulassige Richtung. In diesem Fall reduziert

    sich (ii) in Satz 3.2 auf die Eigenschaft

    f(x) =0T d.h. f(x)

    xj= 0 (j = 1, . . . , n).

    Als Beispiel fur Konvexitat sei eine symmetrische MatrixARnn gege-ben. Wir betrachten die quadratische Funktion

    f(x) = xTAx

    uber dem Definitionsbereich F= Rn. Schreiben wir y= x +d, dann lautetdie Konvexitatsbedingung

    dT

    Ad + 2xT

    Ad = f(x + d) f(x) f(x)d= 2xT

    Ad.Also istf(x) = xTAxgenau dann konvex, wenn gilt

    dTAd 0 fur alled Rn.M.a.W.:fist genau dann Rn-konvex, wennA positiv semidefinit ist.

    UBUNG3.1. Man zeige:

    (1) Jede konstante oder lineare Funktionf : Rn R ist konvex.(2) Seip Rn fest undf(x) = x p2. Dann istf konvex.(3) Seienf , g :F R konvex und, 0beliebige nichtnegative

    Skalare. Dann isth := f+ gkonvex.

    UBUNG3.2. Seiena < breelle Zahlen undf : (a, b)R stetig differen-zierbar. Man zeige die Aquivalenz der Aussagen

    (1) fist konvex.(2) Die Ableitungsfunktionf ist monoton wachsend auf(a, b).

    1.2.1. Das Regressionsproblem. Als Beispiel betrachten wir den fol-

    genden Aufgabentyp:

    Man sucht die

    beste Losung des linearen Gleichungssystems

    Ax= b

    nach dem Kriterium minimaler Fehlerquadrate.

    Das soll heissen: Man sucht eine Losung des Problems

    minxRn

    b Ax2 =bTb 2bTAx + xTATAx.Setzen wircT = bTAundQ = ATA, dann ist das Problemaquivalent mit

    minxRn

    f(x) =1

    2xTQx cTx.

  • 5/28/2018 Skriptum-OR2011

    45/116

    44 3. OPTIMALITATSBEDINGUGEN

    Q= ATAist positiv semidefinit und folglichfkonvex. Also finden wir:

    x

    Rn

    lost das Regressionsproblem genau dann, wenn gilt:

    Qx= c bzw. ATAx= ATb.

    Das Regressionsproblem reduziert sich also auf das Losen des linearen

    Gleichungssystems Qx= c.

    BEISPIEL3.2 (Interpolation). Seien von der Funktion f : R Rnur dieWerteyi = f(tj) bei den Stutzstellent1, . . . , tn bekannt. Man sucht eineLinearkombination

    f(t) =mi=1

    aifi(t)

    von gegebenen Funktionen f1(t), . . . , f m(t), die f an den St utzstellen tjbestmoglich interpoliert. D.h. man will die beste Losung a1, . . . , am desfolgenden linearen Gleichungssystems (in den Unbekanntena1, . . . , am):

    a1f1(t1) + a2f2(t1) + . . . + amfm(t1) = y1a1f1(t2) + a2f2(t2) + . . . + amfm(t2) = y2

    ... ...

    ... ...

    a1f1(tn) + a2f2(tn) + . . . + amfm(tn) = yn

    Im Fall{f1(t), f2(t)} ={1, t} spricht man von linearer Regression undnennt

    f(t) = a1+ a2t

    dieRegressionsgerade. Im Fall {f1(t), f2(t), f3(t)} ={1, t , t2} erhalt mandasquadratische Regressionspolynom

    f(t) = a1+ a2t + a3t2.

    BEISPIEL3.3 (Fourier-Interpolation). Seif : [0, L] R eine periodischeFunktion mitf(0) = f(L). Dann bietet sich eine Interpolation vonf mitz.B. folgenden Baukasten von Funktionen an:

    F = {cos(kt), sin(kt) | k = 0, . . . , m} (mit := 2/L).

  • 5/28/2018 Skriptum-OR2011

    46/116

    1. NOTWENDIGE BEDINGUNG 45

    1.2.2. Allgemeine konvexe Funktionen. Eine moglicherweise nicht dif-

    ferenzierbare Funktion

    F R heisstkonvex, wenn gilt:

    (1)F Rn ist eine konvexe Menge.(2) Fur beliebige Punktex, y Fund Skalare0 1gilt:

    f(x + (y x)) f(x) + (f(y) f(x)).

    UBUNG3.3 (Epigraph). Sei F Rn undf :F R. DerEpigraphvonfist definiert als die Menge

    epi(f) := {(z, x) | x F, z f(x)}.MAN ZEIGE: Eine Funktionf ist konvex genau dann, wenn ihr Epigraphepi(f)eine konvexe Menge ist.

    Man demonstriere ausserdem anhand eines Beispiels, dass die analoge Aus-

    sage bzgl. des Graphen vonffalsch sein kann.

    Man macht sich leicht klar, dass eine stetig differenzierbare konvexe Funk-

    tionfauch konvex im Sinne der allgemeinen Definition ist. Denn es giltdann fur den Punktz = x + (y x) =y + (1 )(x y):

    f(x) f(z) f(z)(x z) = f(z)(x y)f(y) f(z) f(z)(y z) = (1 )f(z)(x y)

    Multipizieren wir die erste Ungleichung mit(1

    )und die zweite mit,

    dann ergibt deren Addition:

    (1 )f(x) + f(y) f(z) 0d.h. die Eigenschaft (2) der Konvexitat in der allgemeinen Definition.

    1.3. Lineare Nebenbedingungen. Wir nehmen nun an, dass der Zulassig-

    keitsbereichSdurch lineare Ungleichungen beschrieben ist:

    S=P(A, b) = {x Rn | Ax b},wobei A= [aij] Rmn und b= (b1, . . . , bm)T Rm. Sei x Sein festerPunkt. Wir betrachten die Menge aller Ungleichungen, die unter x scharf

    sind: J(x) := {i {1, . . . , m} | ai1x1+ . . . + ainxn=bi}.Ax bsei das Teilsystem vonAx b, das genau aus den Ungleichungenmit Index i J(x) besteht. Nun ergibt d= 0 offenbar genau dann einezulassige Richtung, wenn

    Ad 0.Nach dem Farkaslemmauber implizierte Ungleichungen sind folgende Aus-

    sagen gleichwertig:

  • 5/28/2018 Skriptum-OR2011

    47/116

    46 3. OPTIMALITATSBEDINGUGEN

    (a)f(x)d 0ist vonAd 0impliziert.(b) Es gibty

    0T

    derart, dassyTA=

    f(x).

    SATZ3.3. Ist der Punktx P(A, b)ist eine Optimallosung des Problemsmin f(x) s.d. Ax b,

    dann gibt es notwendigerweise ein y 0mit der Eigenschaftf(x) + yTA= 0T.

    KOROLLAR3.2. Seifkonvex undx P(A, b). Dann sindaquivalent:(i) Der Punktx ist eine Optimallosung des Problems

    min f(x) s.d. Ax b,(ii) Es gibt einy RJ(x) mit der Eigenschaft

    y 0 und f(x) + yTA= 0T.

    2. Strafmethoden und Lagrangefunktion

    Wir betrachten ein Optimierungsproblem mit m expliziten Nebenbedingun-gen:

    (16) min f(x) s.d. g1(x) 0, . . . , gm(x) 0,wobeif, g1, . . . , gm: R

    n R.Die Idee ist nun, daraus ein Optimierungsproblemohneexplizite Nebenbe-

    dingungen zu machen. Um dennoch (hoffentlich) den Nebenbedingungen

    zu genugen, werden der Zielfunktion Terme zugefugt, welche die Zielfunk-tion verschlechtern (

    bestrafen), wenn die Nebenbedingungen nicht einge-

    halten werden. Dazu gibt es verschiedene Moglichkeiten.

    BEISPIEL3.4. Wir betrachten einen Strafparameter >0und das Problem

    minxRn

    f(x) =f(x) + mi=1

    max{0, gi(x)}.

  • 5/28/2018 Skriptum-OR2011

    48/116

    2. STRAFMETHODEN UND LAGRANGEFUNKTION 47

    NOTA BEN E: Es ist keinesfalls immer garantiert, dass eine Optimallosung des

    modifizierten Problems auch eine Optimallosung des Ausgangsproblems darstellt!

    Klassisch ist die sog. Lagrangefunktion, die dem Optimierungsproblem

    (16) folgendermassen zugeordnet wird:

    (17)

    L(x, y) :=f(x) + yTg(x) =f(x) +mi=1

    yigi(x) (x Rn, y Rm+ ).

    2.1. Sattelpunkte und KKT-Bedingungen. Sei L :X Y R einebeliebige reellwertige Funktion. Ein Punktepaar (x, y) X Y ist einSattelpunktvon L, wenn fur allex Xundy Y gilt:(18)

    L(x, y)

    L(x, y)

    L(x, y).

    Uns interessieren hier vor allem Sattelpunkte von Lagrangefunktionen, die

    sich aus Optimierungsproblemen ergeben.

    LEMMA 3.1. Ist(x, y) ein Sattelpunkt der Lagrangefunktion L des Pro-blems (16), dann istx eine zulassige Losung und es gilt

    L(x, y) =f(x) = ming(x)0

    f(x).

    Beweis. gi(x)> 0 ist unmoglich, da sonst die Sattelpunkteigenschaft

    supy0

    f(x) + yTg(x) f(x) + yTg(x) < verletzt ware. Also istx eine zulassige Losung. Gleichermassen finden wir

    yTg(x) =mi=1

    yjgi(x) = 0

    und folgern

    f(x) =L(x,y) L(x,y) =f(x) x Rn.

    Ein Sattelpunkt(x, y)(sofern er existiert) muss also die Lagrangefunktion

    L(x, y)in denx-Komponenten minimieren, d.h., es muss gelten

    0T = xL(x, y) = f(x) +mi=1

    yigi(x).

    Ausserdem muss die im Beweis festgestellte Eigenschaft des komplement aren

    Schlupfs erfullt sein:

    (19) yTg(x) = 0 bzw. yi > 0 = gi(x) = 0 (i= 1, . . . , m) .

  • 5/28/2018 Skriptum-OR2011

    49/116

    48 3. OPTIMALITATSBEDINGUGEN

    Daraus ergeben sich die sog.KKT-Bedingungen1:

    (20)

    g(x)

    0

    f(x) + yTg(x) = 0TyTg(x) = 0

    y 0.Eine Losung(x, y)der KKT-Bedingungen heisstKKT-Punkt.

    VORSICHT: Eine Losung der KKT-Bedingungen ergibt nicht notwendigerweise

    einen Sattelpunkt. Ausserdem sind die KKT-Bedingungen im allgemeinen weder

    notwendig noch hinreichend fur Optimalitat. In der Praxis erhalt man aber aus

    KKT-Punkten oft recht gute Losungen.

    2.2. Lineare Nebenbedingungen. Setzen wir g(

    x) := A

    x

    b, dann

    ist die Optimierungsaufgabe

    (21) minxRn

    f(x) s.d. Ax b(mitA Rmn, c Rn, b Rm) das Problem

    minxRn

    f(x) s.d. g(x) 0.ist das lineare Programm gleichwertig mit der Aufgabe

    minxRn

    f(x) s.d. g(x) 0.Die KKT-Bedingungen sind:

    Ax bf(x) + yTA = 0T

    yT(Ax b) = 0y 0.

    SATZ 3.4. Ein PunktxP(A, b)erf ullt die notwendigen Optimalit atsbe-dingungen f ur (21) genau dann, wenn es ein y0gibt derart, dass(x, y)ein KKT-Punkt ist.

    Beweis. WennxP(A,b)die Optimalitatsbedingungen erfullt, so gibt es einenVektor y RJ(x)+ mit der Eigenschaft

    f(x) + yTA = 0T.Wobei A die J(x)entsprechende Zeilenteilmatrix von A ist. Wir setzen y zu einemVektor in Rm+ fort vermoge

    yi := 0 fur allei / J(x).1nach Karush, Kuhn und Tucker

  • 5/28/2018 Skriptum-OR2011

    50/116

    2. STRAFMETHODEN UND LAGRANGEFUNKTION 49

    Man sieht leicht(?), dass(x,y)nun ein KKT-Punkt ist.

    Ist umgekehrt(x,y)ein KKT-Punkt, dann folgt aus den komplementaren Schlupf:

    yi > 0 = i J(x).bzw.

    yi = 0 fur allei / J(x).Also haben wir (mit aTi als den Zeilenvektoren vonA)

    f(x) = yTA=mi=1

    yiaTi =

    iJ(x)

    yiaTi

    und erkennen, dass die notwendige Optimalitatsbedingung aus Satz 3.3 erfullt ist.

    KOROLLAR3.3. Seif : P(A, b) Rkonvex. Genau dann ist der PunktxP(A, b)optimal f ur das Problem (21), wenn es einy gibt derart, dass(x, y)ein KKT-Punkt ist.

    Korollar 3.3 hat eine wichtige Konsequenz. Im Prinzip kann man ein konve-

    xes Minimierungsproblem mit linearen Nebenbedingungen folgendermas-

    sen losen:

    (i) Formuliere die KKT-Bedingungen.

    (ii) Berechne einen KKT-Punkt.

    2.3. Ein paar Anwendungen. Als Illustration und Anwendung der KKT-Bedingungen leiten wir ein paar (auch in der Physik und Informationstheo-

    rie wichtige) Aussagen ab.

    2.3.1. Entropie. Wir betrachten das Polytop

    n:= {x Rn+| x1+ . . . + xn= 1}aller n-dimensionalen Wahrscheinlichkeitsverteilungen. Einem x nordnet man die Entropie (als Masszahl fur den Ordnungszustand bzw. den

    Informationsgehalt)

    H(x1, . . . , xn) := n

    j=1 xjln xj

    zu (mitxjln xj := 0wennxj = 0). Um abzuschatzen, wie gross die Entro-pie werden kann, betrachten wir das Optimierungsproblem

    minx>0

    H(x) s.d. x1+ . . . + xn= 1.Die Funktionf(x) = H(x)ist konvex (Beweis?) auf der Menge

    >n = {x n| x> 0}.

  • 5/28/2018 Skriptum-OR2011

    51/116

    50 3. OPTIMALITATSBEDINGUGEN

    Die zugehorige Lagrangefunktion ist

    L(x, y) =

    nj=1

    xjln xj+ y yn

    j=1

    xj (x> 0, y R)

    und ergibt z.B. die KKT-Bedingung

    L(x, y)

    xj= 1 + ln xj y = 0 (j = 1, . . . , n).

    Die Komponenten einer Optimallosung x mussen also alle den gleichen

    Wert

    xj =ey1

    annehmen. Wegen jxj = 1 ergibt sich x

    = (1/ n , . . . , 1/n) und die

    maximale Entropie alsH(1/ n , . . . , 1/n) = ln n.

    BEMERKUNG.In der Informationstheorie definiert man die Entropie gewohnlich

    uber den Logarithmus zur Basis2(d.h.log2 x anstelle des naturlichen Logarithmus

    ln x).

    2.3.2. Boltzmann-Verteilungen. Seien A1, . . . , Ansich gegenseitig aus-schliessende Ereignisse, von denen eines garantiert mit einer gewissen Wahr-

    scheinlichkeit eintritt. Wir nehmen an, dass uns der Eintritt von Aj durcheine BeobachtungsvariableXsignalisiert wird, die dann den Wert

    X(Aj) =wj (j = 1, . . . , n)annimmt. WennAj mit der Wahrscheinlichkeitxj = Pr(Aj)eintritt, ist derErwartungswertvonX:

    (22) E(X) =n

    j=1

    wjPr(Aj) =w1x1+ . . . wnxn.

    Wir fragen: Welche ist unter allen Wahrscheinlichkeiten x n mit demvorgegebenen Erwartungswertw= E(X) diejenige mit der gr ossten Entro-pie?

    Die Frage fuhrt uns auf das konvexe Optimierungsproblem

    minx>0

    H(x) s.d.

    x1 + . . . + xn = 1w1x1 + . . . + wnxn = w

    und die KKT-Bedingungen

    1 + ln xj = y1+ y2wj (j= 1, . . . , n)

    und somit (im optimalen Fall)

    xj =e(y11)+y2wj =ey11 ewj =K ewj

  • 5/28/2018 Skriptum-OR2011

    52/116

    2. STRAFMETHODEN UND LAGRANGEFUNKTION 51

    mit = y2 undK = ey11. Da es sich bei x um eine Wahrscheinlich-

    keitsverteilung handelt, ergibt sich die KonstanteK folgendermassen:

    1 =n

    j=1

    xj =K

    nj=1

    ewj = K = 1je

    wj.

    Also finden wir die Form einer sog. Boltzmann-Verteilung:

    (23) xj =Kewj (j= 1, . . . , n).

    BEMERKUNG.Man kann zeigen, dass sich die Konstante eindeutig aus der Er-wartungswertbedingung

    w= K

    n

    j=1

    wjewj

    ergibt. In der Physik geht in die Masszahl die TemperaturT eines durch eine

    Boltzmannverteilung beschriebenen Systems ein (T 1/). Die Parameter wjentsprechen moglichen Energiezustanden des Systems.

    2.3.3. Simulated Annealing. Boltzmannverteilungen lassen sich auf dem

    Computer leicht simulieren. Aus diesem Umstand kann man Algorithmen

    fur diskrete Optimierungsprobleme gewinnen, die in der Praxis oft gute Er-

    folge zeigen (s. Ubung 3.4). Solche Algorithmen sind unter dem Begriff

    Simulated Annealingbekannt.

    UBUNG3.4. Es seien die numerischen Parameterw1, . . . , wn R gegeben.Dann ist der Boltzmann-Erwartungswert zur

    TemperaturT= 1/:

    b() =K

    nj=1

    wjewj .

    MAN ZEIGE: lim

    b() = max{w1, . . . , wn} .

    2.4. Lineare Programme. Generell ist einlineares Programm(LP)

    ein mathematisches Optimierungsproblem mit endlich vielen Nebebedin-

    gungen derart, dass(1) die Zielfunktion linear ist und

    (2) die Nebenbedingungen lineare Gleichungen oder Ungleichungen

    sind.

    Zum Beispiel ist das folgende Problem ein lineares Programm:

    (24) maxxRn

    cTx s.d. Ax b

  • 5/28/2018 Skriptum-OR2011

    53/116

    52 3. OPTIMALITATSBEDINGUGEN

    (mit A Rmn, c Rn, b Rm). Dieses LP ist gleichwertig mit demkonvexen Minimierungsproblem

    minxRn

    f(x) s.d. Ax b.Die KKT-Bedingungen lauten:

    Ax bATy = c ( cT + yTA= 0T)

    cTx bTy = 0 (denn:(yTA)x yTb= 0)y 0.

    SATZ 3.5. Genau dann istx Rn

    eine Optimallosung des linearen Pro-gramms (24), wenn es ein y gibt derart, dass(x, y)ein KKT-Punkt ist.

    Man bemerke, dass im Fall linearer Programme die KKT-Bedingungen auf

    ein endliches System linearer Ungleichungen (in den Unbekannten x und

    y) fuhren. ALSO:

    Lineare Programme k onnen im Prinzip mit dem Fourier-Motzkin-Verfahren gelost werden.

    BEMERKUNGEN:

    (1) Das FM-Verfahren ist nicht das effizienteste Verfahren zum Losen

    von linearen Programmen. (Geschicktere Methoden werden spater

    diskutiert werden.)

    (2) Im allgemeinen fuhren KKT-Bedingungennicht(!) auf lineare Un-

    gleichungssysteme. KKT-Punkte sind deshalb typischerweise nicht

    einfach zu berechnen.

    BEISPIEL 3.5. Der kurzeste Vektor in einem PolyederP(A, b) sei zu be-rechnen. Das entsprechende Optimierungsproblem

    min f(x) = x2 s.d. Ax bf uhrt auf die (wegenxTx=

    jx

    2j quadratischen) KKT-Bedingungen

    Ax bxT + yTAT = 0T

    xTx + yTb = 0

    y 0.

  • 5/28/2018 Skriptum-OR2011

    54/116

    2. STRAFMETHODEN UND LAGRANGEFUNKTION 53

    2.5. Das Newton-Verfahren. SeiF Rk und F :F R einebeliebige Funktion. Man betrachtet das Nullstellenproblem

    (25) F(x) =0 (x F).

    BEISPIEL3.6. Die KKT-Bedingungen f uhren z.B. auf folgendes Nullstellen-

    problem (in den Unbekannten(x, y)):

    f(x) + yTg(x) = 0TyTg(x) = 0

    (x, y) F.mit

    F=

    {(x, y)

    Rn+m

    |g(x)

    0, y

    0

    }.

    Newtons Methode versucht, das Nullstellenproblem (25) iterativ zu losen.

    Dabei beginnt man bei einem Startpunkt x0 F(den man irgendwie zukonstruieren hat) und stoppt im Fall F(x0) = 0. Andernfalls sucht mannach einem Losungskandidaten xfur die Gleichung

    F(x0+ x) =0 und x0+ x F.Den bestimmt man dadurch, dass man das Gleichungssystem linear rela-

    xiert. D.h. man wahlt eine MatrixA0in der Hoffnung

    F(x0+ h) F(x0) + A0hund lost das linearisierte System

    F(x0) + A0h= 0 bzw. A0h= F(x0).Isth0 eine solche Losung, so setzt manx1 = x0+ h0und verfahrt nun mitx1genauso wie eben mitx0usw.

    Auf diese Weise erzeugt man eine Folge x0, x1, . . . von Vektoren. Manstoppt in IterationK, wenn

    F(xK) 0 und xK F.

    BEMERKUNG.Obwohl man im allgemeinen (ohne starke Zusatzannahmen) kei-

    ne Konvergenzgarantie geben kann, funktioniert die Methode in der Praxis uberra-

    schend gut.

    BEISPIEL3.7. Seif(x) =x2 2 = 0in der Variablenx R zu l osen. DieWahlAk =f

    (xk)ergibt

    hk=x2k+ 2

    2xkund xk+1=xk+ hk =

    xk2

    + 1

    xk.

  • 5/28/2018 Skriptum-OR2011

    55/116

    54 3. OPTIMALITATSBEDINGUGEN

    2.6. Nichtlineare Nebenbedingungen. Bei allgemeinen Optimierungs-

    problemen der Form

    min f(x) s.d. g(x) 0sind die KKT-Bedingungen weder notwendig noch hinreichend fur Opti-

    malitat. Trotzdem stellt man fest, dass KKT-Punkte oft (erstaunlich?) gute

    Losungen ergeben. Viele algorithmische Verfahren der nichtlinearen Opti-

    mierung sind nach dem Prinzip konstruiert, dass sie versuchen, KKT-Punkte

    aufzuspuren2.

    3. Lagrange-Dualitat

    SeiL : X Y R eine beliebige Funktion. Dann gilt fur jedes Paar(x, y)

    X

    Y immer

    minx

    L(x, y) L(x, y) maxy

    L(x, y)und damit allgemein die sog.schwache Dualitatsrelation

    (26) maxy

    minx

    L(x, y) minx

    maxy

    L(x, y).Genau wenn (x, y) ein Sattelpunkt von L ist, wird Gleichheit und somitstarke Dualitaterreicht:

    (27) maxy

    minx

    L(x, y) = L(x, y) = minx

    maxy

    L(x, y).

    Die Suche nach einem Sattelpunkt ergibt unter diesem Aspekt zwei Teil-probleme:

    PRIMALES P ROBLEM:

    (28) minx

    L1(x) mit L1(x) := maxy

    L(x, y)

    DUALESP ROBLEM:

    (29) maxy

    L2(y) mit L2(y) := minx

    L(x, y)

    In diesem Zusammenhang bedeutet die schwache Dualitat:

    L2(y) L(x, y) L1(x)Also ist(x, y)genau dann ein Sattelpunkt, wenn gilt:

    L2(y) = L(x, y) = L1(x)

    2Die Vorlesung hat leider nicht die Zeit, tief in die nichtlineare Optimierung

    einzusteigen.

  • 5/28/2018 Skriptum-OR2011

    56/116

    3. LAGRANGE-DUALITAT 55

    LEMMA3.2. IstL die Lagrangefunktion des Optimierungsproblems

    min f(x) s.d. g1(x)

    0, . . . , g

    m(x)

    0,

    dann ist das primale Langrangeproblemaquivalent zum Optimierungspro-

    blem.

    Beweis. SeiS= {x Rn | gi(x) 0, i= 1, . . . , m}. Es gilt

    L1(x) = maxy

    f(x) +mi=1

    yigi(x) (y 0).

    also haben wir

    L1(x) =

    + wennx / Sf(x) wennx S.

    Also ist die Aufgabe, L1

    (x) zu minimieren, gleichbedeutend mit der Aufgabe,f(x) uberSzu minimieren.

    Das duale Lagrangeproblem ist im allgemeinen jedoch nichtaquivalent zum

    ursprunglichen Optimierungsproblem. Seine Bedeutung fur die Optimie-

    rung liegt in der folgenden Eigenschaft3:

    Eine Losung des dualen Lagrangeproblems ergibt eine Untergren-ze fur den zu erwartenden Zielfunktionswert des ursprunglichen

    Optimierungsproblems.

    3.1. Dualitat linearer Programme. Wir betrachten jetzt ein lineares

    Programm in der sog.Normalform(30) min

    x0cTx s.d. Ax= b.

    Die zugehorige Lagrangefunktion ist nun

    L(x, y) =cTx + yT(b Ax) = yTb + (cT yTA)xfurx Rn+und y Rm.BEMERKUNG. Man beachte, dass in dieser Formulierungs des LPs die

    dualen

    Variablen y wegen der Gleichheitsrestriktionen bAx = 0 im Vorzeichennicht beschrankt sind.

    Die duale Lagrangefunktion ist

    L2(y) = minx0

    bTy+ (cT yTA)x= wenn(cT yTA) 0T

    yTb wenn(cT yTA) 0TDas duale Lagrangeproblem kann im vorliegenden Fall also so formuliert

    werden:

    (31) max bTy s.d. ATy c.3welche aus der schwachen Dualitat folgt!

  • 5/28/2018 Skriptum-OR2011

    57/116

    56 3. OPTIMALITATSBEDINGUGEN

    MAN SIEHT: Das duale Problem ist wieder ein lineares Programm. Wir

    nennen es das zu (30)dualelineare Programm.

    Schwache Dualitat impliziert fur jede zulassige Losung x von (30) und

    zulassige Losungy von (31):

    bTy cTx.(x, y)ist ein KKT-Punkt fur (30) (bzw. fur (31)), wenn gilt:

    (1) xist eine zulassige Losung von (30).

    (2) yist eine zulassige Losung von (31).

    (3) Die Zielfunktionswerte sind gleich:bTy= cTx.

    Insbesondere finden wir bei linearen Programmen:

    Ein KKT-Punkt lost immer zwei lineare Programme gleichzeitig

    (namlich das primale und das duale).

    3.2. Der Hauptsatz der linearen Programmierung.

    SATZ3.6 (

    Hauptsatz der linearen Programmierung). Fur das lineare Pro-

    gramm (30) (bzw. sein duales (31)) Gilt genau eine der drei Aussagen:

    (1) Es existiert keine zul assige Losung.

    (2) Es existieren zul assige Losungen mit beliebig gutem Zielfunktions-

    wert.

    (3) Es existiert (mindestens) ein KKT-Punkt(x, y)(und somit optima-le Losungen von (30) und (31) mit demselben Zielfunktionswert.

    Beweis. Wir betrachten die Aussagen von der dualen Seite und setzen

    S:= {yRm | ATy c} =P(AT, c).Im Fall des Stutzfunktonswerts (S, c) = gilt S = (d.h. Aussage 1 bzgl.(31)).(S, c) = + entspricht Aussage 2.(S,y)< bedeutet im FallS= , dass (31) eine Optimallosungy besitzt. Ausden KKT-Bedingung wissen wir, dass dann auch eine Optimallosungx von (30)

    existiert und(x,y)ein KKT-Punkt ist.

    KOROLLAR3.4. Das lineare Programm (30) (bzw. das lineare Programm(31)) besitzt eine Optimallosung genau dann, wenn sowohl (30) als auch

    (31) zulassige Losungen besitzen.

    Beweis. Die eine Richtung ist klar (welche?). Wir zeigen die andere Richtung der

    Aquivalenzbehauptung. Seien x und y entsprechende zulassige Losungen. Dann

    ist die Aussage 1 des Hauptsatzes unzutreffend. Nach der schwachen Dualitat gilt

    ausserdem

    cTx bTy.

  • 5/28/2018 Skriptum-OR2011

    58/116

    4. BARRIEREMETHODEN 57

    Die primale Zielfunktion ist also von unten und die duale Zielfunktion von oben

    beschrankt. Damit scheidet auch Aussage 2 aus. Aussage 3 ergibt die Behauptung.

    4. Barrieremethoden

    Eine weitere Idee, ein OptimierungsproblemmitNebenbedingungen auf ein

    Optimierungsproblem ohne Nebenbedingungen zuruckzufuhren, besteht da-

    rin, durch eine Modifikation der Zielfunktion eine

    Barriere zu errichten,

    der einen etwaigen Losungsalgorithmus daran hindern wurde,uber den Zu-

    lassigkeitsbereich hinauszutreten.

    Dazu gibt es verschiedene Ansatze. In dieser Vorlesung konzentrieren wir

    uns auf eine Methode, die sich vor allem in der linearen Programmierungbewahrt hat.

    4.1. Die Frisch-Funktion. Wir betrachten ein Optimierungsproblem

    der Form

    minx0

    f(x) s.d. Ax= b

    mitA Rmn undb Rm.Die zugeordneteFrisch-Funktionist die Funktion

    (32) f(x) =f(x) mi=1

    ln xi,

    mit einem frei zu wahlenden Parameter >0. Tatsachlich istf(x)nur fursolche x definiert, die in jederKomponentexi strikt positiv sind. Je mehrsichx dem Rand des Gebietes

    Rn+= {x Rn | x 0}nahert,

    explodiert f(x) gegen +. Ein Algorithmus, der f(x) mini-

    mieren will, wird sich also tunlichst im (strikten) Inneren von Rn+aufhalten

    wollen.

    Wir betrachten nun das Optimierungsproblem

    minx>0

    f(x) s.d. Ax= b

    mit der Lagrangefunktion

    L(x, y) =f(x) + yT(b Ax) (x> 0, y Rm+).

  • 5/28/2018 Skriptum-OR2011

    59/116

    58 3. OPTIMALITATSBEDINGUGEN

    Die KKT-Bedingungen sind (weil wir im strikten Inneren von Rn+optimie-

    ren):

    f(x)

    xj

    xj

    mi=1

    yiaij = 0 (j= 1, . . . , n)

    Ax = b

    x > 0.

    4.2. Lineare Zielfunktionen. Das lineare Programm

    minx0

    cTx s.d. Ax= b

    ergibt nach dem Ansatz von Frisch das Problem

    (33) minx>0

    cTx mi=1

    ln xi s.d. Ax= b

    Das Problem (36) ist nicht mehr linear aber immer noch zumindest kon-

    vex. Die KKT-Bedingungen kann man dann so schreiben:

    (cjmi=1

    yiaij)xj = (j = 1, . . . , n)

    Ax = b

    x > 0.

    Setzen wir weiter sT

    := cT

    yT

    A zur Abkurzung, so erhalten wir dieKKT-Form

    sjxj = (j = 1, . . . , n)

    s + ATy = c

    Ax = b

    s, x > 0.

    Sei(x, y, s)ein KKT-Punkt. Dann gilt (Beweis?):

    (i) x ist eine zulassige Losung des ursprunglichen linearen Programms.

    (ii) yist eine zulassige Losung des dazu dualen linearen Programms.

    Wie weit weichtcTxvom erzielbaren OptimalwertcTx hochstens ab?

    Die schwache Dualitat liefert folgende Abschatzung:

    0 cTx cTx cTx yTb= sTx= n.Bei einem kleinen 0ware alsox eine schon fast optimale Losung!

  • 5/28/2018 Skriptum-OR2011

    60/116

    KAPITEL 4

    Methoden der Linearen Programmierung

    Wir betrachten ein lineares Programm in Normalform:

    (34) min cTx s.d. Ax= b, x 0.Dabei istA Rmn eine geeignete Koeffizientenmatrix und c Rn undb R

    m

    sind geeignete Parametervektoren, die als bekannt vorausgesetztwerden.

    MAN BEACHTE: Jedes lineare Programm ist aquivalent zu einem LP in

    Normalform, wenn wir zusatzliche nichtnegative Variablen einfuhren. Zum

    Beispiel haben wir

    maxxS

    cTx minxS

    (cT)xmi=1

    aijxj bi zi+mi=1

    aijxj =bi, zi 0.

    Eine im Vorzeichen nicht beschrankte Variablexj kann durch die Differenzvon zwei nichtnegativen Variablenx+j, x

    j ersetzt werden:

    xj =x+j xj , x+j 0, xj 0.

    1. Rationale lineare Programme

    Ein lineares Programm heisstrational, wenn es mit ausschliesslich rationa-

    len Parametern ausgedruckt werden kann:

    minx0

    cTx s.d. Ax= b, A Qmn, c Qn, b Qm.

    Wenn wir die Restriktionsgleichungen und die Zielfunktion mit naturlichenZahlen multiplizieren, erhalten wir einaquivalentes lineares Programm mit

    demselben Losungsbereich. Deshalb durfen wir oBdA annehmen, dass ein

    rationales LP in Normalform mit ganzzahligen Parametern vorliegt:

    minx0

    cTx s.d. Ax= b, A Zmn, c Zn, b Zm.

    (Andernfalls multiplizieren wir die Restriktionsungleichungen und die Ziel-

    funktion einfach mit geeigneten Hauptnennern durch.)

    59

  • 5/28/2018 Skriptum-OR2011

    61/116

    60 4. METHODEN DER LINEAREN PROGRAMMIERUNG

    In der Anwendungspraxis wird man es immer(!) mit rationalen linearen Pro-

    grammen zu tun haben, da irrationale Zahlen auf dem Computer immer ge-

    rundet werden mussen. Also machen wir furderhin die Annahme:

    Alle von jetzt an betrachteten linearen Programme sind rational.

    Fur die Analyse durfen wir weitherhin oBdA annehmen, dassAvollen Zei-lenrang hat:

    rgA= m.

    (Sonst entfernen wir einfach linear abhangige Gleichungen bis ein linear

    unabhangiges System mit demselben Losungsraum erreicht ist.)

    Im Falln = rgA=m ist das lineare Programmierproblem trivial, da dann

    Ax = b nur eine eindeutig bestimmte Losung x = A1b besitzt. Wirwerden also nur Probleme mit

    m= rgA n 1genauer unter die Lupe nehmen mussen.

    1.1. Komplexitat rationaler linearer Programme. Wir betrachten das

    (rationale) lineare Programm in Normalform

    minx0

    cTx s.d. Ax= b

    mitA = [aij] Zmn,c Zn undb Zm und rgA = m n 1. Wirsetzen

    (A, c, b) := min{k N | |aij|

  • 5/28/2018 Skriptum-OR2011

    62/116

    1. RATIONALE LINEARE PROGRAMME 61

    Beweis. Wir betrachten die Determinatenformel

    |detA| = | m sgn()a1(1) am(m)| m |a1(1) am(m)|wobei m die Menge aller Permuationen der Indexmenge{1, . . . , m} ist. Alsofinden wir (wegenm! mm):

    |detA| < m!(2)m mm2m = 2m(+log2m).DaA ganzzahlig ist, ist auch det(A)eine ganze Zahl. Im Fall det (A)= 0habenwir folglich |det(A)| 1.

    BEMERKUNG.Lemma 4.1 besagt, dass |det(A)| eine

    kleine Zahl ist. Liest man

    sie in Binardarstellung in den Computer ein, hat man nicht mehr als

    log2(1 + |det(A)|) m+ m log2 mStellen zu berucksichtigen.

    1.2. Komplexitat von Basislosungen. Sei z.B. x eine Basislosung. Dann

    existiert eine (m m)-UntermatrixAB mit der EigenschaftABxB =b bzw. xB =A

    1B b.

    Rechnen wir die Komponenten von x nach der Cramerschen Regel aus, so

    ergibt sich

    xj =|det AjB||detAB| fur allej B(x).

    Die ubrigen Komponenten sindxj = 0, wennj N(x). AjB ist dabei dieMatrix, die man ausAB erhalt, wenn man diej-Spalte durchb ersetzt.

    Damit ergibt sich fur die einzelnen Komponentenxj der Basislosungx:

    xj = 0 oder 2m(+log2m) xj 2m(+log2m).

    Die nachste Beobachtung zeigt, dass wir bei rationalen linearen Program-men durchaus mit einer gewissen Fehlertoleranz rechnen durfen.

    LEMMA4.2. Seienx undxbeliebige Basislosungen mit der Eigenschaft

    |cTx cTx| 14m(+log2m)

    Dann giltcTx= cTx.

  • 5/28/2018 Skriptum-OR2011

    63/116

    62 4. METHODEN DER LINEAREN PROGRAMMIERUNG

    Beweis. Es gibt ganze Zahlen c,D,cund Dmit der Eigenschaft

    cTx=

    c

    D und cTx=

    c

    D und |D|, |D| 14m(+log2m) .

    FOLGERUNG Ist x eine Basislosung, deren Zielfunktionswert cTx vom

    optimalen Wertz um hochstens

    cT

    x

    z

    4m(+log2m)

    abweicht,dann mussx schon eine Optimallosung sein!

    Ganz analog sieht man:

    LEMMA4.3. Seix eine beliebige Basislosung. Dann gilt

    |cTx| < 2(m+1)(+log2(m+1)).

    Wegenm + 1

    nerhalten wir somit fur Basislosungenx und deren nicht-

    triviale Komponentenxj= 0die Abschatzungen (im Parametern):

    2n(+log2n) xj 2n(+log2n) und |cTx| < 2n(+log2n)

    2. Die Methode innerer Punkte (IPM)

    Wir betrachten die Aufgabe, ein lineares Gleichungssystem innnichtnega-tiven Unbekanntenxj losen:

    (35) Ax= b, x 0.Zum Beispiel sind ja KKT-Systeme linearer Programme von diesem Typ.Wir nehmen oBdA b= 0 an. (Sonst ware ja x = 0 schon trivialerweiseeine Losung.)

    Wir wissen, dass (35) eine Basislosung gestattet, falls uberhaupt eine Losung

    existiert. Also brauchen wir nur nach Losungen x 0 zu suchen, derenKomponenten beschrankt sind:

    xj 2m(+log2m) (j = 1, . . . , n).

  • 5/28/2018 Skriptum-OR2011

    64/116

    2. DIE METHODE INNERER PUNKTE (IPM) 63

    Somit durfen wir oBdA annehmen, dass der Losungsbereich ein Polytop ist.

    Ansonst wurden wir die Koordinatenbeschrankung einfach in die Problem-

    formulierung (35) mit zusatzlichen Variablen einbauen:

    xj+ zj = 2m(+log2m) , zj 0.

    Wir machen im Folgenden also (oBdA!) die Annahme, dass der zugehorige