ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema...

86
AN ´ ALISE DE CONVERG ˆ ENCIA DOS M ´ ETODOS DE GAUSS-NEWTON DO PONTO DE VISTA DO PRINC ´ IPIO MAJORANTE Max Leandro Nobre Gon¸calves Tese de Doutorado apresentada ao Programa de P´ os-gradua¸c˜ ao em Engenharia de Sistemas e Computa¸c˜ ao, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necess´ arios ` aobten¸c˜ ao do t´ ıtulo de Doutor em Engenharia de Sistemas e Computa¸c˜ ao. Orientadores: Paulo Roberto Oliveira Orizon Pereira Ferreira Rio de Janeiro Junho de 2011

Transcript of ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema...

Page 1: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

ANALISE DE CONVERGENCIA DOS METODOS DE GAUSS-NEWTON DO

PONTO DE VISTA DO PRINCIPIO MAJORANTE

Max Leandro Nobre Goncalves

Tese de Doutorado apresentada ao Programa

de Pos-graduacao em Engenharia de Sistemas e

Computacao, COPPE, da Universidade Federal

do Rio de Janeiro, como parte dos requisitos

necessarios a obtencao do tıtulo de Doutor em

Engenharia de Sistemas e Computacao.

Orientadores: Paulo Roberto Oliveira

Orizon Pereira Ferreira

Rio de Janeiro

Junho de 2011

Page 2: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

ANALISE DE CONVERGENCIA DOS METODOS DE GAUSS-NEWTON DO

PONTO DE VISTA DO PRINCIPIO MAJORANTE

Max Leandro Nobre Goncalves

TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ

COIMBRA DE POS-GRADUACAO E PESQUISA DE ENGENHARIA (COPPE)

DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS

REQUISITOS NECESSARIOS PARA A OBTENCAO DO GRAU DE DOUTOR

EM CIENCIAS EM ENGENHARIA DE SISTEMAS E COMPUTACAO.

Examinada por:

Prof. Paulo Roberto Oliveira, D.Ing.

Prof. Orizon Pereira Ferreira, D.Sc.

Prof. Gregorio Malajovich Munoz, D.Sc.

Prof. Joao Xavier da Cruz Neto, D.Sc.

Prof. Susana Scheimberg de Makler, D.Sc.

RIO DE JANEIRO, RJ – BRASIL

JUNHO DE 2011

Page 3: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Goncalves, Max Leandro Nobre

Analise de Convergencia dos Metodos de Gauss-Newton

do Ponto de Vista do Princıpio Majorante /Max Leandro

Nobre Goncalves. – Rio de Janeiro: UFRJ/COPPE, 2011.

IX, 77 p. 29, 7cm.

Orientadores: Paulo Roberto Oliveira

Orizon Pereira Ferreira

Tese (doutorado) – UFRJ/COPPE/Programa de

Engenharia de Sistemas e Computacao, 2011.

Referencias Bibliograficas: p. 74 – 77.

1. condicao majorante. 2. problemas de mınimos

quadrado nao-lineares. 3. problemas de otimizacao de

composicao convexa. 4. metodo de Gauss-Newton. 5.

metodo quase Gauss-Newton inexato. 6. algoritmo de

Gauss-Newton. 7. convergence local e semi-local. I.

Oliveira, Paulo Roberto et al. II. Universidade Federal

do Rio de Janeiro, COPPE, Programa de Engenharia de

Sistemas e Computacao. III. Tıtulo.

iii

Page 4: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

A minha famılia pelo carinho e

amparo ao longo desses anos.

iv

Page 5: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Agradecimentos

A Deus, pela protecao durante este percurso da minha carreira estudantil, por ter

me dado a oportunidade e a capacidade, pois sem Deus nada disso seria possıvel. A

ele toda honra e toda gloria.

Aos Profs. Paulo Roberto Oliveira e Orizon Pereira Ferreira, pela amizade,

paciencia e dedicacao que foram indispensaveis para a concretizacao deste trabalho.

A minha esposa Ana Paula, pela amizade, compreensao e pelas constantes aju-

das.

A todos os meus familiares e amigos, que apoiaram-me em mais um degrau de

minha vida. Em especial, aos colegas de doutorado, que ajudaram-me nos momentos

de dificuldades.

A (CAPES), pela Bolsa de Estudos Concedida, sem a qual seria difıcil a reali-

zacao desta dissertacao

v

Page 6: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Resumo da Tese apresentada a COPPE/UFRJ como parte dos requisitos necessarios

para a obtencao do grau de Doutor em Ciencias (D.Sc.)

ANALISE DE CONVERGENCIA DOS METODOS DE GAUSS-NEWTON DO

PONTO DE VISTA DO PRINCIPIO MAJORANTE

Max Leandro Nobre Goncalves

Junho/2011

Orientadores: Paulo Roberto Oliveira

Orizon Pereira Ferreira

Programa: Engenharia de Sistemas e Computacao

A busca de solucoes dos problemas de mınimos quadrados nao-lineares e de

otimizacao de composicao convexa e objeto de interesse em varias areas da ciencia

e das engenharias. Devido a sua velocidade de convergencia e eficiencia computa-

cional, os metodos de Gauss-Newton tem sido bastante utilizados para o proposito

de obter estas solucoes. Neste trabalho apresentamos analises de convergencia dos

metodos de Gauss-Newton, usando o princıpio majorante. Em cada caso, nossa

analise deixa clara a relacao entre a funcao majorante e a funcao nao-linear associ-

ada ao problema, o que torna as condicoes e demonstracoes de convergencia mais

simples.

vi

Page 7: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the

requirements for the degree of Doctor of Science (D.Sc.)

LOCAL CONVERGENCE ANALYSIS OF GAUSS-NEWTON’S METHOD

UNDER MAJORANT CONDITION

Max Leandro Nobre Goncalves

June/2011

Advisors: Paulo Roberto Oliveira

Orizon Pereira Ferreira

Department: Systems Engineering and Computer Science

The search for solutions of the problems of nonlinear least squares and convex

composite optimization, is object of interest in some areas of science and engineer-

ing. Due the speed of convergence and computational efficiency, the Gauss-Newton

methods have been sufficiently use to obtain these solutions. In this work we present

convergence analysis of the Gauss-Newton methods, using the majorant principle. In

each case, our analysis makes clear the relationship between the majorant function

and nonlinear function associated with the problem, which became the conditions

and proof of convergence easier.

vii

Page 8: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Sumario

Introducao 1

1 Notacoes e Resultados Preliminares 6

2 Princıpio Majorante 13

2.1 A Funcao Majorante Radial . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1 Propriedades da Funcao Majorante radial (fr) . . . . . . . . . 14

2.1.2 Principais Relacoes entre fr e F . . . . . . . . . . . . . . . . . 18

2.2 A funcao Majorante Esferica . . . . . . . . . . . . . . . . . . . . . . 20

2.2.1 Propriedades da Funcao auxiliar fξ,α . . . . . . . . . . . . . . 21

3 Analise Local do Metodo de Gauss-Newton 27

3.1 Convergencia do Metodo de Gauss-Newton . . . . . . . . . . . . . . . 27

3.1.1 Resultados Auxiliares . . . . . . . . . . . . . . . . . . . . . . . 29

3.1.2 Prova do Teorema 3.1 . . . . . . . . . . . . . . . . . . . . . 32

3.2 Casos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2.1 Resultados de Convergencia Sob Condicao Lipschitz Classica . 34

3.2.2 Resultados de Convergencia sob Condicao de Smale . . . . . . 37

4 Analise Local do Metodo Quase Gauss-Newton Inexato 41

4.1 Convergencia do Metodo Quase Gauss-Newton Inexato . . . . . . . . 42

4.1.1 Prova do Teorema 4.1 . . . . . . . . . . . . . . . . . . . . . 46

4.2 Casos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2.1 Resultados de Convergencia Sob Condicao Lipschitz Classica . 48

4.2.2 Resultados de Convergencia sob Condicao de Smale . . . . . . 50

5 Analise Semi-Local do Metodo Gauss-Newton 53

5.1 Convergencia Semi-Local do Metodo de Gauss-Newton . . . . . . . . 54

5.1.1 Resultados auxiliares . . . . . . . . . . . . . . . . . . . . . . . 56

5.1.2 Prova do Teorema 5.1 . . . . . . . . . . . . . . . . . . . . . 59

5.2 Casos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.2.1 Resultados de convergencia para ponto incial regular . . . . . 61

viii

Page 9: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

5.2.2 Resultado de convergence sob condicao de Robinson . . . . . . 67

Consideracoes Finais 72

Referencias Bibliograficas 74

ix

Page 10: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Introducao

O metodo de Gauss-Newton e suas variacoes sao os mais eficientes metodos con-

hecidos para resolver problemas de mınimos quadrados nao-lineares e de otimizacao

de composicao convexa. A convergencia dos metodos de Gauss-Newton pode falhar,

ou mesmo deixar de gerar uma sequencia infinita. Para assegurar a convergencia

dos metodos para a solucao dos respectivos problemas, algumas condicoes devem ser

impostas. Neste trabalho, determinaremos condicoes que garantam a convergencia

dos metodos de Gauss-Newton para as solucoes desejadas.

Sejam X e Y espacos reais ou complexos de Hilbert , Ω ⊂ X um conjunto aberto

e F : Ω → Y Frechet diferenciavel. Considere o problema de mınimos quadrados

nao-linear

min ‖F (x)‖2. (1)

Este problema tem sido uma frutıfera area de estudo nos ultimos 30 anos, principal-

mente pelo seu grande numero de aplicacoes em problemas praticos, ver [1]. Essas

aplicacoes, buscam encontrar os parametros de um modelo matematico, que melhor

descreva um conjunto de dados numericos de um experimento quımico, fısico, es-

tatıstico ou economico, usando uma funcao da forma (1) para medir a discrepancia

entre as saıdas do modelo e o conjunto de dados.

Se F ′(x) e injetiva e tem imagem fechada para todo x ∈ Ω, o metodo de Gauss-

Newton encontra pontos estacionarios para o problema (1), i.e., solucoes para o

sistema de equacoes nao-lineares

F ′(x)∗F (x) = 0,

onde A∗ denota a matriz adjunta do operador A. Formalmente o metodo de Gauss-

Newton e descrito como: Dado x0 ∈ Ω defina

xk+1 = xk + Sk, F ′(xk)∗F ′(xk)Sk = −F ′(xk)∗F (xk), k = 0, 1, . . . .

E importante ressaltar que se x∗ e a solucao de (1), F (x∗) = 0 e F ′(x∗) e in-

vertıvel os resultados para o metodo de Gauss-Newton se reduzem aos resultados

para o metodo de Newton. Por outro lado, note que cada passo do metodo de

1

Page 11: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Gauss-Newton consiste em resolver um sistema de equacoes lineares, o que pode ser

computacionalmente muito “caro”se o numero de incognitas for muito grande. Uma

alternativa e resolver aproxidamente o sistema linear, o que da origem a uma nova

classe de processos iterativos. Estes processos sao conhecidos como metodos inex-

atos de Gauss-Newton. Os metodos inexatos de Gauss-Newton usados para resolver

(1) sao formalmente descritos como: Dado x0 ∈ Ω defina

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . ,

onde B(xk) : X → Y e um operador linear e rk ∈ Y e um resıduo apro-

priado. Em particular, o processo acima e o metodo de Gauss-Newton inex-

ato se Bk = F ′(xk)∗F ′(xk), e o metodo de Gauss-Newton modificado inexato se

Bk = F ′(x0)∗F ′(x0), e e o metodo de quase Gauss-Newton inexato se Bk e uma

aproximacao para F ′(xk)∗F ′(xk).

O metodo quase Gauss-Newton inexato, onde controle residual relativo escalado

e feito em cada iteracao, e formalmente descrito como: Dado x0 ∈ Ω defina

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . , (2)

onde B(xk) e uma aproximacao invertıvel para F ′(xk)∗F ′(xk) e o resıduo rk satisfaz

‖Pkrk‖ ≤ θk‖PkF ′(xk)∗F (xk)‖,

para as dadas sequencias θk e Pk de numeros reais e matrizes invertıveis, res-

pectivamente. A sequencia θk e usualmente chamada de sequencia “forcing”e e

tomada uniformemente limitada por 1. Alem disso, a vantagem de se introduzir a

matriz Pk (considerado pela primeira vez em [2]) e que, se o sistema linear em (2)

for mal condicionado, esta matriz pode fazer uma correcao.

Outro problema que consideraremos em nosso trabalho, e o problema de

otimizacao de composicao convexa

min h(F (x)), (3)

onde h : Rm → R e uma funcao convexa de valores reais e F : Rn → Rm e

continuamente diferenciavel. E bem conhecido, ver [3–5] e as suas referencias, que

uma ampla variedade de aplicacoes para esta formulacoes pode ser encontrada dentro

da programacao matematica, especificamente, em inclusao convexa, problemas de

minimax e metodos de penalizacao. Alem de suas aplicacoes praticas, este mode-

lo tambem prove ferramentas poderosas para estudar condicoes de otimalidade de

primeira e segunda ordem para otimizacao restrita.

2

Page 12: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Note que o estudo de (3) esta relacionado com o problema de inclusao convexa

F (x) ∈ C := z ∈ Rm : h(z) ≤ h(y), ∀y ∈ Rm, (4)

pois se x∗ ∈ Rn satisfaz a inclusao convexa (4) entao x∗ e uma solucao de (3), mas se

x∗ ∈ Rn e uma solucao de (3) nao necessariamente satisfaz a inclusao convexa (4).

Para cada ∆ ∈ (0,+∞) e x ∈ Rn seja

D∆(x) := argmin h(F (x) + F ′(x)d) : d ∈ Rn, ‖d‖ ≤ ∆ . (5)

Assim, dados ∆ ∈ (0,+∞], η ∈ [1,+∞) e um ponto x0 ∈ Rn, o algoritmo tipo

Gauss-Newton associado a (∆, η, x0) como definido em [3] (ver tambem, [4, 5]) e

como segue:

Algoritmo 0.1

Inicializacao. Dados ∆ ∈ (0,+∞], η ∈ [1,+∞) e x0 ∈ Rn. Faca k = 0.

criterio de Parada. Calcule D∆(xk). Se 0 ∈ D∆(xk), Pare. Caso contrario.

Passo Iterativo . Calcule dk satisfazendo

dk ∈ D∆(xk), ‖dk‖ ≤ ηd(0, D∆(xk)),

e faca

xk+1 = xk + dk,

k = k + 1 e va para Criterio de Parada.

A analise de convergencia local classica para os metodos de Gauss-Newton requer,

entre outras hipoteses, que F ′ satisfaca a condicao Lipschitz (ver, por exemplo [3, 5–

7]). Nos ultimos anos, tem surgido um grande numero de artigos tratando da questao

da convergencia dos metodos de Newton, incluindo os metodos de Gauss-Newton por

relaxar a hipotese de continuidade Lipschitz para a derivada de F (ver, por exemplo,

[4, 8–24]). Estas novas analises, alem de provar a convergencia dos metodos, tem

permitido unificar resultados ate entao sem relacao e em alguns casos estimar os

raios de convergencia otima e unicidade de solucao.

Usando o princıpio majorante introduzido por Kantorovich em [8] e usado por

Ferreira em [15] e [23], Ferreira, Goncalves em [16] e Ferreira, Svaiter em [17], o

presente trabalho tem por objetivos apresentar:

1. uma nova analise de convergencia local do metodo de Gauss-Newton;

2. uma nova analise de convergencia local do metodo quase Gauss-Newton ine-

xato, onde controle residual relativo escalado e feito em cada iteracao;

3

Page 13: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

3. uma nova analise de convergencia semi-local da sequencia gerada pelo algo-

ritmo de Gauss-Newton.

Em nossa analise, a condicao Lipschitz para F ′ e relaxada usando uma funcao

majorante. Nosso tratamento tem a vantagem de deixar clara a relacao entre a

funcao majorante e a funcao F associada aos problemas em consideracao, ver por

exemplo os Lemas 2.1, 2.2, 2.3 e 2.4, o que nao esta explıcito em outras analises

de convergencia dos metodos que seguem a mesma ideia. Com isso, os resultados

apresentados aqui, tornaram as condicoes e demonstracoes de convergencia mais

simples e mais didaticas. Alem disso, nossa condicao majorante permite unificar

resultados previamente nao relacionados pertencentes aos metodos.

Outras vantagens da nossa analise sao que no caso de convergencia local dos

metodos de Gauss-Newton o contexto foi estendido para espacos de Hilbert e no

caso quase Gauss-Newton inexato adicionamos resultados de convergencia para a

condicao de Smale. Ademais, na prova de convergencia semi-local da sequencia

gerada pelo algoritmo de Gauss-Newton utilizamos uma tecnica que no lugar de olhar

apenas a sequencia gerada, identificamos regioes onde a sequencia de Gauss-Newton

para o problema de otimizacao convexa e bem definido quando comparado com

metodo de Newton aplicado a uma funcao auxiliar associada a funcao majorante,

esta tecnica foi introduzida em [25].

A analise de convergencia para os metodos de Gauss-Newton tambem foram

estudados em [4, 10, 11, 13, 18, 19, 24]. A principal diferenca destas analises com as

nossas analises e que em lugar de nossa condicao majorante e usada a condicao de

Wang, introduzida em [22]. De fato, pode ser mostrado que elas sao equivalentes.

Porem, a formulacao como uma condicao majorante e mais natural e como ja dito

deixa as condicoes e provas de convergencia mais simples.

Gostarıamos de destacar tambem, que nossa analise de convergencia local para

o metodo de Gauss-Newton sob condicao majorante, ja se encontra publicado em

periodico especializado, ver [26].

Esta dissertacao esta organizada da seguinte forma. No capıtulo 1 damos

as notacoes e alguns resultados preliminares sobre operadores lineares, derivadas,

funcoes convexas e analıticas e regularidade. No capıtulo 2 dedicamos a um breve

estudo das funcoes majorantes, provando as principais relacoes com a funcao F . No

capıtulo 3 concentra-se a discussao sobre a convergencia local do metodo de Gauss-

Newton. Mostraremos que sob certas condicoes, a sequencia gerada pelo metodo

esta bem definida e converge para uma solucao de (1). Alem disso, determinaremos

os maiores raios de convergencia otimo e unicidade de solucao. Por fim, aplicaremos

resultados obtidos para as condicoes Lipschitz e Smale. No capıtulo 4, mostraremos

que sob certas condicoes, a sequencia gerada pelo metodo quase Gauss-Newton in-

exato esta bem definida e converge para uma solucao de (1). Por fim, aplicaremos

4

Page 14: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

resultados obtidos para as condicoes Lipschitz e Smale. No capıtulo 5, mostraremos

que sob certas condicoes, a sequencia gerada pelo algoritmo de Gauss-Newton con-

verge para um ponto x∗ ∈ Rn tal que F (x∗) ∈ C, em particular, x∗ resolve (3).

Alem disso, aplicaremos os resultados obtidos para o caso onde o ponto inicial e um

ponto regular e o caso onde o ponto inicial satisfaz a condicao de Robinson. Por

fim, apresentaremos resultados de convergencia do algoritmo de Gauss-Newton sob

condicoes Lipschitz e Smale.

5

Page 15: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Capıtulo 1

Notacoes e Resultados

Preliminares

Nosso objetivo neste capıtulo e introduzir algumas notacoes e revisar alguns topicos

de operadores lineares, incluindo resultados da inversa generalizada de Moore-

Penrose. Revisaremos tambem alguns resultados de derivadas, analise convexa,

funcoes analıticas e regularidade. Estes assuntos serao necessarios ao desenvolvi-

mento dos capıtulos seguintes.

Em todo lugar X e Y indicam espacos de Hilbert. A bola aberta e fechada de

centro a ∈ X e raio δ > 0 sao denotados, respectivamente, por

B(a, δ) := x ∈ X; ‖x− a‖ < δ, B[a, δ] := x ∈ X; ‖x− a‖ 6 δ.

A distancia de um ponto x ∈ X a um conjunto W ⊂ X e dado por

d(x,W ) := inf‖x− w‖ : w ∈ W.

O polar de um conjunto convexo fechado W ⊂ X e o conjunto

W o := z ∈ X :< z,w >≤ 0,∀w ∈ W.

O nucleo de um operador linear A : X → Y , denotado por Ker(A), e o conjunto

Ker(A) = x ∈ X : Ax = 0).

Denotamos P (X) o conjunto de todos subconjuntos de X. Assim, a soma de um

ponto x ∈ X a um conjunto Z ∈ P (X) e o conjunto dado por

y + Z = y + x : x ∈ Z.

6

Page 16: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

A seguir definiremos norma de operadores, antes denotemos por L(X, Y ) o espaco

dos operadores lineares contınuos de X em Y .

Definicao 1.1 Seja T ∈ L(X, Y ). Definimos a norma de operadores ‖.‖ como

sendo o numero

‖T‖ := sup‖Tu‖; ‖u‖ ≤ 1.

Note que valem as seguintes desigualdades:

i) ‖Au‖ ≤ ‖A‖‖u‖ para todo A ∈ L(X, Y ) e u ∈ X.

ii) ‖AB‖ ≤ ‖A‖‖B‖ e ‖A+B‖ ≤ ‖A‖+ ‖B‖ para todo A,B ∈ L(X, Y ).

Um resultado bem conhecido da teoria de operadores, o qual enunciaremos a seguir,

e o lema de Banach.

Lema 1.1 (Lema de Banach) Sejam B ∈ L(X,X) e I o operador identidade em

X. Se ‖B − I‖ < 1, entao B e invertıvel e vale ‖B−1‖ ≤ 1/(1− ‖B − I‖).

Demonstracao: Ver Lema 1, p.p. 189 de Smale [27] com A = I e c = ‖B − I‖.

Lembramos do Teorema do Grafico fechado que se A ∈ L(X, Y ) e injetiva e tem

imagem fechada, entao A e isomorfo a sua imagem, i.e., A−1 : ImA→ X e contınuo.

Dado A ∈ L(X, Y ), denotemos a inversa generalizada de Moore-Penrose de A

por A†. Se A ∈ L(X, Y ) e injetiva e tem imagem fechada, entao

A† := (A∗A)−1A∗,

onde A∗ denota a adjunta do operador linear A.

A seguir, daremos dois resultados a respeito da inversa generalizada de Moore-

Penrose que serao necessarios mais tarde, para garantir a boa definicao do metodo

de Gauss-Newton e do metodo quase Gauss-Newton inexato.

Lema 1.2 Sejam A,B ∈ L(X, Y ) tais que A e B tem imagens fechadas. Se A e

injetiva, E = B − A e ‖EA†‖ < 1, entao B e injetiva.

Demonstracao: De fato, como B = A + E = (I + EA†)A e de hipotese‖EA†‖ < 1, segue do Lema 1.1 que I + EA† e invertıvel. Portanto, B e injetiva.

O proximo lema e provado em Stewart [28] ( ver tambem, Wedin [29] ) para matrizes

A e B de ordem m× n com m ≥ n e posto(A) = posto(B) = n. Porem, o resultado

tambem e valido em um contexto mais geral conforme afirmamos abaixo.

7

Page 17: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Lema 1.3 Sejam A,B ∈ L(X, Y ) tais que A e B sao injetivos e tem imagens

fechadas. Assuma que E = B − A e ‖A†‖‖E‖ < 1, entao

‖B†‖ ≤ ‖A†‖1− ‖A†‖‖E‖

, ‖B† − A†‖ ≤√

2‖A†‖2‖E‖1− ‖A†‖‖E‖

.

Faremos agora uma breve revisao da derivada de uma funcao F : X → Y .

Definicao 1.2 Seja F : Ω → Y uma funcao definida no conjunto aberto Ω ⊂ X.

Um operador T ∈ L(X, Y ) e a derivada de Frechet de F em x0 ∈ Ω se para todo

w ∈ X tal que (w + x0) ∈ Ω vale a igualdade

lim‖w‖→0

1

‖w‖‖F (x0 + w)− F (x0)− Tw‖ = 0.

Dizemos que F e Frechet derivavel em Ω se F for Frechet derivavel em todo ponto

x ∈ Ω. Denotaremos a derivada de Frechet de uma funcao F em x por F ′(x) e assim

F ′(x) ∈ L(X, Y ), ou seja, F ′ e uma aplicacao linear de Ω no espaco dos operadores

lineares L(X, Y ).

Se a funcao F ′ e diferenciavel em Ω, a sua derivada e chamada de segunda

derivada e sera denotada por F ′′. Assim, F ′′(x) e um elemento do espaco

L(X,L(X, Y )) dos operadores lineares que levam X em L(X, Y ). Para simplificar

a notacao identificaremos o espaco L(X,L(X, Y )) por L2(X, Y ).

Podemos generalizar o conceito acima, supondo que a n-esima derivada de uma

funcao F de X em Y e a derivada da derivada de ordem n − 1. Assim, a n-

esima derivada, denotada por F (n)(x), sera obviamente um elemento do espaco

Ln(X, Y ) dos operadores n-lineares de X em Y . Novamente indetificamos o espaco

L(X,L(X, . . . , Y ), . . .)) com o espaco dos operadores n-lineares Ln(X, Y ).

Utilizando as notacoes acima temos a seguinte observacao:

Observacao 1.1 Seja F : Ω → Y uma funcao diferenciavel no conjunto aberto

Ω ⊂ X. Entao F ′(x) ∈ L(X, Y ) e

‖F ′(x)‖ := sup‖F ′(x)u‖; ‖u‖ ≤ 1.

Agora, se F ′ e uma funcao diferenciavel em Ω, entao F ′′(x) ∈ L2(X, Y ) e

‖F ′′(x)‖ := sup‖F ′′(x)(u, v)‖; ‖u‖ ≤ 1, ‖v‖ ≤ 1.

Analogamente, se F e uma funcao n-vezes diferenciavel em Ω, introduzimos a norma

do operador n-linear F (n)(x) ∈ Ln(X, Y ) como sendo

‖F (n)(x)‖ := sup‖F (n)(x)(u1, . . . un)‖; ‖u1‖ ≤ 1, . . . ‖un‖ ≤ 1.

8

Page 18: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Agora, estamos interessados em revisar alguns resultados da analise convexa e

um resultado da teoria de funcoes analıticas.

Proposicao 1.1 Sejam R > 0 e ϕ : [0, R)→ R uma funcao convexa.

i) Entao

D+ϕ(0) = limu→0+

ϕ(u)− ϕ(0)

u= inf

0<u

ϕ(u)− ϕ(0)

u,

onde D+ϕ(0) denota a derivada a direita de ϕ em zero;

ii) Se u, v, w ∈ [0, R), u < w and u ≤ v ≤ w entao

ϕ(v)− ϕ(u) ≤ [ϕ(w)− ϕ(u)]v − uw − u

;

iii) Se τ ∈ [0, 1] entao a funcao l : (0, R)→ R definida por

l(t) =ϕ(t)− ϕ(τt)

t,

e crescente.

Demonstracao: Ver Teorema 4.1.1 e observacao 4.1.2, pp. 21 de Hiriart-Urrutyand Lemarechal [30].

Lembremos que uma funcao F : Ω → Y, onde Ω ⊂ X e analıtica se, para cada

ponto a ∈ Ω existe uma serie de potencias

∞∑n=0

F (n)(a)

n!hn,

com raio de convergencia δ > 0, isto e,

F (x) =∞∑n=0

F (n)(a)

n!(x− a)n, ‖x− a‖ < δ.

Proposicao 1.2 Se 0 ≤ t < 1, entao∑∞

i=0(i+ 2)(i+ 1)ti = 2/(1− t)3.

Demonstracao: Consideremos a funcao g : (−1, 1) → R definida por g(t) =(1− t)−1. E facil ver que g e analıtica em (−1, 1) e

g′(t) = (1− t)−2, g′′(t) = 2(1− t)−3, . . . , g(i)(t) = i!(1− t)−(i+1). (1.1)

9

Page 19: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Agora usando a definicao de funcao analıtica e as inequacoes anteriores obtemos que

g(t) =∞∑i=0

g(i)(0)

i!ti =

∞∑i=0

ti.

Derivando duas vezes a equacao acima temos que

g′′(t) =∞∑i=0

(i+ 2)(i+ 1) ti,

a qual combinada com a segunda equacao em (1.1) prova o resultado desejada.

Encerramos este capıtulo, com um breve estudo de regularidade. O estudo

de regularidade fornecera ferramentas que auxiliarao na prova de convergencia da

sequencia gerada pelo Algoritmo 0.1 para uma solucao de (3). Para mais detalhes

a respeito de regularidade ver [3, 4].

Considere C como definido em (4), i.e., C e o conjunto de todos os pontos mınimos

da funcao convexa h. Para cada x ∈ Rn, defina o conjunto DC(x) associado a C

como

DC(x) := d ∈ Rn : F (x) + F ′(x)d ∈ C.

A seguir, provaremos uma relacao entre os conjuntos D∆(x) (definido em (5)) e

DC(x).

Proposicao 1.3 Seja x ∈ Rn. Se DC(x) 6= ∅ e d(0, DC(x)) ≤ ∆, entao

D∆(x) = d ∈ Rn : ‖d‖ ≤ ∆, F (x) + F ′(x)d ∈ C ⊂ DC(x).

Como consequencia, d(0, D∆(x)) = d(0, DC(x)).

Demonstracao: Pela definicao de C em (4) e D∆(x) em (5) e imediato que

d ∈ Rn : ‖d‖ ≤ ∆, F (x) + F ′(x)d ∈ C ⊂ D∆(x). (1.2)

Agora, seja d ∈ D∆(x). Como DC(x) 6= ∅ e d(0, DC(x)) ≤ ∆, existe um d ∈ DC(x)tal que ‖d‖ ≤ ∆ e F (x) + F ′(x)d ∈ C. Daı, pela definicao de C em (4) e D∆(x)em (5) obtemos d ∈ D∆(x). Portanto, como d, d ∈ D∆(x), usando novamente adefinicao de D∆(x) em (5), temos que

h(F (x) + F ′(x)d) = h(F (x) + F ′(x)d).

Assim, usando F (x) + F ′(x)d ∈ C, a ultima equacao e definicao de C segue queF (x) + F ′(x)d ∈ C, o que juntamente com (1.2) prova a primeira afirmacao. Asegunda afirmacao, i.e., D∆(x) ⊂ DC(x) e imediata da definicao de DC(x). Para

10

Page 20: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

concluir a prova, primeiro note que a inclusao D∆(x) ⊂ DC(x) implica que

d(0, D∆(x)) ≥ d(0, DC(x)). (1.3)

Como DC(x) 6= ∅ e d(0, DC(x)) ≤ ∆, existe d ∈ DC(x) tal que

‖d‖ = d(0, DC(x)) ≤ ∆.

Daı, pela definicao de C em (4) eD∆(x) em (5) concluımos que d ∈ D∆(x). Portanto,

d(0, D∆(x)) ≤ ‖d‖ = d(0, DC(x)),

o que juntamente com (1.3) conclui a prova.

Definicao 1.3 Sejam F : Rn → Rm uma funcao continuamente diferenciavel e

h : Rm → R uma funcao convexa de valores-reais. Um ponto x0 ∈ Rn e chamado

um ponto quase-regular da inclusao (4), i.e., da inclusao

F (x) ∈ C := z ∈ Rm : h(z) ≤ h(y), ∀y ∈ Rm,

se existe um r ∈ (0,+∞) e uma funcao crescente de valores-positivos β : [0, r) →(0,+∞) tais que

DC(x) 6= ∅, d(0, DC(x)) ≤ β(‖x− x0‖)d(F (x), C), ∀x ∈ B(x0, r). (1.4)

Seja x0 ∈ Rn um ponto quase-regular da inclusao (4). Denotamos rx0 o supremo dos

r tais que (1.4) vale para alguma funcao crescente de valores-positivos β em [0, r),

i.e.,

rx0 := sup r : ∃ β : [0, r)→ (0,+∞) satisfazendo (1.4) . (1.5)

Seja r ∈ [0, rx0). O conjunto Br(x0) denota o conjunto de todas as funcoes crescentes

de valores-positivos β em [0, r) tais que (1.4) vale, i.e.,

Br(x0) := β : [0, r)→ (0,+∞) : β satisfaz (1.4) .

Definimos

βx0(t) := infβ(t) : β ∈ Brx0 (x0)

, t ∈ [0, rx0). (1.6)

O numero rx0 e a funcao βx0 sao chamados, respectivamente, o raio quase-regular e

a funcao limitante quase-regular para um ponto quase-regular x0.

Observacao 1.2 Note que, pela definicao de rx0 e βx0 e imediato concluir que para

11

Page 21: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

todo r ≤ rx0 tal que limt→r− β(t) < +∞ temos

βx0(t) = inf β(t) : β ∈ Br(x0) , t ∈ [0, r).

12

Page 22: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Capıtulo 2

Princıpio Majorante

Para provarmos a convergencia dos metodos de Gauss-Newton, usaremos uma

condicao majorante similar a usada em [15–17, 23]. Nosso objetivo neste capıtulo

e definir as funcoes majorantes, estudar algumas de suas propriedades e obter suas

relacoes com a funcao nao-linear F associada aos problemas (1) e (3).

2.1 A Funcao Majorante Radial

Nesta secao, definiremos a funcao majorante radial e estudaremos algumas pro-

priedades relacionadas a ela. Os resultados obtidos aqui sao os principais instru-

mentos no estudo de convergencia local do metodo de Gauss-Newton e do metodo

quase Gauss-Newton inexato para problemas de mınimos quadrados nao-lineares.

Definicao 2.1 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e

F : Ω → Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem

fechada em Ω. Tome x∗ ∈ Ω, R > 0,

c := ‖F (x∗)‖, β :=∥∥F ′(x∗)†∥∥ , κ := sup t ∈ [0, R) : B(x∗, t) ⊂ Ω .

Suponha que F ′(x∗)∗F (x∗) = 0 e F ′(x∗) seja injetiva. Entao, uma funcao conti-

nuamente diferenciavel fr : [0, R) → R e uma funcao majorante radial de F em

B(x∗, κ) se satisfaz

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ≤ f ′r (‖x− x∗‖)− f ′r (τ‖x− x∗‖) , (2.1)

para todo τ ∈ [0, 1], x ∈ B(x∗, κ) e

h1) fr(0) = 0 e f ′r(0) = −1;

h2) f ′r e convexa e estritamente crescente;

13

Page 23: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

h3) µ :=√

2 c β2D+f ′r(0) < 1.

A seguir faremos uma analise da funcao definida acima.

2.1.1 Propriedades da Funcao Majorante radial (fr)

Nesta subsecao, estaremos interessados em estudar algumas propriedades da funcao

majorante radial. Destacamos que para os resultados desta subsecao nao se faz

necessaria a condicao (2.1), parte da definicao de funcao majorante radial.

Proposicao 2.1 Sao validas as seguintes desigualdades

tf ′r(t)− fr(t) > 0 e fr(t) + t > 0, ∀ t ∈ (0, R).

Demonstracao: De h2 temos que f ′ e estritamente crescente em [0, R), entao fre estritamente convexa em [0, R). Assim,

fr(0) > fr(t)− tf ′r(t) e fr(t) > fr(0) + tf ′r(0), ∀ t ∈ (0, R).

Com simples manipulacoes algebricas e usando h1, as desigualdades da proposicaoseguem das desigualdades acima.

Proposicao 2.2 Defina a constante ν =: sup t ∈ [0, R) : β[f ′r(t) + 1] < 1 . Entao,

ν e positiva e e valida a seguinte desigualdade

0 < β[f ′r(t) + 1] < 1, ∀ t ∈ (0, ν). (2.2)

Demonstracao: Primeiro, segue da continuidade de f ′r em [0, R) e h1 que

limt→0

β[f ′r(t) + 1] = 0.

Daı, existe δ > 0 tal que β[f ′r(t) + 1] < 1 para todo t ∈ [0, δ). Portanto, δ ≤ ν, oque estabelece a primeira afirmacao.

Para concluir a prova, note que as desigualdades seguem da hipotese que f ′r eestritamente crescente, h1 e definicao de ν.

Proposicao 2.3 As seguintes funcoes sao crescentes:

i) [0, R) 3 t 7→ 1/[1− β(f ′r(t) + 1)];

ii) (0, R) 3 t 7→ [tf ′r(t)− fr(t)]/t2;

14

Page 24: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

iii) (0, R) 3 t 7→ [f ′r(t) + 1]/t;

iv) (0, R) 3 t 7→ fr(t)/t.

Como consequencia, as funcoes

(0, R) 3 t 7→ tf ′r(t)− fr(t)t2[1− β(f ′r(t) + 1)]

, (0, R) 3 t 7→ f ′r(t) + 1

t[1− β(f ′r(t) + 1)].

tambem sao crescentes.

Demonstracao: O item i e imediato, pois f ′r e estritamente crescente em [0, R).

Para provar o item ii, note que com algumas manipulacoes algebricas e h1,obtemos

tf ′r(t)− fr(t)t2

=

∫ 1

0

f ′r(t)− f ′r(τt)t

dτ.

Daı, usando a Proposicao 1.1 com f ′r = ϕ segue que a funcao em consideracao ecrescente.

Para estabelecer o item iii, use f ′r(0) = −1 e Proposicao 1.1 com f ′r = ϕ e τ = 0.

Prova do item iv. De h2 temos que f ′r e estritamente crescente, entao fr eestritamente convexa em [0, R). Usando que fr(0) = 0, temos fr(t)/t = [fr(t) −fr(0)]/[t− 0]. Daı, o item iv segue da Proposicao 1.1 com fr = ϕ e τ = 0.

Para provar a ultima parte da proposicao, combine os itens i e ii para a primeirafuncao e o itens i e iii para a segunda funcao.

Proposicao 2.4 Defina a constante

ρ := sup

t ∈ (0, ν) :

β[tf ′r(t)− fr(t)] +√

2cβ2[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]< 1

.

Entao, ρ e positivo e sao validas as seguintes desigualdades

0 <β[tf ′r(t)− fr(t)] +

√2cβ2[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]< 1, ∀ t ∈ (0, ρ). (2.3)

Demonstracao: Primeiro, note que com algumas manipulacoes algebricas e us-ando h1 temos

β[tf ′r(t)− fr(t)] +√

2cβ2[f ′r(t) + 1]

t[1− β(fr(t) + 1)]=β[f ′r(t)−

fr(t)−fr(0)t−0

]+√

2 c β2 f ′r(t)−f ′r(0)t−0

1− β(f ′r(t) + 1).

15

Page 25: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Segue da ultima equacao, continuidade de f ′r e Proposicao 1.1 com ϕ = f ′r que

limt→0

β[tf ′r(t)− fr(t)] +√

2cβ2[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]=√

2cβ2D+f ′r(0).

Agora, como µ =√

2cβ2D+f ′r(0) < 1 de h3, concluımos que existe δ > 0 tal que

β[tf ′r(t)− fr(t)] +√

2cβ2[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]< 1, t ∈ (0, δ),

Daı, segue que δ ≤ ρ, o que prova a primeira afirmacao.

Para provar (2.3), use a primeira desigualdade da Proposicao 2.1, f ′r estritamentecrescente e desigualdade (2.2) para a primeira desigualdade e definicao de ρ eultima parte da Proposicao 2.3 para a segunda desigualdade.

Proposicao 2.5 Dadas as constantes ϑ, ω1 e ω2 satisfazendo 0 ≤ ϑ < 1, 0 ≤ω2 < ω1 e ω1(µ+ µϑ+ ϑ) + ω2 < 1, defina a constante

ρ := sup

t ∈ (0, ν) : (1 + ϑ)ω1β

tf ′r(t)− fr(t) +√

2cβ[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]+ ω1ϑ+ ω2 < 1

.

Entao a constante ρ e positiva e sao validas as seguintes desigualdades

0 < (1+ϑ)ω1βtf ′r(t)− fr(t) +

√2cβ[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]+ω1ϑ+ω2 < 1, ∀ t ∈ (0, ρ). (2.4)

Demonstracao: Primeiro, note que com simples manipulacoes algebricas e us-ando h1, temos

limt→0

tf ′r(t)− fr(t)t[1− β(f ′r(t) + 1)]

= limt→0

f ′r(t)− (fr(t)− fr(0))/t

1− β(f ′r(t) + 1)= 0.

Agora, usando h1, simples manipulacoes algebricas e que f ′r e convexa, segue daProposicao 1.1 com ϕ = f ′r que

limt→0

f ′r(t) + 1

t[1− β(f ′r(t) + 1)]= lim

t→0

(f ′r(t)− f ′r(0))/t

1− β(f ′r(t) + 1)= D+f ′r(0).

Daı, combinando as duas equacoes acima e facil concluir que

limt→0

(1 + ϑ)ω1βtf ′r(t)− fr(t) +

√2cβ[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]+ ω1ϑ+ ω2

= (1 + ϑ)ω1

√2cβ2D+f ′r(0) + ω1ϑ+ ω2.

Como µ =√

2cβ2D+f ′r(0) e ω1(µ+ µϑ+ ϑ) + ω2 < 1, obtemos que existe um δ > 0

16

Page 26: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

tal que

(1 + ϑ)ω1βtf ′r(t)− fr(t) +

√2cβ[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]+ ω1ϑ+ ω2 < 1, t ∈ (0, δ),

Portanto, δ ≤ ρ, o que prova a primeira afirmacao.

Para provar (2.4), use a primeira desigualdade da Proposicao 2.1, f ′r estritamentecrescente e desigualdade (2.2) para a primeira desigualdade e definicao de ρ eultima parte da Proposicao 2.3 para a segunda desigualdade.

Proposicao 2.6 Seja β0 := ‖[F ′(x∗)∗F ′(x∗)]−1‖. Defina a constante

σ := sup

t ∈ (0, κ) :

β(fr(t) + t) + cβ0(f ′r(t) + 1)

t< 1

.

Adicionalmente, se cβ0D+f ′r(0) < 1, entao σ e positiva e sao validas as seguintes

desigualdades

0 <β(fr(t) + t) + cβ0(f ′r(t) + 1)

t< 1, ∀ t ∈ (0, σ). (2.5)

Demonstracao: Primeiro, note que com algumas manipulacoes algebricas e us-ando h1 temos

β(fr(t) + t) + cβ0(f ′r(t) + 1)

t= β

[fr(t)− fr(0)

t− 0− f ′r(0)

]+ cβ0

f ′r(t)− f ′r(0)

t− 0.

Segue da ultima equacao, continuidade de f ′r e Proposicao 1.1 com ϕ = f ′r que

limt→0

β(fr(t) + t) + cβ0(f ′r(t) + 1)

t= c β0D

+f ′r(0).

Agora, como c β0D+f ′r(0) < 1, concluımos que existe δ > 0 tal que

β(fr(t) + t) + cβ0(f ′r(t) + 1)

t< 1, t ∈ (0, δ),

Daı, segue que δ ≤ σ, o que prova a primeira afirmacao.

Para provar (2.5), use a segunda desigualdade da Proposicao 2.1 e que f ′r eestritamente crescente para a primeira desigualdade e definicao de σ os itens iii eiv da Proposicao 2.3 para a segunda desigualdade.

17

Page 27: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

2.1.2 Principais Relacoes entre fr e F

Nesta subsecao, apresentaremos as principais relacoes entre a funcao majorante ra-

dial fr e a funcao nao-linear F associada ao problema (1).

Lema 2.1 Seja x ∈ Ω. Se ‖x− x∗‖ < minν, κ, entao F ′(x)∗F ′(x) e invertıvel e

sao validas as seguintes desigualdades

∥∥F ′(x)†∥∥ ≤ β

1− β[f ′r(‖x− x∗‖) + 1],∥∥F ′(x)† − F ′(x∗)†

∥∥ < √2β2[f ′r(‖x− x∗‖) + 1]

1− β[f ′r(‖x− x∗‖) + 1].

Em particular, se ‖x − x∗‖ < r, onde r = minκ, ρ ou r = minκ, ρ, entao

F ′(x)∗F ′(x) e invertıvel em B(x∗, r).

Demonstracao: Primeiro, para simplificar a demonstracao definiremos as ma-trizes

A = F ′(x∗), B = F ′(x), E = F ′(x)− F ′(x∗). (2.6)

Seja x ∈ Ω tal que ‖x − x∗‖ < minν, κ. Daı, usando a definicao de β, desigual-dade (2.1) com τ = 0 e desigualdade (2.2), obtemos que

‖F ′(x)− F ′(x∗)‖‖[F ′(x∗)∗F ′(x∗)]−1F ′(x∗)∗‖ ≤ β[f ′r(‖x− x∗‖)− f ′r(0)] < 1.

Combinando a ultima desigualdade e as definicoes em (2.6), temos

‖EA†‖ ≤ ‖E‖‖A†‖ < 1. (2.7)

Considerando a inequacao anterior e que F ′(x∗) e injetiva segue do Lema 1.2 queF ′(x) e injetiva. Entao, F ′(x)∗F ′(x) e invertıvel e pela definicao de r tambempodemos concluir que F ′(x)∗F ′(x) e invertıvel para todo x ∈ B(x∗, r).

Agora, como ja sabemos F ′(x) e F ′(x∗) sao injetivas. Daı, usando as definicoesem (2.6) e inequacao (2.7) as desigualdades do lema seguem das desigualdades doLema 1.3.

E conveniente estudar o erro linear de F para cada ponto em Ω, por isso definimos

EF (x, y) := F (y)− [F (x) + F ′(x)(y − x)] , y, x ∈ Ω. (2.8)

Iremos limitar este erro pelo erro da linearizacao da funcao majorante radial fr

efr(t, u) := fr(u)− [fr(t) + f ′r(t)(u− t)] , t, u ∈ [0, R). (2.9)

Lema 2.2 Se ‖x∗ − x‖ < κ, entao vale ‖EF (x, x∗)‖ ≤ efr(‖x− x∗‖, 0).

18

Page 28: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Demonstracao: Como B(x∗, κ) e um conjunto convexo, segue x∗ + τ(x − x∗) ∈B(x∗, κ), para 0 ≤ τ ≤ 1. Daı, usando definicao de EF , F e continuamente difer-enciavel em Ω e algumas manipulacoes algebricas, obtemos que

‖EF (x, x∗)‖ = ‖F (x∗)− [F (x) + F ′(x)(x∗ − x)] ‖

= ‖F ′(x)(x− x∗)−∫ 1

0

F ′(x∗ + τ(x− x∗))dτ(x− x∗)‖

≤∫ 1

0

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ‖x− x∗‖ dτ.

Agora, considerando a desigualdade acima junto com (2.1) e facil ver que

‖EF (x, x∗)‖ ≤∫ 1

0

[f ′r (‖x− x∗‖)− f ′r (τ‖x− x∗‖)] ‖x− x∗‖ dτ

= f ′r(‖x− x∗‖)‖x− x∗‖ −∫ 1

0

f ′r(τ‖x− x∗‖)‖x− x∗‖ dτ

= fr(0)− fr(‖x− x∗‖) + f ′r(‖x− x∗‖)‖x− x∗‖.

Portanto, combinando a ultima desigualdade com a definicao (2.9) segue a desigual-dade desejada.

Denominamos como o passo de Gauss-Newton para a funcao F a seguinte igualdade:

SF (x) := −F ′(x)†F (x). (2.10)

Lema 2.3 Se ‖x− x∗‖ < minν, κ, entao

‖SF (x)‖ ≤ βefr(‖x− x∗‖, 0) +√

2cβ2[f ′r(‖x− x∗‖) + 1]

1− β[f ′r(‖x− x∗‖) + 1]+ ‖x− x∗‖.

Demonstracao: Usando (2.10), definicao da inversa de Moore-Penrose,F ′(x∗)

∗F (x∗) = 0 e (2.8), segue com algumas manipulacoes algebricas que

‖SF (x)‖ = ‖F ′(x)† (F (x∗)− [F (x) + F ′(x)(x∗ − x)])

+ (F ′(x)† − F ′(x∗)†)F (x∗) + x∗ − x‖

≤ ‖F ′(x)†‖‖EF (x, x∗)‖+ ‖F ′(x)† − F ′(x∗)†‖‖F (x∗)‖+ ‖x− x∗‖.

Agora, a ultima inequacao junto com os Lemas 2.1 e 2.2 e definicao de c, implicaque

‖SF (x)‖ ≤ βefr(‖x− x∗‖, 0)

1− β[f ′r(‖x− x∗‖) + 1]+

√2cβ2[f ′r(‖x− x∗‖) + 1]

1− β[f ′r(‖x− x∗‖) + 1]+ ‖x− x∗‖,

19

Page 29: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

a qual e equivalente a inequacao desejada.

2.2 A funcao Majorante Esferica

Nesta secao, definiremos a funcao majorante esferica e estudaremos algumas pro-

priedades de uma determinada funcao auxiliar associada a ela. Os resultados aqui

sao os principais instrumentos no estudo de convergencia da sequencia gerada pelo

algoritmo de Gauss-Newton para problemas de otimizacao de composicao convexa.

Definicao 2.2 Sejam R > 0, x0 ∈ Rn and F : Rn → Rm uma funcao continua-

mente diferenciavel. Entao, uma funcao duas vezes diferenciavel fe : [0, R)→ R e

uma funcao majorante esferica para a funcao F em B(x0, R) se satisfaz

‖F ′(y)− F ′(x)‖ ≤ f ′e(‖y − x‖+ ‖x− x0‖)− f ′e(‖x− x0‖), (2.11)

para todo x, y ∈ B(x0, R), ‖x− x0‖+ ‖y − x‖ < R, e

a1) fe(0) = 0, f ′e(0) = −1;

a2) f ′e e convexa e estritamente crescente.

Neste caso tambem e conveniente limitar o erro linear de F pelo erro linear de fe.

Lema 2.4 Tome

x, y ∈ B(x0, R) e 0 ≤ t < v < R.

Se ‖x− x0‖ 6 t e ‖y − x‖ 6 v − t, entao

‖EF (x, y)‖ 6 efe(t, v)

(‖y − x‖v − t

)2

.

Demonstracao: Como B(x0, R) e um conjunto convexo, segue que

x+ u(y − x) ∈ B(x0, R) para 0 ≤ u ≤ 1.

Daı, como F e continuamente diferenciavel em B(x0, R), (2.8) e equivalente a

EF (x, y) =

∫ 1

0

[F ′(x+ u(y − x))− F ′(x)](y − x) du.

20

Page 30: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Considerando a equacao anterior e (2.11) obtemos que

‖EF (x, y)‖ ≤∫ 1

0

‖[F ′(x+ u(y − x))− F ′(x)]‖ ‖y − x‖ du

≤∫ 1

0

[f ′e (‖x− x0‖+ u ‖y − x‖)− f ′e (‖x− x0‖)] ‖y − x‖ du .

Agora, usando a convexidade de f ′, as hipoteses ‖x − x0‖ < t, ‖y − x‖ < v − t,v < R e Proposicao 1.1 segue que, para qualquer u ∈ [0, 1]

f ′e (‖x− x0‖+ u‖y − x‖)− f ′e (‖x− x0‖) ≤ f ′e (t+ u‖y − x‖)− f ′e (t)

≤ [f ′e(t+ u(v − t))− f ′e(t)]‖y − x‖v − t

.

Combinando as duas equacoes acima obtemos que

‖EF (x, y)‖ ≤∫ 1

0

[f ′e(t+ u(v − t))− f ′e(t)]‖y − x‖2

v − tdu,

a qual, depois de calculada a integral e usando a definicao em (2.9), da-nos ainequacao desejada.

2.2.1 Propriedades da Funcao auxiliar fξ,α

Nesta subsecao, estaremos interessados em definir e estudar algumas propriedades

de uma determinada funcao auxiliar associada com a funcao majorante esferica.

Destacamos que para os resultados desta subsecao nao se faz necessaria a condicao

(2.11), parte da definicao de funcao majorante esferica.

Inicialmente, seja fe : [0, R)→ R uma funcao majorante esferica para a funcao

F em B(x0, R). Tome ξ > 0, α > 0 e defina a funcao auxiliar fξ,α : [0, R)→ R,

fξ,α(t) = ξ + (α− 1)t+ αfe(t). (2.12)

Considere as seguintes condicoes para fξ,α:

a3) existe t∗ ∈ (0, R) tal que fξ,α(t) > 0 para todo t ∈ (0, t∗) e fξ,α(t∗) = 0;

a4) f ′ξ,α(t∗) < 0.

Daqui em diante, assumimos que fe : [0, R) → R e uma funcao majorante

esferica para a funcao F em B(x0, t∗) e a3 vale. A condicao a4 sera valida somente

quando explicitamente afirmada.

21

Page 31: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

No capıtulo 6, veremos que a sequencia gerada pelo algoritmo de Gauss-Newton

para resolver problemas de otimizacao de composicao convexa sera “majorada”pela

sequencia de Newton associada a esta funcao auxiliar.

Proposicao 2.7 As seguintes afirmacoes sao validas:

i) fξ,α(0) = ξ > 0, f ′ξ,α(0) = −1;

ii) f ′ξ,α e convexa e estritamente crescente.

Demonstracao: Imediato, simplesmente use a definicao em (2.12), a1 e a2.

Proposicao 2.8 A funcao fξ,α e estritamente convexa e

fξ,α(t) > 0, f ′ξ,α(t) < 0, t < t− fξ,α(t)/f ′ξ,α(t) < t∗, ∀ t ∈ [0, t∗). (2.13)

Alem disso, f ′ξ,α(t∗) ≤ 0.

Demonstracao: Como f ′ξ,α e estritamente crescente (Proposicao 2.7), segue quefξ,α e estritamente convexa.

A primeira inequacao em (2.13) segue imediato de a3. Agora, como fξ,α e estri-tamente convexa,

0 = fξ,α(t∗) > fξ,α(t) + f ′ξ,α(t)(t∗ − t), t ∈ [0, t∗). (2.14)

A segunda inequacao em (2.13) segue da inequacao acima e a3. A terceira inequacaoem (2.13) segue da primeira e da segunda desigualdade. A ultima inequacao em(2.13) e obtida por dividir a inequacao em (2.14) por −f ′ξ,α(t) (o qual e positivo) emanipulacoes algebricas na inequacao resultante.

Agora, como fξ,α > 0 em [0, t∗) e fξ,α(t∗) = 0, devemos ter f ′ξ,α(t∗) ≤ 0.

Seja nfξ,α a funcao iteracao de Newton associada a funcao auxiliar fξ,α, definida

por

nfξ,α : [0, t∗) → Rt 7→ t− fξ,α(t)/f ′ξ,α(t).

(2.15)

Da segunda desigualdade em (2.13), temos que a funcao iteracao de Newton nfξ,αesta bem definida em [0, t∗).

Proposicao 2.9 Para cada t ∈ [0, t∗) e valido que ξ ≤ nfξ,α(t).

22

Page 32: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Demonstracao: A Proposicao 2.8 implica que fξ,α e estritamente convexa. Daıusando o item i da Proposicao 2.7 e facil ver t − ξ ≥ −fξ,α(t). Entao, segue dadefinicao acima que

nfξ,α(t)−ξ = t− fξ,α(t)

f ′ξ,α(t)−ξ ≥ −fξ,α(t)− fξ,α(t)

f ′ξ,α(t)=

fξ,α(t)

−f ′ξ,α(t)[f ′ξ,α(t)+1], ∀ t ∈ [0, t∗).

A Proposicao 2.7 implica que f ′ξ,α(0) = −1 e f ′ξ,α e estritamente crescente. Destemodo, segue que f ′ξ,α(t) + 1 ≥ 0, para todo t ∈ [0, t∗). Portanto, combininando aequacao acima com duas primeiras inequacoes na Propositicao 2.8 a desigualdadesegue.

Proposicao 2.10 A funcao iteracao de Newton nfξ,α leva [0, t∗) em [0, t∗) e

t < nfξ,α(t), t∗ − nfξ,α(t) 61

2(t∗ − t), ∀ t ∈ [0, t∗). (2.16)

Se fξ,α tambem satisfaz a4, i.e., f ′ξ,α(t∗) < 0, entao

t∗ − nfξ,α(t) ≤f ′′ξ,α(t∗)

−2f ′ξ,α(t∗)(t∗ − t)2, ∀ t ∈ [0, t∗). (2.17)

Demonstracao: As primeiras duas afirmacoes da proposicao seguem trivialmenteda ultima inequacao em (2.13).

Prova da segunda inequacao em (2.16). Tomando t ∈ [0, t∗) e usando (2.15) e acontinuidade de f ′ξ,α obtemos que

t∗ − nfξ,α(t) =1

f ′ξ,α(t)

[f ′ξ,α(t)(t∗ − t) + fξ,α(t)

]=

1

f ′ξ,α(t)

[f ′ξ,α(t)(t∗ − t) + fξ,α(t)− fξ,α(t∗)

]=

1

−fξ,α′(t)

∫ t∗

t

f ′ξ,α(u)− f ′ξ,α(t) du.

Como f ′ξ,α e convexa (Proposicao 2.7) e t < t∗, segue da Proposicao 1.1 que

f ′ξ,α(u)− f ′ξ,α(t) 6[f ′ξ,α(t∗)− f ′ξ,α(t)

] u− tt∗ − t

, ∀u ∈ [t, t∗].

Levando em conta a positividade de −1/f ′α(t) (segunda inequacao em (2.13)) ecombinando as duas ultimas equacoes temos que

t∗ − nfξ,α(t) 6 (−1/f ′ξ,α(t))

∫ t∗

t

[f ′ξ,α(t∗)− f ′ξ,α(t)

] u− tt∗ − t

du.

23

Page 33: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Resolvendo a integral acima obtemos que

t∗ − nf ′ξ,α(t) 61

2

(f ′ξ,α(t∗)− f ′ξ,α(t)

−f ′ξ,α(t)

)(t∗ − t). (2.18)

Portanto, a inequacao acima junto com f ′ξ,α(t∗) ≤ 0 e f ′ξ,α(t) < 0 implica a segundainequacao em (2.16).

Finalmente, assuma que fξ,α satisfaz a4. Tome t ∈ [0, t∗). Como f ′ξ,α e crescente,f ′ξ,α(t∗) < 0 e f ′ξ,α(t) < 0, obtemos que

f ′ξ,α(t∗)− f ′ξ,α(t)

−f ′ξ,α(t)≤f ′ξ,α(t∗)− f ′ξ,α(t)

−f ′ξ,α(t∗)

=1

−f ′ξ,α(t∗)

f ′ξ,α(t∗)− f ′ξ,α(t)

t∗ − t(t∗ − t) ≤

f ′′ξ,α(t∗)

−f ′ξ,α(t∗)(t∗ − t),

onde a ultima inequacao segue do fato que fξ,α e duas vezes diferenciavel em [0, t∗).Combinando a inequacao acima com (2.18), segue a desigualdade em (2.17).

A sequencia de Newton tk para resolver a equacao fξ,α(t) = 0 com ponto inicial

t0 = 0 e definida como

t0 = 0, tk+1 = nfξ,α(tk), k = 0, 1, . . . . (2.19)

Daı, segue da Proposicao 2.10 que

Corolario 2.1 A sequencia tk esta bem definida, e estritamente crescente, esta

contida em [0, t∗) e converge Q-linearmente para t∗ como segue

t∗ − tk+1 ≤1

2(t∗ − tk), k = 0, 1, . . . .

Se fξ,α tambem satisfaz a4, entao tk converge Q-quadraticamente para t∗ como

segue

t∗ − tk+1 ≤f ′′ξ,α(t∗)

−2f ′ξ,α(t∗)(t∗ − tk)2, k = 0, 1, . . . .

Proposicao 2.11 A funcao [0, t∗) 3 t→ −(fξ,α(t))/(f ′ξ,α(t)) e decrescente.

Demonstracao: Usando o fato de que fξ,α e duas vezes diferenciavel e f ′ξ,α < 0em [0, t∗), e facil ver que(

−fξ,α(t)

f ′ξ,α(t)

)′=fξ,α(t)f ′′ξ,α(t)− (f ′ξ,α(t))2

(f ′ξ,α(t))2, ∀ t ∈ [0, t∗).

24

Page 34: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Daı, e suficiente mostrar que

fξ,α(t)f ′′ξ,α(t)− (f ′ξ,α(t))2 < 0, ∀ t ∈ [0, t∗). (2.20)

Como fξ,α e estritamente convexa (Proposicao 2.8) e f ′ξ,α e convexa (Proposicao 2.7),temos que

0 > fξ,α(t)+f ′ξ,α(t)(t∗−t), f ′′ξ,α(t) > 0, f ′ξ,α(t∗) ≥ f ′ξ,α(t)+f ′′ξ,α(t)(t∗−t), ∀ t ∈ [0, t∗).

Usando as inequacoes acima e a segunda inequacao em (2.13), obtemos que

fξ,α(t)f ′′ξ,α(t)− (f ′ξ,α(t))2 < f ′ξ,α(t)(t− t∗)f ′′ξ,α(t)− (f ′ξ,α(t))2 ≤ −f ′ξ,α(t)f ′ξ,α(t∗),

a qual combinado com a Proposicao 2.8 implica na inequacao em (2.20). Portanto,a proposicao segue.

Proposicao 2.12 A desigualdade ξ < t∗ e valida. Sejam η ≥ 1 e βx0 uma funcao

crescente de valores positivos em [0, t∗). Se

α ≥ ηβx0(t)

ηβx0(t)(f′e(t) + 1) + 1

, ∀ ξ ≤ t < t∗, (2.21)

entao

ηβx0(t)/α ≤ −1/f ′ξ,α(t), ∀ ξ ≤ t < t∗.

Demonstracao: Primeiro, usando que fξ,α e estritamente convexa (Proposicao2.8), definicao de t∗ em a3 e Proposicao (2.7) segue que

0 = fξ,α(t∗) > fξ,α(0) + f ′ξ,α(0)(t∗ − 0) = ξ − t∗,

o que prova a primeira afirmacao.

Agora, combinando a inequacao em (2.21), a1 e a2, obtemos com simples calculosque

αηβx0(t)(f′(t) + 1) + α ≥ ηβx0(t), ∀ ξ ≤ t < t∗.

Daı, usando f ′ξ,α(t) = (α−1)+αf ′(t) e algumas manipulacoes algebricas, temos que

ηβx0(t)f′ξ,α(t) ≥ −α, ∀ ξ ≤ t < t∗,

a qual combinada com a segunda inequacao em (2.13) prova a inequacao desejada.

Proposicao 2.13 Seja 0 < α < α com as correspondentes funcoes auxiliares fξ,α

e fξ,α e seus menores zeros t∗ e t∗, respectivamente. Entao as seguintes afirmacoes

sao validas:

25

Page 35: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

i) fξ,α < fξ,α em (0, R);

ii) f ′ξ,α < f ′ξ,α em (0, R);

iii) t∗ < t∗.

Demonstracao: Como f ′e e estritamente crescente (a2) segue que fe e estrita-mente convexa. Daı usando a1, temos que fe(t) + t > 0, para todo t ∈ (0, t∗).Portanto, como α > α > 0 e facil ver que

α(t+ fe(t)) < α(t+ fe(t)), ∀ t ∈ [0, t∗),

Para concluir a prova do item i, some ξ− t em ambos os lados da inequacao anteriore use a definicao em (2.12).

Para provar o item ii, note que de a2 temos que f ′e e estritamente crescente, istojunto com α > α implica que (α − α)(f ′e(t)− f ′e(0)) > 0, para todo t ∈ (0, t∗). Daı,usando a1 e algumas manipulacoes algebricas, obtemos que

(α− 1) + αf ′e(t) < (α− 1) + αf ′e(t), ∀ t ∈ [0, t∗).

Portanto, a afirmacao segue da inequacao acima e definicao em (2.12).

Para estabelecer o item iii, use item i e definicoes de t∗ e t∗ em a3.

26

Page 36: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Capıtulo 3

Analise Local do Metodo de

Gauss-Newton

Neste capıtulo, apresentaremos uma analise de convergencia local do metodo de

Gauss-Newton para resolver problemas de mınimos quadrados nao-lineares. Com-

provaremos que sob certas condicoes a sequencia gerada pelo metodo de Gauss-

Newton esta bem definida e converge linearmente para uma solucao do problema

em consideracao. Encerraremos, aplicando os resultados obtidos para a condicao

Lipschitz classica e condicao de Smale para funcoes analıticas. Os resultados deste

capıtulo ja se encontram publicados em [26].

Inicialmente, sejam X e Y espacos de Hilbert real ou complexo, Ω ⊆ X um

conjunto aberto e F : Ω → Y uma funcao continualmente diferenciavel. Considere

o seguinte problema dos mınimos quadrados nao-linear

min ‖F (x)‖2. (3.1)

Se F ′(x) e injetiva e tem imagem fechada para todo x ∈ Ω, o metodo de Gauss-

Newton usado para encontrar pontos estacionarios do problema acima e formalmente

descrito como: Dado x0 ∈ Ω defina

xk+1 = xk − F ′(xk)†F (xk), k = 0, 1, . . . .

A seguir, faremos uma analise de convergencia local do metodo definido acima.

3.1 Convergencia do Metodo de Gauss-Newton

Nesta secao, provaremos a convergencia local do metodo de Gauss-Newton para re-

solver (3.1). Com algumas exigencias para a funcao F e admitindo que o ponto

x∗ ∈ Ω e um ponto estacionario de (3.1), mostraremos que tomando o ponto inicial

27

Page 37: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

x0 numa vizinhanca apropriada de x∗, a sequencia gerada pelo metodo de Gauss-

Newton esta bem definida e converge linearmente para x∗. Alem disso, determinare-

mos os raios de convergencia otima e de unicidade do ponto estacionario. Estas

afirmacoes se encontram no teorema:

Teorema 3.1 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada

em Ω. Tome x∗ ∈ Ω, R > 0,

c := ‖F (x∗)‖, β :=∥∥F ′(x∗)†∥∥ , κ := sup t ∈ [0, R) : B(x∗, t) ⊂ Ω .

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e que existe uma funcao conti-

nuamente diferenciavel fr : [0, R)→ R tal que

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ≤ f ′r (‖x− x∗‖)− f ′r (τ‖x− x∗‖) , (3.2)

para todo τ ∈ [0, 1], x ∈ B(x∗, κ) e

h1) fr(0) = 0 e f ′r(0) = −1;

h2) f ′r e convexa e estritamente crescente;

h3) µ :=√

2 c β2D+f ′r(0) < 1.

Sejam as constantes positivas ν := sup t ∈ [0, R) : β[f ′r(t) + 1] < 1 ,

ρ := sup

t ∈ (0, ν) :

β[tf ′r(t)− fr(t)] +√

2cβ2[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]< 1

, r := min κ, ρ .

Entao, o metodo de Gauss-Newton para resolver (3.1), com ponto inicial x0 ∈B(x∗, r)/x∗

xk+1 = xk − F ′(xk)†F (xk), k = 0, 1 . . . , (3.3)

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1 − x∗‖ ≤β[f ′r(‖x0 − x∗‖)‖x0 − x∗‖ − fr(‖x0 − x∗‖)]‖x0 − x∗‖2[1− β(f ′r(‖x0 − x∗‖) + 1)]

‖xk − x∗‖2

+

√2cβ2[f ′r(‖x0 − x∗‖) + 1]

‖x0 − x∗‖[1− β(f ′r(‖x0 − x∗‖) + 1)]‖xk − x∗‖, k = 0, 1, . . . . (3.4)

Alem disso, se [β(ρf ′r(ρ) − fr(ρ)) +√

2cβ2(f ′r(ρ) + 1)]/[ρ(1 − β(f ′r(ρ) + 1))] = 1 e

ρ < κ, entao r = ρ e o melhor raio de convergencia possıvel.

Adicionalmente, se

28

Page 38: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

h4) c β0D+f ′r(0) < 1, entao x∗ e o unico ponto estacionario de F (x)∗F (x) em

B(x∗, σ), onde

σ := supt ∈ (0, κ) : [β(fr(t)/t+1)+cβ0(f ′r(t)+1)/t] < 1, β0 := ‖[F ′(x∗)∗F ′(x∗)]−1‖.

Observacao 3.1 Com o objetivo de deixar o Teorema acima “auto-contido”, enun-

ciamos novamente, mas desta vez de maneira implıcita, a definicao de funcao ma-

jorante radial. Portanto, todas as afirmacoes que faremos neste capıtulo envolvendo

a funcao majorante radial fr e suas relacoes com a funcao nao-linear F foram

provadas nas Secoes 2.1.1 e 2.1.2, respectivamente.

Observacao 3.2 Se c = 0 (o chamado caso residual-zero), a inequacao (3.4) im-

plica que o metodo de Gauss-Newton converge Q-quadraticamente para x∗. Daı,

seu comportamento e similar ao metodo de Newton (ver [15] e [22]). Se c e rela-

tivamente pequeno (o chamado caso residual-pequeno), a inequacao (3.4) implica

que o metodo de Gauss-Newton converge Q-linearmente para x∗. Porem, se c e

relativamente grande (o chamado caso residual-grande), o metodo de Gauss-Newton

pode nao ser localmente convergente, ver condicao h3 e exemplo 10.2.4 na pp.225 de

[6]. Portanto, podemos concluir que o metodo de Gauss-Newton comporta-se melhor

nos problemas de residual- zero-ou-pequeno que nos problemas de residual-grande,

enquanto o metodo de Newton e igualmente eficiente em todos estes casos.

Como Ω e aberto e imediato concluir que κ > 0. Agora, segue das Proposicoes

2.2, 2.4 e 2.6 que as constantes ν, ρ e σ sao positivas. Consequentemente, r > 0.

Para facilitar a demonstracao do Teorema 3.1, apresentaremos a seguir uma secao

contendo tres lemas auxiliares.

3.1.1 Resultados Auxiliares

Nesta subsecao nosso objetivo e demonstrar tres lemas que nos auxiliarao na prova

de convergencia do Teorema 3.1.

Inicialmente, note que o Lema 2.1 garante, em particular, que F ′(x)∗F ′(x) e

invertıvel em B(x∗, r), assim temos a boa definicao da aplicacao iteracao de Gauss-

Newton GF nesta regiao

GF : B(x∗, r) → Y

x 7→ x− F ′(x)†F (x).(3.5)

Podemos aplicar uma iteracao de Gauss-Newton em qualquer x ∈ B(x∗, r) para

obter GF (x), o qual pode nao pertencer a B(x∗, r) ou ate mesmo nao pertencer

ao domınio de F. Assim, isto e suficiente para garantir a boa definicao de apenas

uma iteracao. Para assegurar que a iteracao de Gauss-Newton possa ser repetida

indefinidamente, precisamos de mais alguns resultados.

29

Page 39: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Lema 3.1 Seja x ∈ Ω. Se ‖x− x∗‖ < r, entao

‖GF (x)− x∗‖ ≤β[f ′r(‖x− x∗‖)‖x− x∗‖ − fr(‖x− x∗‖)]‖x− x∗‖2[1− β(f ′r(‖x− x∗‖) + 1)]

‖x− x∗‖2

+

√2cβ2[f ′r(‖x− x∗‖) + 1]

‖x− x∗‖[1− β(f ′r(‖x− x∗‖) + 1)]‖x− x∗‖.

Em particular,

‖GF (x)− x∗‖ < ‖x− x∗‖.

Demonstracao: Primeiro, como ‖x − x∗‖ < r, o Lema 2.1 implica queF ′(x)∗F ′(x) e invertıvel; entao GF (x) esta bem definida. Agora, usando (3.5) eque F ′(x∗)

∗F (x∗) = 0 obtemos, apos simples calculos que

GF (x)− x∗ = x− x∗ −[F ′(x)∗F ′(x)

]−1F ′(x)∗F (x)

=[F ′(x)∗F ′(x)

]−1F ′(x)∗[F ′(x)(x− x∗)− F (x) + F (x∗)]

+[F ′(x∗)

TF ′(x∗)]−1

F ′(x∗)∗F (x∗)−

[F ′(x)∗F ′(x)

]−1F ′(x)∗F (x∗).

E facil ver que reunido a ultima equacao, definicao da inversa de Moore-Penrose e(2.8), obtemos

‖GF (x)− x∗‖ ≤∥∥F ′(x)†

∥∥ ‖EF (x, x∗)‖ +∥∥F ′(x∗)† − F ′(x)†

∥∥ ‖F (x∗)‖ .

Como c = ‖F (x∗)‖, combinando a ultima desigualdade com os Lemas 2.1 e 2.2temos que

‖GF (x)− x∗‖ ≤βefr(‖x− x∗‖, 0)

1− β(f ′r(‖x− x∗‖) + 1)+

√2cβ2(f ′r(‖x− x∗‖) + 1)

1− β(f ′r(‖x− x∗‖) + 1).

Daı, usando a definicao em (2.9) e h1, concluımos que

‖GF (x)−x∗‖ ≤β[f ′r(‖x− x∗‖)‖x− x∗‖ − fr(‖x− x∗‖)]

1− β(f ′r(‖x− x∗‖) + 1)+

√2cβ2[f ′r(‖x− x∗‖) + 1]

1− β(f ′r(‖x− x∗‖) + 1),

que e equivalente a primeira desigualdade do lema.

Para concluir a prova, note que o lado direito da desigualdade acima tambem eequivalente a[

β[f ′r(‖x− x∗‖)‖x− x∗‖ − fr(‖x− x∗‖)] +√

2cβ2[f ′r(‖x− x∗‖) + 1]

‖x− x∗‖[1− β(f ′r(‖x− x∗‖) + 1)]

]‖x− x∗‖.

Por outro lado, como x ∈ B(x∗, r)/x∗, i.e., 0 < ‖x − x∗‖ < r ≤ ρ segue dadesigualdade (2.3) com t = ‖x− x∗‖, que o termo entre colchetes na equacao acimae menor que um, o que conclui a prova.

30

Page 40: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Nos proximos dois lemas, obtemos os raios de convergencia otimo e de unicidade do

ponto estacionario.

Lema 3.2 Se [β(ρf ′r(ρ) − fr(ρ)) +√

2cβ2(f ′r(ρ) + 1)]/[ρ(1 − β(f ′r(ρ) + 1))] = 1 e

ρ < κ, entao r = ρ e o melhor raio de convergencia possıvel.

Demonstracao: Seja a funcao h : (−κ, κ)→ R, definida por

h(t) =

−t/β + t− fr(−t), t ∈ (−κ, 0],

−t/β + t+ fr(t), t ∈ [0, κ).(3.6)

E simples mostrar que h(0) = 0, h′(0) = −1/β, h′(t) = −1/β + 1 + f ′r(|t|) e

|h′(t)− h′(τt)| ≤ f ′r(|t|)− f ′r(τ |t|), τ ∈ [0, 1], t ∈ (−κ, κ).

Assim, F = h satisfaz todas as hipoteses do Teorema 3.1 com c = |h(0)| = 0. Comoρ < κ, e suficiente mostrar que o metodo de Gauss-Newton para resolver (3.1), comF = h e ponto inicial x0 = ρ nao converge. Neste caso, como c = 0 nossa exigenciaadicional torna-se

(β(ρf ′r(ρ)− fr(ρ))/ρ(1− β(f ′r(ρ) + 1)) = 1. (3.7)

Agora, considerando a ultima equacao, definicao em (3.6) e manipulacoes algebricas,obtemos

x1 = ρ− h′(ρ)Th(ρ)

h′(ρ)Th′(ρ)= ρ− −ρ/β + ρ+ fr(ρ)

−1/β + 1 + f ′r(ρ)= −ρ

(β(ρf ′r(ρ)− fr(ρ))

ρ(1− β(f ′r(ρ) + 1))

)= −ρ.

Novamente, considerando nossa exigencia adicional em (3.7), definicao em (3.6),obtemos

x2 = −ρ− h′(−ρ)Th(−ρ)

h′(−ρ)Th′(−ρ)= −ρ− ρ/β − ρ− fr(ρ)

−1/β + 1 + f ′r(ρ)= ρ

(β(ρf ′r(ρ)− fr(ρ))

ρ(1− β(f ′r(ρ) + 1))

)= ρ.

Portanto, o metodo de Gauss-Newton para resolver (3.1) com F = h e ponto inicialx0 = ρ, produz o ciclo

x0 = ρ, x1 = −ρ, x2 = ρ, . . . .

Consequentemente, a sequencia nao converge, o que prova o lema.

Lema 3.3 Se h4 vale, entao o ponto x∗ e o unico ponto estacionario de F ′(x)∗F (x)

em B(x∗, σ).

31

Page 41: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Demonstracao: Suponha que y ∈ B(x∗, σ) e outro ponto estacionario deF ′(x)∗F (x). Daı, como F ′(y)∗F (y) = 0, temos que

y − x∗ = y − x∗ − [F ′(x∗)∗F ′(x∗)]

−1F ′(y)∗F (y).

Considerando a ultima equacao, F ′(x∗)∗F (x∗) = 0 e algumas manipulacoes

algebricas obtemos

y − x∗ = [F ′(x∗)∗F ′(x∗)]

−1F ′(x∗)∗[F ′(x∗)(y − x∗)− F (y) + F (x∗)]

+ [F ′(x∗)∗F ′(x∗)]

−1(F ′(x∗)∗ − F ′(y)∗)F (y).

Combinando a ultima equacao com definicoes de c, β e β0 obtemos, apos algunscalculos que

‖y − x∗‖ ≤ β

∫ 1

0

‖F ′(x∗)− F ′(x∗ + u(y − x∗))‖‖y − x∗‖du+ cβ0‖F ′(x∗)∗ − F ′(y)∗‖.

Agora, usando (3.2) com x = x∗ + u(y − x∗) e τ = 0 no primeiro termo e x = y eτ = 0 no segundo termo do lado direito da ultima desigualdade, obtemos

‖y − x∗‖ ≤ β

∫ 1

0

[f ′r(u‖y − x∗‖)− f ′r(0)]‖y − x∗‖du+ cβ0[f ′r(‖y − x∗‖)− f ′r(0)].

Avaliando a integral acima e usando h1, segue da ultima desigualdade que

‖y − x∗‖ ≤[β(fr(‖y − x∗‖) + ‖y − x∗‖) + cβ0(f ′r(‖y − x∗‖) + 1)

‖y − x∗‖

]‖y − x∗‖.

Como 0 < ‖y − x∗‖ < σ, podemos aplicar a desigualdade (2.5) com t = ‖x − x∗‖,para concluir que o termo entre colchetes na ultima desigualdade e menor que um.Daı, ‖y − x∗‖ < ‖y − x∗‖, o que e uma contradicao. Portanto, y = x∗.

Observacao 3.3 Note que, no Lema acima usamos que a condicao (3.2) e satisfeita

apenas para τ = 0.

3.1.2 Prova do Teorema 3.1

Primeiro, note que a equacao em (3.3) junto com (3.5) implica que a sequencia xksatisfaz

xk+1 = GF (xk), k = 0, 1, . . . . (3.8)

Demonstracao: Desde que x0 ∈ B(x∗, r)/x∗, i.e., 0 < ‖x0 − x∗‖ < r, usandoum argumento de inducao o Lema 2.1 e a ultima desigualdade do Lema 3.1, e facilver que xk esta bem definida e contida em B(x∗, r).

32

Page 42: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Agora, iremos provar que xk converge para x∗. Como xk esta bem definidae contida em B(x∗, r), combinando o Lema 3.1 com (3.8), temos que

‖xk+1 − x∗‖ ≤β[f ′r(‖xk − x∗‖)‖xk − x∗‖ − fr(‖xk − x∗‖)]‖xk − x∗‖2[1− β(f ′r(‖xk − x∗‖) + 1)]

‖xk − x∗‖2

+

√2cβ2[f ′r(‖xk − x∗‖) + 1]

‖xk − x∗‖[1− β(f ′r(‖xk − x∗‖) + 1)]‖xk − x∗‖,

para todo k = 0, 1, . . . . Por outro lado, usando (3.8) e a ultima parte do Lema 3.1,concluımos que

‖xk − x∗‖ < ‖x0 − x∗‖, k = 1, 2 . . . . (3.9)

Daı, combinando as duas ultimas desigualdades e a ultima parte da Proposicao 2.3,temos que

‖xk+1 − x∗‖ ≤β[f ′r(‖x0 − x∗‖)‖x0 − x∗‖ − fr(‖x0 − x∗‖)]‖x0 − x∗‖2[1− β(f ′r(‖x0 − x∗‖) + 1)]

‖xk − x∗‖2

+

√2cβ2[f ′r(‖x0 − x∗‖) + 1]

‖x0 − x∗‖[1− β(f ′r(‖x0 − x∗‖) + 1)]‖xk − x∗‖, k = 0, 1, . . . ,

que e a desigualdade (3.4) do teorema. Considerando (3.9) e a ultima desigualdadetemos que

‖xk+1 − x∗‖ ≤[β[f ′r(‖x0 − x∗‖)‖x0 − x∗‖ − fr(‖x0 − x∗‖)] +

√2cβ2[f ′r(‖x0 − x∗‖) + 1]

‖x0 − x∗‖[1− β(f ′r(‖x0 − x∗‖) + 1)]

]‖xk−x∗‖,

para todo k = 0, 1, . . .. Assim, segue da desigualdade (2.3) da Proposicao 2.4 comt = ‖x0 − x∗‖ que o termo entre colchetes na ultima desigualdade e menor queum. Portanto, ‖xk − x∗‖ converge para zero, i.e., xk converge para x∗. Osraios de convergencia otima e de unicidade do ponto estacionario foram provadosnos Lemas 3.2 e 3.3, respectivamente.

No caso de problemas de resıduo-zero, i.e., c = 0, o Teorema 3.1 torna-se:

Corolario 3.1 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada

em Ω. Tome x∗ ∈ Ω, R > 0,

β :=∥∥F ′(x∗)†∥∥ , κ := sup t ∈ [0, R) : B(x∗, t) ⊂ Ω .

Suponha que F (x∗) = 0, F ′(x∗) e injetiva e que existe uma funcao continuamente

diferenciavel fr : [0, R)→ R tal que

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ≤ f ′r (‖x− x∗‖)− f ′r (τ‖x− x∗‖) ,

33

Page 43: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

para todo τ ∈ [0, 1], x ∈ B(x∗, κ) e

h1) fr(0) = 0 e f ′r(0) = −1;

h2) f ′r e convexa e estritamente crescente.

Sejam as constantes positivas ν := sup t ∈ [0, R) : β[f ′r(t) + 1] < 1 ,

ρ := sup

t ∈ (0, ν) :

β[tf ′r(t)− fr(t)]t[1− β(f ′r(t) + 1)]

< 1

, r := min κ, ρ .

Entao, o metodo de Gauss-Newton para resolver (3.1), com ponto inicial x0 ∈B(x∗, r)/x∗

xk+1 = xk − F ′(xk)†F (xk), k = 0, 1 . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ o qual

e o unico zero de F (x) em B(x∗, σ), onde σ := supt ∈ (0, κ) : β[fr(t)/t+ 1] < 1 e

vale

‖xk+1−x∗‖ ≤β[f ′r(‖x0 − x∗‖)‖x0 − x∗‖ − fr(‖x0 − x∗‖)]‖x0 − x∗‖2[1− β(f ′r(‖x0 − x∗‖) + 1)]

‖xk − x∗‖2, k = 0, 1, . . . .

Alem disso, se [β(ρf ′r(ρ)− fr(ρ))]/[ρ(1− β(f ′r(ρ) + 1))] = 1 e ρ < κ, entao r = ρ e

o melhor raio de convergencia possıvel.

Observacao 3.4 O Corolario 3.1 e uma generalizacao dos resultados do metodo

de Newton para resolver o sistema de equacoes nao-lineares F (x) = 0, pois quando

F ′(x∗) e invertıvel o Corolario 3.1 e similar ao Teorema 2.1 em [15].

3.2 Casos Especiais

Nesta secao, apresentaremos dois casos especiais do Teorema 3.1, a saber, resultados

de convergencia sob condicao Lipschitz classica e resultados de convergencia sob

condicao de Smale para funcoes analıticas.

3.2.1 Resultados de Convergencia Sob Condicao Lipschitz

Classica

Nesta secao mostraremos um teorema correspondente ao Teorema 3.1, onde a

condicao geral (3.2) e substituida pela condicao Lipschitz classica (veja [6] e [7]).

Teorema 3.2 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada

34

Page 44: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

em Ω. Tome x∗ ∈ Ω,

c := ‖F (x∗)‖, β :=∥∥F ′(x∗)†∥∥ , κ := sup t > 0 : B(x∗, t) ⊂ Ω .

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e existe um K > 0 tal que

√2cβ2K < 1, ‖F ′(x)− F ′(y)‖ ≤ K‖x− y‖, ∀ x, y ∈ B(x∗, κ).

Seja

r := minκ, (2− 2

√2Kβ2c)/(3Kβ)

.

Entao, o metodo de Gauss-Newton para resolver (3.1), com ponto inicial x0 ∈B(x∗, r)/x∗

xk+1 = xk − F ′(xk)†F (xk), k = 0, 1 . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1 − x∗‖ ≤βK

2(1− βK‖x0 − x∗‖)‖xk − x∗‖2 +

√2cβ2K

1− βK‖x0 − x∗‖‖xk − x∗‖,

para todo k = 0, 1, . . . . Alem disso, se (2 − 2√

2Kβ2c)/(3Kβ) < κ, entao r =

(2− 2√

2Kβ2c)/(3Kβ) e o melhor raio de convergencia possıvel.

Adicionalmente, se cβ0K < 1, entao o ponto x∗ e o unico ponto estacionario de

F (x)∗F (x) em B(x∗, (2− 2cβ0K)/(βK)), onde β0 = ‖[F ′(x∗)TF ′(x∗)]−1‖.

Demonstracao: E imediato que F , x∗ e fr : [0, κ) → R definida por fr(t) =Kt2/2 − t, satisfazem as hipoteses (3.2), h1, h2, h3 e h4 no Teorema 3.1. Nestecaso, e facil ver que as constantes ν e ρ como definidas no teorema 3.1, sao

0 < ρ = (2− 2√

2Kβ2c)/(3βK)) ≤ ν = 1/βK.

Como consequencia, 0 < r = minκ, ρ. Alem disso, com simples calculos podemosmostrar que

[β(ρf ′r(ρ)− fr(ρ)) +√

2cβ2(f ′r(ρ) + 1)]/[ρ(1− β(f ′r(ρ) + 1))] = 1,

e [β(fr(t)/t+ 1) + cβ0(f ′r(t) + 1)/t] < 1 para todo t ∈ (0, (2− 2cβ0K)/(βK)). AssimF , r, fr e x∗ satisfazem todas as hipoteses do Teorema 3.1. Portanto, as afirmacoesdeste teorema seguem do Teorema 3.1.

No caso de problemas de resıduo-zero, i.e., c = 0, o Teorema 3.2 torna-se:

Corolario 3.2 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada

35

Page 45: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

em Ω. Tome x∗ ∈ Ω,

β :=∥∥F ′(x∗)†∥∥ , κ := sup t > 0 : B(x∗, t) ⊂ Ω .

Suponha que F (x∗) = 0, F ′(x∗) e injetiva e existe um K > 0 tal que

‖F ′(x)− F ′(y)‖ ≤ K‖x− y‖, ∀ x, y ∈ B(x∗, κ).

Seja

r := min κ, 2/(3Kβ) .

Entao o metodo de Gauss-Newton para resolver (3.1), com ponto inicial x0 ∈B(x∗, r)/x∗

xk+1 = xk − F ′(xk)†F (xk), k = 0, 1 . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r) e converge para x∗ o

qual e o unico zero de F em B(x∗, 2/(βK)) e vale

‖xk+1 − x∗‖ ≤βK

2(1− βK‖x0 − x∗‖)‖xk − x∗‖2, k = 0, 1, . . . .

Alem disso, se 2/(3Kβ) < κ, entao r = 2/(3Kβ) e o melhor raio de convergencia

possıvel.

Observacao 3.5 Quando F ′(x∗) e invertıvel o Corolario 4.2 e similar ao Teo-

rema 3.1 em [15].

Para exemplificar, aplicaremos os resultados obtidos nesta secao em um exemplo

numerico de Dedieu and Shub [14].

Exemplo 3.1 Seja F : R → R2 tal que F (x) = (x, x2 + c)T , onde c ∈ R e dado.

Daı,

minx∈R‖F (x)‖2 = x4 + (2c+ 1)x2 + c2. (3.10)

E facil verificar que F ′(x) = (1, 2x)T , ‖F ′(x)− F ′(y)‖ = 2|x−y|, para todo x, y ∈ R,e x∗ = 0 e um ponto estacionario de F (x)TF (x). Deste modo, K = 2 e β = 1.

Portanto, concluımos do Teorema 3.2 que, se |c| <√

2/4, entao o metodo de Gauss-

Newton, para resolver (3.10), com ponto inicial x0 ∈ B(0, (1− 2√

2|c|)/3) esta bem

definido, a sequencia xk esta contida em B(0, (1− 2√

2|c|)/3), converge para 0 e

|xk+1| ≤|xk|+ 2

√2|c|

1− 2|x0||xk|, k = 0, 1, . . . .

Alem disso, se c = 0 a sequencia xk converge Q-quadraticamente para x∗ = 0.

36

Page 46: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

3.2.2 Resultados de Convergencia sob Condicao de Smale

Nesta secao, mostraremos um teorema correspondente ao Teorema 3.1, onde a

condicao geral (3.2) e substituida pela condicao de Smale (ver [14, 27]) para funcoes

analıticas.

Teorema 3.3 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F : Ω→Y uma funcao analıtica tal que F ′(x) tem imagem fechada em Ω. Tome x∗ ∈ Ω,

c := ‖F (x∗)‖, β := ‖F ′(x∗)†‖, κ := supt > 0 : B(x∗, t) ⊂ Ω.

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e

γ := supn>1

∥∥∥∥F (n)(x∗)

n!

∥∥∥∥1/(n−1)

< +∞, 2√

2cβ2γ < 1. (3.11)

Sejam a := (2 + 3β −√

2cβ2γ), b := 4(1 + β)(1− 2√

2cβ2γ) e

r := minκ, (a−

√a2 − b)/(2γ(1 + β))

.

Entao, o metodo de Gauss-Newton para resolver (3.1), com ponto inicial x0 ∈B(x∗, r)/x∗

xk+1 = xk − F ′(xk)†F (xk), k = 0, 1 . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1 − x∗‖ ≤βγ

(1− γ‖x0 − x∗‖)2 − βγ(2‖x0 − x∗‖ − γ‖x0 − x∗‖2)‖xk − x∗‖2

+

√2cβ2γ(2− γ‖x0 − x∗‖)

(1− γ‖x0 − x∗‖)2 − βγ(2‖x0 − x∗‖ − γ‖x0 − x∗‖2)‖xk − x∗‖,

para todo k = 0, 1, . . . . Alem disso, se (a −√a2 − b)/(2γ(1 + β)) < κ, entao r =

(a−√a2 − b)/(2γ(1 + β)) e o melhor raio de convergencia possıvel.

Adicionalmente, se 2cβ0γ < 1, entao o ponto x∗ e o unico ponto estacionario de

F (x)∗F (x) em B(x∗, σ), onde σ := (ω1−√ω2

1 − ω2)/(2γ(1+β)), ω1 := (2+β−cβ0),

ω2 := 4(1 + β)(1− 2cβ0γ), β0 := ‖[F ′(x∗)TF ′(x∗)]−1‖.

Observacao 3.6 Os resultados do Teorema acima apareceram pela primeira vez em

[14], o qual tambem mostrou que neste caso um ponto estacionario de F (x)∗F (x) e

um minımo local estrito de (3.1).

Os seguintes resultados serao necessarios na prova do teorema acima.

37

Page 47: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Lema 3.4 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto, F : Ω→ Y

uma funcao analıtica. Suponha que x∗ ∈ Ω e B(x∗, 1/γ) ⊂ Ω, onde γ e definido em

(3.11). Entao, para todo x ∈ B(x∗, 1/γ) vale

‖F ′′(x)‖ 6 (2γ)/(1− γ‖x− x∗‖)3.

Demonstracao: Seja x ∈ Ω. Como F e uma funcao analıtica, temos que

F ′′(x) =∞∑n=0

1

n!F (n+2)(x∗)(x− x∗)n.

Combinando (3.11) e a equacao acima obtemos, apos algumas manipulacoesalgebricas que

‖F ′′(x)‖ 6 γ

∞∑n=0

(n+ 2)(n+ 1)(γ||x− x∗||)n.

Por outro lado, como B(x∗, 1/γ) ⊂ Ω temos γ‖x − x∗‖ < 1. Daı, segue daProposicao 1.2 que

2

(1− γ‖x− x∗‖)3=∞∑n=0

(n+ 2)(n+ 1)(γ||x− x∗||)n.

Combinando as duas ultimas equacoes, obtemos o resultado desejado.

O proximo resultado fornece uma condicao mais facil de ser verificada do que a

condicao (3.2), quando as funcoes em consideracao sao duas vezes continuamente

diferenciaveis.

Lema 3.5 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto, F : Ω→ Y

uma funcao duas vezes diferenciavel. Se existe uma funcao f : [0, R)→ R duas vezes

continuamente diferenciavel tal que

‖F ′′(x)‖ 6 f ′′(‖x− x∗‖), (3.12)

para todo x ∈ Ω e ‖x− x∗‖ < R, entao F e f satisfaz (3.2).

Demonstracao: Sejam x ∈ B(x∗, κ) e τ ∈ [0, 1]. E facil ver que

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ≤∫ 1

τ

‖F ′′(x∗ + t(x− x∗))‖ ‖x− x∗‖dt.

38

Page 48: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Agora, como ‖x− x∗‖ < κ e F satisfaz (3.12), obtemos da desigualdade acima que

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ≤∫ 1

τ

f ′′(t‖x− x∗‖)‖x− x∗‖dt.

Avaliando a integral acima, segue o resultado desejado.

[Prova do Teorema 4.3]. Considere a funcao real fr : [0, 1/γ)→ R defina por

fr(t) =t

1− γt− 2t.

E simples mostrar que fr e analıtica e

fr(0) = 0, f ′r(t) = 1/(1− γt)2 − 2, f ′r(0) = −1, f ′′r (t) = (2γ)/(1− γt)3,

fnr (0) = n! γn−1,

para n ≥ 2. Segue das equacoes acima que fr satisfaz as hipoteses h1, h2, h3 e

h4 no Teorema 3.1. Como f ′′r (t) = (2γ)/(1− γt)3, combinando os Lemas 3.4 e 3.5

concluimos que F e fr satisfaz (3.2) com R = 1/γ. Neste caso, e facil ver que as

constantes ν e ρ como definidas no Teorema 3.1, sao

0 < ρ = (a−√a2 − b)/(2γ(1 + β)) < ν = ((1 + β)−

√β(1 + β))/(γ(1 + β)) < 1γ,

onde a := (2 + 3β −√

2cβ2γ), b = 4(1 + β)(1 − 2√

2cβ2γ). Como consequencia,

0 < r = min κ, ρ . Alem disso, com simples calculos podemos mostrar que

[β(ρf ′r(ρ)− fr(ρ)) +√

2cβ2(f ′r(ρ) + 1)]/[ρ(1− β(f ′r(ρ) + 1))] = 1,

e [β(fr(t)/t + 1) + cβ0(f ′r(t) + 1)/t] < 1 para todo t ∈ (0, σ), onde σ :=

(ω1 −√ω2

1 − ω2)/(2γ(1 + β), ω1 := (2 + β − cβ0), ω2 := 4(1 + β)(1 − 2cβ0γ) e

β0 := ‖[F ′(x∗)TF ′(x∗)]−1‖. Assim, F , σ, fr e x∗ satisfazem todas as hipoteses do

Teorema 3.1. Portanto, as afirmacoes deste teorema seguem do Teorema 3.1.

No caso de problemas de resıduo-zero, i.e., c = 0, o Teorema 3.1 torna-se:

Corolario 3.3 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao analıtica tal que F ′(x) tem imagem fechada em Ω. Tome x∗ ∈ Ω,

β :=∥∥F ′(x∗)†∥∥ , κ := sup t > 0 : B(x∗, t) ⊂ Ω .

39

Page 49: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Suponha que F (x∗) = 0, F ′(x∗) e injetiva e

γ := supn>1

∥∥∥∥F (n)(x∗)

n!

∥∥∥∥1/(n−1)

< +∞.

Seja

r := minκ, (2 + 3β −

√β(8 + 9β))/(2γ(1 + β))

.

Entao, o metodo de Gauss-Newton para resolver (3.1), com ponto inicial x0 ∈B(x∗, r)/x∗

xk+1 = xk − F ′(xk)†F (xk), k = 0, 1 . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r) e converge para x∗ o

qual e o unico zero de F em B(x∗, 1/(γ(1 + β))) e vale

‖xk+1 − x∗‖ ≤βγ

(1− γ‖x0 − x∗‖)2 − βγ(2‖x0 − x∗‖ − γ‖x0 − x∗‖2)‖xk − x∗‖2,

para todo k = 0, 1, . . . . Alem disso, (2 + 3β −√β(8 + 9β))/(2γ(1 + β)) < κ, entao

r = ((2 + 3β −√β(8 + 9β))/(2γ(1 + β)) e o melhor raio de convergencia possıvel.

Observacao 3.7 Quando F ′(x∗) e invertıvel o Corolario 4.3 e similar ao Teo-

rema 3.4 em [15].

40

Page 50: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Capıtulo 4

Analise Local do Metodo Quase

Gauss-Newton Inexato

Neste capıtulo, apresentaremos uma analise de convergencia local do metodo in-

exato quase Gauss-Newton para problemas de mınimos quadrados nao-lineares.

Comprovaremos que sob certas condicoes a sequencia gerada pelo metodo inexato

quase Gauss-Newton esta bem definida e converge linearmente para uma solucao do

problema em consideracao. Encerraremos, aplicando os resultados obtidos para a

condicao Lipschitz classica e condicao de Smale para funcoes analıticas. Os resulta-

dos deste capıtulo se encontram submetidos em perıodico especializado e podem ser

vistos em [31].

Inicialmente, sejam X e Y espacos de Hilbert real ou complexo, Ω ⊆ X um

conjunto aberto e F : Ω→ Y uma funcao continuamente diferenciavel. Considere o

seguinte problema dos mınimos quadrados nao-linear

min ‖F (x)‖2. (4.1)

Se F ′(x) e injetiva e tem imagem fechada para todo x ∈ Ω, o metodo quase Gauss-

Newton inexato, onde controle residual relativo escalado e feito em cada iteracao, e

formalmente descrito como: Dado x0 ∈ Ω defina

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . ,

onde B(xk) e uma aproximacao invertıvel para F ′(xk)∗F ′(xk) e o resıduo rk satisfaz

‖Pkrk‖ ≤ θk‖PkF ′(xk)∗F (xk)‖,

para as dadas sequencias θk e Pk de numeros reais e matrizes invertıveis, res-

pectivamente.

A seguir, faremos uma analise de convergencia local do metodo definido acima.

41

Page 51: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

4.1 Convergencia do Metodo Quase Gauss-

Newton Inexato

Nesta secao, provaremos a convergencia local do metodo quase Gauss-Newton inex-

ato para resolver (4.1). Com algumas exigencias para a funcao F e admitindo que o

ponto x∗ ∈ Ω e um ponto estacionario de (4.1), mostraremos que tomando o ponto

inicial x0 numa vizinhanca apropriada de x∗, a sequencia gerada pelo metodo quase

Gauss-Newton inexato esta bem definida e converge linearmente para x∗. Estas

afirmacoes se encontram no teorema:

Teorema 4.1 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada

em Ω. Tome x∗ ∈ Ω, R > 0,

c := ‖F (x∗)‖, β :=∥∥F ′(x∗)†∥∥ , κ := sup t ∈ [0, R) : B(x∗, t) ⊂ Ω .

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e que existe uma funcao conti-

nuamente diferenciavel fr : [0, R)→ R tal que

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ≤ f ′r (‖x− x∗‖)− f ′r (τ‖x− x∗‖) , (4.2)

para todo τ ∈ [0, 1], x ∈ B(x∗, κ) e

h1) fr(0) = 0 and f ′r(0) = −1;

h2) f ′r e convexa e estritamente crescente;

h3) µ :=√

2 c β2D+f ′r(0) < 1.

Sao dadas as constantes nao-negativas 0 ≤ ϑ < 1, 0 ≤ ω2 < ω1 tais que ω1(µ+µϑ+

ϑ) + ω2 < 1. Sejam as constantes positivas ν := sup t ∈ [0, R) : β[f ′r(t) + 1] < 1 ,

ρ := sup

t ∈ (0, ν) : (1 + ϑ)ω1β

tf ′r(t)− fr(t) +√

2cβ[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]+ ω1ϑ+ ω2 < 1

,

r := min κ, ρ .

Considere B(xk) uma aproximacao invertıvel de F ′(xk)∗F ′(xk) satisfazendo

‖B(xk)−1F ′(xk)

∗F ′(xk)‖ ≤ ω1, ‖B(xk)−1F ′(xk)

∗F ′(xk)− I‖ ≤ ω2, k = 0, 1, . . . .

Entao, o metodo quase Gauss-Newton inexato para resolver (4.1), com ponto inicial

x0 ∈ B(x∗, r)\x∗

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . , (4.3)

42

Page 52: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

onde o resıduo rk, a matriz invertıvel Pk (precondicionando o sistema linear em

(4.3)) e o termo “forcing”θk satisfazem as seguintes condicoes

‖Pkrk‖ ≤ θk‖PkF ′(xk)∗F (xk)‖, 0 ≤ θkcond(PkF′(xk)

∗F ′(xk)) ≤ ϑ, k = 0, 1, . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1 − x∗‖ ≤ (1 + ϑ)ω1β[f ′r(‖x0 − x∗‖)‖x0 − x∗‖ − fr(‖x0 − x∗‖)]‖x0 − x∗‖2[1− β(f ′r(‖x0 − x∗‖) + 1)]

‖xk − x∗‖2

+

((1 + ϑ)ω1

√2cβ2[f ′r(‖x0 − x∗‖) + 1]

‖x0 − x∗‖[1− β(f ′r(‖x0 − x∗‖) + 1)]+ ω1ϑ+ ω2

)‖xk − x∗‖, (4.4)

para todo k = 0, 1, . . . .

Observacao 4.1 Com o objetivo de deixar o Teorema acima “auto-contido”, enun-

ciamos novamente, mas desta vez de maneira implıcita, a definicao de funcao ma-

jorante radial. Portanto, todas as afirmacoes que faremos neste capıtulo envolvendo

a funcao majorante radial fr e suas relacoes com a funcao nao-linear F foram

provadas nas Secoes 2.1.1 e 2.1.2, respectivamente.

Observacao 4.2 Em particular, se ϑ = 0 (neste caso θk ≡ 0 e rk ≡ 0) no Teo-

rema 4.1, obtemos a convergencia do metodo quase Gauss-Newton sob condicao

majorante, o qual para ω1 = 1 e ω2 = 0, i.e., B(xk) = F ′(xk)∗F ′(xk), foi obtido

no Teorema 3.1 do Capıtulo 2. Agora, no caso de resıduo zero, i.e., c = 0 e F ′(x∗)

invertıvel, obtemos a convergencia do metodo quase-Newton inexato sob condicao

majorante, o qual foi obtido por Ferreira, Goncalves [16] no Teorema 4. Final-

mente, se c = ϑ = ω2 = 0, ω1 = 1 e F ′(x∗) e invertıvel no Teorema 4.1, obtemos

a convergencia do metodo de Newton sob condicao majorante, o qual foi obtido por

Ferreira [15] no Teorema 2.1.

Como Ω e aberto e imediato concluir que κ > 0. Agora, segue das Proposicoes 2.2

e 2.5 que as constantes ν e ρ sao positivas. Consequentemente, r > 0.

Para facilitar a demonstracao do Teorema 4.1, apresentaremos a seguir um re-

sultado auxiliar.

Lema 4.1 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F : Ω→ Y

uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada em Ω.

Tome x∗ ∈ Ω, R > 0 e sejam c, β, κ como definidos no Teorema 4.1. Suponha que

F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e que existe uma fr : [0, R)→ R continuamente

diferenciavel satisfazendo (4.2), h1, h2 e h3. Sejam µ, ϑ, ω1, ω2, ν, ρ e r como no

43

Page 53: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Teorema 4.1. Assuma que x ∈ B(x∗, r)\x∗, i.e., 0 < ‖x− x∗‖ < r. Defina

x+ = x+ S, B(x)S = −F ′(x)∗F (x) + r, (4.5)

onde B(x) e uma aproximacao invertıvel de F ′(x)∗F ′(x) satisfazendo

‖B(x)−1F ′(x)∗F ′(x)‖ ≤ ω1, ‖B(x)−1F ′(x)∗F ′(x)− I‖ ≤ ω2, (4.6)

e o termo “forcing”θ e o resıduo r satisfazem

θcond(PF ′(x)∗F ′(x)) ≤ ϑ, ‖Pr‖ ≤ θ‖PF ′(x)∗F (x)‖, (4.7)

com P uma matriz invertıvel (precondicionando o sistema linear em (4.5)). Entao

x+ esta bem definido e vale

‖x+ − x∗‖ ≤ (1 + ϑ)ω1β[f ′r(‖x− x∗‖)‖x− x∗‖ − fr(‖x− x∗‖)]‖x− x∗‖2[1− β(f ′r(‖x− x∗‖) + 1)]

‖x− x∗‖2

+

((1 + ϑ)ω1

√2cβ2[f ′r(‖x− x∗‖) + 1]

‖x− x∗‖[1− β(f ′r(‖x− x∗‖) + 1)]+ ω1ϑ+ ω2

)‖x− x∗‖, (4.8)

para todo k = 0, 1, . . . . Em particular,

‖x+ − x∗‖ < ‖x− x∗‖.

Demonstracao: Primeiro, como ‖x−x∗‖ < r, o Lema 2.1 implica que F ′(x)∗F ′(x)e invertıvel. Daı, como B(x) e uma aproximacao invertıvel de F ′(x)∗F ′(x) sat-isfazendo (4.6), segue que x+ esta bem definida. Agora, combinando (4.5),F ′(x∗)

∗F (x∗) = 0 e algumas manipulacoes algebricas temos que

x+ − x∗ = x− x∗ −B(x)−1F ′(x)∗(F (x)− F (x∗)

)+B(x)−1r

+B(x)−1F ′(x)∗F ′(x)[F ′(x∗)

†F (x∗)− F ′(x)†F (x∗)].

Combinando a igualdade acima com algumas manipulacoes algebricas, obtemos que

x+ − x∗ = B(x)−1F ′(x)∗F ′(x)F ′(x)†(F (x∗)− [F (x) + F ′(x)(x∗ − x)]

)+B(x)−1r

+B(x)−1 (F ′(x)∗F ′(x)−B(x)) (x− x∗)

+B(x)−1F ′(x)∗F ′(x)[F ′(x∗)†F (x∗)− F ′(x)†F (x∗)].

44

Page 54: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

A ultima equacao, juntamente com (2.8) e (4.6), implica que

‖x+ − x∗‖ ≤ ω1‖F ′(x)†‖‖EF (x, x∗)‖+ ‖B(x)−1r‖

+ ω2‖x− x∗‖+ ω1‖F ′(x)† − F ′(x∗)†‖‖F (x∗)‖.

Por outro lado, usando (2.10), (4.6) e (4.7) obtemos, com simples calculos que

‖B(x)−1r‖ ≤ ‖B(x)−1P−1‖‖Pr‖

≤ θ‖B(x)−1F ′(x)∗F ′(x)‖‖(PF ′(x)∗F ′(x))−1‖‖PF ′(x)∗F ′(x)‖‖F ′(x)†F (x)‖

≤ ω1ϑ‖SF (x)‖.

Assim, obtemos imediatamente das duas ultimas equacoes que

‖x+ − x∗‖ ≤ ω1‖F ′(x)†‖‖EF (x, x∗)‖+ ω1ϑ‖SF (x)‖

+ ω2‖x− x∗‖+ ω1‖F ′(x)† − F ′(x∗)†‖‖F (x∗)‖.

Combinando a ultima equacao com os Lemas 2.1, 2.2 e 2.3, obtemos

‖x+ − x∗‖ ≤ (1 + ϑ)βω1efr(‖x− x∗‖, 0) +

√2cβ(f ′r(‖x− x∗‖) + 1)

1− β(f ′r(‖x− x∗‖) + 1)

+ ω1ϑ‖x− x∗‖+ ω2‖x− x∗‖.

Agora, usando (2.9) e simples calculos, concluımos da ultima inequacao que

‖x+ − x∗‖ ≤

(1 + ϑ)βω1f ′r(‖x− x∗‖)‖x− x∗‖ − fr(‖x− x∗‖) +

√2cβ(f ′r(‖x− x∗‖) + 1)

1− β(f ′r(‖x− x∗‖) + 1)

+ ω1ϑ‖x− x∗‖+ ω2‖x− x∗‖,

a qual e a inequacao (4.8). Para concluir a prova, note que o lado da desigualdadeem (4.8) e equivalente a[

(1 + ϑ)ω1βf ′r(‖x− x∗‖)‖x− x∗‖ − fr(‖x− x∗‖) +

√2cβ(f ′r(‖x− x∗‖) + 1)

‖x− x∗‖[1− β(f ′r(‖x− x∗‖) + 1)]

+ ω1ϑ+ ω2

]‖x− x∗‖.

Por outro lado, como x ∈ B(x∗, r)/x∗, i.e., 0 < ‖x − x∗‖ < r ≤ ρ segue daProposicao 2.5 com t = ‖x − x∗‖ que o termo entre colchetes na equacao acima emenor que um. Portanto, a ultima inequacao do lema segue.

45

Page 55: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

4.1.1 Prova do Teorema 4.1

Facamos agora a demonstracao do Teorema 4.1.

Demonstracao: Desde que x0 ∈ B(x∗, r)/x∗, i.e., 0 < ‖x0 − x∗‖ < r, usandoum argumento de inducao o Lema 2.1 e a ultima desigualdade do Lema 4.1, e facilver que xk esta bem definida e contida em B(x∗, r).

Agora, iremos provar que xk converge para x∗. Como xk esta bem definidae contida em B(x∗, r), aplicando o Lema 4.1 com x+ = xk+1, x = xk, r = rk,B(x) = B(xk), P = Pk, e θ = θk, obtemos que

‖xk+1 − x∗‖ ≤ (1 + ϑ)ω1β[f ′r(‖xk − x∗‖)‖xk − x∗‖ − fr(‖xk − x∗‖)]‖xk − x∗‖2[1− β(f ′r(‖xk − x∗‖) + 1)]

‖xk − x∗‖2

+

((1 + ϑ)ω1

√2cβ2[f ′r(‖xk − x∗‖) + 1]

‖xk − x∗‖[1− β(f ′r(‖xk − x∗‖) + 1)]+ ω1ϑ+ ω2

)‖xk − x∗‖,

para todo k = 0, 1, . . .. Por outro lado, a ultima inequacao do Lema 4.1 implica que

‖xk − x∗‖ < ‖x0 − x∗‖, k = 1, 2 . . . . (4.9)

Daı, combinando as duas ultimas inequacoes e a ultima parte da Proposicao 2.3,obtemos que

‖xk+1 − x∗‖ ≤ (1 + ϑ)ω1β[f ′r(‖x0 − x∗‖)‖x0 − x∗‖ − fr(‖x0 − x∗‖)]‖x0 − x∗‖2[1− β(f ′r(‖x0 − x∗‖) + 1)]

‖xk − x∗‖2

+

((1 + ϑ)ω1

√2cβ2[f ′r(‖x0 − x∗‖) + 1]

‖x0 − x∗‖[1− β(f ′r(‖x0 − x∗‖) + 1)]+ ω1ϑ+ ω2

)‖xk − x∗‖,

para todo k = 0, 1, . . . , a qual e equivalente a inequacao em (4.4). Agora, usando(4.9) e a ultima inequacao temos que

‖xk+1 − x∗‖ ≤[(1 + ϑ)ω1β

f ′r(‖x0 − x∗‖)‖x0 − x∗‖ − fr(‖x0 − x∗‖) +√

2cβ(f ′r(‖x0 − x∗‖) + 1)

‖x0 − x∗‖[1− β(f ′r(‖x0 − x∗‖) + 1)]

+ ω1ϑ+ ω2

]‖xk − x∗‖,

para todo k = 0, 1, . . .. Aplicando a Proposicao 2.5 com t = ‖x0 − x∗‖ e imediatoconcluir da ultima inequacao que ‖xk − x∗‖ converge para zero. Entao, xkconverge para x∗.

Para o importante caso ϑ = 0, ou seja, metodo quase Gauss-Newton sob condicao

majorante, o Teorema 4.1 torna-se:

46

Page 56: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Corolario 4.1 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada

em Ω. Tome x∗ ∈ Ω, R > 0,

c := ‖F (x∗)‖, β :=∥∥F ′(x∗)†∥∥ , κ := sup t ∈ [0, R) : B(x∗, t) ⊂ Ω .

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e que existe uma funcao conti-

nuamente diferenciavel fr : [0, R)→ R tal que

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ≤ f ′r (‖x− x∗‖)− f ′r (τ‖x− x∗‖) ,

para todo τ ∈ [0, 1], x ∈ B(x∗, κ) e

h1) fr(0) = 0 and f ′r(0) = −1;

h2) f ′r e convexa e estritamente crescente;

h3) µ :=√

2 c β2D+f ′r(0) < 1.

Sao dadas as constantes nao-negativas 0 ≤ ω2 < ω1 tais que ω1µ + ω2 < 1. Sejam

as constantes positivas ν := sup t ∈ [0, R) : β[f ′r(t) + 1] < 1 ,

ρ := sup

t ∈ (0, ν) : ω1β

tf ′r(t)− fr(t) +√

2cβ[f ′r(t) + 1]

t[1− β(f ′r(t) + 1)]+ ω2 < 1

,

r := min κ, ρ .

Considere B(xk) uma aproximacao invertıvel de F ′(xk)∗F ′(xk) satisfazendo

‖B(xk)−1F ′(xk)

∗F ′(xk)‖ ≤ ω1, ‖B(xk)−1F ′(xk)

∗F ′(xk)− I‖ ≤ ω2, k = 0, 1, . . . .

Entao, o metodo quase Gauss-Newton para resolver (4.1), com ponto inicial x0 ∈B(x∗, r)\x∗

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1 − x∗‖ ≤ ω1β[f ′r(‖x0 − x∗‖)‖x0 − x∗‖ − fr(‖x0 − x∗‖)]‖x0 − x∗‖2[1− β(f ′r(‖x0 − x∗‖) + 1)]

‖xk − x∗‖2

+

(ω1

√2cβ2[f ′r(‖x0 − x∗‖) + 1]

‖x0 − x∗‖[1− β(f ′r(‖x0 − x∗‖) + 1)]+ ω2

)‖xk − x∗‖, k = 0, 1, . . . .

47

Page 57: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Observacao 4.3 Apesar do fato que o corolario acima e um caso particular do

Teorema 4.1, os resultados obtidos nele estendem os resultados de Chen e Li em

[11], pois os resultados obtidos em [11] sao somente para o caso c = 0.

4.2 Casos Especiais

Nesta secao, apresentaremos dois casos especiais do Teorema 4.1, a saber, resultados

de convergencia sob condicao Lipschitz classica e resultados de convergencia sob

condicao de Smale para funcoes analıticas.

4.2.1 Resultados de Convergencia Sob Condicao Lipschitz

Classica

Nesta secao mostraremos um teorema correspondente ao Teorema 4.1, onde a

condicao geral (3.2) e substituida pela condicao Lipschitz classica (ver [6] e [7]).

Teorema 4.2 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada

em Ω. Tome x∗ ∈ Ω,

c := ‖F (x∗)‖, β :=∥∥F ′(x∗)†∥∥ , κ := sup t > 0 : B(x∗, t) ⊂ Ω .

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e existe um K > 0 tal que

µ :=√

2cβ2K < 1, ‖F ′(x)− F ′(y)‖ ≤ K‖x− y‖, ∀ x, y ∈ B(x∗, κ).

Sao dadas as constantes nao-negativas 0 ≤ ϑ < 1, 0 ≤ ω2 < ω1 tais que ω1(µ+µϑ+

ϑ) + ω2 < 1. Seja

r := min

κ,

2(1− ω1ϑ− ω2)− 2√

2cKβ2ω1(1 + ϑ)

βK (2 + ω1 − ϑω1 − 2ω2)

.

Considere B(xk) uma aproximacao invertıvel de F ′(xk)∗F ′(xk) satisfazendo

‖B(xk)−1F ′(xk)

∗F ′(xk)‖ ≤ ω1, ‖B(xk)−1F ′(xk)

∗F ′(xk)− I‖ ≤ ω2, k = 0, 1, . . . ,

Entao, o metodo quase Gauss-Newton inexato para resolver (4.1), com ponto inicial

x0 ∈ B(x∗, r)\x∗

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . , (4.10)

48

Page 58: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

onde o resıduo rk, a matriz invertıvel Pk (precondicionando o sistema linear em

(4.10)) e o termo “forcing”θk satisfazem as seguintes condicoes

‖Pkrk‖ ≤ θk‖PkF ′(xk)∗F (xk)‖, 0 ≤ θkcond(PkF′(xk)

∗F ′(xk)) ≤ ϑ, k = 0, 1, . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1 − x∗‖ ≤(1 + ϑ)βω1K

2(1− βK‖x0 − x∗‖)‖xk − x∗‖2

+

((1 + ϑ)ω1

√2cβ2K

1− βK‖x0 − x∗‖+ ω1ϑ+ ω2

)‖xk − x∗‖,

para todo k = 0, 1, . . . .

Demonstracao: E imediato que F , x∗ e fr : [0, κ) → R definida por fr(t) =Kt2/2 − t, satisfazem as hipoteses (4.2), h1, h2, h3 e h4 no Teorema 4.1. Nestecaso, e facil ver que as constantes ν e ρ como definidas no teorema 4.1, sao

0 < ρ =2(1− ω1ϑ− ω2)− 2

√2cKβ2ω1(1 + ϑ)

βK (2 + ω1 − ϑω1 − 2ω2)≤ ν = 1/βK,

Como consequencia, 0 < r = minκ, ρ. Assim F , r, fr e x∗ satisfazem todasas hipoteses do Teorema 4.1. Portanto, as afirmacoes deste teorema seguem doTeorema 4.1.

Para o caso ϑ = 0, o Teorema 4.2 torna-se:

Corolario 4.2 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao continuamente diferenciavel tal que F ′(x) tem imagem fechada

em Ω. Tome x∗ ∈ Ω, R > 0,

c := ‖F (x∗)‖, β :=∥∥F ′(x∗)†∥∥ , κ := sup t ∈ [0, R) : B(x∗, t) ⊂ Ω .

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e existe um K > 0 tal que

µ :=√

2cβ2K < 1, ‖F ′(x)− F ′(y)‖ ≤ K‖x− y‖, ∀ x, y ∈ B(x∗, κ).

Sao dadas as constantes nao-negativas 0 ≤ ω2 < ω1 tais que ω1µ+ ω2 < 1. Seja

r := min

κ,

2(1− ω2)− 2√

2cKβ2ω1

βK (2 + ω1 − 2ω2)

.

49

Page 59: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Considere B(xk) uma aproximacao invertıvel de F ′(xk)∗F ′(xk) satisfazendo

‖B(xk)−1F ′(xk)

∗F ′(xk)‖ ≤ ω1, ‖B(xk)−1F ′(xk)

∗F ′(xk)− I‖ ≤ ω2, k = 0, 1, . . . .

Entao, o metodo quase Gauss-Newton inexato para resolver (4.1), com ponto inicial

x0 ∈ B(x∗, r)\x∗

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1−x∗‖ ≤βω1K

2(1− βK‖x0 − x∗‖)‖xk−x∗‖2+

(ω1

√2cβ2K

1− βK‖x0 − x∗‖+ ω2

)‖xk−x∗‖,

para todo k = 0, 1, . . . .

Se ainda c = 0 no corolario acima, obtemos o Corolario 6.1 de [11].

4.2.2 Resultados de Convergencia sob Condicao de Smale

Nesta secao, mostraremos um teorema correspondente ao Teorema 4.1, onde a

condicao geral (4.2) e substituida pela condicao de Smale (ver [14, 27]) para funcoes

analıticas.

Teorema 4.3 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F : Ω→Y uma funcao analıtica tal que F ′(x) tem imagem fechada em Ω. Tome x∗ ∈ Ω,

c := ‖F (x∗)‖, β := ‖F ′(x∗)†‖, κ := supt > 0 : B(x∗, t) ⊂ Ω.

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e

γ := supn>1

∥∥∥∥F (n)(x∗)

n!

∥∥∥∥1/(n−1)

< +∞, µ := 2√

2cβ2γ < 1. (4.11)

Sao dadas as constantes nao-negativas 0 ≤ ϑ < 1, 0 ≤ ω2 < ω1 tais que ω1(µ+µϑ+

ϑ)+ω2 < 1. Sejam a := (1−ϑω1−ω2), b := (1+ϑ)ω1β, a := b+2a(1+β)−√

2γβbc,

r := min

κ, a−√a2 − 4a(1 + β)(a− 2

√2cβbγ)

2aγ(1 + β)

.

Considere B(xk) uma aproximacao invertıvel de F ′(xk)∗F ′(xk) satisfazendo

‖B(xk)−1F ′(xk)

∗F ′(xk)‖ ≤ ω1, ‖B(xk)−1F ′(xk)

∗F ′(xk)− I‖ ≤ ω2, k = 0, 1, . . . .

50

Page 60: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Entao, o metodo quase Gauss-Newton inexato para resolver (4.1), com ponto inicial

x0 ∈ B(x∗, r)\x∗

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . , (4.12)

onde o resıduo rk, a matriz invertıvel Pk (precondicionando o sistema linear em

(4.12)) e o termo “forcing”θk satisfazem as seguintes condicoes

‖Pkrk‖ ≤ θk‖PkF ′(xk)∗F (xk)‖, 0 ≤ θkcond(PkF′(xk)

∗F ′(xk)) ≤ ϑ, k = 0, 1, . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1 − x∗‖ ≤(1 + ϑ)ω1βγ

(1− γ‖x0 − x∗‖)2 − βγ(2‖x0 − x∗‖ − γ‖x0 − x∗‖2)‖xk − x∗‖2

+

((1 + ϑ)ω1

√2cβ2γ(2− γ‖x0 − x∗‖)

(1− γ‖x0 − x∗‖)2 − βγ(2‖x0 − x∗‖ − γ‖x0 − x∗‖2)+ ω1ϑ+ ω2

)‖xk − x∗‖,

para todo k = 0, 1, . . . .

Para provar o teorema acima, utilizaremos os Lemas 3.4 e 3.5 da Secao 3.2.2 do

Capıtulo 3

[Prova do Teorema 4.3]. Considere a funcao real fr : [0, 1/γ)→ R defina por

fr(t) =t

1− γt− 2t.

E simples mostrar que fr e analıtica e

fr(0) = 0, f ′r(t) = 1/(1− γt)2 − 2, f ′r(0) = −1, f ′′r (t) = (2γ)/(1− γt)3,

fnr (0) = n! γn−1,

para n ≥ 2. Segue das equacoes acima que fr satisfaz as hipoteses h1, h2, e h3 e

h4 no Teorema 4.1. Como f ′′r (t) = (2γ)/(1− γt)3, combinando os Lemas 3.4 e 3.5

concluimos que F e fr satisfaz (4.2) com R = 1/γ. Neste caso, e facil ver que as

constantes ν e ρ como definidas no Teorema 4.1, sao

0 < ρ =a−

√a2 − 4a(1 + β)(a− 2

√2cβbγ)

2aγ(1 + β)< ν = ((1+β)−

√β(1 + β))/(γ(1+β)) < 1/γ.

Como consequencia, 0 < r = min κ, ρ . Assim, F , ρ, fr e x∗ satisfazem todas

as hipoteses do Teorema 4.1. Portanto, as afirmacoes deste teorema seguem do

Teorema 4.1.

51

Page 61: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Para o caso ϑ = 0, o Teorema 4.3 torna-se:

Corolario 4.3 Sejam X, Y espacos de Hilbert, Ω ⊆ X um conjunto aberto e F :

Ω→ Y uma funcao analıtica tal que F ′(x) tem imagem fechada em Ω. Tome x∗ ∈ Ω,

c := ‖F (x∗)‖, β := ‖F ′(x∗)†‖, κ := supt > 0 : B(x∗, t) ⊂ Ω.

Suponha que F ′(x∗)∗F (x∗) = 0, F ′(x∗) e injetiva e

γ := supn>1

∥∥∥∥F (n)(x∗)

n!

∥∥∥∥1/(n−1)

< +∞, µ := 2√

2cβ2γ < 1.

Sao dadas as constantes nao-negativas 0 ≤ ω2 < ω1 tais que ω1α + ω2 < 1. Sejam

a := ω1β + 2(1− ω2)(1 + β)−√

2γβ2ω1c e

r := min

κ, a−√a2 − 4(1− ω2)(1 + β)(1− ω2 − 2

√2cβ2ω1γ)

2(1− ω2)γ(1 + β)

.

Considere B(xk) uma aproximacao invertıvel de F ′(xk)∗F ′(xk) satisfazendo

‖B(xk)−1F ′(xk)

∗F ′(xk)‖ ≤ ω1, ‖B(xk)−1F ′(xk)

∗F ′(xk)− I‖ ≤ ω2, k = 0, 1, . . . ,

Entao, o metodo quase Gauss-Newton inexato para resolver (4.1), com ponto inicial

x0 ∈ B(x∗, r)\x∗

xk+1 = xk + Sk, B(xk)Sk = −F ′(xk)∗F (xk) + rk, k = 0, 1, . . . ,

esta bem definido, a sequencia xk esta contida em B(x∗, r), converge para x∗ e

vale

‖xk+1 − x∗‖ ≤ω1βγ

(1− γ‖x0 − x∗‖)2 − βγ(2‖x0 − x∗‖ − γ‖x0 − x∗‖2)‖xk − x∗‖2

+

(ω1

√2cβ2γ(2− γ‖x0 − x∗‖)

(1− γ‖x0 − x∗‖)2 − βγ(2‖x0 − x∗‖ − γ‖x0 − x∗‖2)+ ω2

)‖xk − x∗‖,

para todo k = 0, 1, . . . .

Se ainda c = ω2 = 0 e ω1 = 1 no corolario acima, obtemos o Exemplo 1 de [11].

52

Page 62: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Capıtulo 5

Analise Semi-Local do Metodo

Gauss-Newton

Neste capıtulo, apresentaremos uma analise de convergencia semi-local para a

sequencia gerada pelo algoritmo de Gauss-Newton para resolver problemas de

otimizacao de composicao convexa. Comprovaremos que sob certas condicoes a

sequencia gerada pelo algoritmo de Gauss-Newton esta bem definida e converge li-

nearmente para uma solucao do problema em consideracao. Alem disso, aplicaremos

os resultados obtidos para o caso onde o ponto inicial e um ponto regular e o caso

onde o ponto inicial satisfaz a condicao de Robinson. Tambem daremos resultados

de convergencia sob condicao Lipschitz classica e condicao de Smale para funcoes

analıticas

Inicialmente, considere o seguinte problema de otimizacao de composicao convexa

min h(F (x)), (5.1)

onde h : Rm → R e uma funcao convexa de valores reais e F : Rn → Rm e

continuamente diferenciavel.

E facil ver que o estudo de (5.1) esta relacionado com o problema de inclusao

convexa

F (x) ∈ C := z ∈ Rm : h(z) ≤ h(y), ∀y ∈ Rm. (5.2)

Em ordem para afirmar o algoritmo de Gauss-Newton, para resolver (5.1), pre-

cisamos da seguinte definicao: Dados ∆ ∈ (0,+∞) e x ∈ Rn defina

D∆(x) := argmin h(F (x) + F ′(x)d) : d ∈ Rn, ‖d‖ ≤ ∆ , (5.3)

isto e, D∆(x) e o conjunto solucao do seguinte problema

min h(F (x) + F ′(x)d) : d ∈ Rn, ‖d‖ ≤ ∆ . (5.4)

53

Page 63: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Dados ∆ ∈ (0,+∞], η ∈ [1,+∞) e um ponto x0 ∈ Rn, o algoritmo tipo Gauss-

Newton associado a (∆, η, x0) como definido em [3] (ver tambem, [4, 5]) e como

segue:

Algoritmo 5.1

Inicializacao. Dados ∆ ∈ (0,+∞], η ∈ [1,+∞) e x0 ∈ Rn. Faca k = 0.

criterio de Parada. Calcule D∆(xk). Se 0 ∈ D∆(xk), Pare. Caso contrario.

Passo Iterativo . Calcule dk satisfazendo

dk ∈ D∆(xk), ‖dk‖ ≤ ηd(0, D∆(xk)),

e faca

xk+1 = xk + dk,

k = k + 1 e va para Criterio de Parada.

Observe que o conjunto D∆(x) e nao-vazio para todo x ∈ Rn, pois (5.4) e um

problema de otimizacao convexo sobre um conjunto compacto. Portanto, a sequencia

gerada pelo Algoritmo 5.1 esta bem definida.

A seguir, faremos uma analise de convergencia semi-local do metodo definido

acima.

5.1 Convergencia Semi-Local do Metodo de

Gauss-Newton

Nesta secao, provaremos a convergencia semi-local da sequencia gerada pelo Algo-

ritmo 5.1 para resolver (5.1). Sob as hipoteses que o ponto inicial e um ponto

quase-regular para a inclusao (5.2) e a funcao nao-linear F satisfaz nossa condicao

majorante esferica, provaremos que a sequencia gerada pelo Algoritmo 5.1 con-

verge para um ponto x∗ tal que F (x∗) ∈ C, em particular, x∗ resolve (5.1). Estas

afirmacoes se encontram no teorema:

Teorema 5.1 Seja F : Rn → Rm uma funcao continuamente diferenciavel.

Suponha que existem R > 0, x0 ∈ Rn e uma funcao majorante esferica fe : [0, R)→R para a funcao F em B(x0, R). Dadas as constantes α > 0 e ξ > 0, considere a

funcao auxiliar fξ,α : [0, R)→ R,

fξ,α(t) = ξ + (α− 1)t+ αfe(t).

Se fξ,α satisfaz a3, i.e., t∗ e o menor zero de fξ,α, entao a sequencia gerada pelo

54

Page 64: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

metodo de Newton para resolver fξ,α(t) = 0, com ponto inicial t0 = 0,

tk+1 = tk − f ′ξ,α(tk)−1fξ,α(tk), k = 0, 1, . . . , (5.5)

esta bem definida, tk e estritamente crescente, esta contida em [0, t∗), e converge

Q-linearmente para t∗. Sejam η ∈ [1,∞), ∆ ∈ (0,∞] e h : Rm → R uma funcao

convexa de valores-reais com conjunto de mınimos C nao-vazio. Assuma que x0 e

um ponto quase-regular da inclusao

F (x) ∈ C,

com o raio quase-regular rx0 e funcao limitante quase-regular βx0 como definidos em

(1.5) e (1.6), respectivamente. Se d(F (x0), C) > 0, t∗ ≤ rx0,

∆ ≥ ξ ≥ ηβx0(0)d(F (x0), C), (5.6)

α ≥ sup

ηβx0(t)

ηβx0(t)(f′e(t) + 1) + 1

: ξ ≤ t < t∗

,

entao a sequencia gerada pelo Algoritmo 5.1, denotada por xk, esta contida em

B(x0, t∗),

F (xk) + F ′(xk)(xk+1 − xk) ∈ C, k = 0, 1, . . . , (5.7)

satisfaz as inequacoes

‖xk+1 − xk‖ ≤ |tk+1 − tk|, k = 0, 1 . . . , (5.8)

‖xk+1 − xk‖ ≤tk+1 − tk

(tk − tk−1)2‖xk − xk−1‖2, k = 1, 2, . . . , (5.9)

converge para um ponto x∗ ∈ B[x0, t∗] tal que F (x∗) ∈ C,

‖x∗ − xk‖ ≤ |t∗ − tk|, k = 0, 1, . . . (5.10)

e a convergencia e R-linear. Se, adicionalmente, fξ,α satisfaz a4 entao as sequencias

tk e xk convergem Q-quadraticamente e R-quadraticamente para t∗ and x∗, re-

spectivamente.

Observacao 5.1 Observamos que todas as afirmacoes que faremos neste capıtulo

envolvendo a funcao majorante esferica fe e a funcao auxiliar fξ,α foram provadas na

Secao 2.2. Alem disso, todas as afirmacoes feitas no Teorema 5.1 para a sequencia

tk foram provadas no Corolario 2.1.

55

Page 65: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Observacao 5.2 Se

α > α := sup

ηβx0(t)

ηβx0(t)(f′e(t) + 1) + 1

: ξ ≤ t < t∗

,

entao a sequencia xk converge R-quadraticamente para x∗. Para provar essa

afirmacao, note que do item iii da Proposicao 2.13, temos que t∗ < t∗. Daı, u-

sando que f ′ξ,α e estritamente crescente e item ii da Proposicao 2.13, obtemos que

f ′ξ,α(t∗) < f ′ξ,α(t∗) < f ′ξ,α(t∗),

o qual, combinado com Proposicao 2.8 implica que f ′ξ,α(t∗) < 0. Portanto, a

afirmacao segue se fξ,α e trocado por fξ,α no Teorema 5.1.

Para facilitar a demonstracao do Teorema 5.1, apresentaremos a seguir uma secao

contendo tres lemas auxiliares.

5.1.1 Resultados auxiliares

Nesta subsecao nosso objetivo e demonstrar tres lemas que auxiliarao na prova de

convergencia do Teorema 5.1.

Como vimos na introducao deste capıtulo, D∆(x) 6= ∅ para todo x ∈ Rn, por-

tanto a sequencia xk esta bem definida. Mas isso nao nos capacita a provar a

convergencia da sequencia xk para algum ponto x∗ ∈ Rn tal que F (x∗) ∈ C, pois

nao temos nenhuma relacao entre o conjunto de direcoes D∆(x) e o conjunto de

solucoes da inclusao

F (x) + F ′(x)d ∈ C, ‖d‖ ≤ ∆.

Agora, se provarmos que D∆(x) ⊂ DC(x) para alguns pontos, podemos usar os

resultados de regularidade para relacionar os conjuntos mencionados acima.

Primeiro, definimos alguns subconjuntos em B(x0, t∗) nos quais, como iremos

provar, a inclusao desejada e valida para todos os pontos nestes conjuntos.

K(t) :=

x ∈ Rn : ‖x− x0‖ ≤ t, ηd(0, DC(x)) 6 −fξ,α(t)

f ′ξ,α(t)

, t ∈ [0, t∗) , (5.11)

K :=⋃

t∈[0,t∗)

K(t). (5.12)

Em (5.11), 0 6 t < t∗, consequentemente, f ′ξ,α(t) 6= 0 (Proposicao 2.8). Portanto, as

definicoes sao consistentes.

Proposicao 5.1 Se x ∈ K, entao

D∆(x) = d ∈ Rn : F (x) + F ′(x)d ∈ C, ‖d‖ ≤ ∆ ⊂ DC(x)

56

Page 66: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

e

d(0, D∆(x)) = d(0, DC(x)).

Demonstracao: Pela Proposicao 1.3 e suficiente mostrar que DC(x) 6= ∅ ed(0, DC(x)) ≤ ∆. Seja x ∈ K, entao x ∈ K(t) para algum t ∈ [0, t∗), o queimplica que x ∈ B(x0, t∗). Como t∗ ≤ rx0 e x0 e um ponto quase-regular, segueda Definicao 1.3 e definicao de raio quase-regular em (1.5) que DC(x) 6= ∅. Porhipoteses η ≥ 1 e ξ ≤ ∆. Daı, como x ∈ K(t), usando a Definicao em (5.11)Proposicoes 2.11 e 2.7, obtemos

d(0, DC(x)) 6 ηd(0, DC(x)) 6 −fξ,α(t)

f ′ξ,α(t)6 −fξ,α(0)

f ′ξ,α(0)= ξ 6 ∆,

o que prova o resultado desejado

Para cada x ∈ Rn, definimos o conjunto D∆(x) como

D∆(x) := d ∈ D∆(x); ‖d‖ ≤ ηd(0, D∆(x)) . (5.13)

Como D∆(x) 6= ∅ para todo x ∈ Rn, segue que D∆(x) 6= ∅ para todo x ∈ Rn, assim

temos a boa definicao da multifuncao iteracao de Gauss-Newton GF

GF : B(x0, t∗) → P (Rn)

x 7→ x+ D∆(x).(5.14)

Iremos provar que a multifuncao iteracao de Gauss-Newton esta bem definida

nos subconjuntos definidos em (5.11), mas antes precisamos do seguinte resultado

tecnico.

Lema 5.1 Para cada t ∈ [0, t∗), x ∈ K(t) e y ∈ GF (x) as seguintes desigualdades

sao validas:

i) ‖y − x‖ ≤ nfξ,α(t)− t;

ii) ‖y − x0‖ ≤ nfξ,α(t) < t∗;

iii) ηd(0, DC(y)) ≤ −fξ,α(nfξ,α(t))

f ′ξ,α(nfξ,α(t))

(‖y − x‖

nfξ,α(t)− t

)2

.

Demonstracao: Como t ∈ [0, t∗) and x ∈ K(t) usando a definicao em (5.11),Proposicao 5.1 e as duas primeiras afirmacoes na Proposicao 2.10, obtemos

‖x−x0‖ ≤ t, ηd(0, D∆(x)) = ηd(0, DC(x)) 6 −fξ,α(t)

f ′ξ,α(t), t < nfξ,α(t) < t∗. (5.15)

57

Page 67: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Agora, como y ∈ GF (x) segue que existe d ∈ D∆(x) tal que y = x + d. Usando adefinicao do conjunto D∆(x) em (5.13) e a segunda inequacao em (5.15) temos que

‖d‖ ≤ ηd(0, D∆(x)) = ηd(0, DC(x)) ≤ −fξ,α(t)/f ′ξ,α(t).

Como d = y − x, a ultima inequacao juntamente com a definicao em (2.15) implicao item i.

Combinado desigualdade triangular, primeira inequacao em (5.15), item i e aultima desigualdade em (5.15) obtemos que

‖y − x0‖ ≤ ‖y − x‖+ ‖x− x0‖ ≤ nfξ,α(t) < t∗,

o que prova o item ii.

Prova do item iii. Como ‖y − x0‖ < t∗ ≤ rx0 , segue da quase regularidade que

DC(y) 6= ∅, d(0, DC(y)) ≤ βx0(‖y − x0‖)d(F (y), C).

Usando que x ∈ K(t) ⊂ K, y − x = d ∈ D∆(x) e Proposicao 5.1 temos que

F (x) + F ′(x)(y − x) ∈ C.

Portanto, combinando η ≥ 1, a inequacao acima e a ultima inclusao e facil ver que

ηd(0, DC(y)) ≤ ηβx0(‖y − x0‖)‖F (y)− F (x)− F ′(x)(y − x)‖.

Agora, do item i temos que ‖y− x‖ ≤ nfξ,α(t)− t. Daı, como ‖x− x0‖ ≤ t segue daultima inequacao e do Lemma 2.2 que

ηd(0, DC(y)) ≤ ηβx0(‖y − x0‖)ef (t, nfξ,α(t))

(‖y − x‖

nfξ,α(t)− t

)2

. (5.16)

Por outro lado, usando definicoes em (2.12), (2.15), (2.9) e simples calculos, temos

fξ,α(nfξ,α(t)) = fξ,α(nfξ,α(t))− fξ,α(t)− f ′ξ,α(t)(nfξ,α(t)− t)

= ξ1 + (α− 1)nfξ,α(t) + αfe(nfξ,α(t))− [ξ1 + (α− 1)t+ αfe(t)]

− [(α− 1) + αf ′e(t)](nfξ,α(t)− t)

= α(fe(nfξ,α(t))− fe(t)− f ′e(t)(nfξ,α(t)− t)

)= αefe(t, nfξ,α(t)).

Segue das duas ultimas inequacoes, βx0(t) uma funcao crescente e item ii que

ηd(0, D(y)) ≤ηβx0(nfξ,α(t))

αfα(nfξ,α(t))

(‖y − x‖

nfξ,α(t)− t

)2

.

58

Page 68: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Da Proposicao 2.9 e primeira afirmacao na Proposicao 2.10 temos queξ ≤ nfξ,α(t) < t∗. Portanto, para concluir a prova combine a ultima de-sigualdade com Proposicao 2.12.

No proximo resultado, iremos mostrar que a multifuncao iteracao de Gauss-Newton

esta bem definida nos subconjuntos definidos em (5.11).

Lema 5.2 Para cada t ∈ [0, t∗), K(t) ⊂ B(x0, t∗) e

GF (K(t)) ⊂ K(nfξ,α(t)

).

Como consequencia, K ⊂ B(x0, t∗) e GF (K) ⊂ K.

Demonstracao: A primeira inclusao segue trivialmente da definicao de K(t).

Tome x ∈ K(t) e y ∈ GF (x). Combinando os itens i e iii do Lema 5.1 temos que

ηd(0, DC(y)) ≤ −fξ,α(nfξ,α(t))

f ′ξ,α(nfξ,α(t)).

Este resultado, juntamente com o item ii do Lema 5.1 e definicao em (5.11) mostraque y ∈ K(nfξ,α(t)), o que prova a segunda inclusao.

A proxima inclusao, segue trivialmente da definicoes em (5.11) e (5.12). Paraverificar a ultima inclusao, tome x ∈ K. Entao x ∈ K(t) para algum t ∈ [0, t∗).Usando a primeira parte do lema, concluımos que GF (x) ⊂ K(nfξ,α(t)). Paraconcluir a prova, use nfξ,α(t) ∈ [0, t∗) e definicao de K.

5.1.2 Prova do Teorema 5.1

Primeiro, note que a sequencia gerada pelo Algoritmo 5.1 satisfaz

xk+1 ∈ GF (xk), k = 0, 1, . . . , (5.17)

o que necessariamente e uma definicao equivalente para esta sequencia.

Demonstracao: Primeiro lembramos que todas as afirmacoes feitas no Teo-rema 5.1 para a sequencia tk foram provadas no Corolario 2.1.

Agora, como x0 ∈ B(x0, t∗) ⊆ B(x0, rx0), usando a quase regularidade, η ≥ 1,inequacao em (5.6) e Proposicao 2.7, obtemos

DC(x0) 6= ∅, ηd(0, DC(x0)) ≤ ηβx0(0)d(F (x0), C) ≤ ξ = −fξ,α(0)

f ′ξ,α(0).

59

Page 69: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Portanto,x0 ∈ K(0) ⊂ K,

onde a segunda inclusao segue trivialmente de (5.12). Usando a inclusao acima,a inclusao GF (K) ⊂ K (Lemma 5.2) e (5.17) concluımos que a sequencia xkpermanece em K, em particular, temos que xk esta contida em B(x0, t∗). Comoxk ⊂ K, combinando a Proposicao 5.1 e Algoritmo 5.1 segue que a inclusao em(5.7) vale. Iremos provar por inducao que

xk ∈ K(tk), k = 0, 1, . . . . (5.18)

A inclusao acima, para k = 0 e o primeiro resultado dentro desta prova. Assumaque xk ∈ K(tk). De (2.19) temos que tk+1 = ηfξ,α(tk) e como xk ∈ K(tk) o Lema 5.2implica que GF (xk) ⊂ K(tk+1), o que combinado com (5.17) completa a prova deinducao de (5.18).

Agora, usando Algoritmo 5.1, (5.18), Proposicao 5.1 e (5.11), temos

‖xk+1 − xk‖ ≤ ηd(0, D∆(xk)) = ηd(0, D(xk)) 6 −fξ,α(tk)

f ′ξ,α(tk), k = 0, 1, . . . (5.19)

o qual, usando (5.5) e equivalente a

‖xk+1 − xk‖ ≤ tk+1 − tk, k = 0, 1, . . . .

Entao, a inequacao em (5.8) vale. Por outro lado, como tk converge para t∗, ainequacao acima implica que

∞∑k=k0

‖xk+1 − xk‖ ≤∞∑

k=k0

tk+1 − tk = t∗ − tk0 < +∞,

para qualquer k0 ∈ N. Daı, xk e uma sequencia de Cauchy em B(x0, t∗) e assim,converge para algum x∗ ∈ B[x0, t∗]. Alem disso, a ultima inequacao tambem implica(5.10), i.e., ‖x∗ − xk‖ ≤ t∗ − tk, para qualquer k. Como C e fechado, xk convergepara x∗,

F (xk) + F ′(xk)(xk+1 − xk) ∈ C

e F e uma funcao continuamente diferenciavel, temos que F (x∗) ∈ C.

Agora para provar a inequacao em (5.9), primeiro note que xk ∈ K(tk) e tk+1 =nfξ,α(tk), para todo k = 0, 1, . . . . Deste modo, tome um k arbitrario e aplique oitem iii do Lema 5.1 com y = xk, x = xk−1 e t = tk−1, para obter

ηd(0, DC(xk)) ≤ −fξ,α(tk)

f ′ξ,α(tk)

(‖xk − xk−1‖tk − tk−1

)2

,

o qual usando (5.5) e a primeira inequacao em (5.19) prova a inequacao desejada.

Para concluir a prova, combine (5.10) com a ultima inequacao do Corolario 2.1.

60

Page 70: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

5.2 Casos Especiais

Nesta secao, apresentaremos casos especiais do Teorema 5.1, i.e., o caso onde x0 e

um ponto regular da inclusao (5.2) e o caso onde x0 satisfaz a condicao de Robinson.

Alem disso, apresentaremos resultados sob condicao Lipschitz classica e condicao de

Smale para funcoes analıticas.

5.2.1 Resultados de convergencia para ponto incial regular

Nesta secao mostraremos um teorema correspondente ao Teorema 5.1, onde assumi-

mos que o ponto inicial e um ponto regular da inclusao (5.2), ver [3] e as referencias

dele. Alem disso, daremos resultados sob condicao Lipschitz classica e condicao de

Smale para funcoes analıticas. Comecamos definindo regularidade.

Definicao 5.1 Sejam F : Rn → Rm uma funcao continuamente diferenciavel e

h : Rm → R uma funcao convexa de valores-reais com conjunto de mınimos C

nao-vazio. Um ponto x0 ∈ Rn e um ponto regular da inclusao F (x) ∈ C se

Ker(F ′(x0)T ) ∩ (C − F (x0))o = 0,

Como sabemos (ver [4]) a definicao de ponto quase-regular estende a definicao de

ponto regular. A seguinte proposicao relaciona os dois conceitos, onde a existencia

das constantes r e β e devido a Burke e Ferris em [3], e a segunda afirmacao segue

da Observacao 1.2.

Proposicao 5.2 Seja x0 ∈ Rn um ponto regular da inclusao F (x) ∈ C. Entao

existem constantes r > 0 e β > 0 tais que

DC(x) 6= ∅ e d(0, DC(x)) ≤ βd(F (x), C), ∀x ∈ B(x0, r).

Consequentemente, x0 e um ponto quase-regular da inclusao F (x) ∈ C com raio

quase-regular rx0 ≥ r e funcao limitante quase-regular βx0(·) ≤ β em [0, r), como

definidos em (1.5) e (1.6), respectivamente.

Daqui em diante, para cada ponto regular x0 ∈ Rn da inclusao F (x) ∈ C, denotare-

mos por r > 0 e β > 0 as constantes associadas dadas pela ultima proposicao.

Teorema 5.2 Seja F : Rn → Rm uma funcao continuamente diferenciavel.

Suponha que existem R > 0, x0 ∈ Rn e uma funcao majorante esferica fe : [0, R)→

61

Page 71: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

R para a funcao F em B(x0, R). Dadas as constantes α > 0 e ξ > 0, considere a

funcao auxiliar fξ,α : [0, R)→ R,

fξ,α(t) = ξ + (α− 1)t+ αfe(t).

Se fξ,α satisfaz a3, i.e., t∗ e o menor zero de fξ,α, entao a sequencia gerada pelo

metodo de Newton para resolver fξ,α(t) = 0, com ponto inicial t0 = 0,

tk+1 = tk − f ′ξ,α(tk)−1fξ,α(tk), k = 0, 1, . . . ,

esta bem definida, tk e estritamente crescente, esta contida em [0, t∗), e converge

Q-linearmente para t∗. Sejam η ∈ [1,∞), ∆ ∈ (0,∞] e h : Rm → R uma funcao

convexa de valores-reais com conjunto de mınimos C nao-vazio. Assuma que x0 e

um ponto regular da inclusao F (x) ∈ C com constantes associadas r > 0 e β > 0.

Se d(F (x0), C) > 0, t∗ ≤ r,

∆ ≥ ξ ≥ ηβd(F (x0), C), α ≥ ηβ/(ηβ[f ′e(ξ) + 1] + 1),

entao a sequencia gerada pelo Algoritmo 5.1, denotada por xk, esta contida em

B(x0, t∗),

F (xk) + F ′(xk)(xk+1 − xk) ∈ C, k = 0, 1, . . . ,

satisfaz as inequacoes

‖xk+1 − xk‖ ≤ |tk+1 − tk|, k = 0, 1 . . . ,

‖xk+1 − xk‖ ≤tk+1 − tk

(tk − tk−1)2‖xk − xk−1‖2, k = 1, 2, . . . ,

converge para um ponto x∗ ∈ B[x0, t∗] tal que F (x∗) ∈ C,

‖x∗ − xk‖ ≤ |t∗ − tk|, k = 0, 1, . . .

e a convergencia e R-linear. Se, adicionalmente, fξ,α satisfaz a4 entao as sequencias

tk e xk convergem Q-quadraticamente e R-quadraticamente para t∗ and x∗, res-

pectivamente.

Demonstracao: Como x0 e um ponto regular da inclusao F (x) ∈ C, temos daProposicao 5.2 que x0 e um ponto quase-regular da inclusao F (x) ∈ C com raioquase-regular rx0 ≥ r. Daı, usando que t∗ ≤ r obtemos

t∗ < rx0 .

62

Page 72: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Alem disso, a Proposicao 5.2 implica que a funcao limitante quase-regular satisfaz

βx0(t) ≤ β, ∀ t ∈ [0, r). (5.20)

Como ∆ ≥ ξ ≥ ηβd(F (x0)C) e a ultima inequacao implica que βx0(0) ≤ β, segueque

∆ ≥ ξ ≥ ηβx0(0)d(F (x0), C).

Agora, combinando as hipoteses que 0 < ξ e t∗ ≤ r com a primeira afirmacaona Proposicao 2.12 concluımos que 0 < ξ < t∗ ≤ r. Portanto, usando (5.20),f ′e(0) = −1, f ′e e estritamente crescente e η ≥ 1 obtemos, apos simples calculo que

ηβ

ηβ(f ′e(ξ) + 1) + 1≥ ηβx0(t)

ηβx0(t)[f′e(t) + 1] + 1

, ∀ t ∈ [ξ, t∗).

Daı, a hipotese α ≥ ηβ/[ηβ(f ′e(ξ) + 1) + 1] e ultima inequacao implica que

α ≥ sup

ηβx0(t)

ηβx0(t)[f′e(t) + 1] + 1

: ξ ≤ t < t∗

.

Assim, F e x0 satisfazem todas as hipoteses do Teorema 5.1 e as afirmacoes desteteorema seguem do Teorema 5.1.

Quando F satisfaz a condicao Lipschitz, o Teorema 5.2 torna-se:

Teorema 5.3 Seja F : Rn → Rm uma funcao continuamente diferenciavel.

Suponha que existem R > 0, x0 ∈ Rn e K > 0, tais que

‖F ′(y)− F ′(x)‖ ≤ K‖y − x‖, x, y ∈ B(x0, R).

Dadas as constantes α > 0 e ξ > 0, considere a funcao auxiliar fξ,α : [0, R)→ R,

fξ,α(t) = ξ − t+ (αKt2)/2.

Se 2αKξ ≤ 1, entao t∗ = (1−√

1− 2αKξ )/(αK) e o menor zero de fξ,α, a sequencia

gerada pelo metodo de Newton para resolver fξ,α(t) = 0, com ponto inicial t0 = 0,

tk+1 = tk − f ′ξ,α(tk)−1fξ,α(tk), k = 0, 1, . . . ,

esta bem definida, tk e estritamente crescente, esta contida em [0, t∗), e converge

Q-linearmente para t∗. Sejam η ∈ [1,∞), ∆ ∈ (0,∞] e h : Rm → R uma funcao

convexa de valores-reais com conjunto de mınimos C nao-vazio. Assuma que x0 e

um ponto regular da inclusao F (x) ∈ C com constantes associadas r > 0 e β > 0.

63

Page 73: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Se d(F (x0), C) > 0, t∗ ≤ r,

∆ ≥ ξ ≥ ηβd(F (x0), C), α ≥ ηβ/(Kηβξ + 1),

entao a sequencia gerada pelo Algoritmo 5.1, denotada por xk, esta contida em

B(x0, t∗),

F (xk) + F ′(xk)(xk+1 − xk) ∈ C, k = 0, 1, . . . ,

satisfaz as inequacoes

‖xk+1 − xk‖ ≤ |tk+1 − tk|, k = 0, 1 . . . ,

‖xk+1 − xk‖ ≤tk+1 − tk

(tk − tk−1)2‖xk − xk−1‖2, k = 1, 2, . . . ,

converge para um ponto x∗ ∈ B[x0, t∗] tal que F (x∗) ∈ C,

‖x∗ − xk‖ ≤ |t∗ − tk|, k = 0, 1, . . .

e a convergencia e R-linear. Se, adicionalmente, 2αKξ < 1 entao as sequencias

tk e xk convergem Q-quadraticamente e R-quadraticamente para t∗ and x∗, res-

pectivamente.

Demonstracao: E imediato provar que fe : [0, R) → R definida por fe(t) =Kt2/2− t e uma funcao majorante esferica para F em B(x0, R). Daı,

fξ,α(t) = ξ − t+ (αKt2)/2 = ξ + (α− 1)t+ αfe(t),

e como 2αKξ ≤ 1, concluımos que fξ,α satisfaz a3 e t∗ = (1 −√

1− 2αKξ )/(αK)e sua menor raiz. Neste caso, a constante α satisfaz

α ≥ ηβ

1 +Kηβξ=

ηβ

ηβ[f ′e(ξ) + 1] + 1.

Portanto, tomando α, fξ,α e t∗ como definido acima, a primeira parte do teoremasegue do Teorema 5.2. Para provar a segunda parte, e suficiente notar que ahipotese 2αKξ < 1 implica que fξ,α satisfaz a4.

Quando F e analıtica e satisfaz a condicao de Smale, o Teorema 5.2 torna-se:

Teorema 5.4 Seja F : Rn → Rm uma funcao analıtica. Suponha que x0 ∈ Rn e

γ := supn>1

∥∥∥∥F (n)(x0)

n!

∥∥∥∥1/(n−1)

< +∞. (5.21)

64

Page 74: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Dadas as constantes α > 0 e ξ > 0, considere a funcao auxiliar fξ,α : [0, 1/γ)→ R,

fξ,α(t) =αγ

1− γtt2 − t+ ξ.

Se ξγ ≤ 1 + 2α− 2√α(1 + α), entao

t∗ =1 + γξ −

√(1 + γξ)2 − 4(1 + α)γξ

2(1 + α)γ

e o menor zero de fξ,α, a sequencia gerada pelo metodo de Newton para resolver

fξ,α(t) = 0, com ponto inicial t0 = 0,

tk+1 = tk − f ′ξ,α(tk)−1fξ,α(tk), k = 0, 1, . . . ,

esta bem definida, tk e estritamente crescente, esta contida em [0, t∗), e converge

Q-linearmente para t∗. Sejam η ∈ [1,∞), ∆ ∈ (0,∞] e h : Rm → R uma funcao

convexa de valores-reais com conjunto de mınimos C nao-vazio. Assuma que x0 e

um ponto regular da inclusao F (x) ∈ C com constantes associadas r > 0 e β > 0.

Se d(F (x0), C) > 0, t∗ ≤ r,

∆ ≥ ξ ≥ ηβd(F (x0), C), α ≥ ηβ(1− γξ)2

ηβ + (1− ηβ)(1− γξ)2,

entao a sequencia gerada pelo Algoritmo 5.1, denotada por xk, esta contida em

B(x0, t∗),

F (xk) + F ′(xk)(xk+1 − xk) ∈ C, k = 0, 1, . . . ,

satisfaz as inequacoes

‖xk+1 − xk‖ ≤ |tk+1 − tk|, k = 0, 1 . . . ,

‖xk+1 − xk‖ ≤tk+1 − tk

(tk − tk−1)2‖xk − xk−1‖2, k = 1, 2, . . . ,

converge para um ponto x∗ ∈ B[x0, t∗] tal que F (x∗) ∈ C,

‖x∗ − xk‖ ≤ |t∗ − tk|, k = 0, 1, . . .

e a convergencia e R-linear. Se, adicionalmente, ξγ < 1 + 2α− 2√α(1 + α) entao

as sequencias tk e xk convergem Q-quadraticamente e R-quadraticamente para

t∗ and x∗, respectivamente.

Os seguintes resultados serao necessarios na prova do teorema acima.

Lema 5.3 Seja F : Rn → Rm uma funcao analıtica. Assuma que x0 ∈ Rn e γ como

65

Page 75: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

definido (5.21). Entao, para todo x ∈ B(x0, 1/γ) vale

‖F ′′(x)‖ 6 (2γ)/(1− γ‖x− x0‖)3.

Demonstracao: A prova segue o mesmo padrao do Lema 3.4 do capıtulo 3.

Lema 5.4 Seja F : Rn → Rm uma funcao duas vezes diferenciavel. Se existe uma

funcao f : [0, R)→ R duas vezes continuamente diferenciavel tal que

‖F ′′(x)‖ 6 f ′′(‖x− x0‖),

para todo x ∈ Rn e ‖x− x0‖ < R. Entao F e f satisfaz (2.11).

Demonstracao: A prova segue o mesmo padrao do Lema 3.5 do capıtulo 3.

Prova do Teorema 5.4.Considere a funcao real fe : [0, 1/γ)→ R definida por

fe(t) =t

1− γt− 2t.

E simples mostrar que f e analıtica e

fe(0) = 0, f ′e(t) = 1/(1− γt)2 − 2, f ′e(0) = −1, f ′′e (t) = (2γ)/(1− γt)3,

fne (0) = n! γn−1,

para n ≥ 2. Segue das equacoes acima que fe satisfaz a1 e a2 na definicao 2.2.

Agora, como f ′′e (t) = (2γ)/(1−γt)3, combinando os Lemas 5.3 e 5.4, temos que F e

fe satisfaz (2.11) com R = 1/γ. Portanto, fe e uma funcao majorante esferica para

F em B(x0, 1/γ). Daı,

fξ,α(t) =αγ

1− γtt2 − t+ ξ = ξ + (α− 1)t+ αfe(t),

e como ξγ ≤ 1 + 2α− 2√α(1 + α), concluımos que fξ,α satisfaz a3 e

t∗ =1 + γξ −

√(1 + γξ)2 − 4(1 + α)γξ

2(1 + α)γ

e sua menor raiz. Neste caso, a constante α satisfaz

α ≥ ηβ(1− γξ)2

ηβ + (1− ηβ)(1− γξ)2=

ηβ

ηβ[f ′(ξ) + 1] + 1.

66

Page 76: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Portanto, tomando α, fξ,α e t∗ como definido acima, a primeira parte do teorema

segue do Teorema 5.2. Para provar a segunda parte, e suficiente notar que a hipotese

ξγ < 1 + 2α− 2√α(1 + α) implica que fξ,α satisfaz a4.

5.2.2 Resultado de convergence sob condicao de Robinson

Nesta secao mostraremos um teorema correspondente ao Teorema 5.1, onde assumi-

mos que o ponto inicial satisfaz a condicao de Robinson, ver [4] e [32]. Alem disso,

daremos resultados sob condicao Lipschitz classica e condicao de Smale para funcoes

analıticas.

Inicialmente, sejam C ⊂ Rm um cone convexo fechado nao-vazio, F : Rn → Rm

uma funcao continuamente diferenciavel e x ∈ Rn. Defina a multifuncao Tx : Rn →P (Rm) por

Txd = F ′(x)d− C. (5.22)

A multifuncao Tx e um processo convexo de Rn em Rm; processos convexos tem sido

extensivamente estudados em [33, 34]. Como usual, o domınio, norma e inversa de

Tx sao definidos, respectivamente, por

D(Tx) := d ∈ Rn : Txd 6= ∅, ‖Tx‖ := sup ‖Txd‖ : x ∈ D(Tx), ‖d‖ ≤ 1,

T−1x y := d ∈ Rn : F ′(x)d ∈ y + C, y ∈ Rm.

onde ‖Txd‖ := inf‖v‖ : v ∈ Txd.O ponto x0 ∈ Rn, satisfaz a condicao de Robinson se a multifuncao Tx0 leva Rn

em Rm, i.e.,

∀ y ∈ Rm ∃ d ∈ Rn, ∃ c ∈ C; y = F ′(x0)d− c. (5.23)

Teorema 5.5 Seja F : Rn → Rm uma funcao continuamente diferenciavel.

Suponha que existem R > 0, x0 ∈ Rn e uma funcao majorante esferica fe : [0, R)→R para a funcao F em B(x0, R). Dadas as constantes α > 0 e ξ > 0, considere a

funcao auxiliar fξ,α : [0, R)→ R,

fξ,α(t) = ξ + (α− 1)t+ αfe(t).

Se fξ,α satisfaz a3, i.e., t∗ e o menor zero de fξ,α, entao a sequencia gerada pelo

metodo de Newton para resolver fξ,α(t) = 0, com ponto inicial t0 = 0,

tk+1 = tk − f ′ξ,α(tk)−1fξ,α(tk), k = 0, 1, . . . ,

esta bem definida, tk e estritamente crescente, esta contida em [0, t∗), e converge

Q-linearmente para t∗. Sejam η ∈ [1,∞), ∆ ∈ (0,∞] e h : Rm → R uma funcao

67

Page 77: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

convexa de valores-reais com conjunto de mınimos C nao-vazio. Assuma que C e um

cone e x0 satisfaz a condicao de Robinson. Seja β0 = ‖T−1x0‖. Se d(F (x0), C) > 0,

t∗ ≤ rβ0 := supt ∈ [0, R) : β0 − 1 + β0f′e(t) < 0,

∆ ≥ ξ ≥ ηβ0d(F (x0), C), α ≥ ηβ0

1 + (η − 1)β0[f ′e(ξ) + 1],

entao a sequencia gerada pelo Algoritmo 5.1, denotada por xk, esta contida em

B(x0, t∗),

F (xk) + F ′(xk)(xk+1 − xk) ∈ C, k = 0, 1, . . . ,

satisfaz as inequacoes

‖xk+1 − xk‖ ≤ |tk+1 − tk|, k = 0, 1 . . . ,

‖xk+1 − xk‖ ≤tk+1 − tk

(tk − tk−1)2‖xk − xk−1‖2, k = 1, 2, . . . ,

converge para um ponto x∗ ∈ B[x0, t∗] tal que F (x∗) ∈ C,

‖x∗ − xk‖ ≤ |t∗ − tk|, k = 0, 1, . . .

e a convergencia e R-linear. Se, adicionalmente, fξ,α satisfaz a4 entao as sequencias

tk e xk convergem Q-quadraticamente e R-quadraticamente para t∗ and x∗, res-

pectivamente.

Os seguinte resultados serao necessarios na prova do teorema acima.

Lema 5.5 Seja F : Rn → Rm uma funcao continuamente diferenciavel e C um cone

convexo fechado nao-vazio. Suponha que x0 ∈ Rn satisfaz a condicao de Robinson.

Entao

‖T−1x0‖ < +∞.

Alem disso, se S e uma transformacao linear de Rn em Rm tal que ‖T−1x0‖‖S‖ < 1,

entao o processo convexo T , definido por T := Tx0+S, leva Rn em Rm, ‖T−1‖ < +∞,

‖T−1‖ ≤‖T−1

x0‖

1− ‖T−1x0‖‖S‖

.

Demonstracao: Ver Teorema 1 na p.342 de [32].

Lema 5.6 Seja F : Rn → Rm uma funcao continualmente diferenciavel e h :

Rm → R uma funcao convexa de valores-reais com conjunto de mınimos C nao-

vazio. Suponha que x0 ∈ Rn satisfaz a condicao Robinson. Entao x0 e um ponto

68

Page 78: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

regular da inclusao F (x) ∈ C, em particular, x0 e um ponto quase-regular da in-

clusao F (x) ∈ C. Alem diso, assuma que C e um cone, R > 0 e fe : [0, R) → Re uma funcao majorante esferica de F em B(x0, R). Seja ξ > 0, β0 = ‖T−1

x0‖, a

funcao auxiliar fξ,β0 : [0, R)→ R,

fξ,β0(t) := ξ + (β0 − 1)t+ β0fe(t),

e rβ0 := supt ∈ [0, R) : f ′ξ,β0(t) < 0. Se rx0 e o raio quase-regular e βx0(·) e a

funcao limitante quase-regular do ponto quase-regular x0, entao

rx0 ≥ rβ0 , βx0(t) ≤β0

1− β0[f ′e(t) + 1], ∀ t ∈ [0, rβ0).

Demonstracao: Tome y ∈ Ker(F ′(x0)T ) ∩ (C − F (x0))o. Daı,

0 = 〈F ′(x0)Ty, d〉 = 〈y, F ′(x0)d〉, ∀ d ∈ Rn, 〈y, c−F (x0)〉 ≤ 0, ∀ c ∈ C.

Como x0 satisfaz a condicao de Robinson segue que existem d ∈ Rn e c ∈ C tais que−y − F (x0) = F ′(x0)d− c, o que combinado com as inequacoes acima implica

〈y, y〉 = 〈y, c− F (x0)− F ′(x0)d〉 = 〈y, c− F (x0)〉 ≤ 0.

Portanto, y = 0 e obtemos da Definicao 5.1 que x0 e um ponto regular da inclucaoF (x) ∈ C.

Para estabelecer a segunda parte, primeiro tome x ∈ Rn tal que ‖x− x0‖ ≤ rβ0 .Usando que fe e uma funcao majorante esferica de F em B(x0, R), definicoes de β0,fξ,β0 e rβ0 , temos que

‖T−1x0‖‖F ′(x)−F ′(x0)‖ ≤ β0[f ′e(‖x−x0‖)− f ′e(0)] = f ′ξ,β0

(‖x−x0‖) + 1 < 1. (5.24)

Combinando a hipotese que x0 satisfaz a condicao de Robinson com a ultima in-equacao, obtemos do Lema 5.5 que o processo convexo

Txd = F ′(x)d− C = Tx0d+ [F ′(x)− F ′(x0)]d, ∀ d ∈ Rn,

leva Rn em Rm e

‖Tx−1‖ ≤‖T−1

x0‖

1− ‖T−1x0‖‖F ′(x)− F ′(x0)‖

≤ β0

1− β0[f ′e(‖x− x0‖)− f ′e(0)], (5.25)

onde a ultima inequacao segue da definicao de β0 e (5.24). Alem disso, como Tx levaRn em Rm e facil ver que

DC(x) = d ∈ Rn : F (x) + F ′(x)d ∈ C 6= ∅, ∀ x ∈ B(x0, rβ0). (5.26)

69

Page 79: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Agora, seja d ∈ T−1x (c− F (x)). Usando a definicao de T−1

x segue que

F ′(x)d ∈ c− F (x) + C = C − F (x),

ou seja, F (x) + F ′(x)d ∈ C, o que combinado com a definicao de DC(x) implicam

T−1x (c− F (x)) ⊂ DC(x).

Portanto,

d(0, DC(x)) ≤ ‖T−1x (c− F (x))‖ ≤ ‖T−1

x ‖‖c− F (x)‖, ∀c ∈ C.

A ultima inequacao juntamente com (5.25) implicam

d(0, DC(x)) ≤ ‖T−1x ‖d(F (x), C) ≤ β0

1− β0[f ′e(‖x− x0‖)− f ′e(0)]d(F (x), C),

o que combinado com (5.26), definicoes de rx0 e βx0(·) em (1.5) e (1.6), respectiva-mente, implicam a inequacao desejada.

[Prova do Teorema 5.5]Como x0 ∈ Rn satisfaz a condicao de Robinson, temos do

Lema 5.6 que x0 e um ponto quase-regular da inclusao F (x) ∈ C com raio quase-

regular rx0 ≥ rβ0. Daı, usando que t∗ ≤ rβ0 obtemos

t∗ < rx0 .

Alem disso, o Lema 5.6 implica que a funcao limitante quase-regular βx0(·) satisfaz

βx0(t) ≤β0

1− β0[f ′e(t) + 1], ∀ t ∈ [0, rβ0). (5.27)

Como ∆ ≥ ξ ≥ ηβ0d(F (x0), C) e a ultima inequacao implica que βx0(0) ≤ β0, segue

que

∆ ≥ ξ ≥ ηβx0(0)d(F (x0), C).

Agora, combinando as hipoteses que 0 < ξ e t∗ ≤ rβ0 com a primeira afirmacao

na Proposicao 2.12 concluımos que 0 < ξ < t∗ ≤ rβ0. Portanto, usando (5.27),

f ′(0) = −1, f ′e estritamente crescente e η ≥ 1 obtemos, apos simples calculo que

η[f ′e(t)+1]+1

βx0(t)≥ 1

β0

+(η−1)[f ′e(t)+1] ≥ 1

β0

+(η−1)[f ′e(ξ)+1], ∀ t ∈ [ξ, t∗),

ou equivalentemente,

ηβ0

1 + (η − 1)β0[f ′e(ξ) + 1]≥ ηβx0(t)

ηβx0(t)[f′e(t) + 1] + 1

, ∀ t ∈ [ξ, t∗). (5.28)

70

Page 80: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Daı, a hipotese α ≥ ηβ0/[1 + (η− 1)β0(f ′e(ξ) + 1)] e ultima inequacao implicam que

α ≥ sup

ηβx0(t)

ηβx0(t)[f′e(t) + 1] + 1

: ξ ≤ t < t∗

.

Assim, F e x0 satisfazem todas as hipoteses do Teorema 5.1 e as afirmacoes deste

teorema seguem do Teorema 5.1.

Observacao 5.3 Seja F : Rn → Rm uma funcao continuamente diferenciavel.

Suponha que existem R > 0, x0 ∈ Rn e K > 0, tais que

‖F ′(y)− F ′(x)‖ ≤ K‖y − x‖, x, y ∈ B(x0, R).

Note que, fe : [0, R) → R definida por fe(t) = Kt2/2 − t e uma funcao majorante

esferica para F em B(x0, R). Neste caso, e facil ver que a3, a4 e t∗ no Teorema 5.5

sao

2αKξ ≤ 1, 2αKξ < 1, t∗ = (1−√

1− 2αKξ )/(αK),

e α satisfiaz

α ≥ ηβ0

1 + (η − 1)Kβ0ξ.

Em particular, se C = 0, n = m a condicao de Robinson e equivalente a condicao

de que F ′(x0)−1 e nao-singular. Daı, para η = 1 obtemos a convergencia semi-local

do metodo de Newton sob condicao Lipschitz, ver [6].

Observacao 5.4 Seja F : Rn → Rm uma funcao analıtica. Suponha que x0 ∈ Rn e

γ := supn>1

∥∥∥∥F (n)(x0)

n!

∥∥∥∥1/(n−1)

< +∞.

Note que a funcao real fe : [0, 1/γ)→ R definida por fe(t) = t/(1− γt)− 2t e uma

funcao majorante esferica para F em B(x0, 1/γ). Neste caso, e facil ver que a3, a4

e t∗ no Teorema 5.5 sao

ξγ ≤ 1 + 2α− 2√α(1 + α), ξγ < 1 + 2α− 2

√α(1 + α),

t∗ =1 + γξ −

√(1 + γξ)2 − 4(1 + α)γξ

2(1 + α)γ,

e α satisfaz

α ≥ ηβ0(1− γξ)2

(η − 1)β0 + [1− β0(η − 1)](1− γξ)2.

Em particular, se C = 0, n = m a condicao de Robinson e equivalente a condicao

que F ′(x0)−1 e nao-singular. Daı, para η = 1 obtemos a convergencia semi-local do

metodo de Newton sob condicao de Smale, ver [27].

71

Page 81: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Consideracoes Finais

Neste trabalho, estudamos e demonstramos resultados acerca da convergencia local

e semi-local dos metodos de Gauss-Newton.

A convergencia dos metodos de Gauss-Newton tambem foi estudada nas recentes

referencias [4, 10, 11, 13, 18, 19, 24]). A principal diferenca destas analises com as

nossas analises e que em lugar de nossa condicao majorante radial e utilizada a

condicao radial de Wang

‖F ′(x)− F ′(x∗ + τ(x− x∗))‖ ≤∫ ‖x−x∗‖τ‖x−x∗‖

L(u)du, o ≤ τ ≤ 1, (5.29)

onde L e uma funcao escalar nao-decrescente, e no lugar da nossa condicao majorante

esferica e utilizada a condicao esferica de Wang

‖F ′(y)− F ′(x)‖ ≤∫ ‖y−x‖+‖x−x0‖

‖x−x0‖L(u)du, o ≤ τ ≤ 1, (5.30)

onde L e uma funcao escalar nao-decrescente.

Entretanto, note que as condicoes (5.29) e (5.30) podem ser vistas como um caso

particular da funcao majorante radial e esferica, respectivamente. Para verificarmos

esta afirmacao, basta escolhermos as funcoes majorantes radial e esferica da seguinte

forma:

fr(t) = fe(t) =

∫ t

0

L(u)(t− u)du− t.

Temos que as funcoes fr(t) e fe(t) definidas acima satisfazem as hipoteses h1, h2,

a1 e a2 . Alem disso, tambem temos que

f ′r(t) = f ′e(t) =

∫ t

0

L(u)du− 1.

Assim, obtemos apos alguns calculos que

f ′r(‖x− x∗‖)− f ′r(τ‖x− x∗‖) =

∫ ‖x−x∗‖τ‖x−x∗‖

L(u)du,

72

Page 82: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

f ′e(‖y − x‖+ ‖x− x0‖)− f ′e(‖x− x0‖) =

∫ ‖y−x‖+‖x−x0‖

‖x−x0‖L(u)du,

o que prova nossa afirmacao. De fato, podemos mostrar que as condicoes da funcao

majorante radial e esferica sao equivalentes as condicoes (5.29) e (5.30) respectiva-

mente. Mas, como adotadas aqui sao mais naturais e deixam claro as suas relacoes

com a funcao nao-linear, refletindo de maneira simetrica em todos os resultados.

Nossa contribuicao foi reformular os teoremas de convergencia para os metodos de

Gauss-Newton usando o princıpio majorante de Kantorovich. Esta nova abordagem

deixou clara a relacao entre as funcoes majorantes com a funcao nao-linear em

consideracao, o que nao estava explıcito nas outras demonstracoes. Com isso, os

resultados apresentados aqui tornaram as condicoes e demonstracoes de convergencia

mais simples e mais didatica. Alem disso, no caso de convergencia local dos metodos

de Gauss-Newton o contexto foi estendido para espacos de Hilbert e no caso quase

Gauss-Newton inexato adicionamos resultados de convergencia para a condicao de

Smale. Ademais, na prova de convergencia semi-local da sequencia gerada pelo

algoritmo de Gauss-Newton utilizamos uma tecnica que no lugar de olhar apenas a

sequencia gerada, identificamos regioes onde a sequencia de Gauss-Newton para o

problema de otimizacao convexa e bem definido quando comparado com metodo de

Newton aplicado a uma funcao auxiliar associada a funcao majorante.

Uma outra contribuicao foi fazer um estudo completo das funcoes majorante,

onde quase todos os resultados necessarios para a convergencia dos metodos de

Gauss-Newton foram demonstrados, deixando o texto “auto-contido”.

Por fim, como proposta de trabalho futuro sugerimos o estudo de convergencia de

outras variacoes dos metodos de Newton e de Gauss-Newton usando nossa condicao

majorante.

73

Page 83: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

Referencias Bibliograficas

[1] Floudas, C. A., Pardalos, P. M. (Eds.). Encyclopedia of Optimization, Second

Edition. Springer, 2009. ISBN: 978-0-387-74758-3.

[2] MORINI, B. “Convergence Behaviour of Inexact Newton Methods”, Math.

Comp., v. 68, pp. 1605–1613, 1999.

[3] BURKE, J. V., FERRIS, M. C. “A Gauss-Newton method for convex composite

optimization”, Math. Programming, v. 71, n. 2, Ser. A, pp. 179–194, 1995.

ISSN: 0025-5610. doi: 10.1007/BF01585997.

[4] LI, C., NG, K. F. “Majorizing functions and convergence of the Gauss-Newton

method for convex composite optimization”, SIAM J. Optim, pp. 613–642,

2007.

[5] LI, C., WANG, X. “On convergence of the Gauss-Newton method for convex

composite optimization”, Math. Program., v. 91, pp. 349–356, 2002. ISSN:

0025-5610. 10.1007/s101070100249.

[6] DENNIS, JR., J. E., SCHNABEL, R. B. Numerical methods for unconstrained

optimization and nonlinear equations, v. 16, Classics in Applied Mathe-

matics. Philadelphia, PA, Society for Industrial and Applied Mathematics

(SIAM), 1996. ISBN: 0-89871-364-1. Corrected reprint of the 1983 origi-

nal.

[7] NOCEDAL, J., WRIGHT, S. J. Numerical optimization. Springer Series in

Operations Research. New York, Springer-Verlag, 1999. ISBN: 0-387-

98793-2.

[8] KANTOROVIC, L. V. “The principle of the majorant and Newton’s method”,

Doklady Akad. Nauk SSSR (N.S.), v. 76, pp. 17–20, 1951.

[9] ARGYROS, I. K., HILOUT, S. “Improved generalized differentiability con-

ditions for Newton-like methods”, J. Complexity, v. In Press, Corrected

Proof, pp. –, 2010. ISSN: 0885-064X. doi: DOI: 10.1016/j.jco.2009.12.001.

74

Page 84: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

[10] CHEN, J., LI, W. “Convergence of Gauss-Newton’s method and uniqueness

of the solution”, Appl. Math. Comput., v. 170, n. 1, pp. 686–705, 2005.

ISSN: 0096-3003.

[11] CHEN, J., LI, W. “Local convergence results of Gauss-Newton’s like method

in weak conditions”, J. Math. Anal. Appl., v. 324, n. 2, pp. 1381 – 1394,

2006. ISSN: 0022-247X. doi: DOI: 10.1016/j.jmaa.2006.01.032.

[12] DEDIEU, J. P., KIM, M. H. “Newton’s method for analytic systems of equa-

tions with constant rank derivatives”, J. Complexity, v. 18, n. 1, pp. 187–

209, 2002. ISSN: 0885-064X. doi: 10.1006/jcom.2001.0612.

[13] CHEN, J., LI, W. “Convergence behaviour of inexact Newton methods under

weak Lipschitz condition”, J. Comput. Appl. Math., v. 191, n. 1, pp. 143–

164, 2006. ISSN: 0377-0427.

[14] DEDIEU, J. P., SHUB, M. “Newton’s method for overdetermined systems

of equations”, Math. Comp., v. 69, n. 231, pp. 1099–1115, 2000. ISSN:

0025-5718. doi: 10.1090/S0025-5718-99-01115-1.

[15] FERREIRA, O. P. “Local convergence of Newton’s method in Banach space

from the viewpoint of the majorant principle”, IMA J. Numer. Anal.,

v. 29, n. 3, pp. 746–759, 2009. ISSN: 0272-4979.

[16] FERREIRA, O. P., GONCALVES, M. L. N. “Local convergence analysis of

inexact Newton-like methods under majorant condition”, Comput. Optim.

Appl., v. Article in Press, pp. 1–21, 2009. ISSN: 0926-6003.

[17] FERREIRA, O. P., SVAITER, B. F. “Kantorovich’s majorants principle for

Newton’s method”, Comput. Optim. Appl., v. 42, n. 2, pp. 213–229, 2009.

ISSN: 0926-6003.

[18] LI, C., HU, N., WANG, J. “Convergence behavior of Gauss-Newton’s method

and extensions of the Smale point estimate theory”, J. Complexity, v. In

Press, Corrected Proof, pp. –, 2010. ISSN: 0885-064X. doi: DOI:

10.1016/j.jco.2010.02.001.

[19] LI, C., ZHANG, W.-H., JIN, X.-Q. “Convergence and uniqueness properties of

Gauss-Newton’s method”, Comput. Math. Appl., v. 47, n. 6-7, pp. 1057–

1067, 2004. ISSN: 0898-1221.

[20] PROINOV, P. D. “General local convergence theory for a class of iterative pro-

cesses and its applications to Newton’s method”, J. Complexity, v. 25, n. 1,

pp. 38 – 62, 2009. ISSN: 0885-064X. doi: DOI: 10.1016/j.jco.2008.05.006.

75

Page 85: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

[21] PROINOV, P. D. “New general convergence theory for iterative processes

and its applications to Newton-Kantorovich type theorems”, J. Com-

plexity, v. 26, n. 1, pp. 3 – 42, 2010. ISSN: 0885-064X. doi: DOI:

10.1016/j.jco.2009.05.001.

[22] WANG, X. “Convergence of Newton’s method and uniqueness of the solution

of equations in Banach space”, IMA J. Numer. Anal., v. 20, n. 1, pp. 123–

134, 2000. ISSN: 0272-4979.

[23] FERREIRA, O. P. “Local convergence of Newton’s method under majorant

condition”, J.Comput.Appl.Math., v. 235, n. 5, pp. 1515 – 1522, 2011.

ISSN: 0377-0427. doi: DOI: 10.1016/j.cam.2010.08.038.

[24] CHEN, J. “The convergence analysis of inexact Gauss-Newton methods for

nonlinear problems”, Comput. Optim. Appl., v. 40, n. 1, pp. 97–118, 2008.

ISSN: 0926-6003. doi: 10.1007/s10589-007-9071-7.

[25] FERREIRA, O. P., SVAITER, B. F. “Kantorovich’s Theorem on Newton’s

Method in Riemannian Manifolds”, J. Complexity, v. 18, n. 1, pp. 304 –

329, 2002. ISSN: 0885-064X. doi: DOI: 10.1006/jcom.2001.0582.

[26] FERREIRA, O. P., GONCALVES, M. L. N., OLIVEIRA, P. R. “Local conver-

gence analysis of the Gauss-Newton method under a majorant condition”,

J. Complexity, v. 27, n. 1, pp. 111 – 125, 2011. ISSN: 0885-064X. doi:

DOI: 10.1016/j.jco.2010.09.001.

[27] SMALE, S. “Newton’s method estimates from data at one point”. In: The

merging of disciplines: new directions in pure, applied, and computational

mathematics (Laramie, Wyo., 1985), Springer, pp. 185–196, New York,

1986.

[28] STEWART, G. W. “On the continuity of the generalized inverse”, SIAM J.

Appl. Math., v. 17, pp. 33–45, 1969. ISSN: 0036-1399.

[29] WEDIN, P.-A. “Perturbation theory for pseudo-inverses”, Nordisk Tidskr. In-

formationsbehandling (BIT), v. 13, pp. 217–232, 1973.

[30] HIRIART-URRUTY, J.-B., LEMARECHAL, C. Convex analysis and min-

imization algorithms. I, v. 305, Grundlehren der Mathematischen Wis-

senschaften [Fundamental Principles of Mathematical Sciences]. Berlin,

Springer-Verlag, 1993. ISBN: 3-540-56850-6. Fundamentals.

76

Page 86: ANALISE DE CONVERG ENCIA DOS M^ ETODOS DE GAUSS … · Gauss-Newton consiste em resolver um sistema de equa˘c~oes lineares, o que pode ser computacionalmente muito \caro"se o numero

[31] FERREIRA, O. P., GONCALVES, M. L. N., OLIVEIRA, P. R. “Local con-

vergence analysis of inexact Gauss-Newton like method under a majorant

condition”, preprint, http://arxiv.org/abs/1008.1916v1.

[32] ROBINSON, S. M. “Extension of Newton’s method to nonlinear functions

with values in a cone”, Numer. Math., v. 19, pp. 341–347, 1972. ISSN:

0029-599X. 10.1007/BF01404880.

[33] ROCKAFELLAR, R. T. Monotone processes of convex and concave type. Mem-

oirs of the American Mathematical Society, No. 77. Providence, R.I.,

American Mathematical Society, 1967.

[34] ROCKAFELLAR, R. T. Convex analysis. Princeton Mathematical Series, No.

28. Princeton, N.J., Princeton University Press, 1970.

[35] BLUM, L., CUCKER, F., SHUB, M., et al. Complexity and real computation.

New York, Springer-Verlag, 1998. ISBN: 0-387-98281-7. With a foreword

by Richard M. Karp.

77