Optimización y regularización para relaxometría de baja resolución ...

Máster en Ingeniería Matemática

2012 – 2015

Trabajo Fin de Máster

Optimización y regularización pararelaxometría de baja resolución en

Resonancia Magnética Nuclear

Juan María Candal Vilariño

Fecha presentación: Julio de 2015Tutor: Andrés Prieto AneirosEmpresa: Mestrelab Research

i

Esta es una obra de acceso libre sujeta a licencia Reconocimiento 4.0 Internacionalde CREATIVE COMMONS, que no permite el uso comercial de la obra originalni la generación de obras derivadas. Para ver una copia de esta licencia, visitehttp://creativecommons.org/licenses/by-nc-nd/4.0/.

El código referido en esta obra se encuentra en el repositorio público GITHUB endisponible https://github.com/xancandal/lr-nmr-analysis conlicencia de software libre BSD (acrónimo en inglés de “Berkeley Software Dis-tribution”) de 3 cláusulas. Para ver una copia de esta licencia, visite https://directory.fsf.org/wiki/License:BSD_3Clause.

Copyright (c) 2014-2015, Juan María Candal Vilariño.

http://creativecommons.org/licenses/by-nc-nd/4.0/

https://github.com/xancandal/lr-nmr- analysis

https://directory.fsf.org/wiki/License:BSD_3Clause

https://directory.fsf.org/wiki/License:BSD_3Clause

iii

La realización de esta memoria ha sido posible gracias al inconmensurable traba-jo en cuanto a disponibilidad, predisposición, motivación y entrega de mi tutor,Andrés Prieto Aneiros, a quién agradezco todo cuanto ha hecho para llevar a caboeste Trabajo Fin de Máster. Agradezco también a Santiago Ponte de la empresaMESTRELAB RESEARCH por todas las jornadas de trabajo, así como al Centro deSupercomputación de Galicia (CESGA) por permitirme el empleo de su infraes-tructura.

Índice general

1 Introducción 11.1 Relaxometría LR-NMR . . . . . . . . . . . . . . . . . . . . . . . 11.2 Análisis de la señal . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 El problema inverso . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Inversión de Laplace de LR-NMR 52.1 Problema inverso discreto . . . . . . . . . . . . . . . . . . . . . . 52.2 Análisis de condicionamiento . . . . . . . . . . . . . . . . . . . . 6

3 Algoritmo de optimización 93.1 El problema de optimización convexa . . . . . . . . . . . . . . . 93.2 Problema dual de Lagrange . . . . . . . . . . . . . . . . . . . . . 133.3 Condición de complementariedad . . . . . . . . . . . . . . . . . 153.4 Condiciones Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . 153.5 Barrera logarítmica . . . . . . . . . . . . . . . . . . . . . . . . . 163.6 Camino central . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.7 Variables de holgura . . . . . . . . . . . . . . . . . . . . . . . . 193.8 Problema de optimización asociado al problema CO2 . . . . . . . 203.9 Ecuaciones KKT modificadas . . . . . . . . . . . . . . . . . . . . 213.10 Método de Newton . . . . . . . . . . . . . . . . . . . . . . . . . 233.11 Algoritmo PDCO . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4 Cálculo de la ILT por optimización convexa 274.1 Problema de optimización . . . . . . . . . . . . . . . . . . . . . 274.2 Escalado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.2.1 Escalado de la matriz del sistema . . . . . . . . . . . . . 304.2.2 Escalado de la señal (primera opción) . . . . . . . . . . . 304.2.3 Escalado de la señal (segunda opción) . . . . . . . . . . . 31

v

vi ÍNDICE GENERAL

5 Validación del algoritmo PDCO 335.1 Parámetros admisibles . . . . . . . . . . . . . . . . . . . . . . . 335.2 Cálculo del valor SNR . . . . . . . . . . . . . . . . . . . . . . . 345.3 Test preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.4 Delta de Dirac como ILT . . . . . . . . . . . . . . . . . . . . . . 435.5 Combinación lineal de deltas de Dirac como ILT . . . . . . . . . 465.6 Funciones gausianas . . . . . . . . . . . . . . . . . . . . . . . . 49

6 Resultados numéricos y Conclusiones 536.1 Resultados numéricos . . . . . . . . . . . . . . . . . . . . . . . . 53

6.1.1 Precisión . . . . . . . . . . . . . . . . . . . . . . . . . . 556.1.2 Rango dinámico . . . . . . . . . . . . . . . . . . . . . . 566.1.3 Potencia de resolución . . . . . . . . . . . . . . . . . . . 596.1.4 Tiempos de ejecución . . . . . . . . . . . . . . . . . . . . 63

6.2 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Bibliografía 71

Índice de figuras

1.1 Representación gráfica de las intensidades de las contribucionesde la señal con respecto a las constantes de decaimiento T . La lí-nea vertical coronada por un círculo marca la posición del periodode muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1 Representación gráfica de los valores singulares de la matriz KC. 7

5.1 Representación de una señal sin ruido y la señal original con unruido blanco gaussiano de 2 × 10−1 (gráfica (a)). Filtrado de laseñal original con ruido mediante la media móvil de ocho puntos(gráfica (b)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.2 Representación de los últimos 1024 puntos de la señal y su rectade regresión lineal (gráfica (a)). Resultado de la resta de los úl-timos 1024 puntos de la media móvil de ocho puntos de la señalcon ruido y su recta de regresión lineal (gráfica (b)). . . . . . . . . 35

5.3 Test donde la solución es proporcional a una delta de Dirac. (a)Decaimiento exponencial de la señal. (b) Solución aproximadautilizando el algoritmo PDCO sin regularización. . . . . . . . . . . 45

5.4 (a) Resultados obtenidos en el problema de la delta de Dirac usan-do PDCO sin regularización L1 y con distintos valores de λ2, 0,10−2, 10−4 y 10−6, correspondientes a las soluciones 1, 2, 3 y 4,respectivamente. (b) Resultados obtenidos en problema de la deltade Dirac usando PDCO sin regularización L2 y con distintos valo-res de λ1, 0, 10−2, 10−4 y 10−6, correspondientes a las soluciones5, 6, 7 y 8, respectivamente. (c) Resultados obtenidos en proble-ma de la delta de Dirac usando PDCO con regularización λ1 y λ2con distintos pares de valores (λ1,λ2): (10−2,10−8), (10−4,10−6),(10−6,10−4) y (10−8,10−2), correspondientes a las soluciones 9,10, 11 y 12, respectivamente. . . . . . . . . . . . . . . . . . . . . 46

vii

viii ÍNDICE DE FIGURAS

5.5 Resultados numéricos obtenidos en el problema de la delta de Di-rac usando PDCO sin emplear regularización L1 y L2 y con dis-tintos valores de ∆t, (∆T )j (y sus correspondientes valores de my n). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.6 (a) Reconstrucción de la señal original a partir de la solución apro-ximada calculada. (b) Solución aproximada calculada por el algo-ritmo PDCO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.7 Solución aproximada (izquierda) y residuo representado frente alnúmero de iteraciones (derecha) obtenidos en el test donde la so-lución es la combinación lineal de tres funciones gaussianas em-pleando PDCO con regularización L1 y L2 (CO), solo regulari-zación L2 (L2), y la señal simulada original (SG), utilizando unconjunto de puntos (∆T )j , j = 1, ..., n espaciados linealmenteentre 10−4 y 100. . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.8 Resultados numéricos obtenidos en el test cuya solución exactaes la combinación lineal de tres funciones gaussianas, donde ladiscretización viene dada por un conjunto de puntos logarítmica-mente espaciados, empleando PDCO con regularización L1 y L2

(CO), PDCO con solo regularización L2 (L2), y la señal simuladaoriginal (SG). (a) Solución aproximada. (b) Señal exacta y señalreconstruida a partir de la aproximación numérica. (c) Residuo dela aproximación numérica y rango de iteraciones requeridas porel algoritmo PDCO. . . . . . . . . . . . . . . . . . . . . . . . . . 51

6.1 Representación gráfica en el dominio del tiempo de la señal 1(S1), la señal 2 (S2), la señal 3 (S3), la señal 4 (S4) y la señal5 (S5) para un valor de SNR de 413, 308, 285, 298 y 308, respec-tivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

6.2 Soluciones aproximadas y solución exacta (izquierda) y represen-tación gráfica del residuo con respecto al número de iteracionesdel algoritmo PDCO (derecha) para el test de la Señal 3 con SNR= 17395 y n = 25. . . . . . . . . . . . . . . . . . . . . . . . . . . 57



ÍNDICE DE FIGURAS ix


6.6 Soluciones aproximadas y solución exacta (izquierda) y represen-tación gráfica del residuo con respecto al número de iteracionesdel algoritmo PDCO (derecha) para el test de la Señal 1 con SNR15183. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59


6.8 Soluciones aproximadas y solución exacta (izquierda) y represen-tación gráfica del residuo con respecto al número de iteracionesdel algoritmo PDCO (derecha) para el test de la Señal 1 con SNR535. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60







x ÍNDICE DE FIGURAS











ÍNDICE DE FIGURAS xi


xii ÍNDICE DE FIGURAS

Índice de tablas

5.1 Resultados obtenidos sin aplicar ningún tipo de escalado en laresolución del sistema lineal Ax = b con el algoritmo PDCO,cuando A y x se generan de forma aleatoria. . . . . . . . . . . . . 37

5.2 Resultados obtenidos escalando la matriz del sistema (véase Sec-ción 4.2.1) en la resolución del sistema lineal Ax = b con elalgoritmo PDCO, cuando A y x se generan de forma aleatoria. . . 38

5.3 Resultados obtenidos escalando el vector del sistema con la pri-mera opción (véase Sección 4.2.2) en la resolución del sistemalineal Ax = b con el algoritmo PDCO, cuando A y x se generande forma aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.4 Resultados obtenidos escalando el vector del sistema con la se-gunda opción (véase Sección 4.2.3) en la resolución del sistemalineal Ax = b con el algoritmo PDCO, cuando A y x se generande forma aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.5 Resultados obtenidos escalando el vector con la primera opción yla matriz del sistema (véase Secciones 4.2.1 y 4.2.2) en la resolu-ción del sistema lineal Ax = b con el algoritmo PDCO, cuando Ay x se generan de forma aleatoria. . . . . . . . . . . . . . . . . . 41

5.6 Resultados obtenidos escalando el vector con la segunda opción yla matriz del sistema (véase Secciones 4.2.1 y 4.2.3) en la resolu-ción del sistema lineal Ax = b con el algoritmo PDCO, cuando Ay x se generan de forma aleatoria. . . . . . . . . . . . . . . . . . 42

5.7 Valores de ∆t, (∆T )j y los correspondientes valores de m y nasociados a las soluciones a-i que se presentan en la Figura 5.5. . . 45

6.1 Valores de µj para cada una de las tres contribuciones gaussianasde los cinco tipos de soluciones exactas. . . . . . . . . . . . . . . 54

6.2 Valores de SNR (Signal-to-Noise Ratio) usado para cada una delos cinco tipos de soluciones exactas. . . . . . . . . . . . . . . . . 54

xiii

xiv ÍNDICE DE TABLAS

6.3 Valores de a y b, que determinan el intervalo de discretizaciónTj ∈ [10a, 10b], empleados para cada una de las combinacionesseñal-ruido analizadas. . . . . . . . . . . . . . . . . . . . . . . . 55

6.4 Tiempos de ejecución para los distintos test en los tres entornosde cálculo del SVG. Cada uno de los tiempos de ejecución se co-rresponde con la media aritmética de diez ejecuciones. . . . . . . 69

Capítulo 1

Introducción

En este capítulo, se introduce el problema que aborda el presente Trabajo Finde Máster, mediante una breve introducción a la Relaxometría de baja resoluciónen Resonancia Magnética Nuclear (en inglés “Low Resolution - Nuclear MagneticResonance” o LR-NMR), y de como el análisis de este tipo de señales involucra elcálculo de transformadas de Laplace inversas.

1.1 Relaxometría LR-NMR

La Resonancia Magnética Nuclear (NMR) involucra fenómenos físicos en losque los núcleos atómicos, cuando se les aplica un campo magnético, absorben yreemiten radiación electromagnética a frecuencias de resonancia específicas quedependen de la intensidad del campo magnético local y del momento magnéticonuclear. Estas frecuencias de resonancia que exhiben los núcleos atómicos (for-mando parte de una molécula) son directamente proporcionales a la intensidaddel campo magnético, de acuerdo con la ecuación de la frecuencia de precesiónde Larmor [6].

La implementación experimental de la NMR generalmente implica los siguien-tes pasos secuenciales: (i) la alineación (polarización) de los momentos magnéti-cos de espín nucleares mediante un campo magnético homogéneo en intensidad ydirección espacial; (ii) la perturbación de esta alineación mediante el empleo deun tren de pulsos electromagnéticos, por ejemplo la secuencia de pulsos CPMG(Carr-Purcell-Meiboom-Gill) [8]. Al conjunto de procesos por los que la mag-netización nuclear de los núcleos atómicos recupera el equilibrio se denominarelajación, y la disciplina que se encarga del estudio y la medida experimental delas variables de relajación (como son las constantes de decaimiento) se denomi-na Relaxometría. En concreto, la Relaxometría de baja resolución en Resonancia

1

2 CAPÍTULO 1. INTRODUCCIÓN

Magnética Nuclear (LR-NMR) utiliza un rango de intensidades del campo mag-nético entre 10 mT y 1 T, que se corresponde a un rango de frecuencias Larmorentre 425 kHz y 42,5 MHz, para el caso de la oscilación de un protón [7].

En general la relaxometría LR-NMR es una herramienta muy útil para la carac-terización de componentes de materiales complejos [1]. Así mismo, tiene aplica-ciones diversas en investigaciones no destructivas como por ejemplo: la medida dela porosidad de materiales; la cuantificación de la relación de contenidos de me-tabolitos, en aceites, aceites-agua, o petróleo-agua; al calcular la permeabilidadde materiales o rocas, para detectar alimentos que se deterioran con el tiempo, opara comprobar si los alimentos desarrollan algún tipo de toxina con el paso deltiempo [7].

1.2 Análisis de la señalLa obtención de datos de relaxometría LR-NMR se realiza mediante el uso de

espectrómetros. En los casos más simples, se mide un decaimiento exponencialque es descrito por la relación

s(t) = I exp (−t/T ),

donde s(t) es la señal medida, t es el tiempo de medida, T es la constante dedecaimiento y I es la amplitud inicial de la fuerza electromotriz inducida en elespectrómetro.

Una vez obtenida la señal de una muestra mediante un espectrómetro NMR, elobjetivo es hallar, mediante el análisis de la señal medida, una aproximación fiablede las contribuciones y las constantes de decaimiento asociadas a cada componen-te de la muestra. Estos cálculos se ven dificultados por la naturaleza de la señalmedida ya que ésta, además de contener la suma de las contribuciones de cadacomponente, también posee ruido tanto experimental (de origen natural) comoderivado del instrumento de medida.

Si la muestra tiene sólo un tipo de especies entonces la señal medida obede-ce a un solo patrón de decaimiento exponencial. En cambio, si la muestra estácompuesta por varias especies diferentes, la señal obtenida contiene informaciónde todas las especies, siendo cada especie responsable de una contribución en laseñal medida.

Un ejemplo de este análisis para una combinación de especies en una muestrase representa en la Figura 1.1. En esta figura se representa una aproximación de las

1.2. ANÁLISIS DE LA SEÑAL 3

amplitudes (también denominadas intensidades) de las contribuciones de la señalcon respecto a las constantes de decaimiento T . Esta figura incluye además unalínea vertical coronada por un círculo con la que se señala el periodo de muestreode la señal. Todas las intensidades obtenidas deben de ser positivas y estar a laderecha del periodo de muestreo para que sean validas, y según indicaciones deMESTRELAB RESEARCH, todas las intensidades positivas relevantes de la mues-tra deben ser entre 1.5 y 3 veces en escala logarítmica mayores que el periodo demuestreo. Esto es, la posición del pico T ∗ situado más a la izquierda en la Figura1.1 debe satisfacer la relación

log10 (∆t) ≤ log10 (T ∗)− 1.5,

donde ∆t denota el periodo de muestreo.

200

400

600

800

1000

1200

10-4

10-3

10-2

10-1

Intensidad

Decaimiento[s]

Figura 1.1: Representación gráfica de las intensidades de las contribuciones de laseñal con respecto a las constantes de decaimiento T . La línea vertical coronadapor un círculo marca la posición del periodo de muestreo.

Conceptualmente, la determinación de estas contribuciones sería equivalente ala aplicación de una transformada inversa de Laplace (en inglés “Inverse LaplaceTransform” o ILT) a la señal recogida por el espectrómetro.

4 CAPÍTULO 1. INTRODUCCIÓN

1.3 El problema inversoLos problemas inversos y sus soluciones son de gran importancia en muchas

disciplinas. Los campos de aplicación incluyen imágenes médicas y biológicas,radar, imágenes sísmicas, pruebas no destructivas, etc. [7]. Un problema inversoestá típicamente relacionado con un sistema físico del que solo pueden tomarsemediciones indirectas s de alguna función f desconocida. La relación entre s y fse determina por las características del sistema de medición y el modelo matemá-tico que se utiliza.

La configuración general de un problema inverso en el dominio de tiempocontinuo es como sigue:

s(t) = K(f(t)

)+ ε(t), (1.1)

donde K es un operador que modela la acción del sistema de medición y ε(t) es eltérmino de error. En el caso de LR-NMR, la señal medida s(t), además de contenerla suma de las contribuciones de cada componente, contiene ruido experimental(de origen natural) y derivado del instrumento de medida (ruido instrumental).

La ecuación (1.1) se puede utilizar para calcular directamente la señal espe-rada s(t) a partir de una intensidad conocida f . Sin embargo, no proporciona unmétodo directo para estimar la intensidad f a partir de una función de medicións(t). Este último problema será al que nos referiremos como problema inverso ysu solución requerirá herramientas de optimización convexa que revisaremos enel próximo capítulo.

Capítulo 2

Inversión de Laplace de LR-NMR

El cálculo de las intensidades discretas asociadas a las componentes de unaseñal de relajación es un problema mal condicionado, lo que significa que un pe-queño error en los datos iniciales puede resultar en errores mucho mayores en lasolución. El método numérico más comúnmente implementado para hacer frentea este tipo de problemas se basa en la regularización de Tikhonov (o regulariza-ción L2) [1]. El principal inconveniente de la regularización de Tikhonov es sutendencia a sobresuavizar la solución, y por lo tanto, este método es incapaz dedetectar los picos de baja intensidad o resolver entre dos o más picos vecinos enla constante de decaimiento. Es por este motivo por lo que, se empleará una herra-mienta de optimización convexa sofisticada, como es el caso del método interiorprimal-dual estudiado en el Capítulo 3.

2.1 Problema inverso discreto

La transformada inversa de Laplace es un problema mal condicionado, cuyainversión directa es inestable en presencia de ruido o errores espúreos (véase [1]).Más precisamente, las contribuciones f(T ) satisfacen

s(t) =

∫ ∞0

exp (−t/T )f(T )dT + ε(t), (2.1)

siendo s(t) la señal de relajación medida en tiempo t (tiempo de adquisición dela señal), T denota la constante temporal de decaimiento y ε(t) es el error de lasmediciones (que se considerará ruido aleatorio Gaussiano e independiente en cadainstante de tiempo).

5

6 CAPÍTULO 2. INVERSIÓN DE LAPLACE DE LR-NMR

De la integral (2.1) se deduce que la relación entre f y s sin ruido puede servisto como una ecuación integral de Fredholm de primera clase [10],

s(t) =

∫ ∞0

K(t, T )f(T )dT, (2.2)

dondeK(t, T ) = exp(−t/T ) se denomina núcleo de la transformación, los cualestípicamente involucran problemas mal condicionados.

Introducimos los datos medidos en la señal por s1 = s(t1), ..., sm = s(tm),siendo t1, ..., tm los tiempos de adquisición de la señal. De la misma forma, losvalores discretos de la intensidad los denotamos por f1 = f(T1), ..., fn = f(Tn),siendo T1, ..., Tn los tiempos de relajación discretos. Construimos así los vectoresdiscretos f = (f1, ..., fn)T y s = (s1, ..., sm)T .

A continuación, se aproxima la integral (2.2) mediante una suma de Riemannde partición 0 = T0 < T1 < T2 < ... < Tn, para obtener la versión truncadadiscreta de la transformada de Laplace (2.2) dada por

sl =n∑

j=1

f(Tj) exp(−tl/Tj)(∆T )j, l = 1, ...,m, (2.3)

siendo (∆T )j = Tj − Tj−1 con j = 1, ..., n, y tl = l∆t con l = 1, ...,m, donde seha supuesto que los tiempos de adquisición de datos tl, l = 1, ...,m son equiespa-ciados en tiempo, con periodo ∆t. Por tanto, se obtiene con esta discretización elsistema lineal de m ecuaciones con n incógnitas

s = (KC)f , (2.4)

donde K es una matriz de tamaño m×n tal que Klj = exp(−tl/Tj) y la matriz Cse define como la matriz diagonal definida positiva, tal que (C)jj = (∆T )j paraj = 1, ..., n.

2.2 Análisis de condicionamientoCon el fin de estudiar el condicionamiento del sistema lineal (2.4) en un caso

particular, se consideran los parámetros m = 16384, n = 10000, ∆t = 10−4 yque se satisface Tj − Tj−1 = ∆t para todo j = 1, ..., n. Al calcular el condiciona-miento de la matriz KC, se obtiene un valor igual a 1.7052× 1022, lo que ilustraque se está ante un problema muy mal condicionado.

2.2. ANÁLISIS DE CONDICIONAMIENTO 7

Para ilustrar gráficamente el condicionamiento del sistema matricials = (KC)f , se puede utilizar también la descomposición en valores singularesde la matriz KC. En la Figura 2.1 se representan los valores singulares de KC,construida con los mismos parámetros considerados anteriormente. El condicio-namiento de la matriz KC se puede calcular como el cociente entre el mayor y elmenor valor singular de la matriz, de manera que se obtiene

cond (KC) =0.4858

2.8489× 10−23= 1.7052× 1022.

10-25

10-20

10-15

10-10

10-5

100

0 2000 4000 6000 8000 10000

Figura 2.1: Representación gráfica de los valores singulares de la matriz KC.

La magnitud del valor del condicionamiento confirma que estamos ante unproblema muy mal condicionado. Por lo tanto, si el método numérico utilizadopara filtrar o suavizar el ruido provoca una mínima deformación en la forma dela señal medida se podría obtener resultados poco precisos. Hay que tener espe-cial cuidado al tratar de resolver el sistema lineal (2.4), ya que métodos estándarpueden llevar a resultados erróneos ya que diferentes vectores f podría correspon-derse a casi los mismos valores del vector s.

8 CAPÍTULO 2. INVERSIÓN DE LAPLACE DE LR-NMR

Para investigar la estrategia más idónea para resolver (2.4) se utilizará un mé-todo numérico que sea preciso a pesar de la presencia de errores en el vector sy debe de tener una precisión mínima que permita determinar una aproximacióncorrecta de f .

Un enfoque típico es usar métodos de regularización, que obligan a la solu-ción f a ser solución de un problema de optimización. A menudo se emplea laregularización L2 o de Tikhonov [1], donde el sistema s = (KC)f es penalizadode acuerdo con el siguiente problema de optimización:

f = arg mınuj≥0, j=1,...,n

‖s− (KC)u‖22 + λ2‖u‖22, (2.5)

donde λ2 es el peso de la regularización en norma L2. El principal inconvenientede la regularización de Tikhonov es su tendencia a sobresuavizar la solución y porlo tanto, la incapacidad para detectar rápidas fluctuaciones en los coeficientes enel vector f .

Cabe señalar que la restricción de no negatividad en (2.5) hace que el problemasea más difícil de resolver. Sin esta limitación, un método de mínimos cuadradospodría ser aplicado. En ese caso, la solución f obtenida satisfaría la siguienteecuación (véase [1]): (

(KC)T (KC) + λ2I)f = (KC)T s. (2.6)

Sin embargo, procediendo de esa forma no hay garantía de que f posea todos suscoeficientes positivos. En la práctica, con la solución de (2.6), no es posible trun-car los valores negativos a cero de forma precisa [1]. Para resolver la ecuación(2.5) (con esta otra regularización) de manera óptima, necesitaremos herramien-tas de optimización más sofisticadas, como es el método interior primal-dual [2]estudiado en el Capítulo 3.

Capítulo 3

Algoritmo de optimización

En este capítulo describiremos el tipo de problemas que resuelve el algoritmode optimización PDCO (acrónimo en inglés de “Primal-Dual interior method forConvex Objectives”), así como dar una visión general de los métodos de punto in-terior para problemas de optimización convexa con restricciones. Esta descripciónse basa en los capítulos 2-5 y 11 de la monografía [2].

3.1 El problema de optimización convexaEl algoritmo de optimización convexa PDCO [9] está diseñado para resolver

problemas de optimización convexa con restricciones de la forma

CO1 minimizarx∈Rn

φ(x)

sujeta a fi(x) ≤ 0, i = 1, ..., p,(b− Ax)j = 0, j = 1, ...,m,

donde p y m son el número de restricciones de desigualdad e igualdad respectiva-mente, A una matriz de tamaño m× n dada como dato y b un vector de tamaño ndado también como dato. El problema CO1 describe el problema de encontrar elvector x tal que minimice la función objetivo φ(x) entre aquellos x que satisfaganlas restricciones del problema.

Denominaremos x ∈ Rn como la variable de optimización, siendo n la dimen-sión del espacio del vector incógnita. Supondremos que la función objetivo φ(x)es una función convexa y dos veces diferenciable. Las desigualdades fi(x) ≤ 0para i = 1, ..., p son las restricciones de desigualdad y las funciones convexascorrespondientes fi son las funciones de las restricciones de desigualdad. Lasigualdades hj(x) = (b − Ax)i = 0 para j = 1, ...,m, siendo A ∈ Rm×n con

9

10 CAPÍTULO 3. ALGORITMO DE OPTIMIZACIÓN

rangoA = m < n y b ∈ Rm, son las restricciones de igualdad. Las funcionesafines correspondientes hj son las funciones de las restricciones de igualdad. Lashipótesis sobre el tamaño de A y su rango significan que hay menos restriccionesde igualdad que variables, y que las restricciones de igualdad son linealmente in-dependientes.

Además, puesto que se trata de un problema de optimización convexa, la uti-lización del algoritmo PDCO requiere:

La función objetivo φ(x) tiene que ser convexa.

Las funciones de las restricciones de desigualdad fi, con i = 1, ..., p, tienenque ser convexas.

Las funciones de las restricciones de igualdad hj , con j = 1, ....m, debenser afines.

Veamos en detalle la definición de cada uno de estos requisitos:

Las funciones afines escalares vienen dadas por expresiones de la forma (véa-se [3])

f(x1, ..., xn) = A1x1 + ...+ Anxn + b, (3.1)

donde Ak, con k = 1, ..., n y b son constantes.

Para definir las funciones convexas debemos introducir antes lo que se entien-de por conjunto convexo. Un conjunto C es convexo si el segmento que une dospuntos cualesquiera de C está contenido en C, esto es, si para cualquier x1,x2 ∈ Cse satisface θx1 + (1− θ)x2 ∈ C para todo θ ∈ [0, 1].

Teniendo esto en cuenta, una función f : Rn → R es convexa si su dominioDom f , es un conjunto convexo y si para todo x,y ∈ Dom f y θ tal que 0 ≤ θ ≤1, se cumple que

f(θx + (1− θ)y) ≤ θf(x) + (1− θ)f(y). (3.2)

Toda función afín (3.1) siempre cumplirá la anterior igualdad, por lo que todafunción afín (y por lo tanto también las funciones lineales) serán también conve-xas.

Existen operaciones que preservan la convexidad de funciones, que nos per-miten construir nuevas funciones convexas (véase [2]):

3.1. EL PROBLEMA DE OPTIMIZACIÓN CONVEXA 11

(a) Si f es una función convexa y α ≥ 0, entonces el producto αf es también unafunción convexa.

(b) Si f1 y f2 son funciones convexas, entonces también lo es su suma f1 + f2.De manera que combinando ambas propiedades se tiene que una combinaciónlineal de funciones convexas de la forma

f = w1f1 + ...+ wmfm, (3.3)

con w1, ..., wm constantes positivas también es convexa.

(c) Toda norma en Rn es convexa.

Si además f es diferenciable, es decir, su gradiente ∇f existe en cada puntodel interior de Dom f , entonces f es convexa si y solo si (véase [2]) Dom f esconvexo y se satisface

f(y) ≥ f(x) +∇f(x)T (y − x),

para todo x,y ∈ Dom f .

Teniendo en cuenta esta caracterización de las funciones convexas diferenciables,si denotamos por X al conjunto factible de CO1, esto es,

X ={x | fi(x) ≤ 0, i = 1, ..., p, hj(x) = 0, j = 1, ...,m

},

entonces x es óptimo si y sólo si (véase [2]) x ∈ X y

∇φ(x)T (y − x) ≥ 0, (3.4)

para todo y ∈ X .

Así mismo, de la definición (3.1) es inmediato deducir que hj(x) = (b−Ax)jpara j = 1, ...,m es una función afín.

Con el fin de permitir problemas de mínimos cuadrados y tener más estabilidaden la resolución del problema, el algoritmo PDCO permite resolver el siguienteproblema regularizado [9]:

CO2 minimizarv∈Rn,r∈Rm

φ(v) + 12‖D2v‖22 + 1

2‖r‖22

sujeta a fi(v) ≤ 0, i = 1, ..., p,(b− Av −Dr)j = 0, j = 1, ...,m,


siendo D2 y D matrices diagonales definidas positivas de tamaño n×n y m×m,respectivamente, y r ∈ Rn el vector residual.

Con el objetivo de simplificar la escritura del problema CO2 introducimos lasiguiente notación: x = (v, r) ∈ Rm+n

f0(x) = φ(v) +1

2‖D2v‖22 +

1

2‖r‖22,

hj(x) = hj(v)− (Dr)j = (b− Av −Dr)j = 0, j = 1, ...,m,

y abusando de la notación, denotaremos por n al número de incógnitas en el vec-tor solución x. De este modo, sin pérdida de generalidad, podemos reescribir elproblema CO2 en forma más simplificada como sigue:

CO3 minimizarx∈Rn

f0(x)

sujeta a fi(x) ≤ 0, i = 1, ..., p,hj(x) = 0, j = 1, ...,m,

donde p es el número de restricciones de desigualdad, m es el número de restric-ciones de igualdad y n es el número de incógnitas en el vector solución.

El conjunto de puntos para los cuales la función objetivo f0(x) y todas lasfunciones de las restricciones de CO3 están definidas se denomina dominio delproblema de optimización D, dado por

D =

p⋂i=0

Dom fi ∩m⋂j=1

Domhj.

Un punto x ∈ D es factible si este satisface todas las restricciones de CO3.Además, el problema CO3 se dice factible si existe al menos un punto factible, delo contrario se dice no factible. El conjunto de todos los puntos factibles se llamaconjunto factible (véase [2]).

El valor óptimo p∗ del problema CO3 viene dado por:

p∗ = ınf{f0(x) | fi(x) ≤ 0, i = 1, ..., p, hj(x) = 0, j = 1, ...,m

}.

Permitimos a p∗ tomar valores extendidos ±∞. Si el problema no es factible,entonces p∗ = ∞. Si existe una sucesión de puntos factibles {xk} para k ∈ N talque f0(xk)→ −∞ cuando k →∞ entonces p∗ = −∞. En ese caso, se dice queel problema CO3 no tiene límites inferiores.

3.2. PROBLEMA DUAL DE LAGRANGE 13

Se dice que x∗ es un punto óptimo, o soluciona el problema CO3 si x∗ esfactible y f0(x∗) = p∗. El conjunto de puntos óptimos es el conjunto óptimo

Xop ={fi(x) ≤ 0, i = 1, ..., p, hj(x) = 0, j = 1, ...,m, f0(x) = p∗

}.

Un punto factible x es localmente óptimo si minimiza f0 sobre puntos cerca-nos en el conjunto factible, es decir, si existe R > 0 tal que:

f0(x) = ınf{f0(w) | fi(w) ≤ 0, i = 1, ..., p,

hj(w) = 0, j = 1, ...,m, ‖w − x‖2 ≤ R}.

El término globalmente se suele utilizar para óptimo para distinguir entre lo-calmente óptimo y óptimo. De aquí en adelante, óptimo significará globalmenteóptimo. Una propiedad fundamental de los problemas de optimización convexa esque cualquier óptimo local es también (globalmente) óptimo (véase [2]).

3.2 Problema dual de LagrangeLa idea básica en la dualidad de Lagrange es considerar las restricciones de

CO3 aumentando la función objetivo con una suma ponderada de las funciones delas restricciones.

Se define el Lagrangiano L : Rn × Rm × Rp → R como

L(x,y, z) = f0(x) +m∑j=1

yjhj(x) +

p∑i=1

zifi(x),

con DomL = D × Rm × Rp, siendo los vectores y = (y1, ..., ym)T y z =(z1, ..., zp)

T las variables duales o vectores multiplicadores de Lagrange.

A continuación, se define la función dual de Lagrange (o solo función dual)g : Rn × Rp → R como el ínfimo de L sobre x, para y ∈ Rm y z ∈ Rp fijados,esto es,

g(y, z) = ınfx∈D

L(x,y, z) = ınfx∈D

(f0(x) +

m∑j=1

yjhj(x) +

p∑i=1

zifi(x)

).

La función dual g produce límites inferiores para el valor óptimo p∗ de CO3. Esdecir, para cualquier z tal que zi ≥ 0 para i = 1, ..., p y cualquier y fijados setiene que g(y, z) ≤ p∗.


De hecho, para cada par (y, z), la función dual de Lagrange proporciona unacota inferior para p∗. De esta manera, la mejor cota inferior posible del proble-ma CO3 se puede calcular a partir de la función dual mediante el denominadoproblema dual de Lagrange:

COdual minimizary∈Rm,z∈Rp

−g(y, z)

sujeta a zi ≥ 0, i = 1, ..., p.

Con respecto a COdual, el problema CO3 suele llamarse problema primal. Asímismo, COdual es un problema de optimización convexa, ya que la función obje-tivo a maximizar es convexa y las restricciones son convexas, lo cual se cumplirásea o no convexo el problema primal (véase [2]). Además, se verifica que el valoróptimo del problema dual de Lagrange d∗ es tal que d∗ ≤ p∗, lo cual se cumpleincluso si el problema original es no convexo. Este hecho se denomina dualidaddébil entre los problemas CO3 y COdual. En cambio, si d∗ = p∗ se dice que setiene una dualidad fuerte. Una condición que garantiza la dualidad fuerte entreCO y COdual es la condición de Slater [2]. Esta condición establece que existe unx ∈ D tal que

fi(x) < 0, i = 1, ..., p, hj(x) = 0, j = 1, ...,m.

Dicho punto x se dice que es estrictamente factible. El Teorema de Slater(véase [2]) establece que la dualidad fuerte se cumple si se verifica la condiciónde Slater y el problema es convexo.

La condición de Slater se puede debilitar cuando algunas de las funciones derestricciones de desigualdad fi son afines (véase [2]). De este modo, si las prime-ras k funciones de restricción f1, ..., fk son afines, entonces la dualidad fuerte sesatisface si y solo si la siguiente condición débil se cumple: existe x ∈ D tal que

fi(x) ≤ 0, i = 1, ..., k, fi(x) < 0, i = k + 1, ..., p,

hj(x) = 0, j = 1, ...,m.(3.5)

En otras palabras, las desigualdades afines no tienen que cumplir las desigual-dades estrictamente fi(x) < 0 para i = 1, ..., k. La condición de Slater (3.5) nosolo implica una dualidad fuerte entre el problema CO3 y COdual sino que tam-bién implica que existe un par (y∗, z∗) factible tal que g(y∗, z∗) = d∗ = p∗. Nosreferiremos a (y∗, z∗) como óptimos duales o multiplicadores duales de Lagrangeóptimos.

3.3. CONDICIÓN DE COMPLEMENTARIEDAD 15

3.3 Condición de complementariedadPuesto que en el problema de optimización de interés del presente trabajo se

verifica la condición de Slater (véase el problema CO10), los valores óptimosprimal y dual se alcanzan y son iguales, es decir, se tiene dualidad fuerte, y portanto, existe un óptimo primal x∗ y un óptimo dual (y∗, z∗) tal que

f0(x∗) = p∗ = d∗ = g(y∗, z∗)

= ınfx∈D

(f0(x) +

m∑j=1

yjhj(x) +

p∑i=1

zifi(x)

)

≤ f0(x∗) +

m∑j=1

y∗jhj(x∗) +

p∑i=1

z∗i fi(x∗)

≤ f0(x∗),

donde la última desigualdad se deduce del hecho que hj(x∗) = 0, z∗i ≥ 0 yf0(x

∗) ≤ 0.

La anterior cadena de desigualdades implica que x∗ minimiza L(x,y∗, z∗) res-

pecto al vector incógnita x. Otra conclusión es que se cumplep∑

i=1

z∗i fi(x∗) = 0.

Dado que cada término de esta suma es negativo, se concluye que z∗i fi(x∗) = 0

para i = 1, ..., p, la cual se denomina condición de complementariedad. Dichacondición se puede expresar también como zi > 0⇒ fi(x

∗) = 0 ó fi(x∗) < 0⇒z∗i = 0.

3.4 Condiciones Karush-Kuhn-TuckerPuesto que el problema primal CO3 es convexo, si las funciones f0, ..., fm

y h1, ..., hp se suponen diferenciables, las siguientes condiciones son suficientespara que los puntos x∗ y (y∗, z∗) sean respectivamente óptimos primales y duales(véase [2]):

fi(x∗) ≤ 0, i = 1, ..., p,

hj(x∗) = 0, j = 1, ...,m,

z∗i ≥ 0, i = 1, ..., p,

z∗i fi(x∗) = 0, i = 1, ..., p,

∇f0(x∗) +m∑j=1

y∗j∇hj(x∗) +

p∑i=1

z∗i∇fi(x∗) = 0.

(3.6)


siendo∇ el operador diferencial gradiente con respecto a x. Las condiciones (3.6)se llaman condiciones Karush-Kuhn-Tucker (KKT).

Las dos primeras condiciones indican que x∗ es factible para el problemaprimal CO3. La última condición KKT indica que el gradiente de L(x,y∗, z∗)con respecto a x se anula en x = x∗, por lo que se deduce que x∗ minimizaL(x,y∗, z∗) respecto al vector incógnita x, ya que L(x,y∗, z∗) es una funciónconvexa con respecto a x (véase [2]). Por lo que se concluye que

g(y∗, z∗) = L(x∗,y∗, z∗) = f0(x∗) +

m∑j=1

y∗jhj(x∗) +

p∑i=1

z∗i fi(x∗) = f0(x

∗).

De la anterior igualdad se deduce que hj(x∗) = 0 para j = 1, ...,m y z∗i fi(x∗) = 0

para i = 1, ..., p. En conclusión, cualquier punto que satisfaga las condicionesKKT se corresponde con óptimos duales y primales con dualidad fuerte.

Si un problema de optimización convexa con funciones objetivo y restriccio-nes diferenciables satisface la condición de Slater, entonces las condiciones KKTproporcionan condiciones necesarias y suficientes para obtener el óptimo, es de-cir, la condición de Slater implica que la dualidad es fuerte y la existencia del dualóptimo, de manera que x∗ es óptimo si y solo si hay un par (y∗, z∗) que junto conx∗ satisfacen las condiciones KKT (3.6).

3.5 Barrera logarítmicaEl algoritmo de optimización convexa no resuelve directamente el problema

CO3. Al contrario, aproxima el problema con restricciones de desigualdad CO3como un nuevo problema con restricciones únicamente de igualdad.

El primer paso es reescribir el problema CO3 incluyendo las restricciones dedesigualdad en la función objetivo:

CO4 minimizarx∈Rn

f0(x) +p∑

i=1

I−(fi(x))

sujeta a hj(x) = 0, j = 1, ...,m,

donde I− : R→ R es la función indicadora para valores reales positivos, es decir,

I−(u) =

{0 si u ≤ 0,

∞ si u > 0.

3.6. CAMINO CENTRAL 17

Así, el problema CO4 no tiene restricciones de desigualdad, pero posee elinconveniente de que la función objetivo no es diferenciable. Este hecho puedeevitarse si la función I− se aproxima por I−(u) = −(1/t) log(−u) para u ≤ 0donde t > 0 es un parámetro del que depende la precisión de la aproximación. Aligual que I−, la función I− es convexa y se define que toma el valor∞ si u > 0.Sin embargo, I− es diferenciable. Si t se incrementa, la aproximación se hace másprecisa (véase [2]). Efectivamente I− es convexa en tanto que es dos veces dife-renciable y d2I−

dt2= 1/(tu2) > 0 para todo t, u > 0.

Sustituyendo I− por I− en CO4 se obtiene el siguiente problema de optimiza-ción aproximado:

CO5 minimizarx∈Rn

f0(x) +p∑

i=1

−(1/t) log(−fi(x))

sujeta a hj(x) = 0, j = 1, ...,m.

La función objetivo sigue siendo convexa y dos veces diferenciable, ya queI− = −(1/t) log(−u) es convexa y diferenciable.

La función

ψ(x) = −p∑

i=1

log(−fi(x)), (3.7)

cuyo dominio viene dado por Domψ = {x ∈ Rn | fi(x) < 0, i = 1, ..., p}, sedenomina barrera logarítmica para el problema CO3. Su dominio es un conjuntode puntos que satisfacen las restricciones de desigualdad de CO3 de forma estricta.

Debemos remarcar que el problema CO5 es una aproximación del problemaCO4. Además, una solución de CO5 aproxima de forma precisa a una solución deCO4 si el parámetro t es suficientemente grande.

3.6 Camino centralSe puede simplificar la descripción del problema de optimización CO5, mul-

tiplicando la función objetivo f0(x) por el parámetro t, de forma que se obtiene elsiguiente problema equivalente a CO5:

CO6 minimizarx∈Rn

tf0(x) + ψ(x)

sujeta a hj(x) = 0, j = 1, ...,m.


para t > 0. Denotaremos por x∗(t) a la solución de CO6. El camino central aso-ciado con CO3 es el definido por el conjunto de puntos x∗(t) para t > 0, los cualesse denominan puntos del camino central (véase [2]).

Los puntos del camino central se caracterizan por la siguiente condición sufi-ciente: x∗(t) es estrictamente factible, es decir, se satisface

hj(x∗(t)) = 0, j = 1, ...,m, fi(x

∗(t)) < 0, i = 1, ..., p,

y existe un y ∈ Rm tal que

0 = t∇f0(x∗(t)) +m∑j=1

yj∇hj(x∗(t)) +∇ψ(x∗(t))

= t∇f0(x∗(t)) +m∑j=1

yj∇hj(x∗(t)) +

p∑i=1

1

−fi(x∗(t))∇fi(x∗(t)),

(3.8)

donde se ha usado que el gradiente de la función barrera logarítmica viene dadopor

∇ψ(x) =

p∑i=1

1

−fi(x)∇fi(x).

De (3.8) se deduce la propiedad de que a partir de cada punto del caminocentral se obtiene un punto factible dual, y por lo tanto, una cota inferior en elvalor óptimo p∗. Más específicamente, se define z∗(t) = (z∗1(t), ..., z∗p(t)) y y∗(t)como

z∗i (t) = − 1

tfi(x∗(t)), i = 1, ..., p, y∗(t) = y/t, (3.9)

tal que el par y∗(t) y z∗(t) es un punto factible dual, ya que verifica las condi-ciones KKT del problema perturbado CO6. La ecuación (3.9) se denominan con-dición complementaria perturbada (véase [2]). Así mismo, se puede interpretar lacondición de camino central (3.8) como una deformación continua de las condi-ciones KKT (3.6) para el problema CO3. Un punto x es solución del problema deoptimización CO6 si y solo si existen y, z tal es que

fi(x) ≤ 0, i = 1, ..., p,

hj(x) = 0, j = 1, ...,m,

zi ≥ 0, i = 1, ..., p,

− zifi(x) = 1/t, i = 1, ..., p,

∇f0(x) +m∑j=1

yj∇hj(x) +

p∑i=1

zi∇fi(x) = 0.

(3.10)

3.7. VARIABLES DE HOLGURA 19

La única diferencia entre las condiciones KKT (3.6) y la condición de camino cen-tral (3.10) es que la condición de complementariedad zifi(x) = 0 es reemplazadapor −zifi(x) = 1/t. En particular, para valores altos de t, x∗(t) y el punto dualasociado (y∗(t), z∗(t)) satisfacen (salvo por un pequeño error que depende de 1/t)las condiciones KKT de CO3.

3.7 Variables de holgura

A continuación introducimos las variables de holgura o variables “slack”, sus-tituyendo cada restricción de desigualdad por una restricción de igualdad y unarestricción de no negatividad. Este procedimiento es el seguido para tratar proble-mas con restricciones en la implementación del algoritmo PDCO (véase [9]).

Este procedimiento se basa en la observación de que fi(x) ≤ 0 si y solo siexiste si ≤ 0 que satisface fi(x) − si = 0. Empleando esta transformación setiene

CO7 minimizarx∈Rn,s∈Rp

f0(x)

sujeta a si ≥ 0, i = 1, ..., p,fi(x) + si = 0, i = 1, ..., p,hj(x) = 0, j = 1, ...,m,

donde las variables incógnita son x ∈ Rn y s = (s1, ..., sp) ∈ Rp. Este problematiene ahora n + p variables, p restricciones de igualdad (de hecho, son restriccio-nes de no negatividad) y m+ p restricciones de igualdad. Las nuevas variables sise denominan variables de holgura asociadas a fi(x) ≤ 0, para i = 1, ..., p.

El problema CO7 es equivalente al problema CO3. De hecho, si (x0, s0) esfactible para CO7 entonces también x0 lo es para CO3 ya que si = fi(x0) ≤ 0.Por el contrario, si x1 es factible para CO3, entonces (x1, s1) es factible paraCO7, tomando si = fi(x1). De forma similar, x∗ es óptimo para CO3 si y solo si(x∗, s∗) es óptimo para CO7, cuando s∗i = fi(x

∗).


3.8 Problema de optimización asociado al problemaCO2

En el problema de interés del presente trabajo, las restricciones de desigualdadfi(x) ≤ 0 para i = 1, ..., p son del siguiente tipo

li − vi ≤ 0, i = 1, ..., n,

vi − ui ≤ 0, i = 1, ..., n.

donde li < ui para todo i = 1, ..., n son los valores que definen las cotas inferio-res y superiores respectivamente de los coeficientes del vector de incógnitas. Portanto, se tienen p = 2n funciones de restricciones de desigualdad dadas por

fi(v) = li − vi, i = 1, ..., n,

fi(v) = vi−n − ui−n, i = n+ 1, ..., 2n.

Si ahora tenemos en cuenta el problema de optimización CO2 e introducimoslas variables de holgura x1 = (x11, ..., x1n)T y x2 = (x21, ..., x2n)T de la formaindicada anteriormente, las restricciones de desigualdad de CO2 son equivalentesa

fi(x) ≤ 0 para i = 1, ..., 2n ⇔{l− x + x1 = 0,

x− u + x2 = 0,(3.11)

donde l = (l1, ..., ln)T y u = (u1, ..., un)T .

De (3.11) se deduce que

fi(x) = x1i = li − xi, i = 1, ..., n,

fi(x) = x2i−n = xi−n − ui−n, i = n+ 1, ..., 2n.(3.12)

Por lo tanto, el problema CO2 se puede reescribir como

CO8 minimizarx,x1,x2∈Rn,r∈Rm

t(φ(x) + 1

2‖D2x‖22 + 1

2‖r‖22

)+ ψ1(x1) + ψ2(x2)

sujeta a l− x + x1 = 0,x− u + x2 = 0,b− Ax−Dr = 0.

donde ψ1(x1) = −n∑

i=1

log(x1i) y ψ2(x2) = −n∑

i=1

log(x2i) con i = 1, ..., n.

3.9. ECUACIONES KKT MODIFICADAS 21

3.9 Ecuaciones KKT modificadasEn lo que sigue, reescribimos las condiciones KKT perturbadas (3.10) para el

problema de optimización descrito en la sección anterior. Partiendo de la expre-sión

∇f0(x) +m∑j=1

yj∇hj(x) +

p∑i=1

zi∇fi(x) = 0,

donde∇ denota el gradiente con respecto a las incógnitas del problema y teniendoen cuenta (3.11) y que

hi(x) = (b− Ax−Dr)i, i = 1, ...,m, (3.13)

resulta

∇xf0(x)+∇x

(yT (−Ax−Dr + b)

)+z1

T∇x(l−x+x1)+z2T∇x(x−u+x2) = 0,

donde∇x denota el gradiente con respecto al vector x.

Puesto que

f0(x) = φ(x) +1

2‖D2x‖22 +

1

2‖r‖22,

se tiene

∇x

(φ(x) +

1

2‖D2x‖22 +

1

2‖r‖22

)+∇x(yTAx− yTDr + yTb) +

+ z1T∇x(l− x + x1) + z2

T∇x(x− u + x2) = 0.

(3.14)

A partir de (3.14), teniendo en cuenta que x1, x2, y y r no dependen de x, resulta

∇x

(φ(x) +

1

2‖D2x‖22

)−∇x(yTAx)−∇x(z1

Tx) +∇x(z2Tx) = 0,

y operando, se obtiene

∇xφ(x) +1

2∇x(‖D2x‖22)− ATy − z1 + z2 = 0.

Teniendo en cuenta que la matriz D2 se había definido como una matriz diagonal,

∇x

(φ(x) +

1

2D2

2∇x(‖x‖22)− ATy − z1 + z2 =

= ∇xφ(x) +1

2D2

2(2x)− ATy − z1 + z2 = 0.


De la misma forma a como se ha calculado el gradiente con respecto al vector x,al calcular el gradiente con respecto a r, resulta

∇r

(1

2‖r‖22

)−∇r(y

TDr) =1

2∇r(‖r‖22)−DTy =

1

2(2r)−DTy = 0,

y considerando (3.13), se obtiene r − DTy = 0. Por tanto, a partir de las condi-ciones KKT perturbadas (3.10) se deduce

∇xφ(x) +D22x− ATy − z1 + z2 = 0, (3.15)

Ax +Dr = b, (3.16)

r−DTy = 0. (3.17)

Además, al considerar la condición complementaria perturbada (cuarta ecuaciónen (3.10)) se obtienen las ecuaciones

z1ifi(x) = −1/t,

z2ifi+n(x) = −1/t,

para i = 1, ..., n. Se introducen, las matrices diagonales X1 y X2 dadas por(X1)jj = x1j y (X2)jj = x2j para j = 1, ..., n (tal que los elementos de la diago-nal principal de X1 y X2 se corresponden con los coeficientes de los vectores x1 yx2 ∈ Rn respectivamente). De este modo, las condiciones de complementariedadse reescriben como

X1z1 = µe,

X2z2 = µe,(3.18)

donde e = (1, ..., 1)T ∈ Rn y µ = −1/t.

Reuniendo las ecuaciones (3.12), (3.15), (3.16), (3.17) y (3.18) se obtienenpara CO8 las siguientes ecuaciones KKT modificadas, es decir, las condiciones deoptimización con barrera logarítmica:

Ax +Dr = b,

x− x1 = l,

− x− x2 = −u,ATy + z1 − z2 = ∇xφ(x) +D2

2x,

DTy = r,

X1z1 = µe,

X2z2 = µe,

(3.19)

con todas las componentes de x1 y x2 positivas (y por tanto de z1 y z2 positivastambién).

3.10. MÉTODO DE NEWTON 23

3.10 Método de NewtonA la vista de las ecuaciones KKT modificadas (3.19), obtener la solución del

problema CO8 se reduce a calcular la solución de (3.19), esto es, resolver

F(u) = 0, (3.20)

donde u = (x,y,x1,x2, z1, z2)T y

F(u) =

b− Ax−D2y

∇xφ(x) +D22x− ATy − z1 + z2

l− x + x1

−u + x + x2

µe−X1z1µe−X2z2

=

Fy

Fx

Fx1

Fx2

Fz1

Fz2

= 0.

Debemos hacer notar que en (3.20) no se incluye como incógnita a r, ya que secalculará como un postproceso a partir de y, puesto que r = DTy.

Debido a que (3.20) no puede ser resuelto analíticamente, ya que se trata de unsistema no lineal de ecuaciones, su resolución se realizará mediante el uso delmétodo de Newton, obteniendo así una aproximación de la solución de CO8 paracada valor de µ > 0.

El método de Newton construye una sucesión de aproximaciones u(0),u(1), ...∈ DomF de tal forma que F(u(k)) → 0 cuando k → ∞. Además, para que estemétodo converja es necesario tener un iterante inicial u(0) ∈ DomF próximo a lasolución exacta buscada.

De esta forma, el algoritmo produce una secuencia u(k), k = 0, 1, 2, ... cons-truida como

u(k+1) = u(k) + ∆u(k),

conDF(u(k))∆u(k) = −F(u(k)), (3.21)

siendo ∆u(k) ∈ Rn la diferencia entre dos iterantes consecutivos y k = 0, 1, ... elnúmero de la iteración del método de Newton.

Desde el punto de vista de la resolución del problema de optimización CO8,en los métodos interiores primal-dual, como es el caso del PDCO, ∆u(k) puedeser interpretado como la dirección de búsqueda en el método de Newton para lasecuaciones KKT modificadas (3.19). De manera que cuando u(k) esté cerca del


valor óptimo u∗, la actualización u(k) + ∆u(k) será una mejor aproximación quela anterior.

De tal forma que si F(u) = 0 con u = (x,y,x1,x2, z1, z2)T entoncesx = x∗(t), y = y∗(t), z = z∗(t) serán la solución del problema de optimiza-ción aproximado CO8. El cálculo de ∆u(k) = (∆x,∆y,∆x1,∆x2,∆z1,∆z2)T

en (3.21) involucra resolver el siguiente sistema lineal de ecuaciones:

DF(u(k))∆u(k) =

−A −D 0 0 0 0H1 −AT 0 0 −I I−I 0 I 0 0 0I 0 0 I 0 00 0 −Z1 0 −X1 00 0 0 −Z2 0 −X2

∆x∆y∆x1

∆x2

∆z1∆z2

=

=

−A∆x−D2∆y

H1∆x− AT∆y −∆z1 + ∆z2−∆x + ∆x1

∆x + ∆x2

−X1∆z1 − Z1∆x1

−X2∆z2 − Z2∆x2

= −

Fy

Fx

Fx1

Fx2

Fz1

Fz2

= −F(u(k)),

donde H1 = ∇2xφ(x) + D2

2. Así mismo, las matrices Z1 y Z2 se definen co-mo diagonales definidas positivas, donde (Z1)jj = (z1)j y (Z2)jj = (z2)j paraj = 1, ..., n. De esta forma, los elementos de la diagonal principal de Z1 y Z2 secorresponden con los coeficientes de los vectores z1 y z2 ∈ Rn, respectivamente.

3.11 Algoritmo PDCOSi reescribimos el anterior sistema lineal de ecuaciones, se obtienen los siguientessistemas lineales de ecuaciones:(

∆x−∆x1

−∆x−∆x2

)=

(Fx1

Fx2

), (3.22)

(X1∆z1 + Z1∆x1

X2∆z2 + Z2∆x2

)=

(Fz1

Fz2

), (3.23)(

A∆x +D2∆y−H1∆x + AT∆y + ∆z1 −∆z2

)=

(Fy

Fx

). (3.24)

3.11. ALGORITMO PDCO 25

Si se despeja ∆x1 y ∆x2 de (3.22) resulta(∆x1

∆x2

)=

(−Fx1 + ∆x−Fx2 −∆x

), (3.25)

y de la misma forma de (3.23), despejando los valores de ∆x1 y ∆x2, y teniendoen cuenta (3.25), resulta(

∆z1∆z2

)=

(X−11 (Fz1 + Z1Fx1)−X−11 Z1∆xX−12 (Fz2 + Z2Fx2) +X−12 Z2∆x

)(3.26)

Al sustituir ∆z1 y ∆z2 en (3.24) y reordenar los términos se obtiene

A∆x +D2∆y = Fy,

(−H1 −X−12 Z2 −X−11 Z1)∆x + AT∆y =

= Fx −X−11 (Fz1 + Z1Fx1) +X−12 (Fz2 + Z2Fx2).

Si introducimos la siguiente notación:

H2 = H1 +X−12 Z2 +X−11 Z1,

w = Fx −X−11 (Fz1 + Z1Fx1) +X−12 (Fz2 + Z2Fx2),

se tiene que (3.24) es equivalente al sistema lineal(−H2 AT

A D2

)(∆x∆y

)=

(wFy

). (3.27)

A este sistema lineal de ecuaciones (3.27) se le denomina sistema KKT redu-cido (véase [2]).

En cada iteración del método de Newton se resuelve el sistema KKT reducido(3.27) obteniendo ∆x, ∆y y posteriormente utilizando (3.25) y (3.26) se calcu-la ∆x1, ∆x2, ∆z1, ∆z2. Luego se actualiza la variable primal x y las variablesduales y, x1, x2, z1 y z2. Además, el algoritmo PDCO retiene el valor de µ encada iteración hasta cierto valor, de forma que max (Xizi)/mın (Xizi) ≤ 1000,i = 1, 2; para a continuación reducir el valor de µ, mediante un factor (1−α) conα ∈ (0, 1) (véase [9]).

El sistema lineal de ecuaciones (3.27) puede ser resuelto con métodos directoso iterativos. Si φ(x) es una función separable1 entonces H1 y H2 son matricesdiagonales y por tanto (3.27) se puede resolver eliminando ∆x del sistema linealde modo que resulta

(AH−12 AT +D2)∆y = AH−12 w + Fy, (3.28)


o bien teniendo en cuenta que D es diagonal y definida positiva con lo que sepuede eliminar la fila correspondiente a ∆y con lo que resulta

(ATD−2A+H2)∆x = ATD−2Fy −w.

Los métodos directos o iterativos recomendados por [9] e implementados en elalgoritmo PDCO (véase [1]) son la factorización de Cholesky dispersa y el métodode mínimos cuadrados de residuo mínimo LSMR (acrónimo en inglés de “LeastSquare Minimal Residual”). Se debe notar que si la matriz AH−12 AT + D2 delsistema (3.28) se define de forma explícita ambos métodos son aplicables. Encambio, en el caso de que se defina como una función que implementa el produc-to matriz-vector, sólo el método LSMR puede ser aplicado. Para evitar posibleslimitaciones de memoria en los métodos directos, a lo largo de esta memoria seha utilizado únicamente el método LSMR.

1 Se dice que una función φ(x) con x ∈ Rn, es separable si

φ(x) =

n∑j=1

φj(xj), (3.29)

es decir, es la suma de funciones que dependen de una sola variable (véase [4]).

Capítulo 4

Cálculo de la ILT por optimizaciónconvexa

En este capítulo, de entre los distintos métodos disponibles para abordar elcálculo de la transformada inversa de Laplace (en inglés “Inverse Laplace Trans-form” o ILT) en presencia de ruido, se plantea el uso del método de optimizaciónconvexa PDCO que incluye una regularización L1 y L2 (para estabilizar la solu-ción) y restringido a valores positivos de la solución. El algoritmo de optimizaciónconvexa de propósito general PDCO, asume que el problema lineal original se haescalado adecuadamente de tal forma que la norma de la matriz y del segundomiembro sean de orden uno. Sin embargo, los datos del problema lineal (véase(2.4) en el Capítulo 2) que aborda el presente Trabajo Fin de Máster no tienenporque cumplir estos requisitos. Es por ello que en este capítulo se plantean tam-bién distintos métodos para escalar el sistema lineal original.

4.1 Problema de optimizaciónPartiendo del problema regularizado CO8 sin perturbar, esto es, sin introducir

la barrera logarítmica y sin las variables de holgura, se fijan los vectores l =(l1, ..., ln) y u = (u1, ..., un) como li = 0 y ui = +∞ para i = 1, ..., n. Se tieneasí que el problema regularizado que resuelve el algoritmo PDCO viene dado por

CO9 minimizarx∈Rn,r∈Rm

φ(x) + 12‖D2x‖22 + 1

2‖r‖22

sujeta a xj ≥ 0, j = 1, ..., n,b− Ax−Dr = 0.

donde se han eliminado las variables de holgura x1 y x2 al no ser necesarias.

27

28 CAPÍTULO 4. CÁLCULO DE LA ILT POR OPTIMIZACIÓN CONVEXA

En el caso del sistema lineal (2.4) y una regularización de tipo L1 y L2, lasfunciones, matrices y vectores asumidos como datos en el problema CO9 vienendados por:

φ(x) = ‖D1x‖1,A = KC,

x = f ,

b = s,

D = I,

donde D es una matriz de tamaño n× n y I es la matriz identidad.

Por tanto, la descripción del problema de optimización propuesto para resolverel sistema lineal (2.4) viene dado por

CO10 minimizarf∈Rn,r∈Rm

‖D1f‖1 + 12‖D2f‖22 + 1

2‖r‖22

sujeta a (KC)f + r = s, f ≥ 0,

donde D1 y D2 son dos matrices diagonales a fijar por el usuario. Este problemaverifica los requisitos enunciados en el Capítulo 3 ya que es convexo y diferencia-ble. Además también se verifica que es separable (véase (3.29)).

La convexidad de la función objetivo se deduce de forma inmediata de la pro-piedad (3.3) y de que toda norma en Rn es convexa (véase [2]).

Las matrices D1 y D2 se definen como diagonales definidas positivas, donde(D1)jj = (d1)j para j = 1, ..., n y (D2)jj = (d2)j para j = 1, ..., n. Los elementosde la diagonal principal de D1 y D2 se corresponden con los elementos de losvectores d1 ∈ Rn y d2 ∈ Rn, respectivamente. Estos vectores vienen dados por

(d1)j = λ1∆Tj = λ1(Tj − Tj−1), j = 1, ..., n,

(d2)j =√λ2(∆Tj) =

√λ2(Tj − Tj−1), j = 1, ..., n,

(4.1)

donde Tj son los puntos de la partición usados en la discretización integral intro-ducida en la Sección 2.1. Se debe hacer notar que para evitar valores muy peque-ños de (d1)j y (d2)j , estos se acotarán inferiormente por 10−4.

Los coeficientes de las matrices D1 y D2 usadas en la regularización de L1 yL2 son aquellos definidos en [1]. Vienen dados por

λ1 = α1‖s‖∞/SNR,

λ2 = α2/SNR,(4.2)

donde α1 y α2 son parámetros a definir por el usuario, SNR es el ratio señal-ruidode los valores medidos almacenados en s. Por otra parte, hay que destacar que al

4.1. PROBLEMA DE OPTIMIZACIÓN 29

tomar los valores de α1 = 10 y α2 = 5, empleando (4.1) y (4.2) con los datosanteriores, habitualmente se obtiene (D2)jj > 10−4. La división de los coeficien-tes de regularización λ1 y λ2 por SNR proporciona calibración con respecto a laintensidad de la señal, necesitándose menos regularización a mayor valor de SNR.Al hacer proporcional λ1 a ‖s‖∞ se obtiene robustez con respecto al escalado onormalización de las señales (véase [1]).

El uso del algoritmo PDCO requiere del cálculo del gradiente de la funciónobjetivo φ(x). Más precisamente, puesto que

φ(x) = ‖D1x‖1 =n∑

k=1

|(d1)kxk|,

la componente j-ésima del gradiente de φ(x) es

(∇φ(x))j =∂

∂xjφ(x) =

∂

∂xj

(n∑

k=1

|(d1)kxk|

)=

=∂

∂xj(|(d1)jxj|) = (d1)j signo (xj),

es decir, será±(d1)j dependiendo del signo de xj para cada j = 1, ..., n. De formaanáloga, se puede calcular su hessiano, la cual será la matriz nula de tamaño n×npara los valores positivos del vector x.

Como se ha analizado de forma indirecta, el problema de optimización CO10incluye en las matrices D1 y D2 dos parámetros de regularización, λ1 y λ2, quese corresponden con los términos que involucran normas L1 y L2 de la solución,respectivamente. El parámetro λ2 afecta al suavizado de la solución (este paráme-tro se puede aumentar para suavizar la solución y mitigar el ruido). En general, λ1debe ser proporcional a ‖s‖∞ (véase [1]). Para un cierto nivel de ruido en la medi-da s: cuanto más elevado sea el nivel de ruido, más grande debe ser el parámetrode regularización λ1 para que el ruido pueda ser mitigado.

Siguiendo el trabajo [1], se denominan “coeficientes universales” a los valo-res de α1 y α2 iguales a 10 y 5 respectivamente, obtenidos con el fin de asegurarresultados precisos y estables para una amplia gama de señales y escenarios. Losvalores más comunes en las calibraciones realizadas por [1] fueron α1 = 3 yα2 = 0.5, estando los valores óptimos de ambos situados en un rango relativa-mente pequeño. Además, para demostrar la influencia de la componente de regu-larización L1 se analizaron las señales con α1 = 0 y el valor universal de α2 = 5en el Capítulo 5.


4.2 Escalado

Considerando el problema de optimización convexa CO10 que resuelve el al-goritmo PDCO, y tal y como se ha discutido anteriormente, el algoritmo PDCOrequiere que la magnitud de las normas de KC y una estimación de la norma dela solución f .

En el caso de que estas condiciones no se cumplan, el método PDCO podríano converger o incluso converger a una aproximación poco precisa. Por lo tanto,un escalado apropiado será necesario para garantizar la robustez del método y unasolución precisa.

4.2.1 Escalado de la matriz del sistema

Puesto que originalmente ‖KC‖∞ 6= 1 en el problema de optimización CO10,el sistema lineal (KC)f = s se puede escribir de forma equivalente como Kf = sdonde

s =s

‖KC‖∞ y K =KC

‖KC‖∞.

Ahora es evidente que ‖K‖∞ = 1. Además puesto que s = Kf , entonces‖s‖∞ = ‖Kf‖∞. Por tanto ‖s‖∞ ≈ ‖K‖∞‖f‖∞ y se tiene que

‖f‖∞ ≈‖s‖∞‖K‖∞

= ‖s‖∞.

En consecuencia, en la configuración del algoritmo PDCO, la estimación de‖f‖∞ será fijada aproximadamente igual a ‖s‖∞.

4.2.2 Escalado de la señal (primera opción)

Si suponemos que originalmente ‖s‖∞ 6= 1, el sistema lineal Kf = s esequivalente a Kf = s donde

s =s

‖s‖∞y K =

K

‖s‖∞.

De esta manera, se cumple ‖s‖∞ = 1.

4.2. ESCALADO 31

Además puesto que s = Kf entonces ‖s‖∞ = ‖Kf‖∞ y aproximadamente secumple ‖s‖∞ ≈ ‖K‖∞‖f‖∞. Por tanto, se obtiene la estimación

‖f‖∞ =‖s‖∞‖K‖∞

.

Evidentemente, esta forma de escalado no verifica que ‖K‖∞ = 1.

4.2.3 Escalado de la señal (segunda opción)

Si consideramos el problema escalado Kf = s y si suponemos ‖s‖∞ 6= 1, sepuede escribir un sistema lineal equivalente K f = s como

s =s

‖s‖∞y f =

f

‖s‖∞.

Ahora, es fácil comprobar que ‖s‖∞ = 1. Puesto que s = K f entonces‖s‖∞ = ‖K f‖∞ y por tanto ‖s‖∞ ≈ ‖K‖∞‖f‖∞ con lo que se tiene

‖f‖∞ ≈‖s‖∞‖K‖∞

= ‖s‖∞ = 1

Una vez hecho este escalado el algoritmo PDCO calcula f , por lo que, pa-ra obtener la solución original f se deberá reescalar el vector incógnita comof = ‖s‖∞f . Como es evidente, esta forma de escalar conserva la propiedad‖K‖∞ = 1.

Como se verá en el Capítulo 5, emplear la combinación de escalado de la ma-triz del sistema junto con esta segunda opción de escalado de la señal presenta losmejores resultados.

Capítulo 5

Validación del algoritmo PDCO

En este capítulo se describen los parámetros admisibles propios del algoritmoPDCO [9] y el método iterativo LSMR [5], así como, el procedimiento de cálculodel valor SNR [1]. Se presenta un test preliminar para determinar la elección delescalado que arroje resultados más precisos de entre todos los posibles. Con elobjetivo de validar el código y estudiar el rango dinámico de los parámetros deregularización, se efectúan distintos test con un problema de relaxometría, dondela transformada inversa de Laplace es proporcional a una delta de Dirac, a unacombinación lineal de deltas de Dirac o a una combinación lineal de tres funcionesgaussianas.

5.1 Parámetros admisiblesSiguiendo las recomendaciones marcadas en [9], la diagonal de las matrices

D1 y D2 son típicamente de tamaño 10−3 o 10−4 en computadoras con precisiónde 15-16 dígitos de punto flotante y con los datos de entrada, es decir, tanto KCcomo s convenientemente escalados para que ‖KC‖∞ ≈ 1 y ‖s‖∞ ≈ 1.

Además, los valores iniciales de x y su dual serán los vectores de tamaño n talque sus elementos son iguales a la estimación de ‖f‖∞ empleada en el escalado yuno, respectivamente. Así mismo, el valor inicial de y será el vector de tamaño mcon todos sus elementos nulos (véase [9]).

Para resolver el sistema lineal (3.28) los criterios de parada o convergenciapara el método iterativo LSMR se basan en tres valores de tolerancias δ, β y γespecificados por el usuario (véase [5]):

S1 Converge si ‖r‖ ≤ δ‖B‖‖u‖+ β‖b‖,

33

34 CAPÍTULO 5. VALIDACIÓN DEL ALGORITMO PDCO

S2 Converge si‖BT r‖‖B‖‖r‖

≤ δ,

S3 Parada si cond (B) ≥ γ,

donde B es la matriz del sistema (3.28), u es el vector solución, b es el segundomiembro del sistema lineal a resolver y r es el vector de residuos.

Los criterios S1 y S2 aseguran el tamaño de los errores admisibles en la so-lución. Por tanto, el usuario puede establecer α y β de acuerdo con la precisiónrequerida. Por ejemplo, si ambos valores de α y β son 10−6, la norma residualfinal debería tener una precisión aproximada de 6 dígitos [9]. El criterio de paradaS3 evita trabajar con sistemas lineales cuyo condicionamiento es muy elevado.Por ejemplo, el valor de la tolerancia de γ podría ser tan grande como 1012. Sinembargo, para problemas de mínimos cuadrados en cambio debe ser inferior a 108.

La convergencia del método LSMR depende de la magnitud los valores propiosde BTB (de hecho, de los valores singulares de B). Por tanto, si la matriz BTBestá bien condicionada, el método LSMR convergerá más rápido cuanto más cercaestén entre si sus valores propios (véase [5]).

5.2 Cálculo del valor SNR

La adición de ruido a las señales de los ejemplos test que se consideran enel Capítulo 5 y 6 se implementa por medio de la adicción de ruido gaussianoblanco independiente en cada instante de tiempo, para obtener un valor prescritode SNR. En concreto, el cálculo de SNR se obtiene como el cociente entre la mediacuadrática de la señal con ruido (véase la Figura 5.1a) y la media cuadrática delruido [1]. La media cuadrática del ruido se calcula usando la media móvil de ochopuntos de la señal con ruido, representada en la Figura 5.1b. El nivel de ruido seobtiene de la resta en los últimos 1024 puntos de dicha media móvil y su recta deregresión lineal (véase la Figura 5.2).

5.3 Test preliminar

Con el fin validar la implementación del algoritmo PDCO para resolver el pro-blema CO10, se han empleado diferentes sistemas lineales construidos de formaaleatoria, sin presencia de ruido en los datos, con los que poder evaluar el efecto

5.3. TEST PRELIMINAR 35

(a)

6

8

10

12

14

16

18

0 0.002 0.004 0.006 0.008 0.01 0.012

Am

pli

tud

Tiempo[sec]

OriginalSin ruido

(b)

6

8

10

12

14

16

18

0 0.002 0.004 0.006 0.008 0.01 0.012

Am

pli

tud

Tiempo[sec]

OriginalFiltrado

Figura 5.1: Representación de una señal sin ruido y la señal original con un ruidoblanco gaussiano de 2× 10−1 (gráfica (a)). Filtrado de la señal original con ruidomediante la media móvil de ocho puntos (gráfica (b)).

(a)

6.65

6.7

6.75

6.8

6.85

6.9

6.95

7

9.60e-03 9.80e-03 1.00e-02 1.02e-02

Am

pli

tud

Tiempo[sec]

(b)

-0.2

-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2

9.60e-03 9.80e-03 1.00e-02 1.02e-02

Am

pli

tud

Tiempo[sec]

Figura 5.2: Representación de los últimos 1024 puntos de la señal y su recta deregresión lineal (gráfica (a)). Resultado de la resta de los últimos 1024 puntos dela media móvil de ocho puntos de la señal con ruido y su recta de regresión lineal(gráfica (b)).

de la regularización L2, y los escalados descritos en la Sección 4.2.

Se considera un sistema lineal Ax =, donde la matriz A de tamaño m×n y elvector solución x de tamaños n, donde todos sus coeficientes han sido generadosaleatoriamente de manera uniforme entre 0 y 1. Una vez han sido así generadostanto la matriz A como el vector x se han multiplicado por factores constantes,


con lo que se obtienen matrices y vectores con diferentes normas ‖A‖∞ y ‖x‖∞.El vector b se ha calculado como b = Ax. De esta manera, se dispone de lasolución exacta del sistema lineal para poder calcular el error con respecto a lasolución calculada por el algoritmo PDCO.

Así mismo, se ha empleado el método iterativo LSMR para calcular las direc-ciones de búsqueda en el método de Newton. Siguiendo la configuración de [9], seconsidera un valor de γ igual a 108. Además con el fin de no aumentar demasiadolos recursos computacionales se considera que la norma residual final tenga unaprecisión aproximada de 6 dígitos, y por lo tanto se fijarán valores de δ y β igualesa 10−6 en el método LSMR.

Para evaluar el impacto de la regularización en la precisión aproximada, se havariado el parámetro de regularización L2, de manera que todos los coeficientesde la diagonal principal de la matriz D2 son iguales a 10−3 o 10−4 (valores reco-mendados en [9]). En los dos últimos casos, se cumple siempre que (D2)jj � εpara j = 1, ..., n, donde ε es la precisión de punto flotante, típicamente 2.2×10−16.

A modo de resumen, se muestran a continuación los parámetros empleadospor el método PDCO y el algoritmo LSMR para este primer test preliminar:

δ = 10−6,

β = 10−6,

γ = 108,

(D2)jj = 0, 10−3, 10−4,

D = I,

D1 = 0,

m = 103,

n = 10,

Empleando distintas combinaciones de los parámetros anteriormente señala-dos se han obtenido los resultados de la norma infinita, norma euclidiana y elcondicionamiento de la matriz del sistema A; la norma infinita de los vectores b,x y z, el valor diagonal (D2)jj , el error relativo en norma infinito y el número deinteracciones empleadas por el algoritmo PDCO. Todos estos resultados aparecenrecogidos en las Tablas 5.1-5.6. Los resultados numéricos contenidos en estas ta-blas incluyen los diferentes escalados descritos en el Capítulo 4.

La aplicación de un escalado adecuado mejora la precisión de los resultadosnuméricos obtenidos con el algoritmo PDCO, tanto si se emplea regularización L2

como si se prescinde de ella.

Escalar solo la matriz del sistema mejora los resultados con respecto a la op-ción de no aplicar escalado alguno (véase la Tabla 5.1). Si se escala solo el vectordel sistema (empleando cualquiera de las dos opciones) no es suficiente para ob-tener resultados precisos si ‖A‖∞ > 1. Al contrario, el error relativo se reduce

5.3. TEST PRELIMINAR 37‖A‖ ∞

‖A‖ 2

cond(A

)‖b‖ ∞

(D2) j

j‖x‖ ∞

‖z‖ ∞

erro

r#

iter.

7.40

E+0

55.

06E

+06

5.80

E+0

04.

91E

+10

0.00

E+0

05.

09E

+03

9.90

E-0

19.

90E

-01

507.

55E

+05

5.04

E+0

66.

06E

+00

3.73

E+1

01.

00E

-04

3.25

E+0

48.

83E

-01

8.64

E-0

150

7.56

E+0

55.

11E

+06

6.04

E+0

04.

34E

+10

1.00

E-0

38.

99E

+04

7.12

E-0

63.

85E

-03

507.

52E

+05

5.14

E+0

66.

19E

+00

4.93

E+0

50.

00E

+00

9.07

E-0

12.

13E

-01

9.18

E-0

350

7.67

E+0

55.

15E

+06

6.01

E+0

04.

37E

+05

1.00

E-0

48.

11E

-01

3.62

E-0

13.

86E

-02

508.

31E

+05

5.11

E+0

65.

97E

+00

4.51

E+0

51.

00E

-03

9.48

E-0

16.

54E

-01

2.50

E-0

250

7.98

E+0

55.

11E

+06

6.02

E+0

03.

25E

+00

0.00

E+0

08.

97E

-06

5.65

E+0

03.

86E

-07

187.

77E

+05

5.06

E+0

66.

25E

+00

4.22

E+0

01.

00E

-04

9.77

E-0

62.

09E

-01

1.12

E-0

814

7.84

E+0

55.

08E

+06

5.87

E+0

04.

88E

+00

1.00

E-0

39.

95E

-06

1.53

E-0

15.

19E

-09

127.

72E

+00

5.05

E+0

15.

85E

+00

3.75

E+0

50.

00E

+00

1.09

E+0

58.

17E

-01

2.18

E-0

150

7.91

E+0

05.

07E

+01

6.12

E+0

04.

20E

+05

1.00

E-0

49.

59E

+04

1.16

E-0

72.

22E

-09

508.

09E

+00

5.12

E+0

16.

00E

+00

3.69

E+0

51.

00E

-03

8.86

E+0

41.

74E

-10

6.97

E-0

929

7.74

E+0

05.

07E

+01

6.00

E+0

04.

52E

+00

0.00

E+0

09.

92E

-01

1.68

E-0

69.

38E

-09

67.

61E

+00

5.09

E+0

16.

00E

+00

3.82

E+0

01.

00E

-04

9.58

E-0

14.

54E

-06

2.81

E-0

85

7.64

E+0

05.

09E

+01

6.04

E+0

03.

55E

+00

1.00

E-0

38.

37E

-01

4.20

E-0

63.

45E

-08

58.

01E

+00

5.04

E+0

16.

06E

+00

5.00

E-0

50.

00E

+00

1.65

E-0

52.

61E

-02

1.59

E+0

09

7.74

E+0

05.

08E

+01

6.25

E+0

04.

03E

-05

1.00

E-0

41.

73E

-05

2.87

E-0

22.

00E

+00

97.

91E

+00

5.08

E+0

16.

00E

+00

3.99

E-0

51.

00E

-03

1.58

E-0

52.

85E

-02

2.00

E+0

09

8.06

E-0

55.

04E

-04

5.97

E+0

04.

36E

+00

0.00

E+0

09.

18E

+04

3.97

E-1

12.

33E

-08

317.

95E

-05

5.02

E-0

45.

91E

+00

4.03

E+0

01.

00E

-04

6.95

E+0

43.

10E

-12

2.55

E-0

135

7.57

E-0

55.

12E

-04

6.03

E+0

04.

19E

+00

1.00

E-0

31.

16E

+04

9.66

E-1

28.

45E

-01

267.

63E

-05

5.07

E-0

45.

96E

+00

3.51

E-0

50.

00E

+00

1.97

E+0

03.

93E

-07

2.81

E+0

08

7.78

E-0

55.

13E

-04

6.04

E+0

03.

56E

-05

1.00

E-0

41.

87E

+00

3.93

E-0

72.

73E

+00

87.

94E

-05

5.12

E-0

46.

15E

+00

3.87

E-0

51.

00E

-03

6.61

E-0

17.

07E

-07

5.47

E-0

18

7.88

E-0

55.

07E

-04

5.96

E+0

05.

01E

-10

0.00

E+0

01.

71E

+00

4.40

E-0

72.

53E

+05

88.

35E

-05

5.04

E-0

45.

96E

+00

3.21

E-1

01.

00E

-04

1.69

E+0

04.

41E

-07

3.29

E+0

58

7.80

E-0

55.

08E

-04

5.97

E+0

03.

74E

-10

1.00

E-0

36.

11E

-01

7.69

E-0

71.

05E

+05

8

Tabl

a5.

1:R

esul

tado

sob

teni

dos

sin

aplic

arni

ngún

tipo

dees

cala

doen

lare

solu

ción

del

sist

ema

linea

lAx

=b

con

elal

gori

tmo

PDC

O,c

uand

oA

yx

sege

nera

nde

form

aal

eato

ria.

38 CAPÍTULO 5. VALIDACIÓN DEL ALGORITMO PDCO‖A‖∞

‖A‖2

cond(A

)‖b‖

∞(D

2 )jj

‖x‖∞

‖z‖∞

error#

iter.7.84E

+055.09E

+066.01E

+006.44E

+040.00E

+009.96E

+042.96E

-067.56E

-125

8.10E+05

5.02E+06

6.01E+00

4.45E+04

1.00E-04

9.70E+04

4.31E+01

4.02E-09

67.87E

+055.11E

+066.05E

+005.09E

+041.00E

-039.34E

+044.75E

+033.83E

-076

7.45E+05

5.05E+06

5.97E+00

6.36E-01

0.00E+00

9.44E-01

2.61E-07

6.15E-08

77.52E

+055.06E

+066.11E

+005.57E

-011.00E

-049.39E

-013.39E

-051.21E

-0510

7.71E+05

5.09E+06

6.03E+00

5.64E-01

1.00E-03

8.17E-01

3.51E-06

1.48E-06

98.01E

+055.11E

+066.06E

+003.50E

-060.00E

+007.64E

-061.07E

-066.90E

-0210

7.66E+05

5.11E+06

6.04E+00

4.06E-06

1.00E-04

6.88E-06

1.46E-06

6.95E-02

97.71E

+055.06E

+065.97E

+005.32E

-061.00E

-038.83E

-062.28E

-069.81E

-028

7.97E+00

5.09E+01

5.98E+00

4.05E+04

0.00E+00

9.00E+04

1.04E-06

5.34E-12

67.87E

+005.09E

+016.01E

+005.95E

+041.00E

-049.70E

+045.78E

+013.48E

-096

8.01E+00

5.03E+01

6.02E+00

6.32E+04

1.00E-03

9.73E+04

6.15E+03

2.64E-07

57.96E

+005.08E

+016.06E

+004.43E

-010.00E

+008.67E

-011.22E

-064.90E

-079

8.22E+00

5.08E+01

6.17E+00

5.43E-01

1.00E-04

9.20E-01

3.78E-06

1.52E-06

107.42E

+005.10E

+016.10E

+006.40E

-011.00E

-039.16E

-013.48E

-059.94E

-0610

7.52E+00

5.08E+01

6.04E+00

5.18E-06

0.00E+00

9.09E-06

1.95E-06

6.98E-02

88.19E

+005.10E

+016.08E

+005.33E

-061.00E

-047.86E

-062.47E

-061.14E

-018

7.79E+00

5.08E+01

6.07E+00

4.57E-06

1.00E-03

9.46E-06

1.22E-06

5.70E-02

97.90E

-055.03E

-045.86E

+005.46E

+040.00E

+009.05E

+041.91E

-057.01E

-115

8.04E-05

5.13E-04

6.03E+00

5.46E+04

1.00E-04

9.82E+04

5.37E+01

5.10E-09

58.19E

-055.10E

-045.95E

+005.33E

+041.00E

-038.87E

+044.73E

+033.20E

-075

8.43E-05

5.12E-04

6.02E+00

4.55E-01

0.00E+00

7.64E-01

3.52E-07

1.86E-07

77.60E

-055.09E

-045.94E

+005.21E

-011.00E

-049.65E

-011.46E

-054.87E

-069

7.97E-05

5.08E-04

6.04E+00

5.76E-01

1.00E-03

9.67E-01

1.37E-06

7.56E-07

77.59E

-055.06E

-046.20E

+004.03E

-060.00E

+009.78E

-061.06E

-064.45E

-0210

7.98E-05

5.07E-04

6.11E+00

3.60E-06

1.00E-04

8.25E-06

7.19E-07

3.54E-02

108.22E

-055.10E

-046.14E

+005.45E

-061.00E

-038.93E

-061.85E

-068.18E

-028

Tabla5.2:

Resultados

obtenidosescalando

lam

atrizdelsistem

a(véase

Sección4.2.1)

enla

resolucióndelsistem

alineal

Ax

=b

conelalgoritm

oPD

CO

,cuandoA

yx

segeneran

deform

aaleatoria.


‖A‖ 2

cond(A

)‖b‖ ∞

(D2) j

j‖x‖ ∞

‖z‖ ∞

erro

r#

iter.

7.76

E+0

55.

09E

+06

5.99

E+0

01.

00E

+00

0.00

E+0

09.

61E

+04

2.55

E-1

13.

04E

-07

297.

65E

+05

5.10

E+0

66.

22E

+00

1.00

E+0

01.

00E

-04

3.40

E+0

41.

11E

-11

5.54

E-0

126

8.08

E+0

55.

06E

+06

6.09

E+0

01.

00E

+00

1.00

E-0

36.

59E

+02

2.26

E-1

09.

92E

-01

128.

20E

+05

5.10

E+0

66.

00E

+00

1.00

E+0

00.

00E

+00

9.35

E-0

19.

73E

-07

9.33

E-0

87

7.36

E+0

55.

07E

+06

5.98

E+0

01.

00E

+00

1.00

E-0

49.

16E

-01

2.90

E-0

62.

67E

-07

67.

60E

+05

5.06

E+0

65.

93E

+00

1.00

E+0

01.

00E

-03

8.97

E-0

17.

20E

-07

1.18

E-0

76

7.80

E+0

55.

08E

+06

5.99

E+0

01.

00E

+00

0.00

E+0

09.

72E

-06

3.69

E-0

15.

26E

-07

117.

98E

+05

5.05

E+0

66.

06E

+00

1.00

E+0

01.

00E

-04

8.79

E-0

62.

49E

-01

2.02

E-0

711

7.50

E+0

55.

07E

+06

5.98

E+0

01.

00E

+00

1.00

E-0

39.

36E

-06

1.30

E-0

11.

06E

-07

128.

18E

+00

5.11

E+0

16.

05E

+00

1.00

E+0

00.

00E

+00

9.67

E+0

43.

54E

-10

3.31

E-0

630

7.96

E+0

05.

12E

+01

6.13

E+0

01.

00E

+00

1.00

E-0

43.

20E

+04

4.12

E-1

25.

81E

-01

298.

24E

+00

5.07

E+0

15.

89E

+00

1.00

E+0

01.

00E

-03

7.28

E+0

24.

80E

-10

9.90

E-0

112

8.28

E+0

05.

07E

+01

6.13

E+0

01.

00E

+00

0.00

E+0

09.

37E

-01

9.91

E-0

69.

56E

-07

87.

75E

+00

5.12

E+0

16.

08E

+00

1.00

E+0

01.

00E

-04

8.07

E-0

12.

70E

-06

2.56

E-0

78

7.73

E+0

05.

10E

+01

6.07

E+0

01.

00E

+00

1.00

E-0

38.

15E

-01

4.93

E-0

71.

03E

-07

67.

92E

+00

5.08

E+0

16.

08E

+00

1.00

E+0

00.

00E

+00

8.26

E-0

61.

75E

+00

1.06

E-0

615

7.80

E+0

05.

13E

+01

6.10

E+0

01.

00E

+00

1.00

E-0

49.

50E

-06

3.90

E-0

13.

71E

-07

138.

09E

+00

5.08

E+0

16.

08E

+00

1.00

E+0

01.

00E

-03

9.63

E-0

65.

13E

+01

5.70

E-0

516

7.73

E-0

55.

08E

-04

5.97

E+0

01.

00E

+00

0.00

E+0

09.

78E

+04

6.67

E-1

18.

42E

-07

307.

61E

-05

5.13

E-0

45.

96E

+00

1.00

E+0

01.

00E

-04

3.06

E+0

44.

28E

-12

5.49

E-0

131

7.72

E-0

55.

05E

-04

6.24

E+0

01.

00E

+00

1.00

E-0

37.

19E

+02

8.60

E-1

09.

89E

-01

118.

23E

-05

5.10

E-0

46.

07E

+00

1.00

E+0

00.

00E

+00

7.56

E-0

12.

15E

-05

1.54

E-0

67

7.80

E-0

55.

11E

-04

6.05

E+0

01.

00E

+00

1.00

E-0

49.

49E

-01

3.14

E-0

42.

54E

-05

107.

89E

-05

5.02

E-0

45.

86E

+00

1.00

E+0

01.

00E

-03

9.36

E-0

12.

49E

-05

2.15

E-0

68

8.55

E-0

55.

11E

-04

6.01

E+0

01.

00E

+00

0.00

E+0

09.

86E

-06

9.71

E-0

11.

18E

-06

137.

99E

-05

5.08

E-0

46.

13E

+00

1.00

E+0

01.

00E

-04

9.57

E-0

61.

35E

-01

1.31

E-0

712

7.66

E-0

55.

06E

-04

5.91

E+0

01.

00E

+00

1.00

E-0

38.

06E

-06

2.08

E-0

11.

68E

-07

13

Tabl

a5.

3:R

esul

tado

sobt

enid

oses

cala

ndo

elve

ctor

dels

iste

ma

con

lapr

imer

aop

ción

(véa

seSe

cció

n4.

2.2)

enla

reso

luci

ónde

lsis

tem

alin

ealA

x=

bco

nel

algo

ritm

oPD

CO

,cua

ndoA

yx

sege

nera

nde

form

aal

eato

ria.


‖A‖2

cond(A

)‖b‖

∞(D

2 )jj

‖x‖∞

‖z‖∞

error#

iter.7.83E

+055.06E

+066.05E

+001.00E

+000.00E

+008.98E

+046.86E

-011.70E

-0714

7.76E+05

5.06E+06

6.00E+00

1.00E+00

1.00E-04

8.79E+04

9.54E+00

2.35E-06

167.71E

+055.06E

+065.95E

+001.00E

+001.00E

-039.89E

+041.67E

+003.52E

-0715

7.77E+05

5.09E+06

6.09E+00

1.00E+00

0.00E+00

9.35E-01

9.50E-01

1.71E-07

137.69E

+055.04E

+065.85E

+001.00E

+001.00E

-048.48E

-011.01E

+022.71E

-0517

7.33E+05

5.10E+06

6.18E+00

1.00E+00

1.00E-03

5.64E-01

5.45E-01

1.23E-07

157.94E

+055.08E

+066.04E

+001.00E

+000.00E

+008.05E

-067.62E

-011.88E

-0715

7.62E+05

5.11E+06

6.23E+00

1.00E+00

1.00E-04

9.80E-06

4.21E+00

1.06E-06

167.48E

+055.04E

+066.07E

+001.00E

+001.00E

-038.48E

-061.13E

+012.40E

-0615

8.20E+00

5.16E+01

6.15E+00

1.00E+00

0.00E+00

9.04E+04

4.51E-06

1.33E-07

67.75E

+005.08E

+015.99E

+001.00E

+001.00E

-049.22E

+041.68E

-054.52E

-075

8.18E+00

5.10E+01

6.14E+00

1.00E+00

1.00E-03

8.17E+04

5.38E-06

1.33E-07

67.84E

+005.08E

+016.04E

+001.00E

+000.00E

+009.03E

-011.09E

-052.27E

-075

7.80E+00

5.05E+01

5.97E+00

1.00E+00

1.00E-04

9.85E-01

5.21E-06

1.44E-07

68.39E

+005.09E

+016.29E

+001.00E

+001.00E

-039.81E

-012.64E

-066.73E

-085

7.95E+00

5.10E+01

6.04E+00

1.00E+00

0.00E+00

7.91E-06

1.04E-05

2.63E-07

67.62E

+005.07E

+015.90E

+001.00E

+001.00E

-049.32E

-061.19E

-052.75E

-077

7.79E+00

5.08E+01

6.10E+00

1.00E+00

1.00E-03

9.07E-06

2.25E-03

5.25E-05

97.43E

-055.08E

-046.00E

+001.00E

+000.00E

+007.81E

+042.84E

-115.98E

-0824

7.77E-05

5.09E-04

6.04E+00

1.00E+00

1.00E-04

7.79E+04

8.40E-11

2.05E-01

287.95E

-055.05E

-045.93E

+001.00E

+001.00E

-031.07E

+044.35E

-118.50E

-0116

7.67E-05

5.07E-04

5.96E+00

1.00E+00

0.00E+00

7.31E-01

2.03E-11

4.11E-08

257.28E

-055.06E

-046.05E

+001.00E

+001.00E

-046.15E

-011.62E

-113.46E

-0126

7.54E-05

5.04E-04

5.93E+00

1.00E+00

1.00E-03

8.73E-02

4.02E-10

8.52E-01

167.52E

-055.06E

-045.92E

+001.00E

+000.00E

+008.50E

-063.16E

-117.49E

-0824

7.93E-05

5.12E-04

6.11E+00

1.00E+00

1.00E-04

7.82E-06

1.39E-11

2.08E-01

257.75E

-055.12E

-046.09E

+001.00E

+001.00E

-031.35E

-064.09E

-118.30E

-0117

Tabla5.4:R

esultadosobtenidosescalandoelvectordelsistem

acon

lasegunda

opción(véase

Sección4.2.3)en

laresolución

delsistema

linealAx

=b

conelalgoritm

oPD

CO

,cuandoA

yx

segeneran

deform

aaleatoria.


‖A‖ 2

cond(A

)‖b‖ ∞

(D2) j

j‖x‖ ∞

‖z‖ ∞

erro

r#

iter.

7.53

E+0

55.

05E

+06

5.98

E+0

01.

00E

+00

0.00

E+0

09.

40E

+04

2.75

E-1

12.

16E

-07

268.

04E

+05

5.07

E+0

65.

96E

+00

1.00

E+0

01.

00E

-04

3.24

E+0

44.

12E

-12

6.54

E-0

127

7.29

E+0

55.

05E

+06

6.10

E+0

01.

00E

+00

1.00

E-0

36.

89E

+02

1.03

E-0

99.

91E

-01

117.

61E

+05

5.09

E+0

66.

10E

+00

1.00

E+0

00.

00E

+00

9.71

E-0

16.

19E

-06

4.94

E-0

77

7.39

E+0

55.

09E

+06

6.03

E+0

01.

00E

+00

1.00

E-0

49.

86E

-01

2.49

E-0

62.

49E

-07

68.

37E

+05

5.06

E+0

66.

15E

+00

1.00

E+0

01.

00E

-03

8.30

E-0

11.

06E

-06

2.11

E-0

77

7.95

E+0

55.

09E

+06

6.01

E+0

01.

00E

+00

0.00

E+0

07.

77E

-06

1.42

E-0

11.

34E

-07

147.

74E

+05

5.11

E+0

66.

10E

+00

1.00

E+0

01.

00E

-04

9.10

E-0

61.

10E

-01

1.50

E-0

714

7.71

E+0

55.

07E

+06

5.95

E+0

01.

00E

+00

1.00

E-0

36.

34E

-06

1.75

E-0

11.

52E

-07

138.

24E

+00

5.10

E+0

16.

13E

+00

1.00

E+0

00.

00E

+00

8.65

E+0

44.

31E

-11

4.59

E-0

729

7.85

E+0

05.

07E

+01

5.98

E+0

01.

00E

+00

1.00

E-0

43.

15E

+04

3.78

E-1

25.

93E

-01

297.

56E

+00

5.08

E+0

16.

03E

+00

1.00

E+0

01.

00E

-03

9.04

E+0

21.

22E

-10

9.87

E-0

113

7.96

E+0

05.

12E

+01

6.07

E+0

01.

00E

+00

0.00

E+0

08.

76E

-01

5.10

E-0

63.

26E

-07

77.

59E

+00

5.09

E+0

15.

98E

+00

1.00

E+0

01.

00E

-04

9.13

E-0

12.

48E

-06

2.39

E-0

77

7.95

E+0

05.

05E

+01

6.18

E+0

01.

00E

+00

1.00

E-0

38.

73E

-01

9.63

E-0

72.

17E

-07

78.

71E

+00

5.07

E+0

16.

11E

+00

1.00

E+0

00.

00E

+00

7.67

E-0

62.

96E

-01

2.68

E-0

713

7.91

E+0

05.

12E

+01

6.05

E+0

01.

00E

+00

1.00

E-0

48.

69E

-06

2.10

E+0

02.

41E

-06

137.

39E

+00

5.07

E+0

15.

92E

+00

1.00

E+0

01.

00E

-03

9.52

E-0

68.

65E

-02

6.97

E-0

812

7.75

E-0

55.

12E

-04

6.16

E+0

01.

00E

+00

0.00

E+0

09.

90E

+04

2.14

E-1

03.

00E

-06

327.

85E

-05

5.05

E-0

45.

96E

+00

1.00

E+0

01.

00E

-04

2.96

E+0

46.

81E

-12

5.88

E-0

128

7.53

E-0

55.

05E

-04

5.94

E+0

01.

00E

+00

1.00

E-0

36.

42E

+02

1.64

E-1

09.

92E

-01

117.

89E

-05

5.11

E-0

45.

97E

+00

1.00

E+0

00.

00E

+00

9.41

E-0

11.

92E

-05

1.86

E-0

67

8.27

E-0

55.

05E

-04

6.03

E+0

01.

00E

+00

1.00

E-0

48.

93E

-01

2.08

E-0

62.

52E

-07

87.

81E

-05

5.12

E-0

45.

98E

+00

1.00

E+0

01.

00E

-03

9.10

E-0

12.

83E

-06

4.27

E-0

78

7.49

E-0

55.

10E

-04

6.03

E+0

01.

00E

+00

0.00

E+0

09.

78E

-06

7.26

E-0

26.

32E

-08

137.

69E

-05

5.11

E-0

45.

94E

+00

1.00

E+0

01.

00E

-04

9.94

E-0

61.

73E

-01

1.55

E-0

714

7.61

E-0

55.

07E

-04

5.98

E+0

01.

00E

+00

1.00

E-0

39.

80E

-06

1.07

E+0

01.

31E

-06

12

Tabl

a5.

5:R

esul

tado

sob

teni

dos

esca

land

oel

vect

orco

nla

prim

era

opci

óny

lam

atri

zde

lsis

tem

a(v

éase

Secc

ione

s4.

2.1

y4.

2.2)

enla

reso

luci

ónde

lsis

tem

alin

ealA

x=

bco

nel

algo

ritm

oPD

CO

,cua

ndoA

yx

sege

nera

nde

form

aal

eato

ria.


‖A‖2

cond(A

)‖b‖

∞(D

2 )jj

‖x‖∞

‖z‖∞

error#

iter.7.96E

+055.08E

+066.20E

+001.00E

+000.00E

+009.04E

+041.34E

-062.63E

-079

8.39E+05

5.07E+06

5.89E+00

1.00E+00

1.00E-04

9.45E+04

9.39E-07

2.26E-07

67.86E

+055.01E

+065.98E

+001.00E

+001.00E

-037.97E

+041.07E

-066.83E

-079

7.64E+05

5.13E+06

6.04E+00

1.00E+00

0.00E+00

9.01E-01

1.03E-06

1.81E-07

98.29E

+055.06E

+066.09E

+001.00E

+001.00E

-049.71E

-011.06E

-052.39E

-0611

8.17E+05

5.11E+06

5.92E+00

1.00E+00

1.00E-03

9.03E-01

1.25E-06

6.92E-07

97.68E

+055.08E

+066.13E

+001.00E

+000.00E

+007.60E

-063.55E

-075.34E

-087

7.34E+05

5.05E+06

5.98E+00

1.00E+00

1.00E-04

9.91E-06

1.57E-06

2.78E-07

97.75E

+055.07E

+066.02E

+001.00E

+001.00E

-039.93E

-067.28E

-075.00E

-078

7.55E+00

5.06E+01

5.94E+00

1.00E+00

0.00E+00

9.01E+04

1.13E-06

1.55E-07

67.88E

+005.10E

+015.92E

+001.00E

+001.00E

-048.43E

+041.61E

-063.17E

-079

7.70E+00

5.05E+01

5.92E+00

1.00E+00

1.00E-03

9.27E+04

9.86E-06

1.87E-06

117.47E

+005.04E

+016.03E

+001.00E

+000.00E

+009.84E

-011.01E

-051.99E

-069

8.03E+00

5.04E+01

6.09E+00

1.00E+00

1.00E-04

8.79E-01

3.29E-06

7.65E-07

107.83E

+005.09E

+016.09E

+001.00E

+001.00E

-039.97E

-011.72E

-067.72E

-079

7.67E+00

5.06E+01

5.88E+00

1.00E+00

0.00E+00

9.19E-06

4.38E-07

7.71E-08

88.26E

+005.10E

+015.95E

+001.00E

+001.00E

-049.51E

-069.44E

-072.01E

-077

7.90E+00

5.07E+01

5.99E+00

1.00E+00

1.00E-03

8.98E-06

2.44E-05

4.59E-06

97.94E

-055.11E

-046.02E

+001.00E

+000.00E

+008.81E

+049.94E

-062.30E

-068

7.66E-05

5.09E-04

6.01E+00

1.00E+00

1.00E-04

9.87E+04

3.13E-07

6.74E-08

77.82E

-055.04E

-045.91E

+001.00E

+001.00E

-038.46E

+041.26E

-066.24E

-078

8.07E-05

5.05E-04

6.02E+00

1.00E+00

0.00E+00

9.78E-01

1.55E-06

2.85E-07

98.04E

-055.08E

-046.00E

+001.00E

+001.00E

-049.31E

-015.54E

-071.11E

-078

7.64E-05

5.08E-04

5.99E+00

1.00E+00

1.00E-03

9.58E-01

5.17E-07

4.10E-07

87.77E

-055.09E

-046.08E

+001.00E

+000.00E

+008.82E

-067.86E

-051.49E

-0512

7.96E-05

5.11E-04

6.11E+00

1.00E+00

1.00E-04

5.38E-06

9.10E-07

1.71E-07

98.01E

-055.01E

-045.87E

+001.00E

+001.00E

-039.12E

-066.85E

-074.60E

-078

Tabla5.6:R

esultadosobtenidos

escalandoelvectorcon

lasegunda

opcióny

lam

atrizdelsistem

a(véase

Secciones4.2.1

y4.2.3)en

laresolución

delsistema

linealAx

=b

conelalgoritm

oPD

CO

,cuandoA

yx

segeneran

deform

aaleatoria.

5.4. DELTA DE DIRAC COMO ILT 43

cuando se emplea el escalado en la matriz y cualquiera de los escalados del se-gundo miembro (véanse las Tablas 5.5-5.6).

Más precisamente, si se combina el escalado de la matriz y el segundo miem-bro del sistema, claramente, de entre todas las combinaciones posibles, la opciónque presenta un menor número de iteraciones para converger con el método LSMR,así como un menor error relativo, se tiene al emplear la segunda opción de escala-do del vector junto con el escalado de la matriz del sistema (véase la Tabla 5.6). Deesta forma, en lo que resta del presente trabajo, se empleará el segundo escaladodel vector conjuntamente con el escalado de la matriz del sistema.

5.4 Delta de Dirac como ILTCon el objetivo de validar el código en un caso donde la solución del problema

se simple, se ha considerado un problema de relaxometría donde la transformadainversa de Laplace sea proporcional a una delta de Dirac.

Más precisamente, se ha considerado f(T ) = 2δ(T − 1) en el problema con-tinuo (2.1), siendo δ la delta de Dirac centrada en cero.

De esta forma, se construye una señal sintética s(t) sin considerar ruido al-guno, de la forma

s(t) =

∫ ∞0

exp (−t/T )f(T )dT = 2 exp (−t), (5.1)

y por tanto los valores discretos de la señal sj = s(tj) = 2 exp (−tj), donde tj ,para j = 1, ...,m, son los tiempos de adquisición de la señal (veáse la Figura 5.3a).

Con el fin de aplicar el algoritmo PDCO al problema del cálculo de la trans-formada de Laplace inversa, se discretiza dicha señal construida aproximando laecuación (5.1). Recordemos que esta discretización viene dada por (2.3), esto es,

sl =n∑

j=1

f(Tj) exp(−tl/Tj)(∆T )j, l = 1, ...,m,

donde (∆T )j = Tj − Tj−1 con j = 1, ..., n y tl = l∆t con l = 1, ...,m. Para ellose considera un valor m (tamaño del vector señal) igual a 100, que se correspondea ∆t = 0.1 segundos, cuando el tiempo total de muestreo de la señal es igual a 10segundos.


Se considerarán todos los coeficientes de (∆T )j iguales a ∆t para j = 1, ...n.Además, n será igual a 20 puntos de discretización para los tiempos de relajación,de manera que T ∈ [0, 2]. De esta forma, la matriz KC discreta resultante (véase(2.4)) tendrá un tamaño 100 × 20. Así mismo, es de esperar que según (∆T )j

tienda a cero,n∑

j=1

f(Tj)(∆T )j → 2 debido a las propiedades de la delta de Dirac.

Recordemos que con el fin de no utilizar elevados recursos computacionales,se ha empleado el método iterativo LSMR con los mismos parámetros que en eltest anterior.

Resolvemos con el algoritmo PDCO sin regulación L1 y L2, esto es, fijamoslos coeficientes de regularización en (4.2) como λ1 = λ2 = 0. La solución apro-ximada obtenida se ha representado en la Figura 5.3b.

A modo de resumen, se muestran a continuación los parámetros empleadospor el método PDCO y el algoritmo LSMR para el test con la delta de Dirac comosolución:

λ1 = 0,

λ2 = 0,

D = I,

δ = 10−6,

β = 10−6,

γ = 108,

m = 100,

n = 20,

(∆T )j = ∆t = 0.1, j = 1, ..., n.

Se observa en la Figura 5.3b que el valor máximo alcanzado en el pico de lagráfica es aproximadamente 2/(∆T )j ≈ 2/0.1 = 20, el cual es cualitativamenteel valor esperado debido a las propiedades de la delta de Dirac en el problemacontinuo.

En las gráficas de la Figura 5.4 se muestran los resultados numéricos obteni-dos al aplicar distintas combinaciones de regularización, es decir, para distintosvalores de λ1 y λ2.

Tal y como se observa en la Figura 5.4b empleando solo regularización L1 yempleando distintos valores de λ2 se obtienen soluciones idénticas, por lo que, seconcluye que la regulación L1 no afecta substancialmente la solución de este testsino está acompañada de la regularización L2. Así mismo, la Figura 5.4a muestraademás que la solución es muy sensible a los valores elegidos para la regulari-zación L2, observándose que únicamente las soluciones con valores más bajos deλ2 capturan bien la singularidad producida por la delta de Dirac en el punto T = 1.

En las gráficas de las Figura 5.5 se muestran distintas soluciones aproxima-das calculadas por el algoritmo PDCO al variar los valores de ∆t y (∆T )j para

5.4. DELTA DE DIRAC COMO ILT 45

(a)

0

0.2

0.4

0.6

0.8

1

1.2

1.4

0 2 4 6 8 10

Am

pli

tud

Tiempo[s]

ExactaAproximada

(b)

0

5

10

15

20

0 0.5 1 1.5 2

Inte

nsi

dad

Decaimiento[s]

Figura 5.3: Test donde la solución es proporcional a una delta de Dirac. (a) Decai-miento exponencial de la señal. (b) Solución aproximada utilizando el algoritmoPDCO sin regularización.

j = 1, ..., n empleados según se refleja en la Tabla 5.7. Debemos hacer notar queal variar ∆t y (∆T )j , también se modifican los valores de m y n con el fin demantener constante el tiempo total de muestreo de la señal y los límites del in-tervalo de la constante de decaimiento, T ∈ [0, 2]. Se observa que para obtenerresultados precisos hay que disminuir tanto ∆t como (∆T )j , de manera que losresultados solamente son cualitativamente correctos en los casos en los que ∆t y(∆T )j son iguales entre si y con valores de 10−2 y 10−3.

∆t (∆T )j m n

Sol. a 10−1 10−1 102 20Sol. b 10−2 10−2 103 200Sol. c 10−3 10−3 104 2000Sol. d 10−1 10−3 102 2000Sol. e 10−2 10−2 103 200Sol. f 10−3 10−1 104 20Sol. g 10−3 10−1 104 20Sol. h 10−2 10−2 103 200Sol. i 10−1 10−3 102 2000

Tabla 5.7: Valores de ∆t, (∆T )j y los correspondientes valores de m y n asocia-dos a las soluciones a-i que se presentan en la Figura 5.5.


(a)

0

5

10

15

20

0 0.5 1 1.5 2

Inte

nsi

dad

Decaimiento[s]

sol. 1sol. 2sol. 3sol. 4

(b)

0

5

10

15

20

0 0.5 1 1.5 2

Inte

nsi

dad

Decaimiento[s]

sol. 5sol. 6sol. 7sol. 8

(c)

0

5

10

15

20

0 0.5 1 1.5 2

Inte

nsi

dad

Decaimiento[s]

sol. 9 sol.10sol.11sol.12

Figura 5.4: (a) Resultados obtenidos en el problema de la delta de Dirac usandoPDCO sin regularización L1 y con distintos valores de λ2, 0, 10−2, 10−4 y 10−6,correspondientes a las soluciones 1, 2, 3 y 4, respectivamente. (b) Resultados ob-tenidos en problema de la delta de Dirac usando PDCO sin regularización L2 ycon distintos valores de λ1, 0, 10−2, 10−4 y 10−6, correspondientes a las solucio-nes 5, 6, 7 y 8, respectivamente. (c) Resultados obtenidos en problema de la deltade Dirac usando PDCO con regularización λ1 y λ2 con distintos pares de valores(λ1,λ2): (10−2,10−8), (10−4,10−6), (10−6,10−4) y (10−8,10−2), correspondientes alas soluciones 9, 10, 11 y 12, respectivamente.

5.5 Combinación lineal de deltas de Dirac como ILT

Procediendo de forma análoga al test anterior, se consideran los datos sinté-ticos correspondientes a la señal nº. 3 empleada en [1] con SNR igual a 17395.A saber, valores de T iguales a T1 = 3.54 × 10−3, T2 = 21.54 × 10−3 y T3 =

5.5. COMBINACIÓN LINEAL DE DELTAS DE DIRAC COMO ILT 47

(a)

0

20

40

60

80

100

120

0 0.5 1 1.5 2

Inte

nsi

dad

Decaimiento[s]

sol. asol. bsol. c

(b)

0

500

1000

1500

2000

2500

3000

3500

4000

0 0.5 1 1.5 2

Inte

nsi

dad

Decaimiento[s]

sol. dsol. esol. f

(c)

0

500

1000

1500

2000

2500

3000

3500

4000

0 0.5 1 1.5 2

Inte

nsi

dad

Decaimiento[s]

sol. gsol. hsol. i

Figura 5.5: Resultados numéricos obtenidos en el problema de la delta de Diracusando PDCO sin emplear regularización L1 y L2 y con distintos valores de ∆t,(∆T )j (y sus correspondientes valores de m y n).

131.11× 10−3 segundos, con amplitudes de 400, 400 y 200 respectivamente; estoes,

f(T ) = 400δ(T − T1) + 400δ(T − T2) + 200δ(T − T3),Para reproducir la configuración usada en la referencia [1], se ha usado ∆t =

10−4 y m = 16384. Como consecuencia el tiempo de muestreo es de 1.6384 se-gundos.

En este test, se consideran todas las componentes de (∆T )j para j = 1, ..., niguales a ∆t, y el tamaño de discretización de las amplitudes n igual a 104, demanera que, los valores discretos para T estén comprendidos entre 10−4 y 100, deforma análoga a los resultados numéricos analizados en [1].


Para determinar los valores adecuados de la matriz diagonal D2 se han ensa-yado los valores recomendados en [9] con el objetivo de obtener los resultadosnuméricos precisos. Con la elección de (D2)jj = 10−2 o 10−3, el algoritmo PDCOno converge. Al contrario con valores de la diagonal iguales a 10−4, el algoritmoconverge en 36 iteraciones.

A modo de resumen, a continuación se muestran los parámetros empleadospor el método PDCO y el algoritmo LSMR para el test de la combinación lineal dedeltas de Dirac:

α1 = 10,

α2 = 5,

(∆T )j = ∆t = 10−4, j = 1, ..., n,

δ = 10−6,

β = 10−6,

γ = 108,

m = 16384,

n = 104.

Finalmente los resultados obtenidos se muestran en la Figura 5.6. Se observa,tal y como se esperaba, que cada uno de los picos está localizado sobre el soportede las deltas de Dirac que forman la combinación lineal (véase la Figura 5.6b).

A pesar de que los picos no capturan puntualmente el valor de las amplitudesde las deltas de Dirac, la reconstrucción temporal de la señal recupera de formabastante precisa la señal exacta (véase la Figura 5.6a).

(a)

0

200

400

600

800

1000

1200

10-4

10-3

10-2

10-1

100

Am

pli

tud

Tiempo[s]

Escalada Generada

(b)

0x100

2x105

4x105

6x105

8x105

1x106

1.2x106

10-4

10-3

10-2

10-1

100

Inte

nsi

dad

Decaimiento[s]

Figura 5.6: (a) Reconstrucción de la señal original a partir de la solución aproxi-mada calculada. (b) Solución aproximada calculada por el algoritmo PDCO.

5.6. FUNCIONES GAUSIANAS 49

5.6 Funciones gausianasCon el objetivo de reproducir los resultados numéricos que aparecen en el

trabajo [1], se ha utilizado como solución exacta una combinación lineal de fun-ciones gaussianas, esto es,

f(T ) =3∑

j=1

Aj

σj√

2πexp

(−(T − µj)

2

2σ2j

), (5.2)

donde µj representa la posición de los máximos locales de f(T ), σj modela ladispersión de cada una de las contribuciones de f(T ), y Aj es la amplitud de cadacontribución.

Para la señal nº. 3 con SNR igual a 17395 empleada en la referencia [1],se ha usado valores de µj iguales a µ1 = 3.54 × 10−3, µ2 = 21.54 × 10−3 yµ3 = 131.11× 10−3 segundos, con amplitudes A1 = 400, A2 = 400 y A3 = 200.

Con el fin de poder determinar las desviaciones típicas σj de la manera másparecida a como se han utilizado en [1], cada pico escalará logarítmicamente sudispersión. Concretamente, la dispersión σj , j = 1, 2, 3 asociada a cada contribu-ción gaussiana de la solución exacta se ha fijado a σ1 = 3× 10−4, σ2 = 3× 10−3

y σ3 = 3× 10−2.

Señalar que en [1] se menciona que emplea funciones gaussianas con des-viaciones típicas escaladas logarítmicamente por un factor 2, 3, 4, y 5, pero sinindicar que valor concreto utiliza para cada una de las señales estudiadas. Des-pués de construir todas las señales con todas las desviaciones típicas indicadas,se ha determinado que el valor de la desviación típica igual a 3 es el que produ-ce las soluciones exactas cualitativamente más próximas a las que aparecen en [1].

A modo de resumen, a continuación se muestran los parámetros empleadospor el método PDCO y el algoritmo LSMR para el test de la combinación lineal detres funciones gaussianas:

α1 = 10,

α2 = 5,

∆t = 10−4,

σ1 = 3× 10−4,

σ2 = 3× 10−3,

σ3 = 3× 10−2,

δ = 10−6,

β = 10−6,

γ = 108,

m = 16384,

n = 104.

Los resultados obtenidos se muestran en la Figura 5.7, donde se observa que noson del todo precisos, ya que los puntos de discretización (∆T )j están linealmenteespaciados. Para evitar el uso de esta discretización se ha modificado el vector de


puntos (∆T )j para j = 1, ..., n de manera que ahora se genere con 256 valoresespaciados logarítmicamente entre 10−4 y 101, es decir, (∆T )j = Tj − Tj−1 conj = 1, ..., n, donde

Tj = 10−4+5(j−1)n−1 , j = 1, ..., n.

0

200

400

600

800

1000

1200

1400

1600

10-4

10-3

10-2

10-1

100

Inte

nsi

dad

Decaimiento[s]

CO L2 SG

10-4

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25 30

||r||

Iteraciones

CO

L2

Figura 5.7: Solución aproximada (izquierda) y residuo representado frente al nú-mero de iteraciones (derecha) obtenidos en el test donde la solución es la com-binación lineal de tres funciones gaussianas empleando PDCO con regularizaciónL1 y L2 (CO), solo regularización L2 (L2), y la señal simulada original (SG), uti-lizando un conjunto de puntos (∆T )j , j = 1, ..., n espaciados linealmente entre10−4 y 100.

En la Figura 5.8 se muestran los resultados numéricos obtenidos para la discre-tización con puntos logarítmicamente espaciados entre 10−4 y 101. En la Figura5.8a se observa como empleando regularización L1 y L2 se recupera cualitativa-mente la señal sintética generada de forma análoga a la que aparece reflejada en[1]. Sin embargo, empleando únicamente regularización L2 no se ha podido re-producir los resultados con la misma precisión. Así mismo, según se observa enla Figura 5.8c, no se aprecian diferencias significativas en el residuo calculado yen el rango de iteraciones requeridas por el algoritmo PDCO. Además, tal y co-mo se muestra en la Figura 5.8b, la señal original y la reconstruida a partir de laaproximación numérica concuerda de forma precisa.

5.6. FUNCIONES GAUSIANAS 51

(a)

0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

(b)

0

2

4

6

8

10

12

14

10-4

10-3

10-2

10-1

100

Amplitud

Tiempo[s]

COL2SG

(c)

10-3

10-2

10-1

100

101

102

0 20 40 60 80 100

||r||

Iteraciones

CO

L2

Figura 5.8: Resultados numéricos obtenidos en el test cuya solución exacta esla combinación lineal de tres funciones gaussianas, donde la discretización vienedada por un conjunto de puntos logarítmicamente espaciados, empleando PDCOcon regularización L1 y L2 (CO), PDCO con solo regularización L2 (L2), y laseñal simulada original (SG). (a) Solución aproximada. (b) Señal exacta y señalreconstruida a partir de la aproximación numérica. (c) Residuo de la aproximaciónnumérica y rango de iteraciones requeridas por el algoritmo PDCO.

Capítulo 6

Resultados numéricos yConclusiones

El código del algoritmo obtenido de la referencia [9] fue probado y validadocon señales sintéticas en GNU OCTAVE 3.8.2. El objetivo de las simulacionesincluidas en este capítulo es determinar la precisión y la potencia de resolución delas señales analizadas en el trabajo [1] para distintos niveles de ruido. Además, es-tas simulaciones se han utilizado para determinar el rango dinámico en el que losresultados numéricos del cálculo de la transformada inversa de Laplace medianteel algoritmo PDCO son fiables.

En todos los casos, los parámetros del método LSMR y de la regularización L1

y L2 han sido fijados como

δ = 10−6,

β = 10−6,

γ = 108,

α1 = 10,

α2 = 5.

En todas las señales se ha considerado que el periodo de muestreo ∆t = 10−4

y el tamaño del vector de datos igual a m = 16384. Además, en todas las señalesque son contribución de tres funciones gaussianas (veáse (5.2)) la dispersión decada una de ellas viene dado por σ1 = 3× 10−4, σ2 = 3× 10−3 y σ3 = 3× 10−2.

6.1 Resultados numéricosSiguiendo los test numéricos propuestos en [1], las señales empleadas a lo

largo de esta sección se generan como la transformada inversa de Laplace de unacombinación lineal de funciones gaussianas tal y como aparece descrito en la

53

54 CAPÍTULO 6. RESULTADOS NUMÉRICOS Y CONCLUSIONES

Sección 5.6. En todos los casos, se han considerado diferentes niveles de ruido.Cinco tipos de señales han sido empleados: en la Tabla 6.1 se muestran los valoresde µj , j = 1, 2, 3 que se han utilizado con cada una de las de señales. Para cadauna de estas señales se han fijado los valores de A1, A2 y A3 iguales a 400, 400y 200, respectivamente. En la Tabla 6.2 se muestran también los valores de SNRempleados para el análisis de las distintas señales en presencia de ruido.

µ1 (A1 = 400) µ2 (A2 = 400) µ3 (A3 = 400)

Señal 1 1.44× 10−3 21.54× 10−3 323.45× 10−3

Señal 2 2.25× 10−3 21.54× 10−3 205.93× 10−3

Señal 3 3.54× 10−3 21.54× 10−3 131.11× 10−3

Señal 4 5.56× 10−3 21.54× 10−3 83.48× 10−3

Señal 5 8.73× 10−3 21.54× 10−3 53.15× 10−3

Tabla 6.1: Valores de µj para cada una de las tres contribuciones gaussianas delos cinco tipos de soluciones exactas.

SNR 1 SNR 2 SNR 3 SNR 4

Señal 1 15183 1973 535 413Señal 2 18829 1869 592 308Señal 3 17395 1722 583 285Señal 4 19617 1752 593 298Señal 5 18829 1869 592 308

Tabla 6.2: Valores de SNR (Signal-to-Noise Ratio) usado para cada una de loscinco tipos de soluciones exactas.

Recordemos que como se ha concluido en el Capítulo 5, los puntos de discre-tización (∆T )j = Tj−Tj−1, j = 1, ..., n están espaciados logarítmicamente entre10a y 10b.

Tj = 10a+(b−a)(j−1)

n−1 , j = 1, ..., n.

En la Tabla 6.3 se muestran, para cada una de las combinaciones señal-ruido,los valores de a y b empleados de manera que los resultados obtenidos sean lo másprecisos posible.

La representación gráfica en el dominio del tiempo de las señales 1, 2, 3, 4 y5 para un valor de SNR de 413, 308, 285, 298 y 308, respectivamente, se muestra

6.1. RESULTADOS NUMÉRICOS 55

Señal 1

SNR a b

15183 -4 11973 -4 1535 -4 1413 -4 1

Señal 2

SNR a b

18829 -4 11869 -4 1592 -4 1308 -4 1

Señal 3

SNR a b

17395 -4 11722 -4 0.5583 -4 0285 -4 0

Señal 4

SNR a b

19617 -4 0.51752 -4 0.5593 -4 0298 -4 0

Señal 5

SNR a b

18829 -4 01869 -4 0592 -4 0308 -4 0

Tabla 6.3: Valores de a y b, que determinan el intervalo de discretización Tj ∈[10a, 10b], empleados para cada una de las combinaciones señal-ruido analizadas.

en la Figura 6.1.

Para un valor relativamente reducido de SNR se puede apreciar el rizado de lascurvas debido a la presencia del ruido en la señal.

6.1.1 Precisión

Tal y como se indicó en el Capítulo 5, los puntos de discretización (∆T )j ,j = 1, ..., n, ha sido generado con distintos valores de n pero siempre equiespa-ciados logarítmicamente. Por lo que, con el fin de estudiar cómo se comporta elmétodo numérico para distintos valores de n, se simula una señal con un úniconivel de ruido fijo, concretamente la Señal 3 con SNR igual a 17395.

En las Figuras 6.2-6.5 se muestran los resultados obtenidos para valores de niguales a 25, 26, 27 y 28, utilizando el algoritmo PDCO con regularización L1 y L2

(etiquetada como CO en la leyenda de las gráficas), utilizando solo regularizaciónL2 (solución etiquetada como L2), y la solución exacta (con etiqueta SG). Se ob-serva que, tanto empleando regularización L1 y L2 como con solo regularizaciónL2, al aumentar el valor de n, aumenta también la precisión de los resultados, demanera que se ajustan mejor los resultados obtenidos a la solución exacta. Ade-más, según lo esperado, se observa que al aumentar el valor de n, también aumenta


0

5

10

15

20

25

30

10-4

10-3

10-2

10-1

100

Amplitud

Tiempo[s]

S5S4S3S2S1

Figura 6.1: Representación gráfica en el dominio del tiempo de la señal 1 (S1), laseñal 2 (S2), la señal 3 (S3), la señal 4 (S4) y la señal 5 (S5) para un valor de SNRde 413, 308, 285, 298 y 308, respectivamente.

el número de iteraciones empleadas por el algoritmo PDCO.

6.1.2 Rango dinámicoEn el Capítulo 5 las contribuciones no nulas de la señal con respecto a las

constantes de decaimiento T se sitúan siempre a la derecha del periodo de mues-treo (que en estos casos se considera igual a ∆t = 10−4), respetando lo indicadopor MESTRELAB RESEARCH: con una separación minina de 1.5 intervalos en es-cala logarítmica entre el periodo de muestreo y el pico situado más a la izquierda,es decir,

log10 (∆t) ≤ log10 (T ∗)− 1.5, (6.1)

siendo T ∗ la posición del pico más a la izquierda.

Con el fin de estudiar como se comporta el método numérico cuando no se res-peta dicha separación, se han considerado las señales 1 y 2 con distintos niveles


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50

||r||

Iteraciones

CO

L2

Figura 6.2: Soluciones aproximadas y solución exacta (izquierda) y representa-ción gráfica del residuo con respecto al número de iteraciones del algoritmo PDCO(derecha) para el test de la Señal 3 con SNR = 17395 y n = 25.

0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50 60

||r||

Iteraciones

CO

L2


de ruido, cuyos picos progresivamente se fueron separando entre ellos, de maneraque el situado más a la izquierda no respetará la condición (6.1).

En la Sección 6.1.1, los resultados más precisos se han obtenido para n = 28

por lo que en todas las simulaciones numéricas que se muestran en las seccionessiguientes se ha utilizado este tamaño de discretización.

En las Figuras 6.6-6.9 (para la señal 1) y 6.10-6.13 (para la señal 2) se mues-tran los resultados numéricos obtenidos en las simulaciones utilizando el algorit-


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 20 40 60 80 100

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 20 40 60 80 100

||r||

Iteraciones

CO

L2


mo PDCO con regularización L1 y L2 (CO), con solo regularización L2 (L2), yla solución exacta (SG). Para cada una de las señales, las figuras se han ordena-do según los valores de SNR empleados (de mayor a menor). A la vista de losresultados numéricos obtenidos, donde se observa que el método no es capaz derecuperar el pico situado a la izquierda, se concluye el requisito (6.1) es esencialpara obtener una solución aproximada precisa.


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50 60

||r||

Iteraciones

CO

L2

Figura 6.6: Soluciones aproximadas y solución exacta (izquierda) y representa-ción gráfica del residuo con respecto al número de iteraciones del algoritmo PDCO(derecha) para el test de la Señal 1 con SNR 15183.

0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-2

10-1

100

101

102

0 10 20 30 40 50

||r||

Iteraciones

CO

L2


6.1.3 Potencia de resoluciónPara estudiar la potencia de resolución del método numérico, se han consi-

derado las señales 3, 4 y 5, con distintos niveles de ruido, donde los picos de lasolución exacta progresivamente se acercan entre ellos.

Además, señalar que, a pesar de que en la Sección 5.6, ya se habían mostradolos resultados numéricos correspondientes a la Señal 3 con SNR igual a 17395, seha considerado convenientemente volver a presentarlos una vez más en conjuntocon los demás valores de SNR empleados para una mejor comprensión de la po-


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50

||r||

Iteraciones

CO

L2


tencia de resolución del método numérico.

En las Figuras 6.14-6.17 (para la señal 3), 6.18-6.21 (para la señal 4) y 6.22,-6.25 (para la señal 4) se muestran los resultados numéricos obtenidos en las si-mulaciones utilizando el algoritmo PDCO con regularización L1 y L2 (CO), PDCOcon solo regularizaciónL2 (L2), y la solución exacta (SG). Para cada una de las se-ñales, las figuras se han ordenado según los valores de SNR empleados (de mayora menor).


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50 60 70 80

||r||

Iteraciones

CO

L2

Figura 6.10: Soluciones aproximadas y solución exacta (izquierda) y represen-tación gráfica del residuo con respecto al número de iteraciones del algoritmoPDCO (derecha) para el test de la Señal 2 con SNR 19617.

0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-2

10-1

100

101

102

0 10 20 30 40 50 60 70

||r||

Iteraciones

CO

L2


Atendiendo a los datos mostrados en la Tabla 6.3 se observa como, en las seña-les con los picos más separados, según se aumenta el ruido, es decir, se disminuyeel valor de SNR, se hace necesario que el límite superior de los puntos de discre-tización Tj , con j = 1, ..., n estean más próximos a la posición del pico más a laderecha de la solución exacta.

En los resultados obtenidos se puede apreciar como la precisión con la que elalgoritmo PDCO es capaz de recuperar la solución exacta, disminuye a medida quelos picos de las señales se encuentran más próximos entre si, y aumenta a medida


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-2

10-1

100

101

102

0 10 20 30 40 50 60 70

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50 60

||r||

Iteraciones

CO

L2


que el ruido es más bajo (valor de SNR más alto).

Cabe señalar que empleando regulación L1 y L2, los resultados obtenidos soncasi idénticos a los que aparecen en [1]. Sin embargo, empleado únicamente regu-larización L2 ha sido imposible reproducir los resultados con la misma precisión.

Para las señales analizadas, el rango de iteraciones requeridas por el métodoPDCO se mueve en valores de entre 25 y 90 iteraciones, aumentado su valor aldisminuir el nivel de ruido. Puesto que el número de iteraciones es directamen-


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

101

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 20 40 60 80 100

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50

||r||

Iteraciones

CO

L2


te proporcional al tiempo de cómputo, se concluye que el tiempo de ejecuciónaumenta cuando disminuye el nivel de ruido.

6.1.4 Tiempos de ejecución

Con el fin de analizar, en distintos entornos de cómputo, el tiempo de ejecu-ción requerido por cada una de las simulaciones realizadas en la Sección 6.1.3, enla Tabla 6.4 se muestran los tiempos de ejecución de distintos test utilizados eneste capítulo. Para este análisis se han utilizado las siguientes máquinas del Su-


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-4

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25

||r||

Iteraciones

CO

L2


percomputador Virtual Gallego (SVG) del Centro de Supercomputación de Galicia(CESGA) ejecutándose en secuencial:

Bi-procesador INTEL Haswell E5-1240 (2.5 GHz, 30MB Level 3 Cache)con 24 cores por procesador y 4GB de memoria compartida.

Bi-procesador INTEL Intel Sandy Bridge E5-2670 (2.6 GHz, 20MB Level3 Cache) con 8 cores por procesador y 4GB de memoria compartida.

Bi-procesador AMD Opteron 6174 (2.2 GHz, 12MB Level 3 Cache) con12 cores por procesador y 4GB de memoria compartida.


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 10 20 30 40 50 60

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-4

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25 30

||r||

Iteraciones

CO

L2


Señalar que para obtener cada uno de los tiempos de ejecución se ha calculado lamedia aritmética de diez medidas.

De entre las máquinas empleadas en, la que cuenta con ciclo de reloj másalto (Opteron), el tiempo de cómputo obtenido más alto no superó los 2 minutos,siendo un tiempo de ejecución típico de alrededor de 40 segundos. En cambio,en la máquina con ciclo de reloj más bajo (Haswell), el tiempo de computo másdesfavorable no superó los 30 segundos, estando entorno a los 10 segundos elvalor típico más frecuente.


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25 30

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25 30

||r||

Iteraciones

CO

L2


6.2 ConclusionesAtendiendo a los resultados mostrados en la Sección 6.1.3, empleando única-

mente regularizaciónL2 ha sido imposible reproducir las gráficas mostradas en [1]con la misma precisión que utilizando regularización L1 y L2. Este hecho puedeser debido a la omisión o incorrección de alguno de los parámetros consideradosen el presente Trabajo Fin de Máster, y cuya revisión se propone como un trabajofuturo.

6.2. CONCLUSIONES 67

0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-4

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25 30 35

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25 30 35 40

||r||

Iteraciones

CO

L2


Como conclusión general obtenida a partir de las simulaciones numéricas pro-puestas en [1], el algoritmo PDCO con regularización L1 y L2 representa una he-rramienta útil para el análisis de datos de relaxometría LR-NMR. Sin embargo, suuso requiere de una elección de parámetros de calibración en base a simulacionesnuméricas, y esta configuración de parámetros puede variar al considerar diferen-tes tipos de señales y valores de ruido o incluso dependen de los parámetros dediscretización o de la configuración del resolvedor lineal LSMR. De hecho, losconsiderables tiempos de computo obtenidos pueden llegar a dificultar la deter-minación de los parámetros de calibración cuando se pretende que el cálculo sea


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25 30 35

||r||

Iteraciones

CO

L2


0

50

100

150

200

250

300

350

400

450

10-4

10-3

10-2

10-1

100

Intensidad

Decaimiento[s]

COL2SG

10-3

10-2

10-1

100

101

102

0 5 10 15 20 25 30 35

||r||

Iteraciones

CO

L2


valido para amplios rangos dinámicos.

6.2. CONCLUSIONES 69

SNR tHaswell[s] tSandyBridge[s] tOpteron[s]

Señal 3 17395 25.75 36.07 74.621722 14.58 18.60 60.85583 9.41 12.01 33.12285 8.10 10.00 30.89

Señal 4 19617 16.26 21.58 68.671752 9.84 13.30 51.53593 9.33 10.41 44.34298 7.93 9.30 31.87

Señal 5 18829 11.37 14.60 59.641869 10.61 11.40 34.21592 10.27 10.76 35.97308 9.03 9.98 41.45

Tabla 6.4: Tiempos de ejecución para los distintos test en los tres entornos decálculo del SVG. Cada uno de los tiempos de ejecución se corresponde con lamedia aritmética de diez ejecuciones.

Bibliografía

[1] Berman, P., O. Levi, Y. Parmet, M. Saunders y Z. Wiesmann: Laplace Inver-sion of Low-Resolution NMR Relaxometry Data Using Sparse Representa-tion Methods. En Traficante, D. (editor): Concepts in Magnetic ResonancePart A, volumen 42A, páginas 72 – 88. Wiley Periodicals Inc, New York,2013.

[2] Boyd, S. y L. Vandenberghe: Convex Optimization. Cambridge UniversityPress, Cambridge, 2009.

[3] de Burgos, J.: Algebra lineal y geometría cartesiana. McGraw-Hill, NewYork, 2000.

[4] Floudas, C.A. y P.M. Pardalos: Encyclopedia of Optimization. Kluwer Aca-demic Publishers, Dordrecht, 2001.

[5] Fong, D. y M. Saunders: LSMR: An iterative algorithm for Sparse Least-Squares problems. Journal on Scientific Computing, 33(5):2950 – 2971,2011.

[6] Levitt, M. H.: Spin dynamics: basics of nuclear magnetic resonance. JohnWiley & Sons, New York, 2001.

[7] Mitchell, J., L. F. Gladden, T. C. Chandrasekera y E. J. Fordham: Low-fieldpermanent magnets for industrial process and quality control. Progress inNuclear Magnetic Resonance Spectroscopy, (76):1 – 60, 2014.

[8] Roberts, G. C. K.: Encyclopedia of Biophysics. Springer, Berlin, 2013.

[9] Saunders, M., K. Bunggyoo, M. Chris y A. Santiago: PDCO: primal-dual interior method for convex objectives. http://web.stanford.edu/group/SOL/software/pdco/. [Online; último acceso el 13-Diciembre-2014].

[10] Wing, G. M.: A Primer on Integral Equations of the First Kind. Society forIndustrial and Applied Mathematics, Philadelphia, 1991.

71

http://web.stanford.edu/group/SOL/software/pdco/

http://web.stanford.edu/group/SOL/software/pdco/

Optimización y regularización para relaxometría de baja resolución ...

Documents

Transcript of Optimización y regularización para relaxometría de baja resolución ...