Alan Bastián Sánchez Vergara Sistema óptico de compresión de imágenes basado en...

Informe Proyecto de Título de Ingeniero Civil Electrónico

Alan Bastián Sánchez Vergara

Sistema óptico de compresión de

imágenes basado en espejos

deformables

Escuela de Ingeniería Eléctrica

Facultad de Ingeniería

Valparaíso, 10 de enero de 2018

Alan Bastián Sánchez Vergara

Informe Final para optar al título de Ingeniero Civil Electrónico,

aprobada por la comisión de la

Escuela de Ingeniería Eléctrica de la

Facultad de Ingeniería de la

Pontificia Universidad Católica de Valparaíso

conformada por

Sr. Esteban Vera Rojas

Profesor Guía

Sr. Gabriel Hermosilla Vigneau

Segundo Revisor

Sr. Sebastián Fingerhuth Massmann

Secretario Académico


Sistema óptico de compresión de imágenes basado en

espejos deformables

A mis padres, hermanos y sobrino.

Agradecimientos Quiero comenzar agradeciendo a mis padres José y Sandra quienes me han apoyado en cada una

de mis locuras, como cuando de chico quería ser astronauta, o cuando quise ser futbolista,

también cuando en el liceo se me ocurrió ser músico y ahora que estoy a las puertas de ser

ingeniero, gracias a ellos es quien soy ahora. Ellos quienes se han sacado la mugre por mí y mis

hermanos, son los que me dieron la fuerza para perseverar y terminar este camino.

A mis hermanos, José Francisco por cada chela tomada, gracias a la pasión de ambos por

descubrir nuevas cervezas logramos afianzar una relación que nunca había sido tan estrecha. A

Sandra, por aconsejarme en cada decisión desde que di la PSU, su experiencia universitaria ayudó

mucho para que llegara aquí, pero sobre todo los consejos de vida que me han ayudado a ser

quien soy hoy.

A mi tío Italo, por ser un gran apoyo tanto para mí como para mis padres, por todos los consejos

entregados, los asados y cada cerveza tomada que de seguro me han ayudado a crecer como

persona, gracias por aguantarme todos estos años en su casa.

A mis amigos, principalmente al Tito por ser el partner sobre todo en este último año, gran parte

de esto es gracias a él. A José Núñez gran amigo e importante apoyo en los momentos en que la

cosa estaba difícil, José Meza, Ricardo, Esteban, Jesús, Pelao que hicieron este paso por la

universidad una gran etapa de mi vida.

A mis amigos de la vida, Nano y José, que siempre confiaron en mí, aunque se burlaban porque

nunca salía, decirles que al fin terminé.


Alan Sánchez

Resumen El presente documento da a conocer el trabajo elaborado durante el año de investigación

realizada para el proyecto Sistema Óptico de Compresión de Imágenes Basado en Espejos

Deformables, en el marco de las asignaturas Seminario de Proyecto y Proyecto de Titulación, para

optar al título de Ingeniero Civil Electrónico.

El primer capítulo consiste en la presentación de los fundamentos y la problemática que dieron

origen al proyecto. El problema al cual nos enfrentamos es la búsqueda de una forma óptima de

obtener imágenes comprimidas. Para ello se recurre a la teoría de Compressed Sensing (CS), esta

técnica permite generar mediciones concisas de una señal y por lo tanto comprimidas. Una forma

de implementación de CS es la "Single Pixel Camera" (SPC), sistema por el cual se generó esta

investigación. La problemática de SPC fundamentalmente radica en que necesita realizar

mediciones secuenciales para generar la compresión, la solución propuesta busca hacerlo de

manera simultánea.

En el capítulo 2 se detalla la forma en que se pretende entregar la solución del problema,

fundamentada en el sistema 4f de la Óptica de Fourier. Además, se genera el marco teórico

necesario sobre detectores CCD y CMOS, como también de espejos deformables, profundizando

en su funcionamiento y tipos.

El capítulo 3 muestra el desarrollo del proyecto, el cual consta de las etapas de simulación del

sistema como también de experimentación. La primera entrega información sobre la generación

de los modelos, como debiese comportarse el sistema y cuáles serían las mejores configuraciones.

La etapa de experimentación presenta el montaje y las consideraciones necesarias para el

desarrollo.

En el capítulo 4 se entregan los resultados tanto de la simulación como de la experimentación,

exhibiéndose los mejores para cada uno.

Finalmente, en el capítulo de discusiones y conclusión se efectúa un análisis de los objetivos

planteados, la consecución de estos, como también el estudio de todos los resultados obtenidos.

Palabras claves: Compressed Sensing, Single Pixel Camera, Óptica de Fourier, Sistema 4f, Espejos

Deformables, CCD, CMOS.

Abstract This document unveils the work elaborated during a year of research carried out for the project

Optical Image Compression System Based on Deformable Mirrors, within the framework of the

subjects of Project Seminar and Title Project, to opt for the degree of Electronic Civil Engineer.

In chapter 1 we present the foundations and problems that gave rise to the project. The problem

we face is the search for an optimal way to get compressed images. To this end, the theory of

Compressed Sensing (CS) was used. This technique allow us to generate concise measurements

of a signal, effectively compressing it. One form of CS implementation is the "Single Pixel Camera"

(SPC). However, the problem of SPC fundamentally lies in that it needs sequential measurements

to generate the compression, wich the proposed solution seeks to do it simultaneously.

In Chapter 2, we detail the proposed solution to the problem, based on a 4f System based on

Fourier Optics. In addition, we develop the necessary theoretical framework on CCD and CMOS

detectors, as well as for deformable mirrors.

In chapter 3, we present the simulation of the system as well as the experiments. We provide

information about the generation of the mathematical models, and evaluate the results that lead

to the best configurations. The experimental stage presents the optical setup and the necessary

considerations for its success.

In chapter 4, we present the results of both simulations and experiments, displaying the best

results founds for each one.

Finally, we present discussions based on the results, and an analysis of the objectives, the

achievement of these, wich are summarized in the conclusion.

Key words: Compressed Sensing, Single Pixel Camera, Fourier Optics, 4f System, Deformable

Mirrors, CCD, CMOS.

Índice general Introducción ................................................................................................................. 1

Objetivos generales ............................................................................................................................. 4

Objetivos especificos .......................................................................................................................... 4

1 Antecedentes generales y propuesta ...................................................................... 5

1.1 Compressed Sensing. ................................................................................................................... 5

Raleza e incoherencia ........................................................................................................ 6

Muestreo de la señal ........................................................................................................... 7

Recuperación de la señal ................................................................................................... 8

1.2 Single Pixel Camera ...................................................................................................................... 9

Arquitectura de una SPC .................................................................................................. 10

Emulación de Single Pixel Camera ................................................................................. 12

1.3 Problemática ............................................................................................................................... 18

1.4 Solución propuesta ..................................................................................................................... 18

2 Solución y marco teórico ....................................................................................... 19

2.1 Solución propuesta ..................................................................................................................... 19

2.2 Marco teórico .............................................................................................................................. 19

Optica de Fourier .............................................................................................................. 19

Sistema óptico 4f .............................................................................................................. 20

Polinomios de Zernike ..................................................................................................... 21

2.3 Algoritmo del sistema propuesto............................................................................................... 23

2.4 Dispositivos ................................................................................................................................. 24

Detector ............................................................................................................................. 24

Espejo deformable ............................................................................................................ 28

3 Desarrollo ................................................................................................................ 33

3.1 Simulación ................................................................................................................................... 33

Entrada .............................................................................................................................. 34

Aplicación Transformada de Fourier y modificación de fase ....................................... 34

Transformada inversa de Fourier y compresión mediante detector ........................... 36

3.2 Pruebas ........................................................................................................................................ 38

Índice general

Predicción de resultados de compresión mediante matriz de Gram ......................... 41

3.3 Experimentación ......................................................................................................................... 48

Set up ................................................................................................................................. 48

Calibración ........................................................................................................................ 51

3.4 Conclusiones del capitulo .......................................................................................................... 53

Sobre el desarrollo de la simulación ............................................................................... 53

Sobre el desarrollo de la experimentación ..................................................................... 54

4 Resultados ................................................................................................................ 55

4.1 Resultados de simulación .......................................................................................................... 55

Reconstrucción de imágenes........................................................................................... 56

Resultados de reconstrucción ......................................................................................... 57

Analisis de resultados mediante Error Cuadrático Medio ............................................ 58

Comparación del sistema vs SPC .................................................................................... 62

4.2 Resultados de experimentación ................................................................................................ 64

Pruebas .............................................................................................................................. 64

Resultados ......................................................................................................................... 65

4.3 Conclusiones del capítulo .......................................................................................................... 73

Sobre los resultados de simulación ................................................................................ 73

Sobre los resultados de experimentación ...................................................................... 73

Discusión y conclusiones .......................................................................................... 75

De los objetivos planteados ............................................................................................................. 75

Del trabajo realizado ........................................................................................................................ 76

Proyección futura.............................................................................................................................. 77

Bibliografía ................................................................................................................. 78

1

Introducción En diversas áreas de estudio, la industria, e incluso en el diario vivir, nos encontramos con

distintas representaciones del entorno en forma digital, como por ejemplo al escuchar música

desde un reproductor (mp3 player, ipod, celular, etc), capturar una fotografía o realizar un video

(cámara digital, celular, etc), como también el realizar un electrocardiograma. Todas estas son

señales análogas que han sido digitalizadas para su uso, permitiendo realizar distintos

tratamientos. La masificación de estas técnicas ha generado un mayor consumo de información

en formato digital. Si además se toma en cuenta que el usuario o la situación exigen la mejor

fidelidad posible, entonces se da origen a archivos de gran tamaño. Un aspecto importante a tener

en cuenta es que estos archivos deben ser transportados y/o almacenados, ocupando una gran

cantidad de recursos y generando un dilema entre calidad y tamaño de archivo.

Variados son los estudios [1] [2] que buscan encontrar la mejor relación entre calidad y tamaño

de archivo, intentando minimizar el gasto de recursos. En ese sentido se han desarrollado técnicas

que reducen la cantidad de datos irrelevantes con la menor pérdida de información posible,

llamadas técnicas de compresión digital.

De aquí en adelante, el estudio se enfocará solamente en imágenes digitales [1], las cuales se

definen como una función bidimensional de intensidad de luz f(x,y), donde x e y representan las

coordenadas espaciales, y el valor de f es proporcional al brillo o nivel de gris (escala de grises) de

la imagen. Así, una imagen digital sería una función f(x,y) discretizada que puede representarse

como una matriz, donde, cada componente corresponde a un punto de ésta. A estos puntos se les

denomina elementos de la imagen conocidos como pixels (“picture elements”).

Al realizar la compresión de imágenes nos enfrentamos a dos grupos de técnicas [1]. El primero

es la compresión sin pérdida de información donde las imágenes se regeneran idénticas a la

original, destacando algoritmos como:

Introducción

2

Run-length encoding (RLE) [1], donde secuencias de datos con los mismos valores

consecutivos son almacenadas como un único valor más su recuento. Es útil en imágenes

cuya secuencia de caracteres se repite. Utilizado en JPEG.

Codificación de Huffman [1], asigna códigos de bits más cortos a los datos con mayor

frecuencia de aparición, y códigos más largos a los que aparecen menos.

Codificación aritmética [1], codifica mediante una representación binaria donde cada

símbolo tiene una probabilidad, siendo los símbolos con mayor probabilidad quienes

utilizan menor cantidad de bits.

Lempel-Ziv [1], realiza un análisis de cadenas o palabras de un alfabeto para el cual existe

una longitud máxima, donde los símbolos con ocurrencia frecuente se agrupan en

cadenas con longitud larga y los con menor frecuencia en cadenas cortas. Codifica

indicando la posición de la primera instancia y la longitud del texto.

El segundo grupo es la compresión con pérdida de información, donde la imagen reconstruida

posee diferencias con respecto a la original, siendo usadas cuando las imágenes tienen

información redundante la cual es ignorada, aquí destacan técnicas como:

Codificación por transformación [1], utiliza una transformada para hacer corresponder la

imagen con los coeficientes de la transformada a los cuales se aplica un proceso de

cuantificación, lo que reduce los datos y produce pérdida de información. La

transformada más utilizada en compresión de imágenes es la transformada discreta de

coseno (DCT), debido a que empaqueta mayor número de información en un menor

número de coeficientes.

Vector de cuantización [1], selecciona un conjunto representativo de la imagen. El

proceso se realiza dividiendo la imagen en vectores. Además, se construye una tabla

proveniente de vectores de la imagen y se realiza una comparación entre vectores.

Compresión fractal [1], un fractal es un objeto con forma fragmentada que se repite a

diferentes escalas. La compresión fractal se basa en éste fenómeno, donde a una imagen

es aplicada una función que es replicada y transmitida.

De estas técnicas se desprende la más estudiada y usada que es JPEG (Joint Photographics Experts

Group) [1] [2], el cual es un estándar de compresión y codificación de imágenes considerado

también como un formato de archivo para éstas. Tiene la característica de poder ajustar su grado

de compresión obteniendo para mayor compresión peor calidad de imagen, pero menor tamaño

del archivo. Por otro lado, para menor grado de compresión se obtiene una imagen de mejor

calidad (parecida a la original) pero con mayor tamaño de archivo. Su proceso radica en la

división de la imagen en bloques de 8x8 pixeles que posteriormente son transformados al dominio

de frecuencia a través de la trasformada discreta del coseno (DCT) [3]. Su nivel de compresión se

define mediante matrices de cuantificación específicas previamente calculadas para el nivel de

compresión deseado, el cual puede variar desde 1 a 100, siendo 1 la peor calidad y la mejor

compresión, y 100 la mejor calidad y la peor compresión.

Todo lo anterior se basa en la forma en que los sensores tradicionales capturan los distintos tipos

de datos donde, para poder representar de manera prácticamente fidedigna lo que está

Introducción

3

ocurriendo, se debe respetar a lo menos la tasa de Nyquist [4], la cual indica que para que un

conjunto de datos pueda ser exactamente recuperado se debe contar con una cierta cantidad

uniforme de muestras a una frecuencia de al menos dos veces la frecuencia máxima de la señal

de interés. Por otro lado, el teorema fundamental del algebra lineal dice que el número de

muestras de una señal finita discreta debe ser al menos del tamaño de la señal de interés para

poder asegurar su reconstrucción. Este tipo de muestreo genera una gran cantidad de datos

debido a la existencia de aplicaciones, como por ejemplo una imagen astronómica, donde se

requieren de gran cantidad de muestras para representar a las señales. Sin embargo, muchas

veces el contenido de información de dichas muestras podría ser intrínsecamente bastante

menor.

En general, la compresión se aplica a las señales ya muestreadas de manera inmediata para poder

ser transmitidas y almacenadas. Si una señal puede ser comprimida, entonces significa que su

contenido de información es menor a la dimensionalidad de los datos adquiridos. Pero, ¿por qué

no se podrían comprimir las señales durante el mismo proceso de transducción y adquisición de

las mismas? Esto se conoce como Compressed Sensing (CS) [12] [13] [16] [19], el cual es un método

que estima como algunas señales pueden ser recuperadas desde lo que anteriormente se creía

eran mediciones incompletas, asegurando que es posible hacerlo mediante una menor cantidad

de muestras o mediciones que los métodos tradicionales, permitiendo una gran reducción en los

costos de medición de las señales detectadas. Se basa en el principio de que algunas señales, o

clases de señales, pueden representarse por un pequeño número de componentes en alguna

base, y por lo tanto pueden ser comprimidas al momento de la adquisición. La idea fundamental

sobre CS es que en lugar de primero muestrear a una tasa alta y luego comprimir los datos, es

posible generar una manera de obtener (muestrear) los datos de forma comprimida. Este método

ha tenido gran impacto en algunas aplicaciones como por ejemplo imagenología médica, redes

de sensores inalámbricos, sistemas de adquisición de datos, etc.

En el caso particular de los sistemas ópticos de imagen, como las cámaras, CS ha permitido la

creación de sistemas de adquisición comprimida como por ejemplo la Single Pixel Camera (SPC)

[17][24][27], una cámara construida de manera simple, pequeña y de bajo costo que busca realizar

mediciones bajo la proyección de patrones aleatorios sobre una escena objetivo usando un

elemento único de detección (“single pixel”), midiendo la escena con una cantidad menor de

mediciones en comparación a su tamaño en pixeles. El problema de la SPC es que trabaja de

manera secuencial para hacer uso de su único detector, lo cual se traduce en poca eficiencia en el

tiempo. Si bien esto es sumamente útil en el caso donde los detectores son extremadamente

caros, en muchas modalidades de detección se encuentran disponibles al menos arreglos de

detectores, aunque sean de baja resolución.

En este trabajo, se propone un sistema de captura y compresión óptica de imágenes equivalente

al de la SPC, pero capturando de manera simultánea todas las muestras requeridas en un detector

de baja resolución. Esto es posible debido a la existencia de un sistema como el 4f [26] [34] que

permite realizar filtros o modificaciones de fase en el plano de Fourier. La clave del sistema es que

cada detector ve distintas combinaciones lineales de partes de la escena, si bien en esta

oportunidad no pueden ser completamente aleatorias como en el caso de la SPC.

Introducción

4

Objetivos generales

Desarrollar una cámara que capture imágenes comprimidas usando modulación de

frente de onda.

Objetivos especificos

Estudiar algoritmos de Compressed Sensing.

Estudiar y caracterizar espejos deformables y detectores CMOS/CCD.

Simular el funcionamiento de la cámara.

Demostrar funcionamiento de la cámara mediante montaje y optimización de set up.

5

1 Antecedentes generales y propuesta Este documento tiene como finalidad presentar el trabajo realizado para el proyecto de título

“Sistema óptico de compresión de imágenes basado en espejos deformables”. Se introducen los

fundamentos en los cuales se basa el proyecto, como también la problemática existente y que dio

origen a la solución propuesta. El trabajo incluye simulaciones y experimentos que corroboran la

propuesta. En este capítulo se da a conocer la teoría de Compressed Sensing y cada una de las

partes que la conforman, como también la presentación de la “Single Pixel Camera”.

1.1 Compressed Sensing.

Señales, imágenes y otras formas de datos generalmente tienen algún tipo de estructura que

permite una representación y procesamiento de esta información de manera inteligente. La

forma en que habitualmente es muestreada esta información es mediante el teorema de

Shannon, el cual indica que la tasa de muestreo debe ser de al menos dos veces la máxima

frecuencia presente en la señal, lo que se conoce comúnmente como tasa de muestreo de Nyquist

[8].

Compressed Sensing (CS) [12] [13] [16] [19], también conocido como Compressive Sensing,

Compressive Sampling o Sparse Recovery, entrega un nuevo acercamiento a la adquisición de

señales. Se presenta en base al hecho de que muchas señales poseen una representación “sparse”

(ralo) en términos de alguna base, es decir, pueden ser representadas por un pequeño número de

coeficientes distintos de cero, por lo que pueden ser medidas y recuperadas en una cantidad

menor de muestras. Este mismo principio es la idea bajo algunas técnicas de compresión como

JPEG, MP3, etc.

El problema principal que resuelve CS es la forma en que se realiza el muestreo, es decir, debido

a que al momento de adquirir una señal los procesos implicados pueden requerir mucho tiempo,

ser costosos o difíciles de realizar recayendo en un desperdicio de recursos, por lo que el uso de

CS podría mejorar estos parámetros. De aquí nace la pregunta ¿existe una forma inteligente de

obtener una versión comprimida de la señal directamente tomando solamente un pequeño

número de muestras?

1 Antecedentes generales y propuesta

6

Raleza e incoherencia

Para responder la pregunta anterior es necesario centrarse en dos aspectos importantes: sparsity

(raleza) e incoherencia. La raleza explota la idea de que muchas señales son sparse o compresibles

en el sentido de que tienen representaciones concisas en una base adecuada, es decir, poseen

formas de ser interpretadas donde la información realmente importante se expresa en pocos

componentes, un ejemplo de esto se puede observar en la Figura 1-1. La coherencia expresa la

mayor correlación entre dos elementos de dos bases distintas, si estas últimas contienen

elementos correlativos la coherencia es grande, de lo contrario es pequeña. CS busca que esta

coherencia sea pequeña, es decir, la mayor incoherencia entre un par de elementos de las bases

de las señales de interés y muestreo.

Figura 1-1 (a) Imagen original con pixeles en rango [0,255]. (b) Sus coeficientes de transformada wavelet, unas cuantas wavelets capturan la mayor parte de la energía de la señal. (c) Reconstrucción obtenida mediante el descarte de los coeficientes wavelets más pe pequeños. (Fuente: [12])

CS se centra en señales discretas debido a que son conceptualmente simples y su teoría está mejor

desarrollada, interesándose únicamente en situaciones de bajo muestreo donde el número de

mediciones (m) es más pequeño que la dimensión (n) de la señal.

La información de una señal x es obtenida como en la ecuación (1-1)

𝑦𝑘 = ⟨𝑥, φ𝑘

⟩ (1-1)

Es decir, se relaciona la señal x que se quiere adquirir con las formas de onda 𝜑k, y puede tener

distintas formas (información de una imagen, vector de coeficientes de Fourier, etc) dependiendo

del tipo de información que se está adquiriendo.

Debido a que no se tiene conocimiento previo sobre la cantidad, posición o tamaño de los

coeficientes, obtener directamente una versión comprimida de una señal x tomando una

pequeña cantidad de mediciones lineales y no-adaptivas parece una tarea difícil, sin embargo, CS


7

permite este tipo de muestreo, para posteriormente realizar una reconstrucción incluso mediante

algoritmos eficientes de recuperación.

Muestreo de la señal

Idealmente se desea medir todos los coeficientes (n) de x como muestra la Figura 1-2 lo que es

equivalente a multiplicar la señal por una matriz identidad. Como las señales ralas existen en un

subespacio de la dimensionalidad de la señal, el mayor interés recae en el caso de submuestreo

m<<n.

Figura 1-2 Muestreo total usando matriz identidad

Tomar una cantidad m de mediciones de la señal x de tamaño n corresponde a aplicar una matriz

H (matriz de medición) de tamaño mxn como indica la ecuación (1-2).

𝑦 = 𝐻𝑥 (1-2)

La matriz H es aleatoria, como indica la Figura 1-3, lo que implica que sea incoherente con

cualquier base, esto es muy bueno para la detección debido a que mientras más incoherente es la

matriz H menos muestras se deben tomar. El vector y de tamaño m es llamado el vector de

medición. Al no tener mayor información, es imposible recuperar x desde y a través del sistema

lineal (1-2) ya que el tamaño de las mediciones m es menor a la dimensión n de la señal x (m<n)

debido a que existen infinitos candidatos para resolverlo. No obstante, si se asume que el vector

x es k-sparse la situación cambia.


8

Figura 1-3 Muestreo con matriz aleatoria

Recuperación de la señal

El acercamiento para un proceso de recuperación que probablemente se viene primero a la mente

es buscar el vector x más ralo que sea consistente con el vector de medición y = Hx. Esto lleva a

resolver el problema de minimización l0 (1-3)

𝑚𝑖𝑛‖𝑥‖0 𝑠𝑢𝑗𝑒𝑡𝑜 𝑎 𝐻𝑥 = 𝑦 (1-3)

Desafortunadamente, este problema combinacional de minimización es demasiado complejo, y

se cree que es NP-hard (conjunto de problemas de decisión en teoría de complejidad

computacional, que en este caso se dice es tan difícil de resolver que el problema NP más difícil

de resolver). En otras palabras, un algoritmo que resuelve (1-3) para cualquier matriz H y

cualquier y es prácticamente intratable. Por lo tanto, se han propuesto alternativas para (1-3)

donde una de ellas consiste en la minimización l1 (también llamada búsqueda de base) la cual ha

tenido buenos resultados, lo que provee de condiciones para la matriz H sobre la raleza en ‖𝑥‖0 de

manera que la solución recuperada coincida con la original y consecuentemente con (1-3).

La minimización l1 considera la solución de (1-4)

𝑚𝑖𝑛‖𝑥‖1 𝑠𝑢𝑗𝑒𝑡𝑜 𝑎 𝐻𝑥 = 𝑦 (1-4)

Este problema es más abordable y puede ser resuelto con técnicas de programación lineal

tradicionales. Se espera que la solución de (1-4) coincida con la solución de (1-3) y el vector ralo

x original. La Figura 1-4 proporciona una explicación intuitiva de porqué la minimización l1

promueve soluciones ralas. Aquí se tiene que n = 2 y m = 1, tratándose de una línea de soluciones

F(y) = {x : Hx = y}. Excepto por la situación donde H es paralelo a una de las caras del polígono,

existe una única solución para el problema de minimización l1, que tiene una mínima raleza, una

sola entrada distinta de cero.


9

Figura 1-4 Solución al promblema de minimización l1

Cabe destacar que no se sufre de perdida de información por medir m<n coeficientes (menores

al tamaño de la señal). La señal puede ser exactamente recuperada mediante la minimización, la

cual no conoce el número de coordenadas distintas a cero, su ubicación o su amplitud, en general

se asume desconocida. El número de muestras m mínimo no es estricto, pero debe ser de al

menos (1-5)

𝑚 ≥ 𝑆(𝑘𝑙𝑜𝑔𝑛

𝑘) = 4 (1-5)

Debido a que con menor cantidad de mediciones la probabilidad de perdida de información es

alta y la reconstrucción se hace casi imposible.

El problema de minimización l1 recibe importante atención en la literatura de estadística

regresiva, conocido como LASSO (Least Absolute Shrinkage and Selection Operator). Este método

realiza tanto la selección de variable y regularización para mejorar la precisión de la predicción y

la interpretabilidad del modelo estadístico que produce.

Puede ser presentado en su forma Lagragiana (1-6)

𝑚𝑖𝑛⏟𝑥

{1

𝑁‖𝑦 − H𝑥‖2

2 + 𝜆‖𝑥‖1} (1-6)

Donde λ es un parámetro de regularización positivo entre 0 y 1, N el número de casos, y la señal

comprimida, H la matriz aleatoria y x la señal a recuperar.

1.2 Single Pixel Camera

Las cámaras digitales utilizan sensores de imagen que consisten en millones de sensores de luz.

Una vez presionado el disparador, la luz se mide en cada pixel por separado, pero

simultáneamente durante cierto tiempo para lograr capturar la imagen digital (ver Figura 1-5 A).

En una Single Pixel Camera [17] [24] [27], en cambio, se enfoca la luz en un solo pixel como se ve

en la Figura 1-5 B. Se basa en los principios de CS, buscando ser construida de manera simple,


10

pequeña y más barata que pueda operar eficientemente a través de un rango espectral mucho

más amplio que las cámaras convencionales basadas en silicio.

(a) (b)

Figura 1-5 Esquema de captura convencional (a) y compressed sensing (b) (Fuente: extremetech.com)

Esta cámara (ver Figura 1-6) adquiere directamente proyecciones aleatorias de una escena. La

diferencia que se marca al utilizar solo un píxel es el controlar qué partes de la luz entrante se

dejan pasar al sensor. Emplea un arreglo de micro-espejos digitales (DMD) para calcular

ópticamente las proyecciones lineales de la escena en patrones pseudo aleatorios. Su

característica principal es la capacidad que posee para obtener una imagen o video con un único

elemento de detección (“single pixel”) mientras que mide la escena usando una cantidad menor

de mediciones que su número de pixeles.

Figura 1-6 Diseño de una single pixel camera (Fuente: Grupo SPC Universidad Rice)

Arquitectura de una SPC

La Single Pixel Camera combina un arreglo de espejos micro-controlados que exhiben una

secuencia de patrones pseudo aleatorios en el tiempo con un único sensor óptico que realiza

mediciones incoherentes de una imagen. Mide secuencialmente el producto interno 𝑦[𝑚] =

⟨𝑥, 𝐻𝑚⟩ entre una versión de n-pixeles de x y un conjunto de funciones de prueba bidimensionales

[Hm].


11

Como se observa en la Figura 1-7, un haz de luz ilumina la imagen objetivo, la cual es formada

mediante la ayuda de un lente biconvexo (lente 1) en la superficie de un DMD. El DMD (ver Figura

1-8) consiste en un arreglo de micro espejos para el cual cada uno corresponde a un pixel

particular en x, quienes se mueven como una bisagra y pueden ser posicionados en uno de sus

dos estados (+12° y -12° en la horizontal). Cada espejo puede ser orientado independientemente

hacia el lente 2 o no, correspondiendo a un 1 o 0 en ese pixel en el vector Hm.

La luz reflejada es recolectada por el lente biconvexo 2 y enfocada en un único detector de fotones

(single pixel) que integra el producto Hm[n]x[n] y calcula la medición 𝑦[𝑚] = ⟨𝑥, 𝐻𝑚⟩ como su

voltaje de salida, el cual es digitalizado por un ADC.

El diseño single pixel puede reducir el tamaño requerido, la complejidad y el costo una cámara,

permitiendo el uso de detectores que serían imposibles en una cámara digital convencional.

Figura 1-7 Vista aérea de la single pixel camera (Fuente: Grupo SPC Universidad Rice)

Figura 1-8 Digital micromirror device (Fuente: proyectoidis.org)


12

Emulación de Single Pixel Camera

Con la finalidad de comprobar el funcionamiento de una Single Pixel Camera se realizó un

sistema que la simula, además estos datos aportarán a una futura comparación con el sistema

propuesto. Las Figuras 1-9, 1-10 y 1-11 muestran el setup armado en el laboratorio. Un programa

realizado en Matlab se encarga de generar una matriz aleatoria que es proyectada sobre una

imagen objetivo, el mismo programa se encarga de automatizar este proceso de proyección y

además realizar la captura las imágenes respectivas correspondientes a un número M de

mediciones.

Figura 1-9 Setup sistema de simulación single pixel camera. A la izquierda la pantalla, esquina superior derecha el detector CMOS y en la esquina inferior derecha el proyector.


13

Figura 1-10 A la izquierda el detector CMOS y a la derecha el proyector

Figura 1-11 Sistema en funcionamiento

Para el trabajo se utilizó un proyector modelo ST200 Pico Projector de Aaxa Technologies visto en

la Figura 1-12 que posee una resolución 1280x720p HD, para proyectar el patrón deseado. Las

imágenes son captadas mediante un detector CMOS modelo Grasshopper3 2.3 MP Mono USB3

Vision (GS3-U3-23S6M-C) de Point Grey que se puede ver en la Figura 1-13.


14

Figura 1-12 ST200 Pico Projector (Fuente: Aaxa Technologies)

Figura 1-13 Grasshopper3 2.3 MP Mono USB3 Vision (Fuente: Point Grey)

El programa en Matlab controla en primer lugar al proyector para que este sitúe el patrón de la

matriz aleatoria (Figura 1-14) sobre la imagen objetivo, y en segundo lugar al detector para realizar

la captura de imágenes, estableciendo de forma manual los parámetros necesarios como

exposición, ganancia, brillo. Al mismo tiempo, el programa se encarga de guardar cada una de

las mediciones en un arreglo para posteriormente realizar el proceso de reconstrucción. Como en

una Single Pixel Camera, cada medición obtenida debe ser guardada como un único valor lo que

se logra al integrar la imagen, de esta forma una medición corresponde a simular un solo pixel.

Figura 1-14 Matriz aleatoria

Una vez capturadas todas las mediciones se realiza la reconstrucción también en Matlab, para

esto es usado el algoritmo LASSO explicado anteriormente. En este caso se debe buscar mediante


15

inspección el parámetro λ óptimo que otorgue la mejor reconstrucción, aunque este valor

generalmente ronda entre 0 y 0.1.

Durante el tiempo de experimentación se realizaron distintas pruebas para lograr un resultado

coherente. Muchos parámetros fueron variados, estudiándose la influencia en la reconstrucción

final. Cabe destacar que las mediciones fueron hechas con el mínimo de iluminación ambiental

posible.

En primer lugar, se realizó la prueba de reconstruir dos puntos obteniendo el resultado de la

Figura 1-15. Al obtener este resultado se decidió aumentar el número de puntos, siguiendo con

tres como en la Figura 1-16 hasta finalmente llegar a cuatro puntos reconstruidos (Figura 1-17).

Cabe destacar que para estas pruebas se usó un número de muestras de tamaño 100 y un tamaño

de matriz aleatoria de 30x30 pixeles.

(a) (b)

Figura 1-15 (a) Objetivo de 2 puntos y (b) reconstrucción

(a) (b)



16

(a) (b)


A medida que aumenta la cantidad de puntos a detectar el sistema tiende a confundir ciertos

componentes generando un leve ruido. Para atenuar el riesgo de que esto ocurra es posible

reducir la cantidad de pixeles de la matriz aleatoria y aumentar su tamaño, así los pixeles de la

imagen objetivo cabrán dentro.

La Figura 1-18 muestra la reconstrucción de una imagen que contiene 9 puntos, aquí se redujo la

cantidad de pixeles de la matriz aleatoria de 30x30 a 15x15 y aumentó el tamaño de estos.

(a) (b)


Es necesario mencionar que a medida que el valor de λ aumenta se reduce el número de

componentes negativos (errores) pero esto de cierta manera afecta la recuperación de otros

componentes, es por eso que se observan componentes negros (negativos).

Posteriormente fueron realizadas pruebas de reconstrucción de objetivos más complejos, por

ejemplo, letras, figuras, paisajes, etc. Así es como para una prueba de reconstruir una letra fue

usada la letra R obteniendo el resultado de la figura 1-19, aunque la reconstrucción no es perfecta

es posible distinguir la letra R en ella considerándose un resultado satisfactorio.


17

(a) (b)

Figura 1-19 (a) Objetivo letra R y (b) reconstrucción

En cambio, al elegir por ejemplo caricaturas como Bugs Bunny (Figura 1-20) y Bart Simpson

(Figura 1-21) la reconstrucción es un poco más compleja, de todas maneras, lo producido es

favorable.

(a) (b)

Figura 1-20 (a) Objetivo Bugs Bunny y (b) reconstrucción

(a) (b)

Figura 1-21 (a) Objetivo Bart Simpson y (b) reconstrucción

Cabe destacar que una mejor reconstrucción es posible al realizar una cantidad mayor de

mediciones, pero esto ya recaería en el no cumplimiento de la teoría de CS.


18

1.3 Problemática

Single Pixel Camera es un buen ejemplo de implementación de Compressed Sensing, ya que

permite obtener una imagen comprimida en base a una cantidad de mediciones menor al tamaño

de la imagen original. Aun así, la cantidad de mediciones necesarias para comprimir una imagen

es bastante alta lo que se traduce en un uso mayor de recursos.

1.4 Solución propuesta

Se propone realizar mediciones similares a la Single Pixel Camera, pero de manera simultánea,

reduciendo de manera considerable el gasto de recursos como, por ejemplo, el tiempo necesario

para realizar la compresión.

La existencia de una configuración como el sistema 4f abre la puerta para realizar modificaciones

que permitan lograr el objetivo, mediante la codificación (en fase) en el plano de Fourier de las

imágenes. Así, y al usar un arreglo de detectores (como un CCD) de baja resolución, se puede

conseguir diferentes mediciones con una variedad de proyecciones sobre cada pixel por medio

de la modificación de la Point Spread Function (PSF) del sistema óptico, logrando en una sola

toma la compresión de la imagen objetivo.

19

2 Solución y marco teórico La solución propuesta basada en Compressed Sensing (CS), específicamente en la Single Pixel

Camera (SPC), desea mejorar lo hecho por esta última de manera tal que sea posible realizar

compresión de imágenes reduciendo la cantidad mediciones en este caso simultaneas.

En este capítulo se presenta el detalle de la solución propuesta, una explicación precisa de cómo

se realizará, con sus métodos, teorías y algoritmo.

2.1 Solución propuesta

Se plantea realizar el número de mediciones necesarias para comprimir una imagen en una sola

toma. En general, la SPC desarrolla este tipo de compresión mediante la realización de muchas

tomas secuenciales que se hacen al número de piexeles de la imagen

Pero, ¿Cómo es posible tomar las mediciones en paralelo? El sistema óptico de compresión de

imágenes que se propone busca aprovechar las características de la óptica de Fourier [4] [26] para

efectuar codificaciones en fase de la imagen. Mediante una configuración óptica 4f es posible

realizar filtrado en el plano de Fourier, lo que se traduce en mediciones “pseudoaleatorias” que

son posibles de capturar en una sola toma.

2.2 Marco teórico

Para entender cómo se desarrollará este proceso es imprescindible conocer las principales

temáticas que dan origen a la solución propuesta.

Optica de Fourier

La óptica de Fourier [4] [26] básicamente considera un haz de luz en un plano del espacio como

una distribución de luz, pero también como una distribución de luz sobre el plano transformado

de Fourier, donde cada punto corresponde no a un lugar en el espacio sino a una frecuencia

espacial. De este modo las frecuencias espaciales caracterizan la variación de distribución de la

luz sobre la superficie y toman el valor del número de ondas.

La principal ventaja de este enfoque es la equivalencia entre las operaciones de transferencia de

un sistema en el dominio del espacio o en el de las frecuencias espaciales. La convergencia de

2 Solución y marco teórico

20

ambas funciones (la de distribución de la luz y la de transferencia del sistema) en el dominio del

espacio resulta en un simple producto de las transformadas de Fourier [4] en el dominio de las

frecuencias espaciales.

De este modo, obteniendo la función de transferencia y la correspondiente transformada de

Fourier para cada sistema óptico se simplifica enormemente el problema de la propagación de la

luz en el espacio, obteniendo así una importante herramienta para el tratamiento espacial de

situaciones complejas aprovechando todo el desarrollo de la teoría de la transformada de Fourier

en otros ámbitos de la ciencia.

Su aplicación más directa es el filtrado espacial de imágenes, en el que mediante operaciones

sencillas sobre el plano transformado (aquel en el que aparece la transformada de Fourier de

distribución de la luz y que se puede obtener físicamente por ejemplo con una lente) permite

manipular la luz, por ejemplo, suprimiendo las frecuencias espaciales del plano transformado

para obtener modificaciones sobre la imagen. Si se suprime por ejemplo la frecuencia cero, que

aparece en el centro del plano transformado se elimina la luz de fondo, mientras que si se

eliminan las frecuencias altas se suavizan las formas de los objetos.

Sistema óptico 4f

El sistema óptico 4f [26] [34] que se observa en la figura 2-1 posee dos lentes, la primera generará

una transformada de Fourier bidimensional de un objeto iluminado (señal óptica)

coherentemente sobre el plano π1 (el plano en el que se formaría la imagen de la fuente),

denominado plano de Fourier. En el caso particular de que este objeto sea iluminado con luz

colimada (de rayos paralelos, es decir, la fuente de iluminación está situada en el infinito) este

plano es el plano focal de imagen de dicha lente.

Este espectro de difracción actuará como objeto para la segunda lente, la cual generará la

transformada inversa de Fourier de la anterior transformada.

Así es como esta configuración permite la posibilidad de realizar un filtrado espacial en

frecuencia, proceso en el cual mediante la inserción de máscaras o filtros en el plano de Fourier

es posible evitar que ciertas frecuencias lleguen al plano imagen.

Figura 2-1 Configuración 4f [34]


21

Polinomios de Zernike

Las aberraciones del frente de onda se pueden representar matemáticamente, ya sea como

coordenadas cartesianas (suma de monomios de Taylor) como también mediante polinomios en

coordenadas polares (polinomios de Zernike [23]). Estas últimas son mayormente usadas debido

a que las pupilas del ojo humano son circulares, siendo más natural representarlas en

coordenadas polares.

Reciben su nombre del físico óptico Frits Zernike, ganador del Premio Nobel de Física en 1953 e

inventor del microscopio de contraste de fase.

Existen variadas definiciones de los polinomios de Zernike, pero en este caso se usará la

convención de Noll. En esta convención los polinomios se definen como

𝑍𝑛𝑚(𝑟, 𝜃) = √2(𝑛 + 1)𝑅𝑛

𝑚(𝑟)𝐺𝑚(𝜃) (2-1)

Donde m y n son constantes no-negativas, y m ≤ n. Sin embargo, es conveniente escribir 𝑍𝑛𝑚(𝑟, 𝜃)

mediante un solo índice

𝑍𝑖(𝑟, 𝜃) = {

√2(𝑛 + 1)𝑅𝑛𝑚(𝑟)𝐺𝑚(𝜃) 𝑚 ≠ 0

𝑅𝑛0(𝑟) 𝑚 = 0

(2-2)

Los factores radial y azimutal 𝑅𝑛𝑚(𝑟) y 𝐺𝑚(𝜃) están dados por

𝑅𝑛𝑚(𝑟) = ∑

(−1)𝑠(𝑛 − 𝑠)!

𝑠! (𝑛 + 𝑚

2− 𝑠) ! (

𝑛 − 𝑚2

− 𝑠) ! 𝑟𝑛−2𝑠

𝑛−𝑚2

𝑠=0

𝐺𝑚(𝜃) = {sin (𝑚𝜃), 𝑖 𝑝𝑎𝑟

cos(𝑚𝜃) , 𝑖 𝑖𝑚𝑝𝑎𝑟

(2-3)

De esta forma, los 21 primeros polinomios de Zernike se presentan en la tabla 2-1 y se pueden

observar en la figura 2-2.


22

Tabla 2-1 Primeros 21 polinomios Zernike

n m i 𝑍𝑛𝑚(𝑟, 𝜃) Nombre

0 0 1 1 Piston

1 1 2 2𝑟𝑐𝑜𝑠𝜃 X tilt

1 1 3 2𝑟𝑠𝑖𝑛𝜃 Y tilt

2 0 4 √3(2𝑟2 − 1) Desenfoque

2 2 5 √6𝑟2sin (2𝜃) Astigmatismo primario y

2 2 6 √6𝑟2cos (2𝜃) Astigmatismo primario x

3 1 7 √8(3𝑟3 − 2r)sin𝜃 Coma primaria y

3 1 8 √8(3𝑟3 − 2r)cos𝜃 Coma primaria x

3 3 9 √8𝑟3sin (3𝜃) Trefoil y

3 3 10 √8𝑟3cos (3𝜃) Trefoil x

4 0 11 √5(6𝑟4 − 6𝑟2 + 1) Esferico primario

4 2 12 √10(4𝑟4 − 3r2)cos (2𝜃) Astigmatismo secundario x

4 2 13 √10(4𝑟4 − 3r2)sin (2𝜃) Astigmatismo secundario y

4 4 14 √10𝑟4cos (4𝜃) Tetrafoil x

4 4 15 √10𝑟4 sin(4𝜃) Tetrafoil y

5 1 16 √12(10𝑟5 − 12r3 + 3)cos𝜃 Coma secundario x

5 1 17 √12(10𝑟5 − 12r3 + 3)sin𝜃 Coma secundario y

5 3 18 √12(5𝑟5 − 4r3)cos (3𝜃) Trefoil secundario x

5 3 19 √12(5𝑟5 − 4r3)sin (3𝜃) Trefoil secundario y

5 5 20 √12𝑟5 cos(5𝜃) Pentafoil x

5 5 21 √12𝑟5 sin(5𝜃) Pentafoil y


23

Figura 2-2 Polinomios de Zernike (Fuente: Wikipedia.com)

2.3 Algoritmo del sistema propuesto

A través del diagrama de bloques de la figura 2-3 se presenta el algoritmo de funcionamiento del

sistema óptico.

Figura 2-3 Algoritmo de funcionamiento del sistema

En la entrada se encuentra la imagen que se desea comprimir, a la cual se le es aplicada la

transformada de Fourier espacial mediante un primer lente. De esta forma, es posible realizar el

filtrado mediante un espejo deformable. Este espejo genera una aberración óptica que codificará

la fase de la imagen. Luego, a través de un segundo lente se origina la transformada espacial

inversa de Fourier que es proyectada en un detector quien comprime la imagen dependiendo de

la resolución deseada (siempre menor al tamaño real de la imagen).

Imagen de entrada

Modificación de fase (Espejo Deformable)

Compresión (Detector)

Imagen de salida

Transformada de Fourier (Lente 1)

Transformada inversa de

Fourier(Lente 2)


24

2.4 Dispositivos

Para la realización del proyecto se cuenta con dos dispositivos que son prioritarios, en primer

lugar, un detector que sea capaz de capturar la imagen y transformar la luz en una señal eléctrica

posible de procesar por medio de una computadora. El otro dispositivo importante es el espejo

deformable, quien se encargará de modificar la fase de la imagen en el plano de Fourier utilizando

aberraciones ópticas.

Detector

Construidos para detectar imágenes en forma digital, tienen como objetivo principal captar luz

para obtener una imagen digital, de manera que usando el efecto fotoeléctrico [15] la primera es

convertida en una carga eléctrica que luego será procesada como una señal electrónica.

Existen dos tipos de sensores detectores de imágenes, uno es el Dispositivo de Carga Acoplada

[10] [15] [18] [20] (CCD por su nombre en inglés Charge Coupled Device) quien capta la luz en un

pixel y la transforma en una carga que es transportada a través de un nodo de salida donde se

convierte en voltaje que es almacenado y enviado fuera del chip como una señal análoga. Por otro

lado, está el Sensor de Pixel Activo [10] [20] [23] (APS por su nombre en inglés Active Pixel Sensor)

más conocido como detector CMOS (de su nombre en inglés Complementary Metal Oxide

Semiconductor), en el cual cada pixel tiene su propio conversor de carga a voltaje que es enviada

fuera del chip como una señal digital. La figura 2-4 muestra estos sensores.

Figura 2-4 Detectores CMOS y CCD (Fuente:)

Un CCD tiene una estructura de grilla donde cada celda es un pixel que captura la luz mediante

fotodiodos y la almacena como carga en un capacitor MOS. Posee un área expuesta a la luz que

contiene el registro paralelo donde la carga se transmite de forma vertical, y un área oculta de la

luz llamado registro serial. En el exterior del sensor se encuentra un sistema de almacenamiento,

amplificación y conversión análoga-digital para la señal.

El proceso de funcionamiento de un sensor CCD se realiza en 4 pasos: generación, recolección,

transferencia y finalmente detección de carga, la figura 2-5 muestra este procedimiento.

La generación de carga se produce mediante el efecto fotoeléctrico, en el cual un fotón impacta

sobre la superficie del material produciendo movimiento de los electrones en ella, dando origen


25

a una corriente eléctrica que es almacenada como carga en un capacitor en la celda

correspondiente. Dicha carga se mueve como en una especie de brigada que apaga incendios, en

la cual el agua (carga) es transportada en baldes que pasan de mano en mano (pixeles) en una

cadena hasta llegar a su destino.

Se tiene una celda para generar una carga inicial en respuesta al estímulo externo, quien recolecta

la carga por medio de un principio llamado potential well [15] en el cual, durante la integración

de la imagen, uno de los electrones en cada pixel es sostenido en un potencial positivo siendo

aquí donde los fotoelectrones se acumulan. Los electrodos vecinos con sus bajos potenciales

actúan como barreras de potencial que definen los límites verticales del pixel y los límites

horizontales son definidos por las detenciones de canal. Por lo tanto, los fotones captados crean

pares electrón-hueco siendo los electrones atraídos hacia el potencial más positivo en el

dispositivo donde crean “paquetes de carga” la cual es mantenida por un tiempo sin producir

perdida y luego es enviada a otra celda que realiza el mismo proceso.

La transferencia de carga funciona mediante el uso de pulsos de reloj sincronizados en tres fases

distintas por pixel, de manera que el pulso viaja entre -5V y +5V. Este método llamado registro

serial de 3 fases, indicado en la figura 2-6, funciona como sigue: en cada pixel la fase 1 está en alto

encontrándose la carga en su posición inicial; posteriormente las fases 1 y 2 se encuentran en alto

siendo la carga transferida desde la fase 1 a la fase 2, en este instante la carga está entre las dos

fases hasta que la fase 2 sea la única en alto, traspasando completamente la carga. El proceso se

repite de forma análoga para traspasar la carga desde la fase 2 a 3, 3 a 1, etc.

Finalmente ocurre la detección de la carga, que luego es llevada por el registro serial hasta un

capacitor fuera del sensor para almacenar la carga, amplificarla y transformarla en una señal

digital.

Figura 2-5 Funcionamiento sensor CCD


26

Figura 2-6 Transferencia de carga

Por otro lado, los detectores CMOS básicamente son parecidos con CCD (mismo principio de

efecto fotoeléctrico) diferenciándose en algunos aspectos. Su proceso de lectura es individual,

convierte la señal de la carga en voltaje en cada pixel (a diferencia de CCD) y envía el voltaje de

salida cuando es seleccionado desde su fila y columna correspondiente a un bus [6] (sistema de

transferencia de datos), debido a esto su funcionamiento es más rápido. Poseen un amplificador

por pixel en deterioro del factor de llenado (fill factor) (relación entre el área sensible a la luz de

un pixel y su área total) además de un capacitor, circuitos de corrección de ruido y digitalización,

quienes también aportan a un bajo factor de llenado.

Casi todos los diseños de CMOS hoy en día usan “pixeles activos”, que ponen un amplificador en

cada pixel, típicamente construido por tres transistores (conocido como pixel 3T). Otros más

complejos incluyen más transistores (4T y 5T) para añadir más funcionalidades como reducción

de ruido y/o shuttering. Una estructura más simple posee mejor factor de llenado, mientras que

una estructura más compleja tiene mejor funcionalidad. Los amplificadores en pixel aumentan la

señal, pero los transistores con que están hechos son ópticamente insensibles, lo que reduce el

factor de llenado, por lo que se agregan micro lentes para aumentar efectivamente este factor.

Puede observarse el funcionamiento del sensor en la figura 2-7.


27

Figura 2-7 Funcionamiento sensor CMOS

Al ser ambos sensores basados en la tecnología MOS y usar ventajas del efecto fotoeléctrico,

poseen muchas características comunes por lo que es necesario hacer algunas comparaciones.

En un principio, durante los 80s y 90s (incluso hoy) CCD fue un sensor dominante debido a que

otorga imágenes de calidad superior con la tecnología disponible. Pero no fue hasta finales de los

90s que CMOS se convirtió en una alternativa debido a su bajo consumo de energía, integración

de cámara en un chip y bajos costos de fabricación.

Destaca la alta velocidad de CMOS sobre CCD debido a la arquitectura y forma de captar la

imagen, mientras el primero tiene lectura de pixel individual el segundo realiza lectura de varios

pixeles.

Los costos de producción de CCD son elevados debido a que se realiza en plantas y procesos de

producción especializados, mientras que CMOS se produce bajo una línea de producción de

silicio estándar.

En astronomía, rayos x, TV o fotografía profesional se requieren sensores de imagen de gran

tamaño. En este sentido, existen sensores CCD que soportan estos formatos, pero son muy caros

y difícil de producir sobre todo al necesitar niveles de defectos bajos para obtener imágenes de

gran calidad. Aquí CMOS toma ventaja debido a sus avances en la tasa de refresco (fps).

La eficiencia cuántica (QE) (capacidad de convertir un fotón en electrón) y el factor de llenado

(FF) son medidas importantes de eficiencia para los sensores. En este punto CCD posee mejores

resultados debido a que en un pixel solo tiene un capacitor MOS, mientras que CMOS posee

múltiples componentes que reducen el área sensible.


28

Finalmente, al poseer un periodo largo de producción CCD es una tecnología más madura y

entrega mejor calidad. Por otro lado, para CMOS la tecnología para producir alta calidad de

imagen ha resultado más difícil.

Espejo deformable

Son espejos cuya superficie puede ser moldeada por medio de algún mecanismo activo (actuador

piezoeléctrico, electrodos, etc). Tienen como propósito corregir las aberraciones de orden

superior que afectan al frente de onda.

Existen dos tipos de espejos deformables [14] [21] [25] uno de capa continua y otro segmentado.

El primero, como su nombre lo dice, es un espejo continuo, y el grosor de la capa debe ser lo

suficientemente grande para mantenerse plana durante el pulido, pero suficientemente delgada

para poder desviarse cuando es empujada o jalada por los actuadores [21] [25] quienes deben ser

rígidos para no doblarse. Por otro lado, los espejos deformables segmentados están compuestos

de varios espejos planos independientes que pueden moverse junto a su actuador en movimiento

de pistón (arriba y abajo) o en pistón tip-tilt (3 grados de libertad) que mejoran el rendimiento de

estos espejos, siendo los bordes afilados y espacios vacíos entre los segmentos quienes

contribuyen a la dispersión de la luz limitando las aplicaciones.Poseen distintas tecnologías como

lo son bimorfos, arreglo apilado, actuador de bobina de voz, y sistema micro electromecánico.

Un espejo deformable bimorfo [21] (basado en el efecto piezoeléctrico transverso [21]) es una

placa circular delgada que consiste en dos capas piezoeléctricas unidas que están polarizadas de

manera opuesta. Se deposita un patrón de electrodos en una capa que se une a otra igual,

agregando conexión a tierra en ambos lados del “sándwich”, además cada capa tiene una

superficie óptica siendo la superior que actúa como un espejo como se indica en la figura 2-8.

Cuando se aplica un voltaje a un electrodo, se crea localmente un campo eléctrico que a su vez

produce una elongación transversal en una capa mientras la otra presenta una contracción. Esto

da origen a una curvatura debido al efecto bimorfo, que al aplicar un conjunto de voltajes es

posible controlar la forma de la superficie óptica.

Figura 2-8 Espejo deformable bimorfo (Fuente: CILAS)

Su curvatura depende de la variación del grosor de la capa debido al efecto piezoeléctrico.


29

El espejo bimorfo debe ser soportado por tres puntos para evitar introducir limitaciones y

degradar sus capacidades de deformación. Su diámetro debe ser lo suficientemente pequeño para

evitar frecuencias de resonancia en la óptica adaptativa.

Posee algunas desventajas como alto voltaje de conducción que requieren soportes electrónicos

voluminosos (racks), frecuencia de resonancia baja y un número pequeño de actuadores (200 a

300). Algunas de sus ventajas son que posee alta fiabilidad, un stroke (desplazamiento máximo

del actuador) largo, excelente precisión, tiempos de espera razonables y costo moderado.

Un espejo deformable de arreglo apilado, es un tipo de espejo deformable que utiliza actuadores

ferro-eléctricos hechos de un arreglo de placas individuales o discos. El material puede ser

piezoeléctrico o electroestrictivo [21] [25]. Constituidos por una fina capa espejada unidos a una

matriz de actuadores apilados sobre una placa base rígida como se indica en la figura 2-9. Se usan

dos términos comunes en los espejos deformables con actuadores que son actuator pitch y

actuator stroke. La primera es la distancia entre los centros de los actuadores y la segunda el

desplazamiento máximo posible del actuador.

Figura 2-9 Espejo deformable de arreglo apilado (Fuente: CILAS)

Su funcionamiento depende del material con el cual fueron construidos los actuadores. Al aplicar

un campo eléctrico a una placa ferro-eléctrica es posible cambiar su dimensión, una elongación

en la dirección del campo eléctrico es conocida como efecto longitudinal. Para actuadores

piezoeléctricos esta elongación es proporcional al voltaje aplicado (V) como se muestra en la

ecuación (2-3) [5].

∆𝑒 = 𝑑33𝑉 (2-4)

Donde d33 es el coeficiente longitudinal piezoeléctrico, que para materiales duros es cercano a 0.3

μm/kV. Además, la elongación se amplifica como función del número de placas usadas. Como

característica de los actuadores piezoeléctricos es que son casi insensibles a las temperaturas.

Para actuadores eletroestrictivos la elongación es proporcional al cuadrado del voltaje aplicado

(V) y es inversamente proporcional al grosor de la placa presentado en la ecuación (2-4) [5].


30

∆𝑒 = 𝑎 (

𝑉2

𝑒)

(2-5)

Donde a es el coeficiente de electrostricción y e el grosor de la placa que puede ser pequeño, al

nivel de 150 [μm] produciendo actuadores muy compactos. Estos actuadores son sensibles a la

temperatura y pueden ser fabricados usando procesos similares a los capacitores multicapa

reduciendo su costo.

El inconveniente principal de esta tecnología son los altos voltajes de conducción que requieren

soportes electrónicos voluminosos y gran manojo de cables en caso de múltiples actuadores. Su

alta rigidez y confiabilidad, excelente precisión, altas frecuencias de resonancia y flexibilidad en

la geometría de los actuadores lo hacen la tecnología más atractiva para óptica adaptativa.

Un espejo deformable de actuador de bobina de voz [21] figura 2-10 (usado para construir espejos

deformables secundarios de gran tamaño), se basa en el uso de una delgada capa óptica

“flotando” en un campo magnético creado por un arreglo espeso de actuadores de bobina de voz,

lo que es posible debido a que la capa posee imanes permanentes adheridos en su cara posterior.

Los actuadores son unidos a una gruesa placa metálica que es a su vez usada para disipar el calor

generado por la bobina de voz hacia un circuito de enfriamiento. Estos pasan a través de una placa

de vidrio gruesa y estable (cuerpo de referencia) y se sitúan frente a los imanes permanentes.

Figura 2-10 Espejo deformable de actuadores de bobina de voz (Fuente: Microgate)

Cuando una corriente es enviada a través de una bobina de voz, un campo magnético es generado

y crea una fuerza que interactúa con el imán asociado creando una deformación local en la capa.

Para controlar la posición de la capa, un sensor capacitivo local sin contacto está asociado a cada

actuador y mide la distancia entre la cara posterior de la capa y la cara frontal del cuerpo de


31

referencia, teniendo una distancia promedio de 50 a 70 [μm]. Este control aumenta la rigidez de

los ejes del actuador, amortiguando las frecuencias de resonancia.

Posee un actuator pitch más bien largo, alrededor de 300 [μm], para prevenir la interacción mutua

entre los imanes vecinos.

Destaca la propiedad de actuadores sin contacto que permite, en caso de falla de un solo

actuador, que los demás actuadores alrededor tomen el control de la capa.

El proceso de fabricación es largo y riesgoso, la capa delgada y el cuerpo de referencia son piezas

delicadas y frágiles. Pero una vez en operación la seguridad de la capa se encuentra bajo control.

Es una tecnología confiable, poseen gran mantenibilidad (capacidad de reemplazar un solo

actuador), excelente precisión, estabilidad y tiempo de respuesta corta. Aunque también se

producen algunos inconvenientes como un alto consumo de energía, riegos de operación

(fragilidad de la capa), riesgos de fabricación, por lo que es una tecnología bastante compleja.

Los espejos deformables con sistema micro-electromecánico [21] basan su proceso de

fabricación en la industria tecnológica del silicio, que permite no solo reducir los costos de

fabricación y tiempos de entrega, sino también abrir el camino a muchos conceptos

electromecánicos diferentes. Muchos de estos conceptos están basados en el uso de una

membrana espejo delgada unida a un soporte intermedio flexible acomodado por campos

electrostáticos o electromagnéticos. Un espejo deformable de tipo MEMS se muestra en la figura

2-11.

Figura 2-11 Espejo deformable tipo MEMS (Fuente: Iris AO)

Dependiendo del concepto electromecánico en juego, las características internas del espejo

deformable pueden ser distintas. Por un lado, el uso de campo electrostático produce que el

desplazamiento de la membrana sea proporcional al cuadrado del voltaje aplicado y requiere de

hasta 200V para obtener 5 a 8 [μm]. En cambio, cuando se usa campo electromagnético el

desplazamiento de la superficie reflectiva es proporcional al voltaje aplicado pudiendo obtener


32

actuator strokes tan altos como 50 [μm] para ±1 [V] de voltaje de control. En ambos casos el

comportamiento mecánico del espejo deformable es insensible a temperaturas externas.

Poseen miles de actuadores lo que significa gran cantidad de cables de control, lo que aumenta el

tamaño de la superficie del espejo que a su vez aumenta el costo y tiempo de desarrollo. Esto recae

en una reducción del rendimiento del dispositivo.

Como desventajas posee un actuator pitch pequeño, un actuator stroke limitado y presencia de

una ventana óptica en frente del espejo deformable. Es necesario recalcar que no todas las

desventajas se presentan al mismo tiempo debido a que dependen del concepto electromecánico

con que fue fabricado el espejo. En cambio, posee ventajas como gran cantidad de actuadores,

confiabilidad, excelente precisión, gran estabilidad, tiempo de respuesta corta y precio razonable.

33

3 Desarrollo La realización de cualquier tipo de proyecto debe al menos tener una etapa de ensayo previa al

montaje definitivo, lo cual permita comprobar el funcionamiento esperado del sistema. Es así

como se desarrollan principalmente simulaciones, las cuales son el artificio contextual que

referencia la investigación de una hipótesis o un conjunto de hipótesis de trabajo utilizando

modelos. Una simulación debe partir por definir el sistema, estudiar el contexto del problema e

identificar los objetivos para posteriormente formular un modelo. Este modelo debe contener la

definición de todas las variables que forman el sistema como también sus relaciones lógicas y los

diagramas que describan el problema. Es importante definir con claridad los datos que se

requiere para producir los resultados esperados para de esta manera, una vez definido el modelo,

este último es implementado en el computador y finalmente verificado.

Este capítulo entrega el desarrollo del proyecto. En él se incluyen las etapas de simulación y

experimentación. La primera busca la mejor configuración para ser usada en la segunda,

comprobando de esta manera lo esperado.

3.1 Simulación

La simulación se desarrolla de la siguiente manera, en primer lugar, se toma una imagen la cual

es transformada al dominio de las frecuencias mediante la transformada de Fourier, esto ocurre

en el primer lente. Esta transformación permite desarrollar un filtrado espacial en frecuencia

realizado por el espejo deformable mediante la aplicación de distintas aberraciones obtenidas por

los modos Zernike, este filtrado permite modificar la fase de la imagen de entrada y por lo tanto

su PSF [7] (Point spread function). Un segundo lente produce la transformada inversa de Fourier

obteniendo de esta forma la PSF de la imagen de entrada. Finalmente, en el plano de imagen se

sitúa un detector quien es el encargado de comprimir la imagen dependiendo de su resolución.

Dependiendo de la aberración utilizada se generará un modelo que la represente, para el cual es

necesario utilizar una calibración, la que se obtiene mediante la respuesta del sistema a un punto.

Calibrar consiste en encontrar los parámetros óptimos para poder desarrollar la medición. Se

utiliza un punto debido a que la respuesta que se obtiene corresponde a la PSF. Por lo tanto, al

pasar el punto por el sistema se consiguen los parámetros de calibración. El detalle de este

proceso se explica a continuación.

3 Desarrollo

34

Entrada

Como entrada al sistema se utiliza una imagen de tamaño de NxN pixeles, esta imagen

corresponde a un fondo negro (‘0’) y dentro de ella un punto (‘1’) situado en principio en la

posición (1,1) del área de la imagen como se muestra en la figura 3-1. Es necesario, para que la

calibración sea correcta, este punto se mueva dentro de toda el área de la imagen, es decir, parte

en la posición (1,1) como primera imagen de entrada, la segunda sería (1,2), luego (1,3) y así

sucesivamente hasta llegar a la posición (N.N). Cabe destacar que cada posición será una nueva

imagen de entrada a la cual se le aplicará el sistema.

Figura 3-1 Imagen de entrada

Es importante definir el tamaño de la imagen de entrada, que para efectos de este trabajo se

realizó en 128x128 pixeles debido principalmente a aspectos de velocidad de procesamiento del

programa, ya que una imagen de mayor tamaño requiere de mayor tiempo de cálculo.

Aplicación Transformada de Fourier y modificación de fase

Una vez definida la entrada, el paso siguiente consiste en aplicar la transformada de Fourier a la

imagen lo cual simula el primer lente del sistema, de esta forma se separan los componentes de

la imagen en fase y amplitud.

Se pretende modificar la fase de la imagen, esto se realiza simulando el espejo deformable (figura

3-2) con los modos Zernike produciendo de esta forma una aberración que depende del

coeficiente usado, el cual varía de 1 a 37 para los distintos modos, aunque los primeros tres

correspondientes a piston, X tilt e Y tilt no son usados debido a que no se consideran aberraciones

como tal. El tamaño del espejo debe ser del mismo que la imagen, por lo tanto, se define en

128x128 pixeles.

3 Desarrollo

35

Figura 3-2 Espejo deformable

La forma de modificar la fase a la imagen se realiza mediante la ecuación (3-1)

𝐼 = 𝐹{𝑒𝑖ø𝑧 · 𝑐𝑖𝑟𝑐} (3-1)

Donde I será la imagen modificada en Fourier, F la transformada de Fourier de la imagen original,

ø el ángulo de desfase en radianes, z el modo Zernike y circ una función de circunferencia para

ajustar la apertura necesaria de modo de no afectar la amplitud. Al ser cada variable una matriz,

la operación “·” corresponde a una multiplicación punto a punto. De esta forma se obtiene la fase

modificada como en la figura 3-3.

Figura 3-3 Cambio de fase

3 Desarrollo

36

Transformada inversa de Fourier y compresión mediante detector

Una vez modificada la fase, se aplica la transformada de Fourier inversa y se obtiene la PSF como

se aprecia en la figura 3-4 para la aberración correspondiente.

Figura 3-4 PSF (respuesta del punto al sistema)

Esta imagen es guardada en un arreglo como una columna, es decir, la matriz imagen se convierte

en un vector (figura 3-5) en la matriz modelo (figura 3-6) la cual tendrá un tamaño final de N2xN2

pixeles (16384x16384 pixeles en este caso). De esta forma, para cada posición del punto dentro de

la imagen de entrada se aplica el proceso explicado anteriormente, el cual finaliza al obtener la

PSF del punto [N,N].

Figura 3-5 Vector imagen

3 Desarrollo

37

Figura 3-6 Matriz modelo

La compresión se realiza al momento de simular la resolución del detector, siendo posible reducir

la resolución en factores de 2. Esta reducción se realiza al tomar cada imagen de PSF obtenida

seleccionando una vecindad de pixeles la cual es sumada para formar un solo pixel, es decir, por

ejemplo, si se quiere reducir la imagen a un cuarto (compresión 4x) se suman los valores de los

pixeles de una vecindad de 2x2 formando un solo pixel como se aprecia en la figura 3-7, así para

todas las vecindades de 2x2 de la imagen sin existir solapamiento entre ellas. De esta forma queda

una imagen comprimida de tamaño 𝑁 2⁄ 𝑥 𝑁 2⁄ .

Figura 3-7 Ejemplo suma de pixeles

Un ejemplo de este proceso se puede apreciar en la figura 1-8, para la cual existe una imagen de

PSF original (128x128 pixeles) figura 1-8 (a), luego la misma PSF comprimida 4 veces (64x64

pixeles) figura 1-8 (b), y finalmente una compresión mayor a 16 veces (32x32 pixeles) figura 1-8

(c).

3 Desarrollo

38

(a) (b) (c)

Figura 3-8 (a)PSF original tamaño 128x128 pixeles, (b) PSF comprimida 4x tamaño 64x64 pixeles, (c) PSF comprimida 16x tamaño 32x32 pixeles

Comprimir cada imagen implica también la modificación de la matriz modelo original, por ende

para una compresión a la mitad se obtiene una matriz de compresión de dimensiones 𝑁2𝑥 (𝑁 2)⁄ 2

como en la figura 3-9.

Figura 3-9 Modelo comprimido

3.2 Pruebas

Una manera de comprobar el funcionamiento del sistema y la correcta realización de los modelos

es desarrollar pruebas, las cuales entregarán una orientación del camino a seguir y qué esperar

en el desarrollo del proyecto en su parte física (hardware).

En primer lugar, es necesario contar con un grupo de targets los cuales son imágenes que se

someterán a las pruebas a realizar. Fueron usados tres targets, como los tradicionales Lenna

(figura 1-10 (a)) y Cameraman (figura 1-10 (b)), como también una imagen del dibujo animado

Bender (figura 1-10 (c)) de la serie Futurama.

(a) (b) (c)

Figura 3-10 Targets seleccionados: (a) Lenna, (b) Cameraman, (c) Bender

3 Desarrollo

39

En segundo lugar, se debe decidir qué modos Zernike usar para realizar las pruebas, no pudiendo

utilizar todos los modos principalmente debido a su gran cantidad. Los modos elegidos se

destacan en la Tabla 3-1. De esta forma se tiene una batería de tamaño razonable para el

desarrollo de las pruebas.

Tabla 3-1 Modos Zernike elegidos

Modo Zernike

Defocus

X Primary Astigmatism

X Primary Coma

X Trefoil

X Secondary Astigmatism

X Tetrafoil

X Secondary Coma

X Secondary Trefoil

X Pentafoil

Secondary Spherical

X Tertiary Astigmatism

X Secondary Tetrafoil

Dentro de los modelos construidos se incluye un modelo creado en base a dos modos Zernike

elegidos aleatoriamente a los que se agrega un porcentaje de ponderación también seleccionado

al azar.

Con los modos Zernike elegidos se desarrollan modelos para cada uno, definiendo como

parámetros generales el ángulo de desfase ø en valores π y 2π el cual permite producir menor o

mayor fuerza a la aberración y también los grados de compresión en 4x y 16x.

Como se puede ver en la figura 3-9 los modelos comprimidos tienen un aspecto de matriz

aleatoria por lo que es posible aplicar los principios de Compressed Sensing como en la ecuación

(3-2)

𝑌 = 𝐻 · 𝑥 (3-2)

3 Desarrollo

40

Donde Y es el vector de compresión (resultado), H la matriz aleatoria y x la imagen de entrada

representada como vector. Bajo este principio las matrices de modelos comprimidos serán la

matriz H y las imágenes de entrada (Lenna, Cameraman y Bender) serán el vector x.

Las figuras 3-11 y 3-12 muestran ejemplos de modelos originales y sus versiones con compresión.

(a)

(b)

(c)

Figura 3-11 Modelo de “X Secondary Astigmatism” (a), compresión 4x (b), compresión 16x (c)

3 Desarrollo

41

(a)

(b)

(c)

Figura 3-12 Modelo de “X Secondary Tetrafoil” (a), compresión 4x (b), compresión 16x (c)

Predicción de resultados de compresión mediante matriz de Gram

Los resultados de compresión, así como tales, no entregan mayor información sobre la calidad

del sistema, pero existe una forma de predecir este resultado lo cual se realiza creando la matriz

de Gram de cada modelo.

En álgebra lineal, la matriz de Gram [28] [31] “de un conjunto de vectores v1,…,vn en un espacio

prehilbertiano, es la matriz que define el producto escalar, cuyas entradas vienen dadas por

Gij=(vi|vj)”. Por lo tanto, la matriz de Gram de un modelo queda definida por le ecuación (3-3)

𝐺 = 𝑀 · 𝑀𝑇 (3-3)

Donde M es la matriz modelo y MT es la traspuesta de la matriz modelo. Cada matriz de Gram

debe tener una diagonal unitaria, esto se obtiene normalizando la matriz modelo mediante la

norma L2 [2] dada por la ecuación (3-4)

3 Desarrollo

42

‖𝑥‖2 = √∑|𝑥𝑖|2

𝑛

𝑖=1

(3-4)

Donde x es cada una de las coordenadas de la matriz. Esta normalización se realiza en el sentido

de en qué fue guardada la PSF, es decir se normaliza cada vector PSF al dividir por la norma L2

cada uno de sus componentes como se observa en la ecuación (3-5).

𝑀𝑛𝑜𝑟𝑚 =

𝑀𝑖𝑗

‖𝑥‖2

(3-5)

Una vez normalizada cada matriz es posible realizar el cálculo de cada matriz de Gram.

La predicción se logra analizando las matrices de Gram mediante coherencia mutua (mutual

coherence) [30], la cual se define como el valor máximo absoluto de las correlaciones cruzadas

[33] entre las columnas de la matriz.

La correlación cruzada (o a veces denominada "covarianza cruzada") es una medida de la

similitud entre dos señales, frecuentemente usada para encontrar características relevantes en

una señal desconocida por medio de la comparación con otra que sí se conoce.

La coherencia mutua se define en la ecuación (3-6)

𝐶𝑀 = 𝑚𝑎𝑥1≤𝑖≠𝑗≤𝑚|𝐺| (3-6)

Es decir, se busca el máximo valor fuera de la diagonal unitaria.

Entonces, la predicción quedará dada por la coherencia más pequeña entre todos los valores de

las matrices de Gram para los distintos modelos. El resumen de estos valores se encuentra en los

gráficos de las figuras 3-13, 3-16, 3-19 y 3-22.

Figura 3-13 Gráfico coherencia mutua compresión 4x, ø=π

0,920,930,940,950,960,970,980,99

1

Co

her

enci

a m

utu

a

Coherencia mutua compresión 4x y ø=π

3 Desarrollo

43

Se observa en el gráfico de la figura 3-13 que para estos parámetros las dos mejores aberraciones

son “X Secondary Trefoil” (figura 3-14) y “X Secondary Astigmatism”. Las peores son “X Trefoil” y

“Secondary Spherical” (figura 3-15).

Figura 3-14 Matriz de Gram para X Secondary Trefoil compresión 4x, ø=π

Figura 3-15 Matriz de Gram para Secondary Spherical compresión 4x, ø=π

3 Desarrollo

44

Figura 3-16 Gráfico coherencia mutua compresión 4x, ø=2π

Al examinar el gráfico de la figura 3-16 se puede concluir que el modelo “X Secondary

Astigmatism” debería ser el más cercano a la imagen original, seguido por “X Secondary Trefoil”

el cual se muestra en la figura 3-17. En cambio, el peor claramente es Secondary Spherical (figura

3-18).

Figura 3-17 Matriz de Gram para X Secondary Astigmatism compresión 4x, ø=2π

0,88

0,9

0,92

0,94

0,96

0,98

1

Co

her

enci

a m

utu

a

Coherencia mutua compresión 4x y ø=2π

3 Desarrollo

45

Figura 3-18 Matriz de Gram para Secondary Spherical compresión 4x, ø=2π

Figura 3-19 Gráfico coherencia mutua compresión 16x, ø=π

Claramente para compresión 16x y ø=π (ver gráfico figura 3-19)el modelo que más debería

asemejarse es “X Primary Astigmatism” (figura 3-20). El peor no es tan claro, pero queda entre “X

Tetrafoil” y “X Pentafoil” (figura 3-21).

0,9820,9840,9860,988

0,990,9920,9940,9960,998

11,002

Co

her

enci

a m

utu

a

Coherencia mutua compresión 16x y ø=π

3 Desarrollo

46

Figura 3-20 Matriz de Gram para X Primary Astigmatism compresión 16x, ø=2π

Figura 3-21 Matriz de Gram para X Pentafoil compresión 16x, ø=π

3 Desarrollo

47

Figura 3-22 Gráfico coherencia mutua compresión 16x, ø=2π

Finalmente, para compresión 16x y ø=2π es muy notorio en el gráfico de la figura 3-22 que “X

Secondary Trefoil” (figura 3-23) debería ser el que mejores resultados obtenga. En cambio, los que

peores resultados deberían entregar son “X Tetrafoil” y otra vez “X Pentafoil” (figura 3-24).

Figura 3-23 Matriz de Gram para X Secondary Trefoil compresión 16x, ø=2π

0,980,9820,9840,9860,988

0,990,9920,9940,9960,998

11,002

Co

her

enci

a m

utu

a

Coherencia mutua compresión 16x y ø=2π

3 Desarrollo

48

Figura 3-24 Matriz de Gram para X Pentafoil compresión 16x, ø=2π

3.3 Experimentación

La etapa más importante de este proyecto ocurre en este punto, para lo cual es necesario definir

los parámetros en que se desarrollará la experimentación como también el montaje del sistema.

Dentro de la experimentación se realizarán pruebas en base a los resultados esperados por las

simulaciones, es por esto que la experimentación será acotada a modelos sin aberración,

astigmatismo y uno aleatorio.

Set up

El primer paso para el montaje del sistema es elegir los componentes que serán usados, partiendo

por el detector elegido. Es un instrumento de la marca Point Grey modelo “Grasshopper3 2.3 MP

Mono USB3 Vision” específicamente GS3-U3-23S6M-C [9] mostrado en la figura 3-25.

Figura 3-25 Grasshopper3 2.3 MP Mono USB3 Vision. (Fuente: PointGrey)

3 Desarrollo

49

Posee un sensor CMOS de la marca Sony modelo IMX174 que tiene un formato óptico 1/1.2”

(diagonal 13.33mm, ancho 10.67mm, alto 8.00mm, área 85.33mm2 y factor de recuadro 3.24), un

tamaño de pixel de 5.86 μm y una resolución de 1920x1200 que recae en 2.3MP. Con una eficiencia

cuántica de 76%, un sensor con eficiencia cuántica alta es mejor para aplicaciones donde hay

poca luz debido a su alta eficiencia de conversión. Tiene 6.83 electrones de ruido negro temporal

(temporal dark noise) –ruido de lectura, es generado por la circuitería del sensor y la cámara- un

valor bajo que permite mejor ganancia de señal sin sacrificar la calidad de la imagen. Es un sensor

que goza de una gran capacidad de saturación con 32513 electrones, los sensores con un área

sensible a la luz de gran tamaño serán expuestos a más fotones y generarán más carga; en

términos de imagen significa que el convertidor análogo-digital procesará electrones en niveles

más grises, resultando en un rango dinámico bastante alto (72.94 dB) en la imagen capturada.

Esto último es útil cuando es importante reconocer detalles en áreas oscuras y luminosas como

una placa patente, por ejemplo.

Es un detector monocromático que posee un frame rate de 163 FPS, global shutter que es un

obturador electrónico donde la escena será congelada en el tiempo para que no haya movimiento

borroso, convertidor ADC de 10bits y 12bits, rango de ganancia de 0 dB a 29 dB, tiempo de

exposición de 0.005ms a 31.9 segundos, modos de imagen parcial pixel binning y roi (range of

interest), procesamiento de imagen en gamma, tabla de búsqueda, matiz, saturación y nitidez,

buffer de imagen de 128 MB, memoria flash de 2MB no volátil, 1 puerto serial y usa interfaz

USB3.0.

Sus requerimientos de energía son 5 [V] via USB3.0 u 8 a 24 [V] vía GPIO, consumo máximo de

4.5W. Su tamaño es de 44mm x 29mm x 58mm y un peso de 90 gramos.

El espejo deformable elegido es uno de la marca THORLABS modelo DMP40-P01[5] figura 3-26

(a), es de tipo piezoeléctrico, tiene una superficie continua (figura 3-26 (b)) pero posee una serie

de segmentos de espejos controlables independientemente conformado por un arreglo de 40

actuadores de electrodo (figura 3-26 (c)) además de tres brazos bimorfos para generar un ajuste

de tip/tilt.

(a) (b) (c)

Figura 3-26 DMP40-P01. (Fuente: Thorlabs)

3 Desarrollo

50

Cada segmento es controlado independientemente al aplicar un voltaje entre 0 y 200 [V]. Cuando

es suministrado un voltaje de 100 [V] la superficie toma una forma plana, en cambio al momento

de usar un voltaje menor o mayor a 100 [V] la superficie se curva. Estas curvaturas dependen de,

en caso de una superficie cóncava emplear un voltaje bajo y para una superficie convexa un

voltaje alto (figura 3-27). Al usar los tres brazos el espejo puede inclinarse en cualquier dirección

en un rango de ±2 [mrad].

Figura 3-27 Curvaturas del espejo deformable. (Fuente: Thorlabs)

Posee un software (figura 3-28) para configurar el tipo de aberración deseada, pudiendo también

crear mezclas de ellas como también modificar la forma del espejo a su antojo al ser capaz de

manejar cada uno de los 40 actuadores de manera independiente.

Figura 3-28 Software espejo deformable. (Fuente: Thorlabs)

El montaje del sistema se muestra en las figuras 3-29 y 3-30, a la izquierda se encuentra el objetivo

una pantalla LCD IPS de 4” y resolución 800x480 [pixeles] del fabricante Waveshare. Fue usado

3 Desarrollo

51

un lente variofocal modelo T10Z0513CS (1/3" 5-50mm f1.3) fabricado por Computar para

capturar el objetivo situado a una distancia de 30 [cm] y dos lentes de Thorlabs modelo AC254-

075-A-ML (f=75 mm, Ø1", ARC: 400-700 [nm]) encargados de generar las transformadas de

Fourier (lente 1) y transformada inversa de Fourier (lente 2). Entre ambos lentes se ubica el espejo

deformable a una distancia de 75mm y finalmente el detector.

Figura 3-29 Set up vista lateral

Figura 3-30 Set up vista superior

Calibración

El proceso de calibración es idéntico a lo explicado anteriormente en la etapa de simulación,

aunque en este caso el ambiente es difícil de controlar principalmente por las condiciones

externas. Una opción es aislar el montaje mediante una caja oscura, lo cual ayuda a evitar la

3 Desarrollo

52

influencia de luz que no corresponda al experimento. En general cualquier factor externo puede

estropear las pruebas.

Otras consideraciones necesarias al momento de realizar los experimentos es tomar en cuenta la

exposición necesaria para capturar cada una de las imágenes del modelo como también los

targets, siendo muy diferente entre ellas. Es así como para imágenes de puntos se debe tratar de

usar la mayor exposición posible en la configuración del detector (en nuestro caso cercano a 1 [s])

y para imágenes con mayor detalle una exposición menor (en nuestro caso cercano a 100[ms]).

También debe tomarse en cuenta que el uso de ganancia puede producir contenido espurio que

buscamos evitar, por lo que para las pruebas se usó ganancia 0 [dB].

Como se indicó al principio de este apartado, la calibración se realiza de la misma forma que en

la etapa de simulación. En primer lugar se elige una aberración cualquiera, en este caso

astigmatismo primario, en la Figura 3-31(a) se tiene un punto como entrada al sistema, que luego

al ser modificado y capturado por la cámara se obtiene la imagen de la Figura 3-31(b).

(a) (b)

(c) (d)

Figura 3-31 Calibración experimentación: (a) Imagen de entrada, (b) imagen de salida sin comprimir, (c) imagen de salida compresión 4x, (d) imagen de salida compresión 16x

3 Desarrollo

53

El nivel de compresión depende de la resolución del detector, es decir, para generar una

compresión mayor la resolución del detector debe ser baja. Esto se aprecia en la Figura 3-31(c) y

(d).

Una vez capturadas las imágenes a distintas resoluciones es posible realizar el modelo

matemático, generando las matrices que se observan en la Figura 3-32.

(a)

(b)

(c)

Figura 3-32 Modelo matemático experimental, (a) sin compresión, (b) compresión 4x, (c) compresión 16x

3.4 Conclusiones del capitulo

Sobre el desarrollo de la simulación

La generación de una simulación es una gran ayuda para saber qué esperar en la etapa de

experimentación. De aquí se concluye mediante el análisis de las matrices de Gram, que existen

tipos de aberraciones que se espera funcionarán mejor en el sistema, es el caso de astigmatismo

en cualquiera de sus grados quien debiese generar mejores resultados. Como también

aberraciones que deberían funcionar peor y por lo tanto es posible descartarlas, como la

aberración esférica.

3 Desarrollo

54

Sobre el desarrollo de la experimentación

Un ambiente difícil de controlar puede generar que los resultados de la experimentación no sean

los esperados, lo principal es lograr la menor influencia de aspectos externos que no tengan que

ver netamente con el sistema.

Establecer los mejores parámetros para la captura de imágenes es esencial, una exposición alta o

un poco de ganancia pueden hacer la diferencia entre estropear o realizar una prueba correcta.

55

4 Resultados En este capítulo se entregan y analizan los resultados originados mediante las etapas de

simulación y experimentación. En base a esto es posible comparar los datos entregados, para

lograr la conclusión final del trabajo.

4.1 Resultados de simulación

Posterior a la realización de los modelos corresponde analizar los resultados de compresión

adquiridos, las figuras 4-1, 4-2 y 4-3 muestran algunos ejemplos de imágenes obtenidas bajo lo

que según la predicción de matriz de Gram son las mejores compresiones.

(a) (b) (c)

Figura 4-1 Compresión usando X Secondary Astigmatism ø = 2π. (a) Imagen original (128x128 pixeles), (b) imagen comprimida por 4x (64x64 pixeles), (c) imagen comprimida a 16x (32x32 pixeles).

4 Resultados

56

(a) (b) (c)

Figura 4-2 Compresión usando X Secondary Trefoil ø = 2π. (a) imagen original (128x128 pixeles), (b) imagen comprimida por 4x (64x64 pixeles), (c) imagen comprimida a 16x (32x32 pixeles).

(a) (b) (c)

Figura 4-3 Compresión usando X Primary Astigmatism ø = 2π. (a) imagen original (128x128 pixeles), (b) imagen comprimida por 4x (64x64 pixeles) (c) imagen comprimida a 16x (32x32 pixeles).

Reconstrucción de imágenes

Los resultados exhibidos en el apartado anterior no representan mayor logro si no es posible

reconstruir una imagen que se asemeje a la original, es por esto que la siguiente etapa consiste en

aplicar un algoritmo conocido que pueda realizar la reconstrucción.

NESTA [11] es el algoritmo elegido para realizar la reconstrucción, es un método de primer orden

rápido y robusto que resuelve problemas de búsqueda de base y un gran número de extensiones

incluyendo eliminación de ruido mediante variación total [29] (tv-denoising).

El algoritmo utiliza dos ideas debido a Yurii Nesterov. La primera idea es un esquema de

convergencia acelerada para métodos de primer orden, entregando una tasa de convergencia

óptima para esta clase de problemas. La segunda idea es una técnica de suavizado que reemplaza

la norma L1 no lisa con una versión suave.

El algoritmo básico resuelve la ecuación (4-1), a menudo conocido como búsqueda de base de

eliminación de ruido, o simplemente como minimización-l1.

(𝐵𝑃∈) min ‖𝑥‖𝑙1 𝑠𝑢𝑗𝑒𝑡𝑜 𝑎 ‖𝑏 − 𝐴𝑥‖𝑙2 ≤∈ (4-1)

4 Resultados

57

El parámetro épsilon es típicamente pequeño y proporcional a una estimación de la desviación

estándar de cualquier ruido en las mediciones.

Es posible usar NESTA para resolver el problema de minimización de variación total, usado a

menudo para recuperar imágenes de datos ruidosos y/o submuestreados.

Brevemente, la norma TV es dada por la ecuación (4-2)

‖𝑥‖𝑇𝑉 ≔ ∑‖∇𝑥[𝑖. 𝑗]‖, ∇𝑥[𝑖. 𝑗] = [(𝐷1𝑥)[𝑖. 𝑗](𝐷2𝑥)[𝑖, 𝑗]

]

𝑖,𝑗

(4-2)

Donde

(𝐷1𝑥)[𝑖. 𝑗] = 𝑥[𝑖 + 1, 𝑗] − 𝑥[𝑖, 𝑗], (𝐷1𝑥)[𝑖. 𝑗] = 𝑥[𝑖, 𝑗 + 1] − 𝑥[𝑖, 𝑗] (4-3)

NESTA puede resolver el siguiente problema de minimización TV (ecuación (4-4))

(𝑇𝑉) min ‖𝑥‖𝑇𝑉 𝑠𝑢𝑗𝑒𝑡𝑜 𝑎 ‖𝑏 − 𝐴𝑥‖𝑙2 ≤∈ (4-4)

Resultados de reconstrucción

Mediante el uso del algoritmo NESTA previamente explicado, se produjo la reconstrucción de las

imágenes comprimidas anteriormente. A continuación, se muestran algunos ejemplos de

reconstrucción para las diferentes configuraciones. Todos los ejemplos corresponden al target

Bender y la aberración "X Secondary Trefoil" (ver Figura 4-4). (a) y (b) exhiben la reconstrucción

para compresión 4x, ø=π, (c) y (d) muestran el resultado para compresión 4x, ø=2π, en (e) y (f) se

observa el producto de la reconstrucción para compresión 16x, ø=π y finalmente en (g) y (h) es

posible ver el resultado para compresión 16x, ø=2π.

(a) (b) (c) (d)

Compresión 4x, ø=π. (a) imagen comprimida

(64x64 pixeles), (b) imagen reconstruida (128x128

pixeles)

Compresión 4x, ø=2π. (c) imagen comprimida

(64x64 pixeles), (d)imagen reconstruida (128x128

pixeles)

4 Resultados

58

(e) (f) (g) (h)

Compresión 16x, ø=π. (e) imagen comprimida

(32x32 pixeles), (f) imagen reconstruida (128x128

pixeles)

Compresión 16x, ø=2π. (g) imagen comprimida

(32x32 pixeles), (h) imagen reconstruida (128x128

pixeles)

Figura 4-4 Reconstrucción vía NESTA aberración "X Secondary Trefoil".

Es posible reconocer mediante apreciación visual que los resultados parecen satisfactorios, no

obstante, se realizará posteriormente un análisis cuantitativo.

Analisis de resultados mediante Error Cuadrático Medio

El error cuadrático medio (MSE en inglés) [32] de un estimador mide el promedio de los errores

al cuadrado, es decir, la diferencia entre el estimador y lo que se estima. El MSE es una función de

riesgo, correspondiente al valor esperado de la pérdida del error al cuadrado o pérdida cuadrática.

La diferencia se produce debido a la aleatoriedad o porque el estimador no tiene en cuenta la

información que podría producir una estimación más precisa.

Si Y’ es un vector de n predicciones e Y es el vector de los verdaderos valores, entonces el

(estimado) MSE del predictor es (4-5):

𝑀𝑆𝐸 =

1

𝑛∑(𝑌𝑖

′ − 𝑌𝑖)2

𝑛

𝑖=1

(4-5)

Esta es una cantidad conocida, calculado dada una muestra particular (y por lo tanto es

dependiente de la muestra). En este caso la muestra será la imagen original sin comprimir, y el

vector de predicciones serán las imágenes reconstruidas. De esta manera es posible realizar la

comparación entre los modelos y encontrar cual tiene mejor rendimiento, siendo el menor valor

de MSE el más cercano a la imagen original.

En la figura 4-8 se presenta un gráfico con los resultados producidos al reconstruir los tres targets

comprimidos en 4x y ø=π, siendo los mejores resultados los adquiridos por “X Primary

Astigmatism” y “X Secondary Astigmatism”. Al individualizar estos datos, para el target Bender el

mejor es “X Secondary Astigmatism” seguido muy de cerca por “X Primary Astigmatism”,

ocurriendo lo mismo para el target Cameraman. En cambio, para el target Lenna los resultados

se invierten, siendo mejor “X Primary Astigmatism” y segundo “X Secondary Astigmatism”.

4 Resultados

59

Por otro lado, los peores rendimientos sucedieron para “Secondary Sperical” y “X Seconday

Coma” para los targets Bender y Cameraman, en cambio para el target Lenna se cambia “X

Secondary Coma” por “X Tertiary Astigmatism”.

En general para esta configuración podría decirse que el mejor modelo es “X Secondary

Astigmatism” y el peor “Secondary Spherical”.

Figura 4-5 Gráfico Error Cuadrático Medio para compresión 4x, ø=π

En el caso de compresión 4x y ø=2π, el gráfico de la figura 4-9 entrega que el mejor modelo es “X

Primary Astigmatism” el cual es compartido por los targets Cameraman y Lenna, en cambio para

Bender el mejor fue “Defocus”. Por otro lado, el peor modelo es “Secondary Spherical” tanto para

el target Bender como para Cameraman, siendo “X Primary Coma” el peor para Lenna.

En resumen, el mejor modelo para esta configuración es “X Primary Astigmatism” y el peor

“Secondary Spherical”.

0

50

100

150

200

250

ECM

[In

ten

sid

ad d

e p

ixel

]

MSE compresión 4x y ø=π

Bender Cameraman Lena

4 Resultados

60

Figura 4-6 Gráfico Error Cuadrático Medio para compresión 4x, ø=2π

Para compresión 16x y ø=π resulta algo curioso, se repiten los mismos resultados que en

compresión 4x, ø=2π en el caso del mejor y el peor modelo. Como se puede apreciar en el gráfico

de la figura 4-10, se repite como mejor modelo para el target Bender el modelo “Defocus” aunque

muy pegados le siguen “X Primary Astigmatism” y “X Primary Coma”, mientras que para los

targets Cameraman y Lenna el mejor modelo sigue siendo “X Primary Astigmatism”. Por otro lado,

no existe discusión que el peor modelo sigue siendo “Secondary Spherical”. De esta forma

nuevamente el mejor modelo es “X Primary Astigmatism” y el peor “Secondary Spherical”.

Finalmente, para compresión 16x y ø=2π (gráfico figura 4-11) los resultados terminan por

confirmarse. De esta forma para todos los targets el mejor modelo es “X Primary Astigmatism” y

el peor “Secondary Spherical”

020406080

100120140160180200

ECM

[in

ten

sid

ad d

e p

ixel

]

MSE compresión 4x y ø=2π


4 Resultados

61

Figura 4-7 Gráfico Error Cuadrático Medio para compresión 16x, ø=π

Figura 4-8 Gráfico Error Cuadrático Medio para compresión 16x, ø=2π

Al momento de comparar con la información recopilada por los análisis de coherencia mutua se

puede apreciar que en algunos casos los resultados esperados se alejan de los obtenidos. Ya que

para la configuración ø=π y compresión 4x el modelo que mejor reconstrucción tuvo (según MSE)

fue “X Secondary Astigmatism” para la cual se esperaba “X Secondary Astigmatism” y “X

Secondary Trefoil” donde este último ni siquiera se encuentra entre los tres primeros. Para la

configuración ø=2π y compresión 4x la mejor reconstrucción fue de “X Primary Astigmatism”

esperándose “X Secondary Astigmatism” aunque no es un resultado tan alejado ya que podría

considerarse dentro de los mejores de todas maneras debido a que pertenece a un nivel dentro

0

100

200

300

400

500

600

ECM

[]i

nte

nsi

dad

de

pix

el]

MSE compresión 16x y ø=π


0

100

200

300

400

500

600

ECM

[in

ten

sid

ad d

e p

ixel

]

MSE compresión 16x y ø=2π


4 Resultados

62

de la aberración astigmatismo. Para la configuración ø=π y compresión 16x es el único resultado

que coincide siendo “X Primary Astigmatism” el modelo que mejores resultados obtuvo y además

la predicción lo eligió como el mejor. Finalmente, para la configuración ø=2π y compresión 16x el

modelo que mejor rendimiento obtuvo fue “X Primary Astigmatism” esperándose que fuera “X

Secondary Trefoil”, quien podría considerarse dentro de la media de los mejores rendimientos.

Comparación del sistema vs SPC

Para este último análisis se agrega a la comparación un modelo representativo del sistema Single

Pixel Camera, el cual entregará información importante para conocer el rendimiento que deberá

tener nuestro sistema de compresión al saber si se comporta mejor o peor al ya nombrado. El

modelo de Single Pixel Camera se muestra en las tablas 4-1 y 4-2, en la primera se encuentra el

resultado de la compresión y en la segunda el resultado de la reconstrucción.

Tabla 4-1 Compresión Single Pixel Camera

Target: Bender

Compresión: 4x (4096

muestras)

Target: Bender


muestras)

Target: Cameraman


muestras)

Target: Cameraman


muestras)

Target: Lenna


muestras)

Target: Lenna


muestras)

4 Resultados

63

Tabla 4-2 Reconstrucción vía NESTA Single Pixel Camera

Target: Bender


muestras)

Target: Bender


muestras)

Target: Cameraman


muestras)

Target: Cameraman


muestras)

Target: Lenna


muestras)

Target: Lenna


muestras)

Teniendo este nuevo parámetro de comparación es posible realizar el análisis final para cada uno

de los targets elegidos.

La tabla 4-3 entrega los resultados para los tres targets tomando en cuenta los modelos que en

general eran los mejores y peores para las dos configuraciones en compresión 4x, esto debido a

que el modelo de Single Pixel Camera no se diferencia en ø.

Tabla 4-3 Comparación mejores y peores modelos versus Single Pixel Camera para compresión 4x

Modelo Compresión ø MSE

Bender Cameraman Lenna

X Secondary Astigmatism 4x π 112,47

96,18

40,67


4x 2 π 140,31

91,08

36,3

Secondary Spherical

4x π 189,21

136,48

62,16

Secondary Spherical

4x 2 π 188,31

136,03

59,04

Single Pixel Camera 4x 216,76 145,48 73,95

Single Pixel Camera obtiene los peores resultados de reconstrucción incluso bajo el peor modelo

de nuestro sistema de compresión para el caso de compresión 4x. Para el caso de compresión 16x

los resultados no son diferentes, de hecho, al observar la tabla 4-4 Single Pixel Camera vuelve a

mostrar los peores resultados incluso contra el peor modelo.

4 Resultados

64

Tabla 4-4 Comparación mejores y peores modelos versus Single Pixel Camera para compresión 16x

Modelo Compresión ø MSE

Bender Cameraman Lenna

X Primary Astigmatism 16x π 384,8

316,29

140,5


16x 2 π 373,23

313,17

144,67

Secondary Spherical

16x π 539,67

536,86

279,56

Secondary Spherical

16x 2 π 481,87

480,09

238,41

Single Pixel Camera 16x 1602,05

2326,18

1129,23

4.2 Resultados de experimentación

Pruebas

Para la realización de los experimentos es necesario en primer lugar definir el grupo de targets

que se someterán a prueba. En un comienzo se decide probar con lo más fácil de reconstruir que

son los puntos, la figura 4-9 presenta algunos de los targets generados aleatoriamente. La idea es

que se tome una menor cantidad de puntos hasta una mayor, en este caso se muestran entre 50 y

150 puntos por imagen.

(a) (b) (c) (d)

Figura 4-9 Ejemplos de target puntos de (a) menor a (d) mayor cantidad

Luego, los targets más complejos elegidos como la letra R (figura 4-10 (a)), una frase EIE PUCV

(figura 4-10 (b)) y finalmente una imagen de Lenna (figura 4-10 (c)).

(a) (b) (c)

Figura 4-10 Targets (a) Letra R, (b) Frase EIE PUCV, (c) Lenna

Posterior a esto se define la forma que tomará el espejo deformable en base a las aberraciones

existentes y que además son posibles de configurar en él. Considerando que según las

4 Resultados

65

simulaciones la aberración que mejores resultados debería entregar es astigmatismo (ver figura

4-11 (a)), ésta fue elegida. A esto se agrega una aberración generada aleatoriamente (ver figura 4-

11 (b)) y pruebas sin aberración (ver figura 4-11 (c)).

(a) (b) (c)

Figura 4-11 PSF de aberraciones usadas (a) Astigmatismo, (b) Aleatoria, (c) Sin aberración

Resultados

Ejecutar una examinación estadística de los resultados resulta complicado debido

principalmente a que no se tiene las medidas originales de cada target, lo que complica utilizar

una comparación 1:1 entre imagen original y reconstrucción. Debido a esto solo es posible

generar un análisis de resultados en base a una inspección visual.

Como primera comparación se ha elegido utilizar los targets de puntos, principalmente debido a

su poca complejidad, también porque no recaen en mayor detalle.

En la figura 4-12 se muestra un ejemplo de cómo es una imagen comprimida y el resultado al

reconstruir.

(a) (b)

Figura 4-12 Imágenes comprimidas y su reconstrucción. (a) Compresión 16x, (b) compresión 4x

En la figura 4-13 se compara visualmente la imagen de un punto para las tres configuraciones

elegidas, en una compresión de 16x.

4 Resultados

66

(a) (b) (c) (d)

Figura 4-13 Resultado reconstrucción a compresión 16x para target 1 punto. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

Las tres configuraciones serían útiles para este caso, todas entregan una posición cercana o casi

certera de donde está ubicado el punto. Pero, al mirar más en detalle las imágenes, las dos que

presentan aberración producen mayor contenido indeseado que quien no tiene aberración.

Veamos que sucede en el caso de menor compresión, es decir 4x. En la figura 4-14 se encuentran

estos resultados.

(a) (b) (c) (d)

Figura 4-14 Resultado de compresión y reconstrucción 4x para target 1 punto. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

A menor compresión los resultados no son mejores, de hecho, son peores. El contenido indeseado

aumenta para ambos casos con aberración esto es posible de ver en la figura 4-14, donde al hacer

un acercamiento a los resultados de astigmatismo se aprecia el aumento del contenido

indeseado. Aun así, la configuración permite identificar la posición buscada.

4 Resultados

67

(a) (b)

Figura 4-15 Comparación contenido indeseado 1 punto

¿Qué sucede al aumentar el número de puntos?, ¿será capaz el sistema de identificarlos de manera

exacta? Incrementar la cantidad de puntos, como en la figura 4-16 donde se muestran 4 puntos

como target las tres configuraciones entregan resultados parecidos, ninguno evita el contenido

indeseado el cual tampoco es mayor. Por otro lado, continua la línea de entregar al menos una

orientación en cuanto a la posición que debiesen encontrarse los puntos en la imagen.

(a) (b) (c) (d)

Figura 4-16 Resultado de compresión y reconstrucción 16x para target 4 puntos. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

Para el caso de menor compresión (figura 4-17) se nota la diferencia, mientras que para el modelo

sin aberración el contenido indeseado es mínimo, para los casos con aberración este contenido

es mayor que para compresión 16x y en comparación al modelo sin aberración.

(a) (b) (c) (d)

4 Resultados

68

Figura 4-17 Resultado de compresión y reconstrucción 4x para target 4 puntos. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

Continuar revisando estos resultados no genera mayor diferencia de lo ya dicho, por ejemplo, en

los casos de aún mayor cantidad de puntos, el sistema es capaz de reconstruirlos y ubicarlos en la

posición correcta, pero siempre generando contenido espurio. Esto es apreciable en las figuras 4-

18, 4-19, 4-20 y 4-21, donde también se aprecia que una mayor compresión genera menor de este

contenido indeseado.

(a) (b) (c) (d)

Figura 4-18 Resultado de compresión y reconstrucción 16x para target más de 20 puntos. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

(a) (b) (c) (d)


(a) (b)

4 Resultados

69

(c) (d)


(a) (b) (c) (d)


Considerando estos ejemplos, se da cuenta que el sistema tiene un límite y queda demostrado

con las figuras 4-20 y 4-21, donde para una cantidad de 150 o más puntos la reconstrucción deja

de ser precisa.

Pero, ¿Qué ocurre al utilizar targets más complejos? En el caso de una letra como la R a

compresión 16x de la figura 4-22, al parecer los resultados no cambian demasiado, incluso es

mucho más fácil reconocer las diferencias de contenido espurio existente.

(a) (b) (c) (d)

Figura 4-22 Resultado de compresión y reconstrucción 16x para letra R. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

4 Resultados

70

Más aún, si comparamos los resultados de la figura 4-22 con los de la figura 4-23, a mayor

compresión mejores son los resultados. Estando demás recalcar que sin aberración los resultados

son mejores.

(a) (b) (c) (d)

Figura 4-23 Resultado de compresión y reconstrucción 4x para letra R. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

El sistema es capaz de reconstruir objetivos incluso más complejos, como la frase EIEPUCV, pero

continuando en la misma tendencia que los anteriores. Esto es apreciable en las figuras 4-24 y 4-

25, en las cuales se observa que a mayor compresión menor contenido indeseado, como también

sin aberración produce menor cantidad de este.

(a) (b) (c) (d)

Figura 4-24 Resultado de compresión y reconstrucción 16x para EIEPUCV. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

(a) (b) (c) (d)

Figura 4-25 Resultado de compresión y reconstrucción 4x para EIEPUCV. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

4 Resultados

71

Finalmente, para las imágenes de Lenna es donde las deficiencias del sistema se notan con mayor

relevancia. En el caso de compresión de 16x (figura 4-26) en una vista general pareciera que el

mejor modelo es el sin aberración, además entre aleatorio y astigmatismo es complicado realizar

una evaluación debido a que ambos poseen contenido indeseado en lugares distintos y la imagen

final tiene gran parecido entre ambas.

(a) (b) (c) (d)

Figura 4-26 Resultado de compresión y reconstrucción 16x para Lenna. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

Mientras que a menor compresión (figura 4-27) se mantiene la tendencia.

(a) (b) (c) (d)

Figura 4-27 Resultado de compresión y reconstrucción 4x para Lenna. (a) Original (b) Sin aberración, (c) Aleatoria, (d) Astigmatismo

Pero, ¿Cuáles son las ventajas de usar aberraciones? Si vamos un poco al detalle de algunas

imágenes como Lenna, es posible darse cuenta que es en aspectos más finos donde el sistema se

comporta mejor. Al hacer un zoom en la imagen original de Lenna figura (4-28) y compararla con

las reconstrucciones de la figura 4-24, podemos ver, por ejemplo, como en el caso del modelo sin

aberración (figura 4-29) el rasgo señalado se obtiene de manera escalonada induciendo al error

porque es posible pensar que existen más de un elemento en esa posición, en cambio para las

situaciones con aberración (figuras 4-30 y 4-31) este aspecto se ve más suave sin dejar espacio a

las dudas. Es en detalles como estos donde aplicar aberración hace la diferencia.

4 Resultados

72

Figura 4-28 Detalle Lenna original

Figura 4-29 Detalle Lenna sin aberración compresión 16x

Figura 4-30 Detalle Lenna aberración aleatoria compresión 16x

Figura 4-31 Detalle Lenna astigmatismo compresión 16x

4 Resultados

73

4.3 Conclusiones del capítulo

Sobre los resultados de simulación

Llama la atención que los mejores resultados resultan con mayor fuerza en la aberración, es decir,

con un ángulo ø=2π lo cual es bastante positivo porque indica que mientras peor se vea la imagen

al ser capturada mejor será el resultado al recuperarla.

Por otro lado, aunque se puede observar claramente que a menor grado de compresión los

resultados obtenidos se acercan bastante a la imagen original, tampoco se debe dejar de lado que

es posible encontrar buenos resultados a mayor compresión.

Finalmente, resulta completamente positivo el hecho de que bajo cualquier tipo de aberración

y/o configuración (ángulo y grado de compresión) el sistema siempre será mejor que Single Pixel

Camera. Por un lado, principalmente porque los resultados cuantitativos expresan que este

último tiene un bajo rendimiento posicionándose por detrás de nuestro sistema de compresión

en base a los datos mostrados en las tablas 4-3 y 4-4. Por otro lado, aunque es posible que

cualitativamente Single Pixel Camera obtenga buenos resultados, el hecho de que necesite mayor

cantidad de tomas para realizar dicha tarea lo posiciona otra vez detrás del sistema de compresión

de imágenes basado en espejos deformables que requiere de una sola toma.

Sobre los resultados de experimentación

La etapa de experimentación se encargó de confirmar algunas hipótesis y generar ciertas

conclusiones en base al montaje.

Según lo esperado en las simulaciones, mientras más fuerte sea la aberración mejor será la

recuperación de la imagen original. En el caso experimental fue difícil de comprobar,

principalmente debido a que el montaje de sistema no representa de manera fidedigna la

aberración, esto porque la opción elegida como target una pantalla LCD IPS genera mucho brillo,

por lo que queda a trabajos futuros mejorar este rendimiento. Se cree que utilizando otras

opciones y generando una representación autentica de cada aberración el rendimiento del

sistema mejorará de manera considerable.

Siguiendo lo concluido por las simulaciones se profundiza en la idea en que a mayor compresión

la recuperación es mejor, aunque en pocos casos esto se produce a menor compresión, esto es

debido a que como el sistema no es capaz de generar modelos robustos que representen de buena

forma las aberraciones, una compresión menor tendrá mayor basura externa que una mayor

compresión, principalmente porque esta última al comprimir elimina bastantes de estos

componentes.

Se consideran los resultados obtenidos un hecho positivo, esencialmente los casos de

recuperación de puntos, quienes pueden representar situaciones en la que pueden ser útiles,

como por ejemplo es posible pensar que cada punto encontrado es una estrella en el espacio, o

un tanque enemigo, un misil, etc. Por lo que reconocer su posición exacta sería de gran utilidad

4 Resultados

74

en estas circunstancias. A esto se incluye lo obtenido para Lenna, donde al ahondar en el detalle

de la imagen entrega parámetros en que aplicar aberración es mucho mejor.

75

Discusión y conclusiones

De los objetivos planteados

El objetivo principal de esta tesis fue “desarrollar una cámara que capture imágenes comprimidas

usando modulación de frente de onda”. Durante el avance del proyecto se estudió todas las

teorías alrededor del tema y los distintos dispositivos capaces de aportar en el montaje de esta

cámara, lo que permitió realizar la captura de imágenes comprimidas. Logrando de esta forma

cumplir el objetivo fundamental de este proyecto.

Para lograr con el objetivo principal se realizaron distintos trabajos a lo largo de este año, como

fue estudiar los tipos de compresión de imágenes actuales destacando JPEG, un algoritmo de

compresión de imágenes usado en post procesamiento el cual actualmente es el estándar de

compresión.

También se estudió y analizó los algoritmos de Compressed Sensing, siendo una técnica de gran

importancia en procesamiento de señales e imágenes, debido a que permite optimizar el uso de

recursos al posibilitar la realización de mediciones y compresión al mismo tiempo como es el caso

de Single Pixel Camera, quien dio origen a la solución propuesta.

Además, se estudió y caracterizó los espejos deformables y los detectores CMOS/CCD.

Los primeros muy utilizados en óptica adaptativa son el corazón del funcionamiento de la cámara

principalmente porque es ahí donde se modifica la fase de la imagen. Destacan los espejos

bimorfos, de arreglo apilado, de actuadores de bobina de voz, MEMS y ópticamente dirigidos. Los

dos primeros son los más usados, bimorfos se utilizan junto a sensores de frente de onda curvos

para corregir aberraciones del frente de onda; los de arreglo apilado son los más atractivos en

óptica adaptativa; los actuadores de bobina de voz son muy buenos para espejos deformables

secundarios; MEMS poseen grandes prestaciones a un precio razonable y finalmente los

ópticamente dirigidos son una tecnología aún en desarrollo.

Los segundos, fueron estudiados a cabalidad, concluyendo que no es fácil decir cuál es mejor, ya

que esta decisión depende de los requerimientos del usuario debido a que cada uno se comporta

mejor que el otro en distintos aspectos. Se destacan cualidades como, por ejemplo, mayor calidad

de imagen de CCD por sobre CMOS debido a que es una tecnología madura posee mayor


76

eficiencia cuántica y factor de llenado, pero si la necesidad es realizar el proceso con mayor

rapidez sacrificando la calidad este último toma ventaja, aunque actualmente se han desarrollado

detectores CMOS de gran calidad. Otro punto a considerar es que CMOS es mucho más barato de

construir y tiene menor consumo de energía en desmedro de CCD que es una tecnología difícil

de construir y a la vez muy cara. Es preciso destacar que se realizó la caracterización de un

detector CMOS de la marca Point Grey modelo “Grasshopper3 2.3 MP Mono USB3 Vision”

específicamente GS3-U3-23S6M-C, quien mostró muy buenas prestaciones como gran eficiencia

cuántica, un buen rango dinámico y bajo ruido oscuro.

Se generó la simulación de la cámara mediante la plataforma de programación Matlab, gracias a

esto fue posible encontrar el tipo de modificación de fase que se desempeñaría de mejor manera.

Para finalmente, poder realizar el montaje y optimización de la cámara. En la cual se realizaron

pruebas de luminosidad, exposición y ganancia por nombrar algunas. Estableciéndose también

la distancia que debía poseer cada uno de los lentes, el espejo y el objetivo.

Del trabajo realizado

La creación de una cámara que realice mediciones y compresiones simultaneas no es algo nuevo,

gracias a la exploración en la teoría de Compressed Sensing se dio origen a Single Pixel Camera la

cual necesita una cierta cantidad de mediciones para lograr buenos resultados, sin embargo, la

cámara basada en espejos deformables permite minimizar la cantidad de mediciones necesarias

a solo una, lo cual queda demostrado bajo este trabajo siendo un gran avance para CS.

El desarrollo de este proyecto constó de dos etapas importantes, simulación y experimentación.

Dentro de la etapa de simulación se dio origen a los aspectos que se esperarían fueran los mejores

para ser utilizados en la experimentación. Se simuló el sistema lo cual arrojó las aberraciones que

mejor podrían funcionar, como por ejemplo astigmatismo, coma y desenfoque. Bajo este análisis

se decidió ocupar en la etapa de experimentación la aberración astigmatismo para compararla

con modelos sin aberración y otro aleatorio. A grandes rasgos, utilizar una aberración cualquiera

permite obtener buenos resultados, aunque esto no pudo ser comprobado a cabalidad por los

problemas generados por el montaje del sistema.

En general, realizar labores experimentales requieren de un cuidado extremo sobretodo tratando

de eliminar cualquier influencia exterior. El principal problema fue la dificultad de controlar el

ambiente en el cual se trabajó, desde un comienzo se pensó que el simple hecho de aislar la luz

exterior con una caja negra evitaría que surgiera algún inconveniente. No obstante, sobre la

marcha de la etapa experimental fueron surgiendo inconvenientes con la pantalla usada como,

por ejemplo, la emisión de luz de esta, distintas tonalidades para un pixel, dificultad al establecer

un tamaño real de imagen, etc. lo cual terminó por entregar los resultados expuestos. Se tiene

claridad que el manejo de un buen target y por ende obtener un modelo que se acerque de manera

fidedigna a la aberración seleccionada producirá mejores resultados, principalmente porque las

simulaciones así lo demuestran.


77

Sin embargo, es posible concluir temáticas que son independientes a los problemas antes

mencionados. En primer lugar, el generar una aberración con fuerza, es decir, la mayor distorsión

de la imagen captada obtendrá mejores resultados de reconstrucción, así también, aplicar la

máxima compresión posible. Esto último debido a que a mayor compresión es menor la

influencia de contenido externo, ya que este es minimizado por cada PSF comprimida, no así a

menores grados de compresión.

Proyección futura

Si bien, el trabajo realizado obtuvo resultados, estos no fueron los mejores y menos los esperados.

Se considera necesario perfeccionar la forma en que se genera la toma de imágenes, una buena

optimización de un target permitiría evitar la influencia que señales externas que se suman a los

modelos y que finalmente no permitieron alcanzar los resultados esperados. Se propone utilizar

otras técnicas como por ejemplo iluminar un led y controlar su posición en un ambiente

completamente oscuro, o quizá utilizar una pantalla con menor retroiluminación, siempre y

cuando esta pueda ser controlada completa y de manera independiente.

La cámara en si tiene bastante proyección, sobretodo en el uso para ciencias como en un

observatorio para examinar e identificar cuerpos celestes. En el área militar permitiría determinar

la posición de algún tanque ya sea amigo o enemigo, etc. En general el uso es variado y una vez

perfeccionado sería de gran ayuda en distintas áreas.

78

Bibliografía

[1] D. N. La Serna, M. L. Pro Concepción y L. C. Yañez Durán, «Compresión de imágenes:

Fundamentos, técnicas y formatos,» Revista de Ingeniería de Sistemas e Informática, vol. 6,

nº 1, 2009.

[2] G. K. Wallace, «The JPEG still picture compression standard,» IEEE Transactions on

Consumer Electronics, vol. 38, nº 1, pp. xviii-xxxiv, 1992.

[3] K. Cabeen y P. Gent, «Image Compression and the Discrete Cosine Transform,» de College

of the Redwoods.

[4] M. Sheik-Bahae, «Fourier Optics,» [En línea]. Available:

http://www.phys.unm.edu/msbahae/Optics%20Lab/Fourier%20Optics.pdf. [Último

acceso: 7 Agosto 2017].

[5] Thorlabs, «Piezoelectric Deformable Mirrors,» [En línea]. Available:

https://www.thorlabs.com/newgrouppage9.cfm?objectgroup_id=5056&pn=DMP40-P01.

[Último acceso: 7 Agosto 2017].

[6] Asociación de la Industria Eléctrica-Electrónica, «Protocolos de comunicaciones

industriales,» [En línea]. Available:

http://www.aie.cl/files/file/comites/ca/articulos/agosto-06.pdf. [Último acceso: 7 Agosto

2017].

[7] Scientific Volume Imaging, «Point Spread Function,» [En línea]. Available:

https://svi.nl/PointSpreadFunction. [Último acceso: 7 Agosto 2017].

[8] National Instruments, «Adquirir una Señal Analógica: Ancho de Banda, Teorema de

Muestreo de Nyquist y Aliasing,» [En línea]. Available: http://www.ni.com/white-

paper/2709/es/. [Último acceso: 7 Agosto 2017].

79

[9] Point-Grey, «Grasshopper3 2.3 MP Mono USB3 Vision,» [En línea]. Available:

https://www.ptgrey.com/grasshopper3-23-mp-mono-usb3-vision-sony-pregius-imx174-

camera. [Último acceso: Noviembre 2016].

[10] Dalsa Corp, «Image Sensor Architectures for Digital Cinematography».

[11] S. Becker, J. Bobin y E. Candes, «NESTA: A Fast and Accurate First-Order Method,» Stanford

University, 2009. [En línea]. Available:

https://statweb.stanford.edu/~candes/nesta/nesta.html. [Último acceso: 6 Junio 2017].

[12] E. Candès y M. Wakin, «An Introduction To Compressive Sampling,» IEEE SIGNAL

PROCESSING MAGAZINE, pp. 21-30, 2008.

[13] E. Candès, T. Tao, J. Romberg y R. Baraniuk, «Compressed Sensing Makes Every Pixel

Count,» What’s Happening in the Mathematical Sciences, pp. 114-127.

[14] J. A. Castro, «Prototipo de sistema de óptica adaptativa basado en un espejo deformable de

membrana para aplicación astronómica,» Editorial de la Universidad de Granada, Granada,

2009.

[15] C. Cumani, «What is a CCD - ESO,» European Southern Observatory, [En línea]. Available:

www.eso.org/~ccumani/doc/2004-CCDs-Introduction.ppt. [Último acceso: Noviembre

2016].

[16] M. Davenport, M. Duarte, Y. Eldar y G. Kutyniok, «Introduction to Compressed Sensing,»

Standford University; Duke University; Israel Institute of Technology; University of

Osnabrueck.

[17] M. Duarte, M. Davenport, D. Takhar, J. Laska, T. Sun, K. Kelly y R. Baraniuk, «Single-Pixel

Imaging via Compressive Sampling,» IEEE SIGNAL PROCESSING MAGAZINE, pp. 83-91,

2008.

[18] P. Felber, «Charge Coupled Devices,» Illinois Institute of Technology, Illinois, 2002.

[19] M. Fornasier y H. Rauhut, «Compressive Sensing,» Radon Institute for Computational and

Applied Mathematics; University of Bonn, Linz (Austria); Bonn (Alemania), 2010.

[20] B. Hemingway, «CSE467: Advanced Logic Design, Computer Science & Engineering

University of Washington,» [En línea]. Available:

https://courses.cs.washington.edu/courses/cse467/08au/pdfs/lectures/07-cmos-ccd-

imagers.pdf. [Último acceso: Noviembre 2016].

80

[21] P. Y. Madec, «Overview of Deformable Mirror Technologies for Adaptive Optics and

Astronomy,» European Southern Observatory, 2012.

[22] J. D. Schmidt, «Chapter 5, Imaging Systems and Aberrations,» de Numerical Simulation of

Optical Wave Propagation With Examples in Matlab, Washington, SPIE, 2010, pp. 65-84.

[23] . U. A. Suat, M. Lesser y E. R. R. Fossum, «CMOS Active Pixel Sensor (APS) Imager for

Scientific Applications,» Micron Imaging; University of Arizona; University of Southern

California.

[24] D. Takhar, «DMD Implementation of a Single Pixel Camera Based on Compressed Sensing,»

ECE Department, Rice University.

[25] A. A. Tokovinin, «Correcting the turbulence: Deformable Mirrors,» [En línea]. Available:

http://www.ctio.noao.edu/~atokovin/tutorial/part2/dm.html. [Último acceso: Noviembre

2016].

[26] D. d. F. A. Universidad de Vigo, «Optica de Fourier: Procesamiento óptico de imágenes,» [En

línea]. Available:

http://www.laser.uvigo.es/Docencia/Teleco/Fav.05/pdf/Practica5_05.pdf. [Último acceso:

4 Mayo 2017].

[27] M. Wakin, J. Laska, M. Duarte, D. Baron, S. Sarvotham, K. Kelly y R. Baraniuk, «AN

ARCHITECTURE FOR COMPRESSIVE IMAGING,» Department of Electrical and Computer

Engineering, Rice University.

[28] I. Zaballa, «Apuntes de Ampliación de Métodos Numéricos,» [En línea]. Available:

http://www.ehu.eus/izaballa/Ana_Matr/Apuntes/lec2.pdf. [Último acceso: 6 Junio 2017].

[29] Wikipedia, «Total variation denoising,» [En línea]. Available:

https://en.wikipedia.org/wiki/Total_variation_denoising. [Último acceso: 6 Junio 2017].

[30] Wikipedia, «Mutual Coherence,» [En línea]. Available:

https://en.wikipedia.org/wiki/Mutual_coherence_(linear_algebra). [Último acceso: 6 Junio

2017].

[31] Wikipedia, «Matriz de Gram,» [En línea]. Available:

https://es.wikipedia.org/wiki/Matriz_de_Gram. [Último acceso: 6 Junio 2017].

[32] Wikipedia, «Error cuadrático medio,» [En línea]. Available:

https://es.wikipedia.org/wiki/Error_cuadr%C3%A1tico_medio. [Último acceso: 6 Junio

2017].

81

[33] Wikipedia, «Correlación cruzada,» [En línea]. Available:

https://es.wikipedia.org/wiki/Correlaci%C3%B3n_cruzada. [Último acceso: 6 Junio 2017].

[34] U. N. d. R. Depto. de Física - Esc. de Ciencias Exactas y Naturales, «Optica de Fourier y

filtrado espacial,» [En línea]. Available:

http://www.fceia.unr.edu.ar/fisicaexperimentalIV/CATEDRA/Filtradoespacial.pdf.

[Último acceso: 4 Mayo 2017].

Alan Bastián Sánchez Vergara Sistema óptico de compresión de imágenes basado en...

Documents

Transcript of Alan Bastián Sánchez Vergara Sistema óptico de compresión de imágenes basado en...