pcaaa

12
INTRODUCCIÓN Teledetección espacial Las diferentes coberturas de la superficie terrestre (campos cultivados, roca desnuda, agua) reflejan la radiación electromagnética (REM) que les llega desde el sol, con distintas intensidades o niveles digitales (ND) de acuerdo a la región del espectro (firma espectral). Este fenómeno es el eje funda- mental de la teledetección. Los datos son adquiridos en soporte digital y en formato numérico (ND) para cada elemento de la Revista de Teledetección. 2002. 17: 43-54. N.º 17 - Junio 2002 43 Análisis de componentes principales en teledetec- ción. Consideraciones estadísticas para optimizar su interpretación S. B. Ferrero 1 , M. G. Palacio 1 y O. R. Campanella 2 Correo electrónico: [email protected] Universidad Nacional de Río Cuarto Facultad de Ciencias Exactas, Físico-Químicas y Naturales Ruta 8 km. 603 - (5800) Río Cuarto - Córdoba (Argentina) 1) Departamento de Matemática. 2) Departamento de Geología RESUMEN En este trabajo se ha aplicado el Análisis de Componentes Principales (A.C.P.) a una subimagen LANDSAT 5 TM que comprende a la ciudad de Río Cuarto, provincia de Córdoba, Argentina. Se analizan en detalle consideraciones tales como: ponderación o «peso» de cada banda y número de componentes a ser usados. Se presenta el desarrollo del A.C.P. basado en la matriz de varianza-covarianza y en la de correlación –y sus correspondientes autovalores y autovectores –y consideraciones para decidir cual de ellas usar. También se muestran criterios para seleccionar el número de componentes principales a ser usados. Si el objetivo es ponderar de la misma manera a todas las bandas intervinientes, debe usarse la matriz de correlación, en cambio, si se desea dar mayor rele- vancia a aquellas bandas que tienen mayor varianza, debe usarse la matriz de varianza-covarianza. Se presentan tres criterios estadísticos para decidir el número de componentes principales a ser usados: (a) En la curva que muestra los porcentajes de variación total explicada por cada componente, considerar aque- llos anteriores al punto de inflexión (con lo cual se deberían usar los tres primeros componentes en el pro- blema de aplicación); (b) Considerar los componentes cuyos autovalores son mayores que el autovalor pro- medio (con lo cual se deberían usar los dos primeros componentes en el problema); (c) Usar los componen- tes cuyos coeficientes de correlación con las bandas son grandes en valor absoluto (con lo cual se deberían usar los dos primeros componentes en el problema). PALABRAS CLAVE: teledetección, Análisis de Componentes Principales (ACP). ABSTRACT A Principal Components Analysis (PCA) to a LANDSAT 5 TM that includes the city of Río Cuarto, province of Cordoba, Argentina, has been performed. Considerations are analyzed in detail such as: «weight» of each band and number of components to be used. It is presented the development of the PCA based on the covariance and correlation matrices – and their eingenvalues and eigenvectors – and considerations in order to decide which one is the most adequated. It is also suggested criteria to select the number of main components to be used. If the goal is to assign the same weight to all the intervening bands, the correlation matrix must be used, whereas if it is desired to give greater relevance to those bands that have greater variance, the cova- riance matrix must be used. Three statistical criteria have been shown in order to decide the number of main components to be used: (a) In the curve that shows the percentage of total variation explained by each component, it is neces- sary to consider the components previous to the sadd- le point (in this case the three first components should be use); (b) To consider the components whose eigen- values are greater than the average (and then the two first components should be used); (c) To use those components whose correlation coefficients are high in absolute value (and then the two first components should be used, again). KEY WORDS: remote sensing, Principal Component Analysis (PCA).

Transcript of pcaaa

  • INTRODUCCINTeledeteccin espacial

    Las diferentes coberturas de la superficie terrestre(campos cultivados, roca desnuda, agua) reflejan laradiacin electromagntica (REM) que les llega

    desde el sol, con distintas intensidades o nivelesdigitales (ND) de acuerdo a la regin del espectro(firma espectral). Este fenmeno es el eje funda-mental de la teledeteccin.

    Los datos son adquiridos en soporte digital y enformato numrico (ND) para cada elemento de la

    Revista de Teledeteccin. 2002. 17: 43-54.

    N. 17 - Junio 2002 43

    Anlisis de componentes principales en teledetec-cin. Consideraciones estadsticas para optimizarsu interpretacin

    S. B. Ferrero1, M. G. Palacio1 y O. R. Campanella2Correo electrnico: [email protected]

    Universidad Nacional de Ro CuartoFacultad de Ciencias Exactas, Fsico-Qumicas y NaturalesRuta 8 km. 603 - (5800) Ro Cuarto - Crdoba (Argentina)

    1) Departamento de Matemtica. 2) Departamento de Geologa

    RESUMENEn este trabajo se ha aplicado el Anlisis de

    Componentes Principales (A.C.P.) a una subimagenLANDSAT 5 TM que comprende a la ciudad de RoCuarto, provincia de Crdoba, Argentina. Se analizan endetalle consideraciones tales como: ponderacin o pesode cada banda y nmero de componentes a ser usados.

    Se presenta el desarrollo del A.C.P. basado en lamatriz de varianza-covarianza y en la de correlaciny sus correspondientes autovalores y autovectores yconsideraciones para decidir cual de ellas usar.Tambin se muestran criterios para seleccionar elnmero de componentes principales a ser usados.

    Si el objetivo es ponderar de la misma manera atodas las bandas intervinientes, debe usarse la matrizde correlacin, en cambio, si se desea dar mayor rele-vancia a aquellas bandas que tienen mayor varianza,debe usarse la matriz de varianza-covarianza.

    Se presentan tres criterios estadsticos para decidir elnmero de componentes principales a ser usados: (a)En la curva que muestra los porcentajes de variacintotal explicada por cada componente, considerar aque-llos anteriores al punto de inflexin (con lo cual sedeberan usar los tres primeros componentes en el pro-blema de aplicacin); (b) Considerar los componentescuyos autovalores son mayores que el autovalor pro-medio (con lo cual se deberan usar los dos primeroscomponentes en el problema); (c) Usar los componen-tes cuyos coeficientes de correlacin con las bandasson grandes en valor absoluto (con lo cual se deberanusar los dos primeros componentes en el problema).

    PALABRAS CLAVE: teledeteccin, Anlisis deComponentes Principales (ACP).

    ABSTRACTA Principal Components Analysis (PCA) to a

    LANDSAT 5 TM that includes the city of Ro Cuarto,province of Cordoba, Argentina, has been performed.Considerations are analyzed in detail such as:weight of each band and number of components tobe used.

    It is presented the development of the PCA basedon the covariance and correlation matrices and theireingenvalues and eigenvectors and considerationsin order to decide which one is the most adequated. Itis also suggested criteria to select the number of maincomponents to be used.

    If the goal is to assign the same weight to all theintervening bands, the correlation matrix must beused, whereas if it is desired to give greater relevanceto those bands that have greater variance, the cova-riance matrix must be used.

    Three statistical criteria have been shown in orderto decide the number of main components to be used:(a) In the curve that shows the percentage of totalvariation explained by each component, it is neces-sary to consider the components previous to the sadd-le point (in this case the three first components shouldbe use); (b) To consider the components whose eigen-values are greater than the average (and then the twofirst components should be used); (c) To use thosecomponents whose correlation coefficients are highin absolute value (and then the two first componentsshould be used, again).

    KEY WORDS: remote sensing, Principal ComponentAnalysis (PCA).

  • superficie y para cada banda). Esto abre un enormecampo para la aplicacin de la estadstica a las cien-cias de observacin terrestre. Diversos mtodos delanlisis multivariado son utilizados en teledeteccin.

    Cualquier imagen puede pensarse como unamatriz tridimensional, en la que cada una de lasintersecciones de una fila y una columna correspon-de a una posicin geogrfica discreta, y por lo tantoa un pxel, y la tercera dimensin est dada por labanda a la cual corresponde ese pxel. En otros tr-minos, cada nivel digital asociado a un pxel puededenotarse como NDi,j,k donde i es el nmero de fila,j es el nmero de columna y k es la banda.

    Teniendo presente este carcter matricial de cual-quier imagen numrica, se pueden realizar sobreella transformaciones y operaciones estadsticas.Por ejemplo, con los datos de una imagen digital sepueden calcular medidas de tendencia central y dis-persin en cada banda, aumentar el contraste, cam-biar su orientacin numrica (rotacin de la matriz),realizar combinaciones aritmticas entre bandas,sintetizar varias bandas reduciendo la informacinredundante (componentes principales) o discrimi-nar grupos con ND homogneos dentro de la matriz(clasificacin).

    Transformaciones lineales de los datos de imgenes

    El carcter digital de las imgenes y su formavectorial permite generar nuevas imgenes aplican-do transformaciones lineales a una o varias imge-nes. Las nuevas imgenes representan una descrip-cin alternativa de los datos, en la cual los nuevosND de un pxel estn relacionados con sus ND ori-ginales a travs de una operacin lineal. La imagentransformada puede destacar ciertas caractersticasque no era posible discernir en los datos originaleso, alternativamente, preservar la informacin esen-cial contenida en la imagen en un nmero menor dedimensiones. Las transformaciones pueden llevarsea cabo para realizar un mejoramiento de la imageno como un anlisis previo a la aplicacin de tcni-cas de clasificacin.

    ANLISIS DE COMPONENTES PRINCIPA-LES

    El objetivo del Anlisis de ComponentesPrincipales (ACP) es resumir un grupo amplio devariables en un nuevo conjunto (ms pequeo) sin

    perder una parte significativa de la informacin ori-ginal (Chuvieco, 1996). Para el usuario final de pro-ductos de teledeteccin, el objetivo del ACP esconstruir una o varias imgenes que incrementen sucapacidad de diferenciar distintas coberturas. Espor ello que al realizar una composicin color resul-ta interesante usar, en lugar de algunas bandas de laimagen, los componentes principales 1, 2 y 3 en lasecuencia RGB respectivamente.

    El ACP puede aplicarse como realce previo a lainterpretacin visual o como procesamiento anteriora la clasificacin. En general, esta tcnica incremen-ta la eficiencia computacional de la clasificacinporque reduce la dimensionalidad de los datos.

    Por otra parte, desde el punto de vista estadstico,el ACP facilita una primera interpretacin sobre losejes de variabilidad de la imagen, lo que permiteidentificar aquellos rasgos que aparecen en lamayora de las bandas y aquellos otros que sonespecficos de algn grupo de ellas (Chuvieco,opcit). Este trabajo se refiere a casos en los queinteresa identificar la informacin comn a lamayora de las bandas, que est presente en los pri-meros componentes.

    El ACP tambin es usado en aplicaciones multi-temporales con el objeto de detectar cambios en dis-tintas fechas. En este caso, los primeros componen-tes resultantes del anlisis no son los ms interesan-tes ya que recogen informacin comn a las distin-tas fechas (la estable). Los ltimos componentesofrecen la informacin no comn (el cambio) que eslo que interesa en este contexto (Chuvieco, opcit).

    Algebraicamente, el ACP genera nuevas varia-bles (componentes), mediante una combinacinlineal de las p variables originales (bandas).Aunque se requieren los p componentes principalespara reproducir la variabilidad total, muchas vecesla mayor parte de ella est contenida en un nmeromenor de componentes m. En ese caso, reempla-zando las p bandas por los m componentes, se redu-ce la dimensionalidad del problema conservandocasi la totalidad de la informacin.

    En teledeteccin, la adquisicin de imgenes enbandas adyacentes del espectro implica, con frecuen-cia, detectar informacin redundante (en apariencialas bandas de la imagen se visualizan de manera simi-lar) . Por ello, los ND de los pxeles de una banda pue-den presentar una importante relacin con los de otra,resultando una o ms de una de ellas irrelevantes.

    Aunque la imagen puede arreglarse en una matriztridimensional, para realizar el ACP se utiliza unamatriz bidimensional. Formalmente, los ND de los

    S. B. Ferrero, M. G. Palacio y O. R. Campanella

    44 N. 17 - Junio 2002

  • n pxeles de una imagen en p bandas pueden arre-glarse en una matriz Xpxn,

    La i-sima fila de la matriz contiene los n nivelesdigitales de la i-sima banda. Denominando Xi = [xi1xi2 ...xin]t para i=1,2,...,p, resulta Xt = [X1, X2, ... , Xp].

    Como el ACP es un anlisis descriptivo norequiere que X tenga distribucin normal multiva-riada. Si X tuviera esta distribucin se podra reali-zar inferencia (Mardia et al, 1982).

    El estudio de la relacin entre bandas, que es labase del ACP, puede realizarse de dos maneras:

    con la matriz de varianza-covarianza X:

    en la que los elementos de la diagonal son lasvarianzas de los ND en cada banda

    con

    y los elementos fuera de la diagonal son las cova-rianzas entre los ND de dos bandas

    Como la covarianza entre la banda i y la j es lamisma que entre la banda j y la i (ij = ji) la matriz Xes simtrica. Cuando hay relacin lineal entre los NDde dos bandas las covarianzas son grandes en compa-racin con las varianzas, por eso es que esta matrizsirve para estudiar la relacin entre pares de bandas.

    con la matriz de correlacin x:

    en la que los elementos son los coeficientes decorrelacin lineal de Pearson

    Los elementos de la diagonal son unos porqueson las correlaciones de cada banda consigo misma.Como la correlacin entre la banda i y la j es lamisma que entre la banda j y la i (ij = ji) la matriz

    xes simtrica. Cuando hay relacin lineal entre

    pares de bandas las correlaciones son cercanas a 1o a 1.

    Cuando no hay relacin entre bandas ambasmatrices son diagonales (los elementos fuera de ladiagonal son ceros). En este caso cada banda apor-ta informacin diferente y por lo tanto el ACP serainnecesario (en teledeteccin esta situacin es pococomn).

    El objetivo del ACP es generar un nuevo sistema decoordenadas en el espacio multiespectral en el cuallos datos pueden ser representados sin correlacin, detal manera que la matriz de varianza-covarianza seadiagonal en el nuevo sistema de coordenadas.

    Figura 1. Ilustracin de un sistema de coordenadas modificadoen el cual los vectores tienen componentes no correlacionados.

    Componentes principales obtenidos usando lamatriz de varianza-covarianza

    Como se dijo, los componentes principales sonnuevas variables Y1,Y2,...,Yp que se obtienen comocombinaciones lineales de las variables originales(bandas):

    Y1 = a1t X = a11 X1 + a21 X2 + ... + ap1 XpY2 = a2t X = a12 X1 + a22 X2 + ... + ap2 Xp

    .

    .

    .

    Yp = apt X = a1p X1 + a2p X2 + ... + app Xp

    Anlisis de componentes principales en teledeteccin. Consideraciones estadsticas para optimizar su interpretacin

    N. 17 - Junio 2002 45

  • Como los Yi son combinaciones lineales de losXi, tienen:

    Var(Yi)=ait X ai Cov(Yi,Yk)=ait X ak

    De todas las combinaciones lineales posibles, loscomponentes principales son aquellas que no estncorrelacionadas y tienen mxima varianza. Comola varianza se incrementa multiplicando el vector decoeficientes ai por una constante, para que estacombinacin lineal sea nica es conveniente usarlos vectores de coeficientes normalizados, es decircon longitud 1 (ait ai = 1).

    De esta manera Primer componente principal = combinacin

    lineal (a1t X) que maximiza Var(a1t X) sujeto a que a1t a1 = 1.

    Segundo componente principal = combinacinlineal (a2t X) que maximiza

    Var(a2t X) sujeto a que a2t a2 = 1 y que Cov( a1t X , a2t X ) = 0.

    .

    .

    i-simo componente principal = combinacinlineal (ait X) que maximiza

    Var(ait X) sujeto a que ait ai = 1 y que Cov( ait X , akt X ) = 0 para k

  • serva la varianza total (Resultado 8.2 de Johnson yWichern, opcit).

    Esto se justifica de la siguiente manera:La matriz X es definida positiva, entonces por el

    Teorema de Descomposicin Espectral puedeescribirse

    Si los autovectores normalizados son las colum-nas de una matriz ortogonal G (matriz de la trans-formacin) y L es la matriz diagonal de los autova-lores resulta X = GGt.

    Entonces

    esto ltimo por propiedades de la traza. Adems GGt =I (por ser G una matriz ortogonal)

    y =Y entonces.

    Como la varianza poblacional total es 11+ 22+...+ pp = 1 + 2 + ... + p , la proporcin de varian-za total poblacional explicada por el k-simo com-ponente es:

    Como los autovalores se ordenan en forma nocreciente, la eficiencia del ajuste de los datos origi-nales por los primeros m componentes (mp) es:

    En particular cuando se consideran todos loscomponentes la proporcin de variacin explicadaes 1.

    El coeficiente de correlacin entre el componen-te Yk y la banda Xi es:

    Los criterios presentados en este trabajo paradecidir cuntos componentes principales se deber-an seleccionar son:

    a) En la curva que muestra los porcentajes devariacin total explicada por cada componen-te versus los componentes, considerar aque-llos anteriores al punto de inflexin.

    b) Considerar los componentes cuyos autovalo-res son mayores que el autovalor promedio.

    c) Usar los componentes cuyos coeficientes decorrelacin con las bandas son grandes envalor absoluto.

    Estos criterios son utilizados en el Problema deAplicacin.

    Antes de realizar el ACP a una imagen real sepresenta un ejemplo sencillo para mostrar el clcu-lo de los componentes principales.

    Ejemplo (Richards y Jia,opcit): Suponga que losND de 6 pxeles en 2 bandas son:

    Banda 1 2 4 5 5 3 2 Banda 2 2 3 4 5 4 3

    El sentido y la fuerza de la correlacin linealentre dos bandas puede representarse grficamentemediante un diagrama de dispersin. Cuanto ms seaproximan los puntos a una recta mayor ser elgrado de correlacin entre bandas.

    En la Figura 2 los ND muestran asociacin lineal,que podra investigarse analticamente con el coefi-ciente de correlacin de Pearson, cuyo valor es0.7609.

    Figura 2. Diagrama de dispersin entre las bandas 1 y 2.

    Para este ejemplo

    La matriz de varianza-covarianza de los datos es.

    Anlisis de componentes principales en teledeteccin. Consideraciones estadsticas para optimizar su interpretacin

    N. 17 - Junio 2002 47

  • Para determinar los componentes principales esnecesario encontrar los autovalores y autovectoresde X. Los autovalores estn dados por la solucinde la ecuacin (X l) = 0, es decir

    o equivalentemente (1.9 ) (1.1 ) 1.12 = 0,es decir 2 3 + 0,88 = 0, que da por resultados 1= 2.67 y 2 = 0.33.

    Entonces la matriz de varianza-covarianza en elnuevo sistema es

    Para encontrar la matriz G de la transformacin,se deben calcular los autovectores normalizadosasociados a los autovalores 1 y 2 . Considerando elprimer autovalor 1 = 2.67, resulta que el vectorsolucin de la ecuacin es [x 1l]e1 = 0 es e1 = (e11 e21)t , y sustituyendo adecuadamente resultael siguiente sistema

    -0.77e11 + 1.1e21= 01.1e11 1.57 e21 = 0

    del cual se obtiene e11 = 1.43 e21, lo que indica queexisten infinitas soluciones para el sistema. Como,adems, los autovectores deben estar normalizados

    Esta ecuacin conjuntamente con el sistema ante-rior da por resultado e1 = (0.82 0.57)t.

    De manera similar e2 = ( 0.57 0.82)t.

    Por lo que y los componentesprincipales son:

    Y1 = 0.82X1 + 0.57X2Y2 = -0.57X1 + 0.82X2

    Para los datos del ejemplo resulta:

    Como los valores del primer componente songrandes comparados con los del segundo, la mayorvariabilidad se da en la direccin del primer com-ponente principal, lo cual indica que contiene lamayor parte de la informacin. Ms especficamen-te, como 1 = 2.67 el primer componente contiene

    el de la variacin total. De estamanera, el primer componente muestra un alto con-traste visual. Por otra parte el segundo componentees perpendicular al primero (porque no estn corre-lacionados) lo que indica que contiene informacinno incluida en el primer componente. Todo esto seconfirma en la Figura 3, donde se han graficado losdatos en los dos sistemas (bandas y componentesprincipales).

    Figura 3. Diagrama de dispersin en los dos sistemas de coor-denadas.

    Componentes principales obtenidos usando lamatriz de correlacin

    En la seccin anterior se realiz el ACP a partir delos datos originales. Para otorgar a todas las varia-bles la misma importancia se deben estandarizar lasmismas. Si X* es la matriz de variables estandariza-das, X* coincide con x. Por lo tanto generar loscomponentes principales usando

    xes equivalente a

    usar las variables estandarizadas para el anlisis. Partiendo de la matriz

    xse otorga la misma

    importancia a todas las variables, lo cual es desea-ble o no dependiendo de la situacin particular. Eneste caso se debe usar la matriz X* para expresar lascombinaciones lineales que determinan los compo-nentes principales.

    Se recomienda examinar el efecto que tiene sobreel resultado del anlisis la estandarizacin de losdatos originales o la transformacin de unidades dealguna o algunas de las variables a fin de homoge-neizar las magnitudes. No hacerlo implica suponerque la variable con mayor variabilidad es la quems influye, o sea la determinante en el anlisis(Pl, 1986).

    En Teledeteccin sera conveniente generar loscomponentes principales usando la matriz decorrelacin para atenuar el efecto de la diferenciade variabilidad entre bandas, sobre todo porquesta puede deberse a diferencias entre las medias

    S. B. Ferrero, M. G. Palacio y O. R. Campanella

    48 N. 17 - Junio 2002

    {

  • de los ND de los pxeles de distintas bandas. Deesta manera se da la misma ponderacin a todaslas bandas.

    PROBLEMA DE APLICACIN

    Caractersticas de la imagen utilizada

    Los datos utilizados en este trabajo correspondena una subimagen extrada de una escena completacuyas caractersticas se consignan en la Tabla 1. Lasubimagen abarca en su sector central a la ciudad deRo Cuarto, provincia de Crdoba (RepblicaArgentina).

    Tabla 1. Caractersticas de la imagen.

    Los datos fueron procesados con la aplicacin delpaquete IDRISI for Windows.

    En las Figuras 4 y 5 se muestran la banda 5 de lasubimagen y la misma banda con ensanche de con-

    traste por ecualizacin de histograma con la paletaGREY256 de IDRISI for Windows, respectivamen-te. En la Figura 4 el elemento lineal que recorre lasubimagen desde el extremo superior izquierdohasta el centro a la derecha es el ro Cuarto y lamancha oscura en el centro de la imagen corres-ponde al microcentro de la ciudad de Ro Cuarto.

    Estadstica descriptiva para cada banda

    En la Tabla 2 se muestran los estadsticos descrip-tivos de las bandas que intervienen en el trabajo.

    Tabla 2. Estadsticos descriptivos de la imagen.

    Se puede observar en la tabla que las mayoresvariabilidades entre los ND (desviaciones estndaro varianzas) se presentan en las bandas 4, 5 y 7,mientras que las del espectro visible (1, 2 y 3) sonlas que presentan menos dispersin.

    En las Figuras 6 y 7 se muestran los histogramasde las bandas 2 y 5, que son la de menor y la de

    Anlisis de componentes principales en teledeteccin. Consideraciones estadsticas para optimizar su interpretacin

    N. 17 - Junio 2002 49

    Figura 4. Banda 5 original con paleta GREY256. Figura 5. Banda 5 con ensanche de contraste por ecualizacin de histograma con paleta GREY256.

  • mayor desviacin estndar respectivamente. Lalocalizacin de los histogramas permite deducir latonalidad dominante, la amplitud est relacionadacon el contraste y la presencia de picos relativos esun indicador de distintas coberturas. As la banda 2no ofrece prcticamente contraste mostrando pre-dominio de colores muy oscuros, mientras la 5muestra un mayor nivel de contraste y colores algoms claros. Por otra parte, ambos ocupan slo unapequea porcin del rango de variacin permitidopor el sensor, lo cual hace pensar que (para unamejor visualizacin) podran usarse tcnicas demejoramiento y realce, como el ensanche de con-traste por ecualizacin de histogramas que fuerapresentado para la banda 5 en la Figura 5.

    Figura 6. Histograma y estadstica descriptiva banda 2

    Figura 7. Histograma y estadstica descriptiva banda 5

    Adems de la consideracin de cada banda porseparado tambin resulta de inters tener en cuentalas relaciones entre pares de bandas, para analizar elgrado de informacin original que aporta cada una.Este anlisis puede realizarse grficamente median-te diagramas de dispersin donde cada punto tienecomo coordenadas los ND de cada pxel en cadauna de las bandas consideradas, y completarse ana-lticamente calculando el Coeficiente de Correla-cin de Pearson. Las Figuras 8 y 9 presentan losdiagramas de dispersin entre las bandas 1 y 2, y 1y 4, respectivamente. Los valores de los coeficien-

    tes de correlacin para todos los pares de bandasaparecen en la Tabla 3.

    Figura 8. Diagrama de dispersin entre bandas 1 y 2

    Figura 9. Diagrama de dispersin entre bandas 1 y 4

    COR MATRX b1 b2 b3 b4 b5 b7b1 1.000000 0.893030 0.845396 0.024537 0.312310 0.588491b2 0.893030 1.000000 0.911848 0.104067 0.358849 0.577399b3 0.845396 0.911848 1.000000 0.026410 0.462235 0.671396b4 0.024537 0.104067 0.026410 1.000000 0.277525 0.090058b5 0.312310 0.358849 0.462235 0.277525 1.000000 0.721266b7 0.588491 0.577399 0.671396 0.090058 0.721266 1.000000

    Tabla 3. Matriz de correlacin entre bandas

    A partir de la tabla, se puede ver que la mayorcorrelacin se presenta entre las bandas del espec-tro visible ( > 0.84), mientras que la banda 4(infrarrojo cercano) es la que tiene menor correla-cin con las restantes (-0.10 < < 0.28). La altacorrelacin entre las bandas 1 y 2 ( = 0.89) coin-cide con lo que se observa en la Figura 8 (puntoscercanos a una recta). Por otra parte la nube (sinningn patrn) de la Figura 9 es indicio de la faltade correlacin entre las bandas 1 y 4 ( = -0.02).

    Si los diagramas de dispersin entre todos lospares de bandas y los correspondientes coeficientesde correlacin no dan indicios de correlacin, el

    S. B. Ferrero, M. G. Palacio y O. R. Campanella

    50 N. 17 - Junio 2002

  • ACP no cumplira con el objetivo de disminuir ladimensionalidad de los datos.

    Clculo de los componentes principales a partirde la matriz de varianza-covarianza

    En la Tabla 4 se presenta la matriz de varianza-covarianza para las seis bandas. En ella se puedeobservar que los valores de las varianzas para las ban-das 4, 5 y 7 son ms altos que el resto, lo que lleva auna mayor ponderacin de stas en el anlisis.

    COR COVAR b1 b2 b3 b4 b5 b7b1 39.55 21.58 33.15 1.38 22.24 27.45b2 21.58 14.76 21.85 3.57 15.61 16.45b3 33.15 21.85 38.88 1.47 32.64 31.05b4 1.38 3.57 1.47 79.71 28.06 5.96b5 22.24 15.61 32.64 28.06 128.24 60.57b7 27.45 16.45 31.05 5.96 60.57 54.99

    Tabla 4. Matriz de varianza-covarianza

    Los autovalores calculados a partir de la matriz devarianza-covarianza se presentan en la Tabla 5 . Laltima fila de dicha tabla muestra la proporcin devarianza total explicada por cada uno de los compo-nentes. Los tres primeros componentes sintetizan el95.16% de la variabilidad total, mientras que con elcuarto retienen en conjunto el 98.16% de la variabi-lidad total. Teniendo presente que el objetivo esreducir la dimensionalidad de los datos, se podrapensar que los tres o cuatro primeros componentesconservan casi la totalidad de la informacin.

    Tabla 5. Autovalores y porcentaje de la variacin total explica-da por cada componente.

    Para generar los componentes principales se calcu-lan los autovectores que se presentan en la Tabla 6.

    COMPONENTE C1 C2 C3 C4 C5 C6b1 0.275912 0.289462 0.520971 0.104850 0.716021 0.212118b2 0.179204 0.127954 0.336464 0.101244 0.112924 0.902941b3 0.324220 0.269487 0.397912 0.278309 0.672617 0.366135b4 0.152983 0.839408 0.464789 0.223033 0.044426 0.065154b5 0.745432 0.239160 0.480430 0.376497 0.114860 0.037120b7 0.455595 0.255760 0.101024 0.842500 0.083561 0.005003

    Tabla 6. Matriz de autovectores.

    Una vez generados los componentes principales,para determinar cuntos incluir se aplicarn los trescriterios presentados:

    (a) Si se grafican los porcentajes de la variacintotal explicada por cada componente, o equivalente-mente los autovalores, (Figura 10) y se consideran loscomponentes anteriores al punto de inflexin de lacurva, se retendran los tres primeros componentes.

    Figura 10. Porcentajes de la variacin total explicada por cadacomponente.

    (b) Si se consideran los componentes cuyos auto-valores son mayores al promedio (en este caso59.36) se deberan retener los dos primeros compo-nentes (1=197.22 y 2=89.92).

    (c) Para examinar las correlaciones entre las ban-das y los componentes se calculan los coeficientesde correlacin. Por ejemplo, entre el componente 1y la banda 1 es:

    ste y los restantes se presentan en la Tabla 7. De estatabla se puede concluir que las bandas 5 y 7 son las quems contribuyen al componente 1 ( = 0.92 y = 0.86),mientras que la banda 4 tiene el menor aporte ( = 0.24). Toda la contribucin de la banda 4 est en elcomponente 2 ( = 0.89) que, por otro lado, tiene pocacorrelacin con las restantes bandas. Los valores peque-os de los coeficientes de correlacin del componente 3y ms an del 4 en adelante, indicaran que slo deber-an incluirse los componentes 1 y 2.

    LOADING C1 C2 C3 C4 C5 C6b1 0.616107 0.436441 0.595933 0.054480 0.265901 0.035781b2 0.654946 0.315762 0.629935 0.086101 0.068636 0.249289b3 0.730163 0.409795 0.459055 0.145843 0.251917 0.062288b4 0.240632 0.891523 0.374511 0.081632 0.011621 0.007742b5 0.924425 0.200263 0.305205 0.108644 0.023689 0.003477b7 0.862771 -0.327037 0.098003 0.371251 0.026317 0.000716

    Tabla 7: Correlacin entre los componentes principales y las bandas.

    Anlisis de componentes principales en teledeteccin. Consideraciones estadsticas para optimizar su interpretacin

    N. 17 - Junio 2002 51

  • De acuerdo a los criterios (b) y (c) se eligen loscomponentes 1 y 2, cuyas expresiones son:C1 = 0.276 b1 + 0.179 b2 + 0.324 b3 + 0.153 b4 + 0.745 b5 + 0.456 b7C2 = -0.289 b1 0.128 b2 0.269 b3 + 0.839 b4 + 0.239 b5 0.256 b7

    Clculo de los componentes principales a partirde la matriz de correlacin

    El ACP partiendo de la matriz de correlacin serealiza de manera anloga a la efectuada usando lamatriz de varianza-covarianza. En este caso, seestara dando la misma importancia a todas lasbandas, lo cual es deseable si no se quiere que lasque tienen mayores varianzas aparezcan como lasque ms aportan. En la Tabla 8 se muestran losautovalores y los autovectores; en la Tabla 9 se pre-sentan las correlaciones entre los componentes ylas bandas.

    COMPONENT C1 C2 C3 C4 C5 C6% var. 59.77 19.56 14.69 2.86 2.18 0.94

    eigenval. 3.59 1.17 0.88 0.17 0.13 0.06b1 0.467720 0.225803 0.281254 0.355553 0.683107 0.241028b2 0.481441 0.116958 0.358296 0.121521 0.184466 0.759845b3 0.495572 0.145641 0.130575 0.490908 0.386979 0.570442b4 0.030839 0.792667 0.529272 0.220257 0.143414 0.146692b5 0.336631 0.529742 0.488234 0.424524 0.412743 0.130778b7 0.435419 0.071939 0.506921 0.623771 0.398321 0.022718

    Tabla 8: Autovalores y autovectores de la matriz de correlacin

    COMPONENT C1 C2 C3 C4 C5 C6b1 0.885705 -0.244638 -0.264011 0.147412 -0.246895 -0.057330b2 0.911689 -0.126714 -0.336330 -0.050382 0.066671 0.180733b3 0.938449 -0.157789 -0.122570 -0.203529 0.139866 -0.135683b4 0.058399 0.858786 -0.496824 0.091318 0.051834 -0.034892b5 0.637467 0.573929 0.458302 -0.176007 -0.149177 0.031106b7 0.824538 0.077940 0.475843 0.258614 0.143965 -0.005404

    Tabla 9: Correlaciones entre componentes y bandas

    Se observa que el primer componente sintetiza el59.77% de la variacin total (porcentaje superior al55.38% del otro anlisis) y aparece fuertementeasociado con todas las bandas salvo la 4 (las ban-das del visible aportan mucho a pesar de que susvarianzas son menores al resto). El segundo com-ponente sintetiza el 19.56% de la variacin total(inferior al 25.25% del otro anlisis) y, de la mismamanera que en el primer anlisis, est altamenterelacionado con la banda 4 ( = 0.86). Los restan-

    tes componentes aparecen escasamente correlacio-nados con todas las bandas, lo cual llevara a pen-sar nuevamente en usar los dos primeros compo-nentes que retienen en conjunto el 79.33% de lavariabilidad total.

    En las Figuras 11 y 13 se muestran los histogra-mas y la estadstica descriptiva de los componentesmientras que las Figuras 12 y 14 presentan las im-genes de estos dos componentes sin y con ensanchede contraste, respectivamente.

    Figura 11. Histograma y estadstica descriptiva del componente 1

    El problema se ha reducido de seis a dos dimen-siones tanto cuando se usa la matriz de varianza-covarianza como cuando se utiliza la matriz decorrelacin. En este ltimo caso el componente 1sintetiza la informacin de todas las bandas salvola 4 que est asociada al componente 2.

    Comparando la banda 5 con los componentes 1 y2 (Figuras 5, 13 y 14, respectivamente) se puedenobservar las siguientes caractersticas:

    S. B. Ferrero, M. G. Palacio y O. R. Campanella

    52 N. 17 - Junio 2002

    Figura 12 a. Componente 1 original con paleta GREY256.

  • lo edificado se visualiza en tonos oscuros en labanda 5, en tonos claros en el componente 1 yen tonos oscuros en el componente 2;

    el agua se ve en tonos oscuros en las tres imgenes; los lotes cultivados presentan menos variacin

    de grises en la banda 5, la mxima variacin degrises en el componente 1 y una variacinintermedia en el componente 2;

    los elementos contrastantes lineales como la ave-nida de circunvalacin o el hipdromo se puedenidentificar ms claramente en el componente 1.

    CONSIDERACIONES FINALES

    Debe tenerse en cuenta que el ACP produce tan-tos componentes principales como bandas tiene laimagen. Cuando las variables originales no estncorrelacionadas, la informacin contenida en loscomponentes principales es esencialmente la

    misma que la de las variables originales. En telede-teccin, generalmente, las bandas estn altamentecorrelacionadas, entonces con un nmero menor decomponentes se conserva casi la totalidad de lavariabilidad.

    El ACP aqu presentado es un anlisis descriptivoque genera nuevas variables no correlacionadas queexpresan la informacin contenida en el conjunto dedatos. Para lograr reducir la dimensionalidad de los

    Anlisis de componentes principales en teledeteccin. Consideraciones estadsticas para optimizar su interpretacin

    N. 17 - Junio 2002 53

    Figura 12 b. Componente 1 con ensanche de contraste por ecua-lizacin de histograma con paleta GREY256.

    Figura 13. Histograma y estadstica descriptiva del componente 2.

    Figura 14a. Componente 2 original con paleta GREY256.

    Figura 14b. Componente 2 con ensanche de contraste por ecuali-zacin de histograma con paleta GREY256.

  • datos se presentaron tres criterios descriptivos quepermiten decidir el nmero de componentes a utili-zar. La decisin final de la cantidad de componentesno debera basarse en la aplicacin de uno slo deellos. Ms an existen criterios basados en pruebasde hiptesis que son vlidas bajo la distribucin nor-mal multivariada de las variables involucradas. Estopodra profundizarse en futuros trabajos.

    Si bien el ACP puede realizarse usando la matrizde varianza-covarianza o la de correlacin, en esteltimo caso se otorga a cada banda la misma impor-tancia, independientemente de los valores relativosde sus varianzas.

    En la interpretacin de los resultados obtenidos,debe tenerse en cuenta que, por realizar transforma-ciones lineales, los valores no corresponden a ND ypor tanto no deben asociarse a la respuesta espectraldel terreno.

    En teledeteccin el ACP en una tcnica til comopaso previo para otros anlisis. Cuando se realizauna composicin color con los primeros componen-tes principales usualmente se distinguen ms cober-turas que si se utilizan las bandas. Por otra parte, en

    aplicaciones multitemporales en las que interesadetectar cambios, se seleccionan los ltimos com-ponentes porque ofrecen la informacin no comn.

    BIBLIOGRAFIA

    CHUVIECO SALINERO, E. 1996. Fundamentosde Teledeteccin espacial. Madrid. EdicionesRIALP. 568p.

    JOHNSON, R.; WICHERN,D. 1992. Applied mul-tivariate statistical analysis. Nueva Jersey. Ed.Prentice Hall. 640p.

    MARDIA, K.V.; KENT,J.T.; BIBBY,J.M. 1982.Multivariate analysis. Londres. Ed. AcademicPress. 521p.

    PLA, L.E. 1986. Anlisis multivariado: Mtodo decomponentes principales. Washington. Ed.Organizacin de Estados Americanos (OEA).95p.

    RICHARDS, J.A., JIA, X. 1999. Remote sensingdigital image analysis. Alemania. Ed. Springer-Verlag. 363p.

    S. B. Ferrero, M. G. Palacio y O. R. Campanella

    54 N. 17 - Junio 2002