Regresion Lineal Simple y Calibración

25
4 CALIBRACION Y REGRESIÓN LINEAL SIMPLE 4.1. Correlación 4.2. Introducción a la regresión lineal simple 4.3. El método de regresión de mínimos cuadrados 4.4. Condiciones de validez de un modelo de regresión de mínimos cuadrados 4.5. Transformaciones matemáticas sobre las variables 4.6. Incertidumbres de los coeficientes de regresión y de las predicciones 4.7. La regresión ponderada 4.8. El método de adiciones de estándar o calibración interna 4.9. El método de regresión de la distancia ortogonal

description

Capitulo Sobre calibracion y regresion lineal del libro Quimiometria de G.Ramis y C.Garcia -Ed. sintesis

Transcript of Regresion Lineal Simple y Calibración

  • 4CALIBRACION Y REGRESIN

    LINEAL SIMPLE

    4.1. Correlacin4.2. Introduccin a la regresin lineal

    simple4.3. El mtodo de regresin de mnimos

    cuadrados4.4. Condiciones de validez de un modelo

    de regresin de mnimos cuadrados4.5. Transformaciones matemticas sobre

    las variables4.6. Incertidumbres de los coeficientes

    de regresin y de las predicciones4.7. La regresin ponderada4.8. El mtodo de adiciones de estndar

    o calibracin interna4.9. El mtodo de regresin de la distancia

    ortogonal

  • 82 Quimlometra

    4.1. Correlacin

    La correlacin es una medida de la asociacin en tre dos variables. Por ejem plo, tal como se m uestra en el cuadro 4.1 y en la figura 4.1, las concentraciones de hierro y aluminio en aguas naturales estn correlacionadas, de modo que para cada objeto, cuando la concentracin de hierro es alta, la de aluminio tambin lo es, y viceversa. Por otro lado, como se ilustra en el cuadro 4.2 y en la figura 4.2, la m ateria orgnica oxidable en suspensin y el oxgeno disuelto estn inversamente correlacionados. Cuando aumenta la m ateria orgnica en suspensin, la concentracin de oxgeno disminuye, y viceversa.

    CUADRO 4.1Concenfraciones de hierro y aluminio en muestras

    de aguas

    Muestra Fe(lll), pg/mL Al(lll), ng/m l

    1 0,22 82 0,29 33 0,40 204 0,52 155 0,59 256 0,65 457 0,77 52

    60

    J 40 E

    < 20

    0[ ______0,2 0,4 0,6 0,8

    Fe(III), ng / mL

    FIGURA 4.1. Grfico de dispersin de las concentraciones de hierro y aluminio en aguas, mostrando correlacin

    directa entre ambas variables.

    CUADRO 4.2Concentraciones de materia orgnica

    oxidable y oxgeno disuelto en muestras de aguas

    Muestra Materia orgnica, pg/mL

    Oxgeno disuelto, mg/mL

    1 24 4,82 60 4,23 113 3,74 206 3,15 393 1,9 534 0,67 612 0,09

    5-i---------------------------------------------------------------------------

    4-

    * 3'Eo"c.? z '3O

    1-

    oj_________t___________________________0 200 400 600 800

    Materia orgnica, pg / mL

    FIGURA 4.2. Grfico de dispersin de materia orgnica oxidable en suspensin y oxgeno disuelto en aguas, mostrando correlacin inversa entre ambas variables.

    Cuando existe correlacin, los valores a lo largo de las dos variables estn ligados entre s de algn modo, de forma que una variable proporciona informacin sobre la otra. As, una muestra de agua natural con una concentracin alta de hierro es probable que tenga tambin una concentracin alta de aluminio. Anlogamente, una m uestra de agua sin m ateria orgnica en suspensin contendr probablem ente una concentracin elevada de oxgeno disuelto.

    La asociacin entre variables se estim a mediante la covarianza y el coeficiente de correlacin lineal de Pearson, r. Supngase que se dispone de una serie de n objetos, para los que se han tom ado m edidas de dos variables. Para la

  • Captulo 4: Calibracin y regresin lineal simple 83

    variable x se tiene: x1,x 2, ..., xi , xn , mientras que para la variable y, los valores son: y 1, y2, yi , yn. En el clculo de la covarianza y del coeficiente de correlacin, slo interesa el grado de asociacin entre las dos variables, siendo indiferente cul de las dos es la dependiente y cul la independiente. La covarianza se calcula mediante la expresin:

    cov(x, y) = --------------------- [4.1]n - 1

    donde x = ( 2 x ) /n e y - Q ^ y ) /n son las medias de las respectivas series. El punto (x ,y ) se denomina centroide, baricentro o centro de gravedad de la nube de puntos bidim ensional. Para los ejemplos anteriores, la covarianza hierro-aluminio es cov (x,y) = 3,319, y la covarianza materia orgnica-oxgeno, cov (x,y) = -426. Las cova- rianzas son positivas cuando las variables covaran en el mismo sentido, y negativas cuando lo hacen en sentido opuesto.

    Como medida de asociacin entre variables, la covarianza tiene el inconveniente de que depende de la escala en la que se expresan las variables. As, por ejemplo, si la m ateria orgnica se expresa en pg/L, su covarianza con el oxgeno valdr cov (x,y) = -0,426. Puesto que la covarianza depende de la escala, y adems no est acotada, observando nicamente su valor no es posible saber si dos variables estn fuerte mente asociadas, o si su asociacin es dbil.

    Por ello, para medir la asociacin entre variables se prefiere utilizar el coeficiente de correlacin lineal, que es una medida relativa de la covarianza. Se calcula dividiendo la covarianza por las desviaciones estndar de las dos series:

    = cov(x,y) = X(*,- -* )(y , - y )

    - y )2[4.2]

    Este coeficiente es adimensional y, por tanto, independiente de la escala de las variables. A de

    ms, est acotado entre -1 y +1, de modo que su valor se interpreta con facilidad. Valores de r prximos a +1 o a -1 indican una fuerte correlacin lineal directa o inversa, respectivamente. Para los ejemplos anteriores, es evidente que la correlacin materia orgnica-oxgeno, con r = -0,9966, es inversa, pero a la vez es ms im portante que la correlacin directa hierro-aluminio, con r - 0,9121. Un valor de r prximo a cero indica que no existe correlacin lineal entre r e y , tal como sucede en la figura 4.3. El clculo de r suele estar programado internam ente en las calculadoras cientficas de bolsillo.

    1,0 1,2 1,4 1,6 1,8 2,'

    Edulcorante, mg /1 0 0 mL

    FIGURA 4.3. Grfico de dispersin de dos variables no correlacionadas: concentracin de edulcorante en refrescos y absorbancia en el visible (r = -0,108).

    D ebe tenerse en cuenta que r slo aprecia relaciones lineales entre las variables, lo que puede conducir a errores de interpretacin si no se observa adems el grfico de dispersin de una variable frente a la otra. Por ejemplo, la figura 4.4 m uestra un caso en el que r = 0,995 y, sin embargo, las variables no estn correlacionadas linealmente. De no haberse obtenido el grfico se podra pensar que se tra ta de variables con una buena correlacin lineal, pero con datos algo dispersos.

    La figura 4.5 m uestra otro caso en el que r = 0. En ausencia del grfico se puede pensar que se trata de variables no correlacionadas, cuando

  • 84 Quimiometra

    en realidad las variables estn fuertemente correlacionadas, pero la correlacin no es lineal.

    Concentracin

    FIGURA 4.4. Grfico de dispersin de dos variables con correlacin no lineal. El coeficiente de correlacin lineal

    es r = 0 ,995.

    es3O.in 0) 0

    5,8

    5,0

    4,2

    3,4

    2,610 12 14 16

    otra correlacionada con ella. Se acta de este modo por necesidad o por conveniencia. As, en gravimetra, la masa total de un analito presente en una muestra se mide directamente aislando dicho ana- lito y pesndolo como compuesto puro. En volu- metra se realizan tambin medidas directas de la masa de analito presente en la muestra. Sin embargo, estas tcnicas no pueden aplicarse a trazas, ni tampoco a micromuestras, puesto que la masa de analito presente es demasiado pequea.

    La solucin es medir la masa de analito de un modo indirecto, a travs de propiedades fsicas o qumico-fsicas distintas de la masa, pero correlacionadas con ella, tales como la absorbancia, la fluorescencia, o la emisin atmica. Por otra parte, en comparacin con la medida directa de la masa, la medida de estas propiedades es ms rpida y supone, en la mayora de los casos, un ahorro considerable de tiem po y esfuerzo, y una mejora en la selectividad.

    Los mismos criterios de necesidad o conveniencia se aplican en otras muchas circunstancias, en las que se m iden unas variables con el objeto de predecir otras correlacionadas con ellas. Algunos ejemplos son:

    Ejemplo 4.1. Ciertas variables medidas en el laboratorio sobre un producto industrial pueden estar correlacionadas con la preferencia de los consumidores. Probablemente, para fijar la categora y el precio del producto, sea mucho ms rpido y barato realizar medidas de laboratorio que repetir cada vez la encuesta a los consumidores.

    Estmulo sensorial

    Figura 4.5 . Grfico de dispersin de dos variables con correlacin no lineal. El coeficiente de correlacin lineal

    es r = 0.

    4.2. Introduccin a la regresin lineal simple

    4.2.1. Planteamiento del problema

    En numerosas ocasiones, una variable no se mide directamente, sino que se estima a partir de

    Ejemplo 4.2. La calidad del vino aumenta con el nmero de das clidos y soleados, y disminuye con la cantidad de lluvia cada. Por tanto, las variables meteorolgicas sirven para predecir la calidad de la produccin incluso antes de la vendimia.

    Ejemplo 4.3. La utilizacin de leche de vaca en la fabricacin de quesos declarados como puros de oveja o cabra reduce el precio de coste del producto, pero supone un fraude al consumidor. Al analizar una muestra de queso, el porcentaje de leche de vaca no puede medirse directamente. A cambio, se

  • Captulo 4: Calibracin y regresin lineal simple 85

    pueden cuantificar algunas protenas de origen bovino correlacionadas con dicho porcentaje (por ejemplo, a-lactoalbmina bovina).

    4.2.2. Problemas de regresin de tipo I y II

    La prediccin de una variable a partir de otra se realiza construyendo un modelo matemtico denominado recta de regresin. Los modelos se construyen de modo distinto si el problem a de regresin es de tipo I o de tipo II.

    a) En la regresin de tipo I el experim entador controla una de las dos variables, cuyos valores son conocidos, o bien se pueden seleccionar previam ente con mucha precisin. En cambio, no tiene control sobre la otra variable, cuyos valores estn asociados a una incertidum bre apreciable. U na gran parte de los problemas de calibracin en Qumica Analtica son de tipo I: la precisin con que se conocen las concentraciones de los estndares suele ser mucho mejor que la precisin de las correspondientes seales instrumentales.

    b) En la regresin de tipo II no existe control de ninguna de las dos variables por parte del experim entador, por lo que pueden estar sujetas a incertidumbres del mismo orden. D entro del campo de la Qumica Analtica, se tiene este caso, por ejemplo, cuando se comparan los resultados obtenidos analizando las mismas muestras por dos m todos distintos: la precisin de un m todo puede ser algo mejor, pero raramente ser despreciable frente a la precisin dada por el otro mtodo.

    4.2.3. El modelo de regresin lineal simple de tipo I

    Si el problema es de tipo I, la variable controlada por el experimentador se constituye en independiente, x, y la otra en dependiente, y. En el pro

    ceso de calibracin o calibrado, se prepara un conjunto de n estndares con valores conocidos, (x., y), y se utilizan los pares de valores para construir un modelo capaz de predecir valores de x a partir de valores de y, o viceversa. En el caso ms simple, la relacin entre ambas variables es lineal:

    w/v t M y ~ A)+ A + [4-3]

    ' donde p0 y /I, son los parm etros pob lacionales del modelo, que no se conocen, y la variable e es

    -el error o diferencia entre el resultado observado y el predicho por el modelo. Ms concretamente, es la ordenada en el origen o intersec- to poblacional, y P1 es la pendiente poblacional del modelo. Estos parm etros poblacionales se estiman a partir de los n pares de medidas (x;., yt) utilizando un m todo de regresin. Se tiene:

    Ou-y ~ b 0 + b1x [4.4]

    donde jp es la prediccin de y, b0 es la estimacin de p0, y bx la estimacin de 51; >0 y b1 se denominan coeficientes de regresin. Para cada x, la diferencia entre el valor real observado, y . , y el valor predicho, , es el residual o residuo, e .:

    e i = y i - J } i [4 -5 ]

    La figura 4.6 ilustra sobre el significado de las ecuaciones [4.4] y [4.5].

    FIGURA 4.6. Estimacin de la recta de regresin, mostrando los puntos experimentales y el centroide.

  • 86 Quimiometra

    Si la relacin entre x e y no es lineal, y la curva es suave, es recomendable utilizar como modelo la ecuacin cuadrtica:

    y = bQ + b^x + b2x2 [4.6]

    c) La varianza total de los puntos en ausencia de modelo, que se calcula como la suma de cuadrados de las desviaciones de los puntos respecto al centroide, SCj,, dividida por el nmero de grados de libertad, n - 1 :

    En regresin lineal simple, los modelos se suelen utilizar en el modo de retroceso: se hacen predicciones de la variable independiente x (la concentracin) a partir de valores conocidos de la variable dependiente y (la seal instrumental). E n este caso, el m odelo se utiliza al revs de como se ha escrito y construido. En cambio, en regresin mltiple y multivariante (captulo 9), los modelos se utilizan en el modo de avance: la variable independiente x es siem pre la pre- dictora (la seal instrumental) y la dependiente y es siempre la respuesta (por ejemplo, una concentracin).

    ,2 _ Z(y, - y )2T n - 1

    SC T n - 1 [4.9]

    Como es fcil de comprobar, la relacin entre las tres sumas de cuadrados es:

    SCT = SCexp + SCres [4.10]

    de donde:

    s2T n - 1n - 2 2------- T S re,n - 1

    [4.11]

    4.2.4. El coeficiente de determinacin r2

    Cuando los datos han sido ajustados a un modelo como el de la ecuacin [4.4], se pueden calcular tres varianzas de inters:

    a) La varianza explicada por el m odelo, que es la suma de cuadrados de las desviaciones de los valores predichos respecto al centroide en la direccin de la variable x, SC , dividida por el nm ero de grados de libertad, que es uno (dos grados de libertad debidos a y. menos uno debido a y). Se tiene:

    4 = X 0 W ) 2 = S C exp [4.7]

    b) La varianza residual, o suma de cuadrados de las desviaciones de los puntos en la direccin de la variable y, SCres, dividida por el nm ero de grados de libertad, que en este caso es n - 2:

    _ Xfo - y y _ scrn - 2

    [4.8]

    Por tanto, el modelo divide la varianza total en dos, la explicada por el modelo y la residual. Se puede dem ostrar que el cuadrado del coeficiente de correlacin lineal, r2, es igual a:

    ,2 = Z f o - y ) 2 = s c ^

    l < y , - y ) 2 s c x[4.12]

    El parm etro r2 se denomina coeficiente de determinacin, y expresa el porcentaje de variacin to ta l de los datos que es explicado por el modelo. As, si r2 = 1, el ajuste es perfecto, y la varianza explicada es el 100% de la total, m ientras que si no existe correlacin lineal entre las variables, cualquier modelo dar r2 = 0, que indica que la varianza explicada es el 0% de la total.

    4.3. El mtodo de regresin de mnimos cuadrados

    El mtodo ms frecuentemente utilizado para estimar los coeficientes de un modelo de regresin es el de mnimos cuadrados. Para problemas de regresin de tipo I, el m odelo se obtienen - 2

  • Captulo 4: Calibracin y regresin lineal simple 87

    haciendo mnima la suma de los cuadrados de los residuos, que se han definido en la direccin de la variable sujeta a error aleatorio:

    Ie,2 - y i f = Z ( y , - &o - V , ) 21=1 i=i

    [4.13]

    D erivando respecto a b0 y a b , e igualando ambas derivadas a cero se obtiene el sistema de ecuaciones normales:

    Z ? / = V * + *iX* m) pa ra hacer posible la validacin del m odelo, y tam bin porque el m odelo se construye una sola vez para ser utilizado con un elevado nm ero de m uestras problem a. Los lmites de confianza de b0 , bx y x l m ejo ran al aum en tar n, sin em bargo , p a ra valores de n m ayores que 10 el aum ento es despreciab le frente al trm ino llm - 1/3.

    El tercer sumando es proporcional a la distancia entre y y y. Se deduce que el error disminuye cuando las m edidas se aproxim an al centro ide, y tam bin, que no deben realizarse lecturas en los extremos del intervalo abarcado por los datos de calibrado, y menos an fuera de dicho intervalo. La figura 4.10 ilustra cmo aumentan los lmites de confianza de x r a medida que la lectura se aleja del centroide.

  • 96 Quimiometra

    FIGURA 4.10. Forma general de los lmites de confianza de una prediccin, x(, realizada con una recta de

    regresin obtenida con datos homocedsticos.

    paracin de la m uestra, la ecuacin [4.34] para el clculo de la varianza de la prediccin, sj, se modifica como sigue:

    (y, - y )2~ x )2

    [4.37]

    Una prediccin realista requiere incluir en sj todas las fuentes de varianza significativas que influyen sobre las m edidas realizadas con la muestra, comenzando por la varianza de la toma de muestra. Si sj s2e , el error de la prediccin depender exclusivamente de s 2, de la pendiente de la recta y del nmero de rplicas:

    Por ltimo, el denominador del tercer sumando indica que el error disminuye al aum entar el intervalo de valores de x abarcado en el calibrado, y tambin se reduce si se separan lo ms posible entre s los valores x . A tendiendo a este ltimo criterio, el error es mnimo si la mitad de los n puntos se acumulan en el extremo inferior del intervalo de calibrado, y la otra mitad en el extremo superior. Sin embargo, si el calibrado se realiza de esta forma no es posible verificar la linealidad, lo que justifica la prctica habitual de repartir los puntos regularmente a lo largo de todo el intervalo.

    4.6.3. Incertidumbres asociadas al tratamiento de la muestra

    Habitualmente las muestras experimentan un proceso de elaboracin ms complejo que los estndares. Cada una de las etapas de dicho proceso, desde la misma toma de muestra, hasta la m edida instrum ental, pasando por la pesada, disolucin, extraccin, etc., aade incertidumbre a la medida. Por ello, la incertidumbre asociada a la medida de muestras problema, s2, es mayor que la incertidumbre de las medidas realizadas con estndares, s2. e

    Para tener en cuenta la influencia de fuentes adicionales de varianza asociadas a la toma y pre-

    4.7. La regresin ponderada

    Si los datos son heterocedsticos, o si se ha perdido la hom ocedasticidad al linealizar el modelo, la recta de regresin ordinaria se puede utilizar para realizar predicciones, pero no sirve para calcular los lmites de confianza. Para obtener estimaciones realistas de los lmites de confianza de b0, bl y x , se tienen dos soluciones alternativas:

    a) Aplicar una transform acin m atem tica sobre ambas variables para conseguir homocedasticidad, tal como se ha explicado en el apartado 4.5, y utilizar la recta de regresin sin ponderar. sta es la solucin ms recomendable cuando uno de los dos cocientes sy ly, o bien s2ly, es aproximadamente constante.

    b) U tilizar una recta de regresin ponderada. Esta solucin se utiliza cuando ninguno de los cocientes sy ly o s2ly se m antiene constante, o tam bin, cuando se ha realizado una transform acin m atem ti

  • Captulo 4: Calibracin y regresin lineal simple 97

    ca sobre y, f(y ) , tal que ninguno de los cocientes sf(y)/f(y ) o s2(y)lf(y) se m antiene constante.

    En caso de heterocedasticidad, ambas soluciones perm iten calcular varianzas y lmites de confianza realistas, coincidentes con las incertidumbres de los experimentos reales. El trmino realista significa que los valores de s0, ^ y s calculados a partir de una nica recta de regresin con n puntos, coinciden con los que se pueden obtener repitiendo la recta N veces, calculando N valores de b0, bx y xl , y utilizando dichos valores para calcular s0, s1 y .

    m ente a un solo valor de x. A continuacin, se establece la relacin entre si, . y s2 aplicando la frmula de la propagacin del error aleatorio a f(y). Finalmente, los valores de s2(y). se calculan a partir del valor nico de sy (ver ejemplo 4.12).

    b) Si sy/y es constante, los valores de 5 . se establecen experimentalm ente tan soio a dos valores de , uno bajo y otro alto, y cualquier o tro valor se in terpola linealmente:

    4.7.1. La funcin de ponderacin

    En regresin ponderada, la influencia de la heterocedasticidad se elimina aplicando pesos a los puntos experimentales, lo que es equivalente a repetir el punto tantas veces como indica su peso. La funcin de ponderacin ms frecuentemente utilizada es la inversa de la varianza de y:

    1[4.39]

    donde w es el peso del punto i. Utilizando esta funcin de ponderacin, los puntos que se conocen con m enor incertidum bre adquieren ms importancia en relacin a los puntos asociados a una incertidumbre mayor.

    Inconvenientes de la ponderacin frente a la ausencia de ponderacin son el m ayor trabajo experimental requerido para hallar las varianzas s7 para todos los valores x , y la mayor complejidad de los clculos. Sin embargo, si los datos heterocedsticos proceden de una transform acin m atem tica sobre y, es muy probable que no sea necesario determinar sj( ) ms que a uno o dos valores de x. Los casos favorables son:

    donde j y sn son las varianzas determ inadas experimentalmente para x x y xn. Despejando^,.:

    _ (s - ^ )(x - jq)+ 5, [4.41]

    A continuacin se opera como en el caso anterior.

    c) Si s 2/y es constante, se interpola respecto a sy. La interpolacin lineal se hace del modo como se indica en la ecuacin [4.41], pero utilizando las varianzas en lugar de las desviaciones estndar.

    4.7.2. Clculo de la recta de regresin ponderada

    El modelo de regresin sigue siendo el indicado en la ecuacin [4.4], sin embargo, se minimiza la suma de cuadrados de los residuos, multiplicando cada residuo al cuadrado por su peso, vv; :

    S = X w(y ~ bo - bA i f [4.42] /=!

    a) La variable y es hom ocedstica, en cuyo caso s2y i se puede estim ar experim ental-

    La pendiente se puede calcular mediante cualquiera de las dos expresiones siguientes:

  • 98 Quimiometra

    , = ' w i(x - x w)(y - y j =

    w(x , ~ xJ 2

    = [443]

    X * ^ 2 - X w^

    donde y y w son las coordenadas del centroideponderado, que se calculan como sigue:

    X ^ /U-U - v

    X w[4.44]

    X WU, u = v

    X w[4.45]

    Puesto que la recta de regresin ponderada pasa por el centroide ponderado, la ordenada enel origen se calcula mediante:

    bo = 7W~ V [4.46]

    Los efectos de la ponderacin sobre la recta de regresin son:

    a) El centroide ponderado, (xw,?w), est ms cerca de la regin de concentraciones donde es m enor la incertidumbre de los valores experimentales, y i , que el centroide no ponderado, (x, y); frecuentem ente, esta regin es la zona de concentraciones bajas.

    b ) Se pueden calcular las varianzas y los lmites de confianza de b 0 y b 1 , y de las p re dicciones de v, s.

    Ejemplo 4.12. En el cuadro 4.7 se m uestran los datos correspondientes a una determinacin de perxido de hidrgeno por un mtodo cintico de concentracin constante (ecuacin [4.27]). Sabiendo que las medidas de t tienen una precisin de st - 0,1 s, calcular las rectas de regresin ponderada y sin ponderar, y com parar las p redicciones realizadas en cada caso para el resultado tj = 12 s.

    Respuesta. Si no se aplican pesos, la recta de regresin es: 1 lt - -0,0021 + 0,0125 C. Para un problema en el que se tenga t = 12 s, resulta CI = 6,83 pM. Por otro lado, para calcular la recta de regresin ponderada, es necesario establecer previamente los pesos. De las ecuaciones [4.28] y [4.39], se deduce:

    Los pesos resultantes se m uestran en el cuadro 4.8. Para no manejar nmeros excesivamente grandes, los pesos se pueden escalar. Un escalado sencillo consiste en dividir los pesos por el m enor de ellos, tal como se ha hecho en la ltima fila del cuadro 4.8.

    Utilizando las ecuaciones [4.43] a [4.46], se tiene la recta de regresin: 1 lt = - 0,0021 + 0,0121 C. A la vista de los pesos se deduce que la recta pasa por el pun to 1, que es el que se conoce con mayor precisin. La prediccin para tI = 12 s es C = 7,07 pM. Este valor es ms fiable que el obtenido anteriorm ente, 6,83 pM, pero lo ms im portante es que la regresin ponderada permite calcular su incertidumbre.

    CUADRO 4 .7Determinacin de perxido de hidrgeno por un mtodo cintico

    de concentracin constante

    / i 2 3 4 5 6

    C, fjM l 6,6 14,0 24,0 34,0 42,0t, s 100 13,2 5,6 3,3 2,4 1,9

    l A S-' 0,01 0,0758 0,179 0,303 0,417 0,526

  • Captulo 4: Calibracin y regresin lineal simple 99

    CUADRO 4.8Pesos de los puntos para el ejemplo de la determinacin de perxido de hidrgeno

    i 1 2 3 4 5 6

    W 1,00 x 1010 3,04 x 106 9,83 x 104 1,19 x 104 3,32 x 103 1,30 x 103< 7,69 x 106 2,34 x 103 76 9,2 2,6 1

    4.7.3. Las incertidumbres de los parmetros del modelo ponderado

    Como se ha hecho anteriormente, se calcula primero la varianza de los residuos:

    2 > ( y , - ) 2 [4.48]

    En regresin ponderada, y debido al trmino l/(m w/ ), la precisin de las predicciones vara con el peso del punto donde se hace la lectura. En general, el trmino l/(m vv7) aumenta rpidamente cuando aumenta x, de modo que se obtienen lmites de confianza mayores a valores altos de concentracin. Esta conclusin, que se ilustra en la figura 4.11, concuerda con la mayora de los experimentos de calibracin reales.

    Este valor se utiliza en el clculo de las varian- zas de la ordenada en el origen y de la pendiente de la recta de regresin ponderada:

    2 2 *0,w = s, w X w.- > * ? - X wix l )

    [4.49]

    s2l,w X s2e, w

    wixf - X wi*[4.50]

    Finalmente, la varianza de las predicciones de x viene dada por:

    i i ( y i - y j 2mw X w< 6 ? ( X ^ 2- X ^ )

    [4.51]

    FIGURA 4.1 1. Forma general de los lmites de confianza de una prediccin, x (, realizada con una recta de

    regresin ponderada obtenida con datos heterocedsticos.

    4.8. El mtodo de adiciones de estndar o calibracin interna

    donde vv7 es la ponderacin de la seal de la muestra y , . Los lmites de confianza de b0,b 1y x r se calculan del mismo m odo como se ha1, Whecho para la recta no ponderada (ecuaciones [4.32], [4.33] y [4.35]).

    E n num erosas ocasiones, la interaccin del analito con el particular entorno qumico-fsico en el que se encuentra produce una exaltacin o una inhibicin de la sensibilidad, lo que se conoce como efecto matriz. Este efecto se ilustra en

  • 100 Quimiometra

    la figura 4.12, en la que se com paran rectas de calibrado realizadas en ausencia y presencia de efecto matriz.

    Si el efecto m atriz se m anifiesta como una exaltacin de la sensibilidad (parte A de la figura), la concentracin de la muestra, x , da lugar a una seal ms alta que la esperada: y 'e n lugar de yt . Cuando se utiliza esta lectura, y, para predecir la concentracin utilizando la recta de calibrado de que se dispone (no corregida), se obtiene un valor ms alto, x, por tanto, se produce un error sistemtico por exceso. En cambio, si la sensibilidad est inhibida (parte B de la figura), la concentracin de la muestra, x , da lugar a una seal ms baja que la esperada, y. Cuando se utiliza ypara predecir la concentracin, se obtiene un valor de xms bajo, esto es, se produce un error sistemtico por defecto.

    Las dos soluciones posibles para reducir el efecto matriz son:

    a) Preparar la serie de estndares imitando la composicin de la m uestra, lo que se conoce como calibracin externa.

    b) P reparar la recta de calibrado de form a que todos los estndares contengan muestra, y la contengan en la misma cantidad. Este procedimiento se denomina m todo de adiciones de patrn o de estndar, o calibracin in terna. Se aplica cuando la

    matriz es compleja y no puede ser imitada artificialmente.

    Ninguna de ambas soluciones ofrece garantas suficientes de que el error sistemtico por efecto matriz se haya eliminado por completo, lo que obliga a validar la exactitud de los mtodos analticos mediante los procedimientos que se explican en el captulo 5.

    Entre otras ventajas, la calibracin externa es ms precisa que la calibracin interna. Es as porque en la calibracin externa las predicciones se realizan por interpolacin, mientras que la recta de regresin de la calibracin in terna obliga a realizar las predicciones por extrapolacin, lo que conlleva un mayor error aleatorio. Por esta razn, se suele recurrir a la calibracin interna tan slo cuando no se consigue desarrollar y validar un m todo de calibracin externa.

    4.8.1. Diseo de los experimentos en calibracin interna

    El primer punto de un calibrado de adiciones de patrn se obtiene con una alcuota de la misma m uestra sin modificar, o con las mnimas modificaciones que sean necesarias para poder p reparar los dems puntos del calibrado. Una modificacin habitual consiste en realizar una

    FIGURA 4.1 2. Rectas de calibrado sin efecto matriz (a), y con exaltacin (b) e inhibicin (c) de la sensibilidad. Error sistemtico cometido en cada caso: (A) por exceso, y (B) por defecto.

  • Captulo 4: Calibracin y regresin lineal simple 10 1

    dilucin con un cierto volumen de disolucin, el mismo para todos los puntos de la serie de estndares. Para p reparar el prim er punto del calibrado, la m uestra se diluye con una disolucin (por ejemplo, un tam pn) que no contiene ana-

    lito. Para preparar los dems puntos de la serie se sustituye progresivamente el volumen de tampn por volm enes com plem entarios de una disolucin estndar del analito. El cuadro 4.9 m uestra un ejemplo de diseo de este tipo.

    CUADRO 4.9Ejemplo de diseo experimental para calibracin interna

    Estndares de calibracin, i blanco 1 2 3 4 5

    Volumen de muestra, mL 10* 10 10 10 10 10Volumen de estndar, mL 0 0 2 5 7 10Volumen de tampn exento de analito, mL 10 10 8 5 3 0Agua hasta completar el volumen a: 25 25 25 25 25 25

    * Analito eliminado, destruido o inactivado.

    El primer punto contiene, por tanto, la cantidad de analito original de la muestra, y los dems puntos de la serie contienen esta misma cantidad, ms cantidades crecientes y conocidas de un estndar de ese mismo analito. El prim er punto del calibrado interno no debe confundirse con el blanco, en el cual no hay analito, o bien, ste ha sido inactivado de algn modo.

    Tanto en calibracin externa como interna es necesario preparar un blanco, con el fin de eliminar el efecto de las interferencias, esto es, el desplazamiento del cero debido a seales no producidas por la presencia del analito. En ambos mtodos de calibracin, la escala de ordenadas se inicia en la seal del blanco, o lo que es igual, la seal del blanco se debe restar de todas la medidas. Si se utiliza como cero de ordenadas la seal dada por el disolvente puro , o lo que es peor, el cero del instrumento, se puede cometer un error sistemtico considerable.

    4.8.2. La recta de regresin en calibracin Interna

    En el mtodo de adiciones o calibracin interna, el modelo de regresin es el mismo que en el m todo de calibracin externa, sin embargo, las

    predicciones se realizan de otro modo. Como se ilustra en la figura 4.13, el valor predicho, xE (E = valor extrapolado), corresponde al punto de corte entre la recta de regresin extrapolada y el eje de abscisas.

    FIGURA 4.1 3. Calibracin por el mtodo de adiciones: puntos experimentales (o) y su centroide (). El origen

    del eje y est situado en la media de las seales del blanco (yb).

    El resultado tambin puede calcularse como xE- b 0/b1, esto es, como el cociente entre la ordenada en el origen y la pendiente. En efecto, para

  • 102 Quimiometra

    el punto en que la recta corta al eje de abscisas se tiene: y = b0 + bl x E = 0, y despejando resulta: x e = ~b o, b i obtiene una concentracin negativa debido a que la lectura se realiza en la parte negativa del eje de abscisas, donde la concentracin crece en sentido contrario a como lo hace en la zona positiva, donde figuran las concentraciones de los estndares. Por tanto, es lgico invertir el signo y tomar el valor xE = bQlb x.

    La varianza de la prediccin viene dada por:

    i +__ r__n bl'ZiXi- * ) 2

    [4.52]

    Como se ha hecho anteriorm ente , si hay homocedasticidad, los lmites de confianza se calculan como:

    xE ts E [4.53]

    Si las medidas son heterocedsticas, se puede aplicar una transform acin sobre las variables, o bien utilizar la regresin ponderada. En este ltimo caso, la varianza de la prediccin se calcula como sigue:

    bl

    [4.54]

    D e las ecuaciones [4.52] y [4.54] se pueden ex traer las siguientes consecuencias de orden prctico:

    a) Igual que en calibracin externa, la precisin m ejora si los puntos estn poco dispersos, y si bx es elevada.

    b) Al aumentar n (o en su caso, w .), mejora la precisin, pero debido a la presencia del otro sumando dentro del corchete, no se obtendrn mejoras importantes para n > 4. Adems, debe tenerse en cuenta que el mtodo requiere realizar un calibrado con cada muestra. Por esta razn, para ahorrar trabajo experimental es frecuente utilizar n - 3.

    c) El segundo sumando del corchete es cero cuando x = x E. En efecto, para las coordenadas del centroide se tiene:y - b0 + bx x. D ividiendo por bx resulta: y l bx - bQlb x + x = x - x E. Por tanto, el cociente (yl bx)2 que forma parte del segundo sumando se reduce a cero si x = xE. As, la varianza de la prediccin es mnima cuando la cantidad de analito en la m uestra es igual a la cantidad de analito que corresponde al centroide de la recta de regresin del m todo de adiciones.

    La figura 4.14 ilustra sobre esta ltima conclusin. Si el intervalo abarcado por los puntos

    FIGURA 4.14. Diseos incorrectos de la serie de estndares en calibracin interna: (A) intervalo de calibracin demasiado grande; (B) intervalo de calibracin demasiado pequeo.

  • Captulo 4: Calibracin y regresin lineal simple 103

    de calibrado es demasiado grande en relacin a la cantidad de analito presente en la m uestra, cualquier pequeo error en la estimacin de la ordenada en el origen tiene una influencia muy grande sobre el valor predicho. En el caso opuesto, en el que se abarca un intervalo de calibrado demasiado pequeo, un error en la estimacin de la pendiente tiene una influencia muy grande sobre xE. Para obtener resultados con unos lmites de confianza aceptables, los calibrados por el mtodo de adiciones deben tener el aspecto que muestra la recta de la figura 4.13, donde x ~ xE.

    4.8.3. Limitaciones de la calibracin interna

    La aplicacin ms im portante de la calibracin in terna es la deteccin del efecto matriz. Existe efecto matriz cuando la recta de calibrado interno no tiene la misma pendiente que la recta de calibrado externo. Las posibles situaciones se ilustran en la figura 4.15. Sin embargo, el m todo de adiciones, por s solo, no garantiza la deteccin y la eliminacin del efecto matriz. Las dos rectas pueden tener la misma pendiente, y sin embargo existir un efecto matriz no descubierto. Por otro lado, si las rectas muestran distin ta pendiente, la utilizacin del calibrado in terno perm ite evitar parcial o totalm ente el error sistemtico debido al efecto matriz, si bien, en ningn caso se tienen garantas suficientes de que el efecto matriz se haya reducido en un grado satisfactorio.

    Tambin debe recordarse que la calibracin interna no es capaz de descubrir ni corregir interferencias. La correccin de interferencias depende exclusivamente de la elaboracin del blanco. Otras limitaciones del m todo de adiciones son:

    a) Puesto que se trata de un mtodo de extrapolacin, la medida de la m uestra se realiza lejos del centroide, por lo que las varianzas y los lmites de confianza de las predicciones son bastante mayores que las obtenidas mediante calibracin externa.

    A: x = xE

    xE

    B: x> xE

    xE X, X

    y yyyy

    C: x< xE y ///

    yy

    yy

    yy

    yy

    yy

    yy

    y__ :__________________

    7 i !/ \/ \/ [/ // ./ ! c__________ !________

    FIGURA 4.15. Comparacin de calibrados externo e interno: (A) ninguno de los calibrados revela la existencia

    de efecto matriz; (B) el calibrado interno muestra exaltacin de la sensibilidad; (C) el calibrado interno

    muestra inhibicin de la sensibilidad.

    b) Si la relacin seal-concentracin no es lineal, el m todo de adiciones no puede aplicarse. Salvo si se dispone de un modelo fiable, una curva no se puede extrapolar. Si se adopta una aproxim acin, tal como la ecuacin cuadrtica, las predicciones realizadas por extrapolacin son muy imprecisas e inexactas.

  • 104 Quimiometra

    c) El trabajo experimental es mayor que en calibracin externa, puesto que la calibracin debe repetirse para cada muestra. Es as porque, en general, el efecto m atriz vara de una muestra a otra. Si se demuestra que el efecto matriz se mantiene constante al cambiar de muestra, el mtodo de adiciones deja de ser necesario: la pen diente del calibrado externo se puede multiplicar por un coeficiente que corrija el error sistemtico.

    d) R epetir el calibrado con cada m uestra implica un gasto mayor de muestra, lo que puede ser un problema cuando se dispone de cantidades limitadas de la misma, como en el anlisis de muestras arqueolgicas, muestras tomadas de obras de arte, estudios con animales de laboratorio, etc.

    5Iy - 4 + (*L - s l y )2 + 4(cov(x,y))2

    2 cov(x,y)[4.55]

    donde s2A{ y s2A son las varianzas a lo largo de las series de datos x e y i , por lo que no deben confundirse con s2x y s2y. Se calculan como sigue:

    s2Ax- x ) 2

    n - 1[4.56]

    ,2 _ Z(y, -y )2 [4.57]

    La ordenada en el origen se calcula mediante la ecuacin [4.17],

    4.9. El mtodo de regresin de la distancia ortogonal

    En diversas ciencias experimentales, se plantea con frecuencia la construccin de modelos de regresin con variables que presentan varianzas del mismo orden. En Qumica Analtica, este problema se presenta, por ejemplo, cuando se analiza una serie de muestras con distintas concentraciones de analito, y se comparan los resultados con valores de referencia obtenidos con otro mtodo, o en otro laboratorio, o tomados del certificado de garanta de un material de referencia (ver captulo 5). En estos casos, si no es aceptable la ecuacin [4.18], no deben utilizarse modelos de regresin de tipo I, ya que no tienen en cuenta la varianza de x.

    En los m odelos de regresin de tipo II, se tom an en cuenta las varianzas de ambas variables. Modelos de tipo II se pueden construir con el m todo de la distancia ortogonal, que hace mnima la suma de los cuadrados de las distancias ortogonales (en sentido perpendicular) de los puntos a la recta, X d 2. Las distancias o residuos ortogonales son los indicados en la figura 4.16. La pendiente se calcula como sigue:

    ....................................... d ,

    y

  • Captulo 4: Calibracin y regresin lineal simple 105

    Ejem plo 4.13. E l cuadro 4.10 m uestra los resultados correspondientes a la determinacin de magnesio en una serie de m uestras de referencia certificadas de fertilizantes. Los valoresde x son las medias obtenidas en el laboratorio,r

    y los de y' son los valores certificados. Se quiere saber si el m todo utilizado est sujeto a error sistemtico por interferencia (la ordenada en el origen no es cero) o efecto matriz (la ordenada en el origen es distinta de la unidad).

    CUADRO 4 .10Determinacin de magnesio en muestras certificadas de fertilizantes

    g/kg Y . g/kg x = log x' y = log / y

    0,420 0,033 0,435 0,018 -0,3768 0,034 -0,3615 0,018 -0,37660,91 0 ,06 0,87 0,03 -0 ,0410 0,030 -0,0605 0,015 -0 ,04871,90 0,11 1,79 0 ,08 0,2788 0,025 0,2529 0 ,01 9 0,2635

    2,58 0,15 2,44 0,11 0,4116 0 ,025 0,3874 0,020 0,39324,95 0,31 4,72 0,20 0,6946 0,027 0,6739 0,01 8 0,66956,64 0,42 6,35 0,27 0,8222 0,027 0,8028 0,018 0,7941

    Respuesta. Los datos son heterocedsticos para ambas variables x' e y', pero la D E R es constante; vale aproximadamente un 6% para x \ y un 4% para y ' . Por tanto, como se ha hecho en el mismo cuadro 4.10, los datos pueden convertirse en homocedsticos tomando logaritmos. Para facilitar la escritura es conveniente hacer: x - log x' e y = log y'. Ahora se tiene una desviacin estndar aproxim adam ente constante para ambas variables, con valores en torno a sx = 0,028 y a sy = 0,018 (ecuacin [4.20]). Ambas desviaciones son del mismo orden, y la pendiente de la recta de regresin est prxima a la unidad, por lo que, si se quieren calcular lmites de confianza es necesario utilizar una regresin de tipo II.

    Las coordenadas del centroide son: x= 0,2982 e y = 0,2825. Se tiene: = 1,0156/5 = 0,2031, ys2 = 0,9682/5 = 0,1936. A partir de la ecuacin [4.1], cov (x,y) = 0,1983, y aplicando las ecuaciones [4.55] y [4.17], resulta: y = -0,00868 + 0,9764 x.

    Para obtener los intervalos de confianza de bQ y b1 se deben calcular sus varianzas, com en

    zando por la varianza de los residuos. El clculo de los residuos con la ecuacin [4.58] requiere conocer los valores de y sobre la recta ajustada para todos los valores de x. Los valores de y se muestran en la ltima columna del cuadro 4.10. Aplicando la ecuacin [4.58] resulta: sj = 7,786 x 105. Tom ando este valor en lugar de s2e en las ecuaciones [4.30] y [4.31], y operando, se tiene: s2 - 1,98 x 105 y Sj = 7,67 x 10-5, de donde: s0 = 0,00445 y 5, = 0,00876.

    Finalm ente, de la tab la de S tudent de dos lados, para a = 0,05 y 4 grados de libertad, se obtiene t = 2,776. Para la ordenada en el origen resulta: bQ + t sQ = -0,00868 + 2,776 x 0,00445 = 0,0037. Por tanto, el cero se encuentra dentro del intervalo de confianza. Se acepta que no existe error sistemtico debido a interferencias. A nlogamente, para la pendiente resulta: bx + t s1 = 0,9764 + 2,776 x 0,00876 = 1,0007. Por tanto, la unidad se encuentra dentro del intervalo de confianza. Se acepta que no existe error sistemtico debido a efecto matriz.