Problemario TDE

download Problemario TDE

of 51

Transcript of Problemario TDE

  • 7/24/2019 Problemario TDE

    1/51

    1

    EJERCICIOS PARA TALLER DE BIOESTADSTICADr. Alberto Castillo Morales

    INTRODUCCIN

    El cambio de los programas de estadstica en las carreras de Ingeniera de los alimentos e Ingenierabioqumica industrial da importancia al uso de la estadstica como herramienta para la investigacinexperimental y en general para el manejo de la informacin. El uso de la computadora para obtenerlos resultados deseados, con el objetivo de dedicar mayor tiempo a la discusin y sus fundamentos,modifica la forma de enseanza. Se plantea el problema y se realiza el anlisis, a la vista de losresultados se hace una discusin que permita incidir en los conceptos estadsticos que la

    fundamentan, regresando al planteamiento del problema, la decisin sobre el anlisis adecuado y ladiscusin que resuelve el problema.

    El Taller de Bioestadstica cubre, con enfoque prctico, los temas usuales de estadstica descriptiva,estimacin y pruebas de hiptesis sobre la media y la varianza de una o dos poblaciones normales.El aprovechamiento del taller requiere una introduccin a las distribuciones y una revisin detalladadel proceso de estimacin y de las pruebas de hiptesis, todo esto se har revisando los resultadosdel anlisis estadstico.

    El conjunto de problemas resueltos en este documento facilitar al profesor incidir en la teora de laestimacin y de la prueba de hiptesis partiendo de que el alumno puede realizar, usando el paquete

    R o el Excel, los clculos que le llevan a los resultados de anlisis adecuados a cada problema. Unavez resueltos, se les puede discutir y plantear problemas similares que permitan profundizar en losconceptos de la estadstica para interpretar correctamente los resultados.

    Los datos de los problemas fueron generados por el autor, basndose en su experiencia y en labibliografa de cada problema, a semejanza de los valores reales, que ya estn analizados y podrnser consultados por el lector.

    NDICE

    INTRODUCCIN 1

    1. ENCUESTA DE CALIDAD 21.1. EJERCICIO SOBRE SABOR DE CERVEZA 6

    2.. RECUENTO DE BACTERIAS 72.1. EJERCICIO SOBRE CONTEO DE BACTERIAS NOCIVAS EN EXUDADO DE CARNE 12

    3. COMPARACIN DE DOS MTODOS DE MEDICIN 133.1. EJERCICIO. BICARBONATO EN EL AGUA POTABLE DE RIO Y DE POZO PROFUNDO EN

  • 7/24/2019 Problemario TDE

    2/51

    2

    TRES CIUDADES 20

    4. OXGENO DISUELTO EN AGUAS RESIDUALES 214.1. EJERCICIO SOBRE EXUDADO EN EL EMPAQUE DE CARNE 33

    5. MANGANESO Y COBRE EN GRANOS DE CAF 345.1. EJERCICIO SOBRE PRODUCCIN DE HUEVO 39

    6. SELECCIN DE MICROORGANISMOS 406.1. EJERCICIO SOBRE CALIDAD DE ACEITE DE SOYA 50

    1. ENCUESTA DE CALIDAD

    Se hizo una encuesta a los compradores de jamn en los almacenes WW. Se les ofreci unamuestra (aparte de su compra) de jamn AA y se les pidi que indicaran la calidad del producto enescala de regular, bueno, muy bueno y excelente. Los resultados de la encuesta se presentan acontinuacin, codificando con 1= regular, 2= bueno, 3= muy bueno y 4= excelente.

    4 3 3 2 4 4 4 4 4 4 1 2 2 4 3 2 3 2 4 4 4 1

    1 3 4 4 4 2 4 1 4 2 4 4 3 4 1 4 4 4 3 4 1 44 4 2 4 2 4 3 4 4 4 4 1 3 4 2 4 4 2 2 3 2 42 4 4 4 2 4 4 3 3 4 1 2 3 2 3 4 2 3 2 1 3

    La tabla de frecuencias y porcentajes permite comprender los resultados:

    Calidad Frecuencias Frecuenciaacumulada

    Porcentaje Porcentajeacumulado

    Regular 9 9 10.34 10.34Buena 19 28 21.84 32.18Muy buena 16 44 18.39 50.57

    Excelente 43 87 49.43 100.00

    La mayor frecuencia de respuestas, 43, es para excelente calidad, esto ser motivo de orgullo, perolos productores de jamn AA deberan prestar atencin a los 28 compradores que catalogaron al

    jamn como regular o bueno, ya que los compradores buscan muy bueno o excelente.

    Las frecuencias se refieren al total de 87 compradores que participaron, y para tener una idea que nodependa del nmero de personas en la muestra se utiliza el porcentaje o tanto por ciento que lecorresponde a cada frecuencia. As, el 49.43% de los participantes dijeron que el jamn AA era deexcelente calidad. Tambin el 32.34% dijo que apenas era regular o bueno. Una grfica de barraspara los porcentajes puede facilitar la interpretacin.

  • 7/24/2019 Problemario TDE

    3/51

    3

    La presentacin de las grficas depende del gusto de quien las presenta. En ocasiones se prefiereuna grfica circular, o de pastel como la siguiente:

    Para mostrar en una grfica el porcentaje acumulado de regular y bueno, se usan los porcentajesacumulados.

    Calidad del jamn AA

    Porcentaje

    10.3

    21.8

    18.4

    49.4

    0

    10

    20

    30

    40

    50

    Regular Buena Muy buena Excelente

    PORCENTAJES DE CALIDAD

    Regular 10.3%

    Buena 21.8%

    Muy Buena 18.4%

    Excelente 49.4%

  • 7/24/2019 Problemario TDE

    4/51

    4

    En esta grfica con valores acumulados el porcentaje de calidad buena se refiere al porcentaje

    acumulado de buena y regular, 32%. Note que el porcentaje de muy buena y excelente es de 68%.Los resultados para este problema se obtienen con el paquete estadstico R usando las instruccionessiguientes, a las que escrib comentarios que ayudan a modificar las instrucciones para resolverproblemas similares.

    Gua de R para problema 1

    baseCalidad

  • 7/24/2019 Problemario TDE

    5/51

    5

    # Se crea la tabla (frame) bca2 con 4 columnas: sabor, frecuencias,Proporciones y Prop.Acumuladasbca2 # Se muestra la frame bca2names(prop)

  • 7/24/2019 Problemario TDE

    6/51

    6

    En la pestaa de Datosmarque Anlisis de datosy seleccione Histograma. La ventanilla deHistograma tiene una casilla que solicita el rango de datos, estando en ella, marque los datos, luegoestando en la casilla de clases, seleccione lo que escribi en la columna B. Marque Rango deresultadosy sitese en esa casilla, estando en ella marque un rea que va de D2 a H10.Marque Rtulosporque sus datos tienen el nombre de la cada columna en la primera celda. MarquePorcentaje acumuladopara que lo presente como resultado.

    Histograma produce una tabla con las frecuencias de las respuestas y el porcentaje acumulado. Si

    Excel escribe un rengln con la clase ms de 4 elimnelo.Se completa la tabla calculando las frecuencias acumuladas y los porcentajes. Para que la tabla sevea mejor, coloque el ttulo de tabla.

    Para las grficas se pide primero una grfica de barras marcando como datos a las clases y lasfrecuencias, luego una grfica circular o de pay usando como datos las clases y los porcentajes,finalmente una grfica de barras con los datos de clases y de frecuencias acumuladas. Como Excelpide que estn juntas las columnas de clases y frecuencias, mquelas juntas. Debido a que clases yporcentaje acumulado no estn juntas, cpielas de manera que estn juntas para pedir la segundagrfica. En cada grfica se deben poner los ttulos de grfica y de ejes horizontal y vertical.

    BIBLIOGRAFA

    Castillo M. A. Estadstica aplicada. Trillas, 2013.Escarela, Gabriel. R para todos. Un enfoque aplicado al anlisis estadstico bsico. UAM.I, 2014.

    1.1. EJERCICIO SOBRE SABOR DE CERVEZA

    En un estudio sobre el sabor de tres cervezas que llamaremos Cerveza1, Cerveza2 y Cerveza 3. A

    cada uno de 35 clientes se les presentaron tres tarros iguales de vidrio no transparente. En cadatarro haba una porcin de 15 ml de una de las tres cervezas. Se les pregunt en cul de los trestarros estaba la cerveza ms amarga. El investigador conoca la cerveza que estaba en cada tarro yanotaba la cerveza que cada cliente consider ms amarga. Los datos son:

    2, 1, 1, 3, 2, 2, 2, 3, 2, 2, 1, 1, 2, 2, 1, 3, 2, 3, 3, 1, 1, 2, 2, 2, 2, 2, 1, 2, 1, 2, 3, 1, 2, 1, 2

    Presente los resultados de su anlisis. Siga los mismos procedimientos que en el problema deCalidad, haciendo los cambios pertinentes. Debe llegar discutir cada uno de los resultados queobtenga. En este caso no es conveniente utilizar las frecuencias y porcentajes acumulativos.Debe obtener la tabla de frecuencias siguiente para asegurarse que sus datos son correctos.

    Cerveza FrecuenciaCerveza1 11Cerveza2 18Cerveza3 6

    Los dems resultados y su discusin seguirn los lineamientos del problema 1.

  • 7/24/2019 Problemario TDE

    7/51

    7

    2 . RECUENTO DE BACTERIAS

    REFERENCIA

    Pozo Z. G.A. Optimizacin de la operacin de un reactor aerbico de biopelcula bacterianainmovilizada: incidencia de los nutrientes en la biostesis de polihidroxialcanoato (PHA) comoproducto del tratamiento de efluentes de celulosa Kraft. Tesis de Maestra en Microbiologa .Universidad de Concepcin, 2009. (Ver seccin 4.6. Recuento viable y acumulacin de PHA por labiomasa bacteriana)Nota: El ejercicio se acondiciona a las necesidades del curso a partir de la aplicacin en la literatura

    El recuento de clulas en un campo de visualizacin es una manera de medir la concentracin debiomasa bacteriana. Las clulas vivas se colorean de verde y las muertas (membrana permeable) derojo (microscopa de epifluorescencia). El recuento est sujeto a variacin debido a diferencias en elnmero de clulas en los diferentes los campos de visualizacin.

    Al obtener varias muestras se puede revisar el recuento de clulas vivas y muertas y la magnitud dela variacin. Tambin se puede conocer la relacin entre clulas vivas y muertas. Once campos devisualizacin produjeron los datos siguientes:

    RECUENTO DE CLULAS (multiplique por 106 para obtener nmero/ml)CAMPO DE VISUALIZACI N 1 2 3 4 5 6 7 8 9 10 11Clulas vivas 4.6 5.2 4.5 5.2 4.7 3.1 5.3 6.1 5.1 4.8 4.0Clulas muertas 2.6 3.6 3.9 3.1 5.2 3 3.2 4.4 2.9 5.0 4.4

    Para resumir los datos se utilizan los estadsticos de localizacin mnimo, media, mximo, y lavariacin se resume usando la desviacin estndar y el recorrido o rango.

    Variables Media Desviacin estndar Mnimo Mximo Recorrido

    Vivas 4.7818 0.7757 3.1 6.1 3.0Muertas 3.7545 0.8881 2.6 5.2 2.6

    La media de recuentos de clulas vivas por ml de 4.7818x106= 4781800. En todo el ejercicio seutiliza el recuento por campo dividido entre 106para facilitar la lectura de los datos. Media, mnimo,mximo y recorrido de clulas vivas es mayor al valor correspondiente de clulas muertas. Ladesviacin de clulas vivas es menor que la de clulas muertas.

    El intervalo de confianza para la media da una idea ms clara del valor desconocido de la media dela distribucin de valores del recuento de clulas. En la tabla que sigue estn los intervalos al 95%de confianza para la media del recuento de clulas vivas y muertas.

  • 7/24/2019 Problemario TDE

    8/51

    8

    INTERVALOS DE CONFIANZA PARA LAS MEDIAS DERECUENTOS# Clulas Vivas/(ml 106) # Clulas Muertas/(ml 106)Parmetro Media = v Parmetro Media = mEstimacin 4.781818 Estimacin 3.754545Error estndar 0.2338679 Error estndar 0.267773295% Inicio IC 4.260728 95% Inicio IC 3.1579195% Final IC 5.302908 95% Final IC 4.351182

    El intervalo con 95% de confianza para la media vde clulas vivas, suponiendo distribucin normal,inicia en 4.2607 y termina en 5.3029, esto quiere decir que la media est entre 4.2607 y 5.3029 conconfianza de 0.95. El intervalo permite la interpretacin conservadora de 4.26 y la interpretacinoptimista de 5.30 para la media, con la estimacin insesgada de 4.7818. Para clulas muertas elintervalo con 95% de confianza para la media mva de 3.15791 a 4.351182 y la media muestral vale3.754545.

    Las clulas muertas tienen mayor valor de desviacin estndar, pero menor recorrido, esto se puedever en la grfica de cajas.

    La grfica de cajas que est en seguida, vea la de la derecha, de clulas muertas que inicia abajocon un punto que es el mnimo, coincide con el inicio del eje inferior, luego sigue la caja, delimitadapor abajo por el primer cuartil y por arriba por el tercer cuartil. Dentro de la caja se muestra lamediana, que separa al 50% de los datos iguales o menores que ella y al 50% de los datos mayoreso iguales que ella. Recuerde que dentro de la caja est el 50% de los datos, abajo de ella est el25% de los ms pequeos y encima de ella el 25%, los ms grandes. El tamao de los ejes esvariable, su valor mximo es de 1.5 la longitud de la caja. Arriba de la caja el mximo correspondecon la terminacin del eje.

    En la caja de la izquierda, que es la de clulas vivas, se ve un punto abajo del eje inferior, es el valormnimo y se presenta fuera del eje porque est ms alejado de la caja que el tamao permitido parael eje. Debido a que el mnimo est fuera del eje inferior, es candidato a ser valor atpico y debe

    2

    3

    4

    5

    6

    7

    vivas muertas

    GRAFICA DE CAJAS PARARECUENTO DE CLULAS

    Tipo de clulas

    Recuentos#/mlE-6

  • 7/24/2019 Problemario TDE

    9/51

    9

    revisarse si hubo un error en el conteo, o en su captura, pues ese valor est haciendo que crezca ladesviacin estndar y la longitud del intervalo de confianza.

    Note que la grfica que corresponde al recuento de las clulas muertas muestra una caja de mayorlongitud que la del recuento de clulas vivas, esto quiere decir que el 50% de los datos centralesest ms disperso en el recuento de clulas muertas que en el de clulas vivas. En clulas muertasno hay puntos fuera de los ejes, no hay sospecha de datos atpicos.

    La relacin entre los dos recuentos en cada campo de visualizacin (muestra) se puede ver en undiagrama de dispersin.

    En el diagrama de dispersin de los recuentos de clulas se pueden ver dos puntos alejados delconjunto, uno a la izquierda abajo y otro hacia la derecha a altura media. Los nueve puntos restantesmuestran que a recuentos similares de clulas vivas, hay valores pequeos y grandes para el

    recuento de clulas muertas. No se ve una relacin entre los dos recuentos en cada campo devisualizacin.

    En el cuadro siguiente estn los intervalos con 95% de confianza para las desviaciones estndar(D.E.) de los recuentos (divididos entre 106).

    INTERVALOS DE CONFIANZA PARA LAS DESVIACIONES ESTNDARDE RECUENTOS# Clulas Vivas/(ml 106) # Clulas Muertas/(ml 106)Parmetro D.E. = v Parmetro D.E. = mEstimacin 0.7756522 Estimacin 0.8881032

    95% Inicio IC 0.5419614 95% Inicio IC 0.620532895% Final IC 1.361218 95% Final IC 1.558562

    Para clulas vivas el intervalo de 95% de confianza para la desviacin estndar va de 0.5420 a1.3612, para clulas muertas inicia en 0.6205328 y termina en 1.558562.

    Aunque parece que las medias de los dos tipos de clulas son diferentes, puede probarse si no loson. Se plantea la hiptesis nula de medias iguales y la alternativa de que la media de recuentos declulas vivas es mayor que el de clulas muertas, se escribe H0: v=mcon HA: v>m. Suponiendo

    2.5

    3.0

    3.5

    4.0

    4.5

    5.0

    5.5

    3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5

    DISPERSIN PARA LOS RECUENTOSDE CLULAS

    CLULAS VIVAS

    CLULAS

    MUERTAS

  • 7/24/2019 Problemario TDE

    10/51

    10

    distribucin normal y varianzas iguales, la prueba de t unilateral a la derecha produce un valor p de0.0045 que es menor que 0.05, esto lleva concluir que la muestra da evidencia de que la media delrecuento de clulas vivas es mayor que el de clulas muertas, con 5% de significacin.

    PRUEBA DE T PARA DIFERENCIA DE MEDIAS IGUAL ACERO SUPONIENDO VARIANZAS IGUALESHiptesis alternativa:Diferencia (vivas)-(muertas) > 0

    Valor de t valor p2.8895 0.004532

    Los valores de los intervalos de confianza para las desviaciones estndar permitieron que se hicierala suposicin de varianzas iguales para la prueba de t, ya que coincidieron en los valorescomprendidos entre 0.6205328 y 1.361218. Si no se tiene experiencia se puede hacer la prueba de Fde igualdad de varianzas que se muestra en el cuadro siguiente.

    PRUEBA DE F PARA IGUALDAD DE VARIANZASHiptesis alternativa:Varianzas no son iguales

    Valor de F valor p1.3110 0.676716

    Esta prueba se refiere a la divisin entre las dos varianzas, H0: v/m=1 con HA: v/m1. Da un

    valor p de 0.6767 que es mayor que 0.05 y permite concluir que la muestra no da evidencia de quelas varianzas sean diferentes, para fines prcticos se les considera iguales.

    Tambin se puede probar lo que se sospecha en el diagrama de dispersin, que no hay correlacin,o que la correlacin es cero. Usando la correlacin de Pearson para los recuentos de clulas vivas ymuertas, se obtiene un valor de r= 0.114814 con valor p de 0.7368. Para la prueba de que no haycorrelacin, que se escribe H0: v=0 con HA: 0. Como el valor p=0.7368 es mayor que 0.05 seconcluye que no hay evidencia de que la correlacin sea diferente de cero.

    Los resultados para este problema se obtienen con el paquete estadstico R usando las instruccionessiguientes, a las que se adicionan comentarios que ayudarn a modificar las instrucciones pararesolver problemas similares.

    Gua de R para problema 2

    baseRecuentos

  • 7/24/2019 Problemario TDE

    11/51

    11

    mestdesc # Se muestra el vector de estadsticos descriptivos de Muertasbrec2

  • 7/24/2019 Problemario TDE

    12/51

    12

    Para usar las instrucciones del R siga los 10 pasos en la lista que se present en el problema 1, elproblema de Calidad, cambiando el nombre del archivo de Excel a recuentos.csv y el del script asRecuentos.

    Gua de Excel para Problema 2

    Para obtener los resultados con Excel, una vez que est en la hoja con los datos recuentos.csvconviene usar la parte de anlisis de datos que se activ el problema anterior. En Anlisis de datos

    seleccione Estadstica descriptiva. En la ventanilla de estadstica descriptiva proporcione el rango deentrada (los datos) y de salida (de D2 a M15), asegrese de marcar que los datos estn en columna,marque rtulos y marque resumen de estadsticas y nivel de confianza para la media. Losestadsticos descriptivos tambin se pueden obtener con las funciones estadsticas, pero requierepedir cada funcin. Pida los cuartiles 1 y 3 usando la funcin Cuartil, en la ventanilla de cuartilestando en Matriz marque una de las columnas de datos, en cuartil escriba 1, haga lo mismo para laotra columna de datos, luego en cuartil ponga 3 para el tercer cuartil. El recorrido se obtiene restandoel primer cuartil del tercero.

    El Excel no tiene rutina para obtener la grfica de cajas.

    Para la grfica de dispersin seleccione la versin de puntos de la grfica de dispersin yproporcione los datos, con rtulos.

    La prueba de t para dos muestras suponiendo varianzas iguales se encuentra en Anlisis de datos.Proporcione los rangos de los datos de las dos columnas, la diferencia hipottica es cero. En losresultados seleccione el valor p para una cola.

    La prueba de F para varianzas de dos muestras tambin est en Anlisis de datos. Proporcione losrangos de los datos como en la prueba de t. En el resultado se da el valor p unilateral (para unacola) que se debe multiplicar por dos parta tener el valor p para la prueba de igualdad de varianzasbilateral (contra varianzas diferentes).

    El coeficiente de correlacin se pide tambin en Anlisis de datos. No da valor p para la prueba deque no hay correlacin; para obtenerlo de puede usar la regresin lineal y tomar el valor p delcoeficiente de regresin.

    BIBLIOGRAFA

    Castillo M. Alberto. Estadstica Aplicada. Trillas 2014.Escarela, Gabriel. R para todos. Un enfoque aplicado al anlisis estadstico bsico. UAM.I, 2014.

    2.1. EJERCICIO SOBRE CONTEO DE BACTERIAS NOCIVAS EN EXUDADO DECARNE

    Se estudi la presencia de dos tipos (T1 y T2) de bacterias que pueden causar mal olor en losexudados de paquetes de carne fresca de dos presentaciones de una compaa. Se hicieron conteosde un campo de visualizacin del microscopio en ocho muestras, una de cada semana de trabajo.Los datos en miles de bacterias por ml son:

  • 7/24/2019 Problemario TDE

    13/51

    13

    BACTERIA muestra1 muestra2 muestra3 muestra4 muestra5 muestra6 muestra7 muestra8T1 2.1 1.9 0.2 1.5 0.9 0 1.4 0.3T2 0 0.4 0.5 0.8 0.2 0 0.9 0.1

    Haga el anlisis de los datos siguiendo los procedimientos del problema de recuentos.Sera conveniente capturar estos datos directamente usando el R. Para ello, estando en el R use lainstruccin datos > edit(data.frame()) y teclee los datos por columna (sin ttulo).

    Si sus datos estn bien capturados debe obtener los estadsticos descriptivos en la tabla

    Bacteria Media Desviacin estndar Mnimo Mximo RecorridoT1 1.0375 0.8070006 0 2.1 2.1T2 0.3625 0.350255 0 0.9 0.9

    El resto de los anlisis y discusiones deber ser similar a lo realizado en el problema 2, derecuentos. Se sugiere resolver por completo usando R, discutiendo cada resultado. Luego obtengalas grficas y resultados relevantes en Excel, no es necesario hacer la grfica de cajas con estepaquete, pero si tiene inters siga alguno de los procedimientos presentados en internet.

    3. COMPARACIN DE DOS MTODOS DE MEDICIN

    REFERENCIA

    Escudero, L., Bustos, L., Cerutti, S., Martnez, L.D. y Gsquez, J.A. Graphical representation ofanalytical data: comparison of different analysts using an acid-base titration and box-whisker plots.Chem. Educator 2009, 14, 66-69.Nota: El ejercicio se acondiciona a las necesidades del curso a partir de la aplicacin en la literatura.

    Para determinar el contenido de bicarbonatos disueltos en el agua potable, se puede utilizar unasolucin de 0.0049 de cido M hidroclrico (Titracin), y como indicadores hay dos opciones: rojo demetilo o el verde de bromocresol. El punto en el que termina la titracin ocurre cuando hay uncambio de color en el indicador y el dato es la cantidad usada de la solucin en ml. Se hicieron 25determinaciones a 20 ml de agua potable usando los dos indicadores en cada una de cuatrociudades, los datos se muestran en la tabla siguiente.

    Ciudad 1, color verdem1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m1314.67 14.51 14.5 14.61 14.58 14.68 14.6 14.63 14.42 14.51 14.61 14.67 14.66m14 m15 m16 m17 m18 m19 m20 m21 m22 m23 m24 m25

    14.58 14.55 14.62 14.69 14.48 14.61 14.49 14.61 14.59 14.49 14.51 14.55Ciudad 1,color rojom1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m1314.56 14.76 14.57 14.62 14.82 14.64 14.59 14.65 14.5 14.52 14.59 14.6 14.64m14 m15 m16 m17 m18 m19 m20 m21 m22 m23 m24 m2514.61 14.62 14.59 14.73 14.66 14.62 14.58 14.61 14.7 14.57 14.7 14.51

    Ciudad 2, color verdem1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m1314.92 15.04 15.04 15 14.97 14.84 15 14.97 14.96 14.91 14.89 14.87 14.73m14 m15 m16 m17 m18 m19 m20 m21 m22 m23 m24 m25

  • 7/24/2019 Problemario TDE

    14/51

    14

    14.99 14.95 15.01 14.9 14.95 14.88 14.94 14.84 14.92 14.97 14.92 14.89

    Ciudad 2, color rojom1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m1314.94 14.94 14.94 14.91 15.06 14.98 14.98 15.01 14.93 14.97 14.91 14.93 14.98m14 m15 m16 m17 m18 m19 m20 m21 m22 m23 m24 m2514.94 15.04 14.97 15.09 15.01 15.05 14.98 14.94 14.88 15.15 14.94 14.96

    Ciudad 3, color verdem1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m1315.88 16.09 15.98 15.95 15.94 15.91 15.96 16.22 15.9 16.07 15.8 15.87 16.03m14 m15 m16 m17 m18 m19 m20 m21 m22 m23 m24 m2515.88 16.02 16.01 16.15 16 15.9 16.01 15.99 16.03 16.05 15.98 15.8

    Ciudad 3, color rojom1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m1316.02 15.96 16.33 15.95 16.03 15.93 16.12 16.07 16.08 16.02 16 16.05 15.99m14 m15 m16 m17 m18 m19 m20 m21 m22 m23 m24 m2516 16.09 15.9 15.98 16.07 15.92 16.05 16.22 16.1 16.24 16.02 15.97

    Ciudad 4, color verdem1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m1315.11 15.21 15.12 15.13 15.07 15.23 15.09 15.01 15.15 15.04 15.15 15.11 15.08m14 m15 m16 m17 m18 m19 m20 m21 m22 m23 m24 m2515.06 15.35 15.02 15.14 15.02 15.15 15.16 15.03 15.19 15.03 15.08 15.11

    Ciudad 4, color rojom1 m2 m3 m4 m5 m6 m7 m8 m9 m10 m11 m12 m13

    15.12 15.08 15.17 15.12 15.03 15.23 15.02 15.09 15.19 15.18 15.44 15.29 15.43m14 m15 m16 m17 m18 m19 m20 m21 m22 m23 m24 m2515.2 15.17 15.25 15.11 15.07 15.2 15.35 15.18 15.17 15.38 15.11 15.07

    En la tabla con los datos, m quiere decir muestra, as m1 es la muestra 1, m2 la muestra 2, etc. Encada ciudad, la muestra 1 de color verde corresponde con la muestra 1 de color rojo, etc., as 14.67 y14.56 son las cantidades de solucin agregada usando los indicadores verde y rojo en la primeramuestra de la ciudad 1, 14.51 y 14.76 corresponden a la segunda muestra, y 14.55 y 14.51 a lamuestra nmero 25 de la ciudad 1.

    Estos datos se pueden utilizar para visualizar la localizacin y la dispersin de las determinaciones.

    Conviene revisar si alguno de los indicadores presenta mayor variacin y/o localizacin. Si haydiferencia en la variacin, se puede pensar que uno de los indicadores es menos preciso, y si haydiferencias en la localizacin, se tendra un indicio de que uno de los indicadores da valores mayoresde bicarbonato disuelto en el agua que el otro. Las comparaciones se pueden hacer a todos losdatos o tomando en cuenta la clasificacin por ciudad.

    Se comienza obteniendo estadsticos descriptivos y grficas que muestren la localizacin y ladispersin de los datos.

    Ciudad Colorante media mediana desv.est. mnimo mximo1 verde 14.5768 14.59 0.0728 14.42 14.691 rojo 14.6224 14.61 0.0757 14.5 14.822 verde 14.932 14.94 0.07 14.73 15.042 rojo 14.9772 14.97 0.0621 14.88 15.153 verde 15.9768 15.98 0.0995 15.8 16.223 rojo 16.0444 16.02 0.1017 15.9 16.334 verde 15.1136 15.11 0.0783 15.01 15.354 rojo 15.186 15.17 0.1166 15.02 15.44

  • 7/24/2019 Problemario TDE

    15/51

    15

    Observe que la media de solucin adicionada es mayor para el indicador rojo en cada ciudad, lomismo ocurre con la mediana, los mnimos y los mximos. La desviacin estndar es mayor pararojo excepto en la ciudad 2.

    Las presentaciones grficas ayudan a comprender las diferencias de valores de los estadsticoslistados.

    La grfica de cajas para los datos de las cuatro ciudades, usando las 100 muestras, permite verquee el indicador rojo produce mayor mnimo, primer cuartil, mediana, tercer cuartil y mximo. Estatendencia lleva a pensar que el indicador de color rojo produce valores mayores de solucinagregada, pero esto se puede deber a la variacin aleatoria en las muestras y en el proceso demedicin. Ms adelante haremos las pruebas de hiptesis para probar estas diferencias.

    A continuacin est la grfica de cajas para cada colorante en cada ciudad. Son slo 25 casos paracada caja. Para cada ciudad, el colorante rojo da una caja desplazada hacia arriba con respecto a ladel colorante verde. Los puntos fuera de los ejes se perfilan como datos atpicos, entendiendo por

    esto que se separan del conjunto de datos por ms que 1.5 veces el rango intercuartlico. Los cincocasos que pueden ser atpicos, pueden deberse a un error de captura. Si la captura fue correctadebe revisarse si hay alguna nota en la libreta de campo que indique contaminacin de la muestra enla manipulacin en el laboratorio, o algn otro detalle que pudiera haber causado un valor tan alejadode los dems. Si no hay causa aparente, conviene tener en mente que pueden ocurrir esos valoresde manera puramente aleatoria.

    14.0

    14.5

    15.0

    15.5

    16.0

    16.5

    verde rojo

    Solucin adicionada. n=100

    Solucinml

  • 7/24/2019 Problemario TDE

    16/51

    16

    En el diagrama de dispersin los 25 puntos de las muestras de cada ciudad se agrupan separadosde los puntos de las otras ciudades, esto se debe a que el agua en cada ciudad tiene diferentecantidad de bicarbonatos. La ciudad 4 , ms hacia la derecha y arriba requiere mayor cantidad desolucin que las otras. Lo ideal ser que los dos indicadores (verde y rojo) dieren lugar a puntos queformaran una lnea recta para cada ciudad. Se observa variacin que no se debe al contenido debicarbonato, sino a imprecisiones en las mediciones, que por azar dan valor mayor a la solucinagregada para un colorante con respecto al valor del otro.

    14.0

    14.5

    15.0

    15.5

    16.0

    16.5

    1 2 3 4 5 6 7 8

    Solucin adicionada. n=25 en cada caja,por ciudad y tipo de colorante

    1=C1v, 2=C1r, 3=C2v, 4=C2r, 5=C3v, 6=C3r, 7=C4v, 8=C4r; v=verde, r=rojo

    Solucin ml

  • 7/24/2019 Problemario TDE

    17/51

    17

    Lo que mostraron las medias de solucin de indicador agregada, y las grficas, con valores mayorespara rojo en cada ciudad, sugiere revisar si las diferencias pueden deberse al azar o a que elindicador rojo requiere mayor cantidad de solucin. Es conveniente probar hiptesis sobre lasmedias de solucin agregada para cada tipo de indicador.

    Para el total de las parejas de mediciones se plantea la hiptesis nula de igualdad de medias desolucin adicionada con el indicador verde y con el rojo, contra la hiptesis alternativa de que lamedia de solucin adicionada con el indicador verde es menor que la que corresponde al color rojo:H0: verde= rojovs HA: verde< rojo.

    Usando un 5% de significacin, la hiptesis nula se rechaza si el valor p (Prob level) es menor que0.05. En la tabla siguiente est el valor p observado para el total, que es 0.000001, que permiteconcluir que la media de solucin agregada con el colorante verde es menor que la media quecorresponde al color rojo. La diferencia de medias es de 0.0577, lo que sugiere que se necesita0.0577 ms de solucin del indicador rojo que con el verde para identificar la misma cantidad debicarbonato en solucin.

    La pareja de hiptesis que se hizo para todos los datos se puede hacer para cada ciudad porseparado: Para ciudad 1 H0: verde= rojovs HA: verde< rojo , para la ciudad 2 H0: verde= rojovsHA: verde< rojo, etc., se obtienen valores p que llevan a rechazar las hiptesis de igualdad a favor demayor media para el indicador de color rojo.

    Alternative ProbHypothesis T-Value Level

    Total verde-rojo

  • 7/24/2019 Problemario TDE

    18/51

    18

    Las pruebas de igualdad de varianza se pueden hacer con el estadstico F. Para el total de los datosse plantea H0: 2verde= 2rojovs HA: 2verde 2rojo . El mismo tipo de hiptesis se plantea para cadaciudad, y de los anlisis se obtiene la tabla siguiente.

    Alternative ProbHypothesis F-Value Level

    Total 2verde 2rojo 1.0389 0.849863

    Ciudad 1 2verde 2rojo 1.0810 0.850303Ciudad 2 2verde 2rojo 1.2713 0.561113Ciudad 3 2verde 2rojo 1.0440 0.916783Ciudad 4 2verde 2rojo 2.2194 0.056372

    Para obtener los resultados del problema usando R se pueden usar las instrucciones que siguen.

    Gua de R para problema 3

    basebicarb

  • 7/24/2019 Problemario TDE

    19/51

    19

    # Se forma el vector de mnimos, mismo orden que el de mediasedbicarb

  • 7/24/2019 Problemario TDE

    20/51

    20

    # Points permite agregar los datos de la ciudad 3 (C3V,C3R, con marca en forma +, pch=3points(C4.V~C4.R, pch=4)# Points permite agregar los datos de la ciudad 4 (C4V,C4R, con marca en forma de x, pch=4legend(x=16.0,y=15.0,legend=c("C1","C2","C3","C4"),pch=1:4)# La leyenda localizada en las coordenadas (16.0, 15.0) identifica a las 4 ciudadesc("C1","C2","C3","C4") con pch de 1 a 4 pch=1:4

    Para usar las instrucciones del R siga los 10 pasos en la lista que se present en el problema 1, elproblema de Calidad, cambiando el nombre del archivo de Excel a bicarb.csv y el del script aScriptBicarbonato.

    BIBLIOGRAFA

    Castillo M. Alberto. Estadstica Aplicada. Trillas 2014.Escarela, Gabriel. R para todos. Un enfoque aplicado al anlisis estadstico bsico. UAM.I, 2014.

    La solucin con Excel sigue los lineamientos de los problemas 1 y 2 en la realizacin de losdiagramas de dispersin, en la obtencin de los estadsticos descriptivos y en las pruebas de t.

    3.1. EJERCICIO. BICARBONATO EN EL AGUA POTABLE DE RIO Y DE POZOPROFUNDO EN TRES CIUDADES

    se sospecha que el agua de pozo profundo contiene ms bicarbonatos que el agua de ro. Sedetermin el contenido de bicarbonatos disueltos en el usando una solucin de 0.0049 de cido

    M-hidroclrico (Titracin), y como indicador bromocresol. El punto en el que termina la titracinocurre cuando hay un cambio de color en el indicador y el dato es la cantidad usada de la solucinen ml. Se hicieron 10 determinaciones a 20 ml de agua de pozo y de ro en cada una de tresciudades, los datos se muestran en la tabla siguiente.

    Ciudad 1, pozo 12.36 12.38 12.5 12.4 12.48 12.43 12.36 12.39 12.44 12.43Ciudad 1, ro 13.05 12.97 13.03 13.02 12.97 13.02 12.96 13.06 12.94 13.03Ciudad 2, pozo 13.95 13.88 13.93 13.94 13.88 13.93 13.94 13.91 13.92 13.92Ciudad 2, ro 14.53 14.47 14.46 14.42 14.47 14.46 14.51 14.45 14.53 14.54Ciudad 3, pozo 15.41 15.46 15.43 15.44 15.46 15.42 15.46 15.43 15.38 15.4Ciudad 3, ro 16 16.06 16.05 15.96 16.09 16.02 15.99 15.98 16.04 16.05

    Para hacer el anlisis note que hay 60 observaciones, veinte para cada ciudad, 30 para pozo y 30para ro. En cada ciudad hay 10 observaciones para agua de pozo y 10 para ro.

    Se pueden comparar las ciudades y los tipos de agua, tambin se puede compara a los tipos deagua para cada ciudad. Hay inters en probar si los tipos de agua tienen igual media de contenido debicarbonato, en general y para cada ciudad usando pruebas de t, slo note que las observaciones delas ciudades no estn aparejadas. No hay inters en comparar las varianzas de los diferentes tiposde agua ni de las ciudades.

  • 7/24/2019 Problemario TDE

    21/51

    21

    Si captur correctamente sus datos debe obtener la tabla siguiente

    Variables C1, pozo C1, ro C2, pozo C2, ro C3, pozo C3, ro# observaciones 10 10 10 10 10 10media 12.417 13.005 13.92 14.484 15.429 16.024desviacin estndar 0.0479 0.0414 0.024 0.0406 0.0273 0.0409mnimo 12.36 12.94 13.88 14.42 15.38 15.96

    mximo 12.5 13.06 13.95 14.54 15.46 16.09

    Haga los cambios necesarios en las instrucciones de R y discuta de acuerdo con el postulado delproblema. Resuelva tambin usando Excel, considerando que las grficas de cajas son opcionales.

    4. OXGENO DISUELTO EN AGUAS RESIDUALES

    REFERENCIA

    Johll, M.E., Poister, D. and Ferguson, J. Statistical comparison of multiple methods for thedetermination of dissolved oxygen levels in natural waters. Chem. Educator 2002, 7, 146-148.Nota: El ejercicio se acondiciona a las necesidades del curso a partir de la aplicacin en la literatura.

    Una compaa que construye plantas de tratamiento de aguas residuales desea mostrar a susposibles clientes que la cantidad de oxgeno disuelto en el agua antes y despus del tratamiento esdiferente, habiendo ms oxgeno despus del tratamiento. La cantidad de oxgeno disuelto cambiacon la temperatura y la altitud. La compaa tiene una planta en una zona alta, a 2850 metros sobreel nivel del mar, que el da en que se tomaron las muestras report una temperatura de 18 gradoscentgrados, y otra en la zona baja a 1340 metros sobre el nivel del mar, con temperatura de 24grados centgrados el da en que se tomaron las muestras.

    En cada localidad se tomaron 15 muestras de un litro, una cada 3 minutos a 50 cm. de profundidad10 metros antes de que el agua ingresara a la planta, agua residual y 15 muestras tambin a 50 cmde profundidad 10 m abajo de la salida de la planta de tratamiento, agua tratada. En cada una de lasmuestras de un litro se midi la cantidad de oxgeno disuelto usando dos mtodos de medicin.Ntese que se colectaron 60 litros o muestras de agua.

    La compaa haba usado el mtodo de Winkler de titracin para medir la cantidad de oxgenodisuelto, pero les ofrecieron un nuevo aparato electrnico de medicin de oxgeno en el agua yquisieron probarlo. Se midi la cantidad de oxgeno disuelto en cada muestra de un litro usandoambos mtodos, el de Winkler y el nuevo aparato electrnico. En total el encargado del estudioobtuvo 60 muestras de un litro de agua y en cada uno hace la medicin de oxgeno disuelto con losdos mtodos de medicin.

  • 7/24/2019 Problemario TDE

    22/51

    22

    OXGENO DISUELTO mg/lMtodo de Winkler Mtodo electrnico

    Localidad baja Localidad alta Localidad baja Localidad altaAgua

    ResidualAguaTratada

    AguaResidual

    AguaTratada

    AguaResidual

    AguaTratada

    AguaResidual

    AguaTratada

    10.04 11.341 10.951 11.645 9.636 11.293 10.689 11.05110.58 11.976 10.396 11.941 10.53 11.747 10.209 11.42110.061 11.465 10.06 11.299 9.955 11.23 10.374 11

    9.515 11.234 10.336 11.288 9.388 10.833 10.117 10.87310.501 10.564 10.294 12.364 10.372 10.262 10.089 11.93810.128 12.541 9.661 11.866 9.99 12.33 9.716 11.4459.197 11.358 10.971 12.581 8.99 11.03 10.685 11.9410.086 11.221 11.438 12.332 9.893 10.982 11.11 12.1710.88 11.504 9.859 12.111 10.484 11.667 9.409 11.7789.634 11.689 10.828 12.14 9.627 11.157 10.441 11.94310.591 12.597 10.245 12.326 10.308 12.253 9.861 11.9559.924 11.145 10.956 12.56 9.527 11.06 10.866 12.3759.691 12.146 9.792 11.723 9.443 12.023 9.765 11.62510.227 10.609 9.903 11.596 9.193 10.068 9.631 11.09910.057 11.561 10.838 12.853 9.891 11.363 10.464 12.67

    El estadstico recibe 120 datos de contenido de oxgeno clasificados por el mtodo de medicinWinkler y Electrnico, por el tipo de agua residual y tratada y por la localidad alta y baja. Convienetener los datos de la tabla anterior, en la forma en que los paquetes estadsticos organizan sus basesde datos para anlisis estadstico. Se definen cinco columnas, una para cada variable: Muestra,Localidad, Tipo de agua, Mtodo de anlisis y mg/lt de oxgeno disuelto, y 120 renglones, cadarengln corresponde al resultado de una medicin de oxgeno disuelto. En la primera columna va elnmero de muestra que toma valores de 1 a 60, ya que en cada una de las cuatro combinaciones delocalidad y tipo de agua se colectaron 15 litros de agua. La segunda columna identifica a lalocalidad: 1=baja, 2=alta, en la tercera columna est el tipo de agua: 1=residual, 2=tratada, en lacuarta columna se tiene el mtodo de medicin: 1=Winkler, 2=Electrnico y en la quinta columnaest la cantidad de oxgeno disuelto en la muestra. Se presenta la base de datos.

    Muestra Localidad Tipo deAgua

    Mtododemedicin

    Oxgenodisuelto

    1 1 1 1 10.042 1 1 1 10.583 1 1 1 10.0614 1 1 1 9.5155 1 1 1 10.5016 1 1 1 10.1287 1 1 1 9.1978 1 1 1 10.086

    9 1 1 1 10.8810 1 1 1 9.63411 1 1 1 10.59112 1 1 1 9.92413 1 1 1 9.69114 1 1 1 10.22715 1 1 1 10.05716 1 2 1 11.34117 1 2 1 11.97618 1 2 1 11.465

  • 7/24/2019 Problemario TDE

    23/51

    23

    19 1 2 1 11.23420 1 2 1 10.56421 1 2 1 12.54122 1 2 1 11.35823 1 2 1 11.22124 1 2 1 11.50425 1 2 1 11.68926 1 2 1 12.59727 1 2 1 11.145

    28 1 2 1 12.14629 1 2 1 10.60930 1 2 1 11.56131 2 1 1 10.95132 2 1 1 10.39633 2 1 1 10.0634 2 1 1 10.33635 2 1 1 10.29436 2 1 1 9.66137 2 1 1 10.97138 2 1 1 11.43839 2 1 1 9.85940 2 1 1 10.828

    41 2 1 1 10.24542 2 1 1 10.95643 2 1 1 9.79244 2 1 1 9.90345 2 1 1 10.83846 2 2 1 11.64547 2 2 1 11.94148 2 2 1 11.29949 2 2 1 11.28850 2 2 1 12.36451 2 2 1 11.86652 2 2 1 12.58153 2 2 1 12.33254 2 2 1 12.11155 2 2 1 12.1456 2 2 1 12.32657 2 2 1 12.5658 2 2 1 11.72359 2 2 1 11.59660 2 2 1 12.8531 1 1 2 9.6362 1 1 2 10.533 1 1 2 9.9554 1 1 2 9.3885 1 1 2 10.372

    6 1 1 2 9.997 1 1 2 8.998 1 1 2 9.8939 1 1 2 10.48410 1 1 2 9.62711 1 1 2 10.30812 1 1 2 9.52713 1 1 2 9.44314 1 1 2 9.19315 1 1 2 9.891

  • 7/24/2019 Problemario TDE

    24/51

    24

    16 1 2 2 11.29317 1 2 2 11.74718 1 2 2 11.2319 1 2 2 10.83320 1 2 2 10.26221 1 2 2 12.3322 1 2 2 11.0323 1 2 2 10.98224 1 2 2 11.667

    25 1 2 2 11.15726 1 2 2 12.25327 1 2 2 11.0628 1 2 2 12.02329 1 2 2 10.06830 1 2 2 11.36331 2 1 2 10.68932 2 1 2 10.20933 2 1 2 10.37434 2 1 2 10.11735 2 1 2 10.08936 2 1 2 9.71637 2 1 2 10.685

    38 2 1 2 11.1139 2 1 2 9.40940 2 1 2 10.44141 2 1 2 9.86142 2 1 2 10.86643 2 1 2 9.76544 2 1 2 9.63145 2 1 2 10.46446 2 2 2 11.05147 2 2 2 11.42148 2 2 2 1149 2 2 2 10.87350 2 2 2 11.93851 2 2 2 11.44552 2 2 2 11.9453 2 2 2 12.1754 2 2 2 11.77855 2 2 2 11.94356 2 2 2 11.95557 2 2 2 12.37558 2 2 2 11.62559 2 2 2 11.09960 2 2 2 12.67

    Se tienen cinco columnas cada columna corresponde con una variable, y cada rengln o caso

    consiste de la identificacin de muestra, localidad y mtodo de medicin, y la medicin de la cantidadde oxgeno disuelto que obtuvo. La base se puede capturar en cualquier orden siempre que a cadaobservacin de oxgeno disuelto le correspondan los valores adecuados de muestra, localidad, tipode agua y mtodo de medicin. En la base de arriba se tiene:

    El nmero de muestra (1,2,...,60) es una variable que identifica a la muestra.La localidad (1=baja, 2=alta) es la variable que identifica a la localidad y es una fuente devariacin debido a que puede haber diferencias en el tipo de agua residual que llega a laplanta de tratamiento en las dos localidades. Adems se sabe que en la localidad alta hay

  • 7/24/2019 Problemario TDE

    25/51

    25

    menor temperatura que en la localidad baja. Puede pensarse que a menor temperatura elagua puede disolver menos oxgeno y a mayor altitud el agua puede disolver menor cantidadde oxgeno.La variable tipo de agua (1=residual, 2=tratada) es muy importante para la compaa. Es unafuente de variacin y se espera que haya ms oxgeno disuelto en el agua tratada que en elagua residual.La variable mtodo de medicin (1=Winkler, 2=Electrnico) es una fuente de variacin quepermitir a la compaa decidir cul de los dos mtodos de medicin va a usar en el futuro. Se

    espera que ambos mtodos den la misma medicin para cada muestra.La cantidad de oxgeno disuelto (en mg/l) es la variable respuesta y ser la variable que seanalizar tomando en cuenta la clasificacin dada por las fuentes conocidas de variacin.

    El anlisis de los datos debe responder a las preguntas que llevaron a realizar el estudio. En unareunin de planeacin del trabajo se especifican los puntos de mayor inters:

    Mostrar a los funcionarios de la compaa y a los posibles clientes las semejanzas odiferencias de los contenidos de oxgeno disuelto:- Entre los dos mtodos de medicin- Entre el agua residual y el agua tratada en cada localidad

    - Entre las dos localidadesResumir los valores de oxgeno disuelto en cada localidad, tipo de agua y mtodo de medicinusando grficas y estadsticas de resumen.Probar si existe diferencia en la media de oxgeno disuelto en los dos tipos de agua, y tambinprobar si hay diferencias en las medias de oxgeno disuelto entre los dos mtodos demedicin. Se puede probar tambin si hay diferencias entre las localidades y si las diferenciasentre los dos tipos de agua estn influenciados por la localidad o el mtodo de medicin(interacciones).

    La semejanza entre los mtodos de medicin puede verse en una grfica donde se presenten losdatos emparejando las dos mediciones de oxgeno disuelto correspondientes a cada muestra o

    colecta de un litro de agua.

    En el diagrama de dispersin (abajo) se puede ver que el mtodo de Winkler da un valor mayor deoxgeno disuelto.

    Se puede hacer un diagrama de dispersin para cada punto de muestreo, esto es, para los 15 litrosde agua muestreados en una localidad para cada uno de los dos tipos de agua, esto no proporcionams informacin, pero permite estudiar el comportamiento de los dos mtodos de medicin conmayor detalle.

  • 7/24/2019 Problemario TDE

    26/51

    26

    0 10 20 30 40 50 60

    8

    9

    10

    11

    12

    13

    OXGENO DISUELTO

    PUNTOS DE MUESTREO

    OD

    mg/l

    Electrnico

    Wrinkler

    2 4 6 8 10 12 14

    8

    9

    10

    11

    12

    13

    OXGENO DISUELTO PARA B.R.

    PUNTOS DE MUESTREO

    OD

    mg/l

    Wrinkler

    Electrnico

  • 7/24/2019 Problemario TDE

    27/51

    27

    2 4 6 8 10 12 14

    8

    9

    10

    11

    12

    13

    OXGENO DISUELTO PARA B.T.

    PUNTOS DE MUESTREO

    OD

    mg/l

    Wrinkler

    Electrnico

    2 4 6 8 10 12 14

    8

    9

    10

    11

    12

    13

    OXGENO DISUELTO PARA A.R.

    PUNTOS DE MUESTREO

    OD

    mg/l

    Wrinkler

    Electrnico

  • 7/24/2019 Problemario TDE

    28/51

    28

    La grfica de cajas que sigue permite ver la variacin y la localizacin de los datos en el eje vertical.

    * Los puntos de muestreo en la grfica son:1= Baja, Residual, Winkler, 2= Baja, Residual, Electrnico, 3= Baja, Tratada,Winkler,4= Baja, Tratada, Electrnico, 5= Alta, Residual, Winkler,6= Alta, Residual, Electrnico, 7= Alta, Tratada, Winkler y 8= Alta, Tratada, Electrnico

    2 4 6 8 10 12 14

    8

    9

    10

    11

    12

    13

    OXGENO DISUELTO PARA A.T.

    PUNTOS DE MUESTREO

    OD

    mg/l

    Wrinkler

    Electrnico

    BRW BRE BTW BTE ARW ARE ATW ATE

    9

    10

    11

    12

    13

    Oxgeno disuelto

    Localidad-Agua-Mtodo

    DO

    mg/l

  • 7/24/2019 Problemario TDE

    29/51

    29

    La grfica de cajas (y ejes) presenta una caja para cada una de las ocho combinaciones delocalidad, tipo de agua y mtodo de medicin. Las dos de la izquierda se refieren a localidad bajacon agua residual, la primera con el mtodo de Winkler y la segunda con el electrnico. Lassiguientes parejas de cajas se refieren a los dos mtodos de medicin en las localidades bajatratada, alta residual y alta tratada.

    En general, de acuerdo con lo esperado, en cada localidad la caja del mtodo electrnico est un

    poco ms abajo que la del mtodo de Winkler (caja 2 abajo de caja 1, caja 4 abajo de caja 3, caja 6abajo de caja 5 y caja 8 abajo de caja 7). Tambin para cada localidad las parejas de cajas que serefieren a agua tratada estn ms arriba que las cajas de agua residual (cajas 3 y 4 arriba de cajas 1y 2, y cajas 7 y 8 arriba de cajas 5 y 6). No se ven puntos muy alejados de las cajas (valoresatpicos), y las cajas son de tamao similar, aunque la caja 5 se ve de mayor longitud.

    Lo que se ha visto en las grficas se puede revisar en los valores de los estadsticos de localizacinusados en las grficas y la desviacin estndar.

    ESTADSTICOS DESCRIPTIVOS DE OXGENO DISUELTO

    medias DE Min Cuartil1 mediana Cuartil3 Max

    Baja.Res.Winkler 10.0741333 0.44942596 9.197 9.8075 10.061 10.364 10.88

    Baja.Res.Electr. 9.81513333 0.47152638 8.99 9.485 9.891 10.149 10.53

    Baja.Trat.Winkler 11.5300667 0.59450754 10.564 11.2275 11.465 11.8325 12.597

    Baja.Trat.Electr 11.2865333 0.64906327 10.068 11.006 11.23 11.707 12.33

    Alta.Res.Winkler 10.4352 0.53339294 9.661 9.9815 10.336 10.8945 11.438

    Alta.Res.Electr 10.2284 0.49273954 9.409 9.813 10.209 10.5745 11.11

    Alta.Trat.Winkler 12.0416667 0.47203188 11.288 11.684 12.111 12.348 12.853

    Alta.Trat.Electr 11.6855333 0.53207879 10.873 11.26 11.778 11.949 12.67

    Vea como las medias oxgeno disuelto obtenidas con Winkler son mayores que las de electrnicopara cada combinacin de localizacin y tipo de agua y lo mismo ocurre con cada uno de losestadsticos de localizacin en la tabla. Las diferencias no son grandes y deber probarse si sonmayores que cero.

    Al observar las grficas y la tabla con estadsticos parece que los mtodos de medicin no dan elmismo valor para oxgeno disuelto, el mtodo electrnico produce valores menores pero lasdiferencias se pueden deber a variacin aleatoria. Para comprobar si hay diferencia, se plantea, encada punto de muestreo, la pareja de hiptesis nula y alternativa siguientes:

    H0: Las medias de oxgeno disuelto con los dos mtodos de medirlo son iguales: W - E= 0HA: La media de oxgeno disuelto con el mtodo Winkler es mayor que la que reporta el mtodo

    electrnico: W - E> 0.

    La prueba se hace usando variables aparejadas y suponiendo distribucin normal.

    La pruebas de t para probar a la pareja de hiptesis en los cuatro puntos de medicin produce:

  • 7/24/2019 Problemario TDE

    30/51

    30

    Localidad,tipo de agua

    Hiptesis Alternativa Valor de t Valor p

    Baja, Residual Diferencia de medias > 0 4.0581 0.0005873Baja, Tratada Diferencia de medias> 0 5.1824 0.0000695

    Alta, Residual Diferencia de medias > 0 3.9851 0.0006776Alta, Tratada Diferencia de medias > 0 8.265 0.0000004.676

    Revisando los valores p en la ltima columna, todos son menores que 0.05, los datos dan evidencia

    para rechazar la hiptesis de que la media de oxgeno disuelto medido con el mtodo de Winkler seaigual que la media reportada con el mtodo de medicin electrnico.

    El esquema de muestreo corresponde con un diseo completamente al azar con tres factores(localidad, tipo de agua y mtodo de medicin) con 15 repeticiones. El anlisis de varianza producela tabla siguiente.

    Tabla de anlisis de varianzaFuente de Grados de Suma de Cuadrado F valor pvariacin libertad cuadrados medio calculadaloc 1 5.32 5.32 19.077 0.0000282agua 1 67.30 67.30 241.176

  • 7/24/2019 Problemario TDE

    31/51

    31

    pnto # Se muestra el vector de valores de 1 a 60par(mfrow=c(1,1)) # Se especifica que habr una grficaplot(DOm2~pnto,ylim=c(8,13),xlab="PUNTOS DE MUESTREO",ylab="OD mg/l",main="OXGENO DISUELTO")# Diagrama de dispersin de oxgeno disuelto para los 60 casos (eje horizontal) para el mtodo electrnico(eje vertical),# Conviene poner primero electrnico para que al insertar los puntos de Winkler, todos queden en la grficapoints(pnto,DOm1, pch=2)# Points permite agregar los datos de oxgeno disuelto con el mtodo electrnico, pch indica que los puntos son tipo 2legend(x=0,y=12.5,legend=c("Electrnico","Wrinkler"),pch=1:2)

    # La leyenda localizada en las coordenadas (0,12.5) identifica a los mtodos de medicinBRW

  • 7/24/2019 Problemario TDE

    32/51

    32

    bdo8

  • 7/24/2019 Problemario TDE

    33/51

    33

    # Se define el marco con las variables de la base de datos original, para hacer el anlisis de varianzabDOAdeV # Se muestra el marco para el anlisis de varianzaDOAdeV

  • 7/24/2019 Problemario TDE

    34/51

    34

    Total 29 9.98212

    Conviene que haga las grficas de cajas para que vea como unos cortes presentan mayor variacin,pero la prueba de igualdad de varianzas no reporta diferencias. El corte 2, con menor variacin,presenta un caso atpico, y la media de la cantidad de exudado del corte 1, es mayor y diferente dela media de los otros dos.

    El Excel tiene una rutina en Anlisis de datos para el anlisis de varianza con un factor de variacin.

    Acomode los datos como lo solicita el Excel, una columna para cara lnea, esto es, en la primeracolumna el corte 1, en la segunda columna el corte 2 y en la tercera columna el corte 3.

    Excel no tiene rutina para la prueba de Tukey, pero se hizo una rutina para la prueba de Bonferroni,que es similar a la de Tukey en cuanto a que es conservadora. La rutina est disponible en el archivocamaron1Factor.xlsx, solicitarlo a [email protected]

    5. MANGANESO Y COBRE EN GRANOS DE CAF

    REFERENCIA

    Columbia M. R. The statistics of coffee: 1. Evaluation of trace metals for establishing a coffeescountry of origin based on mean comparison. Chem. Educator 2007, 12, 260-262.Nota: El ejercicio se acondiciona a las necesidades del curso a partir de la aplicacin en la literatura.

    Debido a la relacin entre el contenido de elementos menores en el suelo donde crece el caf y elcontenido de elementos menores en su fruto, en ocasiones es posible identificar el origen del cafpor su contenido de manganeso y cobre. Esto tiene importancia porque los pases importadores decaf imponen impuestos especiales ms altos a algunos pases, y los comerciantes mueven el caf

    de pases que causan impuestos altos a pases que no los causan antes de enviarlos al pas que esimportador tratando de evadir los impuestos.

    Se tiene una muestra de 10 productores de caf de cada uno de dos pases A y B a los que sedetermin el contenido de manganeso y cobre. Es suficiente conocer estos contenidos paradeterminar de cul de los dos pases es originario el caf?

    En la tabla siguiente estn los datos de contenido de manganeso (Mn) y cobre (Cu) en las muestrasde los pases A y B.

    PAS Mn Cu PAS Mn Cu

    A 42.72 11.42 B 40.14 9.71A 42.53 13.50 B 38.75 10.59A 50.86 10.76 B 41.84 11.84A 47.08 11.78 B 35.92 9.49A 49.94 10.16 B 34.12 10.65A 39.72 9.56 B 38.44 11.04A 42.07 10.46 B 37.71 10.17A 47.18 9.61 B 41.90 10.15A 42.57 12.25 B 38.64 9.03A 46.43 11.96 B 42.73 11.32

  • 7/24/2019 Problemario TDE

    35/51

    35

    Los estadsticos descriptivos y las grficas de cajas muestran la localizacin y la dispersin de losdatos.

    Media Desv.Est. Mnimo Mximo Recorrido

    Mn Pas A 45.11 3.70305279 39.72 50.86 11.14

    Mn Pas B 39.019 2.73160698 34.12 42.73 8.61

    Cu Pas A 11.146 1.26342744 9.56 13.5 3.94

    Cu Pas B 10.399 0.86440024 9.03 11.84 2.81

    343536

    3738

    394041424344454647484950

    51

    A B

    CONTENIDO DE MANGANESO(microgramos por gramo)

    PAS

    Mn

  • 7/24/2019 Problemario TDE

    36/51

    36

    Ntese que los granos de caf del pas B tienen menor contenido de manganeso y de cobre. Ladispersin para ambos elementos parece ser similar. Las cajas de la grfica de manganeso estn adiferentes alturas, en cambio en la de cobre, las cajas coinciden en casi toda su longitud, se puedepensar que al hacer las pruebas de igualdad de medias, para manganeso habr diferencia demedias y para cobre no.

    Las pruebas de igualdad de medias de contenido de cada uno de los elementos entre los dos pasesdan sustento a lo que muestran las grficas y los estimadores de estadsticos de localizacin y dedispersin.

    Para manganeso se plantea la pareja de hiptesis H0: MnA= MnBvs HA: MnA MnBy para cobre seplantea una pareja de hiptesis similar H0: CuA= CuBvs HA: CuA CuB. En las hiptesis elsubndice de las medias (s) indica el elemento (Mn y Cu) y la el pas de origen (A y B).

    En la tabla siguiente estn los valores del estadstico t para la prueba para la comparacin de dosmedias suponiendo distribuciones normales con igual varianza y la significacin muestral o valor p.Recordemos que si la significacin muestral es menor que el nivel de significacin que se establece,por lo general de 0.05, se rechaza la hiptesis nula de igualdad de medias.

    Alternative Prob

    Hypothesis T-Value LevelManganeso MnA MnB 4.1859 0.000555Cobre CuA CuB 1.5431 0.140205

    Para manganeso se tiene un valor p de 0.000555 que lleva a rechazar la hiptesis de igualdad demedias de contenido de manganeso en los granos de caf en los dos pases de origen al 5% designificacin =0.05. El valor p tambin permite rechazar la hiptesis de igualdad con =0.001 designificacin , que corresponde al 0.1% o uno por mil. Para cobre la significacin muestral de 0.14 no

    9

    10

    11

    12

    13

    14

    A B

    CONTENIDO DE COBRE(microgramos por gramo)

    PAS

    Cu

  • 7/24/2019 Problemario TDE

    37/51

    37

    da evidencia para rechazar la hiptesis de igualdad de medias de contenido de cobre en los granosde caf de los dos pases de origen. De esto se concluye que el elemento que sirve como marcadores el manganeso y el pas A se reconoce por un contenido de manganeso mayor.

    Para establecer un valor que permita decidir sobre el origen del caf, se pueden usar los intervalosde confianza proponiendo una confianza que forme dos intervalos ajenos, esto es, que no coincidansus valores, pero que sean muy cercanos, esto se logra con el 98.5% de confianza. La confianza de98.5 se obtuvo por un proceso de ensayo y error. Si la media de 10 muestras de contenido de

    manganeso es mayor que 41.6 con 98.5% de confianza la muestra proviene del pas A.

    CONTENIDO DE MANGANESOPAS A PAS B

    Media 45.11 39.019Inicio del Intervalo 99% 41.59908 36.42912Terminacin del Intervalo 99% 48.62092 41.60888

    Los resultados para este problema se obtienen con el paquete estadstico R usando las instruccionessiguientes, a las que se adicionan comentarios que ayudarn a modificar las instrucciones para

    resolver problemas similares.Gua de R para problema 5

    baseCafe

  • 7/24/2019 Problemario TDE

    38/51

    38

    # en aggregate Mn es la variable, by=list(Pas) indica que se clasifica por los valores de Pas# FUN="min" especifica que se pide la funcin (FUN) mmimo "mn"micu

  • 7/24/2019 Problemario TDE

    39/51

    39

    # Prueba de t para igualdad de medias (mu=0) de contenidos de cobre# La alternativa es bilateral(alternative="two.sided"), los valores no estn aparejados# (paired=F) y se usa alfa=0.01 lo que se escribe como nivel de confianza de 0.99 (conf.level=0.95)# var.equal=T indica que se supone igualdad de varianzastmn # Se muestra el resultado de la prueba de t para manganesotcu # Se muestra el resultado de la prueba de t para cobreciA

  • 7/24/2019 Problemario TDE

    40/51

    40

    58.1 59 61.3 61.6 5.44 5.36 5.38 5.3857.7 58 60.5 62.3 5.27 6.3 5.4 5.457.5 59.8 60.6 60 5.75 6.6 5.47 4.89

    Haga un anlisis similar al de caf considerando que en este ejercicio es ms interesante conocer lavariabilidad de la produccin de cada avicultor y cul de las dos variables presenta mayoresdiferencias en la media y cul es ms variable. Qu avicultor produce con mayor calidad?

    Sus datos deben cumplir con los valores siguientes:

    Variable Estadstico Avicultor 1 Avicultor 2Peso media 58.2067 60.46Peso Desviacin estndar 0.9599 1.1737Grasa media 5.6877 5.56Grasa Desviacin estndar 0.7228 0.4548

    REFERENCIA

    Revista del Consumidor. Qu fue primero, el sabor o la nutricin? Noviembre de 2012. pag. 55Nota: El ejercicio slo se basa en el estudio de PROFECO, el problema se simplifica y se modificapara facilitar el anlisis. Los datos fueron generados por el autor y se parecen a los del estudio paradar realismo al ejercicio.

    6. SELECCIN DE MICROORGANISMOS

    REFERENCIA

    Shirai, K. et. al.Effect of initial glucose concentration and inoculation level of lactic acid bacteria inshrimp waste ensilation. Enzime and Microbial Technology. 2001, 28, 446-452.Nota: El ejercicio se acondiciona a las necesidades del curso a partir de la aplicacin en la literatura.

    En investigaciones que utilizan microorganismos para transformar materia orgnica poco til en otrautilizable, una fase inicial consiste en determinar el microorganismo (gnero, especie y lnea) quemejor hace la transformacin, seleccionando entre los candidatos que han mostrado resultadosadecuados en trabajos similares.

    Para la descomposicin de desechos de camarn por medio del ensilado, se desea comparar dos

    lneas de Lactobacillus aisladas del desecho de camarn (A y B) con dos lneas comerciales (C y D),tambin se us un control sin adicin de microorganismo. El proceso se lleva a cabo a 30C durante48 horas. En cada unidad experimental se adiciona la misma cantidad de de glucosa monohidratada(10%) y se inocula con 5% del microorganismo en forma lquida en concentracin de 108cfu/ml.

    Interesa conocer las diferencias entre las cuatro lneas y las de ellas con el control para seisvariables: el contenido de glucosa, cido lctico y cido actico, el pH, la acidez total tritable comoporcentaje del del cido lctico (%TTA) y la actividad del agua (aw) al trmino de las 48 horas. Lascantidades cido lctico y cido actico se determinaron usando un cromatgrafo, el contenido de

  • 7/24/2019 Problemario TDE

    41/51

    41

    glucosa se determin en el extracto acuoso como azcares reducidas, el pH se midi con unpotencimetro, la acidez se determin por titracin con 0.1 M de NaOH hasta pH de 8.4, y laactividad del agua se midi usando la tcnica del espejo enfriado.

    Se tuvieron cuatro repeticiones de cada lnea y del control, obteniendo 20 observaciones para cadauna de las variables de inters. Los datos se presentan a continuacin.

    Linea pH %TTA aw Gluc Lact Acet

    1 4.41 1.79 0.972 0 83.76 01 4.75 1.91 0.972 0 83.19 01 4.41 2.03 0.973 0 82.49 01 4.87 1.84 0.975 0 82.88 02 5.47 1.06 0.97 11.92 63.35 02 5.81 1.15 0.967 12.08 62.94 02 5.27 0.96 0.966 12 63.02 02 5.5 0.98 0.966 12.02 62.95 03 5.2 1.07 0.967 0 80.51 5.933 5.51 1.03 0.972 0 80.07 63 5.59 1.19 0.968 0 80.53 63 5.44 1.04 0.975 0 80.49 6.024 5.79 0.8 0.963 9.91 67.89 4

    4 5.79 0.93 0.964 9.96 68.01 3.974 6.01 0.88 0.964 9.91 67.86 3.954 5.87 0.89 0.968 9.87 68.03 3.975 6.06 0.68 0.978 1 36.2 12.275 5.79 0.8 0.977 1 36.17 11.965 5.67 0.62 0.98 1.01 35.63 12.285 5.7 0.82 0.976 0.96 35.84 12.5

    La comparacin de las medias de las distribuciones de cada variable con respecto a la lnea otratamiento se puede hacer usando un anlisis de varianza con un criterio de clasificacin con cinconiveles.

    Para cada variable se presenta el anlisis de varianza, la comparacin mltiple de medias deDuncan y una grfica de cajas.

    En el anlisis de varianza se prueba la hiptesis de que las cinco lneas tienen igual media, contra lahiptesis alternativa de que al menos una pareja de medias es diferente. Se supone que lasobservaciones siguen la distribucin normal y que la varianza de cada una de las lneas es igual. Serechaza la hiptesis nula si el valor p es menor que 0.05.

    La prueba de Tukey muestra una tabla con las medias de las lneas en orden de menor a mayor, yespecifica cules lneas tienen media diferente de la que encabeza cada rengln. Usa un nivel designificacin de 0.05 para el conjunto de pruebas posibles entre las parejas de medias, se le conocecomo nivel de significacin a nivel de experimento.

    En la grfica de cajas se ve de manera grfica el resultado del anlisis de varianza y de la prueba deDuncan.

    TABLA DE ANLISIS DE VARIANZA PARA pHFuente devariacin

    Grados delibertad

    Suma decuadrados

    Cuadradomedio

    F(calculada)

    valor p

  • 7/24/2019 Problemario TDE

    42/51

    42

    A: linea 4 4.03152 1.00788 28.62 0.000001Error 15 0.528175 0.03521167Total (Ajustado) 19 4.559695

    El valor p en el anlisis de varianza para el pH del sustrato al trmino del experimento p=0.000001conduce a rechazar la hiptesis de igualdad de medias. Para conocer las parejas de medias que sondiferentes se hizo la prueba de Tukey.

    COMPARACI N MULTIPLE DE TUKEY* PARA pHLnea Repeticiones Media Diferente de lneas1 4 4.610000 3, 2, 5, 43 4 5.435000 1, 42 4 5.512500 15 4 5.805000 14 4 5.865000 1, 3*=0.050 GL=15 CME=0.03521167 Critical Value=4.3670

    La media de pH de la lnea 1 es diferente de media de las otras cuatro, las medias de las lneas 2 y 5no muestran diferencias y ambas difieren solo de la media de la lnea 1. Las medias de las lneas 3 y

    4 y 5 difieren entre si, pero no muestran diferencia con las medias de las lneas 2 y 5.

    Grfica de cajas para pH y cinco lneas

    La grfica de cajas muestra a los valores de pH de las lneas 2 y 3 al mismo nivel, casi coinciden,tambin las cajas de las lneas 4 y 5 coinciden, de hecho la caja de la lnea 4 tiene valorescontenidos en la caja de la lnea 5. Es de llamar la atencin que la lnea 1 se sita ms abajo que lasotras 4, veremos si este pH ms cido afecta su comportamiento (o es causado por ellas) en lasotras variables.

    TABLA DE AN LISIS DE VARIANZA PARA %TTAFuente de

    variacin

    Grados de

    libertad

    Suma de

    cuadrados

    Cuadrado

    medio

    F

    (calculada)

    valor p

    A: linea 4 3.26813 0.8170325 113.77 0.000000Error 15 0.107725 0.007181667Total (Ajustado) 19 3.375855

    El valor p en el anlisis de varianza para el %TTA en el sustrato al trmino del experimentop=0.000000 (no es cero pero se necesitan ms decimales para identificar el valor) conduce arechazar la hiptesis de igualdad de medias. Para conocer las parejas de medias que son diferentesse hizo la prueba de Tukey.

    4.00

    4.63

    5.25

    5.88

    6.50

    1 2 3 4 5

    BoxPlot

    linea

    pH

  • 7/24/2019 Problemario TDE

    43/51

    43

    COMPARACI N MULTIPLE DE TUKEY* PARA %TTALnea Repeticiones Media Diferente de lneas5 4 0.730000 2, 3, 14 4 0.875000 3, 12 4 1.037500 5, 13 4 1.082500 5, 4, 11 4 1.892500 5, 4, 2, 3*=0.050 GL=15 CME=0.007181667 Critical Value=4.3670

    La media de la lnea 1 es diferente a las medias de las otras cuatro lneas. No se encontr diferenciaentre las medias de las lneas 2 y 3, pero la media de la lnea 3 difiere de las medias de las lneas 1,4 y 5, cuando la media de la lnea 2 slo difiere de las medias de las lneas 1 y 5. La media de lalnea 4 no difiere de las lneas 2 y 5 y difiere de las medias de las lneas 1 y 3.. En la bsqueda de lalnea que produzca mayor %TTA conviene seleccionar a la lnea 1.

    Grfica de cajas para %TTA y cinco lneas

    Como se esperaba luego de la prueba de Tukey, la grfica de cajas muestra a los valores de %TTAde las lneas 2 y 3 al mismo nivel, las cajas de las lneas 4 y 5 estn ms abajo pero hay traslapeentre ellas. Es de llamar la atencin que la lnea 1 se sita ms arriba que las otras 4, sucomportamiento es muy diferente.

    TABLA DE ANLISIS DE VARIANZA PARA awFuente devariacin

    Grados delibertad

    Suma decuadrados

    Cuadradomedio

    F(calculada)

    valor p

    A: linea 4 0.0004093 1.02325E-04 18.89 0.000010Error 15 8.125E-05 5.416667E-06

    Total (Ajustado) 19 4.9055E-04

    La prueba de F para igualdad de medias de actividad del agua (aw) de las cinco lneas al trmino delexperimento produce un valor p de 0.0001 y se rechaza la hiptesis de igualdad de medias.

    COMPARACI N MULTIPLE DE TUKEY* PARA awLnea Repeticiones Media Diferente de lneas4 4 0.964750 3, 1, 5

    0.50

    1.00

    1.50

    2.00

    2.50

    1 2 3 4 5

    BoxPlot

    linea

    TTA

  • 7/24/2019 Problemario TDE

    44/51

    44

    2 4 0.967250 1, 53 4 0.970500 4, 51 4 0.973000 4, 25 4 0.977750 4, 2, 3*=0.050 GL=15 CME=5.416667E-06 Critical Value=4.3670

    La prueba de Tukey con 5% de significacin muestra que la media de la lnea 3, al centro de la tabla

    difiere delas medias de las lneas 4 y (la menor y la mayor). La medias de las lneas 4 y 5 sondiferentes a las dems excepto la media de la lnea 3. La media de la lnea 2 difiere de las medias 1y 5 y la media de la lnea 1 difiere de las medias de las lneas 2 y 4.

    Grfica de cajas para aw y cinco lneas

    En la grfica se ve que la caja de la lnea 5 est ms arriba que las dems, la prueba de Tukey esmuy conservadora y no encuentra diferencia entre las lneas 5 y 1, seguramente que con unamuestra mayor se manifestar . La dificultad para describir los resultados de la prueba de Tukey semanifiesta en la posicin de las cajas 1, 2 y 3: la caja 3 coincide con las de las lneas 1 y 2, pero lacaja de la lnea 1 est arriba y separada de la caja de la lnea 2. La caja de la lnea 4 est ms abajoque las dems pero coincide parcialmente con la caja de la lnea 2, por eso no hay diferencia entresus medias.

    TABLA DE AN LISIS DE VARIANZA PARA GLUCOSAFuente devariacin

    Grados delibertad

    Suma decuadrados

    Cuadradomedio

    F(calculada)

    valor p

    A: linea 2 273.6268 136.8134 66022.56 0.000000Error 9 0.01865 0.002072222Total (Ajustado) 11 273.6455

    Se rechaza la hiptesis de igualdad de medias de contenido de glucosa en el sustrato al trmino delexperimento, ya que el anlisis de varianza da un valor p de cero con seis decimales, para evitar elcero escribo p=0.0000005. Ntese que este anlisis se hizo para slo tres lneas debido a que laslneas 1 y 3 dan valores de cero glucosa en todas sus observaciones, no presentan variacin. Sumedia de glucosa es cero, no hay diferencia entre ellas, pero si son diferente de las medias de lasotras tres lneas.

    COMPARACI N MULTIPLE DE TUKEY* PARA GLUCOSA

    0.96

    0.97

    0.97

    0.98

    0.98

    1 2 3 4 5

    BoxPlot

    linea

    aw

  • 7/24/2019 Problemario TDE

    45/51

    45

    Lnea Repeticiones Media Diferente de lneas5 4 0.992500 4, 24 4 9.912500 5, 22 4 12.005000 5, 4*=0.050 GL=9 CME=0.002072222 Critical Value=3.9485

    Cada una de las lneas presenta una media que es diferente de las otras dos medias de glucosa.

    Grfica de cajas para Glucosa y tres lneas

    La grfica de cajas de glucosa no tiene aspecto interesante. La variacin de contenido de glucosa estan pequea que las cajas son casi lneas y estn muy separadas.

    TABLA DE AN LISIS DE VARIANZA PARA CIDO L CTICO

    Fuente devariacin

    Grados delibertad

    Suma decuadrados

    Cuadradomedio

    F(calculada)

    valor p

    A: linea 4 5655.416 1413.854 15509.87 0.000000Error 15 1.367375 0.09115833Total (Ajustado) 19 5656.784

    Se rechaza la hiptesis de igualdad de medias de contenido de cido lctico en el sustrato al trminodel experimento con valor p=0.0000005.

    COMPARACIN MULTIPLE DE TUKEY* PARA CIDO LCTICOLnea Repeticiones Media Diferente de lneas5 4 35.960000 2, 4, 3, 1

    2 4 63.065000 5, 4, 3, 14 4 67.947500 5, 2, 3, 13 4 80.400000 5, 2, 4, 11 4 83.080000 5, 2, 4, 3*=0.050 GL=15 CME=0.09115833 Critical Value=4.3670

    En la prueba de Tukey se ve que cada lnea tiene media de contenido de glucosa diferente de lasmedias de las otras cuatro lneas.

    0.00

    3.50

    7.00

    10.50

    14.00

    2 4 5

    BoxPlot

    linea

    Gluc

  • 7/24/2019 Problemario TDE

    46/51

    46

    Grfica de cajas para cido lctico y cinco lneas

    La grfica de cajas muestra los resultados de la prueba de Tukey. Las cajas, de muy poca longitud,estn muy separadas en el eje vertical. Esto se debe a que la diferencia entre las medias es muygrande con respecto a la variacin que presentan los valores de contenido de glucosa de cada lnea.

    TABLA DE ANLISIS DE VARIANZA PARA CIDO ACTICOFuente de

    variacin

    Grados de

    libertad

    Suma de

    cuadrados

    Cuadrado

    medio

    F

    (calculada)

    valor p

    A: linea 2 149.1585 74.57923 4363.49 0.000000Error 9 0.153825 0.01709167Total (Ajustado) 11 149.3123

    Para cido actico las lneas 1 y 2 dan cero en todas sus observaciones y no se incluyen en elanlisis, ya que sus medias de contenido son iguales entre si y diferentes de las otras tres medias.Para las tres lneas que presentan variacin la prueba de anlisis de varianza produce un valor p de0.000005 que lleva al rechazo de la hiptesis de igualdad de medias de contenido de cido actico.

    COMPARACI N MULTIPLE DE TUKEY* PARA CIDO AC TICO

    Lnea Repeticiones Media Diferente de lneas4 4 3.972500 3, 53 4 5.987500 4, 55 4 12.252500 4, 3*=0.050 GL=9 CME=0.01709167 Critical Value=3.9485

    En la prueba de Tukey se ve que las tres medias de contenido de cido actico son diferentes entresi.

    Grfica de cajas para cido actico y tres lneas

    30.00

    45.00

    60.00

    75.00

    90.00

    1 2 3 4 5

    BoxPlot

    linea

    Lact

  • 7/24/2019 Problemario TDE

    47/51

    47

    La grfica de cajas muestra los resultados de la prueba de Tukey. Como en contenido de cidolctico, las cajas muestran que la variacin dentro de cada lnea es muy pequea con respecto a lasdiferencias entre las lneas.

    Los resultados para este problema se obtienen con el paquete estadstico R usando las instruccionessiguientes, a las que se adicionan comentarios que ayudarn a modificar las instrucciones pararesolver problemas similares.

    Gua de R para problema 6

    bCmr

  • 7/24/2019 Problemario TDE

    48/51

    48

    bTTA # Se muestra el marco bTTATTAAdeV

  • 7/24/2019 Problemario TDE

    49/51

    49

    # Grfica de cajas con tres cajas, una para cada lnea que present variacin, con ttulos,# names es necesario para identificar en el eje horizontal a cada una de las cajas# recuerde xlab, ylab y main define a los ttulos del eje horizontal, vertical y ttulo generalbLact

  • 7/24/2019 Problemario TDE

    50/51

    50

    La solucin con Excel sigue los lineamientos de los problemas 1 y 2 en la realizacin de losdiagramas de dispersin, en la obtencin de los estadsticos descriptivos y en las pruebas de t.

    El Excel tiene una rutina en Anlisis de datos para eln anlisis de varianza con un factor de variacinAcomode los datos como lo solicita el Excel, una columna para cara lnea, esto es, en la primeracolumna la lnea 1, en la segunda columna la lnea 2, etc.

    Excel no tiene rutina para la prueba de Tukey, pero se hizo una rutina para la prueba de Bonferroni,que es similar a la de Tukey en cuanto que es conservadora. La rutina est disponible en el archivocamaron1Factor.xlsx, solicitarlo [email protected]

    6.1. EJERCICIO SOBRE CALIDAD DE ACEITE DE SOYA

    REFERENCIA

    Revista del Consumidor. La sartn por el mango. Octubre de 2010. pag. 37Nota: El ejercicio slo se basa en el estudio de PROFECO, pero problema se simplifica y se modificapara facilitar el anlisis. Los datos fueron generados por el autor y se parecen a los del estudio paradar realismo al ejercicio.

    En el aceite comestible de soya interesa el contenido de grasas saturadas, monoinsaturadas ypoliinsaturadas. Se hizo un estudio para comparar los contenidos de grasas de cinco marcas,medido en gramos por porcin de 14 gramos. Se tom una muestra de tres porciones, una de cadauno de tres lotes de produccin a cada marca. Los datos son:

    Marca Grasa saturada Grasa monoinsaturada Grasa poliinsaturada1 2.105 2.796 8.8291 2.101 2.798 8.7311 2.105 2.797 8.8482 2.114 2.801 8.8442 2.108 2.800 8.7982 2.109 2.798 8.7843 2.118 2.804 8.5313 2.114 2.804 8.6033 2.111 2.803 8.5464 2.110 2.806 8.5924 2.116 2.808 8.6164 2.118 2.806 8.5975 2.117 2.810 8.6675 2.121 2.809 8.6805 2.117 2.803 8.620

    Haga un anlisis similar al del ejemplo de lneas. Los valores de los estadsticos media y varianza leservirn para asegurarse de que sus datos se capturaron correctamente.

    MARCA DE ACEITE1 2 3 4 5

    mailto:[email protected]:[email protected]:[email protected]:[email protected]
  • 7/24/2019 Problemario TDE

    51/51

    media de Grasa saturada 2.1037 2.1103 2.1143 2.1147 2.1183desviacin estndar de Grasa saturada 0.0023 0.0032 0.0035 0.0042 0.0023media de Grasa monoinsaturada 2.7970 2.7997 2.8037 2.8067 2.8073desviacin estndar de Grasa monoinsaturada 0.0010 0.0015 0.0006 0.0012 0.0038media de Grasa poliinsaturada 8.8027 8.8087 8.5600 8.6017 8.6557desviacin estndar de Grasa poliinsaturada 0.0628 0.0314 0.0380 0.0127 0.0316