Rustom_Probabilidad y Estadistica

download Rustom_Probabilidad y Estadistica

of 197

Transcript of Rustom_Probabilidad y Estadistica

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    1/197

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    2/197

    2

    Antonio Rustom J .

    ESTADSTICA DESCRIPTIVA, PROBABILIDAD E INFERENCIA. Una visin conceptual

    y aplicada.

    Responsable edicin: Pedro Calandra B.

    Diseo de portada: Claudia Rustom S.

    Compilacin: Denisse Espinoza A.

    Derechos ReservadosSe autoriza la reproduccin parcial de la informacin aqu contenida, siempre ycuando se cite esta publicacin como fuente.

    Inscripcin N: 223.022del Registro de Propiedad Intelectual

    ISBN: 978-956-19-0790-4

    Departamento de Economa AgrariaFacultad de Ciencias AgronmicasUniversidad de ChileAvda. Santa Rosa 11315, La Pintana, Santiago, Chile.

    Versin digital disponible en: http://www.agren.cl/estadistica

    Santiago de Chile 2012

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    3/197

    3

    ESTADISTICA DESCRIPTIVA, PROBABILIDADE INFERENCIA

    Una visin conceptual y aplicada

    ANTONIO RUSTOM J.

    REVISORES DE CONTENIDO

    CLAUDIO FERNNDEZ L.ALBERTO MANSILLA M.

    2012

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    4/197

    4

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    5/197

    5

    INDICE

    Prlogo 7

    Unidad 1 ESTADSTICA DESCRIPTIVA 91 Introduccin 92 Trminos estadsticos bsicos 113 Tipos de variables 114 Descripcin de variables 125 Otros tipos de grficos 26

    Unidad 2 PROBABILIDAD 311 Modelos matemticos 312 Espacio muestral y eventos 263 Frecuencia relativa, la probabilidad y sus prop iedades 364 Probabilidad en espacio muestral fini to equiprorable 405 Probabilidad condicional 436 Teorema de la probabilidad total y teorema de Bayes 50

    Unidad 3 DISTRIBUCIONES DE PROBABILIDAD 551 Introduccin 552 Distribucin de variable aleatoria 553 Valores caractersticos de variables aleatorias 624 Nociones sobre distr ibuc iones de variables aleatoriasbidimensionales

    68

    Unidad 4 DISTRIBUCIONES DE PROBABILIDAD NOTABLES 751 Introduccin 752 Distribucin Normal 763 Distribucin Uniforme 814 Distribucin Exponencial 835 Distribucin de Bernoulli 846 Distribucin Binomial 847 Distribucin de Poisson 888 Distribucin de Pascal 92

    Unidad 5 DISTRIBUCIONES DE PROBABILIDAD EN EL MUESTRO DEPOBLACIONES

    95

    1 Introduccin 952 Poblacin, muestra y tipos de muestreo 953 Estadgrafos 984 Distribucin de las muestras de una poblacin normal 1005 Distribuciones que incluyen a la varianza muestral deuna poblacin normal

    103

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    6/197

    6

    Unidad 6 INFERENCIA ESTADSTICA PARA MEIAS Y VARIANZAS 1091 Introduccin 1092 Estimacin de parmetros 1093 Contraste de hiptesis estadsticas 1144 Comentarios sobre intervalos de conf ianza y pruebas dehiptesis

    127

    Unidad 7 TEOREMA CENTRAL DEL LIMITE E INFERENCIAS PARA

    PROPORCIONES131

    1 Muestras de tamao pequeo 1312 Teorema del Lmite Central 1313 Proporc in Poblacional 132

    4 Intervalos de Confianza para Proporc iones 1345 Contraste de hiptesis para proporciones 1366 Contraste de hiptesis para dos o ms proporciones 139

    Ejercicios y problemas a resolver 145Bibliografa 181

    Anexo 1 rea bajo la curva normal estndar 183Anexo 2 Funcin de Distribucin Acumulativa Binomial 185Anexo 3 Funcin de Distribucin Acumulativa de Poisson 187Anexo 4 Percentiles de la distr ibucin j i-cuadrada de Pearson 189

    Anexo 5 Percent iles de la d istr ibuc in t de Student 191Anexo 6 Percentiles de la distr ibucin de Fisher-Snedecor 193

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    7/197

    7

    PROLOGO

    Este libro va dirigido a alumnos que estudian agronoma y es el resultado de lasexperiencias en mi docencia en las carreras de Ingeniera Agronmica, Ingeniera Forestal yMedicina Veterinaria principalmente en la Universidad de Chile y en la Universidad Santo

    Toms, y fundamentalmente por mi labor como profesor consultor de alumnos tesistas y de miinterrelacin con investigadores en aspectos metodolgicos estadsticos de sus anteproyectosy proyectos.

    El desarrollo de los contenidos hace mucho nfasis en lo conceptual con ejemplos yproblemas orientados a las reas mencionados. En ste, las demostraciones de teoremas opropiedades se han limitado a aquellas que cumplan con ser un reforzamiento de lo conceptualpara que no sean un distractor de lo esencial que es el concepto.

    El libro sigue un orden lgico, en el cual primero se hace una revisin de los elementos deestadstica descriptiva que, a parte de servir sus propios fines de describir datos, permiteintroducir aquellos conceptos fundamentales de la estadstica como son la media aritmtica, la

    varianza, la desviacin estndar y el coeficiente de variacin, amn de otros, como losrelacionados a los percentiles, con gran importancia estadstica y cultural.

    Las unidades de probabilidad cumplen con ser un respaldo para la fundamentacin en eldesarrollo de las unidades posteriores, principalmente de las distribuciones de probabilidadnotables y comportamiento de las muestras aleatorias.

    Las unidades esenciales del libro, para aquellos que manejan las nociones yamencionadas, son las de distribucin Normal, distribuciones en el muestreo de poblaciones, laestimacin y pruebas de hiptesis para los parmetros: media aritmtica, varianza yproporcin.

    El libro incluye, adems, un conjunto de ejercicios y problemas propuestos, con temticaorientada a las ciencias silvoagropecuarias, la mayora de los cuales se resuelven utilizandocomo referencia los ejemplos desarrollados en el texto.

    Con frecuencia algunos alumnos consultan por qu los problemas no incluyen lasrespuestas, pregunta que considero que refleja que tales alumnos todava no se compenetrancon que la estadstica es una metodologa al servicio de las ciencias. As, en un problema deprueba de hiptesis, el resultado es el desarrollo bien y en untodo conceptualizado ordenlgico. En cambio una respuesta simplista como " se acepta la hiptesis nula" o "se rechaza lahiptesis nula" carece totalmente de sentido sin el contexto previo. No es casualidad queningn libro de estadstica incluya respuesta a problemas propuestos de tal naturaleza. Sinembargo, hay problemas, especialmente de probabilidades o tamao de muestra, en los cuales

    es posible dar una respuesta que resuma el desarrollo pertinente. En casos como ste se hanincluido las respuestas.

    Debo agradecer a todos los acadmicos de la facultad con los cuales me heinterrelacionado y que sin saberlo han aportado a que este libro se haya escrito, al igual que atodos aquellos que aparecen en la bibliografa. Al profesor Marcos Mora quien, como directordel Departamento de Economa Agraria, apoy y gestion para que la Facultad patrocinara supublicacin.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    8/197

    8

    Mi mayor muestra de gratitud y amistad al Profesor Claudio Fernndez por su disposicinpara leer el libro y aportar con sus sugerencias para mejorar el original.

    Al Profesor Alberto Mansilla, mi entraable amigo, por su importante influencia paradespertar en m el inters por la Estadstica, y en relacin a este libro, por mostrarme una

    forma didctica de presentacin de la teora de probabilidades.

    A la Facultad de Ciencias Agronmicas por hacer posible la publicacin de este libro, al Jefede Biblioteca, Profesor Pedro Calandra, por su responsabilidad en la edicin, y especialmentea Denisse Espinoza por su paciencia y dedicacin para llevarla a cabo.

    Principalmente mis agradecimientos a Eliana, mi esposa, cuya paciencia para soportarmesentado durante horas frente al computador, me sirvieron de estmulo para seguir adelante yconcluir el texto.

    Antonio Rustom J

    Santiago, 2012

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    9/197

    9

    1. ESTADISTICA DESCRIPTIVA1.1 Introduccin.

    Se postula que . Posiblemente de ah las grandes"quien tiene la informacin tiene el poder"inversiones de los pases, principalmente los desarrollados, en generar conocimientos a travsde investigaciones de las ms diferentes disciplinas.

    Hoy en da la generacin de informacin y su recopilacin ha adquirido gran volumen y serequiere de instrumentos que sean capaces de procesarla en volumen y rapidez.

    La informacin siempre, y con mayor razn hoy en da, es importante para la toma dedecisiones las que deben ser oportunas y ptimas. Con mala o insuficiente informacinposiblemente la decisin sea mala , por muy bueno que sea el procesamiento de sta. Por elcontrario, por muy buena que sea la informacin si el procesamiento es malo seguramentetambin la decisin sea equivocada. En consecuencia, un slido respaldo para una acertadatoma de decisiones, contempla ambas aspectos: informacin buena y suficiente,

    procesamiento correcto.

    La Estadstica es una disciplina que proporciona la metodologa, fundada en la Matemtica,para obtener, recopilar, procesar, resumir y presentar datos referentes a un estudio de inters,transformndolos en con el fin de interpretarlas para obtener conclusiones, dandoestadsticasgaranta de idoneidad en los procedimientos. Tambin propone metodologas que permitadeducir caractersticas poblacionales a partir de muestras de ella.

    Actualmente la Estadstica est tan difundida y sus mritos tan aceptados queprcticamente no existe actividad que no la utilice de una u otra manera, a tal punto quecualquier investigacin que genere y no la utilice en la forma adecuada para su anlisis,datoscorre el riesgo que sus conclusiones no sean consideradas . Porcientficamente vlidas dato

    se entender un que mida en individuo una caracterstica, que puede ser unavalor un cualidado una . Por ejemplo: color de pelo "rubio" ; calificacin "regular" ; rendimiento "72cantidadqq/ha" . Cada uno de ellos, rubio, regular, 72 es un dato.

    Abuso y mal uso de la estadstica.

    A pesar de la evidente utilidad de la estadstica, su se presta para e inclusouso mal usopara , lo que ha permitido que surjan detractores que basan sus opiniones en estosabusosltimos sin reconocer sus grandes ventajas. A continuacin un par de estas opiniones:

    1) Benjamn Disraeli hizo la siguiente aseveracin "Existen tres tipos de mentiras, las mentirasordinarias, las grandes mentiras y las mentiras estadsticas".

    Darrel Huff en su libro , anot al respecto "los bribones yaCmo mentir con la Estadsticaconocen tales trucos; los hombres honrados deben aprenderlos para defenderse" (tomado deltexto de Levin, R.. & Rubin, D.)Estadstica para administradores

    2) Hace aos, una escritora humorstica chilena, Eliana Simon, public en una revista nacionalun aforismo que deca: "Todo se puede probar con pruebas y lo que no se prueba conpruebas, se prueba con estadsticas". Sin embargo la misma escritora escribi tambin "Por logeneral, el que no cree en las estadsticas, creera en ellas si las entendiera" (tomado del libroEstadstica Elementalde Horacio D'Ottone).

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    10/197

    10

    Es cierto, como se expres ms arriba, que personas sin escrpulos se sirven de ella parasus propios fines cuando no tienen otros argumentos para respaldar sus posiciones. Acontinuacin algunos ejemplos.

    1) La atencin hospitalaria es mala y como prueba est que el porcentaje de enfermosfallecidos en los hospitales es muy superior al porcentaje de enfermos fallecidos en sus casas.

    Es obvio que el porcentaje de fallecidos sea ms alto en los hospitales, independiente de lacalidad de la atencin.

    2) El 33% de las alumnas de un curso de ingeniera se cas con profesores de la universidad.Lo cual resulta cierto, pero no se dijo que el curso tena solamente alumnas.tres

    3) Segn una estadstica se producen ms accidentes en el centro de Santiago a 35 km/h quea 65 km/h.

    La razn es que en el centro la causa de los accidentes es por la congestin vehicular,causa tambin de la baja velocidad.

    En otros casos se debe a un mal uso o interpretacin de ella, como lo ilustran los siguientes

    ejemplos.

    1) La produccin industrial en el ao 1963 est al mismo nivel que en 1950, ya que como sepuede apreciar entre 1950 y 1958 sta disminuy un 30%, mientras que entre 1958 y 1963aument un 30%.

    La razn de esta mala conclusin est en que las bases de clculo de ambos porcentajeses distinta. As, si en 1950 la produccin es 100, en 1958 ser 70 y por tanto en 1963 ser 91,es decir, 9% menor que en 1950.2) Un diario publicaba "los compositores encuentran inconcebible que ms del 100% de lorecaudado por el Departamento de Derecho de Autor se destine a pagar al personal quetrabaja en el servicio, y el resto a cancelar derechos a los autores del pas".

    Aqu est muy expresada la idea, porque si lo recaudado es 100% parano hay resto

    cancelar a los autores.3) Un estudio revel una alta correlacin entre el peso de un nio de bsica y su rapidez delectura, deducindose que los nios gordos tienen mayor rapidez de lectura que los flacos.

    En este caso la alta correlacin es verdadera , pero la deduccin es mala, por que, enprimer lugar asocian peso con "gordura", en circunstancia que el peso est altamentecorrelacionado a la edad y por lo tanto a la estatura. En segundo lugar, los alumnos de mayorpeso estn asociados a mayor edad y por lo tanto a alumnos de los ltimos cursos de bsica.

    Uso de la Estadstica.

    La Estadstica es cuando existe entre los datos. Sin variabilidad ennecesaria variabilidad

    las observaciones la Estadstica carece de valor. Se puede decir, entonces, que la Estadsticaes en general el Dos aspectos importantes de sta son:estudio de la variabilidad.

    1 Describir informacin.Esto es vlido para el conjunto de datos descritos y se realiza mediante:slo

    i) tablas de frecuencias y/o porcentajesii) grficos

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    11/197

    11

    iii) medidas que resumen la informacin, como media o promedio, moda, mediana,desviacin estndar, coeficiente de variacin , etc.

    De esta manera una gran cantidad de datos pueden ser mostrados en forma "resumida" ysusceptibles de ser interpretados.2 Hacer inferencias.

    Corresponde a la obtencin de conclusiones acerca de las caractersticas de una poblacin

    a partir de una muestra de sta.

    1.2. Trminos estadsticos bsicos.

    Por se entender el conjunto de individuos objeto de nuestro inters o estudio.UniversoLa especificacin del universo, en general, no es trivial, pues es necesario que no hayaambigedad respecto a quien forma parte o de este conjunto.no forma parte

    Por se entender el de una caracterstica medida en cadaconjunto de datosPoblacinindividuo del universo. As, asociado a un mismo universo se podrn tener varias poblaciones.Para distinguir una poblacin de otra denominaremos a cada una de estasvariablecaractersticas, por ejemplo, la variable peso, la variable altura, la variable sexo, la variable

    estado civil, etc. En consecuencia, los valores que toma una caracterstica sediferentesdenomina variable.

    Por se entiende cualquier .muestra subconjunto de la poblacinExisten distintas formas de elegir una muestra. Las dos ms opuestas son: las muestras

    dirigidas donde la seleccin de los individuos de la poblacin se efecta al gusto delinvestigador ; las muestras , que son las que tienen y son aquellasaleatorias validez estadstica donde los individuos son seleccionados mediante un procedimiento regido por el azar, porejemplo, a travs de .nmeros aleatorios

    Por se entender cualquier valor caracterstico de una , por ejemplo, elparmetro poblacinpeso promedio, la altura mxima o el estado civil ms frecuente. Este valor es .constante

    Por o se entender un valor caracterstico obtenido a partir de unaestadgrafo estadsticomuestra variable . Esta cantidad es , puesto que depende de la muestra, ya que de unapoblacin se puede elegir un conjunto "muy grande" de muestras cada una con un valorcaracterstico distinto.

    1.3 Tipos de variables.

    Para representar adecuadamente poblaciones es necesario reconocer el tipo de variableque se necesita describir. Se puede distinguir dos tipos de variables, las que a su vez sepueden subdividir en otros dos tipos.

    Tipos de variables

    CualitativasNominalesOrdinales

    CuantitativasDiscretasContinuas

    , es aquella que mide una . , es aquellaVariable cualitativa Variable cuantitativa cualidadque mide una .cantidad

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    12/197

    12

    , es aquella cuyos valores son nombres o cdigos sin una relacin deVariable nominalorden intrnseco entre ellos. Ejemplos son: sexo ; estado civil ; nacionalidad ; religin ; raza ocolor de piel.

    , corresponde a aquella cuyos valores son nombres o cdigos , pero conVariable ordinaluna relacin de orden intrnseco entre ellos, es decir, sus valores conllevan un ordenamiento

    de mejor a peor o de mayor a menor. Por ejemplo: la calificacin ( excelente , bueno , regular ,malo); el grado en las F.F.A.A.( General , Coronel , Capitn , ....) ; la calidad ( extra , primera ,segunda , ...) o nivel de infestacin (sana , leve , moderada , ....).

    , usualmente es aquella que solo toma valores enteros. Por ejemplo:Variable discretanmero de hijos por familia ; nmero de elementos defectuosos en una partida de repuestos onmero de insectos por hoja.

    , son las de mayor jerarqua matemtica, y corresponden a aquellas queVariable continuapueden asumir cualquier valor dentro de un cierto rango. Por ejemplo:estatura ; peso ;realedad ; rendimiento de un cultivo o el tiempo que demora un corredor en los 100 m.

    1.4 Descripcin de variables.

    En general, cualquiera sea el tipo de la variable a resumir, existen tres formas de realizarla:1Por medio de , que corresponde a una tabla forma da por columnas,tablas de frecuenciasdonde en la primera columna se anotan los diferentes valores de la variable (clases ocategoras) y en las siguientes columnas los diversos tipos de frecuencia. Por frecuenciaabsolutase entiende el nmero de individuos que pertenece a una misma .clase2Mediante , que son recursos pictricos que permi ten ilustrar mediante un dibujogrficos adhoclo que aparece en la tabla de frecuencias. Existen diversos tipos de grficos y el uso decada uno depende del tipo de variable a representar.3Con , que corresponden a parmetros o , segn se tratemedidas resmenes estadgrafosde una poblacin o una muestra, y que sirven para mostrar posicionamiento de los datos,medidas de posicin medidas de dispersin , o el grado de concentracin de estos, .

    Estas posibilidades de presentacin de datos pueden ser elegidas en forma excluyente ocomplementarias, incluso las tres simultneamente. A continuacin se explicar la manera enque es posible resumir cada tipo de variable.

    Descripcin de Variables nominales.

    1 Mediante tablas de frecuencia cuya estructura es la siguiente:

    n f h

    n f h

    n f h

    ... ... ...

    ... ... ...

    n f h

    VALOR f h (%)

    TOTAL N 100,0%

    i i

    " " "

    # # #

    $ $ $

    k k k

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    13/197

    13

    donde : es la frecuencia absoluta ; : tamao de la poblacin y la frecuencia relativa,f Niexpresada en porcentaje, .h =100 f /Ni i

    En el cuadro 4.1 se muestra un ejemplo de este tipo de variable.

    Raza f h (%)

    Pastor Alemn 38 31,7Doberman 12 10,0

    Labrador 3 2,5

    Pekins 44 36,7

    Poodle 23 19,1

    TOTAL 120 100,0

    i i

    Cuadro 4.1. Perros atendidos enuna clnica Veterinaria, por raza.

    2 A travs de grficos de los cuales los ms conocidos y utilizados son:Los de que se usan para representar tanto frecuencias absolutas , comobarra simple

    frecuencias relativas. Se dibujan como barras rectangulares de altura proporcional a la

    frecuencia y todos de igual base. Las barras van separadas porque representan categoras yno valores numricos en el eje .\

    La figura 4.1 es la representacin grfica del cuadro 4.1.

    Los son grficos simulando una torta con porciones de diferentes tamao, quecirculares

    sirven para expresar la frecuencia relativa o porcentaje de cada categora, donde los tamaos

    de los sectores circulares son proporcional al porcentaje que representa cada categora.

    La figura 4.2 representa la misma informacin anterior en trminos porcentuales.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    14/197

    14

    Los de sirven para representar frecuencias absolutas o relativas, cuandobarras agrupadasexisten subdivisiones dentro de cada categora, como se ilustra en el cuadro 4.2.

    Raza f h (%)

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    15/197

    15

    Los grficos de en los cuales cada barra correspondebarras compuestas o subdivididasal 100% de una clase y cada subdivisin es proporcional al porcentaje que representa cadasubcategora.

    La misma informacin de la figura 4.3 se presenta en forma de barras subdivididas en lafigura 4.4.

    Ntese que cada barra tiene la misma altura, independiente de la frecuencia que ella

    represente, pues cada barra muestra el particionamiento de cada categora. Este tipo degrfico no es de utilidad cuando el nmero de subdivisiones es mayor a 4, ya que lacomparacin entre las categorias se hace ms confusa.

    Los casi siempre estn vinculados a la variable , asociada al eje degrficos de lnea tiempoabscisas. Como su nombre lo indica estos se forman al unir los diferentes puntos en el tiempo

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    16/197

    16

    por medio de segmentos rectilneos. Tienen la ventaja de permitir la superposicin en paralelode dos o ms lneas lo que facilita la comparacin de otros fenmenos asociados al mismoperodo. En la realidad es una representacin de una variable continua como el tiempo.

    Un ejemplo se muestra en la figura 4.5 donde se representa la evolucin del Indice BurstilAgroindustrial en los aos 2004, 2005 y 2006.

    Los son dibujos cuyas figuras se relacionan al fenmeno que se estpictogramas

    representando, por ejemplo, "barriles" para representar produccin de petrleo ; "vacas" pararepresentar masa ganadera o "personas" para representar poblaciones. Son de poco valoracadmico, porqueestn orientadosa ladivulgacin.

    3 Utilizando medidas resmenes, que en el caso de las variables nominales la nica posible

    es la . Se llama , al valor de la variable que tiene mayor frecuencia, o sea, elmoda Moda (Mo)valor que ms se repite en la poblacin o muestra.

    Segn el ejemplo del cuadro 4.1 la moda es Pekins, , pues de las razasMo = Pekinsatendidas fue la ms frecuente con 44 ejemplares.

    Descripcin de variables ordinales.

    En general utiliza el mismo tipo de tablas de frecuencia y de grficos que el tipo anterior, ladiferencia radica en que los valores llevan un ordenamiento tanto en la tabla de frecuenciacomo en el grfico.

    Como medidas resmenes, para este tipo de variables, adems de la se puedemoda

    utilizar la Se llama o , al valor de la variable quemediana. Mediana (Me) valor medianoocupa la o las de los datos . As laposicin central dos posiciones centrales ordenadosmediana es un valor o dos valores que separa a los datos ordenados en dos grupos con igualnmero de observaciones, uno con valores a la y el otro conmayores o iguales medianavalores a lamenores o iguales mediana.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    17/197

    17

    Ejemplos 4.1

    a) En una evaluacin por nivel de dao por pudricin en racimos de uva estos se calificaroncomo Esta es una escala ordinal, porque sano essano (S), leve (L), moderado (M) y grave (G).el menor nivel de dao y grave el mayor. En la inspeccin de 7 racimos se determinaron lossiguientes niveles para cada uno: S , S , L , M , G , L , S. Para encontrar la mediana es

    necesario ordenar los datos en uno de los dos sentidos, sea: S S S L L M G. El valor queocupa la posicin central es L que se ubica en el cuarto lugar, por lo tanto . NteseMe = leveque a la izquierda hay 3 valores S, menores a L, y a la derecha hay 3 valores, una L igual a lamediana y los otros M y G mayores a la mediana L. En este mismo ejemplo la moda es S.

    b) Si en la misma situacin anterior el nmero de racimos evaluados fuera un nmero par,entonces, resultaran dos valores medianos, iguales o distintos. Por ejemplo en 10 racimos losniveles, ya ordenados, resultaron: S S S S S L L L M G. Los dos valores que ocupan lasposiciones centrales, 5 y 6 ubicacin, son S y L respectivamente, por lo tanto una mediana esS y la otra es L. A la izquierda de S hay 4 valores iguales a S y a la derecha de L hay 4 valores,dos iguales a L y otros dos mayores.

    Descripcin de Variables cuantitativas para datos no agrupados.

    Si el nmero de datos, N , no es grande estos, pueden ser tratados en forma individualcomo cantidades X , X , X , ......, X . En esta situacin no se tabulan y tampoco es posible" # $ Nmostrarlos en un grfico, pero si se pueden resumir en trminos de dos tipos de medidas:medidas de y medidas deposicin dispersin.

    Las de tendencia central , cumplen el propsito de indicar el valormedidas de posicinalrededor del cual se distribuyen los datos, es decir, una especie de decentro de gravedadestos. En general se pretende informar del orden de magnitud de los datos. Algo equivalente adecir, por ejemplo, "los honorarios son del orden de los $ 20.000 diarios". Existen, tambin,otros tipos de medidas de posicin que no son de tendencia central y que se presentarnposteriormente.

    Las , tienen por finalidad cuantificar la de los datos, esmedidas de dispersin variabilidad decir, que tan separados o dismiles son uno de otro. Se puede decir que es una medida del"grado de concentracin o de densidad" de los datos en torno a su centro de gravedad.

    Medidas de posicin de tendencia central.

    Entre las medidas de posicin ms relevantes se mencionan la y la ,Moda Mediana definidas anteriormente, y la que es la ms importante de todas para variablesMedia aritmticacuantitativas,debido a su amplia utilizacin, a sus propiedades matemticas y a su vinculacina la .distribucin normal

    La es importante, principalmente, en variables cualitativas o cuando el inters es lamoda

    mayora. La , tambin es ms importante para variables cualitativas ordinales y enmedianaciertas situaciones especiales de variables cuantitativas.

    La , designada y definida como , tiene un uso muy difundido ymedia aritmtica . !3 "

    3

    N

    X

    N

    conlleva una serie de propiedades muy importantes.

    A continuacin se listan una serie de propiedades de la media aritmtica, denominadacomnmente , y ejemplos ilustrativos de ellas.promedio

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    18/197

    18

    , esta propiedad es una consecuencia directa de la definicin.P :" 3!i=1

    N

    \ R .

    , que establece que la suma de los desvos, respecto a la media, de unP : (# 3!i=1

    N

    \ !.

    conjunto N de datos es . Se llama desvo a la diferencia e indicasiempre igual a cero (\ 3 .cuantas unidades est el valor X por sobre o por bajo la media del grupo, dependiendo si esipositiva o negativa respectivamente.

    , esta propiedad dice que si a cada uno de los datos de unP :$ 3 3 ] \ ] \ 5 5. .grupo se le suma una cantidad constante k, entonces, el promedio de los nuevos datos es igualal promedio original aumentado en la cantidad k.

    , es decir, si cada dato de un conjunto es amplificado por unaP :% 3 3 ] \ ] 5\ 5. .constante k, entonces el nuevo promedio es k veces el promedio original.

    P5 ] -\ 5 - 5 es la expresin de las propiedades 3 y 4 en forma3 3 ] \ . .

    combinada.

    P : La media de una constante es la constante,6 propiedad bastante trivial e intuitiva.

    Ejemplos 4.2

    a) Si el ingreso per cpita de una familia compuesta por 5 personas es de $ 75.000,entonces, el ingreso familiar es de $ 375.000, independiente del ingreso de cada uno.

    b) Si la edad promedio de un grupo familiar es actualmente 38 aos, entonces la edadpromedio de este mismo grupo familiar en 14 aos ms ser de 52 aos.

    c) Si en la arveja el peso de su vaina vaca es siempre igual al peso de los granos quecontiene, entonces, el peso promedio de las vainas completas es el doble del peso promediode su contenido.

    d) En una empresa donde el sueldo promedio de sus empleados es de $ 220.000, elsindicato logra un reajuste de sueldos del 12% ms una asignacin fija de $ 20.000 portrabajador. Entonces, el sueldo promedio reajustado en la empresa ser igual a :220.000 ms 12% de 220.000 ms 20.000, o sea, 1,12 220.000 20.000 , es decir, de $ 266.400.

    Observaciones.

    1) Cuando los datos estn "bien distribuidos" la media aritmtica y la mediana tienen valoresmuy parecidos, por lo cual se puede utilizar cualquiera de las dos como medida de posicin,pero debe preferirse la media aritmtica por ser ms familiar para la mayora de las personas ypor tener ms propiedades vinculantes a otras medidas y a la distribucin normal.2) La media aritmtica, sin embargo, es muy sensible a valores extremos y por lo tanto su valordeja de ser "representativo" del conjunto de datos. En casos como estos se puede utilizar lamediana o la media calculada excluyendo los datos extremos, haciendo la aclaracincorrespondiente.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    19/197

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    20/197

    20

    \ ] \ % Z $\ 3 3 3 3 35 9 15

    8 12 24

    12 16 3620 24 60

    22 26 66

    .! !\ '( \ """( "$ % %$ )%3 \3# #\. 5.! !] )( ] "($$ % "( % %$ )%3 ] \3# # #] \. . 5 5.! !Z #!" Z "!!&$ $ %! # * $*% &'3 Z \3# # #Z \. . 5 5

    Observacin.

    Una notacin utilizada universalmente consiste en resumir una informacin cuantitativa en laforma . 5 .

    Medida de dispersin relativa.

    Establecer la homegeneidad o heterogeneidad de los datos de una poblacin mediante ladesviacin tpica o la varianza, requiere conocimiento y principalmente experiencia delfenmeno en estudio para una correcta interpretacin de sta. Una medida til porque mide ladispersin en forma relativa es el , que permite una interpretacinCoeficiente de Variacin

    ms objetiva de la variabilidad, definida por Con la dispersin relativa esG Z [ 100]% .5.

    posible establecer rangos que determinen niveles de variabilidad poblacional de homogeneidado heterogeneidad, as por ejemplo CV menores al 5% indican , por lo general , granhomogeneidad, CV de alrededor del 20% corresponden por lo general a una homogeneidadmoderada , mientras que mayores al 50% indican gran heterogeneidad. Puede alcanzar,CVincluso porcentajes muy superiores a 100%.

    Ejemplo 4.4

    Se expresa que en una lechera la produccin por vaca es 15 2 , entonces se entiendeE que la produccin promedio por vaca es 15 litros, con una desviacin estndar de 2 litros y unGZ "$ $%.

    Si en otra lechera la produccin por vaca es 14 0,5 , entonces en sta la produccinF promedio por vaca es de 14 litros con una desviacin estndar de 0,5 litros y un %.GZ $ '

    En consecuencia, la produccin en la lechera es ms que en la lechera .F Ehomognea

    En una distribucin normal o gaussiana, se establece, como se justificar cuando se estudieesta distribucin, que aproximadamente el 68% de los individuos tienen valores en el rangodado por y . Por experiencia se sabe que la produccin sigue un comportamiento. 5 . 5 - +

    normal, luego en el caso de la lechera se puede deducir que el 68% de las vacas seEesperara que tengan una produccin entre 13 y 17 litros, mientras que en la lechera seFesperara una produccin entre 13,5 y 14,5 litros para el 68% de las vacas. Con esta otrapresentacin, tambin se evidencia que la produccin en la lechera es ms homognea queFen la lechera E

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    21/197

    21

    Descripcin de Variables cuantitativas discretas para datos agrupados.

    En este caso las tablas son similares a las de variables cualitativas, pero pueden incluir,adems, frecuencias acumuladas: En la primera columna, ahora se indican los diferentesvalores X que asume la variable en estudio y en las siguientes columnas la frecuencia quei firepresenta las veces que se repite el valor X , la frecuencia acumulada es lai F suma parcialide las f , por ejemplo F = f +f +f , F = f +f +f +f +...+f , y es la dei i i$ " # $ " # $ % H expresin porcentualiFi o si se prefiere es la suma parcial de las h , como lo muestra el ejemplo del cuadro 4.3.i

    nlesiones/hoja (X ) f h (%) F H (%)

    0 128 32,0 128 32,0

    1 100 25,0 228 57,0

    2 5

    i i i i i

    2 13,0 280 70,0

    3 20 5,0 300 75,0

    4 40 10,0 340 85,0

    5 60 15,0 400 100,0

    Total 400 100,0

    Cuadro 4.3. Nmero de lesiones causadas por

    virus en 400 hojas de tabaco.

    En la tabla , la frecuencia 52 corresponde al nmero de hojas que presentaron 2 lesiones,cuyo valor porcentual es 13,0%; la frecuencia acumulada 300 indica que existen 300 hojas con3 o menos lesiones y el 57% de la ltima columna dice que en el 57% de las hojas se encontra lo ms una lesin.

    El grfico a utilizar para representar estos datos se denomina quegrfico de varasconsiste en ubicar sobre el eje horizontal X los valores X y trazar sobre este valor una lneaiperpendicular, vara, de altura proporcional a la frecuencia.

    Las medidas de posicin, al igual que antes,incluye a la Moda que es el valor X de mayor i

    frecuencia, la Mediana, ya definida anteriormente, que ahora se determina como el valor X talique H % y H % , es decir, "el valor en el cual se supera por .i i &! &!" primera vez el 50%"

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    22/197

    22

    La Media aritmtica se calcula utilizando la frecuencia f , ya que este nmero indica lasi

    veces que se repite el valor X , como lo indica la siguiente expresini ..

    !i

    l

    i i"

    f X

    N

    VarianzaEntre las medidas de dispersin, la se obtiene igualmente que la media,ponderando los desvos de los datos por la frecuencia f . Su expresin esi

    y su frmula prctica de clculo es La desviacin5 5 .2 2 2f X

    N !i=1l

    i i 2f X

    N

    .

    .!i=1l

    i i

    2

    tpica es por definicin la raz positiva de la varianza y el la razn porcentual entre laGZdesviacin tpica y la media.

    Ejemplo 4.5

    Con los datos del cuadro 4.3, se obtiene que la Moda es 0, que la Mediana es 1 y que. = ( lesiones/hoja.!"#) ""!! # &'!%!! " )"Observe que este promedio no es un valor entero, pero igual tiene interpretacin y es unaforma til para comparar situaciones. Hay que comprender que el promedio es un valorreferencial, de mucha utilidad, pero no necesariamente debe coincidir con algn valor

    observado. Es posible leer que un futbolista M es ms goleador que otro P, porque M tiene unpromedio de goles por partido de 1,6, mientras que el promedio de goles de P es de 1,2.Para los mismos datos la varianza se calcula = ( , lo5# # # #! "#) & '!%!! " )"

    que da , por lo tanto = 3,2939 = 1,8149 y 100,3%.$ #*$* G Z 5 Descripcin de variables continuas para datos agrupados.

    Si la variable es los datos se clasifican en clases que son intervalos,continuadenominndose .tabla de frecuencias de intervalosLa frecuencia representa ahora el y el restof nmero de datos comprendido en el intervaloide la tabla se confecciona en la misma forma que en la tabulacin de variables discretas, peroincluyendo, adems, una columna con el valor marca de clase X . La tabla adquiere laiestructura que se muestra a continuacin.

    Intervalo X f h (%) F H (%)i i i i iL X L X f h F H

    L X L X f h F H

    L X L X f h F H

    ................ ... ... ..... .... ....

    L X L

    0

    2

    i-1

    " " " " " "

    " # # # # # #

    $ $ $ $ $ $

    i i i i i i

    k -1 k k k k

    X f h F H

    ................ ... ... ..... .... .....

    L X L X f h N 100,0 Total N 100,0

    donde: e : son los lmites inferior y superior respectivamente del intervalo i-simo;L Li-1 i

    X =iL + L

    2

    i-1 i

    , recibe el nombre de valor clase del intervalo "i" , cuyo supuesto es que representaal promedio de los datos incluidos en el intervalo, lo que no necesariamente ocurre as yc = L - Li i i-1 , recibe el nombre de del intervalo "i", amplitud que puede ser distintaamplitudpara cada intervalo. Por lo general, intervalos de igual amplitud facilita los clculos.

    Los grficos utilizados en variables continuas son yHistogramas Polgonos defrecuencias

    La tabla corresponde a la distribucin de la produccin de 500 manzanos enanos

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    23/197

    23

    Produccin(kg/rbol) Frecuencia

    60 X 75 45

    75 X 90 60

    90 X 105 70

    105 X 120 110

    Xq

    8

    .S#

    distribucin con (n 1) grados de libertad, correspondiente a los de S .t #

    Notacin: ; Notacin percentil alfa : .> Xq

    8

    .S#

    t8 " 8 "t!

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    106/197

    106

    Observaciones.

    1) Grados de libertad es el parmetro de la distribucin, igual como ocurre con la ji cuadrada,pues de hecho esta distribucin es consecuencia del cociente entre una normal estndar y laraz aritmtica de una ji cuadrada dividida por sus grados de libertad, ambas independientesentre s.

    2) La curva de la distribucin es acampanada centrada en 0, similar a la normalt de Studentestndar, pero con "colas ms pesadas", o sea, encierran una mayor rea, por lo que susvalores percentiles son mayores que los de , lo que implica mayor variabilidad Esto parece^ intuitivamente razonable, porque se diferencia con el estadgrafo en que en el denominador^en vez del aparece la S que es un estadgrafo. Tambin separmetro varianza muestral5# #

    cumple que , como se ilustra en la figura 5.2.lim8_

    >8 " R ! "

    3) La funcin de distribucin tiene una expresin matemtica ms complicada que la de ,^razn por la cual el rea acumulada bajo la curva, desde 0 hasta un valor > 0 , est tabulada>para diferentes grados de libertad, , desde 1 hasta 90 o ms segn la tabla utilizada, y parandiferentes valores percentiles : 0,75 ; 0,90 ; 0,95 ; 0,975 ; 0,99 ; 0,995 . Los valores percentilescomplementarios solo se diferencian en el signo, pues son negativos, tal como ocurre en ladistribucin normal estndar. La tabla, del anexo 5 (A5), corresponde a percentiles dedistribuciones t de Student, con distintos grados de libertad.

    El uso de la tabla es similar al de la ji cuadrada con la diferencia que slo aparecen lospercentiles superiores debido a la simetra de la distribucin, porque percentiles

    complementarios inferiores solamente cambian su signo a negativo.

    Ejemplos 5.2

    a) Determinar por tabla los valores percentiles complementarios indicados:- ; los que se obtienen de la lnea 1t t!*! ! "!"! " $(## "! " $(## !,- ; los que se obtienen de la lneat t!*& !!&& # !"&! & # !"&! &- ; los que se obtienen de la lneat t!*& !!% " ("!* #% " ("!* #%

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    107/197

    107

    Observe que al aumentar los grados de libertad los valores percentiles disminuyen, lo quese puede constatar al leer los valores hacia abajo en una misma columna. Para grados delibertad grandes, mayores a 90, los valores percentiles son bastante cercanos al de la normaltpica como se puede verificar comparando con la ltima fila del cuadro 5.2.

    b) Obtener las probabilidades pedidas para el estadgrafo :> *t

    De la lnea 9 de la tabla se determina que:- porque 1,8331 es el percentil 0,95 de la distribucin deT > " )$$" ! *& >- porque 1,3830 corresponde al percentil 0,90T > "$)$! " ! *! ! "! - ( porque -0,7027 es el percentil 0,25, complementario a 0,75T > ! (!#( ! #& - T " $)$! > # #'## !*(& !"! ! )(&- , porque 2,2622 es el percentil 0,975T # #'## > # #'## !*(& !!#& ! *&

    Distribucin de Snedecor-Fisher .

    Esta distribucin es conocida gracias al matemtico y fsico estadounidense George W.Snedecor quien la bautiz de este modo en reconocimiento al notable matemtico, estadsticoy genetista ingls Ronald A. Fisher, quien la haba estudiado anteriormente en 1924 y conquien trabajaron en conjunto. La distribucin es el resultado del cociente entre dos variablesaleatorias independientes con distribucin ji cuadrada, cada una dividida por suscorrespondientes grados de libertad, la del numerador y la del denominador.m n

    Si y con y independientes, entonces tieneY 7 Z 8 Y Z J ; ;# #Y 7Z 8

    distribucin con m y n grados de libertad en el numerador y denominador respectivamente.

    Notacin: ; Notacin percentil alfa :J 7 8 7 8.!

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    108/197

    108

    Observaciones.

    1) Grados de libertad son los dos parmetros de la distribucin .

    2) La curva de la distribucin parte de 0 y tiene una forma algo parecida a la de ji cuadrada,pero en este caso su moda se aproxima al valor 1 a medida que ambos grados de libertad

    aumentan (Figura 5.3).

    3) La funcin de distribucin est tabulada para diferentes grados de libertad del numerador ydenominador, y para diferentes valores percentiles : 0,90 ; 0,95 ; 0,975 ; 0,99 ; 0,995 . La tablaA6, del anexo 6, es una tabla de distribuciones . El uso de esta distribucin, por lo general,es para los percentiles superiores. Si se necesitara algn percentil inferior se puede hacer usode la siguiente relacin "-! !8 7 " 7 8

    4) Si y , entonces por definicinY 7 Z 87 8W W " #

    # #

    " ## #5 5

    ; ;# #

    J 7 8Y 7Z 8

    W W

    W W

    7 78 8

    # # # #" " " "

    # # # ## # # #

    5 5

    5 5 . Este resultado ser de gran utilidad y uso en

    desarrollos estadsticos futuros.

    Ejemplos 5.2

    Obtener los valores percentiles indicados ( se busca en la columna y en la fila) :7 8- y , son valores muy diferentes. !*& ! *&% "! $ % ()! "! % & * '%%,

    - ; !*! !*(&& & $ % &$! & & ( " %'%

    - ;!*& !!&$ "# $ %*!$ "# $ "$ %*!" ! #)'& t

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    109/197

    109

    6. INFERENCIA ESTADISTICA PARA MEDIAS Y VARIANZAS

    6.1 Introduccin.

    La inferencia estadstica es una parte de la Estadstica que comprende los mtodos yprocedimientos adecuados para deducir caractersticas de una a partir de muestraspoblacinaleatorias, en forma cientficamente vlidas, cuyo fin respecto aes obtener conclusionessta, sujetas a una mediante la asignacin de unaduda razonable medida objetiva. La inferencia comprende dos aspectos. la estimacin de parmetros y el contraste dehiptesis estadsticas.

    6.2 Estimacin de parmetros.

    Un parmetro, como se recordar, representa un valor poblacional y por lo tanto es unaconstante. El valor de un parmetro se obtiene a travs de un censo, lo que es posible de

    hacer cuando las poblaciones son finitas, pero en el caso de la inferencia el tipo depoblaciones que se estudian se consideran que son infinitas. En consecuencia la nica va deconseguir una del parmetro es a travs de muestras. Para que una muestra tengaimagenvalidez estadstica sta debe ser aleatoria y simple, en los trminos definidos en la unidadDistribuciones Muestrales. Una muestra aleatoria simple (m.a.s) permite obtener un estimadordel parmetro de inters, esto es, un valor muestral o que estar "cercano" enestadgrafoalguna medida al valor del parmetro.

    Estimacin puntual.

    Se llama de un parmetro a un estadgrafo que cumple con lo anterior.estimador puntualSin embargo proporciona una imagen algo imprecisa del parmetro, puesto que una vez

    calculado el valor del estimador a partir de las observaciones muestrales, slo se puede confiaren que ste est "cercano" al del parmetro. Por ejemplo, si para estimar el peso promedio deuna poblacin de hombres adultos, una muestra aleatoria simple entrega una media X igual a

    q

    66,3 kg, la imagen que se puede asociar es que el verdadero peso promedio de las personasestar "alrededor" de ese valor cun cercano?, imposible establecerlo.

    Pueden existir muchos estimadores para un mismo parmetro, por lo tanto hay queestablecer ciertos criterios que permita elegir de entre ellos al que sea el , en el sentidomejorde que tenga la mayor capacidad de entregar un valor cercano al de l.

    Algunas propiedades que caracterizan a un buen estimador del parmetro se explican a) )s

    continuacin.

    1 , que consiste en que , lo que significa que e l valor "promedio" delInsesgamiento I s) )estimador se distribuye alrededor del valor del parmetro .)2 , que consiste en tener la menor varianza entre los estimadoresEficiencia o precisin

    insesgados de , es decir, que de todos los estimadores que cumplan la propiedad anterior) )s

    se debe preferir aquel cuya distribucin tenga la menor variabilidad . De esta manera se

    asegura una alta probabilidad de que el valor de estar ms cercano al de .) )s

    3 , es decir, que en la medida que el tamao de la muestra crezca el valor deConsistencia )s

    estar cada vez ms prximo al del parmetro . Esta es una propiedad asinttica.)

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    110/197

    110

    4 , cuando el estimador utiliza toda la informaci n relevante contenida en laSuficienciamuestra, de modo que ningn otro estimador pueda proporcionar informacin adicional paraestimar al parmetro.

    De los tres parmetros ms importantes: , y la proporcin poblacional P, se puede. 5#

    establecer que X , S y P , respectivamente, son sus , donde P es laq s s# mejores estimadores

    proporcin muestral, ya que es demostrable que satisfacen los criterios anteriores.

    Estimacin por intervalos de confianza.

    Es otra forma de estimacin de parmetros, mucho ms informativa que la puntual, puespermite establecer un rango de valores dentro del cual se encontrara el verdadero valor delparmetro, complementada con un nivel de seguridad o certeza de que esto sea cierto. Paraconstruir intervalos de confianza es necesario partir de un intervalo de probabilidad ( y" !disponer de una variable pivotal adecuada para el objetivo a conseguir. Un intervalo es deprobabilidad si al menos uno de sus lmites es una variable aleatoria o una funcin de ella.Una variable pivotal es un estadgrafo que debe incluir al parmetro a estimar, a su estimador ycuya distribucin debe ser conocida y totalmente determinada.

    Intervalo de confianza para la media de una poblacin normal.

    Existen dos casos a considerar, cuando la varianza poblacional es conocida y cuando estavarianza no es conocida.

    Caso 1. Varianza poblacional conocida.5#

    En esta situacin el nico parmetro desconocido es el cual debe ser estimado.puntualmente mediante X, luego bajo la normalidad de la poblacin la variable pivotal a utilizar

    q

    es Z . Un intervalo de probabilidad central (1 para la variable Z est R ! " Xq

    8

    .

    5 # !dada por ) . Sustituyendo ZT D D " " # " #! ! !

    T D D " " # " #! !Xq

    8

    .

    5 # ) y despejando en la desigualdad! . T D 8 D 8 "

    q qX X ) , obtenindose un intervalo de" # " ## #! ! 5 . 5 !

    probabilidad para , porque sus dos lmites son variables aleatorias que dependen del.estimador X. Sin embargo, una vez obtenida la muestra y calculado el valor de X, el intervalo

    q q

    deja de ser aleatorio, pues sus lmites sern constantes y en consecuencia no tiene asociadauna probabilidad, transformndose en una , cuyos valores son o ,proposicin verdadero falsoes decir, contiene o no a . Esta es la razn que explica por qu el intervalo obtenido se.denomina de confianza con valor el de la probabilidad con que se construy. As

    X X ) D 8 D 8q q

    " # " ## #

    ! !

    5 . 5

    Intervalo del 1- )% de Confianza para con varianza conocida."!! ! .

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    111/197

    111

    Ejemplo 2.1.

    Se desea estimar, mediante un intervalo de confianza del 95%, el rendimiento promedio deuna nueva variedad de trigo cuya distribucin se asume es normal y desviacin tpica de 12qq/ha , o sea 144 . Para tal efecto se siembran 15 parcelas experimentales de\ R .10x10 m . Sus rendimientos, expresados en qq/ha , fueron de 89,4 ; 92,8 ; 79,2 ; 82,6 ; 96,2 ;65,6 ; 106,4 ; 86,0 ; 99,6 ; 69,0 ; 77,5 ; 58,8 ; 96,2 ; 80,9 ; 52,0.

    Como este es un caso de varianza conocida, para construir el intervalo slo se necesitacalcular la media muestral, cuyo valor es 82,15 qq/ha, y determinar que (fig. 2.1).z!*(& "*'Sustituyendo los valores en la expresin del recuadro anterior

    )# "& " *' "%%"& )# "& " *' "%%"&( al 95% de confianza . (' " )) # ( al 95% de confianza. Se deduce, entonces, que con una certeza del.

    95%, el rendimiento promedio de la nueva variedad es de entre 76,1 y 88,2 qq/ha.

    Caso 2. Varianza poblacional desconocida.5#

    En este caso los dos parmetros de la distribucin normal son desconocidos y deben serestimados por X y S . Debido a la normalidad de la poblacin la variable pivotal a utilizar es

    q #

    . Ahora el intervalo de probabilidad (1 para la variable est dada> >8 " >Xq

    W 8

    . # !por ) . SustituyendoT > 8 " > > 8 " " >" # " #! ! !

    T > 8 " > 8 " " " # " #! !Xq

    W 8

    . # ) , despejando en la desigualdad! . T > 8 " W 8 > 8 " W 8 "

    q qX X ) , deducindose que" # " ## #! ! . !

    X t X ) 8 " W 8 > 8 " W 8q q

    " # " ## #

    ! ! .

    Intervalo del 1- )% deConfianza para con varianza desconocida."!! ! .

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    112/197

    112

    Ejemplo 2.2.

    Asuma que en el mismo enunciado del ejemplo 2.1 no se tiene conocimiento de lavariabilidad de los rendimientos de esta nueva variedad, es decir, no se conoce su varianza yque tanto la muestra como los valores muestrales se mantienen. Ahora, adems, de obtenerun estimador puntual para la media se necesita calcular el estimador de , S , mediante la5# #

    frmula , que con los datos anteriores resulta ser 243,0. Se necesita,W #! ! i=1 i=1

    n n2

    i iX ( X ) n

    n 1

    #

    tambin, el valor t 14 2,1448 (fig. 2.2), ya que ahora la distribucin del estadgrafo es0,975 >

    deStudent. Sustituyendo ( al 95%)# "& # "%%) #%$"& )# "& # "%%) #%$"& .de confianza ( al 95% de confianza. Se puede apreciar que esta *! ) ($& .estimacin es ms imprecisa que la obtenida con varianza conocida.

    Intervalo de confianza para la varianza y desviacin tpica de una poblacin normal.

    Cuando la varianza es desconocida su estimador puntual es S y una estimacin por#

    intervalo de confianza debe establecerse utilizando la variable pivotal cuyaH #8"W#

    #5

    distribucin, se recordar es ji cuadrada con (n-1) grados de libertad y un intervalo central deprobabilidad (1- ) para una ji cuadrada es!

    , sustituyendoT 8 " H 8 " " H; ; !# # # ## " #! !

    T 8 " 8 " " , despejando; ; ! 5# # ## " #! !

    8"W#

    #5

    T " , luego se deduce8"W 8"W

    8" 8"

    # #

    " # ## #; ;

    ! !

    5 !#

    8"W 8"W 8" 8"

    ## #

    " # ## #; ;

    ! !

    5

    Intervalo del 1- )% de Confianza para ."!! ! 5#

    El intervalo de confianza para la desviacin tpica se obtiene tomando la raz de los trestrminos de la desigualdad.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    113/197

    113

    8"W 8"W 8" 8"# #" # ## #; ;

    ! !

    5

    Intervalo del 1- )% de Confianza para ."!! ! 5

    Ejemplo 2.3.

    Se aprovecharn los datos de los ejemplos anteriores para ejemplificar la estimacin porintervalo de confianza de la varianza y desviacin tpica cuando estas son desconocidas. De

    los clculos anteriores result ser igual a 243, luegoW # #14*243 14*24326,12 5,635

    "$! # '!% $ 5 ; ;# # #al 95% de confianza ya que 14 5,63 y 14 26,120,025 0,975(fig. 2.3) y el intervalo para es ( ) al 95% de5 5 5 "$! # '!% $ "" % #% ' confianza, luego al 95% de confianza el verdadero valor de la desviacin tpica poblacional esde entre 11,4 y 24,6 qq/ha .

    Intervalo de confianza para la diferencia de las medias de dos poblaciones normales.

    La estimacin se obtendr a partir de muestras aleatorias de , )independientes X N " " "# . 5

    y , ) de tamao y respectivamente, y se desea estimar ( - ). SuX N d2 2 2 8 8 . 5 . .#

    " # # "

    estimador d X X ) tiene distribucin normal, por ser una combinacin lineal des q q

    # "

    X N X N q q q q

    8 8 I I s" " " # # # # " # "" ## #. 5 . 5 . ., ) y , ), con d X X ) y

    Z Z Z Z 8 8 8 8 s sq q q q

    d X X ) X X , por lo tanto d ,# " # " " # " #" # " ## # # #5 5 5 5N d

    y en consecuencia dd

    X X )

    s

    Z s

    q q

    8 8

    d

    ! "# " # "

    " ## #

    " #

    . .

    5 5N

    En el caso ms realista, de varianzas poblacionales y desconocidas, stas deben ser5 5" ## #

    estimadas por S y S respectivamente. El supuesto habitual en casos de 2 o ms# #" #poblaciones es el de , es decir, que todas las varianzas poblacionales sonhomocedasticidaddesconocidas e iguales, luego , donde es la varianza comn a ambas5 5 5 5" #

    # # # # poblaciones y por lo tanto S y S son estimadores de , razn por la cual combinando# # #" # 5

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    114/197

    114

    ambas muestras se obtiene el estimador S , que corresponde a la media ponderada entre S:# #

    "

    y S respecto a sus grados de libertad, luego S## #

    p 8 "W 8 "W

    8 8 #" #

    # #" #

    " #

    Recurdese que el denominador en el clculo de una varianza corresponde a los grados delibertad de esa varianza muestral y en este caso es igual (n +n -2). Sustituyendo y por" #

    # #" #5 5

    su estimador S se obtiene la varianza estimada de d, S S = S .# # # #: " #s 8 8p p p" 8 "8/ )" #

    Por lo tanto tiene distribucin de Student con (n +n -2) grados de libertad, q q

    " 8 "8

    X X )

    S / )

    # " # "

    #" #

    . .

    p > " #porque se est usando una varianza estimada con esos grados de libertad.

    El estadgrafo anterior corresponde a la variable pivotal a utilizar para obtener el intervalo deconfianza para la diferencia de las medias. Se debe mencionar que, si no se cumpliera elsupuesto de homocedasticidad, se tendra una variable pivotal cuya distribucin no es exacta.

    El intervalo de probabilidad (1 para la variable est dada por: >!T > 7 > > 7 " >" # " # #! ! ) , con ustituyendo y despejando -! .m = n +n -2 . S" #." de la desigualdad se obtiene

    ( t " 8 "8 7 " 8 "8q q q qX -X ) S / + ) X -X ) S / + )# " " # # # " " ## #" > " # " #- -! !7 p p. )

    Intervalo del 1- )% deConfianza"!! ! para - , con varianzas desconocidas e iguales.. .# "

    6.3 Contraste de hiptesis estadsticas.

    El contraste de hiptesis, tambin denominado Prueba de Hiptesis o Docimasia deHiptesis, corresponde a un conjunto de metodologas cuyo objetivo es verificar si undeterminado parmetro toma uno o varios valores posibles de inters. Tambin una prueba dehiptesis puede referirse a la distribucin de poblaciones, todo ello evidentemente, a partir demuestras aleatorias.

    Existen algunos conceptos bsicos vinculados a una prueba de hiptesis y que seexplicarn en lo que sigue.

    hiptesis estadsticaUna es una proposicin acerca de una caracterstica poblacional,como puede ser su distribucin o el valor o valores de sus parmetros, y que necesita serprobada. Como se ver, una hiptesis estadstica podr ser aceptada libre denunca todaduda, pues siempre existir un cierto nivel de incertidumbre. Una hiptesis respecto a unparmetro puede ser si especifica un nico valor del parmetro y sisimple, compuesta,especifica ms de un valor del parmetro.

    prueba de hiptesis estadstica dosUna consta de hiptesis. Una denominada hiptesisnula hiptesis alternativa , designada por H , y la otra , designada por H o H . La hiptesis! " anula es la hiptesis que representa , el La hiptesis nulaconservadora lo conocido statu quo.debe ser una hiptesis simple nico, y si se refiere a un parmetro debe especificar un valorpara ste. La hiptesis alternativa es la hiptesis que representa el , lo que secambio quiere

    probar. Esta . Por lo general, se consideranpuede ser una hiptesis simple o compuestahiptesis alternativas compuestas. Una hiptesis alternativa compuesta puede ser de tres tipo:

    1) Hiptesis alternativa bilateral, cuando es la negacin de H!

    2) Hiptesis alternativa unilateral derecha, cuando plantea para el parmetro un valor almayorespecificado en H!

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    115/197

    115

    3) Hiptesis alternativa unilateral izquierda, cuando plantea para el parmetro un valor menoral especificado en H!

    Ejemplos 3.1.

    a) En un juicio a un individuo que supuestamente cometi un delito, las hiptesis nula yalternativa para un juez son, respectivamente, versus .Inocente Culpable

    b) Un asesor econmico aconseja a un productor de kiwi cambiarse a la viticultura porqueresultar ms rentable. El agricultor si quiere considerar seriamente la alternativa deber reunirmltiples consejos e informacin al respecto y deber plantearse las siguientes hiptesis nulay alternativas respectivamente: versusmantenerse como productor de kiwi cambiarse a laviticultura.

    Los dos ejemplos anteriores se refieren a un mbito no matemtico-estadstico. Un ejemploen el mbito estadstico es el siguiente.

    c) Un Instituto de Investigacin afirma haber desarrollado una nueva variedad de trigocuyo supera en 6 qq/ha los 72 qq/ha que rinde la variedadrendimiento promediotradicional. Alguien que quiera verificar tal aseveracin, debe plantearse las hiptesis L !. . (# L (versus 8."

    prueba de hiptesis estadsticaUna es una regla que consiste i) en detomar la decisinaceptar H!, cuando estadsticamente la muestra no entregue para decidirevidencia suficienterechazarla o ii) en de si la deja "una mnimatomar la decisin evidencia muestralrechazar H!duda" de que esa sea la decisin correcta. En resumen, una prueba de hiptesis es una reglade decisin que permite aceptar o rechazar una hiptesis nula, a partir de informacinmuestral. Aceptar una hiptesis nula , asno permite la conclusin que sta sea verdaderacomo rechazarla, no permite la afirmacin de que la hiptesis alternativa es verdadera.

    Nunca es posible probar estadsticamente que una hiptesis nula es verdadera, pues se trataslo de una cuestin de "credibilidad probabilstica".

    Ejemplo 3.2.

    En el caso 3.1 c) el interesado debe disear una muestra aleatoria para reunir informacinsobre el rendimiento de la nueva variedad y una regla, por el momento arbitraria, podra serque si se obtiene una media muestral "ms cercana a 72" se acepta H y por el contrario si!sta es "ms cercana a 78" se rechaza H .!

    Ntese que la anterior es una perfecta regla de decisin, porque cualquier valor X que seq

    obtenga, permitir optar por una u otra hiptesis y adems que la decisin debe basarse en un

    estadgrafo. Sin embargo una regla diseada estadsticamente, como se verno esposteriormente.

    Se llama de una prueba de hiptesis a un conjunto que contiene a todosregin crtica VGlos valores del estadgrafo que conducen al rechazo de H .!En el ejemplo 3.2, la regin crtica es , pues para esos valores, X estarVG \ \ (&

    q q q

    ms cerca de 78 y la decisin ser rechazar la hiptesis nula.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    116/197

    116

    dos tipos de erroresEn toda prueba de hiptesis existe la posibilidad de cometer , uno altomar la decisin de aceptar y el otro la de rechazar la hiptesis nula. Siempre est presente laposibilidad de cometer uno de ellos, pero obviamente el propsito es tomar todas las veces ladecisin correcta y como ello no es posible hay que disminuir el de cometer errores deriesgodecisin y la manera de lograrlo consiste en mantener baja su posibilidad de ocurrencia.

    Las posibles decisiones a tomar se muestran en el siguiente cuadro.

    Hiptesis verdadera \ Decidir por

    Decisin errnea: error ti

    H H

    H! "

    ! Decisin correcta po I

    Decisin errnea: error tipo IIH" Decisin correcta

    El cuadro muestra que en dos situaciones la decisin es la correcta y en otras dos ladecisin es incorrecta, pero no existe certeza a que tipo corresponde la decisin tomada.Cuando se toma la decisin de rechazar H , siendo esta la hiptesis el error! verdadera,que se comete se denomina de tipo I. aceptar H , siendo esta laAl tomar la decisin de !hiptesis el error que se comete se denomina de tipo II.falsa, De los dos errores, el queprovoca consecuencias ms grave es el tipo I y por lo tanto la posibilidad de cometerlo debeser ms "pequea". La posibilidad de cometer el error tipo II tambin importa, pero sus

    consecuencias son menos grave, razn por la cual debe ser mantenido en niveles de riesgo"razonables". Los niveles de riesgo de ambos errores se establecen en trmino deprobabilidades, segn las siguientes definiciones.

    Definiciones.

    1. La se designa por , siendo Prob rech. H / H verdadera).magnitud del error tipo I ! ! ! !

    2. La se designa por , donde Prob(aceptar H / H falsa).magnitud del erro tipo II " " ! !

    3. La de una prueba de hiptesis es la probabilidad dePotencia rechazar una hiptesis nulaque es falsa 1 .y es igual a "

    En el ejemplo 3.1 a) el juez el error tipo I cuando decidepuede cometer declararloculpable realmente inocenteen circunstancia que el individuo es . El juez elpuede cometererror tipo II si decide cuando En cualquier otradeclararlo inocente realmente es culpable.situacin el juez Del comentario anterior resalta que estoma la decisin correcta. ms gravecometer el error tipo I, es decir, declarar culpable a un inocente. Tambin es grave cometer elerror tipo II, pero sus consecuencias son menos graves.

    En el ejemplo 3.1 b) el agricultor cometera el error tipo I si se ycambia a la viticulturaresulta que sta que el kiwi. Es fcil apreciar que este error le trae un granno es ms rentabledao econmico e incluso podra ser su ruina econmica. El error tipo II lo comete si semantiene como productor de kiwi menos rentable que la viticultura.y este resulta En estecaso tambin habra un dao econmico, en el sentido que perdi la oportunidad de hacer un

    buen negocio, pero su situacin no cambia, sigue igual como estaba, lo que en economa sellama .costo de oportunidad

    En las dos situaciones anteriores resulta claro que el error tipo I ser controladodebemediante niveles de riesgo bajos que le den al juez o al inversionista "cierta seguridad deproteccin" contra este error. Por esta razn es que la probabilidad mxima de cometerlo,valor , queda al arbitrio del interesado o investigador. Con el fin de tener valores comparativos!de riesgo, en estadstica se conviene en utilizar valores de de 5% , 1% , 0,1% 10%, y no!valores intermedios. En las situaciones comunes se ocupa el valor del 5%.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    117/197

    117

    nivel de significacinEn una prueba de hiptesis se llama al valor que el investigador leasigna a . El nivel se acostumbra a expresarlo en porcentaje. Si el nivel de significacin de!una prueba es del 1%, entonces = 0,01.!

    El ejemplo estadstico 3.1 c) servir para ver integralmente los conceptos anteriores. Si se

    quiere comprobar cientficamente la aseveracin del Instituto de Investigacin, es necesario,entonces, realizar una prueba con las hiptesis: versus . AsumiendoL (# L ()! ". . que ambas poblaciones se comportan normales, entonces segn H la nueva variedad hbrida!tiene un comportamiento ) , es decir, el mismo de la variedad en uso, mientras queN(# 5#

    bajo H su comportamiento es , por el momento la varianza no juega su papel, razn"#N() 5

    por la cual no se especificar su valor, aunque se supondr igual en ambas poblaciones.

    La figura 3.1 grafica la situacin anterior, en donde la campana de la izquierda, X , muestra!el comportamiento de la variedad hbrida cuando su rendimiento mejor que la tradicionalno esy la de la derecha, X , cuando su rendimiento la supera en 6 qq/ha. Para obtener informacin"que permita apoyar una u otra hiptesis, es necesario tomar una m.a.s. Al no conocer cual esla de la nueva variedad, no se sabe si la muestra proviene de la primera o de lareal situacinsegunda de las distribuciones.

    Sin embargo, la decisin respecto a no se toma sobre la base del comportamiento de las.poblaciones, sino del comportamiento del estadgrafo X estimador del parmetro, representado

    q

    por las campanas ms leptocrticas, segn sea H o H la hiptesis verdadera. En! "

    consecuencia la regla de decisin se establece en relacin al comportamiento de X

    q (#0 N

    5 5# #8 () 8q

    y X , como lo muestra la figura 3.2, que representa las mismas dos1 Ncampanas leptocrticas de la figura anterior. La se establece en relacin a unVG valor crtico( ) , expresndose en trminos generales como X X , que segn el criterioZ G VG O

    q qK

    utilizado en el ejemplo 3.2, 75, ste se ubicara justo en el punto de corte de las dosK =campanas de la figura 3.2. En esta situacin el error tipo I y tipo II tendrn la mismaprobabilidad de ocurrir, correspondiendo al rea sombreada a la derecha y a la izquierda de Krespectivamente. Pero el rea de la derecha debe tener la magnitud , entonces la posicin de!K Kqueda determinada por esta condicin. Si el nivel de significacin de la prueba es del 5%,

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    118/197

    118

    debe estar ms hacia la derecha, ms cercano a 78, de forma tal que el rea sombreada bajola curva que grafica el comportamiento de la media muestral bajo la hiptesis nula H , rea de!la derecha, sea igual a 0,05. De esta manera la magnitud del error tipo II, valor de ,"corresponde al rea sombreada bajo la curva de la media muestral bajo la hiptesis alternativaH . Visualmente se aprecia que la magnitud de es bastante mayor que la magnitud de . Es" " !fcil apreciar, que en esta misma situacin, al disminuir aumenta y viceversa, por el hecho" !

    de tener que mover la posicin de hacia la izquierda o hacia la derecha respectivamente (fig.K3.2).

    La nica forma de disminuir manteniendo fijo el valor de , consiste en aumentar el" !tamao muestral, es decir aumentando . De esa forma se consigue que ambas curvas seannms leptocrticas, o sea estn ms concentradas alrededor de su media y por lo tanto el reade traslape entre ellas sea menor, como se aprecia en la figura 3.3, en la cual la distribucinde las medias muestrales corresponde a muestras tamao 25, mayor que en el caso anterior.Ntese que la posicin de se mueve hacia la izquierda, debido a que las reas disminuyen yKK, como se dijo, es el lmite de un rea del 5% bajo la curva X . Un ejemplo numrico

    q!

    ayudar a aclarar estos conceptos.

    Ejemplo 3.3.

    Supongamos que , es el comportamiento del rendimiento de la nuevaX N "%%.variedad hbrida, del ejemplo 6.3.1 c), donde el valor de depende de cual hiptesis, H o H ,. ! "es la verdadera. Se asumi que la desviacin tpica del rendimiento es 12 qq/ha, ya que paralos clculos se necesitar de tal informacin. Si, como se hace frecuentemente, se fijaarbitrariamente en 16 el tamao de la muestra, se tendr que X y X ,

    q q (# * () *0 1N N

    pues es 9. De esta manera el valor de se determina asignando = 0,055#

    8 "'"%%= K !

    T O (# ! !&q

    Prob rech. H / H verdadera) = 0,05 X! ! .

    T ^ ! !& " ! !& !*&O(# O(# O(#$ $ $9 9( ( ))

    ! *& " '%& O (' *O(# O(#$ $9" Con este valor se puede calcular la

    probabilidad de cometer el error tipo II: Prob(aceptar H / H falsa)" ! ! T O () T ^ ! $( ! $&'

    q" . " " 9X , que corresponde('*()$

    al rea sombreada de la izquierda de la figura 3.2.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    119/197

    119

    Resumiendo, para un nivel de significacin del 5% y un tamao de muestra 16 el valorcrtico corresponde a 76,9 con una probabilidad del error tipo II de 35,6%, es decir,Kaproximadamente 7 veces el error tipo I. Si se aumenta el tamao de la muestra a 25 setendr que X y X , pues 144/25 es 5,76. Siguiendo los

    q q (# & (' () & (' 0 1N N n5#

    mismos pasos anteriores se determina que, ahora toma el valor 75,9, ms a la izquierda queKantes, con una probabilidad de 19,6% para el error tipo II, casi 4 veces el de , como se ilustra!

    en la figura 3.3.

    En el ejemplo anterior se plante la relacin entre el tamao de muestra y la magnitud de loserrores tipo I y tipo II como suele hacerse en la realidad, esto es, definir el nivel de significacinde la prueba y decidir el tamao de la muestra por consideraciones prcticas, con lo cual sepierde el control del error tipo II, por ello, esa de hacerlo. El tamaono es la forma cientficade la muestra es el resultado de decidir a-priori los valores aceptables para y , el que! "depender de lo que planteen las hiptesis nula y alternativa, esta ltima en trminos de unahiptesis simple.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    120/197

    120

    Ejemplo 3.4.

    Se desea establecer el tamao de muestra necesario para contrastar las hiptesis delejemplo 3.1 c), versus . Asumiendo que se tendrL (# L () R "%%! ". . .Xque la distribucin de las medias muestrales bajo la hiptesis nula y alternativason X 144 y X 144 . Entonces para valores = 0,05 y = 0,15,

    q q R (# 8 R () 80 1 ! "

    que corresponden a valores habituales, se tiene:

    Prob ! !& T O (# ! !& T ^ ! !&q

    rech. H / H verdadera) X! ! .O(#

    "%%8 " ! !& !*& " '%&9 9( ) ( ) (1).

    O(# 8 O(# 8 O(# 8

    "# "# "#

    Prob(aceptar H / H falsa) X! ! ! "& T O () ! "& T ^ ! "&q

    . O()"%%8

    ! "& " !% #9O() 8 O() 8

    "# "#

    (1) y (2) establecen un sistema para y que al dividir miembro a miembro (1) por (2) seK n

    obtiene: . Sustituyendo en (1)O(# O(#O() "!% O()"'%&

    " &) O (& '

    (&'(# 8 $' 8"# "# " '%& " '%& 8 & %) 8 $" 8. En el clculo de siemprese debe aproximar hacia arriba, para no sobrepasar el valor de . Entonces con un!tamao muestral de 31 o ms se podra cometer un error mximo, tipo I tipo II, de 5% 15%respectivamente, al contrastar las hiptesis planteadas.

    Esquema para contrastar hiptesis.

    El mtodo cientfico exige el cumplimiento de ciertas condiciones como son el planteamientode hiptesis, un anlisis lgico y crtico y una metodologa vlida para probar la hiptesisplanteadas. As, para probar hiptesis es necesario ceirse a un esquema de 6 pasos quesatisface tales exigencias y que se explican a continuacin.

    1Se plantean las hiptesis nula, H , y la alternat iva H . La hiptesis nula siempre corresponde! "a una hiptesis simple, ya que debe especificar la distribucin poblacional,completamentebajo la cual se establece el estadgrafo de prueba y su distribucin, la que debe ser conocida.La hiptesis alternativa especifica lo se quiere probar, que por lo general representa el cambioen relacin a la hiptesis nula. Esta hiptesis puede ser simple o compuesta. Por lo general esuna hiptesis compuesta, es decir, especifica infinitas distribuciones poblacionales alternativas.

    2Se debe elegir el nivel de significacin de la p rueba o valor de , que se refiere al riesgo!mximo de cometer el error tipo I, el que segn se explic anteriormente es el que provocaconsecuencias ms grave.

    3Se debe identificar el estadgrafo de prueba, el que debe tener caractersticas similares a lavariable pivotal y cuya distribucin debe ser conocida.

    4Se especifica la Regin Crtica, , cuya construc cin depende de la hiptesis alternativa,RCel valor de y la distribucin del estadgrafo de prueba.!

    5Consiste en planificar la muestra aleatoria cuya s observaciones entregarn la evidencia quepermitir tomar la decisin de rechazar o aceptar la hiptesis nula. Para este propsito esnecesario procesar los valores y obtener un valor calculado del estadgrafo de prueba o valor

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    121/197

    121

    muestral. A continuacin se debe verificar si el valor, as calculado, pertenece o no la ReginCrtica. Si pertenece, la decisin es la hiptesis nula, en caso contrario la decisin esrechazaraceptarla o no rechazarla. Aceptar la hiptesis nula debe interpretarse en el sentido que losdatos no proporcionan evidencia suficiente para refutarla, lo que no es equivalente a concluirque lo que plantea la hiptesis nula es lo verdadero. Recuerde que es imposible establecer lacerteza de que una hiptesis es verdadera a partir de una muestra. Al rechazar una hiptesis

    nula se debe concluir que con los datos muestrales es ms o probable lo que especificacreblela hiptesis alternativa, dado que, bajo la condicin que la hiptesis nula es la verdadera, laprobabilidad de obtener una muestra que proporcione los datos que nos conduce a la hiptesisalternativa resulta ser . Una probabilidad se refiere a que su valor es igual opequea pequea menor al nivel de significacin de la prueba de hiptesis cuyo valor es .!

    6En este paso se debe respecto al problema en es tudio, la que seredactar una conclusindeduce del anlisis de los resultados realizados en la etapa anterior.

    En cada uno de los siguientes tipos de pruebas de hiptesis slo se indicarn los pasos 1, 3y 4 que son especficos de cada una, puesto que los pasos 2, 5 y 6 son generales y tienen elmismo enunciado anterior.

    Prueba de hiptesis para la media de una poblacin normal .

    Sea la poblacin de la cual se toma una m.a.s. tamaoX N n. . 5#

    1 Las hiptesis son:

    H versus H :

    hiptesis bilateralhiptesis unilateral derecha ,

    hiptesis unilatera! ! "

    !

    ! !

    !

    d

    . .

    . .

    . . .

    . .

    l izquierda

    Existen dos casos a considerar:

    Caso 1. Varianza poblacional conocida.5#

    3 En esta situacin, al igual que para intervalos de confianza, el estadgrafo de prueba es

    Z , bajo la hiptesis H . R ! "Xq

    8

    .

    5

    !# !

    4 La regin crtica depende de lo establecido en los tres pasos anteriores y en particular de lahiptesis alternativa, por lo cual hay tres posibles asociadas a cada una de las tresR.C.hiptesis alternativa, con un z que resulta de los clculos al sustituir X en el estadgrafoc

    q

    indicado en el paso anterior:RC = z z { z / z o z } regin crtica bilateralc c c " # " #! !RC = z{ z / z } regin crtica unilateral derechac c "!RC = z{ z / z } regin crtica unilateral izquierdac c "!

    Obsrvese que la regin crtica no se estableci X K , porque resulta ms directa la

    q

    forma anterior, para evitar tener que despejar X, como se deduce de: , que

    q

    Xq

    8.

    5

    !# z"!

    al despejar se obtiene X , donde K =q

    8 8. 5 . 5! !# #z z ." "! !

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    122/197

    122

    Ejemplo 3.5.

    Se desea probar, al nivel del 5%, si una nueva variedad de trigo tiene mayor rendimientoque la variedad tradicional, actualmente en uso, cuyo rendimiento promedio se sabe es de 72qq/ha con una desviacin tpica de 12 qq/ha. Con esta descripcin se debe plantear la pruebaa realizar, es decir, establecer los pasos 1 a 4 del esquema propuesto.

    1) H 72 versus H : 72! " . .

    2) Se fijar un nivel de significacin del 5% ( = 0,05 )!

    3) El estadgrafo de prueba, bajo la hiptesis H , es Z , suponiendo! R ! "Xq

    8

    .

    5!

    #que los rendimientos se distribuyen normales, lo que habitualmente es verdadero, y por serconocida la varianza poblacional.

    4) La regin crtica es unilateral derecha porque la hiptesis alternativa lo es, luegoRC = z{ z / z }c c " '%&0,95

    5) Con el objetivo de realizar la prueba planteada, se siembran 10 parcelas experimentales

    de 10x10 m con semilla de la nueva variedad, obtenindose una produccin para cada una de89,4 ; 92,8 ; 82,6 ; 96,2 ; 106,4 ; 86,0 ; 69,0 ; 77,5 ; 96,2 ; 80,9 qq/ha.

    A partir de los datos se calcula que X = 87,7 y z = 4,14 y como este valorq

    -)(((#

    "%%"!pertenece a la , pues 4,14 > 1,645, entonces la decisin es rechazar HRC !

    6) Basado en la evidencia proporcionada por la muestra aleatoria es posible concluir que lanueva variedad tiene un rendimiento superior a la tradicional, al nivel del 5%.

    Observacin.

    En la conclusin es importante dejar constancia del nivel de significacin de la prueba,

    porque es posible que la decisin de rechazar la hiptesis nula sea incorrecta, es decir, sepuede estar cometiendo el error tipo I, cuyo valor es el valor de . Sin embargo en elmximo !ejemplo 3.5 , el verdadero valor del error tipo I, de haberse cometido, es mucho menor al 5%,debido a que z = 4,14 es bastante mayor que el valor crtico 1,645, valor lmite de lacregin de rechazo, lo que indica que el z est muy al de la regin crtica, lo que otorgac interiormayor seguridad en no estar cometiendo un error en la decisin tomada.

    Caso 2. Varianza poblacional desconocida.5#

    Las hiptesis son las mismas del caso 1, en consecuencia sigue el paso siguiente:

    3En esta situacin el estadgrafo de prueba, bajo la hiptesis H , es ,! t >8 "X

    S

    q

    8

    .!#

    por lo cual de la muestra se debe obtener tanto el valor de X como de S .q #

    4 Las regiones crticas con un t que resulta de lo s clculos al sustituir X y S en elcq #

    estadgrafo indicado, son similares a las del caso 1, pero con valores percentiles de la t:RC ={ t / t o t regin crtica bilateralc cc > 8 " > 8 "" # " #! !RC ={ t / } regin crtica unilateral derechac c> > 8 ""!RC ={ t / t } regin crtica unilateral izquierdac c > 8 ""!

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    123/197

    123

    Note que en ambos casos la regin crtica bilateral es el complemento del intervalo deconfianza, pues corresponde a la parte externa de ste.

    Ejemplo 3.6.

    Un productor de pollos Broiler afirma que los pollos que produce cumplen con una normasanitaria que establece que la cantidad de hormonas que estos contengan no debe superar los19 nanogramos. Un inspector sanitario decide probar tal afirmacin sobre la base de 10 pollos.

    El siguiente es el planteamiento de la prueba a realizar por el inspector, puesto que stedebe probar, hiptesis H , que el productor no cumple la norma."

    1) H 19 versus H : 19! " . .

    2) El inspector decide fijar un nivel de significacin del 5% ( = 0,05 )!

    3) El estadgrafo de prueba, bajo la hiptesis H , es t , pues la varianza! >*X

    S

    q

    "!

    .!#

    poblacional es y asumiendo que los contenidos de hormonas se distribuyendesconocida

    normales.

    4) La regin crtica es unilateral izquierda como la hiptesis alternativa , por lo tantoRC ={ t / t }c c 0,95 > * " )$$"

    5) Para verificar la afirmacin del productor el inspector sanitario toma una muestra aleatoriade 10 pollos del productor, obteniendo los siguientes contenidos de hormona en nanogramos,en cada pollo: 18 ; 22 ; 21 ; 19 , 18 ; 17 ; 19 ; 20 ; 22 ; 20. De estos valores se obtiene que

    X = 19,6, S = 2,94 y t = = 1,10 , que al pertenecer a la implica la decisin deq #

    #* "!-19,6 19

    4 no RCaceptar H , o sea, no rechazarla.!

    6) La conclusin que obtiene el inspector es que la evidencia muestral no permite establecerque el productor no cumpla la norma.

    Observaciones.

    Con la decisin tomada por el inspector, el error susceptible de haberse cometido es el errortipo II, cuyo nivel no est explcito, pero est directamente vinculado al tamao de la muestra ycomo la muestra es relativamente pequea puede corresponder a una alta probabilidad. Elvalor de puede calcularse a posteriori y en l se podra buscar una explicacin de por qu" laprueba no fue capaz de rechazar H . irrelevante! En este caso es informar del valor .!

    Prueba de hiptesis para las medias de dos poblaciones normales.

    Sean las poblaciones , de la cual se toma una m.a.s. tamao yX n" " "# R . 5 "

    X n .2 2 22 R . 5# , de la cual se toma una m.a.s. tamao

    1 Las hiptesis son: H versus H :

    hiptesis bilateralhiptesis unilateral derecha

    hiptesis unilat! "

    . .

    . .

    . .

    . .2 1

    2 1

    2 1

    2 1

    eral izquierda

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    124/197

    124

    Es fcil deducir que las hiptesis anteriores se pueden replantear as:

    H versus H : , con tres casos a considerar

    ! " !

    ! !

    !. .

    . .

    . .

    . .2 1

    2 1

    2 1

    2 1

    Caso 1. Varianza poblacionales y conocidas.5 5" #

    # #

    Este es un caso poco usual, pero se tratar porque servir de apoyo en la explicacin de loscasos 2 y 3. Las hiptesis nula y alternativa son comunes a los tres casos.

    3A partir de muestras aleatorias de , ) y , )independientes X X " " "# # R R . 5 . 52 2 2

    de tamao y respectivamente, el estimador de ( - ) es X X ) cuya8 8 q q

    " # # " # ". .

    distribucin es - , y Z , segn loN 8 8 R ! ". . 5 5# " " #" ## #

    q q

    8 8

    X X )

    # " # "

    " ## #

    " #

    . .

    5 5establecido en la construccin del Intervalo de confianza para la diferencia de dos mediaspoblacionales. En consecuencia como bajo H , el estadgrafo de prueba es:! # " !. .

    Z . R ! "X X

    q q

    8 8

    # "

    " #

    # #

    " #5 54Las regiones crticas asociadas son las mismas d el Caso 1, para la media de unapoblacin normal con varianza conocida, esto esRC = z z { z / z o z } regin crtica bilateralc c c " # " #! !RC = z{ z / z } regin crtica unilateral derechac c "!RC = z{ z / z } regin crtica unilateral izquierdac c "!

    Caso 2. Varianzas poblacionales y desconocidas e iguales.5 5" ## #

    3Este es el caso ms usual, en donde , es la vari anza comn a ambas poblaciones,5#

    correspondiente al supuesto de u y elhomogeneidad de varianzas homocedasticidad

    estadgrafo a utilizar es t ( + - ), tal como se utiliz anteriormente para > 8 8 # q q

    " 8 "8

    X X )

    S / )

    # " # "

    #" #

    . .

    p " #construir el Intervalo de Confianza para la diferencia de dos medias y que bajo H adopta la!

    forma t = ( + - ), donde se recordar que S .X X

    S / )

    q q

    " 8 "8

    8 "W 8 "W

    8 8 ## " " #

    #" #

    " ## #

    " # p > 8 8 # " ##p

    4 Las regiones crticasasociada son:RC ={ t / t - ( + - ) o t ( + - ) regin bilateralc c c > 8 8 # > 8 8 # " # " #" # " #! !RC ={ t / ( + - ) } regin unilateral derechac c > > 8 8 #" " #!

    RC ={ t / t ( + - ) } regin unilateral izquierdac c > 8 8 #" " #!

    Ejemplo 3.7.

    Para determinar si el parasitismo disminuye la capacidad fsica de caballos paracompetencias, se evala el rendimiento de 20 caballos sin desparasitar, obteniendo unrendimiento promedio de 29,9 y una varianza de 15. A su vez se evala el rendimiento de 12caballos desparasitados, obteniendo que su rendimiento promedio es de 32,4 con unavarianza de 10. El rendimiento se mide en una escala cuyo mximo es 40. Es posible

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    125/197

    125

    establecer, al nivel del 5 %, que el parasitismo afecta la capacidad fsica de caballos paracompetencias ?

    El planteamiento de la prueba se efecta en los pasos 1 a 4, para lo cual es necesario haceralgunos alcances. El rendimiento de ambas poblaciones se asume normal y se establece entrminos de la media , as la poblacin 1 ser la de caballos. desparasitados ( con tratamiento)

    y la poblacin 2 la de caballos . Entonces lo que se quieresin desparasitar (sin tratamiento)probar es que el rendimiento promedio de la poblacin 2 es que el de la poblacin 1.menor

    1) En consecuencia las hiptesis sern H versus H :! " . . . .2 1 2 1

    2) Se utilizar = 0,05!

    3) Como se trata de dos poblaciones con varianzas no conocidas, ya que la informacin delpromedio y la varianza proviene de muestras, el estadgrafo de prueba es

    t = ( + - ) con SX XS / )

    q q

    " 8 "8

    8 "W 8 "W

    8 8 ## " " #

    #" #

    " ## #

    " # p > 8 8 # " ##p

    4) La regin crtica es { t / t } , unilateral izquierdaRC = c c > $! " ' *($!*&

    5) Segn el enunciado los valores de la media y varianza muestrales son:con tratamiento X = , S = , n = ; sin tratamiento X = , S = , n =

    q q$# % "! "# #* * "&" ""

    # #2 22

    #! "$ # " )) , de donde S y t rechazar H# !p c4"""!"*"&

    $!#**$#

    "$#""#"#! - RC6) Se puede concluir, a un nivel del 5%, que en base a la evidencia muestral el parasitismodisminuye la capacidad fsica de caballos para competencias.

    Una forma ms general de la prueba para comparar dos medias consiste en plantearse lashiptesis de que las diferencias entre las dos medias es una cantidad , no necesariamentedigual a 0. Replanteando las hiptesis y el estadgrafo, queda en los siguientes trminos:

    1 H versus H : ,! " d

    . .

    . .

    . .

    . .2 1

    2 1

    2 1

    2 1

    ddd d

    d

    3 t ( + - ), que bajo H queda t ( + - ). > 8 8 # > 8 8 #

    q q

    " 8 "8 " 8 "8

    q q X X )

    S / ) S / )

    ( X X )# " # "# #

    " # " #

    # ". .

    p p" # ! " #d

    4 En el resto se procede igual al caso 2.

    Caso 3. Varianzas poblacionales y desconocidas y distintas.5 5" ## #

    Corresponde al caso de heterogeneidad de varianza y es un caso en el cual no existe un

    estadgrafo de prueba con distribucin exacta conocida y en consecuencia se debe recurrir a

    aproximaciones, alguna de las cuales se incluyen en los programas estadsticoscomputacionales. Uno de las aproximaciones ms conocidas es el procedimiento de Smith-

    Satterthwaite. Otro procedimiento consiste en calcular tal que:(1)

    > w X XS S

    q q

    8 8

    # "

    # #" #" #

    (1)Mtodos Estadsticos, Snedecor,G. y Cochran,W.; CECSA, 4impresin, 1977.

  • 7/27/2019 Rustom_Probabilidad y Estadistica

    126/197

    126

    i) tiene distribucin aproximada , si = o ii) se compara con el valor crtico> 8 " 8 8 >w w" #t

    > 8 " 8 " W 8 W 8 # #" " # # " " # #" #w t w t

    w w" " # #

    " #

    , donde t = - ) y t = - , con ponderadores w = / y w = / , sit t

    8 8" #.

    Prueba de hiptesis para la igualdad de dos varianzas poblacionales.

    Corresponde a la prueba para la homogeneidad o igualdad de dos varianzas.

    1Las hiptesis son versus .L L ! "" #