III ciclo unidad_de_estadistica

123
Página | 1 Elaboración: Ana Lucía Alfaro Arce, Marianela Alpízar Vargas y Edwin Chaves Esquivel PROGRAMAS DE ESTUDIO MATEMÁTICAS Formación continua: 2011 Materiales para el Tercer ciclo Estadística

Transcript of III ciclo unidad_de_estadistica

Page 1: III ciclo unidad_de_estadistica

Página | 1 Elaboración: Ana Lucía Alfaro Arce, Marianela Alpízar Vargas y Edwin Chaves Esquivel

PROGRAMAS DE ESTUDIO

MATEMÁTICAS

Formación continua: 2011 Materiales para el Tercer ciclo

Estadística

Page 2: III ciclo unidad_de_estadistica

Estadística

Página | 2

Estadística

Introducción

Los diversos medios de comunicación juegan un rol cada vez más importante en la sociedad, aquel ciudadano que posea dominio sobre la información que le rodea tendrá una mejor oportunidad de desarrollarse dentro de la misma.

Los temas de Estadística y Probabilidad se incluyen desde hace varios años en el currículo tanto de primaria como de secundaria de muchos países.

Debido al carácter instrumental de la Estadística para otras disciplinas y la importancia de su razonamiento dentro de una sociedad caracterizada por la disposición de información, la necesidad de analizarla y tomar decisiones basadas en un conjunto de datos, es que se le ha dado importancia a su enseñanza.

Este material está dirigido a docentes de Matemática de secundaria, pretende ser un apoyo para el educador en cuanto a conceptos y tipos de actividades que puede realizar al abordar el tema de Estadística y Probabilidad.

Page 3: III ciclo unidad_de_estadistica

Estadística

Página | 3

Tabla de contenidos

I. Generalidades acerca de la enseñanza de la Estadística y la Probabilidad ................ 4II. Nociones básicas de Estadística ................................................................................. 9

II.1 Conceptos básicos ...................................................................................................... 10II.2 Variabilidad ................................................................................................................ 16II.3 Características o variables .......................................................................................... 18

III. Recolección de información ..................................................................................... 25IV. Representaciones ................................................................................................... ...42

IV.1 Representación tabular ............................................................................................. 45IV.2 Representaciones gráficas ........................................................................................ 62

V. Medidas resumen de posición y de variabilidad ...................................................... 82VI. Recomendaciones metodológicas .......................................................................... 118Bibliografía ...................................................................................................................... 123

Page 4: III ciclo unidad_de_estadistica

Estadística

Página | 4

I. Generalidades acerca de la enseñanza de la Estadística y la Probabilidad

Actividad 1

Reflexione sobre las siguientes preguntas y encuentre posibles respuestas:

1. ¿Qué es la Estadística?

2. ¿Para qué sirve la Estadística?

3. ¿En qué áreas del conocimiento o campos laborales se utiliza Estadística?

4. ¿Por qué la Estadística se puede vincular con otras áreas del conocimiento?

5. ¿Qué son datos?

6. ¿Para qué sirven los datos?

7. Mencione situaciones en las que se requiere utilizar datos.

8. Indique algunas situaciones cotidianas en las que se utilizan conceptos estadísticos.

9. ¿Qué es la Probabilidad?

10. ¿Para qué sirve la Probabilidad?

11. ¿En qué áreas del conocimiento o campos laborales se utiliza Probabilidad?

12. Indique algunas situaciones cotidianas en las que se utilizan conceptos probabilísticos.

13. ¿Cuál es la importancia de generar aprendizaje en conceptos de Estadística y Probabilidades desde los primeros años de escolaridad?

14. ¿Qué habilidades y destrezas en Estadística y Probabilidades piensa usted que requiere un ciudadano?

Análisis de la Actividad 1

La reflexión sobre las preguntas anteriores es fundamental si se desea orientar un proceso de enseñanza y aprendizaje de la Estadística y la Probabilidad con jóvenes. Específicamente en Estadística, se debe tener claro que esta disciplina es mucho más que simples técnicas y métodos para calcular o resumir información, sino que es una ciencia que analiza la forma en que la información debe ser utilizada para orientar la comprensión del entorno del que provienen los datos y, por ende, facilitar la argumentación y la toma de decisiones con base en esa información.

Debido al papel de la Estadística como disciplina fundamental en la utilización de la información para la comprensión del entorno, su enseñanza ha tomado auge a nivel mundial y está incluida en los currículos educativos de primaria y secundaria de la mayoría de países.

Page 5: III ciclo unidad_de_estadistica

Estadística Generalidades acerca de la enseñanza de la Estadística y la Probabilidad

Página | 5

En Costa Rica, la Estadística se incluyó dentro del programa de estudio de los tres ciclos de la Educación General Básica desde 1995; sin embargo, son pocos los docentes que desarrollan estas temáticas en sus clases y en otras ocasiones los imparten de manera superficial, ya sea por falta de tiempo, para dar mayor énfasis a otros temas matemáticos que consideran más importantes, o porque no han recibido una adecuada formación para enseñar esta disciplina.

Conscientes de que la Enseñanza de la Matemática es un pilar fundamental en la educación del ciudadano y que el área de Estadística es una poderosa herramienta para la resolución de problemas cotidianos, el nuevo currículo educativo de matemáticas incluye un mayor énfasis en esta disciplina.

Respecto a la Probabilidad, según Batanero (2001) la intuición tiene un papel determinante, dado que los modelos intuitivos tienen dos grandes funciones: desde edades tempranas permite que el niño comprenda el entorno por sus propios medios antes de ser capaz de entender la complejidad del modelo matemático y además, prepara el conocimiento analítico que tendrá que emplear posteriormente.

Al terminar la instrucción básica, el estudiante debe ser un “consumidor” inteligente y conocer suficiente acerca del origen de los datos y el tipo de razonamiento utilizado en el análisis de los mismos, ya sea que el individuo los obtenga de manera personal o los tome de alguna fuente en particular.

En esta sección se analiza una serie de conceptos elementales vinculados con la Estadística y la Probabilidad, cuya comprensión viene a favorecer la interpretación de las situaciones de aprendizaje que se estarán desarrollando a lo largo del documento.

Debido a que en el ámbito preuniversitario no se pretende formar estadísticos profesionales sino potenciar una cultura estadística y probabilística que le permita al joven aprovechar la información que se genera en el entorno para favorecer el análisis, la argumentación y la toma de decisiones, los programas vigentes únicamente incluyen elementos de Estadística descriptiva. Por esta razón, los diferentes tópicos analizados en el documento se relacionan con dicha área.

***

A continuación se citan las habilidades generales que se espera que desarrolle el lector con esta unidad didáctica y los conceptos que se tratan en ella.

Habilidades generales

• Comprender los conceptos de Estadística: datos, población, muestra, variables cuantitativas (discretas y continuas), variables cualitativas (nominales y ordinales).

• Conocer las distintas representaciones tabulares y gráficas y sus principales características.

• Utilizar las representaciones gráficas y tabulares para resumir información que permita una mejor interpretación de los fenómenos.

• Conocer las diversas técnicas para la recolección de datos existentes y no existentes.

• Recolectar datos del entorno por medio de observación, experimentación e interrogación.

Page 6: III ciclo unidad_de_estadistica

Estadística Generalidades acerca de la enseñanza de la Estadística y la Probabilidad

Página | 6

• Combinar diversas técnicas para la recolección de datos que sean insumos para el análisis de información relacionado con problemas concretos.

• Valorar la importancia de las medidas de resumen: posición, tendencia central y variabilidad para el análisis de la información estadística.

• Utilizar las medidas de posición para resumir y analizar la información proveniente de un conjunto de datos cuantitativos.

• Utilizar las principales medidas de variabilidad para evaluar y comparar la dispersión de los datos.

• Analizar la importancia del uso de medidas relativas de tendencia central y variabilidad dentro de los análisis comparativos de información.

Conceptos

• Nociones básicas de Estadística (población, muestra, unidad estadística, datos, observación)

• Tipos de variables; cualitativas (nominales y ordinales) y cuantitativas (discretas y continuas).

• Representaciones tabulares (distribuciones de frecuencia, cuadros de datos cruzados).

• Representaciones gráficas (gráficas lineales, circulares, barras simples y comparativas, histogramas, polígonos de frecuencias y diagrama de puntos).

• Recolección de información (observación, interrogación abierta y cerrada, experimentación, cuestionario).

• Técnicas de recolección de información existente y no existente.

• Fuentes primarias y secundarias.

• Medidas de posición o localización (máximo, mínimo, moda, media, mediana, cuartiles).

• Medidas de tendencia central (moda, media, mediana).

• Distribuciones de datos simétricas y asimétricas.

• Diagramas de cajas.

• Medición de la variabilidad de los datos (recorrido, recorrido intercuartílico, variancia, desviación estándar).

• Estandarización o tipificación de mediciones.

• Variabilidad relativa: coeficiente de variación.

• Promedio ponderado.

Page 7: III ciclo unidad_de_estadistica

Estadística Generalidades acerca de la enseñanza de la Estadística y la Probabilidad

Página | 7

Un poco de historia Se han dado descubrimientos arqueológicos que evidencian la existencia de colecciones de datos sobre población, bienes y producción en diferentes civilizaciones entre ellas la china (aproximadamente 1000 años a. C.), la sumeria y la egipcia. Incluso en la Biblia, en el libro de Números aparecen referencias al recuento de los israelitas en edad de servicio militar, por ejemplo el Censo de Israel en Sinaí.

Yavé dijo a Moisés y a Aarón: Dentro de los levitas has el censo de los hijos de Quehat, por clanes y familias, de los demás de treinta años hasta los cincuenta, aptos para entrar al servicio de la tienda de las citas.

Números (4,1 – 3 ) Además, precisamente fue un censo lo que motivó el viaje de José y María a Belén, según el Evangelio. Los censos propiamente dichos eran ya una institución el siglo IV a.C. en el Imperio Romano.

Por aquellos días salió un decreto del emperador Augusto, por el que se debía proceder a un censo en todo del imperio. Este fue el primer censo, siendo Irino gobernador de Siria. Todos pues empezaron a moverse para ser registrados cada uno en su ciudad natal.

Lucas (2, 1 – 3) Aunque los orígenes de la Estadística son muy antiguos sólo muy recientemente ha adquirido la categoría de ciencia. Es por esto que es importante conocer el origen y progreso de la Estadística para una mayor comprensión de la misma. Hernández (2005) enfatiza que desde los comienzos de la civilización han existido formas sencillas de estadísticas en representaciones simbólicas en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales y otras cosas. Inclusive, civilizaciones como la egipcia (3050 a. C.), la griega (594 a.C.) y la china (2 000 a.C.) ya implementaban la realización de censos de población y tierras para cálculo de impuestos, cálculo de hombres disponibles para efectos militares o como medio de planificación para la construcción de las pirámides (Egipto). Sin embargo, este autor apunta que fueron los romanos quienes mejor supieron emplear los recursos de la Estadística pues “Cada cinco años llevaban a cabo un censo de la población, y los funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas” (Hernández, 2005). Durante los mil años posteriores a la caída del Imperio Romano y durante la Edad Media se hicieron muy pocas operaciones estadísticas, aunque Carlomagno en Francia y Guillermo el Conquistador en Inglaterra trataron de revivir la técnica romana.

A partir del siglo XVI, los países europeos comenzaron a utilizar elementos de recolección de información y datos de la población. En Inglaterra por ejemplo, Enrique VII ordenó empezar a registrar las defunciones causadas por la peste, costumbre que continuó muchos años hasta que en 1632 los llamados Bills of Mortality (Cuentas de Mortalidad) ya contenían datos sobre los nacimientos y fallecimientos por sexo.

Page 8: III ciclo unidad_de_estadistica

Estadística Generalidades acerca de la enseñanza de la Estadística y la Probabilidad

Página | 8

Hasta el momento, pareciera que la Estadística únicamente estaba en función de los intereses políticos de los gobiernos para el conocimiento de las riquezas y del potencial humano con el que se contaba para propósitos militares. Sin embargo, a finales del siglo XVII se dio el primer estudio estadístico ajeno a esta tendencia. Hernández (2005) describe el trabajo realizado por el profesor alemán Gaspar Newman en 1691:

Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en 7 moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción, pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.

Finalmente, este autor menciona que Godofredo Achenwall, profesor de la Universidad de Gotinga, usó por primera vez en 1760 la palabra Estadística, que extrajo del término italiano statista (estadista). La raíz remota de la palabra se halla en el término latino status, que significa “estado” o “situación”. Esta etimología aumenta el valor intrínseco de la palabra por cuanto que la Estadística revela el sentido cuantitativo de las más variadas situaciones.

Page 9: III ciclo unidad_de_estadistica

Estadística

Página | 9

II. Nociones básicas de Estadística

Actividad 2

La noticia siguiente fue publicada en el periódico La Nación del 10 de mayo del 2011.

http://www.nacion.com/2011-05-10/Tecnologia/UltimaHora/Tecnologia2774169.aspx

EE. UU.: 7,5 millones de usuarios de Facebook tienen menos de 13 años

Washington (AFP). De los 20 millones de menores usuarios de Facebook en Estados Unidos, 7,5 millones tienen menos de 13 años, de los cuales un millón han sido intimidados, hostigados o amenazados a través de esta red social, reveló un estudio publicado el martes.

El año pasado, más de 5 millones de usuarios de Facebook tenían 10 años o menos. En general, fueron autorizados a usar la red social sin haber sido vigilados por sus padres, según el estudio del grupo de defensa de consumidores Consumer reports. Las amenazas a las que se exponen estos niños van desde deseos malintencionados hasta acoso sexual, expresa el informe.

Facebook pide a sus usuarios tener al menos 13 años para poder inscribirse. Pero muchos niños, con o sin la complicidad de sus padres, se abren cuentas con una fecha de nacimiento falsa.

Los padres de los niños de 10 años o menos "parecen desentenderse bastante" del uso que sus hijos le dan a la red social, porque piensan que un niño está menos expuesto a amenazas en Internet que un adolescente, indica el estudio.

Pero mientras un niño de 10 años podría no interesarse en descargar pornografía de la red, "necesita una protección frente a los riesgos que trae Internet, como las invitaciones enviadas por adultos desconocidos", destaca el informe.

Más de cinco millones de hogares estadounidenses recibieron amenazas a través de Facebook el año pasado. Han sido víctimas de virus informáticos, robos de identidad y hostigamientos, informa el estudio que entrevistó a 2.089 hogares en el país.

El grupo de consumidores pide a Facebook reforzar la vigilancia para reducir el número de niños inscritos en la red social.

Con base en la lectura conteste las siguientes preguntas:

¿Qué problemática social se está denunciando en la noticia?

¿Quiénes están sufriendo esta problemática?

¿Cuáles son las características de los afectados?

Page 10: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 10

Análisis de la actividad 2

Aunque la noticia está referida a una problemática social que afecta a los Estados Unidos, la realidad costarricense no se debe alejar mucho de lo descrito en esta noticia.

La problemática social que se aborda es la amenaza que representan las redes sociales para los niños menores de 13 años y el desentendimiento de sus padres. Los afectados son niños menores de 13 años, los cuales no son supervisados por sus padres cuando navegan en las redes sociales.

Es importante que el estudiante pueda extraer información presente en diversos medios de comunicación, fomentando así la comprensión de lectura. El estudio aquí descrito se realizó en los Estados Unidos en esta noticia solamente se describen algunos resultados; sin embargo, el trasfondo es muy amplio, ya que es casi imposible que pudieran entrevistar a todos los niños menores de trece años que utilizan las redes sociales, lo que hace pensar que utilizaron algunos mecanismos para la recolección y tratamiento de la información de modo que les permitiera generalizar los resultados obtenidos sobre la población estadounidense.

El análisis de situaciones como la descrita en este reportaje son importantes insumos para llevar a cabo discusiones en el aula, ya que no solo favorece la extracción de información sino que puede generar reflexiones entre el profesor y los estudiantes sobre temas de actualidad que se involucran con el contexto en el que se desarrollan los niños y jóvenes. Además, si se generan estas discusiones el estudiante se dará cuenta que la información y el tratamiento estadístico de la misma son una herramienta para entender la sociedad en la que vivimos.

***

II.1 Conceptos básicos

Actividad 3

Lea cuidadosamente la siguiente información:

En una institución de educación secundaria, el director necesita conocer el nivel socioeconómico de los núcleos familiares de sus estudiantes para informar la situación al Ministerio de Educación Pública y conseguir con esto mayor ayuda económica para algunos estudiantes.

Para ello decide llevar a cabo una encuesta, donde consulta a los padres o encargados de los estudiantes, entre otras cosas:

• El número de personas asalariadas pertenecientes al núcleo familiar.

• El salario neto mensual de las personas que conforman el núcleo familiar.

• Sexo del jefe del núcleo familiar.

• El nivel de escolaridad que tiene el padre, la madre o el encargado del estudiante.

Page 11: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 11

• El número de personas en primaria, secundaria o en educación superior que conforman el núcleo familiar.

• Si la vivienda donde habitan es alquilada, prestada o propia.

• Área de construcción de la casa.

• El número de personas pertenecientes al núcleo familiar, entre otras.

Después de recolectar los datos, el director los resume, analiza y presenta en un informe a la Dirección Regional de Educación correspondiente.

Con base en la situación planteada conteste cada una de las siguientes preguntas:

1. ¿Cuál es la situación problema a la que tiene que darle respuesta el director de la institución?

2. ¿A quién o quienes describirá la información recolectada en el estudio?

3. ¿Qué estrategia podría seguir el director para la recolección de la información?

4. ¿Cuáles son las características que se van a analizar?

5. ¿Qué tipo de datos (numéricos o no numéricos) se tendrán al final de la recolección?

6. ¿Qué estrategias puede utilizar el director con los datos obtenidos para llevar a cabo un análisis respectivo y comunicar el mensaje de la mejor manera posible?

Análisis de la Actividad 3

La situación problema que el director de la institución quiere resolver es conocer el nivel socioeconómico de las familias que tienen a sus hijos en dicha institución, para informar al Ministerio de Educación Pública.

La información que se recolectará describe el nivel socioeconómico de los núcleos familiares de los estudiantes de la institución.

La estrategia de recolección de información puede ser la encuesta, que se aplicará a todas las familias que tienen a sus hijos en la institución.

Las características del núcleo familiar sobre las que se va dirigir el análisis son:

• Número de personas asalariadas pertenecientes al núcleo familiar.

• El salario neto mensual de las personas que conforman el núcleo familiar.

• Sexo del jefe del núcleo familiar.

• El nivel de escolaridad que tiene el padre, la madre o el encargado del estudiante.

• El número de personas en primaria, secundaria o en educación superior que habitan en la vivienda.

• La condición de la vivienda donde habitan: alquilada, prestada o propia.

• Área de construcción de la casa.

• El número de personas que habitan en la vivienda.

Page 12: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 12

El listado anterior incluye tanto información numérica como de cualidades o características. Esto pues no sólo los aspectos numéricos son relevantes para este estudio sino que características como la condición de la vivienda, nivel de escolaridad, entre otros, son también de trascendencia para el análisis integral de la situación.

Por otro lado, el director de la institución debe prever desde el inicio de su estudio, que los datos que obtendrá tienen importantes diferencias entre los diferentes núcleos familiares, es decir se espera que exista gran variabilidad en los datos, por lo que requiere indagar acerca de las estrategias que existen para el resumen, presentación y análisis estadístico de los mismos.

***

Con la Actividad 3, se han repasado algunos conceptos básicos de Estadística que merecen especial atención:

Unidad elemental o unidad estadística

En primer lugar en todo estudio estadístico se requiere tener muy bien definida la unidad básica que va a proporcionar la información necesaria. En la Actividad 3, la información recolectada proviene del núcleo familiar de los estudiantes de la institución educativa, por lo que él representa la unidad básica de estudio. Esta unidad básica de estudio normalmente recibe el nombre de unidad elemental o unidad estadística.

Características o variables

En una situación o estudio particular, una vez establecida la unidad estadística, solamente algunas de sus particularidades son objeto de estudio, es decir, dentro de todos aquellos aspectos que caracterizan a la unidad elemental únicamente interesan los que se relacionen con el propósito del estudio. En la Actividad 3 se establecieron varias características que fueron listadas: número de personas asalariadas pertenecientes al núcleo familiar, el salario neto mensual de las personas que conforman el núcleo familiar, entre otras. Como se citó anteriormente estas particularidades pueden ser de naturaleza cuantitativa o numérica y también cualitativa, debido a que corresponden a cualidades de las unidades estadísticas. Independientemente de su naturaleza tradicionalmente se les llama características de las unidades estadísticas. No obstante, debido a que el valor de una característica varía de una unidad estadística a otra y esta variabilidad se convierte en la principal fuente de análisis estadístico, se acostumbra catalogar a las características con el nombre de variables.

Observación o dato En la Actividad 3, al momento de aplicar el cuestionario, cada uno de los núcleos familiares proporciona información para cada una de las características o variables en estudio, estos valores se denominan observaciones o mejor aún datos. Es decir una observación o dato representa el valor numérico o la cualidad o categoría que se obtiene de una unidad estadística para una variable en particular. Por ejemplo, para la variable número de personas que habitan en la vivienda, los datos pueden ser 1, 2, entre otros; mientras que para la condición de la vivienda las observaciones pueden ser alquilada, prestada o propia. Por lo anterior, para cada característica o variable de interés en un estudio, los datos estadísticos son conjuntos de

Page 13: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 13

números o de categorías correspondientes a las observaciones o respuestas obtenidas en el análisis de las diferentes unidades estadísticas incluidas en el estudio.

Por lo anterior, un dato aislado, si no se compara con otros datos no se considera como una observación estadística.

Población Por lo que se ha venido señalando, un estudio de naturaleza estadística involucra una cantidad grande de unidades estadísticas; todas ellas son objeto de estudio. En este sentido, la totalidad de unidades estadísticas recibe el nombre de población en estudio. En la Actividad 3, la población está representada por los núcleos familiares de todos los estudiantes de la institución.

En general, una población puede ser finita, infinita o indeterminada. Un ejemplo de un caso de población finita corresponde al problema que se citó en la Actividad 3.

Un ejemplo de población indeterminada se plantea en el siguiente ejemplo:

Una empresa que fabrica enlatados de palmito desea analizar si la cantidad de producto por enlatado se ajusta a lo que se incluye en la etiqueta que son 500 ml. El estudio es urgente pues se ha presentado una demanda, donde se afirma que están vendiendo menos producto del que se supone. Debido a que la empresa no puede parar el proceso de producción para hacer el estudio, como las unidades estadísticas son los enlatados producidos y la variable de interés es la cantidad de palmito por enlatado, resulta imposible determinar la cantidad total de enlatados, entonces se dice que la población es indeterminada.

Un ejemplo de una población infinita se puede observar en la siguiente situación hipotética:

Con la intención de determinar el uso que se le da al suelo en el país, se ha decidido seleccionar aleatoriamente diferentes puntos de coordenadas (x,y) (x: latitud, y: longitud) sobre el territorio nacional e identificar el uso que se le da a la tierra en ese punto particular. Aunque el problema es hipotético, puede notarse que la unidad estadística es un punto de coordenadas (x,y) sobre el territorio nacional, debido a que este punto se elige dentro del continuo de puntos territoriales de Costa Rica. La población de interés es entonces infinita.

Actividad 4

Lea cuidadosamente la situación planteada:

Mario acompaña a su mamá a realizar las compras en el supermercado, cuando pasan por el arroz, su mamá le dice:

- Mario, trae una bolsa de arroz que tenga 95% de grano entero.

El hijo trae la bolsa de arroz y le pregunta:

-¿Qué significa eso de 95% de grano entero?

Page 14: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 14

A lo que la mamá le responde

- Pues la verdad no sé, a mí lo que me gusta de ese arroz es que se ve muy bonito a la hora de cocinarlo, muy sueltito y entero.

Mario llega al otro día al colegio con la bolsa de arroz que compraron y le pregunta a su profesor: ¿qué significa que esta bolsa de arroz tenga 95% de grano entero?

Si usted fuera el profesor de Mario:

1. ¿Qué le contestaría?

2. ¿Qué métodos pueden usar en la clase para comprobar si la inscripción en la bolsa es correcta?

Análisis de la Actividad 4

Que una bolsa de arroz contenga 95% de grano entero significa que aproximadamente, de cada 100 granos en la bolsa 95 están enteros.

Como no sería viable contar todos los granos de arroz de la bolsa para saber cuántos están completos y cuantos no, se pueden extraer pequeñas muestras del contenido de la bolsa, ya que la distribución de arroz dentro de la bolsa se espera que sea uniforme, lo que indica que el comportamiento en algunas muestras va a poder dar una idea de lo que ocurre con todo el arroz contenido en la bolsa.

Para esto el profesor puede formar subgrupos de cuatro estudiantes para que cada uno tome una muestra de arroz de la bolsa tomando como medida el contenido de una tapa de refresco en recipiente de vidrio de 375 ml (comúnmente llamada como chapa), se hace un conteo de granos enteros y partidos por estudiante. Luego se hace la proporción por subgrupo y luego de todo el grupo para poder ir creándose una idea acerca de si el mensaje en la bolsa es viable o no.

El procedimiento que se hizo para la obtención de las muestras no es aleatorio por lo que el experimento no se puede generalizar a toda la población; sin embargo, el estudiante puede darse una idea de lo que sucede con el contenido de la bolsa.1

***

1 Este ejemplo fue adaptado de una presentación realizada en una defensa de tesis en la UCR.

Page 15: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 15

Muestra

En la Actividad 4 se utiliza el concepto de muestra, la cual es una parte de la población. Se extrae para ser analizada y para calcular algunas medidas estadísticas con objetivos claramente establecidos antes del estudio que se desee realizar.

Los elementos de una muestra pueden obtenerse de la población siguiendo un proceso de aleatoriedad donde las unidades estadísticas se seleccionan tomando en cuenta estrategias probabilísticas o un proceso no aleatorio donde se eligen por conveniencia o facilidad.

El procedimiento de selección de los elementos que pertenecen a la muestra depende del tipo de información que se quiere obtener de la muestra, las diferencias o similitudes que tengan las características de la población y las facilidades que tenga quien investiga, como el tiempo, los recursos económicos, entre otros. Es importante rescatar que si se quieren hacer inferencias sobre la población utilizando una muestra como referencia, esta última debe seleccionarse de manera aleatoria.

Ejemplos

Cuando una persona quiere hacerse un diagnóstico de salud, normalmente el médico inicia enviándole un examen de sangre, de heces y orina; de este modo el paciente proporciona una pequeña muestra de cada una de estas sustancias, por medio de las cuales mediante un estudio detallado es posible identificar su estado de salud en relación con una serie de características relacionadas con un adecuado funcionamiento del organismo. A pesar que las muestras aportadas son pequeñas, con ellas se pueden realizar importantes inferencias sobre el estado de diferentes órganos del cuerpo. Este es un ejemplo de la forma en que el muestreo ayuda para la toma de decisiones respecto al comportamiento de una serie de variables. La pequeña cantidad de producto que se utiliza se debe a que las características de cada uno de ellos presentan poca variación. Por ejemplo, los mililitros de sangre que se obtienen de sangre dan la información de toda la sangre que circula por el cuerpo, ya que ésta es muy homogénea.

Por otra parte, cuando se realizan las elecciones presidenciales en el país hay instituciones encargadas de realizar encuestas que determinan las preferencias de los votantes conforme se vaya acercando la fecha de la elección. Por razones de costo y tiempo dichas encuestas no se pueden realizar al total de la población, por eso las instituciones responsables de estos estudios realizan encuestas a muestras relativamente pequeñas (normalmente entre 1000 y 2000 personas, a pesar que hay cerca de tres millones de electores).

También se presentan situaciones en las cuales el muestreo es absolutamente necesario, pues la obtención de los datos estadísticos implica la destrucción de la unidad estadística, un ejemplo de esto lo representa el análisis de los enlatados de palmito que se citó anteriormente, según el cual para analizar el contenido de los enlatados el producto debe ser abierto y pesado. Muchos otros estudios presentan el mismo problema, por lo que el proceso de muestreo adquiere una relevancia fundamental.

Es importante hacer notar que entre más variabilidad posean las características de las unidades estadísticas más grande debe ser la muestra que se selecciona. De hecho, la variabilidad es más importante que el tamaño de la población al momento de seleccionar una muestra para un estudio particular.

Page 16: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 16

II.2 Variabilidad

Actividad 5

Lea atentamente la siguiente situación y conteste la pregunta planteada:

El profesor de Matemática pide a un grupo de cuatro estudiantes de la sección 8-1 de un colegio particular que caracterice los objetos personales que pueden observarse del resto de los compañeros, entre ellos: color de camisas y blusas, color de pantalón o enagua, color de las mochilas, largo del cabello y sexo.

Los estudiantes deben realizar la recolección de datos por medio de la observación, resumirlos, analizarlos y presentarlos al profesor.

Los estudiantes hacen una tabla con el nombre de sus compañeros y las características observadas como se presenta en el cuadro adjunto.

Cuadro 1. Caracterización de los estudiantes de la sección 8-1

Nombre Sexo Color de camisas

y blusas

Color de pantalón o

enagua

Color de las mochilas

Largo del cabello

María José M Celeste Azul Rosada Largo

Arturo H Celeste Azul Azul Corto

Antonio H Celeste Azul Morado Semi corto

Sofía M Celeste Azul Verde Corto

Luego piden orientación al profesor, entre las preguntas que le hacen están:

-Como no podíamos medir nada solo observar, en el largo del cabello lo que hicimos fue clasificarlo como:

Corto: si está pegadito a la cabeza o arriba de los hombros

Semi corto: si está por los hombros

Largo: si está por debajo de los hombros

¿Verdad que se podía hacer así?

A lo que el profesor responde:

-Claro que sí, la idea era que ustedes encontraran la estrategia para clasificar los datos que obtuvieron.

Page 17: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 17

Los estudiantes continúan:

-Con el color de las camisas y blusas no tenemos ninguna duda ya que es muy fácil la clasificación al ser TODAS de color celeste, porque así es el uniforme de nuestra institución. Ocurre algo similar con el color del pantalón o enagua ya que TODOS son azules.

Ahora cómo hacemos para contestar a la pregunta, ¿de qué color es la mochila de los estudiantes de la sección 8-1? Ya no podemos dar una respuesta directa. Y ¿cuáles son las diferencias de esas variables que inducen a que unas sean más fáciles de analizar que otras?

Si fuera el profesor de esos estudiantes, ¿cuáles serían sus respuestas?

Análisis de la Actividad 5

Es importante rescatar que el profesor no debe dar de una vez la respuesta a este tipo de interrogantes sino que debe dirigir una discusión con los estudiantes para que ellos mismos logren contestarse.

Puede hacer las siguientes preguntas:

¿Qué propiedad se puede observar en los datos que arrojó la variable “color de camisa o blusa”?

Los estudiantes pueden decir que todas son iguales.

¿Qué propiedad se puede observar en los datos que arrojó la variable “color de la mochila”?

Los estudiantes pueden decir que no todos son iguales, hay diversidad en las respuestas.

El profesor puede concluir que en la primera de las características no hay variabilidad pues todas son iguales; sin embargo, en la segunda las respuestas son diversas por lo que se dice que hay variabilidad en los datos.

El profesor continúa:

-Ya saben que el color de la mochila no se puede generalizar a todo el grupo ya que hay variabilidad, entonces ¿qué pueden hacer? ¿Saben cuántos colores distintos hay en las mochilas? Para cada color, ¿pueden determinar cuántas mochilas hay?

Con este tipo de preguntas los estudiantes se irán dando una idea de cómo pueden hacer la representación de datos con variabilidad, ya sea en cuadros o gráficas estadísticas2

Estas situaciones tienen particular relevancia en los estudios estadísticos, el análisis de la variabilidad en los datos es el principal fundamento de la disciplina; las técnicas estadísticas que se han desarrollado tienen como principal fundamento ayudar a describir, proyectar y analizar estos patrones de variabilidad de los datos. Por ejemplo, para efectos de la Actividad 5, para el color de la camisa o blusa basta con indicar que todos los estudiantes utilizan el mismo color para cerrar el estudio; mientras que para el análisis del color de la mochila se

.

2 En este material didáctico y en la propuesta de los nuevos programas de estudio, considere como sinónimos las palabras tabla y cuadro, también gráfica y gráfico estadístico.

Page 18: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 18

requiere establecer técnicas de resumen de información, cuadros o gráficas para evidenciar el patrón de variabilidad y para poder llevar a cabo una reflexión sobre dicho patrón. Por esta razón, en un estudio estadístico el concepto de variabilidad juega un papel preponderante y debe ser tomado en cuenta en todo momento.

***

II.3 Características o variables

Anteriormente se definió lo que era una característica o variable, a continuación se retoma el tópico y se amplía.

Actividad 6

Retomamos la actividad donde el director requiere recopilar información del nivel socioeconómico de las familias que tienen a sus hijos en la institución que él dirige. Sabemos que en dicha actividad se estableció que las características del estudio son:

• Número de personas asalariadas pertenecientes al núcleo familiar.

• El salario neto mensual de las personas que conforman el núcleo familiar.

• El nivel de escolaridad que tiene el padre, la madre o el encargado del estudiante.

• El número de personas en primaria, secundaria o en educación superior que habitan en la vivienda.

• La condición de si la vivienda donde habitan es alquilada, prestada o propia.

• Área de construcción de la vivienda.

• El número de personas que viven en la vivienda.

1. Para cada una de estas variables determine si los datos obtenidos son cantidades o cualidades.

2. En relación con las variables numéricas, indique si los datos correspondientes se obtienen por conteo o por medición.

3. En relación con las variables cualitativas indique si los datos correspondientes pueden ser ordenados siguiendo algún patrón u orden natural entre ellos.

Page 19: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 19

Análisis de la Actividad 6

En el cuadro 2 se encuentra la clasificación de las variables según la condición de numéricas y de cualidad.

Cuadro 2. Clasificación de las variables según el tipo de datos que se obtuvieron

Variables o características Tipo de datos

• Número de personas asalariadas pertenecientes al núcleo familiar Cantidad

• Salario neto mensual de las personas que conforman el núcleo familiar

Cantidad

• Número de personas en primaria, secundaria o en educación superior que habitan en la vivienda

Cantidad

• Condición de si la vivienda donde habitan es alquilada, prestada o propia

Cualidad

• Área de construcción de la vivienda Cantidad

• Número de personas que viven en la vivienda. Cantidad

• Nivel de escolaridad que tiene el padre, la madre o el encargado del estudiante

Cualidad

En el cuadro 3 se encuentra la clasificación de las variables numéricas.

Cuadro 3. Clasificación de las variables numéricas

Variables numéricas Forma de obtener los datos

• Número de personas asalariadas pertenecientes al núcleo familiar

Conteo

• Número de personas en primaria, secundaria o en educación superior que habitan en la vivienda

Conteo

• Número de personas que viven en la vivienda. Conteo

• Área de construcción de la vivienda Medición

• Salario neto mensual de las personas que conforman el núcleo familiar

Medición

Page 20: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 20

En el cuadro 4 se encuentra la clasificación de las variables cualitativas.

Cuadro 4. Clasificación de las variables cualitativas

Características o cualidades Propiedades de las variables

• Sexo del jefe del núcleo familiar

• Condición de si la vivienda donde habitan es alquilada, prestada o propia

No hay orden natural

No hay orden natural

• Nivel de escolaridad que tiene el padre, la madre o el encargado del estudiante

Si hay un orden natural

***

Variables cuantitativas discretas y continuas Dentro de un análisis estadístico si los valores posibles de la variable pueden ser expresados numéricamente, a estos se le llaman variables cuantitativas. No obstante, dentro de este tipo de características de las unidades estadísticas también surge una subclasificación que tiene relevancia técnica, tal como se diferencia entre el número de personas asalariadas en el núcleo familiar y el área de construcción de la vivienda. Los datos en el primer caso se obtienen por conteo, por lo que este tipo de variables toma únicamente números enteros y se denomina variables discretas. Para el segundo caso, el área de construcción debe ser obtenido por medición, en este caso se utiliza un instrumento para medición de área y la unidad puede ser el metro cuadrado; las variables para que en la obtención de los datos se requiere un instrumento de medición se denominan variables continuas; teóricamente podrían tomar cualquier valor real en un determinado intervalo.

Variables cualitativas nominales y ordinales

En relación con las características no numéricas de las unidades estadísticas, se presentan las variables cualitativas, que también se pueden subclasificar en relación con el tipo de dato que generan. Como puede notarse, en la variable sexo del jefe del núcleo familiar, los datos pueden variar en dos categorías: hombre o mujer; pero estas dos categorías pueden ser colocadas en cualquier orden debido a que no existe prioridad clara entre ellas, a estas variables se les denomina variables cualitativas nominales. Por otro lado, cuando se analiza la variable nivel de escolaridad de la persona encargada del estudiante, se tiene claro que las categorías de escolaridad aunque son cualidades pueden ser ordenadas naturalmente de menos escolaridad a más escolaridad o viceversa. En los casos en que se presenta esta situación se dice que la característica es una variable cualitativa ordinal.

Algunos ejemplos de variables cualitativas nominales son: color de los ojos, religión, preferencia política, entre otros. Por su parte, algunos ejemplos de variables cualitativas ordinales son: tallas de las camisas (S, M, L), condición socioeconómica (baja, media, alta), entre otras.

Page 21: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 21

Nota: A las variables cualitativas se les acostumbra llamar variables categóricas, pues los datos que generan pertenecen a diferentes categorías. Entonces cuando una variable cuantitativa se agrupa en clases puede ser analizada como una variable categórica.

Ejemplo

Se desea estudiar, entre otras variables, el peso y la estatura de los estudiantes de un colegio, con el propósito de evaluar su condición de salud. Una vez recolectada la información, con los datos se calculó el Índice de Masa Corporal (IMC) que viene dado por la fórmula:

( )( )

Peso kgIMC

Estatura m=

Una vez determinados los valores numéricos de este índice, tomando en cuenta la edad y el sexo de los estudiantes, se realizó la siguiente clasificación:

• Peso insuficiente • Peso normal • Sobrepeso • Preobesidad • Obesidad I • Obesidad II • Obesidad extrema

En este caso se puede notar que la variable IMC que originalmente es numérica se reclasifica en una variable categórica; pero no pierde su sentido pues la condición de que un estudiante pertenezca a una categoría está en función del valor numérico de su IMC.

***

A manera de resumen, el concepto de característica o variable es lo que deseamos medir o evaluar de la unidad estadística, se puede entonces realizar una clasificación de las mismas como se presenta en el siguiente esquema:

Características o Variables

Cuantitativas

Cualitativas

Nominales

Ordinales

Continuas

Discretas

Page 22: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 22

Actividad 7

Determine para cada variable contextualizada su clasificación, a saber: cualitativa (nominal u ordinal) y cuantitativa (continua y discreta).

Variable contextualizada Clasificación de la variable

Estaturas de los integrantes del equipo de baloncesto de un colegio.

Número de hermanos de cada uno de los estudiantes de sétimo grado de un colegio en particular.

Deporte preferido de los estudiantes de undécimo año.

Color de zapatos de los asistentes a una fiesta.

Nivel de escolaridad de los padres de familia de los estudiantes de un grupo guía del docente.

Longitud que hay entre el dedo anular y el codo de los alumnos del aula.

Cantidad de padres de familia asistentes a la primera reunión del año lectivo por nivel, en una institución en particular.

Temperatura de una persona o su estado febril utilizando la clasificación Subfebril o febrícula: Menos de 37,5ºC; fiebre ligera: Menos de 38ºC; fiebre moderada: 38 – 39ºC; fiebre alta: 40ºC y hiperpirexia: 41ºC.

Page 23: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 23

Análisis de la Actividad 7

Variable contextualizada Clasificación de la variable

Estaturas de los integrantes del equipo de baloncesto de un colegio. Cuantitativa continua

Número de hermanos de cada uno de los estudiantes de sétimo grado de un colegio en particular.

Cuantitativa discreta

Deporte preferido de los estudiantes de undécimo año. Cualitativa nominal

Color de zapatos de los asistentes a una fiesta. Cualitativa nominal

Nivel de escolaridad de los padres de familia de los estudiantes de un grupo guía del docente. Cualitativa ordinal

Longitud que hay entre el dedo anular y el codo de alumnos del aula. Cuantitativa continua

Cantidad de padres de familia asistentes a la primera reunión del año lectivo por nivel, en una institución en particular.

Cuantitativa discreta

Temperatura de una persona o su estado febril utilizando la clasificación Subfebril o febrícula: Menos de 37,5ºC; fiebre ligera: Menos de 38ºC; fiebre moderada: 38 – 39ºC; fiebre alta: 40ºC y hiperpirexia: 41ºC.

Cualitativa ordinal

***

Hasta este momento se han abarcado los conceptos básicos de la Estadística. Dicha área se subdivide en Estadística descriptiva y Estadística inferencial; a continuación se hace una descripción más detallada de éstas.

Page 24: III ciclo unidad_de_estadistica

Estadística Nociones básicas de Estadística

Página | 24

Estadística descriptiva: es una parte de la Estadística que se dedica a organizar, representar, resumir y analizar conjuntos de datos, de modo que se puedan describir en forma precisa las características de interés en función del contexto al que pertenecen. Este análisis es fundamental en cualquier estudio que requiera de datos para la toma de decisiones.

En esta etapa la confección de cuadros y gráficas, el cálculo de medidas de posición como de variabilidad y el cálculo de porcentajes son algunas de las técnicas comúnmente utilizadas para favorecer la interpretación, el análisis y la argumentación que se genera de los datos. Cabe rescatar que los distintos tipos de representación de datos son un apoyo para la interpretación y el análisis de los mismos, su construcción no debe ser el fin del análisis estadístico.

Estadística inferencial: debido al propósito básico de la Estadística se fundamenta en identificar los patrones de variabilidad de los datos para favorecer su interpretación y con ello poder apoyar el análisis de situaciones particulares relacionadas con fenómenos vinculados con las diferentes áreas del conocimiento. En este sentido, la información proporcionada por los análisis descriptivos en una muestra aleatoria de datos, puede ser utilizada para extraer conclusiones sobre un conjunto mayor (población de donde se extrajo esa muestra). Esta capacidad para poder inferir sobre la población con base en los resultados de una muestra al azar está basada en supuestos probabilísticos relacionados con los patrones de distribución de los datos.

El conjunto de técnicas y procedimientos por medio de los cuales se vinculan los resultados de la Estadística descriptiva con la aplicación de modelos de probabilidad para inferir o generalizar esos resultados es denominado como Inferencia estadística o Estadística inferencial.

Finalmente, se presenta un esquema relacionado con la Estadística, su relación con la Probabilidad y demás áreas afines.

La Estadística y la Probabilidad a través de la historia surgen como dos ramas completamente separadas; sin embargo, años después se descubre que si se unen se pueden crear áreas nuevas de conocimiento. La Estadística como tal se subdivide en descriptiva e inferencial (estadística aplicada). La Estadística inferencial es el vínculo entre la Estadística y la Probabilidad, aquí se trabaja con muestras obtenidas bajo procesos probabilísticos y gracias a esta obtención se pueden hacer inferencias sobre las poblaciones en estudio.

La Probabilidad por sí sola contempla procesos estocásticos y si consideramos la mezcla que existe entre inferencia y estos procesos obtenemos la teoría estadística.

Page 25: III ciclo unidad_de_estadistica

Estadística

Página | 25

III. Recolección de información

Introducción

En la sección anterior quedó en evidencia que en los estudios estadísticos los datos constituyen el objeto básico, pero además se indicó que a partir de observaciones aisladas no es posible efectuar esos análisis. Por esta razón, una mención especial requieren los procesos de búsqueda y recolección de datos, debido a que la calidad de los estudios estadísticos va a depender en primera instancia de la eficacia de la información y de la forma en que se ha recolectado. Debido a lo anterior, este tema va a ser analizado en la presente sección, junto con los principales aspectos vinculados con las estrategias didácticas para la enseñanza de este tema.

Actividad 1

Analice la siguiente situación para introducir a los estudiantes en la búsqueda y recolección de información.

Suponga que un docente de III Ciclo está muy interesado en conocer los factores que intervienen en el bajo rendimiento en matemáticas de sus estudiantes. El docente sabe que para llevar a cabo ese estudio requiere de datos de calidad y aplicables a su contexto. Una primera interrogante que le podría surgir es: ¿qué variables intervienen en el bajo rendimiento? Para ello necesitará realizar una adecuada búsqueda bibliográfica.

¿Qué opciones de recolección de información se le podrían recomendar al profesor?

Análisis de la Actividad 1

Partiendo del hecho que el docente previamente planteó el problema a investigar y delimitó los objetivos de su estudio, se debe concentrar la atención en el proceso de búsqueda y recolección de los datos. Una primera sugerencia consiste en realizar una búsqueda bibliográfica sobre el tema; para ello podría recurrir a diversas publicaciones en revistas educativas físicas o electrónicas, tesis, artículos publicados en Internet, estadísticas sobre la temática recopiladas por alguna institución como por ejemplo el Estado de la Nación, el Departamento de Análisis Estadístico del MEP o el Departamento de Estudios e Investigación Educativa de la Dirección de Planificación Institucional del MEP. En general, la primera etapa debería ser un proceso de búsqueda bibliográfica en diversas investigaciones que abarquen el tema de interés. En una segunda etapa, una vez que se haya identificado la información existente sobre el fenómeno en estudio, se requiere establecer alguna estrategia para recolectar aquella información sobre la cual no existen datos. En este caso, el docente debería recurrir al uso de algunas técnicas para la recolección de la información que no está a

Page 26: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 26

su disposición. Por ejemplo, se podría construir un pequeño cuestionario y administrarlo a sus estudiantes; también podría observar a ciertos estudiantes durante varias de sus lecciones para identificar factores que intervienen en el bajo rendimiento en Matemática; otra opción podría ser entrevistar de manera directa a algunos de sus alumnos. Además podría simular un pequeño experimento definiendo dos grupos de estudiantes, uno actuaría como grupo control mientras que el otro estaría expuesto a diversos estímulos tales como una enseñanza más individualizada, trabajo paralelo con los padres de familia, uso de recursos didácticos innovadores, entre otros.

De igual manera el docente puede plantear diferentes situaciones en el contexto de los estudiantes, de modo que los haga reflexionar sobre la forma de recolectar información que está disponible o incluso que hay que recolectar de alguna manera porque no se encuentra a disposición. Para este caso se podría optar por técnicas como la interrogación, la observación y la experimentación.

***

Generalidades acerca de la recolección de información

La Estadística es una herramienta utilitaria en muchos campos del saber, su uso se focaliza en dos fines: primeramente para apoyar la investigación científica dirigida a generar conocimiento sobre un fenómeno particular; en segundo lugar para la toma de decisiones en diferentes campos. Independientemente del fin, tal como se ha venido mencionando, los datos constituyen el objeto de estudio; por lo que las estrategias de recolección de éstos deben ser cuidadosamente seleccionadas bajo criterios científicos.

En la práctica, pueden presentarse dos situaciones relacionadas con la recolección de información:

a) Los datos requeridos para un estudio existen y están disponibles en diferentes fuentes. b) Los datos requeridos no están disponibles y deben ser recabados.

En el primer caso, se habla de información existente cuando un investigador o institución la recogió para estudiar un problema o porque los datos son recogidos y publicados periódicamente por alguna institución. Por otro lado, cuando los datos no están disponibles se debe definir y ejecutar una estrategia para obtenerlos.

Información existente

Si la información requerida para un estudio está a disposición se pueden distinguir dos tipos de fuentes a las cuales recurrir: las primarias y las secundarias.

Page 27: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 27

Actividad 2

Analice la siguiente situación.

El INEC es la institución encargada de realizar el Censo de población y vivienda, así como encuestas que sistemáticamente se aplican a diferentes sectores de la población. Por ejemplo, hasta el año 2009 se venía realizando la Encuesta de Hogares de Propósitos Múltiples que en el 2010 se sustituyó por un nuevo ciclo de encuestas de hogares denominado Encuesta Nacional de Hogares. Este instrumento recopila datos de una serie de variables de interés nacional. El INEC organiza y resume la información que finalmente se presenta en cuadros estadísticos desagregados por sexo, grupos de edad, zona urbana, rural y regiones de planificación.

La Comisión Económica para América Latina y el Caribe (CEPAL) realizó un estudio sobre Inmigración en Costa Rica: características sociales y laborales, integración y políticas públicas. Ese estudio abordó numerosas dimensiones de este fenómeno social en el país, desde la caracterización demográfica y socioeconómica de los migrantes hasta el marco jurídico que lo norma. La CEPAL tomó los datos de dos fuentes principales: el Censo de población y vivienda del 2000 y la Encuesta de Hogares de Propósitos Múltiples del 2007.

De acuerdo con el texto anterior, responda las siguientes preguntas:

1. Si usted requiere información para un estudio y utiliza los datos censales que publica el INEC en la página Web: www.inec.go.cr, ¿está usted consultando una fuente primaria o una fuente secundaria?

2. En la misma situación de la pregunta anterior, si ahora consulta el estudio que realizó la CEPAL sobre inmigración en Costa Rica, ¿está usted consultando una fuente primaria o una fuente secundaria?

Análisis de la Actividad 2

1. Debido a que el INEC recaba directamente la información utilizando procedimientos que

ellos mismos establecen y ponen en práctica, entonces este hecho convierte al INEC en una fuente de información primaria para cualquier consulta sobre el censo o cualquier otra encuesta que ellos realizan sistemáticamente.

2. Por su parte, debido a que la CEPAL utilizó información de fuentes primarias para su

estudio sobre inmigración, entonces al emplear los resultados de este estudio se está haciendo uso de una fuente secundaria, pues la CEPAL no recabó información directamente, sino que empleó información que otras instituciones recabaron.

***

Page 28: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 28

Fuentes primarias y secundarias

Una fuente primaria corresponde a aquella oficina, persona o agencia que publica o proporciona los datos que ella misma ha producido. Se trata del productor original de la información; por ejemplo, el INEC (censo, estadísticas de población, Encuesta de Hogares, vivienda, comercio, estadísticas vitales, etc.), el Banco Central de Costa Rica (estadísticas de balanzas de pagos, monetarias, bancarias, etc.).

Una fuente no es necesariamente una publicación. Lo que se requiere es que los datos hayan sido recogidos, tabulados y que existan en forma tal que permita su suministro (por parte de quien los recolectó) y su utilización por parte del interesado.

Una fuente secundaria se refiere a aquella oficina, persona o agencia que hace publicaciones o trabajos que resumen o presentan información originalmente recopilada por otros que son los productores del dato; por ejemplo, cuando la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO) publica datos sobre Costa Rica o los Anuarios publicados por la ONU.

Cuando se realizan investigaciones se recomienda el uso de fuentes primarias por varias razones: generalmente incluyen mayor detalle, menor posibilidad de errores de transcripción, ofrecen definiciones de términos y conceptos empleados, normalmente incluyen un ejemplar del cuestionario y se realiza una descripción de los procedimientos usados, explicación de la forma de capacitación del personal entrevistador, forma en que fueron procesados los datos, entre otras.

En todo estudio debería indicarse la fuente (si corresponde) de la cual se tomaron los datos con el mayor detalle posible, a menos que se obtuviera bajo la condición de no revelar su origen; en este caso, se debería señalar “Fuente: Confidencial”. Independientemente de la forma en que se han obtenido los datos, es fundamental llevar a cabo un proceso de evaluación de la calidad de la información que se va a utilizar. Evaluar las diversas fuentes permite conocer la confianza que merecen en cuanto a calidad, comparabilidad, pertinencia, exactitud, limitaciones y aplicabilidad para el estudio o investigación que se esté realizando. Seguidamente se plantea una situación que un docente podría utilizar para analizar el tema de información existente y no existente.

Actividad 3

Analice la siguiente situación.

Un docente de Tercer o Ciclo diversificado asigna un pequeño proyecto a sus estudiantes para ser trabajado en subgrupos de cuatro integrantes, pero que además incluye la participación de los padres de familia. Los jóvenes tienen la libertad de escoger con quién quiere trabajar, forman los subgrupos y seleccionan un coordinador. El profesor confecciona una guía para el proyecto y la entrega a cada coordinador de subgrupo. El proyecto es un trabajo extraclase que debe ser expuesto ante los demás compañeros en una fecha que fija el docente.

Page 29: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 29

Guía del trabajo

1. Piensen, en conjunto con sus padres, en una problemática social actual de nuestro país que le preocupa a los jóvenes.

2. Definan un tema para su proyecto que abarque la problemática seleccionada y muéstrenlo a su profesor para el visto bueno (la idea es que cada subgrupo trabaje con una temática distinta).

3. Una vez que el docente ha dado el visto bueno para el proyecto, establezcan al menos tres

objetivos que al subgrupo le interese conocer sobre la temática planteada. 4. Defina qué tipo de datos necesitan para lograr sus objetivos.

5. Consulte a sus padres y profesores ¿dónde pueden obtener información sobre la temática

de interés? 6. Con la ayuda de sus padres y profesores, busquen y recolecten la información y datos

requeridos para su proyecto.

7. Resuman, clasifiquen, organicen, analicen e interpreten la información recopilada mediante cuadros y gráficas. Muéstrele el avance de su trabajo al profesor.

8. Una vez que el docente le ha dado recomendaciones, preparen una pequeña exposición

oral para presentar y defender su proyecto ante los demás compañeros.

Análisis de la Actividad 3

Las temáticas que escojan los estudiantes pueden ser muy variadas. Podrían seleccionar problemáticas sociales tales como trabajo infantil, inseguridad ciudadana, violencia familiar, indicadores de pobreza, economía nacional, entre otros. Sin embargo, es posible que los datos que se requieran estén disponibles en alguna institución o en alguna publicación que se haya realizado. Una vez que el docente conoce las temáticas seleccionadas puede recomendarles un listado de fuentes de recolección de información al que pueden acudir. Por ejemplo, la administración del colegio o al Departamento de Orientación, Departamento de Análisis Estadístico del MEP, al Departamento de Estudios e Investigación Educativa de la Dirección de Planificación Institucional, al INEC, al Banco Central de Costa Rica, las Municipalidades, el Tribunal Supremo de Elecciones, el Ministerio de Trabajo, el Instituto Mixto de Ayuda Social, la Caja Costarricense del Seguro Social, el Ministerio de Salud, entre otros. Es importante resaltar que mucha información de las fuentes mencionadas se encuentra en las respectivas páginas de Internet; con ello los padres de familia y los docentes pueden ayudar y orientar a los jóvenes en la búsqueda de los datos que necesitan. Posteriormente, el profesor podría recomendar a los estudiantes algunas estrategias para el análisis estadístico de los datos recolectados.

Page 30: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 30

Es importante señalar que el docente debe delimitar la actividad a las posibilidades de datos existentes, de manera que los estudiantes tengan la posibilidad de encontrar la información sin grandes complicaciones ni grandes traslados.

***

La situación anterior ilustra casos donde la información requerida está disponible porque ha sido recogida en otros momentos. No obstante, también se podría generar situaciones en donde el estudiante tenga que utilizar estrategias para recolectar información que no está disponible. Una recomendación de ese tipo se ilustra en la actividad siguiente.

Actividad 4

Analice las siguientes situaciones que se desarrollan en un colegio hipotético, en el cual hay dos grupos de sétimo año.

a) El docente de Matemática de sétimo año está interesado en identificar aquellos estudiantes que tienen problemas de socialización que afectan el trabajo en subgrupos, para ello decide plantear varias situaciones didácticas para que sean resueltas por medio del trabajo grupal, y además lleva a cabo una guía de observación para identificar el comportamiento de cada uno durante el proceso. Con esta estrategia puede identificar a los estudiantes que tienen más problemas para socializar.

b) Para complementar el estudio realizado en el punto a) el docente decide reunirse con los

padres de familia o encargados de los jóvenes que presentaron problemas y realizar algunas preguntas preestablecidas para obtener más información al respecto. De este modo y en conjunto con el Departamento de Orientación se pueden buscar medidas que les ayuden a esos estudiantes.

c) Debido a que un importante grupo de estudiantes de sétimo año regularmente llega tarde

cuando tienen clases por la mañana, el profesor de Matemática decide realizar un estudio para identificar los medios de transporte que utilizan para llegar a la institución. Debido a que el colegio se encuentra frente a una carretera principal cerca de paradas de autobuses, el profesor decide llegar a las 6:00 am en los días en que los grupos de sétimo tienen horario por la mañana para identificar el medio de transporte que utiliza cada uno de los 67 estudiantes de ese nivel. De este modo, permanece en la entrada de la institución hasta las 7:30 am observando y anotando si el estudiante llega caminando, en vehículo particular, en autobús público o en transporte privado. Sin embargo, la orientadora del nivel le sugiere que para facilitar su trabajo dedique un espacio (durante las lecciones de Matemática) para consultar a cada estudiante por el medio de transporte que regularmente utilizan para trasladarse a la institución.

Con base en la situación planteada discuta:

1. ¿Qué técnicas de recolección de información se ponen en práctica en cada uno de los

puntos anteriores? 2. ¿Si usted fuera ese profesor, cuál técnica emplearía en la tercera situación y por qué?

Page 31: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 31

3. ¿Qué ventajas y desventajas le observa usted a cada una de esas técnicas identificadas en las tres situaciones?

Análisis de la Actividad 4

1. En la situación a) el profesor recurre a la observación para identificar datos relacionados

con los patrones de conducta de los estudiantes cuando se trabaja en subgrupos. Esta es una técnica muy utilizada en investigaciones sociales y sobre todo en investigación educativa. También, puede ser empleada en procesos de recolección de información en los trabajos de aula durante las lecciones de Estadística y Probabilidades.

2. En la situación b) se recurre a la interrogación a los padres o encargados de los

estudiantes con la intención de recolectar datos que le ayuden a complementar las observaciones realizadas. Para ello el docente elabora una serie de preguntas que aplica a estas personas, con el propósito de obtener información de naturaleza similar y poder sistematizarla.

3. En la situación c), primeramente se considera oportuno utilizar la observación para

recolectar esta información, pero después se sugiere que se utilice la interrogación. Acá se evidencia cómo pueden ser utilizadas diferentes técnicas para recolectar un mismo tipo de datos.

4. Aunque las dos técnicas generan los mismos datos, no necesariamente son igualmente

efectivas ni producen observaciones con la misma calidad. Como puede notarse el uso de la observación en este caso genera un gran esfuerzo de trabajo que implica que el docente invierta una hora y 30 minutos cada uno de los días en que va a aplicar la estrategia, además de una alta concentración en la actividad, pues no se le puede pasar ningún estudiante sin que registre el medio de transporte empleado. Por su parte, la interrogación, en este caso, es de más fácil aplicación, pues basta con plantear, en forma directa o mediante alguna estrategia indirecta, una o más preguntas destinadas a recabar esta información.

Información no disponible En cuanto a la observación sus ventajas son:

a) Se recaba la información directamente, por lo que la calidad de los datos está garantizada siempre que el observador esté debidamente preparado para llevar a cabo este proceso. b) La observación permite desarrollar una descripción de los hechos y al mismo tiempo analizar la situación. c) Esta técnica es de vital importancia cuando se llevan a cabo experimentos de cualquier tipo.

Las principales desventajas son: a) Se requiere una adecuada preparación de las personas que vayan a realizar las observaciones de la forma más natural posible. b) Muchas veces, la persona observada puede sentirse intimidada y no actuar naturalmente.

Page 32: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 32

c) Se requiere definir un instrumento para recabar los datos de cada observación, lo cual no siempre es una tarea fácil.

En cuanto a las ventajas de la interrogación: a) Permite unificar información para las distintas unidades estadísticas, pues a todas ellas se les realizan las mismas preguntas. b) Debido a que las preguntas son estándar, la preparación del entrevistador no requiere ser tan detallada como en el caso de la observación. c) Es adaptable a diferentes situaciones.

Pero también tiene desventajas, tales como: a) Es difícil obtener información confidencial pues puede ocurrir que el entrevistado se intimide con la pregunta. b) Se limita la posibilidad de profundizar sobre un tema, pues la pregunta está dirigida para recolectar información muy específica.

***

Actividad 5

a) Normalmente se cree que si en un sorteo sale favorecido un número particular, entonces

su probabilidad de ocurrencia disminuye para el siguiente sorteo. O en su defecto, si un número no ha salido favorecido en mucho tiempo, se cree que tiene más probabilidad que otros números de salir. Esta creencia se conoce como falacia del jugador, pero también es aplicable a la vida real y afecta el actuar de las personas. Con el propósito de eliminar esta creencia equivocada, un educador pide a los jóvenes que realicen la siguiente experiencia.

Tomen un dado numerado del uno al seis, láncenlo una primera vez y observen el resultado y luego láncenlo una segunda vez y vuelvan a observar el resultado, anoten ambos resultados. Luego repitan esta experiencia un número grande de veces, 20 o 30 veces. Con la información obtenida discuta si los datos comprueban o desmienten la creencia de que el primer número que sale tiene menos oportunidad de salir favorecido en el segundo lanzamiento. b) Una estudiante pregunta al docente ¿es cierto que las mandarinas regularmente tienen 10

gajos? El profesor, que realmente nunca había prestado atención a eso, aprovechó la inquietud de la estudiante para introducir los conceptos de medidas estadísticas. En la siguiente lección trajo una mandarina para cada estudiante y les propuso que se la comieran, pero antes que contaran el número de gajos y el número de semillas de la fruta. Con ello, el docente espera generar un grupo de datos que le permita introducir los conceptos sobre medidas estadísticas y al mismo tiempo evacuar la consulta de la estudiante, al menos para el grupo de mandarinas que consiguió.

Page 33: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 33

Analice cada una de estas situaciones y responda: 1) ¿Qué técnica de recolección de información han utilizado los educadores en las

experiencias anteriores? 2) En la actividad a), ¿cree usted que la experiencia planteada ayude a romper con la

creencia tradicional de la falacia del jugador? 3) ¿Considera usted que la actividad b) provoca que se desaproveche mucho tiempo y genera

un costo innecesario, debido a que el docente debió buscar o inventar otros datos que le ayudaran a introducir los conceptos de medidas estadísticas?

Análisis de la Actividad 5

1) En las dos actividades propuestas por los docentes se utilizan pequeños experimentos que

ayudan a los estudiantes a buscar respuesta a un problema particular. Aunque se debe aclarar que en ambos casos la experimentación se combina con la observación para generar los datos.

2) No se puede tener la certeza absoluta de que esta actividad rompa con dicha creencia, ya

que depende de varios factores, entre ellos la cantidad de repeticiones del experimento (entre más mejor). No obstante, al simular esta experiencia se espera que el número que salga favorecido en el primer lanzamiento se repita una cantidad de veces similar a la de los otros cinco números para el segundo lanzamiento, dejando claro que no existe una razón científica para creer que su probabilidad disminuye para el segundo lanzamiento. El siguiente cuadro muestra los resultados de repetir el experimento 60 veces.

Page 34: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 34

Repetición Primer

Lanza.

Segundo

Lanza. Repetición

Primer

Lanza.

Segundo

Lanza. Repetición

Primer

Lanza.

Segundo

Lanza.

1 5 3

21 5 2

41 3 2

2 2 1

22 2 5

42 3 4

3 5 3

23 4 2

43 6 4

4 6 6

24 2 1

44 1 1

5 2 5

25 2 2

45 2 1

6 3 2

26 5 2

46 1 5

7 5 2

27 6 2

47 5 3

8 1 2

28 3 2

48 4 6

9 5 3

29 2 3

49 5 5

10 3 1

30 1 5

50 3 6

11 3 3

31 4 4

51 6 3

12 5 5

32 1 3

52 5 3

13 1 3

33 5 4

53 5 4

14 3 3

34 5 6

54 2 6

15 2 6

35 4 5

55 1 1

16 4 2

36 5 6

56 6 6

17 2 3

37 1 5

57 4 3

18 1 2

38 2 3

58 4 3

19 5 1

39 6 3

59 2 1

20 1 2

40 1 1

60 2 2

Page 35: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 35

Debido a que cuesta observar los patrones de las repeticiones en el cuadro anterior, esta información puede ser resumida para cada uno de los seis números del primer lanzamiento:

Como puede notarse, no existe una tendencia clara de que el resultado del primer lanzamiento esté afectando el resultado del segundo lanzamiento. Por ejemplo, cuando el resultado del primer lanzamiento fue un uno, el uno salió tres veces en el segundo lanzamiento; cuando el resultado de primer lanzamiento fue un dos, el dos se obtuvo dos veces en el segundo lanzamiento; de la misma manera ocurre con los otros números.

Con experimentos de este tipo, es posible romper algunas creencias que pueden afectar el aprendizaje de los nuevos conceptos.

3) En cuanto a la estrategia planteada por el docente para la segunda actividad, es de mucho

valor práctico para la búsqueda de información dentro del contexto estudiantil, pues ante una pregunta simple se desarrolla una experiencia que permite generar datos que ayudan a dar una respuesta a la interrogante. Esto le da mayor realce a la disciplina pues el estudiante puede valorarla como una estrategia que le permite a comprender mejor el entorno.

***

En términos generales, la experimentación debe ser una herramienta fundamental para generar datos dentro del sistema educativo. En este sentido los niños y los jóvenes tienen un gran potencial para la experimentación, la técnica aprovecha ese potencial y lo encausa hacia el aprendizaje. Esta es una de sus principales ventajas, pero también pone al estudiante de cara a situaciones reales y ante la búsqueda de estrategias que le permitan argumentar si una hipótesis o creencia está en lo correcto o no lo está. Su principal desventaja es que el docente debe realizar una muy buena planificación de los experimentos e incluso ponerlos a prueba para tener una mayor certeza de lograr los propósitos educativos.

Por lo general, los experimentos se repiten varias veces para obtener suficientes datos que permitan llegar a conclusiones adecuadas y bien argumentadas.

Page 36: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 36

Actividad 6

Debido a que se han presentado muchos problemas digestivos entre los estudiantes de un colegio, se desea realizar un estudio para identificar el tipo de alimentos que consumen los jóvenes. Para ello se elaboró la siguiente actividad.

En el artículo denominado, La dieta equilibrada: guía para enfermeras de Atención Primaria, de la Sociedad Española de Dietética y Ciencias de la Nutrición, publicada en la página Web www.nutricion.org/publicaciones/pdf/Guía%20AP-DietéticaWeb.pdf, se incluye la siguiente información:

INTRODUCCIÓN: LA DIETA EQUILIBRADA

Alimentarse correctamente es una preocupación cada día más extendida en todos los países europeos. No solo es un tema que preocupe a los estudiosos, a los científicos y a los medios de comunicación, sino que muchas otras personas demuestran a diario su interés en seguir una alimentación equilibrada como un

medio, el más sencillo, de alcanzar y disfrutar del bienestar personal.

Numerosas enfermedades tienen una estrecha relación con nuestra dieta. Algunas pueden deberse a la escasez de ciertos nutrientes. Otras (y esto es mucho más frecuente en países como el nuestro) se deben a lo contrario: a la abundancia de alimentos que se suele aunar con la escasa actividad física, con el sedentarismo, y conducirnos a la obesidad y a otras muchas patologías asociadas como es el caso de ciertos tipos de diabetes, hipertensión, alteraciones de los lípidos sanguíneos, etc.

- La alimentación equilibrada

La dieta equilibrada es aquella manera de alimentarse que aporta alimentos variados en cantidades adaptadas a nuestros requerimientos y condiciones personales. Llevar una alimentación equilibrada no es ingerir mucha comida, ya que es tan importante la cantidad como la calidad de la misma.

Es importante pensar que no se puede disfrutar de una vida saludable comiendo unos pocos alimentos. La variación es lo idóneo desde el punto de vista del bienestar, permitiéndonos esto disfrutar, además, de la riqueza de los distintos sabores, olores y aromas. De hecho, comer y beber forma parte de la alegría de vivir y, desde luego, la gastronomía no está reñida con las recomendaciones dietéticas ni con una alimentación saludable.

Page 37: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 37

Cuando nos referimos a los alimentos a lo largo de esta guía nos referimos a

La Rueda de los alimentos nos ayuda a conocer la proporción y la frecuencia de los alimentos en la dieta. De su forma se deduce que los alimentos que se encuentran en las ‘porciones’ o sectores más grandes (carbohidratos, frutas, verduras) son los que se deben ingerir en mayor cantidad. Si el sector es más pequeño, menor es la ingesta de los alimentos que debe provenir de los alimentados allí representados.

Vemos a continuación una sugerencia semanal de frecuencia de consumo de los alimentos más destacados. La presentación culinaria y la forma de cocinado deben de huir de la monotonía consiguiendo platos sabrosos y atractivos.

Las chucherías, bollos, refrescos azucarados, etc. deben de ser objeto de un consumo excepcional, no una costumbre. En su cocina utilice preferiblemente aceite de oliva. La cantidad total de alimentos a consumir depende de cada persona y sus características. Estas recomendaciones están realizadas para personas sanas.

Page 38: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 38

Con la intención de determinar el tipo de nutrición que tienen los estudiantes, se desea realizar un análisis estadístico que permita valorar la nutrición de los estudiantes del colegio. En este sentido, los estudiantes de la sección deben recolectar información que les permita realizar dicho análisis. Para ello pueden tomar en cuenta el siguiente cuestionario, como un apoyo para la recolección de la información requerida.

Cuestionario Estimado estudiante, de la siguiente lista de productos, escriba una x en la celda que corresponda al nivel de consumo que usted realiza. (“Muy frecuente” corresponde a un consumo diario, “frecuente” corresponde a un consumo de entre cinco y seis veces por semana, “Regular” representa un consumo de tres o cuatro veces por semana, “Poco frecuente” representa un consumo de una o dos veces por semana, y “Rara vez” menos de una vez a la semana.)

Muy

frecuente

Frecuente

Regular Poco

frecuente

Rara vez

1. Cereales, arroz, pasta, pan 2. Hamburguesas, perros calientes, tacos,

tortas, empanadas

3. Frutas 4. Verduras y ensaladas 5. Papas fritas o tostadas, meneítos, picaritas,

doraditas

6. Carne, pescado, pollo, huevo 7. Golosinas: caramelos, chocolates, gomitas,

helados

8. Lácteos: leche, queso, yogurt, 9. Refrescos naturales o agua

Muchas gracias por su colaboración

Análisis de la Actividad 6

1) La técnica estadística que se ha utilizado en este caso corresponde a la aplicación de un

cuestionario, que consistió en una serie de preguntas de respuesta única utilizando una escala: Muy frecuente, frecuente, Regular, Poco frecuente y Rara vez.

2) Aunque el procedimiento utilizado es muy simple y posiblemente para realizar un verdadero análisis de la problemática que atraviesa la institución se requiera de un estudio mucho más científico, lo cierto es que los datos que se puedan recabar por este medio permitirán tener una primera impresión sobre la magnitud del problema y formar conciencia en los estudiantes de lo conveniente de tener una adecuada alimentación.

***

Page 39: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 39

Encuestas

La técnica del cuestionario utilizada en la actividad anterior está incluida dentro de una estrategia más amplia que se denomina encuesta. Este es uno de los procedimientos más utilizados en estudios relacionados con el ámbito educativo. Las encuestas se caracterizan por plantear interrogaciones verbales o escritas dirigidas a las personas con la finalidad de recolectar datos para un estudio particular. Cuando la encuesta es verbal se hace uso de la técnica de la entrevista, pero en el caso escrito se le denomina cuestionario, que consiste en un listado de preguntas preestablecidas.

Una encuesta puede ser estructurada cuando se compone de una serie de preguntas sistemáticamente elaboradas que se les formula a todos los encuestados de la misma forma. También puede ser no estructurada cuando lo que se establece es únicamente una guía y el entrevistador puede modificar o elaborar nuevas dependiendo de las respuestas que se obtengan.

Las encuestas se le aplican a conjuntos de personas que poseen características similares, por ejemplo, las encuestas electorales que se realizan para medir la preferencia política entre los electores de una región o país.

El cuestionario

Este instrumento se usa como estrategia de interrogación en diferentes formas: individual, grupal, telefónica, Internet, para registro de hechos, entre otros. Por su importancia, en este apartado se analizan algunos detalles claves en la elaboración de un cuestionario.

Las funciones fundamentales de este instrumento son las siguientes:

1) Obtener por medio de preguntas adecuadas las respuestas que suministren los datos estadísticos necesarios para cumplir con los objetivos de la investigación. El cuestionario debe contener información pertinente, válida y confiable. Una pregunta es confiable si al ser aplicada en condiciones esencialmente iguales a los mismos individuos, en diversas oportunidades, da lugar a respuestas aproximadamente iguales. Una pregunta es válida si las respuestas a que da lugar reflejan exactamente la realidad que se desea medir. 2) Ayudar al entrevistador en la tarea de motivar al informante para que otorgue la información requerida. La redacción, el orden de las preguntas y el uso de palabras sencillas y claras son fundamentales para lograr esa motivación en el informante.

Por otra parte, de la estructura y contenido del cuestionario depende, en gran medida, la calidad de la información que se obtenga. Los cuestionarios pueden ser de diversos tipos y formas dependiendo tanto de los propósitos de la investigación como de la población a la cual van dirigidos y de la técnica de recolección que se emplee (entrevista personal, telefónica, por correo).

Para realizar una adecuada entrevista debe hacerse un esfuerzo importante en localizar a la persona que será entrevistada, explicarle los objetivos del estudio y motivarla para lograr su cooperación.

Page 40: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 40

En la elaboración del cuestionario debe dársele suma importancia a aspectos como: la escogencia de palabras (vocabulario adecuado y pertinente), el tipo de preguntas y la forma de hacerlas. Dentro de los tipos de preguntas se pueden mencionar las abiertas, cerradas y semi-abiertas y considerar las ventajas y desventajas de cada una de ellas.

Algunas de las consideraciones importantes para la construcción del cuestionario se describen seguidamente.

1) Incluir un pequeño párrafo de introducción donde se explique al entrevistado cuáles son los propósitos de la encuesta, qué instituciones lo están realizando y se le asegura la confidencialidad de la información. 2) Las respuestas deberían estar redactadas de manera que permitan una generación de datos sencillos, de modo que se puedan sistematizar y resumir de una manera simple. 3) Evitar incluir directamente las preguntas de la investigación en el cuestionario sin antes asegurarse que serán comprendidas por el entrevistado y contestadas adecuadamente. 4) Utilizar palabras precisas que aseguren la validez de las respuestas, palabras claras y sencillas que signifiquen lo mismo para todos, que expresen claramente el concepto que se desea preguntar. 5) Las preguntas no deben ser ambiguas, ni sugerir las respuestas. 6) No todas las preguntas se pueden incluir en el cuestionario en aras de la brevedad del mismo. 7) Colocar las preguntas en un orden conveniente. Al inicio las más fáciles de contestar o de carácter general y al centro o la final las más difíciles o de naturaleza muy personal. 8) Las pruebas previas del cuestionario permiten determinar el orden más adecuado para las preguntas. 9) Evitar las preguntas bidimensionales (preguntar dos cosas en una sola interrogante).

10) Evitar las preguntas en las que aparezca una negación, pues frecuentemente son mal interpretadas.

Por otro lado, para la aplicación del cuestionario se deberían considerar ciertos aspectos como los que se mencionan a continuación.

1) Escogencia adecuada de las personas que van a aplicar el instrumento (conducta, cortesía, relaciones con los demás). 2) Instrucción y preparación de los encuestadores respecto al cuestionario y los propósitos del estudio. 3) Motivar al informante para que contribuya y suministre la información lo más confiable posible. 4) Revisión de la información recabada para verificar que no hay contradicciones.

Page 41: III ciclo unidad_de_estadistica

Estadística Recolección de información

Página | 41

Finalmente, una vez que se han completado los cuestionarios, la información que hay en ellos debe ser procesada para convertirla en cifras numéricas que puedan ser sometidas al análisis estadístico, para luego presentarla en forma resumida mediante cuadros, gráficas y medidas descriptivas, con el propósito de comunicar, interpretar y describir la situación real planteada. A manera de resumen sobre el tópico de recolección de información se presenta el siguiente esquema.

Page 42: III ciclo unidad_de_estadistica

Estadística

Página | 42

IV. Representaciones

Introducción

Al trabajar el área de la Estadística se utilizan diferentes herramientas que favorecen el análisis de los datos. Las representaciones tabulares y gráficas son algunas de las técnicas más utilizadas para ese fin. No obstante, en los procesos educativos se debe tener presente que la construcción de este tipo de representaciones no constituye el fin, sino un medio para comunicar y analizar información que permita extraer conclusiones relevantes para situaciones particulares.

Este apartado trata sobre las representaciones tabulares y gráficas, se abarca la construcción de las mismas y algunos lineamientos para una interpretación adecuada.

Actividad 1

Lea y analice la siguiente situación:

El director de una institución particular requiere saber a qué dedican el tiempo, fuera de clases, los estudiantes del III y IV Ciclos, para así, entre otras cosas, poder hacer comparaciones por ciclo y buscar una posible causa del bajo rendimiento.

Los aspectos a considerar para cada estudiante serían: sexo, nivel en el que se encuentra, tipo de actividad realizada fuera del horario de clase (mirar la televisión, practicar algún deporte, realizar deberes escolares, leer, compartir con amigos fuera de su casa, navegar en la Web y uso de redes sociales, practicar juegos electrónicos o computacionales, realizar deberes domésticos, dormir, entre otros) y tiempo invertido en dicha actividad por día.

El director cuenta solamente con una semana para realizar la investigación y no tiene experiencia en realizar muestreos aleatorios, por lo que decide construir un cuestionario y administrárselo al total de estudiantes en esos ciclos, cuya población es de 150 estudiantes.

Los resultados de dicha investigación serán analizados en conjunto con las calificaciones del trimestre, con el propósito de establecer algún tipo de relación entre el uso del tiempo fuera de clases y las calificaciones obtenidas. Se espera presentar a los padres de familia estos resultados cuando se entreguen los reportes de calificaciones, con el fin de que ellos puedan analizar esta información con sus hijos.

Los datos recolectados son de la forma que aparece a continuación:

Page 43: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 43

Número de horas invertidas para cada actividad

Estudiante Nivel Sección Sexo Deberes

escolares Televisión Deporte Leer Amigos Internet Juego

electrónico Deberes

domésticos Dormir Otros

A sétimo 7.1 Mujer 1,0 3,0 0,0 0,0 2,0 0,0 0,0 4,0 6,0 2,0

B sétimo 7.3 Hombre 2,0 3,5 2,0 0,0 1,0 1,0 0,0 1,0 6,5 1,0

C octavo 8.2 Hombre 1,5 2,0 2,0 0,5 0,5 3,0 1,0 0,0 7,0 0,5

D décimo 10.1 Hombre 1,0 2,5 0,0 1,0 1,5 3,0 2,0 1,0 6,0 0,0

E octavo 8.2 Mujer 3,0 1,5 1,0 0,0 1,0 2,5 1,0 0,0 8,0 0,0

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

Si únicamente se cuenta con esta información, conteste las siguientes preguntas:

1. ¿Se pueden organizar de alguna manera los datos recolectados por variable, para tenerlos de manera resumida?

2. ¿De qué manera puede el director presentar la información a los padres de familia para que éstos puedan entenderla, le presten atención y sean conscientes de la situación?

Análisis de la Actividad 1

1) Al observar los datos que se recolectaron, puede sugerirse que para cada variable se

proceda a resumir la información determinando la frecuencia o número de ocurrencias para cada valor obtenido, por medio de este procedimiento se puede determinar el patrón de variación de los valores observados y tener así una idea básica sobre las actividades más importantes a las que los estudiantes dedican el tiempo fuera de clases.

2) Con la información anterior es posible buscar algunas técnicas estadísticas para la representación de la información, de este modo sería posible resumir y presentar los datos de una manera sencilla para que los padres de familia puedan asimilar el mensaje que se les desea comunicar.

***

El ejemplo anterior muestra la importancia de las técnicas estadísticas para resumir y presentar datos. Dentro de un estudio estadístico, una vez que los datos han sido recolectados es necesario organizarlos de una manera sistemática que posibilite su resumen y prepare el camino para una presentación textual, tabular o gráfica, según corresponda.

Las formas de presentación de información se eligen según el tipo de datos que se tengan, el mensaje que se desea comunicar, el tipo de lector al que va dirigido el mensaje y el efecto que se quiere provocar en ese lector.

Page 44: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 44

Actividad 2

Un profesor necesita hacer un informe final acerca del rendimiento académico de los estudiantes de octavo año. Para ello cuenta con las siguientes variables vinculadas con los jóvenes: sexo, sección y las notas en Matemáticas del II Trimestre de las cinco secciones de octavo, que en total son 154 estudiantes. Un ejemplo de los datos que tiene se adjunta seguidamente.

Nombre Sección Sexo Nota Alpízar Salazar Mario 8-1 H 82 López Flores Xiomara 8-3 M 71 Mejía Araya Marlon 8-2 H 56 Solís Rodríguez Aaron 8-1 H 63 Soto Paris María Eugenia 8-5 M 87

⋮ ⋮ ⋮ ⋮

Con base en la información suministrada conteste las siguientes preguntas:

1. ¿Qué variables se podrían comunicar de manera textual? 2. ¿Qué variables se podrían comunicar de manera tabular? 3. ¿Qué variables se podrían comunicar de manera gráfica?

Análisis de la Actividad 2

La clasificación según el sexo sería un aspecto a presentar textual, por ejemplo, “En total se analizó la información de 48 mujeres y 106 hombres”, aunque también se puede comunicar mediante porcentajes, indicando el porcentaje correspondiente a uno de los sexos, por ejemplo, “De los estudiantes analizados en el estudio 31,2% son mujeres”, no hace falta indicar que 68,8% eran hombres, pues esto lo puede deducir el lector fácilmente, hay que procurar no ser redundante.

En cuanto a las notas, resulta complejo presentarlas en forma textual pues debido a la gran variabilidad de datos se requiere sistematizarlas por agrupaciones: por ejemplo, menores de 40, entre 40 y menos de 65, de 65 a menos de 80, de 80 a menos de 90, 90 o más; o cualquier otra agrupación. Pueden también presentarse mediante diagramas que permitan representar todas las notas en una misma representación gráfica, tal como será analizado, más adelante en el documento.

***

Page 45: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 45

Presentación textual

Como se ilustró en la actividad 2, en algunas ocasiones la información que proporcionan los datos puede ser presentada en forma textual. En este tipo de presentación se introducen cifras dentro del texto, al irse escribiendo el informe se incluyen ciertas cifras que se consideran importantes para el estudio y así se logra llamar la atención sobre ellas.

Presentación tabular

Cuando se quiere introducir un mayor nivel de detalle de la información proporcionada por los datos, se puede proceder a la elaboración de un cuadro. Esta técnica corresponde a una sistematización de las observaciones en filas y columnas, de acuerdo a la clasificación de interés. Este resumen, por medio de cuadros, debe facilitar la interpretación de la información que comunican estos datos y ser suficientemente explícito, de modo que el lector no deba recurrir al texto para comprender el cuadro. Desde un punto de vista didáctico, la enseñanza de la Estadística no debe centrarse en los procesos de construcción de cuadros, pues ellos sólo son una herramienta que apoya el proceso de resumen de los datos para facilitar su interpretación. No obstante, debe analizarse si la estructura del cuadro construido permite a un lector comprender la información que se quiere transmitir.

IV.1 Representación tabular

Actividad 3

A continuación se presenta una base de datos ficticia, con fines didácticos.

Las autoridades del Hospital Calderón Guardia necesitan caracterizar la población que asiste a la sección de emergencias los fines de semana, para ello deciden hacer una recolección de datos en un fin de semana aleatoriamente seleccionado de cada mes.

Para recolectar los datos, lo primero que hacen es pasar a cada paciente a la sala de enfermería, ahí una enfermera toma la presión arterial, mide su estatura y peso. Luego pasan a la ventanilla y deben llenar una hoja de registro donde se les pide: sexo, lugar de residencia, edad y el número de veces que visitó el servicio de emergencias en el 2010.

La siguiente información pertenece al tercer fin de semana del mes de abril del año 2011.

Page 46: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 46

Asegurado Lugar de

residencia Sexo

Visitas emergencias

en el año 2010

Presión arterial

Edad

(años)

Peso

(kg)

1 Coronado M 4 N 38 61,0

2 Moravia M 6 N 46 55,0

3 Goicoechea M 5 A 29 79,1

4 Moravia H 2 B 38 70,7

5 Montes de Oca M 6 A 46 70,8

6 Montes de Oca M 4 N 44 55,9

7 Coronado M 4 N 63 72,2

8 San José H 3 A 56 75,1

9 Moravia M 1 N 43 60,8

10 Goicoechea M 5 N 54 70,6

11 San José M 2 N 72 71,6

12 Goicoechea H 1 B 71 85,5

13 Moravia M 1 N 51 73,6

14 Goicoechea H 3 B 23 75,2

15 Montes de Oca M 1 N 45 78,5

16 Montes de Oca H 2 N 60 75,0

17 Montes de Oca H 2 A 37 79,1

18 San José M 6 A 40 68,2

19 Goicoechea M 1 N 49 76,2

20 Goicoechea M 1 N 51 50,4

21 Coronado H 2 N 47 88,8

22 Moravia M 3 B 53 78,8

23 Moravia M 4 N 40 48,7

24 San José M 5 A 48 54,7

Page 47: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 47

25 Tibás H 2 N 54 82,1

26 San José M 4 N 28 56,6

27 Coronado M 3 N 34 65,7

28 Tibás H 1 N 44 75,4

29 San José H 3 A 34 78,2

30 San José M 2 N 35 76,9

31 Tibás H 2 B 58 80,1

32 Moravia H 1 A 31 82,5

33 Moravia H 3 N 16 72,6

34 Moravia H 4 N 43 67,7

35 San José M 5 N 27 65,8

36 Goicoechea H 1 N 59 94,9

37 Tibás H 1 N 84 92,6

38 Tibás M 2 N 66 48,1

39 San José M 5 A 39 50,5

40 Montes de Oca H 2 A 21 70,2

En la casilla de sexo: M significa mujer y H hombre.

En la casilla de presión arterial: B significa baja, N normal y A alta.

La edad se midió en años cumplidos.

Con base en los datos recopilados:

1) Construya un cuadro donde se agrupe y resuma el lugar de residencia de los pacientes.

Basados en el cuadro construido, conteste las siguientes preguntas: • ¿En cuál cantón vive la mayor parte de los pacientes? • ¿El lugar de residencia de los pacientes es variable o se concentra alrededor de un

cantón?

2) Construya un cuadro donde se resuma el número de veces que ha visitado emergencias en el año 2010. Basados en el cuadro construido, conteste las siguientes preguntas:

Page 48: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 48

• ¿Qué porcentaje de personas ha asistido al servicio de emergencias en exactamente tres ocasiones?

• ¿Qué porcentaje de personas ha asistido al servicio de emergencias en al menos tres ocasiones?

• ¿Cuántos pacientes entrevistados en el tercer fin de semana de abril del 2011 asistieron al Servicio de Emergencias entre dos veces y cuatro veces (inclusive) durante el 2010?

3) Por último, acerca de la frecuencia con que los entrevistados visitan el servicio de emergencias se puede observar que la mayoría lo ha hecho menos de tres veces en el año. Construya un cuadro donde se resuma la edad de los pacientes y basado en el mismo, conteste las siguientes preguntas:

• ¿Cuál es el intervalo de edad donde se presenta la mayor frecuencia de pacientes? • Dé una interpretación general de la información del cuadro.

Análisis de la Actividad 3

1) Si la variable a representar es de naturaleza cualitativa, como es el caso del lugar de

residencia, la construcción del cuadro es muy simple en el sentido de que se caracterizan por columna o fila según se requiera. En este caso el cuadro consta de dos columnas, en la primera se colocan los cantones y en la segunda la cantidad de pacientes que habitan cada cantón; es importante colocar encabezados de columnas contextualizados y un título, como se muestra a continuación.

Cuadro 1. Lugar de procedencia de los pacientes que asistieron a Emergencias del Hospital Calderón Guardia, en el tercer fin de semana del mes de abril, 2011

Lugar de residencia Cantidad de pacientes

San José 9

Moravia 9

Goicoechea 7

Montes de Oca 6

Tibás 5

Coronado 4

Total 40

Page 49: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 49

Hay dos cantones que presentan la mayor frecuencia de asistencia a Emergencias de ese hospital, a saber San José y Moravia. Sin embargo, los demás cantones también presentan una frecuencia alta, por ello se refleja también una alta variabilidad en el lugar de residencia de pacientes respecto a estos seis cantones.

2) Si la variable es cuantitativa discreta y el número de datos diferentes es relativamente pequeño, para la construcción de un cuadro se puede indicar la frecuencia de cada uno de ellos, de una forma similar a la que se realiza con las categorías para una variable cualitativa. En este caso, la cantidad de visitas al servicio de emergencias varía entre una y seis, por ello estos números se incluyen en la primer columna mientras que la frecuencia con la que fueron los pacientes va en la segunda, como se muestra en el cuadro adjunto.

Cuadro 2. Cantidad de veces que los pacientes que se presentaron a la consulta de

Emergencias del Hospital Calderón Guardia en el tercer fin de semana del mes de abril del 2011 visitaron esa consulta en el 2010

Número

de veces

Cantidad de

pacientes

1 10

2 10

3 6

4 6

5 5

6 3

Total 40

El porcentaje de personas que ha asistido al servicio de emergencias en exactamente tres ocasiones, debido a que 6 personas de 40 se presentaron a este servicio en el 2010, equivale a 15,0%. No obstante, una forma más práctica de evidenciar el peso relativo de cada valor consiste en incluir una columna a la derecha de estos cuadros donde se incluye su valor porcentual. En este sentido, los cuadros 2 y 3 quedarían de la siguiente forma:

Page 50: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 50

Cuadro 1. Lugar de procedencia de los pacientes que asistieron a Emergencias del Hospital Calderón Guardia, en un fin de semana del mes de abril, 2011

Cuadro 2. Cantidad de veces que los pacientes que se presentaron a la consulta de Emergencias del Hospital Calderón Guardia en el tercer fin de semana

del mes de abril del 2011, visitaron esa consulta en el 2010

Lugar de

residencia

Cantidad de pacientes

Porcentaje de pacientes

San José 9 22,5

Moravia 9 22,5

Goicoechea 7 17,5

Montes de Oca 6 15,0

Tibás 5 12,5

Coronado 4 10,0

Total 40 100,0

Número

de veces

Cantidad de

pacientes

Porcentaje de pacientes

1 10 25,0

2 10 25,0

3 6 15,0

4 6 15,0

5 5 12,5

6 3 7,5

Total 40 100,0

La importancia de incluir los porcentajes es que le permite al lector determinar el peso relativo de cada dato. En este sentido, si se desea conocer el porcentaje de pacientes que asistió al servicio de Emergencias al menos tres veces (significa tres o más) se suman los porcentajes correspondientes a los valores tres, cuatro, cinco y seis, es decir 15,0 + 15,0 + 12,5 + 7,7≈ 50%. Esto indica que la mitad de los pacientes asistió a este servicio en al menos tres ocasiones durante el 2010. Por otro lado, para conocer la cantidad de pacientes que asistió al servicio de emergencias entre dos y cuatro veces (inclusive) durante el 2010, se deben sumar los que asistieron dos, tres y cuatros veces, ellos son 10 + 6 + 6 = 22, esto equivale a un 25,0 + 15,0 + 15,0 = 55%. Es decir el 55% de los pacientes asistió en el 2010 al servicio de Emergencias de ese hospital entre dos y cuatro veces (inclusive). Nota: Al ser este valor mayor al 50%, se puede decir que la mayoría de los pacientes atendidos en este servicio en el tercer fin de semana del mes de abril había asistido entre dos y cuatro veces durante el año 2010.

3) La variable edad, al estar vinculada con el tiempo, es una variable continua; pero si

únicamente se considera en años cumplidos entonces se convierte en variable discreta (es contable). A pesar de esto, por la gran variabilidad de las edades observadas, resulta monótono construir un cuadro similar a los anteriores, por esta razón se recurre a estrategias de agrupación para distribuir las edades y resumir la información de una mejor manera. Un procedimiento muy utilizado consiste en determinar el dato menor y el mayor para luego establecer categorías o grupos de datos, preferiblemente del mismo tamaño que incluyan todas las observaciones. Por ejemplo, en este caso la edad más baja es 16 y la más alta 84 años, entonces se pueden establecer diferentes tipos de agrupaciones, una de ellas podría ser iniciar en 15 años y agrupar las edades cada 10 años. Por ejemplo los grupos serían “de 15 a menos de 25”, “de 25 a menos de 35”, y así sucesivamente, hasta llegar al grupo “de 75 a menos de 85”, como se presenta en el siguiente cuadro.

Page 51: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 51

Cuadro 3. Distribución de las edades de los pacientes que asistieron al servicio de Emergencia del Hospital Calderón Guardia durante

el tercer fin de semana del mes de abril del 2011

Edad de los

Pacientes (años)

Cantidad de

pacientes

Porcentaje de

pacientes

De 15 a menos de 25 3 7,5

De 25 a menos de 35 6 15,0

De 35 a menos de 45 11 27,5

De 45 a menos de 55 11 27,5

De 55 a menos de 65 5 12,5

De 65 a menos de 75 3 7,5

De 75 a menos de 85 1 2,5

Total 40 100

Nuevamente, los encabezados de columnas contextualizados y el título del cuadro son elementos indispensables para la correcta interpretación del mismo.

Existen dos intervalos que son los de mayor frecuencia, ellos recogen edades entre los 35 y 55 años, cada una de estas clases incluye 11 pacientes, entre ambos acumulan 55% de los pacientes que llegaron ese fin de semana.

Al momento de interpretar la información de un cuadro (gráfica o cualquier otra figura), no se deben repetir los datos que el mismo proporciona, sino hacer una lectura más allá de los datos. Por ejemplo, en este caso algunos de los aspectos que se pueden resaltar respecto a las edades de los pacientes que asistieron en el tercer fin de semana de abril del 2011 al servicio de Emergencias del Hospital Calderón Guardia son:

• Un alto porcentaje (70%) de los pacientes atendidos en ese fin de semana corresponde a personas adultas que van entre los 25 y los 55 años. Además, más de la mitad (55%) tenía edades entre los 35 y los 55 años. • Únicamente, se atendieron tres adultos mayores en ese fin de semana (10%). • Se presentó gran variabilidad entre las edades de los pacientes atendidos, lo cual es lógico dentro de este tipo de servicios de emergencia. • No se atendieron niños y únicamente se atendieron tres adolescentes.

Estos son algunos de los elementos que se pueden citar. Para efectos de realizar otros análisis habría que tener presente los objetivos que originaron el estudio que llevó a la recolección de esa información.

Page 52: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 52

Nota: Observe que la forma de resumen utilizada para el último cuadro no sigue un patrón único, sino que se pudieron utilizar otras agrupaciones que también podrían ser válidas, como las que siguen:

Edad de los

pacientes

Número de

pacientes

De 15 a menos de 20 1

De 20 a menos de 25 2

De 25 a menos de 30 3

De 30 a menos de 35 3

De 35 a menos de 40 5

De 40 a menos de 45 6

De 45 a menos de 50 6

De 50 a menos de 55 5

De 55 a menos de 60 3

De 60 a menos de 65 2

De 65 a menos de 70 1

De 70 a menos de 75 2

De 75 a menos de 80 0

De 80 a menos de 85 1

Total 40

Edad de los

pacientes

Número de

pacientes

Menos de 20 años 1

De 20 a menos de 30 5

De 30 a menos de 40 8

De 40 a menos de 50 12

De 50 a menos de 60 8

De 60 a menos de 70 3

De 70 a menos de 80 2

Más de 80 años 1

Total 40

Con estas otras representaciones la interpretación varía ligeramente pero los principios básicos del análisis se mantienen.

Page 53: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 53

Observaciones generales

Basados en las representaciones construidas y las respuestas a las preguntas planteadas:

¿Existe alguna diferencia en la construcción de los cuadros anteriores? Justifique su respuesta.

Los cuadros anteriores poseen diversas diferencias y similitudes, entre las semejanzas están:

• Todos tienen un título que permite al lector comprender la información que suministra. • Todos incluyen la columna matriz que suministra información de los datos de las filas y la fila en la que se incluyen los encabezados de las columnas, que suministran el tipo de información que de las columnas transmiten. • En todos se incluye la frecuencia (número de pacientes) relacionada con cada categoría, número o agrupación. Pero además, también se ha visto la necesidad de incluir porcentajes para valorar el peso relativo de cada uno de ellos.

Entre las diferencias se tiene la naturaleza de la variable y la variabilidad de los datos, lo que puede conducir a realizar procedimientos de agrupación de datos en aquellos casos en los que la variabilidad de las respuestas es tan grande que provoca que se generen muchas observaciones muy diferentes entre sí.

***

En general, para que la información desplegada en un cuadro llegue al lector de la mejor manera, ellos deben contener: título, columna matriz, encabezados contextualizados, cuerpo o contenido, y en los casos en los que la información ha sido tomada de una fuente primaria o secundaria se debe indicar esa fuente.

Page 54: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 54

Título: Respecto al título, debe explicar: ¿Cuál es la naturaleza de los datos o a qué hacen referencia? ¿Dónde se recogieron los datos o a qué lugar corresponde? ¿Cuándo ocurrieron los hechos a que se refieren los datos? Además: ¿cuál es la clasificación o clasificaciones principales empleadas para organizar los datos?

Encabezados: Los encabezados deben ser claros y acordes con el contexto analizado. El contenido del cuadro debe ser explícito y coherente con el título y los encabezados.

Fuente: La fuente debe incluir, siempre que sea posible, todos los requisitos de una cita bibliográfica: autor, año, nombre de la publicación, editorial, cuadro y página de dónde proceden los datos.

A continuación se da un ejemplo de un cuadro estadístico, con todos los elementos sugeridos:

Fuente: Barrantes et al. (2010). Memoria de seminario “Estado actual de la enseñanza y aprendizaje de probabilidad y Estadística, en I y II Ciclo, en la Educación costarricense en las direcciones regionales educativas de Heredia y Pérez Zeledón”. Universidad Nacional, Heredia, Costa Rica, Cuadro 4.28, página 242. Otros aspectos que deben tomarse en consideración para la construcción de cuadros son: tamaño, formato de las cantidades que van dentro (igual número de decimales), bordes (solamente en los encabezados y al final para cerrar el cuadro) y el ordenamiento de las categorías en los encabezados (alfabético, por magnitud, cronológico, geográfica).

Como se citó anteriormente, el objeto de estudio de la Estadística no es la construcción de representaciones sino que se centra en la interpretación y análisis de los datos, por lo que es de suma importancia dar énfasis a la información que se pueda extraer de una representación tabular.

Título Numeración

Encabezados contextualizado

Columna matriz

Cuerpo o contenido

Nota aclaratoria

Fuente

Page 55: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 55

Distribuciones de frecuencia

El nombre que comúnmente reciben los cuadros donde son clasificadas variables estadísticas, ya sean cuantitativas o cualitativas, es distribución de frecuencias. Estas representaciones ayudan a analizar la forma o patrón de la distribución de los datos (simétrica, sesgada), la posición de la distribución, es decir, alrededor de qué valor se tienden a concentrar los datos (valores centrales) y la dispersión o variabilidad de ellos alrededor de los valores centrales.

Para agrupar los datos se dividen en clases o categorías, dentro de lo posible todas del mismo tamaño. Se sugiere utilizar más de cinco y menos de 15 agrupaciones, y esta cantidad depende del número total de observaciones. En variables cuantitativas continuas deben evitarse las clases de diferente amplitud y también las clases abiertas. Además, se prefiere, hasta donde sea posible, que el intervalo de clase sea cinco, diez, o un múltiplo de ellos.

Dichos cuadros deben contener en la primera columna (de izquierda a derecha) las clases: las categorías utilizadas cuando se trabaja con variables cualitativas, los intervalos o valores discretos cuando se trata de variables cuantitativas.

Si se trabaja con variables cuantitativas continuas se deben delimitar los límites de clase que son los valores que definen una clase separándola de la anterior y de la posterior. Deben ser tales que permitan definir clases exhaustivas (clasificar a todas las observaciones en alguna de ellas) y mutuamente excluyentes (no permitir que una observación quede incluida en más de una clase). Para definir el límite inferior de la primera clase se considera el dato menor del conjunto de observaciones y se escoge un valor más pequeño a ése.

En la segunda columna se puede colocar la frecuencia absoluta de cada clase o intervalo, que es el número de veces que aparece un dato. Esta columna debe sumar el número total de observaciones.

En la tercera columna debe aparecer la frecuencia porcentual que representa el porcentaje de datos en cada clase (también puede ser la proporción, denominada frecuencia relativa, que son los cocientes entre las frecuencias absolutas de cada clase y el número total de datos).

Page 56: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 56

Actividad 4

Analice la información proporcionada en el siguiente cuadro y con base en ella responda las preguntas que se formulan luego.

Cuadro 4. Estimación de la población de 70 años y más para Costa Rica al 30 de junio del 2012, según el sexo

Edad en años

cumplidos Hombre Mujer

70-74 años 39 163 42 686

75-79 años 27 026 32 285

80-84 años 17 675 22 656

85-89 años 8 937 12 394

90-94 años 3 230 4 853

95 años y más 1 207 1 930

Total 97 238 116 804

Fuente: Base de datos electrónica del Centro Centroamericano de Población-UCR

Dirección Web: ccp.ucr.ac.cr

1) Determine los porcentajes de población, por sexo, para cada uno de los grupos de edad.

2) ¿Qué información relevante puede resaltar de esos datos en relación con los porcentajes de personas para cada sexo? ¿Qué se puede concluir?

Análisis de la Actividad 4

1) Para responder lo que se solicita, es necesario agregar dos nuevas columnas al cuadro, que

pueden ser de la siguiente manera.

Page 57: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 57

Cuadro 4. Estimación de la población de 70 años y más para Costa Rica al 30 de junio del 2012, según el sexo

Edad en años

cumplidos

Absolutos Porcentajes

Hombre Mujer Hombre Mujer

70-74 años 39 163 42 686 40,3 36,5

75-79 años 27 026 32 285 27,8 27,6

80-84 años 17 675 22 656 18,2 19,4

85-89 años 8 937 12 394 9,2 10,6

90-94 años 3 230 4 853 3,3 4,2

95 años y más 1 207 1 930 1,2 1,7

Total 97 238 116 804 100 100

Fuente: Base de datos electrónica del Centro Centroamericano de Población-UCR

Dirección Web: ccp.ucr.ac.cr

2) Aquí hay que hacer notar que los porcentajes calculados se convierten en una herramienta

fundamental para el análisis de la segunda pregunta. En general, se puede notar que se ha proyectado que lleguen a estas edades más mujeres que hombres (116 804 – 97 238 = 19 570); es decir, en esas edades se ha proyectado que lleguen con vida cerca de 20 000 mujeres más que hombres. Si todavía se ve más allá, puede notarse que del total de personas que se espera lleguen con vida a los 70 o más años en el 2012 (214 042) 54,6% son mujeres. Pero además, aunque los porcentajes de ambos grupos descienden conforme avanza la edad, se observa que son más altos entre los hombres en edades menores y más bajos en las edades mayores. En general, una hipótesis de estos resultados puede ser que, para grupo de edad, se presentan más defunciones de hombres que de mujeres.

En este ejemplo se demuestra que el lector más que leer los datos debe ver el mensaje que hay detrás de ellos. En este sentido, se debería promover que el ciudadano sea capaz de realizar estas interpretaciones y vincularlas con la información que normalmente se difunde en los medios de comunicación. Por ejemplo, es bien conocido que la esperanza de vida al nacer (o promedio de vida esperada) es más alta entre las mujeres respecto a los hombres, entonces los resultados citados en el cuadro anterior son un reflejo de este resultado; por lo que la hipótesis dada al final del análisis resulta acertada en la vida real.

*** La representación anterior es muy utilizada para relacionar dos tipos de variables, En este caso se tenía la distribución de población por edad y por sexo. Estas representaciones se denominan cuadros de datos cruzados o de doble entrada.

Page 58: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 58

Otro ejemplo de este tipo de cuadros es el siguiente:

Actividad 5

Se desea analizar la relación entre el deporte preferido y el sexo para los estudiantes del Ciclo Diversificado del Colegio Dominico.

Cuadro 5. Distribución de los estudiantes del Ciclo Diversificado del

Colegio Dominico, según el deporte preferido y el sexo

Deporte

favorito

Mujeres Hombres Número de

estudiantes

Futbol 16 31 47

Basquetbol 12 13 25

Beisbol 5 8 13

Natación 4 6 10

Ciclismo 3 4 7

Otro 2 4 6

Total 42 66 108

Fuente: Encuesta realizada por el profesor de Educación Física del Colegio Dominico.

Utilice la información para llevar a cabo un análisis comparativo entre la preferencia por el deporte y el sexo del estudiante.

Análisis de la Actividad 5

Como puede notarse, los datos absolutos no permiten llevar a cabo una comparación objetiva por sexo debido a que los totales relativos para cada categoría son muy diferentes, por esta razón se requiere determinar datos porcentuales. Debido a que la comparación que se desea hacer es por sexo, entonces los porcentajes deben calcularse para cada categoría para el total del sexo, tal como se muestra en el cuadro que sigue:

Page 59: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 59

Cuadro 5. Distribución de los estudiantes del Ciclo Diversificado del Colegio Dominico, según el deporte preferido y el sexo.

Deporte

favorito

Mujeres Hombres

Absoluto Porcentaje Absoluto Porcentaje

Fútbol 16 38,1 31 47,0

Basquetbol 12 28,6 13 19,7

Beisbol 5 11,9 8 12,1

Natación 4 9,5 6 9,1

Ciclismo 3 7,1 4 6,1

Otro 2 4,8 4 6,1

Total 42 100 66 100

Fuente: Encuesta realizada por el profesor de Educación Física del Colegio Dominico.

Este nuevo cuadro refleja que las preferencias deportivas presentan algunas diferencias entre los hombres y las mujeres, en particular los hombres tienen mayor preferencia por el fútbol que las mujeres, mientras que ellas tienen una mayor preferencia por el básquetbol. En el resto de disciplinas no hay grandes diferencias. Tampoco se observan diferencias importantes en el patrón de preferencias.

***

No siempre el uso de porcentajes es adecuado para favorecer una interpretación, en el siguiente ejemplo los datos absolutos bastan para comprender el comportamiento de la situación planteada y los porcentajes pueden traer alguna confusión.

Actividad 6

Observe el siguiente cuadro correspondiente a información de un colegio, la cual ha sido adaptada con fines didácticos.

Page 60: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 60

Cuadro 6. Distribución de las calificaciones por trimestre obtenidas por el nivel de octavo año del colegio hipotético, 2010

I trimestre II Trimestre III Trimestre Calificaciones Total Porcentaje Total Porcentaje Total Porcentaje De 15 a menos de 30 5 6,3 1 1,6 0 0,0 De 30 a menos de 45 10 12,5 4 6,6 0 0,0 De 45 a menos de 70 30 37,5 22 36,1 18 36,0 De 70 a menos de 85 25 31,3 24 39,3 22 44,0 De 85 a 100 10 12,5 10 16,4 10 20,0 Total 80 100,0 61 100,0 50 100,0

Fuente: Dirección Administrativa del colegio hipotético, 2010.

Con base en la información del cuadro conteste las siguientes preguntas:

1) ¿Qué puede decir acerca de la deserción de los estudiantes de octavo año del Colegio Hipotético (realice el análisis comparando los trimestres)?

2) ¿Qué puede decir acerca del rendimiento académico de los estudiantes de octavo año del Colegio Hipotético (puede hacer el análisis por trimestres)?

Análisis de la Actividad 6

Si únicamente se observan los porcentajes se podría creer que el rendimiento académico ha venido aumentando paulatinamente a medida que avanza el año, no obstante al analizar los datos absolutos la situación cambia drásticamente.

1) Mediante el análisis de los valores totales se observa una fuerte deserción, de modo que de

los 80 que concluyeron el primer trimestre, únicamente 50 concluyen las evaluaciones del tercer trimestre. No se puede cuantificar la deserción total pues se desconoce cuál era la matrícula original de este nivel educativo, pero si se utiliza como base el total de estudiantes que concluyó el primer trimestre, se tiene que 19 estudiantes desertaron o se trasladaron durante el segundo trimestre y 11 lo hicieron durante el tercer trimestre. Con esta información se tiene que 19 de 80 representa 23,8% de los estudiantes que desertaron o se trasladaron durante el según trimestre y 11 de 80 representa 13,8% que corresponde a los que desertaron o se trasladaron durante el tercer trimestre. Por ello, sin tomar en cuenta lo ocurrido en el primer trimestre pues no se cuenta con la información de la matrícula, 37,5% de los estudiantes de octavo año abandonó el Colegio Hipotético en el segundo y tercer trimestre en el 2001.

2) Respecto al rendimiento académico se puede observar que no son muchos los estudiantes

que tienen más de un 70 en cualquiera de los trimestres. Puede notarse que los datos para estas dos clases “de 70 a menos de 85” y “de 85 a 100” son muy similares en los tres trimestres, por lo que se podría pensar que son los mismos estudiantes los que tienen las mejores calificaciones y el resto termina por desertar o trasladarse de institución.

Desde un punto de vista general, si la información del cuadro fuera real, se tendrían resultados preocupantes en relación con la situación de los estudiantes de octavo año, pues se

Page 61: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 61

reflejan bajos índices de promoción que parecieran estar provocando altas cifras de abandono. Esto amerita buscar alternativas para mejorar el rendimiento, con lo cual se espera que los jóvenes puedan permanecer todo el año en la institución y mejorar su estabilidad educativa.

***

A manera de recomendación didáctica para tratar este tema, el profesor debe preparar diferentes situaciones didácticas para que el estudiante pueda interactuar con los datos y construir cuadros que sean coherentes con la naturaleza de la información que se ha recolectado y con los intereses del estudio. Pero además, debe plantear representaciones tabulares para que los estudiantes puedan analizar en detalle la información que suministran las mismas.

Page 62: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 62

IV.2 Representaciones gráficas Las representaciones gráficas son un complemento importante de las representaciones tabulares. Los cuadros tienen el potencial de resumir mucha más información que una gráfica; sin embargo, desde un punto de vista visual, las gráficas permiten observar mejor el patrón de variación de algunos datos. Hay que recordar que para personas que no son especialistas en el área, el análisis visual se convierte en una herramienta fundamental para favorecer una interpretación adecuada de la información y observar sus patrones y tendencias.

La elección de una representación tabular o una gráfica depende de la naturaleza de los datos y del mensaje que se desea llevar al lector. No obstante, en términos generales, no es adecuado incluir dos representaciones, una tabular y una gráfica, para un mismo grupo de datos.

En general, las representaciones gráficas, junto a los cuadros, constituyen uno de los medios más difundidos para el resumen y presentación de la información. Permiten obtener una visión más clara y rápida acerca de lo que exhiben los datos. Es un instrumento que tiene por objeto presentar datos numéricos por medio de magnitudes geométricas, es decir, mediante longitudes, áreas, volúmenes, etc. Las representaciones gráficas tienen algunos inconvenientes: solamente se puede presentar a la vez una cantidad limitada de datos y se dan valores aproximados.

Características que deben contener las representaciones gráficas:

• Proporciones adecuadas, ni muy largas ni excesivamente anchas.

• Explicarse por sí mismas (numeración, título, leyendas, símbolos, escalas y fuente).

• No se deben incluir muchas series de datos.

• Escalas bien definidas (si la escala se corta debe ser indicado).

• Debe ser sencilla, cómoda de interpretar y adecuada al tipo de información que se

tiene.

• Los colores y el formato deben ser adecuados. No deben aparecer elementos innecesarios que distraigan la atención del lector.

Page 63: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 63

A continuación se presenta una gráfica con los elementos necesarios:

Existen muchas formas de representación gráfica para un análisis estadístico, las más comunes son las gráficas de barras presentes en diferentes medios comunicativos.

Actividad 7

Con la información dada en la Actividad 3 de este apartado (Representaciones) proceda a buscar algún tipo de representación gráfica que le permita mostrar el estado de la presión arterial de los pacientes que asistieron a Emergencias del Hospital Calderón Guardia, en el tercer fin de semana del mes de abril del 2011.

Análisis de la Actividad 7

Para realizar esta representación primeramente se requieren determinar las frecuencias de los distintos estados de la presión arterial que se registraron al momento de la consulta médica. Hay que recordar que la variable presión arterial se categorizó de la siguiente manera: B significa baja, N normal y A alta. Después de realizar el conteo correspondiente los resultados son: cinco con presión baja, 25 con la presión normal y 10 con la presión alta, los porcentajes correspondientes son respectivamente 12,5%, 62,5% y 25,0%. La forma más simple de representación gráfica es la siguiente:

Numeración Título

Series o leyendas

Escala vertical

Fuente

Escala horizontal

Page 64: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 64

Cualquiera de estas dos gráficas puede ser utilizada para resumir esta información, como puede notarse ambas presentan un mismo patrón; aunque muchas veces la gráfica porcentual resulta más ilustrativa al momento de interpretar. Se observa que una importante mayoría (más de 60%) de los pacientes no tenía problemas con la presión arterial, pero resalta el hecho que 25% tenía problemas de hipertensión o presión alta, el cual es un grave problema de salud que debe ser controlado.

***

Grafica de barras simples

La gráfica que se ha utilizado se denomina de barras simples. Pueden ser barras horizontales como en este caso o barras verticales, se prefiere utilizar barras horizontales cuando la leyenda de las categorías corresponde a texto y barras verticales cuando dichas leyendas corresponden a valores numéricos. Esto se realiza con la intención de favorecer la lectura de las leyendas. Realice la siguiente actividad.

Actividad 8

Con base en la información que se reportó en el cuadro 2 de este apartado, y que se presenta nuevamente, construya una gráfica de barras que represente la información.

Page 65: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 65

Cuadro 2. Cantidad de veces que los pacientes que se presentaron a la consulta de Emergencias del Hospital Calderón Guardia en el tercer fin de semana

del mes de abril del 2011 visitaron dicha consulta en el 2010

Número

de veces

Cantidad de

pacientes

Porcentaje de

Pacientes

1 10 25,0

2 10 25,0

3 6 15,0

4 6 15,0

5 5 12,5

6 3 7,5

Total 40 100

Análisis de la Actividad 8

Seguidamente se muestra una gráfica de barras verticales con los valores porcentuales.

Page 66: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 66

Puede notarse como todos los pacientes atendidos en el tercer fin de semana del mes de abril del 2011 también debieron asistir a la consulta de Emergencias de este hospital en al menos una ocasión durante el 2010. La mitad de ellos había asistido una o dos veces, mientras que la otra mitad asistió entre tres y seis veces, inclusive, en dicho año.

***

Desde el punto de vista de construcción de la gráfica, debido a que los valores de las categorías son números se recurre a emplear barras verticales.

Otro aspecto a tomar en cuenta en las gráficas de barras es que si se utilizan variables cuantitativas o cualitativas ordinales, las barras se colocan siguiendo un orden natural tal como se muestra en las gráficas anteriores. No obstante, si la variable es cualitativa se recurre a ordenar las barras según la frecuencia, puede ser de mayor a menor o de menor a mayor según corresponda.

Actividad 9

Con la información dada en la Actividad 5 de este apartado, relacionada con la preferencia de los estudiantes del Ciclo Diversificado del Colegio Dominico, construya una gráfica de barras simple.

Análisis de la Actividad 9

Debido a que la variable deporte preferido por los estudiantes es cualitativa nominal, cualquiera de las siguientes dos gráficas resulta adecuada.

Fuente: Encuesta realizada por el profesor de Educación Física del Colegio Clemencio Rojas.

Fuente: Encuesta realizada por el profesor de Educación Física del Clemencio Rojas.

Con estas gráficas se observa muy bien el patrón de variación y la preferencia por el deporte de los estudiantes de este colegio, donde el fútbol es el deporte preferido, le sigue el básquetbol y el menos elegido es el ciclismo.

Page 67: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 67

Nota: Observe que la categoría de otro se incluye al inicio o al final, esto pues no responde al nombre de un deporte sino a la agrupación de todos los otros deportes citados por los estudiantes pero que tuvieron una frecuencia muy baja.

*** Gráficas circulares

Las gráficas circulares son utilizadas para comunicar la misma información que las de barras simples, con el agravante que su construcción es más compleja. También se les llama de pastel o sectores. Observe la siguiente gráfica:

Fuente: Colegio de Médico y Cirujanos de Costa Rica. www.medicos.sa.cr Aunque visualmente la gráfica anterior puede ser considerada más estética que una de barras, desde el punto de vista de la información que se quiere comunicar fue necesario incluir los porcentajes para mostrar las diferencias entre las categorías, esto pues visualmente puede resultar complejo para un lector ver qué sección es mayor, la de Heredia o la de Alajuela. Esto pudo simplificarse presentando esta información en un cuadro, o en una gráfica de barras como se muestra:

Cuadro 7. Distribución porcentual de médicos activos según provincia de

residencia a enero de 2009

Provincia de Residencia Porcentaje San José 54 Alajuela 13 Cartago 8 Heredia 15 Guanacaste 4 Puntarenas 3 Limón 3

Fuente: Colegio de Médico y Cirujanos de Costa Rica. www.medicos.sa.cr

Page 68: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 68

Con cualquiera de las representaciones anteriores se comunica la misma información que en la gráfica circular previa. Por ello, se debe tener claro en qué momentos conviene utilizar una gráfica circular y en qué momentos puede ser sustituido por una técnica más simple.

Desde el punto de vista académico, se recomienda no abusar de este tipo de gráficas, aunque es adecuado analizar algunas de ellas, sobre todo para que el estudiante comprenda la información que suministra y pueda realizar interpretaciones de las mismas. Pero no se recomienda entrar en procesos de construcción de estas gráficas a no ser que se cuente con un recurso informático durante las lecciones; preferiblemente una hoja de cálculo o un programa para graficar datos estadísticos. Gráficas de barras comparativas

Las gráficas de barras tienen la virtud que permiten hacer comparaciones entre variables de modo que es posible visualizar relaciones entre ellas. Para una mayor ilustración desarrolle la siguiente actividad con una información que va a ser analizada con mayor detalle en la sección de probabilidades.

Actividad 10

La siguiente información corresponde a una muestra simulada de la relación existente entre el fumado por parte de las madres durante el embarazo y el bajo peso al nacer de sus hijos. Aunque los datos han sido simulados con fines académicos obedecen a un patrón que se ha determinado en varios estudios.

Cuadro 8. Distribución de la relación entre fumar durante el embarazo y el bajo peso al nacer en

los niños para una muestra de 1000 partos

Madres Bajo peso al

nacer Total

Sí No Fumadoras 46 307 353 No fumadoras

39 608 647

Total 85 915 1 000

Utilice esta información para construir una gráfica que demuestre si existe relación entre el fumado durante el embarazo y el bajo peso del niño al nacer.

Page 69: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 69

Análisis de la Actividad 10

Con la información del cuadro es muy difícil poder identificar algún tipo de relación que permita establecer dicha relación. Para una mejor comprensión del fenómeno se requiere utilizar valores porcentuales, pero se debe tener cuidado pues como lo que se desea comparar es la condición de niños de bajo peso entre fumadoras y no fumadoras, los porcentajes deben ser calculados en esos dos grupos tal como se muestra en el cuadro siguiente:

Cuadro 8. Distribución porcentual de la relación entre fumar durante el embarazo y el bajo peso al nacer en los niños para una muestra de 1000 partos

Madres Bajo peso al

nacer Total

Sí No Fumadoras 13,0 87,0 100 No fumadoras 6,0 94,0 100 Total 8,5 91,5 100

Con esta información es posible entonces construir la siguiente gráfica:

Observe que aunque los comportamientos para fumadoras y no fumadoras parecieran similares, en realidad el porcentaje de nacimientos de niños de bajo peso es más del doble en las fumadoras que en las no fumadoras, lo que refleja que, al menos para esta muestra de 1000 partos, efectivamente se observa una relación.

***

Page 70: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 70

Gráficas comparativas al 100% Retomando la información suministrada en la Actividad 10, otra forma de realizar la comparación entre condición de fumado de la madre y el bajo peso del niño al nacer es por medio de una gráfica como la siguiente:

A estas representaciones se les llama gráficas de barras al 100% y permiten realizar análisis comparativos similares a los de las barras comparativas. Esta es una buena representación cuando hay pocas categorías para cada subcategoría como en el caso anterior, pero el análisis visual se hace complejo cuando este número es muy grande y es preferible recurrir a la gráfica de barras comparativas. Observe el siguiente ejemplo.

En esta gráfica existen muchas categorías para la variable Área del conocimiento, para cada una de ellas se analizan tres años, por lo que la anterior es la mejor estrategia de presentación para esos datos.

Page 71: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 71

Gráficas de líneas En algunos casos las gráficas de barras pueden ser reemplazadas para analizar de una mejor manera el patrón de comportamiento o tendencia de un conjunto de datos. Este es el caso en que los datos representan series de tiempo, en los cuales la tendencia lineal es clara. Realice la siguiente actividad.

Actividad 11

Los siguientes datos corresponden a la temperatura promedio por mes en cierta ciudad para el período que va del 2006 al 2010. Utilice esta información para representar gráficamente este comportamiento.

Cuadro 9: Distribución de las temperaturas promedio, en grados centígrados, en la Ciudad de

Picota, para los primeros meses del año, período 2006-2010

Mes Año

2006 2007 2008 2009 2010

Enero 21,8 21,6 21,8 22,4 23,1

Febrero 22,0 23,0 23,3 24,4 25,2

Marzo 21,1 22,0 22,5 23,3 24,0

Abril 20,0 19,5 20,1 20,2 21,0

Análisis de la Actividad 11

Si se utiliza una gráfica de barras comparativas, se obtiene lo siguiente:

Page 72: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 72

Aunque se puede realizar un análisis en función de la variación que se presenta en las temperaturas año tras año, no es la mejor forma de comunicar el mensaje al lector, por lo que en estos casos se recomienda la siguiente gráfica.

Puede notarse que ahora el patrón es claro, se observa un patrón creciente en la temperatura promedio mensual para los cuatros meses en este período, además el mes de abril muestra temperaturas relativamente más bajas que los otros meses, así como un crecimiento de temperatura más lento, mientras que el mes con mayores temperaturas es febrero.

Como se indicó antes, las gráficas lineales o de línea se convierten en una importante herramienta para resumir datos que representan series de tiempo (los datos son clasificados de acuerdo con los meses, años, periodos, etc.), tal como se observó en el ejemplo anterior. A continuación se presenta otro caso:

***

Page 73: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 73

Actividad 12

Analice la información de la siguiente gráfica y responda las interrogantes que se le plantean.

a) ¿Cuál es la importancia de recabar información estadística en relación con el tema educativo?

b) ¿Cómo se debe interpretar el concepto de porcentaje de repetición que está presente en la gráfica?

c) Al comparar la repetición entre los diferentes niveles escolares, ¿qué relaciones encuentra?

d) ¿Qué diferencias se presentan en los porcentajes de reprobación de sexto año respecto a los de primer año?

e) ¿En qué años los porcentajes de repetición de primer año superaron 14%? f) En términos generales, ¿qué evolución tuvo la repetición de los niveles escolares entre el

2000 y el 2010?

Análisis de la Actividad 12

a) La importancia de recabar este tipo de información estadística es brindarles a las

autoridades del MEP, a los usuarios de las estadísticas, a los investigadores y a otros entes relacionados con la educación, datos acerca del comportamiento del sistema educativo en relación con ciertas variables de interés. Esto tiene el propósito de analizar los resultados obtenidos en estas investigaciones y así tomar decisiones trascendentales para el país.

b) El porcentaje de repetición que está presente en la gráfica se interpreta como el número de

estudiantes que están repitiendo por cada 100 estudiantes matriculados. Por ejemplo, en primer grado del 2010 por cada 100 estudiantes matriculados 11 eran repitentes y en sexto grado por cada 100 estudiantes matriculados uno era repitente.

c) En primer lugar, se observa la marcada diferencia entre tres escenarios, dos de ellos

extremos (la alta repetición en primer grado y la baja repetición en sexto grado), y un escenario central donde están los otros grados muy lejos de estos extremos. Además,

Page 74: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 74

puede notarse que segundo y cuarto tienen un comportamiento muy parecido, mientras que tercero y quinto que tenían un comportamiento muy parecido entre 1997 y 2005, después de eso tienden a separarse.

d) Se puede analizar que la diferencia de los porcentajes de repitencia de sexto año respecto a

los de primer año al inicio del período (1997) era alrededor de 16 puntos porcentuales, mientras que al final del periodo (2010) es de aproximadamente 10 puntos porcentuales. Es importante indicar que en estos casos no se habla de una diferencia en términos de porcentajes sino de puntos porcentuales, pues los conceptos son diferentes. Por ejemplo, si se habla de una diferencia de 16% significa que sobre la base

del primer valor el segundo es 16% más grande, mientras que si habla de 16 puntos porcentuales significa que la diferencia entre los dos porcentajes es de 16 puntos.

e) Los años en que los porcentajes de repetición de primer año superaron 14% son de 1997 al 2001, 2007 y 2008.

Como una actividad adicional se le puede pedir a los estudiantes que conjeturen sobre la repitencia en primer grado, tomando en cuenta la información de la gráfica. f) Puede notarse que entre el 2000 y el 2005 se mantienen muy estables, aumentan entre

2006 y 2007, presentando un importante descenso entre 2008 y 2009, con un aumento nuevamente en 2010. No obstante, los grados de primero y sexto experimentan patrones un poco diferentes. Por ejemplo, en sexto grado el porcentaje de repetición se mantuvo relativamente constante en todo el periodo; en cambio en primer grado el comportamiento fue muy irregular ya que entre 1997 y 2002 tendió a bajar, luego se mantuvo entre 2002 y 2004, seguidamente entre el 2004 y 2006 descendió, entre 2006 y 2008 creció para luego bajar considerablemente en el 2009 y volver a crecer en el 2010.

***

Análisis como el planteado anteriormente permite que los estudiantes puedan valorar la importancia de recolectar y publicar información estadística, como una estrategia para diferentes actividades, aquí se utiliza como un instrumento para analizar el comportamiento del sistema educativo. Asimismo, es importante que los jóvenes estén en capacidad de realizar una lectura lo más completa posible, así como que utilicen la información para conjeturar y argumentar hipótesis utilizando los datos proporcionados.

Diagramas de puntos

Cuando se tiene un conjunto de datos correspondiente a una variable cuantitativa, se tiene la desventaja que las gráficas anteriores no permiten resumir fácilmente la información de modo que pueda representarlo por algún tipo de gráficas de barras. Para llevar a cabo un análisis con este tipo de información se debe buscar algunas estrategias para analizar, desde un punto de vista exploratorio, el comportamiento de esos datos.

Page 75: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 75

Actividad 13

Con la información dada en la Actividad 3 de este apartado, proceda a buscar algún tipo de representación gráfica que le permita representar el peso de los pacientes que asistieron al servicio de Emergencias del Hospital Calderón Guardia en el tercer fin de semana del mes de abril del 2011.

Con la información de esta variable, determine si existen importantes diferencias entre el peso de los pacientes por sexo.

Análisis de la actividad 13

En este caso se tienen 40 datos muy diferentes unos de otros, por lo que una representación gráfica de barras o circular no es adecuada pues la cantidad de barras o sectores serían demasiados, todos con muy poca frecuencia. En este sentido una forma de representación es la siguiente:

a) Este tipo de gráfica permite evidenciar la distribución de los datos de modo que pueden observarse los pesos donde hay más concentración, en este caso entre los 65 kg y los 83 kg aproximadamente. También se observa qué tan variable es la información y en este caso se nota gran variabilidad pues hay mucho espacio entre los puntos, de hecho ellos tienen un rango de variación de aproximadamente 50 kg (entre 48 kg y 95 kg).

Aunque no se acostumbra emplear estas gráficas para presentarlas a lectores, son un valioso recurso para analizar en forma exploratoria los datos y comprender mejor su comportamiento antes de realizar otros análisis estadísticos. b) También se utilizan para efectuar comparaciones entre variables, esto puede observarse en

las siguientes gráficas.

Page 76: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 76

Al comparar las dos gráficas claramente se observa que los pesos de los varones son, en general, más altos que los de las mujeres. El peso de los varones tiene fuerte concentración entre 70 kg y los 83 kg, mientras que el peso de las mujeres presenta una concentración muy heterogénea, tomando valores entre 48 kg y 79 kg, con una ligera agrupación entre 70 kg y 79 kg. Por esta misma razón, los pesos de las mujeres presentan más variabilidad. El análisis de la posición y la variabilidad se aborda con mayor detalle en la sección de medidas estadísticas.

*** Histogramas y polígonos de frecuencias

Estos son tipos muy particulares de gráficas, al igual que los diagramas de puntos se utilizan para representar información de variables cuantitativas continuas, solo que ahora se requiere que dicha información haya sido resumida previamente en una distribución de frecuencias. Analice detenidamente la siguiente situación y trate de dar una representación adecuada a la información que se le brinda.

Actividad 14

Se requiere volver a analizar el peso de los pacientes que asistieron al servicio de Emergencias al Hospital Calderón Guardia. Con dicha información realice las siguientes actividades.

a) Construya una distribución de frecuencias para los pesos de los hombres y otra para el

peso de las mujeres. En el caso de los hombres utilice las siguientes clases o grupos: de 65 a menos de 70, de 70 a menos de 75, …, de 90 a menos de 95. Por otro lado, para el caso de las mujeres las clases serán: de 45 a menos de 50, de 50 a menos de 55, …, de 75 a menos de 80.

b) Con la información de las distribuciones de frecuencia utilice algún tipo de representación gráfica para comparar el peso entre hombres y mujeres.

Page 77: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 77

Análisis de la Actividad 14

a) Con base en los datos y en las clases que se sugirieron para la actividad, los cuadros que

resumen la información son los siguientes.

Cuadro 10. Distribución de los pesos de las pacientes femeninas que asistieron al servicio de Emergencia del Hospital Calderón Guardia durante

el tercer fin de semana del mes de abril del 2011

Peso de las

Pacientes (kg)

Cantidad de

pacientes

Porcentaje de

pacientes

De 65 a menos de 70 1 5,9

De 70 a menos de 75 3 17,6

De 75 a menos de 80 6 35,3

De 80 a menos de 85 4 23,5

De 85 a menos de 90 1 5,9

De 90 a menos de 95 2 11,8

Total 17 100,0

Cuadro 11. Distribución de los pesos de los pacientes masculinos que asistieron al

servicio de Emergencia del Hospital Calderón Guardia durante el tercer fin de semana del mes de abril del 2011

Peso de los

Pacientes (kg)

Cantidad de

pacientes

Porcentaje de

pacientes

De 45 a menos de 50 2 8,7

De 50 a menos de 55 3 13,0

De 55 a menos de 60 3 13,0

De 60 a menos de 65 2 8,7

De 65 a menos de 70 3 13,0

De 70 a menos de 75 5 21,7

De 75 a menos de 80 5 21,7

Total 23 100,0

Page 78: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 78

b) Se puede pensar en diferentes estrategias gráficas para representar estos datos, entre ellos una gráfica de barras comparativas tal como la siguiente:

Con esta gráfica se puede realizar un análisis similar al que se efectuó con los diagramas de puntos; pero se puede hacer muy confuso para la interpretación de un lector. Por esta razón, se recurre a utilizar otro tipo de representación gráfica que ayude con la interpretación. Uno de ellos es el polígono de frecuencias, que consiste en un tipo particular de gráfica lineal que se construye tomando como abscisa el punto medio de la clase y como ordenada la frecuencia absoluta o porcentual de la clase, se cierra al principio y al final. A continuación se presentan los polígonos de frecuencias para los pesos de los pacientes.

Como puede notarse ésta es una gráfica muy ilustrativa respecto al comportamiento de los pesos de los pacientes. Los pesos de los hombres son superiores a los de las mujeres, la mayor concentración de pesos de los varones están entre 68 kg y 83 kg, mientras que el peso de las mujeres tiene una ligera concentración entre 67 kg y 80 kg. Además, se observa también mayor variabilidad en los pesos de las mujeres. Otra representación gráfica que es muy utilizada cuando los datos se encuentran resumidos en una distribución de frecuencias es el histograma, que consiste en una gráfica de barras verticales donde las barras no guardan separación entre sí.

Page 79: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 79

En el eje de las abscisas se utilizan los que representan los puntos medios de las clases o los límites de cada clase, la altura de la barra es la frecuencia absoluta o relativa. Al igual que en otras gráficas la escala no necesita empezar en cero, las frecuencias se presentan en la escala vertical, que sí debe empezar de cero. Seguidamente se presentan los histogramas correspondientes a los pesos de los pacientes.

***

Para finalizar esta sección es importante hacer notar que existen muchas otras representaciones gráficas que pueden ser utilizadas, por lo que el docente debe plantear diferentes situaciones que le ayuden al estudiante a adquirir las habilidades necesarias para leer e interpretar la información gráfica. La siguiente actividad es un ejemplo particular de estas situaciones.

Actividad 15

Un adagio popular indica “una imagen es mejor que mil palabras”; seguidamente se presentan dos gráficas denominadas pirámides de población, en este caso se utilizan para representar la distribución de la población de Costa Rica en 1963 y una proyección al 2012.

Fuente: Centro Centroamericano de Población, ccp.ucr.ac.cr

Page 80: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 80

a) ¿Cuáles son las principales diferencias que se observan entre las distribuciones de las dos poblaciones? ¿Cómo se pueden interpretar esas diferencias?

b) ¿En cuál de los años el porcentaje de población adulta mayor (65 o más años) es más elevado?

c) ¿En cuál de estos años existe un mayor porcentaje de la población en edad escolar y colegial?

d) ¿Por qué es necesario utilizar porcentajes para realizar las comparaciones anteriores? e) En el grupo de edad entre 0 y 4 años, ¿qué sexo tiene más población?

Análisis de la Actividad 15

a) En primer lugar se debe observar que la forma de las gráficas es diferente. En 1963 tiene

forma de una pirámide casi perfecta mientras que para el 2012 la base se ha estrechado. ¿Qué significa eso? Debido a que, en términos relativos, la base de la gráfica es mucho más amplia en 1963 que en el 2012, eso significa que la proporción de población de menores de 15 años era mucho mayor en 1963 que en el 2012. De igual forma, en términos relativos, al ver la cúspide de las pirámides, en los grupos de edades de adultos mayores las barras del 2012 son más largas que las de 1963, lo que significa que la proporción de población adulta mayor es superior en el 2012 respecto a 1963. Por todo esto, se concluye que la estructura de la población del país en el 2012 es más vieja que la de 1963, es decir en el 2012 hay más porcentaje de gente adulta y adulta mayor que en 1963, donde la población era mucho más joven. Este es un fenómeno típico que muestra una disminución en los nacimientos, lo cual se presenta en mayor medida en países que han tenido una importante evolución demográfica, como los países europeos. La siguiente pirámide es un ejemplo de la forma en que se distribuye la población en países de alta evolución demográfica.

b) En segundo lugar se deben observar diferencias por sexo, aunque en la primera barra hay

más hombres que mujeres, producto de que se presenta mayor nacimiento de varones. En edades adultas la cantidad de mujeres supera al de los hombres, lo que indica que los hombres se mueren a edades más tempranas que las mujeres. Este patrón es similar para ambos años, aunque es más notorio para el 2012. Estas son conjeturas realmente importantes y no se pueden pasar por alto en un análisis de este tipo, aunque podría ser

Page 81: III ciclo unidad_de_estadistica

Estadística Representaciones

Página | 81

que se requieran nuevas preguntas para explotar la información; esta tarea queda en manos del docente.

c) También se observa que entre 1963 y el 2012 se ha presentado en el país un fuerte

crecimiento poblacional, para todos los grupos de edades la cantidad de población es mucho mayor en este último año.

d) Además, también se observa que el promedio de vida es más alto en el 2012, mayores porcentajes de población viven más de 60 años.

Page 82: III ciclo unidad_de_estadistica

Estadística

Página | 82

V. Medidas resumen de posición y de variabilidad

Introducción

Como se viene ilustrando en los apartados anteriores, una vez recolectados los datos se requiere establecer estrategias que ayuden a resumirlos, para extraer información relevante, especialmente cuando las variables son cuantitativas. Por medio de métodos gráficos se puede tener una representación visual de los tres aspectos fundamentales en un conjunto de datos para una determinada variable, a saber: la forma de su distribución, su posición o localización (es decir, alrededor de qué valor se tienden a concentrar en mayor medida los datos) y la dispersión o variabilidad de las observaciones alrededor de los valores centrales. Sin embargo, en muchas ocasiones se requiere establecer valores numéricos que ayuden a caracterizar esos datos.

En esta sección se introducen algunas medidas estadísticas que permiten analizar la posición y la variabilidad de los datos.

Actividad 1

Seguidamente se retoma un análisis planteado en la sección anterior, con la intención de complementar el estudio sobre los pacientes que asistieron al servicio de Emergencias del Hospital Calderón Guardia en el tercer fin de semana del mes de abril del 2011. Hay que recordar que el propósito básico es caracterizar ese grupo de pacientes en función de las variables del estudio.

De acuerdo con esos datos y con los análisis efectuados en la sección anterior, proceda a caracterizar el comportamiento de cada variable según lo que se solicite en cada caso.

1) ¿Cuál es el sexo que asistió con más frecuencia al servicio de Emergencias de dicho hospital en las fechas investigadas? ¿Cuál es el cantón en el que se presentó la mayor frecuencia de pacientes en ese fin de semana?

2) ¿Cuál es el número de asistencias al servicio de emergencias durante el 2010 más común

entre los pacientes que asistieron a este servicio en el tercer fin de semana del mes de abril del 2011?

3) Aunque a partir de los análisis realizados en la sección previa se determinó que las

edades de los pacientes analizados se concentraban, en mayor medida, entre los 35 y los 55 años (ver cuadro 3 de la sección anterior), interesa ahora resumir esta información mediante un solo valor. ¿Cuál sería ese valor?

Page 83: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 83

4) Del mismo modo, en el estudio previo (ver gráficos 15, 16 y 18 de la sección anterior) se determinó que los pesos de las mujeres son menores que los de los varones; no obstante, es importante poder resumir los datos de cada grupo en función de una medida que resuma adecuadamente todos los demás datos. Además, identificar los valores extremos de cada grupo.

Análisis de la Actividad 1

1) Debido a que llegaron 23 mujeres y 17 varones, se puede decir que el sexo más común

entre estos pacientes es el femenino. Por otro lado, de acuerdo con el cuadro 1 (apartado anterior), se presentaron pacientes al servicio de Emergencias de seis cantones de la provincia de San José, los cantones con más frecuencia de pacientes fueron San José y Moravia, ambos con nueve pacientes. Regularmente, al dato con mayor frecuencia dentro de un grupo se le denomina moda o valor modal. En el caso del sexo de los pacientes la moda es mujer, mientras que en el caso del cantón de residencia de los pacientes se presentaron dos modas, los cantones San José y Moravia.

2) En el cuadro 2 de la sección previa, se determinó que 10 de los pacientes que asistieron a

Emergencias en el tercer fin de semana de abril habían asistido una vez durante el 2010 y otros 10 de ellos asistieron dos veces durante el 2010. Por esta razón, puede decirse que la variable número de visitas a Emergencias en el 2010 tiene dos modas que son una y dos veces.

3) Ante la necesidad de resumir los datos de la variable edad de los pacientes, se debe buscar

una estrategia que permita aglutinar estos datos en un solo número. Un valor que es muy conocido se obtiene de sumar todas las edades y dividirlas entre el número total de pacientes, el cual se conoce como edad promedio o promedio de las edades. Después de realizar el procedimiento se obtiene que la edad promedio es 45,4 años. Este valor es muy representativo en cuanto a la posición de la distribución de los datos, ya que como puede notarse efectivamente se encuentra en el rango en que se concentra la mayor parte de las edades de los pacientes.

4) Aplicando el mismo procedimiento anterior se puede establecer que el peso promedio de

los varones fue 78,8 kg, mientras que el peso promedio de las mujeres fue 64,8 kg. Si se analiza nuevamente el gráfico 18 de la sección anterior se tiene:

Page 84: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 84

En el eje de las abscisas se han marcado los promedios para cada caso, nuevamente estos valores tienden a ubicarse en una posición en la cual existe una gran concentración de datos.

Por otro lado, los valores extremos de cada uno de los grupos de pesos son:

Hombres: el mínimo fue 67,7 kg y el máximo 94,9 kg.

Mujeres: el mínimo fue 48,1 kg y el máximo 79,1 kg.

Los resultados de la actividad anterior dejan entrever el uso de algunas medidas de resumen de la información, seguidamente se analizan algunas propiedades de cada una de ellas.

***

Nota: Medidas como la moda, la media aritmética y la mediana también son llamadas medidas de tendencia central.

Moda

Corresponde al dato que más se repite en un conjunto de datos, se utiliza tanto para cualitativos como cuantitativos. En un grupo de observaciones puede ser que no exista moda o que haya más de una moda. Se debe tener cuidado con su interpretación, debido a que no significa que la mayoría de los datos tome el valor que más se repite o de mayor frecuencia, pues la mayoría representa más de la mitad, pero el valor modal no siempre incluye más de la mitad de las observaciones.

Promedio o media aritmética El promedio o media aritmética es uno de los valores más utilizados dentro de los análisis estadísticos, es la medida de tendencia central de mayor relevancia. Se dice que es una medida de tendencia central debido a que tiende a caracterizar la mayor concentración de datos, tal como se pudo evidenciar en la actividad previa. En general, si para una variable las observaciones generan n datos que se pueden representar con 1 2, , , nX X X entonces el promedio se calcula mediante la fórmula:

1 2 nX X Xn

+ + +

Máximo y mínimo Estos valores se definen a partir de sus propios nombres. El máximo corresponde al dato de mayor valor numérico del conjunto y el mínimo representa el de menor valor numérico.

Nota: El promedio tiene la desventaja de ser muy sensible a los valores extremos, de modo que si un conjunto de datos tiene unos pocos valores más grandes o más pequeños del común, provocan que el promedio se sesgue o incline hacia esos valores extremos. Para evidenciar esto resuelva la siguiente actividad.

Page 85: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 85

Actividad 2

En un curso con alto grado de dificultad de la universidad, un estudiante debió realizar cinco exámenes parciales y debía obtener una nota mínima de 7,0 para aprobar la materia. Desafortunadamente, en el cuarto examen tuvo un problema de salud que afectó su concentración y le hizo obtener una baja calificación. Las notas obtenidas son las siguientes: 7,1; 7,5; 7,8; 2,8 y 8,0. De acuerdo a esta información determine:

1. La nota promedio del estudiante en ese curso. 2. Considera usted justa esta calificación, si la respuesta es negativa; establezca algún

procedimiento que permita otorgarle una calificación más justa al estudiante.

Nota: La situación planteada es hipotética, ha sido redactada con fines didácticos. Por esta razón, el análisis del problema se puede realizar desde una perspectiva eminentemente estadística, tomando como referente el aporte que las diferentes técnicas pueden dar para resolverlo.

Análisis de la Actividad 2

1) La nota promedio de este estudiante está dada por 7,1+7,5+7,8+2,8+8,0

5= 6,64, por lo que

estaría perdiendo el curso y deberá realizar un examen de ampliación que es similar al examen de convocatoria que se realiza en el colegio.

2) Evidentemente este resultado no es justo, pues con excepción de la nota del cuarto examen, el estudiante fue superando sus calificaciones. El principal problema que se presenta obedece a la nota del cuarto examen. Para tratar de una manera más justa al estudiante, se podrían plantear varias posibilidades, entre ellas:

• Eliminar la nota del cuarto examen y obtener el promedio con los cuatro exámenes restantes, el cual sería: 7,1+7,5+7,8+8,0

4= 7,60, por lo que estaría aprobando el curso.

• Sustituir la nota del cuarto examen por el promedio de los otros cuatro, por lo que la nota obtenida sería la misma obtenida anteriormente 7,1+7,5+7,8+7,6+8,0

5= 7,60, es decir estas

dos alternativas son equivalentes. • Eliminar la calificación más baja y la más alta, luego determinar el promedio de los tres

exámenes restantes 7,1+7,5+7,83

= 7,47, por lo que nuevamente estaría aprobando el curso. • Solicitar al estudiante que reponga el cuarto examen y con ese valor promediar

nuevamente las calificaciones.

La situación planteada en esta actividad deja en evidencia el efecto que uno o más valores extremos ejercen sobre el promedio. Se puede notar que el valor 2,8 del cuarto examen provoca que el promedio se sesgue hacia un valor bajo, muy lejos del común de las notas. Esta situación se observa en el siguiente gráfico, en el cual se marca sobre el eje de las abscisas el valor del promedio:

Page 86: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 86

Mediana

Otra forma de buscar una representación más justa cuando los valores extremos ejercen una fuerte influencia sobre el promedio consiste en utilizar la mediana, la cual representa el valor central del conjunto de acuerdo con las magnitudes de los datos. Es decir, para la determinación de la mediana no interesa tanto el valor numérico de las observaciones sino la posición de los mismos en el eje de las abscisas. Por ejemplo, para las calificaciones del estudiante, el siguiente gráfico muestra el valor de la mediana.

La mediana es 7,5. Observe que en este caso la mediana tiene la particularidad de que dos observaciones son menores o iguales a ella y las otras dos son mayores. En general, la mediana es un valor para el cual no más de la mitad de los datos son menores y no más de la mitad son mayores, por ello se dice que esta medida estadística se ubica en el centro de la distribución de los mismos.

Para complementar la información anterior, realice la siguiente actividad.

Page 87: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 87

Actividad 3

Lea el siguiente reportaje.

EL CONSUMO DE AGUA POR PERSONA EN LOS PAÍSES DESARROLLADOS ALCANZA LOS 300 LITROS FRENTE LOS 80

QUE RECOMIENDA LA OMS

El consumo de agua por persona en los países desarrollados puede alcanzar los 300 litros diarios, ante los 25 que se consumen en zonas subdesarrolladas y los 80 litros que recomienda la Organización Mundial de la Salud (OMS) para las necesidades vitales e higiene personal. No obstante, el consumo medio mundial de litros de agua por persona es de 1 800 litros diarios si se suman las actividades en las que se utiliza el agua para la agricultura y ganadería un 75 por ciento, e industria un 8 por ciento.

Para concienciar a los ciudadanos de la necesidad de adoptar una serie de hábitos de ahorro de agua, el grupo Eroski y la organización mundial de conservación WWF/Adena han puesto en marcha la campaña “El agua, un recurso escaso, natural e imprescindible”.

Eroski pretende sensibilizar a la población hacia una cultura respetuosa con el agua, posibilitando un ahorro efectivo de un recurso tan escaso a través de acciones de sensibilización para prevenir el derroche del agua y mostrando medidas que optimicen su aprovechamiento, con el propósito de que la población también se implique en el proyecto. AHORRO DEL AGUA

Los estudios revelan que los seres humanos pueden llegar a desperdiciar una ingente cantidad de agua sin consumirla. Uno de los casos más sangrantes es el de las pérdidas, un grifo que permita fugas de 10 gotas por minuto provoca un desperdicio de 2 000 litros de agua al año. El uso diario de la ducha3, en vez del baño4, contribuye también de sobremanera a cimentar el ahorro de agua, pues pueden ahorrarse hasta 7 300 litros de agua por persona al año. Además, si la ducha cuenta con economizadores de agua, la cifra de litros ahorrados asciende hasta los 14 600. Otro de los casos en los que se pueden ofrecer datos es en el capítulo de las cisternas, pues la instalación de dispositivos de ahorro pueden lograr a que no se tiren 7 600 litros de agua por persona.

En la actualidad, 26 países sufren la escasez de agua, pero la previsión es que para el 2 025 sean 41 los países que presenten un déficit crónico de agua, afectando a 2 800 millones de personas, 35 por ciento de los 8 000 que para entonces habitarán el planeta. El agua es un recurso escaso, cada dos minutos muere un ser humano por

3 Tomar un baño en la ducha. 4 Tomar un baño en la tina.

Page 88: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 88

falta de agua potable, algo difícil de comprender desde el mundo civilizado, que obtiene el líquido elemento sólo con abrir el grifo. Además, 20 por ciento de las especies de agua dulce corren peligro de extinción, víctimas de la contaminación o de la disminución de reservas.

La sequía que afecta a España no sólo se debe a una desigual distribución de precipitaciones entre la zona atlántica y la mediterránea, sino también al consumo desequilibrado que se realiza. España es el tercer país del mundo con mayor consumo por habitante, aunque en los últimos 75 años se ha producido una reducción del 30 por ciento del caudal circulante en los ríos, sólo 5 por ciento es atribuible a causas naturales.

HÁBITOS DE CONSUMO RESPONSABLE

La representante de WWF/Adena, Lucía De Stefano, señaló que “muchas veces no somos conscientes del impacto medioambiental que tienen nuestras acciones diarias”. Por ello, se hace una serie de recomendaciones que según De Stefano “deben convertirse en hábitos diarios e interiorizarlos”. Entre ellos destacan evitar verter productos de limpieza por el desagüe, ya que dificultan la posterior depuración de las aguas; en el jardín regar al amanecer o al anochecer, ya que es cuando el agua tarda más en evaporarse, y escoger plantas autóctonas que consumen menos agua; cerrar el grifo al lavarse los dientes o los platos; tirar de la cadena del inodoro sólo cuando sea necesario y no utilizarlo como papelera; reparar los grifos que gotean con urgencia; ducharse en vez de bañarse; lavar la fruta y la verdura en un cuenco; o utilizar el lavavajillas y la lavadora sólo a plena carga.

Lucía De Stefano indicó que “el agua tenemos que utilizarla bien y sólo si la necesitamos”, e incidió en la importancia de no abusar de jabones y detergentes, ya que estos “contaminan el agua”, y aunque pase por la depuradora “nunca la devuelve a los ríos en las mismas condiciones en que salieron de ellos”.

De Stefano concluyó recordando que “el agua viene de ríos y vuelve a ellos, son arterias de vida en las que viven muchos organismos que participan en una cadena de vida que tenemos que conservar y transmitir a generaciones futuras”.

Tomado de la página Web http://terranoticias.terra.es/articulo/html/av2860416.htm

Para analizar este problema, en una determinada ciudad se seleccionó una muestra aleatoria de 26 personas de distintos estratos sociales y se midió la cantidad de agua que consumieron en un día cualquiera (en hectolitros). A continuación se presenta dicha información.

1 2 3 4 5 6 7 8 9 10 11 12 13

1,03 1,57 3,29 2,62 1,17 3,59 0,76 1,93 1,00 2,39 0,76 2,66 0,91

14 15 16 17 18 19 20 21 22 23 24 25 26

Page 89: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 89

3,27 1,31 1,35 3,37 0,69 1,93 1,17 1,35 0,71 1,99 3,57 5,01 4,75

Con base en la información anterior:

1) Determine la media aritmética, la moda, el máximo y el mínimo de estos datos e interprételos. ¿Es la media aritmética una medida adecuada de tendencia central para estos datos? Razone su respuesta.

2) Determine la mediana y utilice estos resultados con los obtenidos en la parte a. ¿Cuál es

la mejor medida de tendencia central para analizar este caso? 3) Determine un valor para el cual 25% de las observaciones son menores que dicho valor,

del mismo modo encuentre un valor para el cual 75% de los datos son menores que él. 4) Resuma la información en un polígono de frecuencias de 5 clases y marque en él las

diferentes medidas calculadas previamente. 5) Lleve a cabo una reflexión sobre el aporte que usted puede dar en el ahorro de agua.

Análisis de la Actividad 3

1) Primero se ordenan los datos de menor a mayor, esto permite identificar mejor las

posiciones para efectos de los cálculos. En la siguiente tabla se muestran los datos ordenados de forma ascendente.

1 2 3 4 5 6 7 8 9 10 11 12 13

0,69 0,71 0,76 0,76 0,91 1,00 1,03 1,17 1,17 1,31 1,35 1,35 1,57

14 15 16 17 18 19 20 21 22 23 24 25 26

1,93 1,93 1,99 2,39 2,62 2,66 3,27 3,29 3,37 3,57 3,59 4,75 5,01

La construcción de un diagrama de puntos ayuda a analizar el patrón de variación de esos datos.

Page 90: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 90

En este diagrama puede notarse que algunas personas tienen un consumo de agua mucho mayor del común. Mientras que la mayoría de personas tuvo un consumo entre más de medio hectolitro y dos hectolitros diarios, algunos gastan mucho más que eso. En relación con las medidas estadísticas, se observan cuatro modas todas ellas con frecuencia de dos personas, debido a que existen importantes diferencias entre estos valores y sus frecuencias son muy bajas, es preferible no emplear la moda como medida de tendencia central para caracterizar el conjunto de datos. Por otro lado, el consumo de agua promedio diario por persona es de 2,08 hectolitros. Al observar el diagrama de puntos, se nota que este promedio está fuera del rango donde están el consumo común, que se citó antes se encuentra entre un poco más de medio hectolitro y los dos hectolitros, por lo que su representatividad como valor central se pueden cuestionar en los siguientes términos: • La mayor cantidad de datos (16) son menores al promedio. • Los datos mayores a la media aritmética tienen mucha variabilidad. • En este caso el promedio está afectado por valores grandes, que provocan que la media aritmética tome un valor más grande de lo común. Al analizar las mediciones realizadas a los consumidores muestreados, la mayor observación fue de 5,01 hectolitros en el día y la menor fue de 0,69 hectolitros en el día. Esto quiere decir que entre la persona que menos agua gastó y la que más gastó hubo una diferencia de 4,32 hectolitros, lo que equivale a 432 litros de diferencia.

2) La mediana es el valor central de la distribución de datos (ordenados), entonces al ser 26

datos, la mediana se ubica en la posición central, debido a que la mitad de 26 es 13, entonces la mediana corresponde a un valor que está entre el dato 13 y el dato 14 (con los datos ordenados de menor a mayor). De este modo habrán 13 observaciones menores a la mediana y otras 13 mayores a ella.

Con los datos ordenados, se tiene que la mediana estará entre 1,57 y 1,93 hectolitros; en estos casos se acostumbra tomar la mediana como el promedio de esas dos observaciones, entonces:

1,57 + 1,932

= 1,75 Esto significa que la medición central en el consumo de agua entre los consumidores muestreados fue de 1,75 hectolitros (50% de los encuestados consumió 1,75 hectolitros de agua o menos). Con este valor se tiene que la mediana es mucho menor que la media aritmética y además, ofrece una idea más clara respecto a la tendencia central de los datos recolectados.

Mediana

Dato 13 1,57 Hl

Dato 14 1,93 Hl

Page 91: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 91

3) Se desea determinar dos valores, uno para el cual 25% de las mediciones son menores que dicho valor y el otro para el cual 75% de las observaciones también son menores. El siguiente diagrama representa esta situación:

Partiendo de los valores mínimo y máximo, del diagrama anterior se tiene que el primer valor que se está buscando debe estar entre el dato número 6 y el número 7, como el dato seis es 1 y el siete es 1,03, entonces el valor buscado sería el promedio de éstos 1+1,03

2= 1,015, por

ello se tendría que 25% (o la cuarta parte) de los consumidores muestreados generaron un consumo de 1,015 hectolitros o menos y 75% (o las tres cuartas partes) de ellos generó un consumo de 1,015 hectolitros o más. Este valor es conocido como primer cuartil. Por otro lado, para determinar el valor para el cual 75% de los datos son menores, según el diagrama dicho valor debe estar entre los datos que se encuentran en la posición 20 y en la posición 21, el dato número 20 es 3,27 y el de la posición 21 es 3,29, por ello el valor para el cual 75% de datos son menores a él sería 3,27+3,29

2= 3,28. Esto significa que 75% (o las tres

cuartas partes) de los consumidores muestreados generaron un consumo de 3,28 hectolitros o menos y 25% (o la cuarta parte) de ellos generó un consumo de 3,28 hectolitros o más. Este valor se conoce con el nombre de tercer cuartil.

4) Debido a que el mínimo es 0,69 y el máximo es 5,01, podría pensarse en utilizar una distribución que inicie en 0,5 y termine en 5,5, para así tener cinco clases de una unidad cada una.

Consumo de agua diaria para una muestra de 26 personas

(en hectolitros)

Consumo de agua

Número de consumidores

Porcentaje de consumidores

De 0,50 a menos de 1,50 12 54,5 De 1,50 a menos de 2,50 5 22,7 De 2,50 a menos de 3,50 5 22,7 De 3,50 a menos de 4,50 2 9,1 De 4,50 a menos de 5,50 2 9,1 Total 22 100,0

Luego, se puede representar gráficamente la información con el siguiente polígono de frecuencias:

Page 92: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 92

La gráfica muestra que la distribución del consumo tiende a concentrarse mayoritariamente en menos de 2 hectolitros, tiene forma asimétrica con presencia de valores mucho más grandes que el común, esto refleja lo que anteriormente se ha citado que algunas personas tienen un consumo diario de agua que supera en mucho al común de los consumidores. Además, se muestra también la forma en que el primer cuartil, la mediana y el tercer cuartil dividen la distribución en cuatro partes, cada una de ellas encierra un 25% de los datos obtenidos. La reflexión sobre la actividad 3 expone una serie de elementos nuevos que requieren ser institucionalizados para sistematizar su interpretación y uso en futuros análisis.

***

Page 93: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 93

Forma de la distribución de los datos

En la actividad anterior, la forma que tomó la distribución de los datos es asimétrica pues se presenta una mayor concentración de datos hacia la izquierda y menor concentración a la derecha ocasionada por la presencia de valores extremos más grandes de lo común. La siguiente figura refleja la forma común de este tipo de distribuciones:

En este tipo de distribuciones se dice que hay un sesgo a la derecha, casualmente por la presencia de valores extremos, también se dice que la distribución de los datos tiene asimetría positiva o asimetría a la derecha. En otros casos, ocurre una situación contraria, es decir la mayor concentración de datos se presenta hacia la izquierda y se presentan algunos valores que son más pequeños del común, lo que genera un sesgo a la izquierda, en esos casos se dice que la distribución de los datos tiene asimetría negativa o asimetría a la izquierda, tal como lo ilustra la siguiente figura:

Finalmente, cuando no existe un sesgo hacia un solo lado, sino que el común de los datos tiende a hacia el centro, con reparto similar aproximadamente hacia ambos lados, se obtiene una distribución simétrica o aproximadamente simétrica, lo cual se refleja en la siguiente figura:

Aunque pueden existir muchas otras formas para las distribuciones que sigan los datos, en términos generales pueden clasificarse en estos tres esquemas básicos.

Page 94: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 94

De acuerdo con lo anterior, por medio de la relación que pueda existir entre el promedio y la mediana, se puede establecer una estrategia para determinar la forma que puede tomar una distribución de datos. Por ejemplo: ¿Qué valor es mayor, el promedio o la mediana cuando los datos tienen

a) una distribución con asimetría positiva? b) una distribución con asimetría negativa? c) una distribución simétrica?

Para responder estas interrogantes, debe analizarse que la mediana se ubica en el centro de la distribución, mientras que la media aritmética se sesga hacia la presencia de los valores extremos, por ello, se tendrían las siguientes respuestas:

a) Si la distribución de los datos tiene asimetría positiva el promedio es mayor que la

mediana, tal como se reflejó en la actividad 3. b) Si la distribución de los datos tiene asimetría negativa el promedio es menor que la

mediana, pues el promedio se sesga por la presencia de valores más pequeños del común de los datos.

c) Si la distribución de los datos es simétrica entonces el promedio y la mediana serían aproximadamente iguales, pues al no existir sesgo hacia uno de los lados, el promedio tendería a quedar en el centro de la distribución.

Las siguientes figuras resumen de manera visual lo que se ha indicado.

Relación entre el promedio y la mediana según el tipo de distribución de los datos

Asimetría positiva Asimetría negativa Simétrica

Cuartiles Los cuartiles son medidas estadísticas que se utilizan para dividir el conjunto de datos en cuatro partes, tal como se ha dicho antes cada una de ellas encierra un 25% de los datos. El primer cuartil es un valor numérico para el cual 25% de los datos (o sea la cuarta parte) son menores o iguales a dicho valor, el tercer cuartil es el valor para el cual 75% de los datos (tres cuartas partes) son menores o iguales que dicho valor. El segundo cuartil, que aunque no fue determinado anteriormente, corresponde a la mediana de la distribución e indica que 50% de los datos (dos cuartas partes) son menores o iguales a dicho valor. Por lo anterior, para determinar la mediana y los otros cuartiles, los datos deben estar ordenados de menor a mayor. En el análisis de las actividades 2 y 3 se utilizaron procedimientos lógicos para determinar la mediana, pero el procedimiento no fue único, pues

Page 95: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 95

en la actividad 2 el número de datos es impar (cinco), por lo que la mediana fue un valor del grupo y se escogió de modo que dos datos fueran menores y otros dos mayores. Por otro lado, en la actividad 3 el número de observaciones fue par (26) por lo que dicho procedimiento no se podría utilizar, pues no solamente existe un valor central sino dos, que son el valor número 13 y el valor número 14, y por ello la mediana se obtuvo como el promedio de los datos de las posiciones 13 y 14. De este modo es posible definir la mediana de la siguiente forma: Una vez que los n datos cuantitativos correspondientes a una variable han sido ordenados de menor a mayor de manera que se pueden representar por: 1 2, , , nX X X donde se cumple

que 1 2 nX X X≤ ≤ ≤ ; entonces la mediana de la distribución de los datos se puede determinar por

12 2

12

si es par 2

Medianasi es impar

n n

n

X Xn

X n

+

+

+=

Se puede observar que si el número de datos es n = 5, como ocurrió con la actividad 2, entonces la mediana vendría dada por 𝑋5+1

2= 𝑋3 =7,5.

Del mismo modo, si el número de datos es n = 26, tal como ocurrió en la actividad 3,

entonces la mediana vendría dada por 𝑋262+𝑋26

2 +1

2= 𝑋13+𝑋14

2= 1,57+1,93

2= 1,75

Se debe recordar que la mediana corresponde también al segundo cuartil. Para el caso del primer cuartil, el procedimiento empleado en la actividad 3 consistió en determinar 25% (o sea la cuarta parte) de n = 26, en el entendido que ese cuartil encierra la cuarta parte de los valores menores. El procedimiento empleado para determinar ese valor se puede resumir de la siguiente manera: Una vez que los n datos cuantitativos correspondientes a una variable han sido ordenados de menor a mayor de manera que se pueden representar por: 1 2, , , nX X X donde se cumple

que 1 2 nX X X≤ ≤ ≤ ; entonces el primer cuartil de la distribución de los datos se puede determinar por:

Page 96: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 96

14

1 1 14 4

1siempre que sea entero4

Primer cuartil

1si no es entero2 4

n

n n

nX

X Xn

+

+ ++

+= + +

Donde 14

n+

representa la parte entera del número 1

4n +

.

Observe que para el caso de la actividad 3, se tiene que n = 26, por lo que 26+1

4= 6,75. No es

un número entero, así que parte entera de 6,75 es 6, es decir �274� = ⟦6,75⟧ = 6, de este

modo el primer cuartil viene dado por: 𝑋6+𝑋6+1

2 = 1,00 +1,03

2= 1,015

Para el caso del tercer cuartil, en la actividad 3, se empleó un procedimiento similar al utilizado para el primer cuartil, que consistió en determinar 75% (o sea las tres cuartas partes) de n = 26, debido a que este valor encierra las tres cuartas partes de los valores menores. El procedimiento empleado para determinar ese valor se puede resumir de la siguiente manera: Una vez que los n datos cuantitativos correspondientes a una variable han sido ordenados de menor a mayor de manera que se pueden representar por: 1 2, , , nX X X donde se cumple

que 1 2 nX X X≤ ≤ ≤ ; entonces el tercer cuartil de la distribución de los datos se puede determinar por:

( )( )

( ) ( ) ( )

3 14

3 1 3 11

4 4

3 1siempre que sea entero

4Tercer cuartil

3 1si no es entero

2 4

n

n n

nX

X Xn

+

+ ++

+

= + +

Donde ( )3 14

n+

representa la parte entera del número ( )3 1

4n +

.

Observe que para el caso de la actividad 3, se tiene que n = 26, por lo que 3∙(26+1)

4= 20,25. No es un número entero, así que parte entera de 20,25 es 20, es decir

�3∙274� = ⟦20,25⟧ = 20, de este modo el tercer cuartil viene dado por:

Page 97: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 97

𝑋20+𝑋20+12

= 3,27+3,292

= 3,28 Todas las medidas analizadas previamente se denominan medidas de posición o localización, hacen referencia a aquellos valores que tratan de resumir, por medio de un número, la posición o localización de la distribución de los datos. Dentro de estas medidas, a la mediana, moda y promedio se les conoce como medidas de tendencia central, ya que generalmente representan la acumulación de mediciones como se ha visto en la interpretación de estas medidas y en las gráficas relacionadas con la forma de la distribución de los datos. Se debe tener presente que, para analizar la distribución de los datos, las medidas de posición solamente representan una pequeña parte de un análisis estadístico. Del mismo modo, el encargado de realizar un análisis estadístico debe decidir cuál es la medida de tendencia central que mejor se adecúa para representar un conjunto de datos.

Actividad 4

Responda la siguiente pregunta:

Para la actividad 3

1) ¿Cómo interpreta usted la diferencia entre el máximo y el mínimo? 2) ¿Cómo interpreta usted la diferencia entre el tercer y el primer cuartil?

Análisis de la Actividad 4

En realidad la actividad 4 es una continuación de la actividad 3 que permite analizar algunos aspectos vinculados con la relación entre algunas medidas estadísticas.

1) Al analizar la diferencia entre el máximo y el mínimo de las mediciones en el consumo de agua de las 26 observadas, se tiene numéricamente que el valor sería

5,01 – 0,69 = 4,32

Este valor de 4,32 hectolitros representa la mayor diferencia en el consumo de agua diario entre las 26 personas que participaron en el estudio. También se puede interpretar señalando que las diferencias en el consumo diario de agua entre las 26 personas que participaron en el estudio se dispensaron en un rango de 4,32 hectolitros. 2) Por otro lado, el valor numérico de la diferencia entre el tercer y el primer cuartil viene

dada por: 3,280 – 1,015 = 2,265

Page 98: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 98

El valor de 2,265 hectolitros representa la diferencia máxima en 50% de los valores centrales en el consumo de agua. También se puede indicar que 50% de las mediciones centrales en el consumo de agua de las 26 personas que participaron en el estudio se dispersan en un rango de 2,265 hectolitros.

Relación entre los valores: máximo, mínimo y cuartiles: el diagrama de cajas La actividad 4 muestra importantes interpretaciones vinculadas con los valores que toman estas medidas, por esta razón se ha diseñado un diagrama que permite representar estas relaciones gráficamente y al mismo tiempo visualizar el comportamiento de la distribución de los datos. Este diagrama se denomina diagrama de cajas y se esquematiza a continuación:

Observe que por medio de este diagrama se pueden identificar muy bien las características de la distribución de los datos en cuanto a posición se refiere; pero además, permite evidenciar el patrón de variabilidad de los datos y la forma de la distribución, por ejemplo: el diagrama anterior corresponde a una distribución simétrica. Seguidamente se plantea el diagrama de cajas para la distribución del consumo de agua cuyos datos se han venido utilizando previamente.

Observe que muchos análisis que se han efectuado previamente pueden realizarse a partir de este diagrama. Por ejemplo, la poca distancia entre el mínimo y la mediana, aproximadamente de un hectolitro, indica claramente que la distribución es asimétrica con un sesgo hacia la derecha. Del mismo modo, podrían realizarse otras interpretaciones que se han venido discutiendo previamente.

Page 99: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 99

Actividad 5

Pedro se está enfrentando al problema de decidir entre tres ciudades para ir a realizar un trabajo por un año, pero tiene problemas de salud y le afectan los cambios de temperatura, por lo que debe concentrarse en una ciudad en la cual la temperatura sea lo menos variable posible durante todo el año. Al informar esto a los representantes de la compañía, le informan que no se preocupe, pues en las tres ciudades las temperaturas son muy parecidas, y le suministran la siguiente información relacionada con las principales medidas de posición en relación con la temperatura, en grados centígrados, para esas tres ciudades a las 12 mediodía:

Debido a que Pedro recuerda que al estudiar Estadística en secundaria aprendió que las medidas de posición son apenas un referente de lo que puede ocurrir, analiza que la información proporcionada no es suficiente para tomar una decisión. Por ello pide que le envíen una muestra de mediciones de temperatura a las 12 medio día de 15 días elegidos aleatoriamente durante el año anterior. Los datos se muestran a continuación:

Ciudad A 15 30 28 25 10 35 30 17 25 29 33 13 25 24 31

Ciudad B 24 2 -1 29 39 38 30 15 25 28 33 18 36 14 24

Ciudad C 29 22 23 29 27 18 17 24 26 25 27 26 27 25 25

Pedro no recuerda qué puede hacer con esta información para tener un mejor criterio y poder decidir sobre el problema. ¿Qué decisión debería tomar?

1. Realice el análisis correspondiente e indique a Pedro, con información concreta y clara,

¿cuál sería la mejor decisión y por qué?

2. Indíquele a Pedro los supuestos que usted ha utilizado para llevar a cabo ese análisis.

Análisis de la Actividad 5

Evidentemente Pedro está en lo correcto al indicar a la empresa que los valores de la moda, mediana y promedio o media aritmética no son suficientes para tomar una decisión en este caso. Se ha venido discutiendo durante todo este material que el rol fundamental de la Estadística consiste en determinar y comprender los patrones de variabilidad de las distribuciones de los datos, en este sentido las medidas de posición que se han venido estudiando son un referente fundamental para caracterizar los datos en cuanto a posición se

Page 100: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 100

refiere, pero se requiere complementar esta información con un análisis de la variabilidad de los mismos. Por ello, un análisis descriptivo no debería limitarse únicamente a la posición que tienen los datos en un eje coordenado.

Por lo anterior, para apoyar a Pedro y ayudarle a que tome una decisión adecuada usted debería realizar un análisis integral del comportamiento de las muestras aleatorias que le enviaron a Pedro.

Sin embargo, debido a que en las actividades previas se han analizado relaciones entre las medidas de posición que ayudan a visualizar el patrón de variabilidad de los datos, usted cuenta con importantes herramientas para tomar una decisión en este caso.

Por ejemplo, desde un punto de vista exploratorio se podría construir un diagrama de puntos para comparar el comportamiento de los tres grupos de mediciones. Esto se presenta en la siguiente figura:

Observe que esto es un análisis exploratorio, bajo el supuesto que las muestras sean representativas de lo que ocurre en esas ciudades A, B y C. Aunque desde un punto de vista de posición la tendencia central de los datos es muy parecida, los niveles de concentración de ellos evidencian claras diferencias, en el sentido que la ciudad B resulta ser la que presenta la mayor variabilidad en sus temperaturas y la ciudad C la que presenta la menor variabilidad.

Page 101: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 101

No obstante, si se quisiera tener un análisis más sofisticado, podría recurrirse a la determinación de un diagrama de cajas comparativo entre las temperaturas de las tres ciudades, esto implica que se deben calcular las principales medidas de ubicación para los tres grupos de datos.

Aunque el promedio no se acostumbra incluir en diagramas de cajas, por ser una medida muy utilizada resulta importante determinarla. Además, debido a que la forma en que se calcule no es importante, puede obtenerse manualmente por medio de una calculadora científica con funciones estadísticas o utilizando la computadora (con una hoja de cálculo u otro programa). Independientemente de la fórmula de cálculo, los promedios son:

Ciudad A 24,7 oC

Ciudad B 23,6 oC

Ciudad C 24,7 oC

Además, los valores del máximo, mínimo y moda son:

Máximo Mínimo Moda

Ciudad A 35,0 oC 10,0 oC 25,0 oC

Ciudad B 39,0 oC -1,0 oC 24,0 oC

Ciudad C 29,0 oC 37,0 oC 25,0 oC y 27; 0 oC

Finalmente, una vez ordenadas las temperaturas para las tres ciudades, se tiene:

Día 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Ciudad A 10 13 15 17 24 25 25 25 28 29 30 30 31 33 35

Ciudad B -1 2 14 15 18 24 24 25 28 29 30 33 36 38 39

Ciudad C 17 18 22 23 24 25 25 25 26 26 27 27 27 29 29

Como n = 15 para las tres ciudades, entonces la mediana corresponde al valor 𝑋15+12

= 𝑋8,

por lo que las medianas de las temperaturas son iguales a 25,0 oC para las tres ciudades. En el caso del primer cuartil, debido a que 𝑛+1

4= 16

4= 4, es un número entero, de acuerdo con la

fórmula se tendría que el primer cuartil se determinaría por 𝑋4, entonces se tiene que para cada ciudad el primer cuartil es:

Page 102: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 102

Ciudad A

17,0 oC

Ciudad B

15,0 oC

Ciudad C

23,0 oC

Del mismo modo, para el tercer cuartil, debido a que 3(𝑛+1)4

= 3∙164

= 12,0, es un número entero y de acuerdo con la fórmula, se tendría que el tercer cuartil se determinaría por 𝑋12, entonces se tiene que para cada ciudad el tercer cuartil es:

Ciudad A

30,0 oC

Ciudad B

33,0 oC

Ciudad C

27,0 oC

Con esta información el diagrama de cajas correspondiente sería:

Este diagrama complementa la información que proporcionaron los diagramas de puntos, se evidencia claramente que desde todo punto de vista la ciudad C presenta mucho menor variabilidad en las temperaturas respecto a las otras dos ciudades, al mismo tiempo la ciudad B se muestra con las temperaturas más variables.

También queda claro del diagrama anterior que en tendencia central las temperaturas son muy similares, no así cuando se analizan las otras medidas de posición: los extremos y los cuartiles, los cuales son muy diferentes.

Antes de concluir hay que recordar que, debido a que la muestra de días que se escogió es relativamente pequeña, el presente análisis parte del supuesto que las temperaturas son suficientemente representativas del comportamiento anual para cada una de esas ciudades;

Page 103: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 103

además, que el año seleccionado correspondiente no es atípico, sino que realmente representa el comportamiento normal de las temperaturas de la ciudad.

De acuerdo con lo anterior, usted debería recomendar a Pedro que seleccione la ciudad C para laborar, pero que este análisis ha sido hecho basado en los supuestos anteriores.

***

Medición de la variabilidad de los datos

Con la actividad 5 anterior se llevó a cabo un análisis de la variabilidad de los datos para la toma de una decisión importante. La reflexión se enfocó en análisis de diagramas, lo cual resulta muy valioso desde un punto de vista descriptivo. Estos análisis visuales para valorar el rol de la variabilidad han estado presentes en los documentos relacionados con Estadística. No obstante, muchas veces se requieren medidas específicas que por medio de un valor concreto puedan ilustrar la variabilidad de los datos. Seguidamente se exponen algunas de las medidas que indirectamente se han empleado en los diagramas de cajas y algunas nuevas que permiten complementar el estudio.

Según lo anterior, las medidas de variabilidad o dispersión tienen por objetivo resumir en un solo valor la variabilidad de los datos de acuerdo con algún principio básico que caracterice esa medida. 1) El recorrido total o rango de los datos

Esta es la medida de variabilidad más simple, consiste en determinar el rango total de la variación de los datos, que como se vio anteriormente viene dado por la diferencia entre el máximo y mínimo valor del conjunto. Aunque esta medida es un referente de variabilidad, no es una buena medida debido a que depende exclusivamente de los valores extremos. Si uno de ellos (máximo o mínimo) se comporta muy diferente al resto de las observaciones, entonces el recorrido tiende a sobredimensionar la variabilidad de los datos.

2) El recorrido intercuartílico

También esta medida se ha venido utilizando indirectamente, sobre todo en los diagramas de cajas. Esta medida corresponde a la diferencia entre el tercer y el primer cuartil, es decir corresponde al rango de variabilidad de 50% de los valores centrales. Aunque esta medida es mucho más precisa que el recorrido total pues elimina la influencia de los valores extremos, para mayor precisión se requiere de una medida que utilice para su cálculo todos los datos del conjunto.

3) La variancia y la desviación estándar

Como se mencionó previamente, para medir la variabilidad de una forma más precisa, es necesario buscar una medida que en su cálculo utilice toda la información de los datos. En este sentido, la medida que mejor se ajusta a este principio consiste en determinar las diferencias o desviaciones de cada dato respecto al promedio. Es decir, se tienen n datos

1 2, , , nX X X , en cualquier orden, los cuales se representan en la recta numérica, donde también se ubica al promedio mediante el símbolo 𝑋� como lo ilustra la figura siguiente:

Page 104: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 104

Entonces esa medida se determina al calcular la diferencia de cada dato con el promedio, del siguiente modo:

Se pueden calcular todas las diferencias de cada dato con el promedio, entre más grandes sean dichas diferencias, en valor absoluto, mayor variabilidad presentan los datos y entre más pequeñas sean menos variabilidad. No obstante, si se suman estas diferencias el resultado es cero. Justifique, ¿por qué ocurre eso? Por esta razón, para utilizar las diferencias o desviaciones sin que se anulen se utiliza la siguiente suma:

( ) ( ) ( ) ( )2 2 2 2

1 2 3 ... nX X X X X X X X− + − + − + + −

Pero debido a que esta suma normalmente toma valores muy grandes se tiende a dividir entre el número de datos n cuando se trabaja con una población o entre n – 1 cuando se trabaja con una muestra. Las razones por las cuales no se utiliza el mismo denominador son eminentemente técnicas dentro de la teoría estadística. Por lo anterior, se acostumbra definir la variancia de un grupo de datos 1 2, , , nX X X por medio de las siguientes fórmulas:

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

2 2 2 2

1 2 3

2 2 2 2

1 2 3

... si los datos conforman toda la población

...si los datos conforman una muestra

1

n

n

X X X X X X X X

nVariancia

X X X X X X X X

n

− + − + − + + −=

− + − + − + + −

Cuando se desean comparar dos grupos de una misma naturaleza, va a ser más variable aquel que tenga una mayor variancia. No obstante, debido a que esta medida está constituida por la suma de cuadrados de las desviaciones, las unidades de medida que tienen los datos quedan al cuadrado; para simplificar esto se acostumbra obtener la raíz cuadrada de la variancia, a esta nueva medida se le llama desviación estándar, y en este documento se le va a representar con Des_est. Por lo anterior, se tiene:

_Des est Variancia=

Debido a que tanto la variancia como la desviación estándar han sido determinadas por una serie de operaciones matemáticas, se les puede catalogar como un índice de variabilidad, por

Page 105: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 105

lo que se va interpretar en función de su magnitud, es decir, entre más grandes sean los valores que éstas tomen, mayor será la variabilidad del conjunto de datos.

Nota: se debe recordar nuevamente que el cálculo de las medidas estadísticas juega un rol secundario dentro de los análisis estadísticos, por lo que se puede hacer manualmente con el apoyo de una calculadora científica que tenga funciones estadísticas o mediante el uso de la computadora, por medio de una hoja de cálculo o con un programa especializado. En cualquier procedimiento que se utilice debe tenerse cuidado si los datos conforman todas las observaciones de una población o simplemente una muestra de ella, pues como se indicó previamente hay diferencias en la fórmula de cálculo.

Actividad 6

Retome la información de la Actividad 2 (de este apartado), la cual se relaciona con las notas de un estudiante en un curso en la universidad, cuyos valores son: 7,1; 7,5; 7,8; 2,8 y 8,0. Utilice la desviación estándar para defender al estudiante y demostrar que, de no ser por la enfermedad que le afectó en el cuarto examen, este joven rindió bien y de forma muy regular.

Análisis de la Actividad 6

Esta es una situación abierta, le corresponde al lector buscar alguna estrategia para argumentar que el rendimiento del estudiante fue adecuado, con excepción del cuarto examen (donde estuvo enfermo). Ya en el análisis de la actividad 2 se presentaron algunos elementos que justificaron este punto, pero ahora se pretende utilizar la desviación estándar.

En primer lugar, se debe determinar la desviación estándar de las cinco calificaciones. Debido a que el promedio de estas cinco calificaciones es 𝑋� = 6,64, entonces las desviaciones y el cálculo de variancia se resumen a continuación:

Calificaciones X 𝑋 − 𝑋� (𝑋 − 𝑋�)2

7,1 7,1 – 6,64 = 0,46 0,2116

8,0 8,0 – 6,64 = 1,36 1,8496

7,8 7,8 – 6,64 = 1,16 1,3456

2,8 2,8 – 6,64 = -3, 84 14,7456

7,5 7,5 – 6,64 = 0,86 0,7396

Suma 0 18,89

Page 106: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 106

De acuerdo con lo anterior,

18,89 4,723 y _ 4,723 2,1734

Variancia Des est= = = =

Esto pareciera ser un valor grande para calificaciones con nota mínima de aprobación de 7,0 y nota máxima de 10. No obstante, debido a que la calificación del cuarto examen se puede considerar como atípica, pues esa baja calificación podría estar ocasionada por la enfermedad que sufrió el estudiante, se puede pensar en eliminar ese dato y repetir el cálculo. Ahora el promedio es 𝑋� = 7,60

Calificaciones X 𝑋 − 𝑋� (𝑋 − 𝑋�)2

7,1 7,1 – 7,60 = -0,50 0,25

8,0 8,0 – 7,60 = 0,40 0,16

7,8 7,8 – 7,60 = 0,20 0,04

7,5 7,5 – 7,60 = -0,10 0,01

Suma 0 0,46

Entonces, las nuevas medidas son:

0, 46 0,1533 y _ 0,1533 0,39163

Variancia Des est= = = =

Puede notarse que la variabilidad se reduce drásticamente pues pasa de aproximadamente 2,17 a 0,39; esto implica que, sin tomar en cuenta la nota del cuarto examen, el rendimiento promedio es de 7,60 con una desviación estándar de 0,39 aproximadamente, por lo que se refleja un rendimiento positivo y muy constante durante el curso.

Nota: observe que la suma de las desviaciones para los dos análisis es cero. Esto se debe a que los valores positivos y negativos que toman estas desviaciones se anulan. ¿Por qué ocurre esto?

Page 107: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 107

Actividad 7

Utilice medidas estadísticas de variabilidad para que de una forma más directa y convincente se le pueda argumentar a Pedro ¿cuál ciudad debería seleccionar para el trabajo que debe realizar? Esta situación fue planteada en la Actividad 5 de este apartado.

Puede utilizar calculadora o incluso la computadora para favorecer los cálculos.

Análisis de la Actividad 7

Para llevar a cabo el análisis, se puede hacer uso de los resultados obtenidos en la actividad 5, en donde se determinaron el máximo, mínimo y los cuartiles. Por lo que los cálculos pesados se fundamentan en determinar la desviación estándar de las temperaturas para cada ciudad. Si se utiliza la calculadora o la computadora el valor se obtiene directamente; pero si no se cuenta con estos recursos se puede proceder como sigue:

Page 108: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 108

Datos Ciudad A 𝑋 − 𝑋� (𝑋 − 𝑋�)2 Ciudad

B 𝑋 − 𝑋� (𝑋 − 𝑋�)2 Ciudad

C 𝑋 − 𝑋� (𝑋 − 𝑋�)2

1 15 -9,7 28,4 24 0,4 466,6 29 4,3 7,1

2 30 5,3 11,1 2 -21,6 605,2 22 -2,7 2,8

3 28 3,3 0,1 -1 -24,6 29,2 23 -1,7 18,8

4 25 0,3 215,1 29 5,4 237,2 29 4,3 5,4

5 10 -14,7 106,8 39 15,4 207,4 27 2,3 44,4

6 35 10,3 28,4 38 14,4 41,0 18 -6,7 58,8

7 30 5,3 58,8 30 6,4 74,0 17 -7,7 0,4

8 17 -7,7 0,1 15 -8,6 2,0 24 -0,7 1,8

9 25 0,3 18,8 25 1,4 19,4 26 1,3 0,1

10 29 4,3 69,4 28 4,4 88,4 25 0,3 5,4

11 33 8,3 136,1 33 9,4 31,4 27 2,3 1,8

12 13 -11,7 0,1 18 -5,6 153,8 26 1,3 5,4

13 25 0,3 0,4 36 12,4 92,2 27 2,3 0,1

14 24 -0,7 40,1 14 -9,6 0,2 25 0,3 0,1

15 31 6,3 18,8 24 0,4 0,0 25 0,3 0,0

Suma 370 0,0 693, 𝟏� 354 0,0 2047,44 370 0,0 152,𝟓�

Promedio 370 24,715

≈ 354 23,615

≈ 370 24,715

Page 109: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 109

De acuerdo con lo anterior, se tiene el siguiente resumen:

Ciudad A Ciudad B Ciudad C

Recorrido 35,0 – 10,0 = 25,0 39,0 – (–1,0) = 40,0 29,0- 17,0 = 12,0

Recorrido intercuartílico 30,0 – 17,0 =13,0 33,0 – 15,0 = 18,0 27,0 – 23,0 = 4,0

Variancia 693, 1�14

≈ 49,5 2047,44

14≈ 146,2

152,5 10,914

Desviación estándar 49,5 7,0≈ 146,2 12,1≈ 10,9 3,3≈

Nota: si se utiliza la calculadora o la computadora pueden existir pequeñas diferencias por los redondeos que se realizan.

Interpretación:

Los datos son contundentes: todas las medidas de variabilidad utilizadas demuestran que las temperaturas de la ciudad C son las menos variables.

Para efectos didácticos se pueden interpretar las medidas de la siguiente forma:

Recorrido: En la ciudad A las temperaturas de los 15 días muestreados se dispersan en un rango de 25 oC, en la ciudad B en un rango de 40 oC y por último en la ciudad C en un rango de 12 oC.

Recorrido intercuartílico: En la ciudad A el 50% de las temperaturas centrales se dispersan en un rango de 13 oC, en la ciudad B en un rango de 18 oC y finalmente, en la ciudad C en un rango de 4 oC.

Desviación estándar: En la ciudad A la temperatura promedio fue 24,7 oC con una desviación estándar de 7,0 oC, en la ciudad B la temperatura promedio fue 23,6 oC con una desviación estándar de 12,1 oC y finalmente, en la ciudad C la temperatura promedio fue 24,7

oC con una desviación estándar de 3,3 oC.

En términos relativos, la desviación estándar de las temperaturas de la ciudad A es un poco más de dos veces la temperatura de la ciudad C, mientras que la desviación estándar de las temperaturas de la ciudad B es un poco más de tres veces y media las temperaturas de la ciudad C.

Page 110: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 110

Actividad 8

Dos hermanos discuten sobre quién obtuvo un mejor rendimiento en el examen de admisión a una universidad. Juan realizó el examen en el 2009 y obtuvo una calificación de 660, mientras que Miguel obtuvo 645 en el 2011, ambos en una escala de 800 puntos. Juan indica que no hay nada que discutir pues su calificación es más alta. Pero Miguel le indica que aunque eso es cierto, en el 2009 la calificación media o promedio fue de 630 con una desviación estándar de 30 puntos, mientras que en el 2011 la calificación promedio fue de 610 con una desviación estándar de 25 puntos. Por ello Miguel dice que fue él quien obtuvo un mejor rendimiento.

Con base en esta información, ¿quién cree que tiene la razón? ¿Por qué?

Análisis de la Actividad 8

Se espera que el estudiante esté en capacidad de utilizar las diferentes medidas estadísticas para realizar análisis de datos coherentes con la naturaleza del problema que se presenta.

Como se ha venido indicando, lo primero que se debería hacer en estos problemas es visualizar la situación, preferiblemente por medio de diagramas o gráficas. El siguiente esquema representa la situación de cada uno de los jóvenes:

Aunque desde el punto de vista de la posición de las calificaciones la nota de Juan es mayor que la de Miguel, se debe tener presente también que la calificación promedio en el 2011 fue menor que en el 2009. Por esta razón, se debe tener cuidado de llegar a conclusiones apresuradas. La diferencia entre la nota obtenida respecto al promedio en ambos casos es positiva, este valor es de 35 para Miguel y de 30 para Juan, por lo que podría pensarse que Miguel obtuvo una mejor calificación pues su diferencia o desviación respecto al promedio es

Page 111: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 111

superior. Para concluir el análisis se requiere sin embargo tomar en cuenta la variabilidad en cada caso. Entonces, en términos relativos se tiene el siguiente análisis:

645 610 1, 425

Valor relativo de Miguel −= =

660 630 1,030

Valor relativo de Juan −= =

Entonces, en términos relativos la calificación obtenida por Miguel es más alta que la obtenida por Juan, entonces Miguel tiene razón en su apreciación.

***

Estandarización o tipificación de mediciones

El análisis anterior se utiliza para comparar datos aislados entre diferentes conjuntos. Se denomina estandarización o tipificación, y lo que hace es relativizar el valor de manera que se pueda realizar la comparación correspondiente. La estandarización o tipificación para un dato se determina por:

_dato promedioestandarización

Des est−

=

Actividad 9

Un zoólogo tiene como propósito recabar información para determinar el estado en que se encuentran los animales de un refugio de vida silvestre. Para ello espera que no exista mucha variabilidad entre los pesos de los animales adultos de una misma especie. Selecciona una muestra aleatoria de 10 jaguares machos adultos y una muestra de 10 tepezcuintles machos adultos. Los pesos en kilogramos son:

Jaguar 80 66 72 76 76 70 65 68 69 77

Tepezcuintle 5,5 6,4 7,0 7,7 6,6 7,5 8,1 6,3 7,7 6,9

Page 112: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 112

¿Para qué animal los pesos mostrados son relativamente más variables? ¿Qué aspectos se deben considerar para realizar este análisis?

Análisis de la Actividad 9

Esta situación es similar a la anterior, en el sentido que no representa simplemente un cálculo más sino que requiere de reflexión y un uso adecuado de las medidas estadísticas, pues se deben considerar diferentes aspectos. En primer lugar los pesos de los jaguares adultos son mucho más grandes que los pesos de los tepezcuintles adultos, por ello sería lógico pensar que, en términos absolutos, los pesos de los jaguares son más variables. Desde un punto de vista gráfico, el siguiente diagrama de puntos presenta una primera aproximación al problema.

En este caso los diagramas simplemente evidencian que los pesos de los jaguares son más variables en términos absolutos, pues mientras los primeros se dispersan en un rango de 15 kg, los segundos se dispersan en un rango de 2,6 kg. Pero desde un punto de vista relativo, no queda claro cuál es el panorama. Por esta razón, se requiere determinar otras medidas estadísticas, las cuales se presentan en el siguiente cuadro:

Medidas estadísticas Jaguares Tepezcuintles

Promedio 71,9 6,97

Mediana 71 6,95

Variancia 26,1 0,6334

Desviación estándar 5,11 0,796

Page 113: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 113

Con esta nueva información que se determinó empleando la computadora, se continúa observando únicamente que los pesos de los jaguares son más variables en términos absolutos. No obstante, debido a que la desviación estándar se calcula por medio de las desviaciones de los datos respecto al promedio, resulta apropiado comparar la desviación estándar respecto al promedio para cada grupo de datos, de este modo se eliminaría el efecto de la unidad de medida en cada caso, esto se puede lograr determinando la razón de la desviación estándar entre el promedio:

5,11 0,07171,9

kgVariabilidad relativa de los jaguareskg

= ≈

0,796 0,1146,97

kgVariabilidad relativa de los tepezcuintleskg

= ≈

De acuerdo con lo anterior, mediante la relación entre la desviación estándar y el promedio se tiene que los pesos de los tepezcuintles son relativamente más variables.

***

Variabilidad relativa

Como ha quedado reflejado en la actividad anterior, al comparar la variabilidad entre dos grupos cuya naturaleza es diferente, se requiere recurrir a una medición relativa, de las cuales una posibilidad consiste en determinar la medida denominada coeficiente de variación que se determina por medio de la relación entre la desviación estándar respecto al promedio, de la siguiente forma:

_ Des estCoeficiente de variaciónpromedio

=

Page 114: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 114

Actividad 10

De acuerdo con la página de Internet Index Mundi, el siguiente cuadro resume el Producto Interno Bruto (PIB) para los países de la región y sus poblaciones.

PIB per cápita para los países de la región

y número de habitantes

País PIB per cápita

2009 (dólares)

Población

(habit)

Belice 7 610,1 318 000

Guatemala 4 532,8 13 687 000

Honduras 3 780,8 8 067 000

El Salvador 6 705,7 6 062 000

Nicaragua 2 796,8 5 635 000

Costa Rica 9 689,9 4 547 000

Panamá 9 281,1 3 436 000

Total 44 397,2

41 752 000

Fuente: http://www.indexmundi.com/es/

¿A qué se le conoce con el nombre de producto interno bruto (PIB)?

¿Qué es el producto interno bruto per-cápita o PIB per cápita?

Con base en esta información determine el PIB per cápita promedio para la región.

Análisis de la Actividad 10

De acuerdo con la Enciclopedia Wikipedia (http://es.wikipedia.org), el producto interno bruto (PIB) es una medida agregada que expresa el valor monetario de la producción de bienes y servicios finales de un país durante un período de tiempo (normalmente un año). El PIB es usado como una medida del bienestar material de una sociedad. Por su parte, en esta enciclopedia se informa que la renta per cápita o PIB per cápita o ingreso per cápita, es la relación que hay entre el producto interno bruto (PIB) y la cantidad de habitantes de un país. Para conseguirlo, hay que dividir el PIB de un país entre la población de éste.

Page 115: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 115

Como se pide el PIB per cápita para toda la región se podría pensar en obtener el promedio simple de los PIB per cápita de los países considerados, el cual viene dado por:

$44 397,2 $6 342,57

Sin embargo, esa interpretación es errónea pues el supuesto básico para determinar un promedio, en una distribución de frecuencias, es que cada dato dentro de cada categoría o clase tiene el mismo valor; pero eso no es la realidad en este caso, pues la población en cada uno de esos países es diferente, entonces el PIB per cápita para cada país está afectado por el tamaño de su población. Por esta razón, para calcular el PIB per cápita para la región completa se requiere ponderar por las poblaciones correspondientes, de la siguiente forma:

País PIB per cápita

2009 (dólares)

Población

(habit)

(PIB per cápita) (población)

Belice 7 610,1 318 000 2 420 011 800

Guatemala 4 532,8 13 687 000 62 040 433 600

Honduras 3 780,8 8 067 000 30 499 713 600

El Salvador 6 705,7 6 062 000 40 649 953 400

Nicaragua 2 796,8 5 635 000 15 759 968 000

Costa Rica 9 689,9 4 547 000 44 059 975 300

Panamá 9 281,1 3 436 000 31 889 859 600

Total 44 397,2

41 752 000

227 319 915 300

Entonces el PIB promedio per cápita viene dado por:

227 319 915 30041 752 000

= 5 444,53

Esto significa que de acuerdo con la información dada, el PIB per cápita para la región es de $5 444, 53.

***

Page 116: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 116

Promedio ponderado

Cuando se pide determinar un promedio en distribuciones de frecuencias, se debe prestar atención a que cada uno de los datos, dentro de una misma categoría o clase, tenga el mismo valor o peso relativo, pues suele ocurrir que las observaciones tienen diferentes pesos o ponderaciones. Esto ocurre por ejemplo al obtener la nota promedio de un curso, las diferentes evaluaciones tienen diferentes ponderaciones, por lo que el promedio debe ser ponderado y no un promedio simple.

En la actividad anterior, debe tomarse en cuenta que cada uno de los PIB per cápita está ponderado por el tamaño de la población de cada país, por esta razón el promedio debió ponderarse.

En términos generales, si se tienen los datos 1 2, , , nX X X , pero cada dato está ponderado

por los valores 1 2, , , nW W W , el promedio ponderado se determina de la siguiente manera:

1 1 2 2

1 2

... ...

n n

n

X W X W X WPromedio ponderadoW W W

⋅ + ⋅ + + ⋅=

+ + +

El promedio ponderado se interpreta de la misma manera que una media simple.

Actividad 11

Suponga que una compañía de Hardware para computadoras está realizando un concurso para ascender a un agente de ventas al puesto de administrador de una de sus sucursales. Para tal efecto, el Gerente General decidió aplicar una prueba de conocimientos básicos de Estadística a todos sus agentes vendedores y seleccionar en una primera etapa a aquellos que obtengan calificaciones más altas que el puntaje promedio. La prueba tuvo un valor total de 120 puntos y los datos obtenidos en la prueba se resumen seguidamente:

Puntajes Frecuencia

De 60 a menos de 70 2

De 70 a menos de 80 6

De 80 a menos de 90 8

De 90 a menos de 100 11

De 100 a menos de 110 9

De 110 a 120 7

Page 117: III ciclo unidad_de_estadistica

Estadística Medidas resumen de posición y variabilidad

Página | 117

Desafortunadamente, una vez que le entregaron los puntajes a cada agente y construyeron la distribución de frecuencias, perdieron las notas individuales y solamente les quedó esta distribución. Aunque pueden recuperar la información pidiendo a los agentes que devuelvan la carta en la que le entregaron la calificación de la prueba deciden trabajar con la información que poseen.

Con esta información determine el puntaje promedio de la prueba e indique cuántos agentes vendedores (aproximadamente) quedaron seleccionados en la primera etapa.

Análisis de la Actividad 11

Debido a que los datos se encuentran agrupados en una distribución de frecuencias y no se conocen los valores particulares, se requiere para cada intervalo determinar un valor que lo represente. Se acostumbra representar cada intervalo con su punto medio. No obstante, para determinar el promedio se debe considerar que cada punto medio debe ponderarse con la frecuencia correspondiente, de este modo el puntaje promedio ponderado se determina por:

Puntajes Frecuencia Punto medio (Punto medio) (Frecuencia)

De 60 a menos de 70 2 65 130

De 70 a menos de 80 6 75 450

De 80 a menos de 90 8 85 680

De 90 a menos de 100 11 95 1045

De 100 a menos de 110 9 105 945

De 110 a 120 7 115 805

Total 43 4 055

𝑃𝑢𝑛𝑡𝑎𝑗𝑒 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑜 =4 055

43= 90,3

Entonces el puntaje promedio fue de 90,3 por lo que únicamente los agentes que obtuvieron notas superiores a 90,3 estarán siendo seleccionados para la primera etapa. Por ello, aproximadamente 27 agentes fueron seleccionados para esa etapa. Deberán comunicar que la nota mínima para continuar con el proceso de selección es 90,3 y que todos los agentes que cumplan con este requisito se presenten con la carta donde se les entregó su calificación para continuar con el proceso.

Page 118: III ciclo unidad_de_estadistica

Estadística

Página | 118

VI. Recomendaciones metodológicas

Como se desarrolló en la fundamentación teórica de los nuevos programas de estudio, se promueve el énfasis en una organización de las lecciones, con base en cuatro pasos o momentos centrales, a saber:

1. Propuesta de una “situación problema” para iniciar una lección. 2. Resolución o aporte de ideas por parte de los estudiantes, individualmente o en subgrupos. 3. Discusión interactiva y comunicación frente al conjunto del grupo de las soluciones o ideas

aportadas por los estudiantes. 4. “Institucionalización” de los conocimientos por parte del educador.

Para ilustrar esta propuesta, se presenta la siguiente situación, relacionada con el desarrollo de algunas habilidades propuestas para sétimo año.

Conceptos Habilidades específicas

Recolección de información: experimentación e interrogación

Frecuencia: absoluta y porcentual

Representaciones. Tabular: cuadros de frecuencia absoluta y porcentual.

Recolectar datos del entorno por medio de experimentación e interrogación.

Utilizar los conceptos de frecuencia absoluta y porcentual para resumir un conjunto de datos.

Resumir un conjunto de datos por medio de cuadros simples y comparativos con frecuencia absoluta y porcentual.

Si se quiere desarrollar en los estudiantes estas habilidades se deberían planear los siguientes cuatro momentos:

1. Propuesta de una “situación problema” para iniciar una lección.

Lo primero que un docente debería hacer es motivar a los estudiantes para que sientan interés de realizar la actividad planteada, en este caso se les puede decir que con la actividad a realizar, además de conocer cómo se hace la recolección de datos por medio de la aplicación de un cuestionario y la organización de los mismos por medio de cuadros, van a conocer acerca de las predilecciones de sus compañeros de clase, lo cual es importante en este nivel escolar ya que vienen cambiando de ciclo y de ambiente.

Page 119: III ciclo unidad_de_estadistica

Estadística Recomendaciones metodológicas

Página | 119

Planteamiento de la situación

El paso de la escuela al colegio trae consigo un sinnúmero de emociones, algunas de ellas positivas y otras que pueden desencadenar temores, al desconocer las personas con las que se va a encontrar en su sección.

El profesor del grupo 7-1, conocedor de la preocupación de sus estudiantes, decide realizar una actividad donde además de desarrollar habilidades en Estadística, los estudiantes tengan la oportunidad de interactuar entre ellos y conocer sus gustos en diversos aspectos.

El profesor considera que algunos de los aspectos más importantes para conocerlos y caracterizarlos son: predilección en programas de televisión y la cantidad de horas que dedican a mirarla; tipo de comida y bebida que le gusta más y la frecuencia con la que consume “comidas rápidas” a la semana (dicha frecuencia clasificada en muchas veces, algunas veces y nunca); deporte preferido y cantidad de horas a la semana que destina para practicar dicho deporte; materia preferida y cantidad de horas que destina a la semana para prepararse en ella.

El profesor pide a sus estudiantes que hagan grupos de cuatro o cinco personas, para que cada subgrupo realice la caracterización de un aspecto. El profesor solamente les da el tema a cada subgrupo y espera antes de dirigirlos.

Grupo 1: predilección en programas de televisión y la cantidad de horas que dedican a mirarla.

Grupo 2: tipo de comida y bebida que le gusta más y la frecuencia con la que injiere “comidas rápidas” a la semana (dicha frecuencia clasificada en muchas veces, algunas veces y nunca).

Grupo 3: deporte preferido y cantidad de horas a la semana que destina para practicar dicho deporte.

Grupo 4: materia preferida y cantidad de horas que destina a la semana para prepararse en dicha materia.

2. Resolución o aporte de ideas por parte de los estudiantes mediante el trabajo en los subgrupos.

En esta etapa se espera que los estudiantes lean la situación planteada, diseñen una estrategia para la recolección de la información de todos sus compañeros de clase.

Los estudiantes pueden utilizar la técnica de cuestionario o encuesta para la recolección de los datos, ellos mismos deben hacer la construcción del cuestionario. El profesor puede guiarlos en el tipo de preguntas que deberían realizar, para que no sea difícil de organizar los datos ya recolectados. Se adjunta un ejemplo de cuestionario para este tipo de actividad.

Page 120: III ciclo unidad_de_estadistica

Estadística Recomendaciones metodológicas

Página | 120

Tu programa de televisión preferido

Introducción: Los estudiantes de la sección ________ estamos realizando un trabajo de Estadística en la clase de Matemática, para lo cual le pedimos su colaboración. La información que nos facilite no será revelada en casos individuales.

A. Información general: 1. Sexo: ( ) Mujer ( ) Hombre

B. Información relacionada con los programas de televisión 2. ¿Cuántas horas al día mirás la televisión? a) Menos de 2 b) Más de 2 pero menos de 5 c) Más de 5 3. ¿Qué tipo de programas te gustan más? (marca UNA ÚNICA OPCIÓN): a) Deportes b) Telenovelas c) Teleseries d) Películas e) Documentales científicos e históricos f) Otros:__________________________________________________________

4. ¿Cuál es el nombre de tu programa de televisión preferido? ___________________________________________________________________

Muchas gracias por su colaboración

Seguidamente deben iniciar el proceso de organización de los datos. El profesor puede orientar a sus estudiantes para que realicen un cuadro donde se resuma la información obtenida por medio de los cuestionarios, como el siguiente:

Número de cuestionario

Grado Edad Cuántas horas mira TV al día

Tipo de programa

Programa preferido

Luego puede hacer preguntas generales (a todos los grupos) para guiarlos en la construcción de los cuadros estadísticos, tales como:

¿Cómo pueden mostrarle a los demás compañeros los resultados que obtuvieron con su cuestionario de manera resumida y clara?

Tomando en cuenta las variables contempladas en el cuestionario clasifíquenlas en cualitativas y cuantitativas. ¿Cuáles se pueden representar en un cuadro? ¿Cuáles son las características de cada uno de esos cuadros? ¿Cuáles de las variables pueden relacionarse en un cuadro de doble entrada?

Page 121: III ciclo unidad_de_estadistica

Estadística Recomendaciones metodológicas

Página | 121

Se debe brindar el tiempo adecuado para que los estudiantes puedan recolectar y organizar los datos. En esta etapa el rol del docente es completamente activo, debe involucrarse con los jóvenes para orientar sus trabajos y percepciones, pero debe permitir la discusión entre ellos en relación con la búsqueda de soluciones.

3. Discusión interactiva y comunicación frente al conjunto del grupo de las soluciones o ideas aportadas por los estudiantes.

En este momento, cada subgrupo de estudiantes expone ante el docente y sus compañeros los resultados que obtuvo al administrar los cuestionarios.

La idea con la exposición de los resultados es que los estudiantes defiendan su trabajo ante los demás por lo que las representaciones tabulares deben contar con todos los elementos necesarios; a saber: título, fuente, nombre de cada uno de los ejes, escala y todo esto contextualizado a los datos obtenidos. Además, debe hacerse uso de frecuencias tanto relativas como absolutas.

En la exposición el profesor puede realizar preguntas relacionadas principalmente con la interpretación de los datos y representaciones utilizadas, por ejemplo:

• ¿Cuál es el programa preferido de las mujeres? • ¿Cuál es el programa preferido de los hombres? • ¿Qué tipo de programas son los más gustados por los compañeros? • ¿Cuál es el programa que la menor cantidad de estudiantes entrevistados prefiere?

De manera similar para las otras características.

4. “Institucionalización” de los conocimientos por parte del educador.

Al finalizar las exposiciones el docente puede hacer una recopilación de opiniones de los estudiantes para conformar los conceptos de recolección de información por medio de un cuestionario, explicar las características de un buen cuestionario y además, institucionalizar los procedimientos a seguir en la construcción de una representación tabular y los elementos necesarios en estas representaciones.

Como actividad de autoevaluación el docente podría asignarle a sus estudiantes que conformen un pequeño cuestionario y lo apliquen a sus vecinos para conocer su opinión en aspectos como: medidas de reciclaje, medidas para el ahorro del agua y la electricidad, etc. Y que los estudiantes le presenten un reporte con los resultados obtenidos, donde el uso de cuadros, gráficas, así como la interpretación de la información esté presente.

Page 122: III ciclo unidad_de_estadistica

Estadística Recomendaciones metodológicas

Página | 122

Reflexión

A esta recomendación metodológica se le podrían realizar algunas variantes y utilizarse en octavo grado. Por ejemplo, se puede dar mayor énfasis a los datos cuantitativos continuos en los cuestionarios sin predefinir las clases, para así realizar las distribuciones de frecuencias respectivas.

Page 123: III ciclo unidad_de_estadistica

Estadística

Página | 123

Bibliografía

Batanero, C. (2001). Didáctica de la estadística. Granada, España: Grupo de Educación Estadística de la Universidad de Granada.

Gómez, M. (1999). Elementos de Estadística Descriptiva. San José, Costa Rica: EUNED.

Fernández, C. y Fuentes, F. (1995). Curso de estadística descriptiva: teoría y práctica. España: Ariel.

Meter, J., y Wasserman, W. (1973). Fundamentos de Estadística. Traducción de la tercera edición. Compañía Editorial Continental, S.A. (C.E.C.S.A).

Quintana, C. (1996). Elementos de Inferencia Estadística. San José, Costa Rica: EUCR.