Apuntes análisis de datos

13
1 APUNTES ANÁLISIS DE DATOS BY SIERRAS TEMA 1: INTRODUCCIÓN Definición de Análisis de Datos: - Práctica de torturar a los números para que confiesen. - Partimos de la convicción de que cierto significa “poco más que altamente probable”. - Constituye la mejor herramienta matemática para tomar decisiones correctas cuando nos enfrentamos a la incertidumbre (casi siempre). - La estadística es un conjunto de procedimientos para reunir, clasificar, codificar, procesar, analizar y resumir información numérica adquirida sistemáticamente. - Aunque normalmente se asocia mucho a cálculos y operaciones aritméticas, y aunque las matemáticas están involucradas, en su mayor parte sus fundamentos y uso apropiado pueden dominarse sin hacer referencia a habilidades matemáticas avanzadas. De hecho, se trata de una forma de ver la realidad en el análisis cuidadoso de los hechos. - Analizar + Interpretar. Herramientas para el análisis de datos: - SPSS. - Microsoft Excel. Necesidad de la Estadística en CAFD: - Razonamiento inductivo (de lo particular a lo general; Muestra -> Población). - Variabilidad biológica (dos muestras no son iguales; resultados impredecibles; afirmaciones en términos de posibilidad). - Grado creciente de cuantificación (necesidad de tratamiento adecuado para grandes cantidades de información). - Investigación (da rigor científico). La expresión “análisis de datos” cubre muchos tipos de actividades/habilidades; si alguien dice “yo hago análisis de datos” no solemos tener claro qué sabe/hace. Proceso básico de AD: - Definir: Tener claro lo que se sabe y lo que no; prever para evitar sorpresas posteriores posiblemente sin solución por: o Incertidumbre. o Aleatoriedad. o Imposibilidad técnica, ética o económica de medir a toda la población. o Existencia de parámetros inobservables directamente. o ¿Solución? Diseño del experimento: Definir. - Dividir: preparar fuentes de datos, comprender la naturaleza de los datos (variables continuas y discretas, escalas de medida, distribuciones de frecuencia…), preparar esos datos (limpieza, eliminación de variables, transformación, segmentación,…), etc. - Evaluar: Estadística, tablas y gráficos ¿Qué es un dato? Es una representación simbólica (número, letra o figura), característica de una entidad, que sirve para representar una característica de un hecho observable (Ej: ¿Cuál es el color de pelo de moda?). Recordar que la Observación no es análisis de datos; sino que es un paso previo a la toma de datos.

Transcript of Apuntes análisis de datos

Page 1: Apuntes análisis de datos

1

APUNTES ANÁLISIS DE DATOS BY SIERRAS

TEMA 1: INTRODUCCIÓN

Definición de Análisis de Datos:

- Práctica de torturar a los números para que confiesen. - Partimos de la convicción de que cierto significa “poco más que altamente probable”. - Constituye la mejor herramienta matemática para tomar decisiones correctas cuando nos

enfrentamos a la incertidumbre (casi siempre). - La estadística es un conjunto de procedimientos para reunir, clasificar, codificar, procesar,

analizar y resumir información numérica adquirida sistemáticamente. - Aunque normalmente se asocia mucho a cálculos y operaciones aritméticas, y aunque las

matemáticas están involucradas, en su mayor parte sus fundamentos y uso apropiado pueden dominarse sin hacer referencia a habilidades matemáticas avanzadas. De hecho, se trata de una forma de ver la realidad en el análisis cuidadoso de los hechos.

- Analizar + Interpretar.

Herramientas para el análisis de datos:

- SPSS. - Microsoft Excel.

Necesidad de la Estadística en CAFD:

- Razonamiento inductivo (de lo particular a lo general; Muestra -> Población). - Variabilidad biológica (dos muestras no son iguales; resultados impredecibles; afirmaciones en

términos de posibilidad). - Grado creciente de cuantificación (necesidad de tratamiento adecuado para grandes cantidades

de información). - Investigación (da rigor científico).

La expresión “análisis de datos” cubre muchos tipos de actividades/habilidades; si alguien dice “yo hago análisis de datos” no solemos tener claro qué sabe/hace.

Proceso básico de AD:

- Definir: Tener claro lo que se sabe y lo que no; prever para evitar sorpresas posteriores posiblemente sin solución por:

o Incertidumbre. o Aleatoriedad. o Imposibilidad técnica, ética o económica de medir a toda la población. o Existencia de parámetros inobservables directamente. o ¿Solución? Diseño del experimento: Definir.

- Dividir: preparar fuentes de datos, comprender la naturaleza de los datos (variables continuas y discretas, escalas de medida, distribuciones de frecuencia…), preparar esos datos (limpieza, eliminación de variables, transformación, segmentación,…), etc.

- Evaluar: Estadística, tablas y gráficos

¿Qué es un dato?

Es una representación simbólica (número, letra o figura), característica de una entidad, que sirve para representar una característica de un hecho observable (Ej: ¿Cuál es el color de pelo de moda?).

Recordar que la Observación no es análisis de datos; sino que es un paso previo a la toma de datos.

Page 2: Apuntes análisis de datos

2

TEMA 2: EL PROCEDIMIENTO DE ANÁLISIS DE DATOS (PERSPECTIVA GENERAL)

- El método científico de investigación (4 pasos): 1. Desarrollo del problema: Qué se va a estudiar y con qué profundidad.

a. Determinar las variables del estudio: i. Variable independiente (variable experimental o explicativa)

ii. Variable dependiente (resultado o variable explicada; la que queremos ver como se comporta).

2. Formulación de la hipótesis: Resultado anticipado o esperado de une studio; debe ser contrastable (aceptada/rechazada mediante métodos científicos).

3. Recogida de datos: Proceso rutinario basado en la optimización de la metodología de la investigación (objetividad del proceso; es decir, que no afecte quien coja los resultados; que no se contaminen).

4. Análisis e interpretación de los Resultados: Implica algún tipo de análisis estadístico; requiere conocimiento y experiencia (carentes en investigadores noveles). Se deben aportar pruebas para aceptar/rechazar la hipótesis del trabajo.

- Tipos de investigación: 1. Investigación Analítica: Revisión, estudio sobre lo que ya hay publicado sobre un tema; basada en

estudios que ya existe (investigación histórica, filosófica, revisiones e investigación de síntesis o meta-análisis).

2. Investigaciones Descriptivas: Describen una realidad (ej: altura media de una población). Ejemplos de investigaciones cualitativas: Cuestionario, entrevista, encuesta normativa, estudio de caso, estudios correlaciónales, otros tipos e

- Investigaciones Observacionales: Se observa el comportamiento de los participantes en su entorno natural; Metodología:

o Observación en Directo: � Ventajas: Datos Inmediatos (información in situ) y ahorro de tiempo (único

visionado). � Inconvenientes: Limitación de variables a observar y mayor posibilidad de error.

o Observación a Posteriori (grabación): � Ventajas: Registro de mayor número de variables y observación de varios focos de

atención. � Inconvenientes: Coste material filmación/reproducción y autorización de la

grabación. 3. Investigación Experimental: Lo contrario a la descriptiva; el investigador influye en el estudio

(manipulación de tratamientos – variable independiente -; causa y efecto). 4. Investigación Cualitativa: Son muy complejas; usadas en las ciencias sociales; requiere un

profundo entendimiento del comportamiento humano. Investiga el por qué y el cómo se tomó una decisión; usa herramientas en recogida como la observación de una población en su medio o entrevistas usando escalas de actitudes (Likert, diferencial semántico, de Guttman, etc.) Revisión Bibliográfica:

- Recomendaciones en la elección de un tema de investigación: o Leer lo más importante escrito sobre el tema (análisis de interés). o Hacer una tabla resumen (relacionar los estudios encontrados de manera eficaz). o Mucho escrito sobre el tema: Investigación poco novedosa; bajo interés. o Poco escrito sobre el tema: Tema poco interesante o tema interesante inexplorado.

- Pasos a seguir en la búsqueda de bibliografía: 1. Redactar definición del problema (completa y concisa). 2. Consulta de manuales, libros, enciclopedias, revisiones (fuentes secundarias). 3. Consulta de Bases de Datos de Investigación (catálogos de bibliotecas/bases de datos).

Page 3: Apuntes análisis de datos

3

TEMA 3: INTRODUCCIÓN A LA ESTADÍSTICA

¿Qué es la estadística? La estadística es la ciencia que estudia las características de un conjunto de datos. Se utiliza para:

o Describir un conjunto. o Hallar regularidades. o Efectuar predicciones.

Conceptos Básicos: o Población: Conjunto de cosas que son propósito de nuestro estudio.

� Población = N (el todo; conjunto completo). o Muestra: Grupo reducido de la población que utilizaremos para el estudio.

� Muestra = n (lo que yo estudio; subconjunto de la población). ¿Por qué no se estudia siempre la población?

o Recursos económicos limitados. o Tiempo limitado o Imposibilidad de acceder a la muestra. o Destrucción de la población.

¿Qué es una variable? Es la cualidad de algo que se puede medir. Puede ser medida u observada; toma valores diferentes para cada individuo de la muestra; es relevante para nuestro estudio. Tipos de Variables:

- Variables cuantitativas o numéricas: o Discretas: Valores enteros (ej: Nº de hermanos de amigos: 2, 1, 0, 3…). o Continuas: Cualquier valor (ej: Altura de amigos: 1,73 m., 1,82 m., 1,69m…)

� Da igual que cambiemos el valor de metros a centímetros, sigue siendo una variable cuantitativa continua.

� Una variable no se puede modificar; no se mide en función de la unidad de medida, sino de la naturaleza de esta.

- Variables cualitativas o categóricas: o Ordinales: Existe relación entre las categorías (una categoría es mejor/peor que otra); por

ejemplo: Medalla de Oro, plata, bronce; Una nota de examen Suspenso, Aprobado, Notable, Sobresaliente…

o Nominales: No existe relación entre categorías (no hay una que sea mejor/peor que otra); por ejemplo: La Religión Católica, Musulmana, Budista… ó el estado civil de soltero, casado, separado, divorciado, viudo…).

Modificación del tipo de variable:

- Codificación: o Proceso de conversión de un concepto a un número.

� Ej: Lanzamientos de Atletismo: Disco (1), Peso (2), Martillo (3), Jabalina (4)… � Siguen siendo variables cualitativas nominales, pero se organizan de forma

numérica para que resulten datos más sencillos de tratar. - Categorización:

o Estudiar las respuestas abiertas y clasificarlas en categorías. o Respuestas semejantes entre sí quedan en la misma categoría.

Page 4: Apuntes análisis de datos

4

Instrumentos de medición: - Observación: Técnica de estudio por excelencia utilizada en todas las ramas. - Encuesta: La más utilizada en la investigación de ciencias sociales. Permiten estandarizar

los datos para su análisis posterior. Obtiene gran cantidad de datos de forma económica y en poco tiempo.

- Entrevista: Características similares a la encuesta, pero en directo. Permite adaptarse a las respuestas.

Métodos de selección de muestras: Una muestra debe ser representativa puesto que sirve para estimar las características de la población. Los métodos de selección de muestra representativa dependen principalmente de: - Tiempo y Dinero. - Posibilidades para tomar la muestra. - Naturaleza de los individuos de la población. - Margen de error asumible en cuanto a representatividad de la muestra (asumes que

puede existir un error porque no mides a toda la población).

Criterios de selección de elementos: - Basados en Juicio:

o Subjetivo; no se puede medir la representatividad. Más óptimo (si quiero medir equipos de fútbol de la Región de Murcia y al lado de mi casa hay 5 clubes, pues mido a esos y no a los que estén en otra ciudad).

- Aleatorios: o Selección Objetiva; Error muestral medible. Muchos modelos:

� Simple: Aleatorio Simple; elijo al azar a 10 alumnos de los 50 de mi clase. � Sistemático: Más complejo: 10% de 50 = 5; selecciono mediante un

aleatorio simple a un sujeto del 1-5 de la lista, por ejemplo el 3, y le sumo el 10% a dicho número para sacar el resto de muestras, osease: 3+5 = el alumno nº 8, luego elijo al 13, al 18, etc…

� Estratificado: Si estudio 20 alumnos universitarios; haré un aleatorio simple para seleccionar un par de carreras al azar, luego otro al azar para seleccionar los cursos y luego otro aleatorio simple para ya escoger a los alumnos (Aleatorio Simple por Subgrupos)

� De conglomerados y estadios múltiples, por cuotas y por bola de nieve: Son aleatorios y se pueden utilizar (no importante).

Cálculo del tamaño de la muestra:

Espacio Muestral: Todas las posibles muestras que se pueden extraer de una población mediante una técnica de muestreo (todas las combinaciones posibles). Nivel de confianza: Medida de la bondad de la estimación (con cuanta cantidad de la población puedo asegurar que lo que obtengo al medir a la muestra pueda estar seguro de que va a ser así con todos los individuos).

• Estudios con tamaños muestrales insuficientes no detectan diferencias entre grupos, concluyendo erróneamente que no existen diferencias.

• Estudios con tamaños muestrales excesivos se encarecen.

• Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de mayor confianza o tenga menos error.

• La principal fuente de error tiene lugar en la recogida de datos.

Page 5: Apuntes análisis de datos

5

La fórmula para calcular el tamaño de la muestra adecuada para el estudio es la siguiente:

TEMA 4: ESTADÍSTICA DESCRIPTIVA Estadística descriptiva: Describe las características de un conjunto de datos. Son valores calculados a partir de la muestra que describe una población. Incluye métodos de recolección, descripción, visualización y resumen de datos numérica o gráficamente, originados a partir de las fenómenos de estudio. Estadística Inferencial: Extrae conclusiones sobre una serie de datos (muestra) aplicables a situaciones globales (población). Modela patrones en los datos, extrae inferencias y predice comportamientos acerca de la población estudiada. Estima el valor aproximado de un parámetro en la población a partir de los parámetros calculados sobre la muestra. Estadística Descriptiva: Estadística descriptiva o análisis descriptivo de datos: Conjunto de métodos, medidas y representaciones gráficas que tienen como finalidad principal describir, ordenar, resumir y sintetizar la información contenida en un conjunto de daos y poner de manifiesto sus características básicas (da una idea de como es el grupo). Características de una distribución de frecuencias: Características que nos sirven para sintetizar toda la información que nos proporcionan las tablas estadísticas; medidas de posición, dispersión, forma, concentración… (diferentes medidas) Medidas de posición: Medidas de posición centrales:

- Medida: o Aritmética. o Ponderada. o Geométrica. o Armónica.

- Mediana. - Moda.

Medidas de posición no centrales: - Cuartiles. - Percentiles. - Deciles.

Page 6: Apuntes análisis de datos

6

Media Aritmética (media/promedio) y Ponderada: La más usada. Una muestra tiene solo una media. Se suele utilizar como representante de la muestra. Centro geométrico de los datos observados. Los valores no necesitan ser ordenados para su cálculo. No es aplicable para datos cualitativos. Se ve afectada por valores anormalmente grandes o pequeños (extremos, atípicos, outliers); si existen este tipo de valores, la media puede ser poco representativa de la muestra. Media Geométrica: Se usa para variables que representen variaciones acumulativas (porcentajes, índices, cifras relativas…); solo pueden calcularse sobre valores positivos. Media Armónica: Se utiliza para promedia velocidades, tiempos, rendimiento, etc. No se pueden calcular cuando algún valor es próximo a cero. Mediana: Los valores deben estar ordenados y agrupados para su cálculo. Es el valor del punto medio de la selección, la mitad de los datos están por arriba y por debajo. Cada sección tiene solo una mediana. No es aplicable para datos cualitativos. Puede ser calculado aun habiendo valores extremos. No depende del Nº; sinod e la posición: 1,2,3,4,5; 1,2,(2,5)3,4 = suma del valor 2 + valor de 3 y saco la media. Fórmula Excel: =mediana(X1:X200) Mediana entre las posiciones x1 y x200. Mediana = (n+1)/2 si es impar; n/2 si n es par. Moda: - Es el valor que más se repite, no el más alto o más centrado. - Es el valor más probable, por lo tanto el más común. - Una distribución puede tener más de 2 modas. - Puede ser calculado aun habiendo valores extremos. - Los valores deben estar ordenados y agrupados para su cálculo.

Distribución de frecuencias y porcentajes: - Frecuencia absoluta (ni): Número de veces que aparece este valor. - Frecuencia relativa (fi): Cociente entre frecuencia absoluta y tamaño de muestra (N). - Porcentaje (pi): Frecuencia expresada en términos de %. - Ni, Fi, Pi: Acumulados.

Distribución acumulada por intervalos : Útil por la diversidad de valores (variables continuas). Cuidado con los extremos. Los intervalos no tienen que tener la misma longitud. - Amplitud de intervalo: diferencia entre los límites del intervalo. - Marca del intervalo de modalidad: punto medio del intervalo que representa. Cuantiles de orden K: - Medida de posición no central que nos da el valor de la muestra, de menor a mayor que deja

tras de sí el K % de los valores (cuantos valores están en el x % de…). - Expresan el % de casos en el grupo específico de referencia, cuyo valor es igual o inferior al

dado.

Page 7: Apuntes análisis de datos

7

- Los más importantes son: o Cuantil 1 25%, cuantil 2 50%, (coincide con la mediana), cuantil 3 75%, cuantil 4

100%. Son los valores que dividen a una distribución en cuatro partes iguales, cada una con el mismo número de valores (n/4).

o Percentiles: P1, P2, (porcentajes en el 2%)…P99 (porcentajes en el 99%). Es una medida que nos dice cómo está posicionado un valor respecto al total de una muestra.

o Deciles: D1, D2 (20%),…, D9 (90%). Representaciones Gráficas: 1. Gráficos de Barras:

- Suelen representar frecuencias de variables cualitativas. - Eje horizontal: Categorías de las variables. - Eje vertical: Frecuencias Absolutas/Relativas de cada variable. - Cada variable, una barra. Misma anchura y separadas.

2. Gráficos de Sectores:

- Suelen representar frecuencias de variables Cualitativas. - El área de cada sector representa el % de la frecuencia relativa observada (un nombre). - El total área del círculo siempre representa el 100% de los datos. - Se suele etiquetar con el valor absoluto de la variable y/o su porcentaje.

Útil, por ejemplo, para medir poblaciones. 3. Histogramas:

- Suelen representar frecuencias de variables cuantitativas continuas. - En el eje vertical se representan las frecuencias. - En el eje horizontal:

o Se representan los valores de las variables. o Se representan los intervalos del mismo tamaño.

- Mide Ni: Frecuencia Absoluta.

Page 8: Apuntes análisis de datos

8

Medidas de Dispersión (lo que cambia un dato respecto al resto): Sirven para medir la variabilidad que hay en los datos, para ver lo homogénea/heterogénea que es la muestra respecto a la variable de interés y para saber hasta qué punto las medidas de posición son representativas de la muestra. [ver como varían los datos respecto a un valor representativo del total] TIPOS DE MEDIDAS DE DISPERSIÓN: Rango o recorrido: Diferencia entre los valores máximos y mínimos de la muestra: Re= max(x1,…,xn) – min(x1,…,xn). [recuerda cerrar bien los paréntesis, que aquí no se cierran solos). Rango Intercuartílico: diferencia entre C3 y C1, recoge entre qué valores se encuentra el 50% central de la muestra RI= IQR= C3-C1 Desviación típica: Sirve para situar los datos obtenidos a raíz de la obtención de unos valores medios. La desviación típica es la misma unidad que la variable. Acompaña a la media aritmética, por proporcionar información sobre hasta qué punto dicha medida es representativa del conjunto de datos.

Varianza: Medida de variabilidad que acompaña a la media aritmética. Mide la dispersión de los valores en torno al valor central. Si tiene un valor grande, significa que la media no es representativa. Se utiliza porque es menos engorrosa de hacer por ordenador que la DT. =desvestp(…)

Page 9: Apuntes análisis de datos

9

Coeficiente de Variación [Entra Fijo]: Es la más empleada entre las medidas de dispersión relativas. Mide lo grande que es la desviación típica en relación a la medida. No tiene unidades, es un cociente entre dos valores con la misma

unidad. Sirve para comparar varianza entre dos variables de distinta naturaleza. Dividiendo la DT entre el promedio de la misma variable, obtenemos un valor sin unidades de medida, que se puede comparar con el de otra variable; a través de esto, podemos valorar cual es realmente la variable con más varianza.

Variable Homogénea: La que obtenga valores más cercanos a 0. Variable Dispersa: La que obtenga valores más alejados de 0. Diagrama de Cajas y Bigotes:

• Representación Gráfica basada en cuartiles.

• Compuesto por un rectángulo (caja) y dos rectas (bigotes).

• Muestra Información sobre: o Valores Mínimo y Máximo. o Cuartiles Q1, Q2 (mediana) y Q3. o Existencia de valores atípicos. o Simetría de la distribución.

Page 10: Apuntes análisis de datos

10

FÓRMULAS EXCELL EXÁMEN ANÁLISIS DE DATOS

CATEGORIZAR VARIABLES NUMÉRICAS =si (X1<5;1;si X1<8;2;3 1-5 categorizado como 1, 5-8 categorizado como 2, 9-10 cat. como 3

CATEGORIZAR VARIABLES NOMINALES =si(G2=“ADD”;2;G1=“AD”;1;3 ADD categorizado como 2; AD categorizado como 1; ADDD cat. como 3

CONTAR =contar.si(X1:XY;1) Sustituyendo el “1”, por el dato que queramos contar dentro del conjunto X1:XY

TAMAÑO MUESTRA ADECUADA =((K^2)*N*p*q)/(E^2*(N-1)+((K^2)*p*q)) N=población; K(85%)=1,44; p (0,5), q (0,5); e=n-N

MEDIA ARITMÉTICA (2 formas) =promedio (X1:XY) =suma (X1;XY)/Z (Z= Nº de casos)

MEDIANA =mediana (X1:XY)

MODA =moda(X1:XY)

ni Nº de veces que se repite un valor dentro de un conjunto de dato; =suma (…,…)

fi = ni/N (hay un fi para cada valor de ni)

pi =fi*100

Ni Fi y Pi

(Acumulados)

Supongamos que tenemos ni1 (1), ni2 (3), ni3 (5) y ni4 (7).

Ni1 = 1; Ni2: 3+1; Ni3: 5+1+3; Ni4: 7+1+3+5 (Nf = 16) /// Fi1 =N1/Nf; Fi2 =N2/Nf; Fi3 =N3/Nf; Fi4 =N4/Nf /// Pi = Fi(1,2,3 y 4)*100

CUANTILES =cuartil(X1:XY;1) Sustituir el ;1 por ;2-3-4 dependiendo del Cuartil que queramos obtener

PERCENTILES =percentil(X1:XY;Z) Z= valor del percentil que queremos obtener, expresado entre 0-1 (ej:0,25).

HISTOGRAMA Consta de:

• Nº de Casos (Ej: 220 casos en el Excel de clase)

• Rango =max(X1:XY)-min(X1:XY)

• Nº Intervalos (raíz rango) =RAIZ(Rango) [redondear valor al nº superior entero OBLIGATORIO]

• Anchura de la columna =rango/nºintervalos

DESVIACIÓN TÍPICA [S] =desvest(X:XY)

COEFICIENTE DE VARIACIÓN Variable Homogénea

Variable Dispersa

=S/Media Aritmética

Calcular previamente =promedio y =desvest

DIAGRAMA DE CAJAS Y BIGOTES

Hallar:

• Q1, Q2 y Q3 [De Q1 a Q3, creamos una caja; Q2 representada por una línea vertical dentro del cubo]

• RI (rango intercuartilico); =Q3-Q1

• 1,5*RI

• Q3+1,5*RI [Línea discontinua vertical//límite superior]

• Q1-1,5*RI [línea discontinua vertical//límite inferior]

• 3*RI

• Q3+3*RI [Extremo final eje X]

• Q1-3*RI [Extremo inicial eje X]

Page 11: Apuntes análisis de datos

11

PRÁCTICA 1: ¿QUÉ APRENDEMOS HOY?

1. Aprender a tomar datos, utilizando Freescreenca o mediante el impr paint, recortando luego la figura.

2. Aprender aspectos básicos del Microsoft excel: a. Combinar celdas. b. Insertar filas/columnas. c. Ajustar columnas.

PRÁCTICA 2: ¿QUÉ APRENDEMOS HOY?

1. Hoy aprendemos como realizar un análisis observacional con el excell. Buscamos en internet un vídeo de la final de la copa del rey de voleibol y unos analizan el saque, y otros el ataque de los dos equipos finalistas.

2. Aprendemos a añadir notas a celdas de excell.

3. También hemos aprendido como crear una tabla resumen.

PRÁCTICA 3: ¿QUÉ APRENDEMOS HOY? 1. Abrimos Excell y vamos a tratar la variable “peso” de la población “clase 2ºE CAFD”. 2. Tomamos los datos en una columna de la muestra “20 alumnos de clase 2ºE CAFD”. 3. En otra columna, categorizamos los datos obtenidos a nuestro propio criterio, añadiendo

en la leyenda como establecemos las categorías (Ej: Menos de 59 Kg, Liviano (1), entre 60 y 79 Kg, Medio (2) y 80+ Kg, Pesado (3).

4. Con pocos datos, resulta sencillo categorizar la muestra; pero si tuviésemos 100+ sujetos, podemos utilizar una fórmula aritmética de excel para obtener los resultados directamente:

a. = si (B4 <59;1; si (B4<80;2;3) Así, podremos establecer el valor para el resultado obtenido en la fila “4”; si ahora la celdilla (C4) donde hemos realizado esta operación la arrastramos al resto de la columna; nos otorgará directamente los datos del resto de la columna (B5, C6, D7, E8…) agilizándonos mucho tiempo de trabajo.

5. Ahora, si copiamos la columna 4, y le damos a “pegado especial” en la columna 5, señalando la opción “valores”, podremos copiar tanto los datos y la fórmula anteriormente utilizada en la nueva columna.

6. Finalmente, seleccionamos la columna “5” entera, pulsamos “Ctrl+B” y en la nueva ventana que nos aparece; en “Buscar” Pondremos, por ejemplo, “2” y en “Remplazar” pondremos “medio”; haciendo que en esta nueva columna los resultados categorizados cuantitativamente/numéricamente “1, 2, 3” queden categorizados cualitativamente/categóricamente “Liviano, Medio, Pesado”.

PRÁCTICA 4: ¿QUÉ APRENDEMOS HOY? Hoy hemos aprendido como calcular en Excel el tamaño de muestra adecuada para un ejemplo puesto por estudio. PRÁCTICA 5: ¿QUÉ APRENDEMOS HOY? Hoy hemos entrado a la página del instituto nacional de estadística, y hemos sacado en excell los datos de habitantes de las 52 provincias españolas; luego hemos aprendido a sacar la media aritmética y ponderada de habitantes masculinos y femeninos del total y de las comunidades autónomas de Andalucía.

Page 12: Apuntes análisis de datos

12

Aprendimos que poniendo $ antes de un valor conseguimos que al arrastrar, el dato posterior al dólar no varíe y se opere siempre con esa misma celda (C$4:C16) Existen 2 formas de calcular la media aritmética con Excel:

1. =PORMEDIO (X1:X5) (calcula la media aritmética de todos los valores comprendidos entre X1 y X5.

2. = SUMA (X1:X5)/5 (sumas todos los valores comprendidos entre X1 y X5 y los divides entre la cantidad de casos que has sumado).

PRÁCTICA 6, ¿QUÉ APRENDEMOS HOY? 1. Buscar por internet los sueldos de los jugadores del Real Madrid en la temporada 2011-

2012. Una vez encontrados, los seleccionamos – ofimática – excell 2007 Pegamos en una columna todos los datos y nos los pega en la CA; asi que vamos a “datos” luego seleccionamos “texto en columnas”, luego “otros” y seleccionamos el signo por el que queremos que nos corte, de forma que dejemos una fila para jugadores, otra para millones brutos, netos, año.

2. Limpiar los datos: Para ello, vamos a ir separando en columnas;

3. Calcular la mediana y la media del sueldo ¿Son Iguales, O Distintas? Distintas: En datos como sueldos, donde hay grandes diferencias entre unos y otros, es más ajustada a la realidad la MEDIANA que la media; sin embargo, en la altura de una clase, por ejemplo, la MEDIA se acercará más a la realidad.

4. Calcula la proporción entre sueldo bruto y neto.

PRÁCTICA 7, ¿QUÉ HACEMOS HOY?

Calcular de la plantilla del RM, ni, fi, pi, Ni, Fi, y Pi.

PRÁCTICA 8, ¿QUÉ HACEMOS HOY? Hoy rápidamente hayamos quantiles y percentiles con sus fórmulas correspondientes y manualmente. PRÁCTICA 9, ¿QUÉ HACEMOS HOY? Hoy hemos realizado distintos tipos de diagramas. También hemos realizado un histograma de las variables Altura y Peso. Recordar: al hallar el nº de intervalo, redondear siempre hacia el número superior entero. PRÁCTICA 10, ¿QUÉ HACEMOS HOY? Calcular la desviación típica de una de las variables de la tabla de CAFD. PRÁCTICA 11, ¿QUÉ APRENDEMOS HOY? Hoy hemos medido la “varianza” de una de las variables del estudio de clase. También hemos buscado, mediante la fórmula del Coeficiente de Variación, que variable es más homogénea y cual más dispersa comparando edad y peso del estudio de clase. PRÁCTICA 12, ¿QUÉ APRENDEMOS HOY? Primero, Poli realizó un Diagrama de Cajas y Bigotes con los dato de sueldos del R. Madrid. Luego, nosotros mismos, con ayuda de los apuntes debíamos realizar un diagrama de cajas y bigotes con dichos sueldos.

Page 13: Apuntes análisis de datos

13

CLASE PRÁCTICA 1: ¿QUÉ APRENDEMOS HOY? 1. Cómo logearnos en Google Apps con la cuenta mail de la UCAM.

a. Una vez dentro “crear formulario”.

2. Cómo rellenar un cuestionario en Google Apps; viendo para ello todos los tipos de preguntas

que deja crear y como se rellenarían los campos de cada una.

a. El cuestionario consta de TITULO, CUERPO, PREGUNTAS (marcar que cada pregunta

sea obligatoria para que el test pueda ser renviado y así disponer de todos los datos

para luego sistematizarlos, etc.).

b. Tipos de preguntas cuestionario: De texto, texto con párrafo, tipo test, casilla de

verificación (como test, pero con opción múltiple), escala (1-5) y cuadrícula (escala 1-

5 y columna con muchos ítems).

3. Para añadir una segunda pregunta al cuestionario, le damos a “añadir elemento”.

4. Dar forma al cuestionario (un fondo): Seleccionamos [tema], elegimos y “aplicar”.

5. Enviar el cuestionario completado (nos hemos quedado por este paso).

6. Depurar los datos obtenidos en el excel del cuestionario (ordenar de mayor a menor y filtrar).

CLASE PRÁCTICA 2: ¿QUÉ APRENDEMOS HOY?

1. Inmovilizar Paneles en Excel; ¿Cómo? En la barra de arriba vamos a “vista” y luego

seleccionamos “inmovilizar paneles”.

2. Crear una copia de la página de Excel: Doble Click abajo donde pone “Hoja 1” y le

cambiamos el nombre por “Datos” luego le damos a Mover o Copiar y a “crear una copia –

aceptar”. Nos aparecerá una nueva Hoja de Excell que se llamará “Datos (2). Ahora, la

vamos a llamar “Datos Depurados”.

3. Depurar Datos: Ordenar de mayor a menor todas las variables numéricas y asegurarme de

que estén todas en la nomenclatura correcta (centímetros). En “sexo”, por ejemplo,

ordenaremos y filtraremos de “A a la Z”.

4. Codificar las opciones que sean frases completas por abreviaciones; ¿cómo agilizar esta

codificación? Pues con la siguiente fórmula:

a. Las variables ordinales las cambiamos con la fórmula del:

=SI(G2=“ADD”;2;G1=“AD”;1;3, etc…).

5. DEPURAR RESTO DE DATOS EN CASITA.

CLASE PRÁCTICA 3: ¿QUÉ APRENDEMOS HOY? Con los datos ya depurados durante el fin de semana calcular:

ni, fi, pi de las variables “otra actividad” y “vives con”.

Para calcular los ni de cada uno de estos valores, ya que tenemos +200 muestras y 4 categrías,

usar la fórmula de:

=contar.si(X1:XY;1), para que nos cuente el número de casos “1”; realizar luego igual para calcular

el número de casos 2, 3 y 4 de Otra Actividad, por ejemplo.

También calculamos la media de hombres y mujeres en las variables numéricas: Edad, Altura,

Peso, Horas de Estudio, cigarros, comidas, horas semanales de estudio, días que practicas A.F., …

Todo ello con la fórmula =promedio(X1:XY) .

CLASE PRÁCTICA 4: ¿QUÉ APRENDEMOS HOY? En esta clase hemos realizado las gráficas de edad media, altura media, peso medio, gráfica mixta

de edad, altura y peso medio, y porcentaje de hombres y mujeres en 2ºCAFD.