Presentación BarbWin V6 // V7
-
Upload
roberto-gil-saura -
Category
Education
-
view
2.789 -
download
10
Transcript of Presentación BarbWin V6 // V7
Software GandiaSoluciones a la gestión y análisis de datos
TESI, SLwww.tesigandia.com
/ 2
Familia de software Gandia
Gandia BarbWin Software para proceso de datos Productos derivados
Gandia DataEntry Gandia DataWin Gandia Visor Gandia Trans
Gandia Integra CatiNet, CapiNet y HapiNet integrados en una misma
aplicación web.
Gandia BarbWinVersión v6 y v7
TESIDepartamento de formación
/ 4
Gráfico de flujo del programa
Entrada de datos:-Interna-Externa
Adecuación de datos para el proceso
Proceso de datos:-Tablas-Proceso estadísticos
Impresión de resultados
Análisis de datos
Diseño detabla de datos
Gandia BarbWin
/ 5
Gandia BarbWin Variables o campos de
respuesto En Gandia BarbWin cada
variable tiene sus propiedades individualizadas, de forma que dos variables del mismo tipo pueden tener opciones diferentes
Esencialmente una variable tiene tres propiedades fundamentales: NOMBRE, TIPO y CODIGOS
Datos Se presentan en una
matriz de k*n celdas y se puede trabajar mediante la utilización de formularios o mediante la utilización de hoja de datos
/ 6
El escritorio de trabajo (v6)Panel de
vistas
Naveg
ador
de
varia
bles
Tabla de variables
Tabla de datos
/ 7
El escritorio de trabajo (v7)
Panel de vistas
Navegador de grupos
Tabla de variables
Tabla de datos
/ 8
Panel de vistas
El panel de vistas nos permite acceder a diferentes partes del software (grupos sólo versión 7)
El más importante es el acceso a ventanas, dado que nos permite realizar acciones múltiples con las mismas
/ 9
Input al programa: Abrir... Gandia BarbWin abre archivos de datos:
formato antiguos de BarbWin Barbro DOS y Barbro Catibar Archivos ASCII delimitados por tabuladores, blancos,
comas, etc Archivos ASCII sin delimitador (siempre que exista un
archivo *.str con las columnas -y opcionalmente códigos- que ocupan las variables
Archivos Dbase y Paradox (*.dbf y *.db) Archivos MsAccess Archivos IBM Bin
Gandia BarbWin abre otros archivos como: Archivos *.html (estando activa la ventana de informe) Archivos *.tab (librerías de tablas) Archivos de gráficos (extensión según versión)
/ 10
Output del programa: Guardar... Gandia BarbWin guarda archivos de datos:
formatos aniguos de BarbWin 1.0, 2.0 y 3.0 Barbro DOS Archivos ASCII delimitados por tabuladores, blancos,
comas, etc Archivos ASCII sin delimitador (siempre que exista un
archivo *.str con las columnas -y opcionalmente códigos- que ocupan las variables
Archivos Dbase y Paradox (*.dbf y *.db) Archivos MsAccess Archivos IBM Bin Sintaxis de SPSS
Gandia BarbWin guarda otros archivos como: Archivos *.html (estando activa la ventana de informe) Archivos de office (xls y doc) Archivos *.tab (librerías de tablas) Archivos *.chf y *.chd (gráficos Chart FX)
/ 11
Opciones del sistema
/ 12
Opciones de estudio
/ 13
Tipos de variables (datos)
Categoría (nivel de medición nominal o cualitativo)
Múltiples (nivel de medición nominal o cualitativo pero multi respuesta)
Numéricas ordinales (nivel de medición ordinal)
Numéricas métricas (nivel de medición de intervalo, métrica o de razón)
Alfanuméricas (texto) Otras
Fecha, hora, fecha grabación, hora grabación, etc.
/ 14
Diseño de variables Paso 1:
Definir características principales Nombre Tipo Texto extra Códigos permitidos (en categoría y múltiples) Valores permitidos (numéricas)
Paso 2: Definir propiedades de grabación
Valores por defecto Saltos, filtros y controles
Paso 3: (mientras se está produciendo la entrada de datos, el técnico puede realizar las siguientes tareas...) Definir etiquetas de códigos Definir variables especiales (necesarias para tabulación y/o
análisis) Virtuales Expresiones Sinónimos
/ 15
¿Cómo navegamos a través de las variables?
Una vez estamos en el diálogo de cada variable: Alt-Inicio sitúa en primera variable Alt-Fin sitúa en última variable Alt-Flecha izquierda sitúa en anterior variable Alt-Flecha derecha sitúa en posterior variable Alt-Flecha arriba sitúa en la siguiente pestaña de la
misma variable Alt-Flecha abajo sitúa en la anterior pestaña de la
misma variable Alt-N crea una nueva variable Alt-B borra la variable actual
/ 16
Operaciones con las variables Existen un conjunto de órdenes en Gandia
BarbWin que permiten crear o modificar variables, si tener en cuenta sus datos. En v6 están agrupadas bajo el epígrafe de Datos > Operaciones con variables, mientras que en v7 se agrupan en el menú contextual derecho de la tabla de variables. Algunas de estas opciones son: Nueva, que permite añadir nuevos variables a la tabla
actual Modificar accede a la edición de las propiedades
individuales de la variable Renombrar permite el cambio masivo y automático del
nombre de las variables (muy aconsejador para exportar a formatos externos)
Mover accede a un diálogo donde se indicará donde ubicar la variable seleccionada
/ 17
Propiedades de variable: Básicas
Características básicas Se definen aquellas propiedades sin las cuáles la
variable no existe. Generales
Varias propiedades que afectan a la visualización Grabación
Controlan la forma en la que se grabará la variable: nº de caracteres, valores por defecto, valor del NC, etc.
Tabulación Propiedades relacionadas con la apariencia y el tipo
de resultados a ofrecer de la variables al ser tabulada o analizada.
/ 18
Propiedades de Variable: Grabación Relacionadas con el dato de grabación
Valor por defecto, constante, dato con Intro al grabar... Relacionadas con el flujo y control del
cuestionario Saltos, filtros y controles
Relacionadas con el tamaño del campo de grabación Tamaño del campo (caracteres para que salte de campo
a campo) Relacionadas con la visualización en pantalla
Facilidades de identificación de la posición de grabación con el cuestionario en papel
Relacionadas con el control de códigos en grabación (“editing” y codificación) ¿Qué hacemos con un código que no está en la lista de
valores permitidos o códigos?
/ 19
Propiedades de Variable: Otras Tabulación / Análisis
Creación de bases de cálculo (%)
Rangos para cálculo de estadísticos
Bases y valores especiales (sacar de la base)
Propiedades relacionadas con mostrar o eliminar información en las tablas de contingencia y estadísticos
Ordenación de códigos por frecuencias
Cálculo de estadísticos básicos (casos, media y desviación)
Cálculo de estadísticos básicos en variables de tipo múltiple (casos y media menciones, y también % en base respuesta)
Relacionadas con las variables no codificadas
Generales Relacionadas con los
textos de los valores especiales Textos y valores de los
códigos especiales Relacionadas con el
tamaño del campo de la variable Longitud y número de
decimales en los procesos
Relacionadas con las menciones Dígitos no contemplados
en menciones (sólo múltiples)
/ 20
Valores especiales en Gandia BarbWin
ASCII “&” Valor de no contestación
ASCII “-” Valor de no procede o no grabado
ASCII “+” Valor de no sabe contestar
ASCII “ “ cualquier otro valor no codificado , que no sea + ó &
& - +& - +
/ 21
¿Cómo y dónde escribir condiciones?
Componentes de una condición… Variable Códigos Operadores Funciones
Ejemplos… EDAD=(55_99) VAR59>5 Y VAR50=3 EDAD=(0_18) Y SEXO=2 CIUDAD=5 O (CIUDAD=3 Y SUBV1=3) (XMEDIA(VAR1;VAR2;VAR3)>5 Y SEXO=1) O
(EDAD>18 Y CIUDAD=3)
/ 22
Operadores lógicos
Y, las dos proposiciones en la condición (operandos) han de ser verdaderos
O, una de las dos proposiciones o las dos proposiciones son verdaderas
NO, Y NO, la proposición que se niega es falsa O NO, una proposición es falsa y la otra es
verdadera
/ 23
Operadores aritméticos Suma +, Se usa para sumar dos operandos. Sólo se
pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación
Resta -, Se usa para restar dos operandos. Sólo se pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación
Multiplicación *, Se usa para multiplicar dos operandos. Sólo se pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación
División /, Se usa para dividir dos operandos. Sólo se pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación
Exponente ^,Se usa para elevar un operando a la potencia que marque otro operando. Sólo se pueden utilizar variables numéricas y expresiones aritméticas para efectuar esta operación
/ 24
Operadores aritméticos Mayor que >, Se utiliza para comparar dos
operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.
Menor que <, Se utiliza para comparar dos operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.
Mayor igual >=, Se utiliza para comparar dos operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.
Menor igual <=, Se utiliza para comparar dos operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.
Distinto < >, Se utiliza para comparar dos operandos, que pueden ser variables de categoría, numéricas, expresiones aritméticas, fecha y hora.
/ 25
Funciones
Las funciones permiten al usuario calcular valores por registro a partir de valores de ese registro o constantes. Por ejemplo calcular la media de varias variables o el valor máximo de ciertas variables. Se debe diferenciar de los cálculos para todo el fichero que por ejemplo se obtienen en análisis univariante, codificar, etc.
Normalmente las funciones se utilizarán en: condiciones de tipo aritmético expresiones aritméticas (tipo de variable) la orden CALCULAR (donde se escriben tanto
condiciones como expresiones de tipo aritmético) la orden REEMPLAZAR
/ 26
Operadores aritméticos
=, se utiliza para comparar por igualdad dos operandos. En variables múltiples, un = permite que se cumpla individualmente las partes de la condición.
= =,en variables de tipo múltiple, se utiliza para seleccionar el cumplimiento estricto de una combinación múltiple, y no una de sus partes.
!=, se utiliza como incluido en… y siempre es el primer valor en el segundo
/ 27
Funciones más habituales En estos casos, si existe una variable entre las que
componen la función cuyo valor es especial (&, +, ) la función no se calcula. SUMA(exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;
exp.aritm.;...) MEDIA (exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;
exp.aritm.;...) DESVTIP (exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;
exp.aritm.;...) En estos casos, si existe una variable entre las que
componen la función cuyo valor es especial (&, +, ) la función se calcula, siendo N el número de variables que tiene valor para el cálculo de los estadísticos. XSUMA(exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;
exp.aritm.;...) XMEDIA (exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;
exp.aritm.;...) XDESVTIP (exp.aritm.; exp.aritm.; exp.aritm.; exp.aritm.;
exp.aritm.;...)
/ 28
Operaciones con los datos
Una de las funciones esenciales de Gandia BarbWin es el manejo específico de los datos accedidos al sistema por medio de la entrada de datos o de importaciones de fuentes externas. En este segundo caso, se requiere de herramientas que permitan depurar la información
Estas dos diferentes situaciones dan lugar a unas operaciones localizadas en: v6 >>> Menú Datos > Operaciones con Datos v7 >>> Menú Datos > DataEntry
/ 29
Operaciones con los datos accedidos desde el sistema
Datos accedidos desde el DataEntry del sistema Registrar permite entrar los datos de forma asistida. Modificar, permite editar registros ya grabados. Verificar permite grabar contra lo ya grabado
controlando errores. Borrar, permite eliminar definitivamente registros
que cumplan una determinada condición. Registro aleatorios, crea una tabla de datos ficticia,
válida para preparar el análisis de datos o testar los controles de flujo.
Pulsaciones, calcula el nº de pulsaciones efectuadas en una entrada de datos.
/ 30
Operaciones para depuración de bases de datos externas
Conjunto de operaciones destinadas a reparar inconsistencias o errores de grabación en bases de datos externas, es decir bases grabadas con DataEntry diferente a BarbWin, sin controles, saltos o filtros. Validar Filtrar Depurar variable Depurar fichero
/ 31
Operaciones de gestión, agregación o generación de nuevos archivos de datos
Conjunto de operaciones que nos permite agregar o crear nuevas bases de datos. Unir ficheros permite sumar registros con la misma o
distinta estructura en un único fichero. Añadir datos externos, permite sumar registros a la
tabla actual si el fichero externo tiene las mismas variables y estructura que el actual.
Fusionar estudios, une registros con una misma identificación de ficheros distintos (fusionar con repeticiones).
Añadir datos mediante fusión, añade datos de varios registros de un fichero secundario en un registro primario.
Actualizar variables, crea nuevas informaciones. Crear subfichero, crea ficheros con otro nivel de
análisis. Recrear fichero principal (v7), crea una estructura
horizontal a partir de un fichero vertical.
/ 32
Operaciones de codificación
Conjunto de órdenes que nos permite realizar la codificación de preguntas abiertas Codificación automática, codificación tradicional de
Gandia BarbWin Codificación manual (v7), nuevo sistema de
codificación de abiertas literales para los ficheros que vienen de campo electrónico
Recodificación Recodificación masiva (v7) Reparación de codificaciones (v7) Limpiar códigos (v7)
/ 33
Operaciones de cálculo y reemplazo
Conjunto de operaciones que nos permiten realizar cálculos o reemplazos de informaciones ciertas en las bases de datos Calcular Calcular en grupo de registros Reemplazar Sustituir valores Reemplazar por acumulación
/ 34
Operaciones de transformación Conjunto de operaciones que
modifican los datos de la base por medio de cálculos o transformaciones específicas. Proporcionalizar permite
corregir el típico error de campo en la suma de porcentajes o recalcular en base a un valor de otra variable.
Unir permite crear una nueva variable suma lógica de las variables a unir según determinados parámetros.
Transponer, permite crear nuevas variables a partir de los códigos de las originales.
Anidar permite crear rápidamente variables multidimensionales y las prepara para una presentación adecuada generando grupos de códigos.
Binarizar permite crear variables binarias a partir de los códigos de una variable. Cada variable binaria muestra la presencia o no de un código en la variable original.
Jerarquizar permite reordenar los rangos de un conjunto de variables.
Combinar: crea distintas combinaciones entre los datos, de forma que se puedan analizar los grupos TURF con máximo porcentaje.
Desplazar Dicotomizar
/ 35
Otras opciones específicas de transformación Sobre cadenas
Agregar Desagregar Conversión de múltiples
Sobre múltiples Detectar Dividir Generar Agrupar binarias Crear combinaciones Renombrar con raíz
común (v7)
Sobre numéricas Formato fijo de
decimales Sobre categóricas
Cambiar de tipo
/ 36
Análisis de datos Univariante
Recuentos Descriptivos
Bivariante Tablas de contingencia
Pruebas de significación y asociación
Análisis de varianza Correlaciones Pruebas no
paramétricas Contrastes de hipótesis
Multivariante Regresión Reducción de datos
Anaco simple Anaco Múltiple Componentes
principales Clasificación
Segmentación Cluster
Fiabilidad
/ 37
Univariante - Recuento Objetivo: conocer como se
distribuyen los datos en una variable.
Funcionamiento: independiente a la codificación, no tiene en cuenta los intervalos que se hayan podido establecer en la misma.
Aporta información de cuartiles, mediana y acumulado porcentual.
No tiene en cuenta los No sabe y los No contesta
Posibilidad de gráfico y traspaso a Excel y Word
Válido para cualquier tipo de variable
Presentado en forma de tabla
/ 38
Univariante - Descriptivos
Válido para variables numéricas métricas
Se presentan los estadísticos fundamentales de la distribución de frecuencias.
Traspaso a Word y Excel Transposición de la
matriz para trabajar con columnas de variables.
/ 39
Bivariante - Tablas de contingencia Tipos de tablas
Tablas marginales de frecuencias Tablas marginales de estadísticos Tablas cruzadas de frecuencias Tablas cruzadas de estadísticos Tablas cruzadas con cálculos estadísticos de tercera
variable Bases de cálculo
Automáticas Generadas por el usuario
Selecciones de datos Grupos de cálculo
Unitarios Combinados
Ponderaciones Del fichero De cada variable
/ 40
Tabla marginal de frecuencias
Tabla con sólo filas, en cabecera se puede observar la frecuencia, el porcentaje que
representa sobre el total muestral y en caso de no ser multi-respuesta la variable, el
acumulado porcentual.
BaseFrecuencias Porcentajes % Acumulado
TOTAL 500 100 100MOTIVOS DE ELECCION DETELEFONICAP5_TEL 500 100,0Costumbre 124 24,8Calidad de la señal 3 0,6Seguridad de la señal 7 1,4Tarifa / Promoción 159 31,8Simpatía, predilección 1 0,2Comodidad 12 2,4Llamadas urbanas 130 26,0Por obligación 126 25,2Internet 4 0,8El único que pone la línea 1 0,2Otros 2 0,4NS/NC 8 1,6
VALORACION TELEFONICA: SERVICIOP6_TEL_5 500 100,0(1)-Muy negativo 49 9,8 9,8(2)-. 16 3,2 13,0(3)-. 21 4,2 17,2(4)-. 26 5,2 22,4(5)-Neutro 95 19,0 41,4(6)-. 58 11,6 53,0(7)-. 82 16,4 69,4(8)-. 87 17,4 86,8(9)-. 21 4,2 91,0(10)-Muy positivo 41 8,2 99,2NS/NC 4 0,8 100,0
Media 5,93Desviación 2,52
/ 41
Tabla de contingencia
TOTAL EDADAbsolutos -30 31-40 41-50 51-60 >60TOTAL 500 106 200 102 59 33ESTADO 500 106 200 102 59 33Insatisfecho 29 6 13 4 4 2Indeciso 36 12 14 5 3 2Satisfecho 420 86 166 93 47 28
TOTAL EDAD% Verticales -30 31-40 41-50 51-60 >60TOTAL 500 106 200 102 59 33ESTADO 500 106 200 102 59 33Insatisfecho 5,8 5,7 6,5 3,9 6,8 6,1Indeciso 7,2 11,3 7,0 4,9 5,1 6,1Satisfecho 84,0 81,1 83,0 91,2 79,7 84,8
TOTAL EDAD% Horizontales -30 31-40 41-50 51-60 >60TOTAL 500 21,2 40,0 20,4 11,8 6,6ESTADO 500 21,2 40,0 20,4 11,8 6,6Insatisfecho 29 20,7 44,8 13,8 13,8 6,9Indeciso 36 33,3 38,9 13,9 8,3 5,6Satisfecho 420 20,5 39,5 22,1 11,2 6,7
TOTAL EDAD% Totales -30 31-40 41-50 51-60 >60TOTAL 500 21,2 40,0 20,4 11,8 6,6ESTADO 500 21,2 40,0 20,4 11,8 6,6Insatisfecho 5,8 1,2 2,6 0,8 0,8 0,4Indeciso 7,2 2,4 2,8 1,0 0,6 0,4Satisfecho 84,0 17,2 33,2 18,6 9,4 5,6
TOTAL EDADAbsolutos% Verticales% Horizontales% Totales -30 31-40 41-50 51-60 >60
TOTAL 500
106-
21,2-
200-
40,0-
102-
20,4-
59-
11,8-
33-
6,6-
ESTADO 500
106-
21,2-
200-
40,0-
102-
20,4-
59-
11,8-
33-
6,6-
Insatisfecho
295,8
--
65,7
20,71,2
136,5
44,82,6
43,9
13,80,8
46,8
13,80,8
26,16,90,4
Indeciso
367,2
--
1211,333,32,4
147,0
38,92,8
54,9
13,91,0
35,18,30,6
26,15,60,4
Satisfecho
42084,0
--
8681,120,517,2
16683,039,533,2
9391,222,118,6
4779,711,29,4
2884,86,75,6
Individuales ycombinadas...
Se pueden incluir más
estadísticos de celda, además de pruebas de significación que veremos más adelante.
/ 42
Tabla de contingencia y gráficos ABS,VER,HOR,TOT
/ 43
Bases de cálculo (1) Definición
Una base es un condición que se asocia a una o más variables, de forma que, sólo los cuestionarios que cumplen esa condición serán el 100% de los casos tabulados es ese cruce.
Tipos Existen bases automáticas (derivadas de la aplicación de un filtro o salto) y bases asociadas por el
usuario. Creación
Desde Tabulación > Bases Desde gestión de variables en las propiedades de tabulación
Asociación En la definición de la tabla (temporal) En la variable (indefinida)
/ 44
Bases de cálculo (2)
Este valor general la base, para que la variable a la que afecta sus porcentajes sean base 100 para los que en Pregunta 14 contestaron un NO
La misma tabla sin base automática, da una información engañosa pues aparecen 120
NS/NC que no lo son verdaderamente.
/ 45
Ponderaciones y equilibraje (1) La ponderación es un proceso cuyo resultado deriva en
una adecuación de la muestra a las proporciones existentes en la población o a las proporciones deseadas por el investigador.
Tipos de ponderación Por elevación de la muestra (elevación de la muestra =
variable que contiene coeficiente de elevación muestral) Por defectos de campo Por efectos del tipo de muestra (estratificada, controlada,
y no proporcional) El proceso que se utiliza para llegar a obtener el
coeficiente de ponderación se denomina equilibraje de muestras.
/ 46
Ponderaciones y equilibraje (2) Equilibraje por cuotas
cruzadas Equilibraje por cuotas directas
Base de cálculo de la ponderaciónIteraciones
Utilizar ponderación existente
/ 47
Ponderaciones y equilibraje (3) ¿Cómo obtengo los pesos?
Por una constante Indexando pesos según condiciones Por equilibraje
Independientemente de la forma en que se obtenga el peso, en un fichero puede haber: Una variable de ponderación para todo el fichero Distintas variables de peso para algunas variables en
particular ¿Qué pasa si...
...hacemos una tabla con variable ponderadas según fichero?
...hacemos una tabla en la que coincide una variable ponderada por fichero y una variable ponderada por individual?
...hacemos una tabla donde coinciden en el cruce dos variables ponderadas individual?
/ 48
Gestión de tablas... Visualizar las tablas
En pantalla Vista preliminar Desde librerías de tablas
Imprimir las tablas Todo
(ABS+VER+HOR+....) Sólo alguno de los juegos Parte de un juego Desde librerías de tablas
Guardar en librerías de tablas Sin visualización en
pantalla Con visualización en
pantalla Traspasar a EXCEL-WORD
Todo (ABS+VER+HOR+....)
Sólo alguno de los juegos Parte de un juego
/ 49
Gráficos en las tablas: creación y gestión... En tablas de marginales En tablas de frecuencias En tablas de estadísticos Bases Opciones de los gráficos Guardar gráfico
Un gráfico Muchos gráficos
Traspasar gráficos a PowerPoint, Excel y Word
Proceso de datos aplicado
Roberto Gil SauraDepartamento de Desarrollo
TESI, [email protected]://www.tesigandia.com
Módulo 1. Introducción al análisis de datos
Proceso de datos aplicado
/ 52
Etapas del proceso de datos
Preparación de los datos para el análisis Creación de la base de datos Codificación de la información cualitativa Registro o grabación de la información Adecuación de los datos a las necesidades de análisis
Análisis básico de los datos Análisis descriptivo univariante Análisis cruzado o tabulación
Análisis avanzado de los datos Análisis multivariante de la información
Reducción de datos Clasificación
/ 53
Creación de la base y preparación del proceso Base de datos (matriz de trabajo)
Preguntas (variables en columnas) en columnas Individuos (registros, cuestionarios) en filas Nivel de análisis
Redacción del plan de tabulación Documento que guía el análisis
Tabulación básica Obtención de marginales de los datos de muestra y de
perfil social (sección de clasificación) Obtención de marginales de las preguntas del cuestionario
(sección de preguntas temáticas) Obtención de descriptivos y recuentos anexos
Tabulación cruzada (clasificación por temáticas) Tabulación avanzada
Aplicación de filtros clasificatorios y obtención de tablas temáticas
Gráficos fundamentales Análisis avanzado de la información
/ 54
Plan de análisis El plan de análisis,
tabulación o explotación, es un documento de trabajo que debe ser diseñado para cumplir con tres propósitos …
1) Proporcionar datos de la muestra total de forma descriptiva.
2) Determinar mediante tabulación qué diferencias existen entre subgrupos socio - demográficos y actitudinales dentro de la muestra.
3) Seleccionar cualquier otro tipo de análisis complejo univariado, bivariado o multivariado necesario para ayudar a interpretar los resultados.
/ 55
Escalas de medida
Tipos de escalade medida
Escala nominal
Escala ordinal
Escala de intervalo
Escala métrica, de razón o proporcional Cuanti
tativa
Cualitativa
+
-
Módulo 2. Análisis de variables individuales (univariante)
Proceso de datos aplicado
/ 57
Análisis univariante – escalas nominal y ordinal
Cálculo de frecuencias valores reales del fichero (recuento) valores por intervalos (tabulación de marginales) Aporta...
información sobre el número de apariciones % que representa ese número de apariciones sobre
el total de muestra acumulado de los %
A tener en cuenta Bases de pregunta Niveles de análisis En variables múltiples, base casos o base respuestas
Caso especial: Moda Valor/es más repetido/s en la distribución; una
distribución puede ser multimodal.
/ 58
Análisis univariante – escala ordinal y de intervalo
Medida de tendencia central Mediana
Valor que deja el 50% de los casos de la distribución por arriba y por abajo del mismo. Si no existe valor exacto, siempre toma aquel valor que se acerca más al 50%.
De la misma forma, el primer cuartil, valor que deja el 25% de los casos por detrás y el 75% de los casos por delante en la distribución. Si no existe valor exacto, siempre toma aquel valor que se acerca más al 25%. Por último, el tercer cuartil, valor que deja el 75% de los casos por detrás y el 25% de los casos por delante en la distribución. Si no existe valor exacto, siempre toma aquel valor que se acerca más al 75%
/ 59
Análisis univariante – escala de razón e intervalo
Cálculo de frecuencias valores reales del fichero (recuento) valores por intervalos (tabulación de marginales) Aporta...
información sobre el número de apariciones porcentaje que representa ese número de
apariciones sobre el total de muestra acumulado de los porcentajes
Cálculo de estadísticos medidas de caracterización (máximo, mínimo, rango) medidas de tendencia central (media, mediana) medidas de dispersión (desviación coeficiente
variación, varianza) medidas de error (error, intervalo de confianza)
/ 60
Análisis univariante – escala de razón e intervalo
Media aritmética, medida de tendencia central paramétrica, aplicable específicamente en el caso de variables cuantitativas con escalas de intervalo o de razón, que representa el punto de la distribución de los valores de una variable, en el que se hacen iguales las desviaciones en relación con dicho punto, de los valores de la distribución situados sobre ese punto con los situados por debajo de ese punto.
Desviación, medida de dispersión paramétrica igual a la raíz cuadrada de la varianza, o de la media del cuadrado de las desviaciones de los valores de una distribución desde su media.
Coeficiente de variación, dispersión relativa que se pueda dar en una distribución de frecuencias. Al ser un cociente no dimensional, puede servir como medida de comparación de dos distribuciones con media y desviaciones diferentes.
N
Xj
X
N
1j
1N
)XXj(N
1j
2
X
N
Xj
1N
)XXj(
VN
1j
N
1j
2
/ 61
Análisis univariante – estadísticos (escala de razón o proporción métrica y algunas ordinales)
Máximo / Mínimo
Error estimado, error que se comete con la media muestral sobre el verdadero valor poblacional.
Intervalo de confianza de la media en muestras >30 casos, en ese intervalo de confianza se encuentra con un 95.5 % de confianza el verdadero valor poblacional de la media.
Intervalo de confianza de la media en muestras <30 casos, en ese intervalo de confianza se encuentra con un 95.5 % de confianza el verdadero valor poblacional de la media.
/ 62
Pruebas sobre una muestra Estas pruebas persiguen caracterizar la distribución para
asumir una serie de propiedades o alternativas para las variables analizadas. Binomial
La distribución binomial es la distribución muestral de las proporciones observadas en muestras tomadas de forma aleatoria de una población de dos clases. Nuestra hipótesis nula será en este caso la pertenencia de los datos de proporción a una población particular. Esta es una prueba de la bondad del ajuste a la distribución binomial.
Jhi2
En algunas ocasiones el investigador se plantea por el número de sujetos, objetos o respuestas que se clasifican en diferentes categorías. La prueba c2 es adecuada para analizar este supuesto ya que puede utilizarse para analizar si la diferencia entre los observado y lo esperado en una determinada distribución arrojan unas diferencias significativas.
Kolgomorov-Smirnov Prueba estadística en la que compramos las frecuencias relativas
acumuladas (esperadas y observadas) de las distribuciones (uniforme o normal) para saber si los datos de que disponemos pueden provenir de una muestra con esas características.
Módulo 3. Análisis entre dos variables (bivariante)
Proceso de datos aplicado
/ 64
Análisis bivariante Escalas nominales, ordinales y de intervalo
En ocasiones, no sólo nos interesa conocer las medidas más importantes de una variable, sino también las relaciones entre ellas. Para ello acudimos a las tablas de contingencia.
¿Cómo se lee una tabla? Conocer la muestra mediante los marginales de fila en
cabecera Mirar las variables y sus categorías Mirar los marginales de filas y columnas Mirar relaciones celda / totales dentro de la tabla (prueba
Jhi²) ¿Cómo se leen los porcentajes?
Porcentajes verticales o calculados en base al total de la columna
Porcentajes horizontales o calculados en base al total de la fila
Porcentajes totales o calculados en base a la N de muestra total para la variable seleccionada (eliminando filtros o bases no deseadas)
/ 65
Análisis de tablas cruzadas - Tabulación
De casos Marginal Bivariada Bivariada con estadísticos 3D – Tridimensional
De grupos de casos Marginal Bivariada Bivariada con estadísticos 3D – Tridimensional
/ 66
Condiciones / Segmentación en las tablas
Concepto de base: Fila de la tabla de contingencia que nos informa de
un cambio en el total de registros que se utilizan como “base” para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%.
Concepto de filtro Columna de la tabla de contingencia que nos informa
de un cambio en el total de registros que se utilizan como “base” para el cálculo de porcentajes, generando un nuevo subtotal que será base 100%.
Los porcentajes siempre deben mostrarse con un rango de 0 a 100, evitar el uso de ,00 (decimales) si el error de la muestra es mayor al 1%.
/ 67
Pruebas de asociación o independencia
Conjunto de pruebas que nos miden si hay asociación o independencia entre las celdas relacionadas en la tabla. Jhi² (de celda, Pearson)
Se pretende con este test, válido para escalas nominales pero extensivo al resto, ver de un solo vistazo aquellas celdas cuyo porcentaje (vertical) es significativamente mayor (>) o menor (<) al porcentaje que cabría esperar ante un comportamiento proporcional de las categorías testadas en sus marginales. (Significación < 0,05, valor de comparación 3,84)
Jhi² (de tabla, Pearson) Se pretende con esta prueba analizar la relación
existente entre dos variables medidas en escalas nominales, ordinales o de intervalo (en menor medida) si existe relación de dependencia entre ambas o si su relación sólo es debida a efectos aleatorios de la muestra. A mayor valor de Jhi², mayor grado de dependencia (Significación < 0,05).
V de Cramer Igual objetivo que el anterior, pero sitúa entre 0 y 1
los valores extremos de la prueba. Basado en Jhi², ofrece un valor 1 cuando las variables son absolutamente dependientes (diagonal principal) y un 0 cuando son absolutamente independientes (equitativamente distribuidos).
)N(K
χ=V
1
2
1
22 )(
i fe
fefo
Ntotal
NfilaNcolumnafe
fe
fefo 22 )(
/ 68
Limitaciones de Jhi² Es una técnica de aproximación, no exacta. Por ello, a
menor muestra, más pequeño debe ser el nivel de significación para tomar la decisión con relativa seguridad.
En esencia, la prueba parte de una utilización de variables continuas, sin embargo se utiliza con variables nominales, lo cual genera una incorrección, que sólo es insalvable en las tablas de 2x2, donde se utiliza la corrección por continuidad de Yates.
Es una prueba que depende de la unidad de medida, efecto que salvan otras pruebas como V de Cramer.
La disparidad entre la aproximación de Pearson y la distribución Jhi aumenta conforme disminuye N. Utilizar probabilidad exacta de Fisher si hay frecuencias menores a 5.
El modelo puede no funcionar correctamente cuando existen frecuencias esperadas inferiores a 5. Se considera válido si menos del 20% de las celdas tienen frecuencias esperadas inferiores a 5. Caso de no ser así, no queda más remedio que agrupar categorías columna o fila.
/ 69
Pruebas de significación
t - Student para contraste de proporciones o medias e muestra indepenedientes En esta prueba se trata de ver si las diferencias
entre las columnas porcentuales dentro de una misma categoría en una variable son significativas en la población de la cual se extrajeron las muestras
Prueba equivalente para la media aritmética Esta prueba sólo se realizará si las muestras
provienen de poblaciones que son independientes Formatos de ejecución
Con base real o base ponderada Con datos de una columnas de variable o columnas
de tabla Diferentes niveles de confianza
/ 70
Pruebas de correlación (1)
Objetivo, medir relación métrica y lineal Cuando la variables de las que se desea calcular la
relación son numéricas métricas se aplica la correlación de Pearson o análisis de regresión simple
Si no es métrica la relación Ante relaciones entre otro tipo de escalas
acudiremos a las pruebas no paramétricas donde coexisten Spearman o los diferentes coeficientes de Kendall.
Valores Los valores suelen estar en la mayoría de
coeficientes entre [ -1 ≥ r ≤ 1] Tipo de relación lineal
Directa Inversa
/ 71
Pruebas de correlación (2) Pearson
... nos indicará si existe relación entre las variables analizadas, cuantifica esa relación y el signo del coeficiente muestra la dirección de la misma.
Spearman ...conocido como “rho”,
es una medida de asociación que requiere que AL MENOS UNA de las dos variables que intervengan en el análisis esté reflejando ordenaciones, es decir, medición ordinal.
Tau de Kendall ... tiene igual
funcionamiento que el coeficiente de rangos de Spearman y es muy utilizado para mediciones medias de jueces. Valora la relación entre las ordenaciones otorgadas por los jueces, teniendo en cuenta las concordancias y las discordancias.
Concordancia de Kendall (W) ... se diferencia de los
anteriores por trabajar con k ordenaciones en lugar de con 2 ordenaciones.
/ 72
Análisis de la varianza Descripción
El análisis de la varianza es un método explicativo que se utiliza para comprender la relación existente entre dos variables (nominal :: explicativa o independiente:: y otra métrica :: cuantitativa a explicar::)
Objetivo El modelo de cálculo implica
analizar si las puntuaciones medias de la variable dependiente en cada uno de los cortes o grupos de la variable independiente pueden diferir significativamente.
La prueba está basada en el análisis de las sumas de cuadrados explicadas entre los grupos y también intra grupo. La suma de cuadrados de la variable total viene expresada por la suma de las dos anteriores.
Lectura de la prueba Se dice que hay una relación
de dependencia entre ambas variables cuando la fuente de variación inter grupo es superior a la fuente de variación intra grupo.
Estadístico La existencia de esa relación
viene materializada por el uso del estadístico F.
La hipótesis nula es la igualdad de medias entre los grupos. Si rechazamos esta
hipótesis, es decir si el estadístico F es significativo (<0,05), rechazaremos la Ho y aceptaremos la existencia de relación entre las variables. Las puntuaciones medias de la variable dependiente están condicionadas por la pertenencia al grupo de la independiente.
/ 73
Regresión simple Descripción
Se usa para detectar la relación de dependencia entre dos variables medidas en escala métrica o de intervalos, es decir, cuantitativas.
Los objetivos de este análisis son: determinar si la variable explicada
lo es por medio de la variable explicativa
determinar el tipo de relación entre ambas variables
conocer la intensidad de la relación entre las variables.
El análisis se realiza por medio del estudio de las fuentes de variación de las variables: Suma de cuadrados de la variable
a explicar, sumatorio de la diferencia cuadrática del sumatorio de los valores de la variable a explicar menos su media.
Suma de cuadrados de la regresión, sumatorio de la diferencia cuadrática de los valores predichos por la regresión menos su media
Suma de cuadrados residual, sumatorio de la diferencia cuadrática de los valores reales de la variable a explicar menos los valores predichos por el modelo.
La ecuación que representa el modelo es Y=B0+B1X+e B0 es el término
independiente, B1 es el moderador o
multiplicador del valor de X e, el término residual. B0 indica el valor que tomaría
Y en el caso de que X fuera 0. B1 >0 indica que un aumento
en la variable explicativa, repercutiría en la variable a explicar en un aumento de esa cantidad proporcional.
B1 >0 indica que una aumento en la variable explicativa, repercutiría en la variable a explicar en una disminución en esa cantidad proporcional.
Ambos coeficientes deben ser significativos para la aceptación del análisis, dado que así confirmamos su participación real en el modelo.
Módulo 4. Análisis entre n variables (multivariante)
Proceso de datos aplicado
/ 75
Supuestos paramétricos en multivariado
Normalidad en las mediciones Los test de significatividad pueden dejar de ser
válidos Igualdad de varianzas (homocedasticidad) en
todos los niveles de la variable dependiente Afecta al error típico, y por tanto a los test de
significatividad Linealidad en las relaciones
Sólo aplicable a aquellas técnicas que se basan en la correlación lineal de los datos
Independencia entre las observaciones La probabilidad de ocurrencia de un evento no afecta
a la probabilidad de ocurrencia de otro Tamaño muestral suficiente para la técnica
elegida
/ 76
Criterios de clasificación del multivariado
Dependencia Técnicas de interdependencia Técnicas de dependencia
Objetivo de la técnica Modelización lineal (regresión) Reducción de datos, comprensión del espacio
muestral Clasificación de sujetos u objetos en la muestra Fiabilidad de escalas
/ 77
Técnicas objeto de este módulo
Regresión lineal múltiple Modelo forward stepwise
Reducción de datos Análisis de correspondencias Análisis de correspondencias múltiple Factorial de componentes
Clasificación Segmentación (Jhi², A.I.D. y Jhi² de tabla) Cluster jerárquico y k medias
Fiabilidad de escalas Alpha de Cronbach
/ 78
Análisis de regresión lineal múltiple Definición y utilidad
Paradigma de las técnicas de dependencia y base de una gran parte de las técnicas multivariantes, su objetivo es explicar el comportamiento de una variable dependiente a partir de las relaciones entre variables independientes. Trata de captar los efectos de cada variable por separado.
Analizamos sólo OLS (mínimos cuadrados ordinarios)
Grado de utilización en la práctica En desuso como tal, porque
se está modelando hoy en día con evoluciones o especificaciones del mismo: logit, probit, logística, etc.
Condiciones para el análisis variables de tipo
numérico con las que se cree puede haber una relación lineal.
linealidad de parámetros existencia de
perturbación estocástica en el modelo con media 0
homocedasticidad ausencia de correlación
serial ausencia de
multicolinealidad matriz de datos no
estocástica e independiente
/ 79
Términos utilizados (1) Modelo utilizado: paso a
paso En este tipo de
metodología, las variables se incorporan una a una, comenzado por aquella que tiene un mayor poder explicativo de la variable dependiente.
Excepciones Se puede combinar con
una metodología de forzado de participación
Suma de cuadrados explicada por la variable actual Total de la varianza
explicada por el modelo que aporta la variable que se introduce en el paso n
R cuadrado de la variable % de la varianza explicada
por el modelo que aporta la variable que se introduce en el paso n
Suma de cuadrados explicada por las variables (acumulado) Total de la varianza
explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n
R cuadrado de las variables (acumulado) % de la varianza explicada
por el modelo que aportan las variables introducidas en el modelo hasta el paso n
/ 80
Términos utilizados (2) Suma de cuadrados total
Total de la varianza explicada por el modelo que aportan las variables introducidas al final del modelo.
Coeficiente de correlación múltiple y coeficiente de correlación múltiple ajustado a los grados de libertad Bondad del ajuste producido
por la totalidad del modelo Valor F para el análisis de
varianza y significación Prueba inferencial que
aporta la significatividad de la relación lineal planteada en el conjunto del modelo.
Error estándar de estimación y error estándar de estimación ajustado a los grados de libertad Estimación del error que se
produce en el modelo
Predicción por el modelo Valor de la variable
dependiente utilizando el modelo lineal de regresión
Residuo Diferencia entre el valor real
y el predicho por el modelo Coeficiente de regresión
Valor que permite medir la relación de la variable independiente con la dependiente del modelo.
Error estándar de regresión Medida de precisión de los
coeficientes de regresión proporcional al error de estimación e inversamente proporcional a la variabilidad de la variable, descontada la del resto de variables del modelo.
Valor t - Student y significación Prueba inferencial que aporta
la significatividad de la relación lineal planteada específicamente para el regresor especificado
/ 81
Análisis de correspondencias simple y múltiple Concepto y utilidad
Análisis geométrico que permite visualizar la relación geométrica entre las categorías que conforman una tabla de contingencia.
Permite conocer las asociaciones que se producen entre las categorías de columna y fila y entre ellas mismas.
Condiciones de utilización Variables de cualquier tipo que conformen una tabla de
contingencia. Se trabajará con los datos cualitativos de la misma.
Grado de utilización en la práctica Muy utilizado para realizar posicionamientos de
atributos y marcas. Máximo número de dimensiones
Menor número de filas o columnas -1 (máximo de 6 en Barbwin)
/ 82
Términos utilizados Perfiles de fila y columna (no
impresos) El perfil es un vector que
contiene las frecuencias relativas de cada fila o columna. Resultado del cociente entre la celda y su total fila o columna. En Gandia BarbWin son los porcentajes verticales y horizontales en el análisis. Son utilizados para calcular la distancia entre todas las categorías.
Distancia (no impresas) Operación realizada para
obtener una medición de la separación o cercanía entre las categorías analizadas, se utiliza la distancia Jhi².
Masa Representa el peso de cada
categoría de fila o columna sobre el total de la muestra, es decir, porcentajes totales de categoría.
Valor propio o inercia Resultado de operar la
masa con la distancia, es el indicativo del peso que tendrá cada variable original en las dimensiones finales.
Contribuciones absolutas Indica el peso que cada
categoría de fila o columna (de forma independiente) tiene en el total de la dimensión
Contribuciones relativas Indican el peso de cada
dimensión en cada categoría de fila y columna
Distancia al centroide (baricentro) Medida de la separación de
cada categoría del centro del la representación gráfica
/ 83
Diferencias entre simple y múltiple El input del análisis no es una tabla de contingencia,
sino que es una tabla de doble entrada de las frecuencias cruzadas de las n variables del análisis con las n variables, por lo que: en la diagonal principal tenemos los marginales de las n
variables en las celdas adyacentes a la diagonal principal de cada
variable existen valores 0 en el resto de celdas, frecuencia cruzada.
En la presentación de las inercias o valores propios, se realiza la transformación de Benzécri y de Greenacre para facilitar la retención de dimensiones a partir de los % de varianza explicada.
El anaco múltiple aporta un cálculo de variables que contienen las coordenadas de las dimensiones para cada uno de los individuos del análisis, pudiendo representarse un mapa de coordenadas XY sobre las dimensiones seleccionadas de la concentración de individuos.
/ 84
Análisis de componentes principales Concepto y utilidad
Prueba muy conocida y utilizada que permite reducir el espacio dimensional de un conjunto multivariante de datos a un conjunto de factores cuya composición proviene de combinaciones lineales y normales que maximizan la representatividad de los datos originales y minimizan la pérdida de información.
En la práctica permite reducir y agrupar el número de dimensiones de un problema
Condiciones de utilización Variables con escala al menos
de intervalo. Matriz de individuos por variables.
Correlaciones significativas entre las variables que participan. Se comparte las mismas fuentes de variabilidad, es decir que las correlaciones sean elevadas.
Grado de utilización en la práctica Muy utilizado
Variantes Infinidad, presentadas para
estructuras de datos específicos: componentes principales, máxima verosimilitud, alpha, etc. …
Máximo número de componentes Igual número que variables
originales incluidas en la estructura de datos
Situación ideal Pocos componentes
explican mucha varianza
/ 85
Términos utilizados (1) Saturaciones o cargas
Peso de la variable en cada componente o factor
El ideal es que cada variable tenga saturaciones altas en un único factor y bajas en el resto.
Matriz de correlaciones Matriz que nos permite
observar a simple vista los coeficientes de correlación de Pearson entre las variables que intervienen en el análisis.
Prueba de esfericidad de Bartlett Prueba que reafirma la
viabilidad del análisis de componentes principales, pues testa que la matriz de correlaciones es significativamente diferente de la matriz identidad. En este caso, la nube de puntos sería una esfera. Si se obtiene un valor de Jhi² que si es significativo, se rechaza la hipótesis nula de esfericidad o incorrelación.
Valor propio Este valor indica la
varianza de la matriz de correlaciones explicada por el componente o factor.
/ 86
Términos utilizados (2) Solución directa / rotada
Directa -> Matriz de pesos factoriales donde se puede observar la participación o peso de cada variable en el componente
Rotada -> Ídem tras la rotación de los ejes factoriales.
Contribuciones absolutas Cada celda muestra el
porcentaje de participación de cada variable en el componente extraído. El porcentaje es vertical.
Contribuciones relativas (1) La primera fila de valores
muestra el porcentaje de participación de cada variable en los diferentes factores extraídos y por tanto suma 100.
(2) La segunda fila de valores muestra el porcentaje de participación de cada variable en los diferentes factores, contabilizando los extraídos y los no extraídos.
Comunalidad final Proporción de la varianza
inicial de una variable explicada por el componente o factor. Suma de los cuadrados de las saturaciones de una variable en todos los factores.
Rotación Método matemático
utilizado para rotarlos ejes factoriales y facilitar el análisis de los investigadores. VARIMAX que tiende a que cada variable cargue mucho en un componente y poco en el resto.
El método de componentes principales extrae componentes con baja correlación.
/ 87
Técnicas de clasificación
Concepto y utilidad Conjunto de técnicas con una orientación común
hacia la clasificación de la información, donde agrupamos técnicas de interdependencia y técnicas de dependencia. La elección de una u otra dependerá del tipo de información de partida y destino que se tenga y requiera.
Tipos Segmentación Cluster Discriminante
/ 88
Segmentación Definición y utilidad
Técnica de clasificación que tiene como objetivo la elaboración de subgrupos muestrales en base a el mayor poder de explicación en la variable dependiente.
Segmentación AID Técnica de
segmentación que basada en el análisis de varianza, parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas
Segmentación Jhi² Técnica de segmentación
que basada en la realización de pruebas Jhi², parte del intento de clasificar una muestra a partir de dicotomías grupales en las variable independientes que serán cualitativas y codificadas
Segmentación de Jhi² tabla Técnica de segmentación
que basada en la realización de pruebas Jhi² de tabla, parte del intento de clasificar una muestra a partir de la búsqueda de la asociación más alta en pruebas de asociación.
/ 89
Segmentación
Condiciones para el análisis Variable dependiente de tipo numérica métrica en
AID, e independientes cualitativas y codificadas Variable dependiente como dicotomía en una
muestra, numérica métrica en Jhi², e independientes cualitativas y codificadas
Variables codificadas con diferentes niveles en Jhi² de tabla.
Ejecución en GBW Disponemos de dos peculiaridades …
Forzar al test de un grupo con el resto Agrupar por continuidad de categoría
Fijación de un número mínimo de casos para considerar el grupo
Fijación del nivel de segmentación máximo
/ 90
Tipología, cluster o análisis de conglomerados
Definición y utilidad Conjunto de técnicas cuyo fin último es la
clasificación de la información en base a una serie de atributos relevantes señalados por el investigador. Para ellos se utilizan las similitudes entre las valoraciones dadas a los atributos señalados.
Tipos Cluster, técnicas válidas para cuando no tenemos
idea de cómo se puede agrupar la información Ejecución en GBW
Selección de variables de tipo numérico métrico o de tipo nominal. Las nominales o múltiples se binarizan. El proceso de normalización es interno y automático.
/ 91
Análisis cluster
Tipos Cluster jerárquico, análisis en el que se parte de una
agrupación unitaria a una agrupación total. Análisis asociativo.
Cluster no jerárquico o k medias, análisis en el que hay una conjetura inicial sobre el número de grupos a formar y se itera el método de clasificación hasta clasificar toda la información en el número de grupos marcados. Análisis partitivo o de optimización.
Condiciones para el análisis Representatividad muestral Ausencia de multicolinealidad
/ 92
Terminología (1) Distancia
Euclídeas o euclídeas al cuadrado si los datos son mediciones. Recordemos que la distancia euclídea al cuadrado reforzará más las distancias entre los puntos de un plano.
Jhi² si los datos a agrupar son frecuencias (sólo no jerárquico).
Método de análisis Distancia mínima (single
linkage), agrupa a aquellos casos que tengan una menor distancia entre ellos; la distancia entre dos clusters es la distancia entre sus dos puntos más próximos.
Distancia máxima (complete linkage), agrupa en función de la distancia entre los puntos más alejados; la distancia entre dos clusters es la distancia entre sus puntos más alejados.
Agrupación de medianas o agrupación de centroides (medianas), agrupa a los individuos en función de se mediana o de su media.Lejanos
Próximos
/ 93
Terminología (2) En cluster no jerárquico,
puntos de partida K primeros K aleatorios K con máxima distancia K del jerárquico K del usuario K más numerosos
Cálculo de distancias Distancia de cada
individuo al centro del cluster
Distancia promedio de todos los individuos que pertenecen al centro
Matriz final de distancias intra y entre los clusters.
Variable de grupo Guarda el código de
grupo de pertenencia en el cluster.
Dendograma Análisis de varianza Correlaciones entre los
clusters
/ 94
Análisis de fiabilidad
Definición y utilidad Método que nos permite analizar la precisión de la
relación lineal y sumativa de las valoraciones ofrecidas a diferentes ítems que conforman dimensiones de una dimensión de mayor rango mejor explicada por el conjunto de variables que por sí misma.
Condiciones para el análisis Variables de medición Mayor fiabilidad a mayor cantidad de ítems
Ejecución en GBW En Gandia BarbWin se utiliza el alpha de Cronbach
como medida de la fiabilidad de escalas
/ 95
Métodos de análisis y terminología (1) Método
Normal, incluye todas las variable del análisis aunque su varianza sea 0.
Covarianzas, elimina del análisis aquellas variables que tienen varianza 0.
Análisis de varianza Técnica bivariante o
multivariante que permite analizar la relación entre las medias de los grupos y la media total en diferentes niveles de la variable de agrupación
Entre personas cada persona es analizada
como un grupo; se analiza la diferencia entre las medias individuales de las puntuaciones en el conjunto de elementos con la media global de todos los elementos de la escala
Intra personas cada persona es analizada
como un grupo; se analiza la diferencia entre las puntuaciones individuales e cada elemento de la escala con las medias de cada individuo en la escala
Entre medidas se analiza la diferencia entre
las puntuaciones individuales de cada elemento en relación con la media de la muestra para cada elemento
/ 96
Terminología (2) Residuos
Diferencia de los residuos individuales en cada elemento de la escala en relación con la media de los residuos individuales en la escala
Prueba F Valida si hay diferencias
entre las medias de las variables que conforman la escala. Significaciones valores a 0 nos llevan a aceptar la Ha y rechaza la Ho de igualdad de medias.
Media y varianza si ítem borrado Medición si eliminamos un
ítem de la escala Correlación corregida
Correlación del ítem con la escala
Alpha si ítem borrado Coeficiente final si
borramos el ítem seleccionado
Alpha de Cronbach Coeficiente de correlación
entre los ítems de la escala. Una escala fiable debe producir valores altos de alpha.
Estadísticos entre los ítems Media, varianza,
covarianza y correlación T² de Hotelling
Medida utilizada para contrastar la hipótesis de medias iguales en el análisis de fiabilidad; se distribuye como una F
Iteración del proceso