Anal is is Multi Variable
Transcript of Anal is is Multi Variable
INTRODUCCIÓN AL ANÁLISIS MULTIVARIABLE (PRIMERA PARTE)
Eduardo Jiménez Marqués
Curso 2004-05
Análisis Multivariante
Análisis Multivariante
2
ÍNDICE
1. CONCEPTOS GENERALES.............................................12
1.1 INTRODUCCIÓN................................................................. 12
1.1.1 LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS MULTIVARIANTES.......12
1.1.2 ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES? ...........................13
1.2 DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE........................... 14
1.3 ÁREAS DE APLICACIÓN DEL ANÁLISIS MULTIVARIANTE ........... 14
1.4 DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES ................. 14
1.4.1 TIPOS DE VARIABLES.............................................................................15
1.5 ESCALAS DE MEDIDA .......................................................... 17
1.6 VARIABLES Y ESCALAS DE MEDIDA ....................................... 18
1.6.1 CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS..........................19
1.7 CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES.............. 20
1.8 BIBLIOGRAFÍA RECOMENDADA............................................. 24
2. METODOS EXPLICATIVOS O DE DEPENDENCIA .............26
2.1 INTRODUCCIÓN................................................................. 26
2.2 OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS: ........................ 26
2.3 TÉCNICAS MAS HABITUALES. ............................................... 26
Análisis Multivariante
3
3. REGRESIÓN LINEAL.....................................................28
3.1 CONCEPTO........................................................................ 28
3.1.1 MODELOS ESTOCÁSTICOS.....................................................................30
3.2 ANÁLISIS DE REGRESIÓN MÚLTIPLE....................................... 31
3.2.1 ¿QUÉ NOS INTERESA CONOCER?:...........................................................31
3.3 HIPÓTESIS DEL MODELO DE REGRESIÓN................................ 32
3.3.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN ............................................32
3.3.2 COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE
DETERMINACIÓN MÚLTIPLE..................................................................................33
3.4 COLINEALIDAD .................................................................. 36
3.4.1 MATRIZ DE CORRELACIONES.................................................................36
3.4.2 CORRELACIÓN PARCIAL ........................................................................36
3.4.3 CORRELACIÓN PARCIAL MÚLTIPLE ........................................................37
3.4.4 MULTICOLINEALIDAD............................................................................37
3.4.5 EFECTOS DE LA COLINEALIDAD.............................................................37
3.4.6 FORMAS DE MEDIR LA COLINEALIDAD ..................................................38
3.4.7 SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD...............................39
3.4.8 COEFICIENTES DE REGRESIÓN ...............................................................39
3.4.9 ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN .......................................41
3.5 MODELOS CON VARIABLES FICTICIAS ................................... 41
3.6 TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT................ 42
3.7 EJEMPLO 1......................................................................... 43
3.8 EJEMPLO2 ......................................................................... 49
Análisis Multivariante
4
4. ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS..........52
4.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN POR MÍNIMOS
CUADRADOS ORDINARIOS ........................................................... 53
5. EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL ............54
5.1 COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:............. 54
5.2 CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β0 Y β1 ............. 55
5.3 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS................... 55
5.4 COEFICIENTE DE CORRELACIÓN DE PEARSON........................ 56
5.5 EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS: .......... 60
5.6 COEFICIENTE DE DETERMINACIÓN ....................................... 61
5.7 COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO:
ANALISIS DE LA VARIANZA........................................................... 61
5.8 PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN...................... 62
5.9 OTROS AJUSTES DE BONDAD DEL MODELO ........................... 63
5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR.................... 64
5.11 HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE .................. 67
5.12 NORMALIDAD DE LOS ERRORES ........................................ 67
Análisis Multivariante
5
5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES ................. 68
5.14 NO AUTOCORRELACIÓN DE ERRORES ................................ 69
6. LINEALIDAD EN EL MODELO DE REGRESIÓN .................71
6.1 OTRAS TRANSFORMACIONES............................................... 71
7. ANÁLISIS DE REGRESIÓN MÚLTIPLE..............................73
7.1 INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN
DE CADA VARIABLE, βI................................................................. 73
7.2 COEFICIENTE DE DETERMINACIÓN ....................................... 74
7.3 COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO:
ANALISIS DE LA VARIANZA........................................................... 74
7.4 HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE ................. 75
7.5 COLINEALIDAD .................................................................. 75
7.6 EFECTOS DE LA COLINEALIDAD ........................................... 76
7.7 FORMAS DE MEDIR LA COLINEALIDAD.................................. 76
7.8 NIVELES DE COLINEALIDAD ................................................. 77
7.9 INTRODUCCIÓN DE VARIABLES BINARIAS .............................. 80
7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE ........ 82
Análisis Multivariante
6
7.11 INTRODUCCIÓN DE VARIABLES CUALITATIVAS ................... 82
7.12 CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS ................ 85
8. BIBLIOGRAFÍA ............................................................91
9. ANÁLISIS DE LA VARIANZA (ANOVA)............................93
9.1 CONCEPTO........................................................................ 93
9.2 MODALIDADES DE ANÁLISIS DE LA VARIANZA ....................... 93
9.3 ANOVA............................................................................. 94
9.3.1 TIPOS DE ANOVA ..................................................................................94
9.4 EXPERIMENTACIÓN............................................................. 94
9.5 EL MÉTODO DE EXPERIMENTACIÓN ...................................... 95
9.5.1 PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN .........................96
9.6 METODOLOGÍA DE LA EXPERIMENTACIÓN............................. 96
9.7 ELEMENTOS DE UN EXPERIMENTO ........................................ 97
9.7.1 CONCEPTOS GENERALES .......................................................................97
9.7.2 HIPÓTESIS DE TRABAJO.........................................................................98
9.8 ¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI
COMPARAMOS MEDIAS?............................................................... 98
9.8.1 ESTADÍSTICO DE PRUEBA ......................................................................99
9.9 EXPERIMENTOS ALEATORIOS CON UN FACTOR .................... 100
Análisis Multivariante
7
9.9.1 MODELO............................................................................................ 101
9.10 ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY) ........ 101
9.11 ANOVA CON VARIOS FACTORES ..................................... 103
9.12 TIPOS DE EXPERIMENTOS HABITUALMENTE UTILIZADOS EN
INVESTIGACIÓN COMERCIAL ...................................................... 104
9.12.1 EXPERIMENTO ALEATORIO O AL AZAR ............................................... 104
9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO............................................... 109
9.12.3 EXPERIMENTO DE CUADRADO LATINO............................................... 113
9.12.4 EXPERIMENTO CON INTERCAMBIO ..................................................... 117
9.12.5 EXPERIMENTO FACTORIAL ................................................................. 117
9.13 BIBLIOGRAFÍA ............................................................... 125
10. ANALISIS DISCRIMINANTE.........................................127
10.1 CONCEPTO................................................................... 127
10.1.1 EJEMPLO ............................................................................................ 128
10.2 OBJETIVOS DEL AD ........................................................ 128
10.3 CLASIFICACIÓN DEL AD ................................................ 128
10.4 RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN ..................... 129
10.5 MODELO DEL AD........................................................... 129
10.6 SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD................. 130
10.6.1 SUPUESTOS:....................................................................................... 130
10.6.2 ESTADÍSTICOS ................................................................................... 130
Análisis Multivariante
8
10.7 PASOS DEL ANÁLISIS DISCRIMINANTE.............................. 132
10.7.1 FORMULACIÓN DEL PROBLEMA.......................................................... 132
10.7.2 ESTIMACIÓN ...................................................................................... 133
10.7.3 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN............................... 133
10.7.4 INTERPRETACIÓN............................................................................... 133
10.7.5 VALIDACIÓN...................................................................................... 136
10.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:......... 138
10.9 ANALISIS DEL EFECTO CONJUNTO: .................................. 142
10.10 CLASIFICACIÓN DE LAS OBSERVACIONES: ........................ 145
10.11 MÉTODO DE INCLUSIÓN POR PASOS: MÉTODO LAMBDA DE
WILKS: 149
10.12 ANÁLISIS DISCRIMINANTE MÚLTIPLE................................ 153
10.12.1 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN........................... 153
10.12.2 INTERPRETACIÓN........................................................................... 153
10.12.3 VALIDACIÓN .................................................................................. 153
11. CASO PRÁCTICO DE ADM .........................................154
11.1.1 INTRODUCCIÓN................................................................................. 154
11.1.2 ANÁLISIS DISCRIMINANTE .................................................................. 157
11.2 BIBLIOGRAFÍA ............................................................... 165
12. SEGMENTACIÓN.......................................................167
12.1 CONCEPTO................................................................... 167
Análisis Multivariante
9
12.2 REQUISITOS PARA QUE LA SEGMENTACIÓN DE MERCADO
SEA EFICAZ. ............................................................................. 167
12.3 CRITERIOS DE SEGMENTACIÓN DE MERCADO. .................. 168
12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE
MERCADOS. ............................................................................. 170
12.5 TÉCNICAS PARA CLASIFICAR UN MERCADO EN
SEGMENTOS. ............................................................................ 172
13. TÉCNICAS DE SEGMENTACIÓN. .................................173
13.1 MÉTODOS CLÁSICOS. .................................................... 173
13.1.1 MÉTODO BELSON............................................................................... 173
13.1.2 MÉTODO DE ANÁLISIS DE LA VARIANZA............................................. 176
13.1.3 MÉTODO DE CHI CUADRADO............................................................. 170
13.1.4 MODELOS DE CANGUILHEM. .............................................................. 170
13.2 AUTOMATIC INTERACTION DETECTION (AID) ................... 172
13.2.1 VENTAJAS E INCONVENIENTES ........................................................... 173
14. CHI-SQUARED AUTOMATIC INTERACTION
DETECTION (CHAID).........................................................173
14.1 CONCEPTO................................................................... 173
14.1.1 PROCESO ........................................................................................... 174
14.1.2 UTILIDAD........................................................................................... 175
14.1.3 VENTAJAS E INCONVENIENTES ........................................................... 175
Análisis Multivariante
10
15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN
MARKETING EN EL COMERCIO ..........................................176
15.1 RESUMEN ..................................................................... 176
15.2 INTRODUCCIÓN............................................................ 176
15.3 OBJETIVOS DEL TRABAJO E HIPÓTESIS.............................. 178
15.4 METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR ......... 179
15.5 TÉCNICAS A UTILIZAR.................................................... 181
15.5.1 TÉCNICAS DE REDUCCIÓN DE VARIABLES........................................... 181
15.5.2 TÉCNICAS DE SEGMENTACIÓN ........................................................... 185
15.6 RESULTADOS................................................................ 188
15.6.1 IDENTIFICACIÓN DE DIFERENTES PROGRAMAS DE FORMACIÓN.......... 188
15.7 UTILIZACIÓN DE HERRAMIENTAS DE MARKETING.............. 190
15.8 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES
SEGÚN LA REALIZACIÓN O NO DE PROGRAMAS DE FORMACIÓN..... 192
15.9 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES
SEGÚN EL TIPO DE PROGRAMA DE FORMACIÓN REALIZADO........... 195
15.9.1 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN GENÉRICOS ................................................................................... 195
15.9.2 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN ENFOCADOS A CLIENTE ................................................................ 198
Análisis Multivariante
11
15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN TÉCNICOS QUE EMPLEAN HERRAMIENTAS INFORMÁTICAS............. 201
16. CONCLUSIONES .......................................................203
17. BIBLIOGRAFÍA ..........................................................205
18. CONCEPTO DE ACM .................................................209
19. MODELO DEL ACM ...................................................209
19.1 CONSIDERACIONES ACERCA DEL MODELO ....................... 211
20. CASO PRÁCTICO ......................................................211
Análisis Multivariante
12
1. CONCEPTOS GENERALES
1.1 INTRODUCCIÓN.
Los procedimientos multivariables constituyen un conjunto de técnicas estadísticas
de amplia aplicación en el mundo científico, especialmente en los estudios de tipo
empírico, adquiriendo cada día más importancia en la investigación Comercial y
muy especialmente en el tratamiento de las encuestas.
1.1.1 LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS
MULTIVARIANTES
El objetivo fundamental de la Investigación Comercial es el de obtener
información objetiva, que permita el disminuir la incertidumbre del decisor en su
toma de decisiones.
A través de la Investigación Comercial la empresa puede disponer de una gran
cantidad de datos acerca de su actividad interna y del entorno en el que desarrolla
su negocio. El mercado donde realiza la actividad económica la empresa, es un
fenómeno complejo donde interactúan un gran número de factores que tienen
influencia en los resultados empresariales (Inflación, paro, paridad de la moneda,
formación de los trabajadores, ecología, legislación, demografía, etc.)
Por tanto podemos afirmar que la mayoría de los problemas de la empresa son
multidimensionales, es decir cualquier actividad empresarial la podemos describir
de acuerdo con diversas dimensiones.
Esto nos conduce a que deberemos estudiar los factores que influyen o que bien
consideramos que lo puedan hacer, de una manera simultánea y para ello se
utilizan unas técnicas estadísticas que se denominan: técnicas multivariantes o
multivaribles.
En la Investigación Comercial a través de encuestas, se realizan una serie de
preguntas, mediante la administración de un cuestionario, que permite mediante su
Análisis Multivariante
13
combinación obtener la información acerca del fenómeno objeto de la
investigación.
Por ejemplo para determinar el estilo de vida, hacemos una batería de preguntas
acerca de: la profesión, el nivel de estudios, la renta familiar, el equipamiento del
hogar, electrodomésticos, vehículos, hábitos de consumo, hábitat, etc.
A través del análisis multivariante lo que hacemos es combinar todas las variables,
eliminando la información redundante y se obtiene una nueva variable que no es
observable directamente, que representa un concepto abstracto que se puede medir
obteniéndose un valor para cada elemento, en el caso del ejemplo lo denominamos
estilo de vida.
Esta situación la podemos resumir en el siguiente esquema
Esquema 1
Variables observadas Análisis multivariante Nueva variable abstracta
1.1.2 ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES?
Las técnicas de análisis multivariante se utilizan cada vez más en la investigación
comercial por las siguientes razones:
1. Permiten el analizar un gran número de encuestas. Simplificando muchos
datos, con la mínima pérdida de información. Consiguiendo hacer más
comprensible la información para la mente humana
2. Permiten analizar toda la información acerca de un determinado fenómeno,
considerando simultáneamente todos los factores que intervienen.
3. Permiten trabajar con cualquier tipo de variable.
Análisis Multivariante
14
1.2 DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE
Podemos definir las técnicas multivariantes como, un conjunto de métodos
estadísticos que permiten el análisis de forma simultánea de mas de dos variables
observadas en una Investigación Comercial
Desde una concepción amplia podemos definir el Análisis Multivariante como un
conjunto de métodos que analizan las relaciones entre un número razonablemente
amplio de variables (medidas), tomadas sobre cada elemento de análisis, en una o
más muestras simultáneamente.
1.3 ÁREAS DE APLICACIÓN DEL ANÁLISIS
MULTIVARIANTE
El análisis Multivariante es de aplicación en la Investigación Comercial, en las
siguientes circunstancias:
• Reducción de datos. Se trata de simplificar la estructura del fenómeno
investigado buscando la mayor simplicidad, lo que permitirá una
interpretación muy fácil.
• Clasificación y agrupación Por ejemplo las técnicas de segmentación y
tipología
• Análisis de las relaciones de dependencia, con el fin de predecir o bien
explicar
• En la construcción de modelos. Econometría
1.4 DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES
En las técnicas del análisis multivariante se entiende por variable alguna magnitud
que representa la característica de los elementos objeto de investigación que
tratamos de medir.
Análisis Multivariante
15
En una primera clasificación las variables las podemos clasificar en dos grupos,
variables independientes (VI) y variables dependientes (VD).
Las variables dependientes son aquellas cuyo comportamiento es explicado o
pronosticado por una o más variables independientes. Las variables dependientes
también se denominan variables criterio o respuesta, mientras que las variables
independientes son las que servirán para explicar el fenómeno estudiado y se en
ocasiones se denominan como variables explicativas, factores o variables
predictoras.
En los estudios no experimentales, la situación de las variables no siempre es clara,
definiéndose su papel en el contexto de la investigación. Una misma variable
puede adoptar diferentes roles en función de situaciones.
Cuando existen diferencias sistemáticas en una variable dependiente (Y) asociada
a diferentes niveles de variación de la variable independiente (X) se dice que están
relacionadas.
Si todas las variables desempeñan el mismo papel se habla de relaciones de
interdependencia. En este caso no hay una variables con las que se intente explicar
el comportamiento de otras.
En ocasiones, al analizar el modelo la única forma de diferenciar las variables es
simplemente por donde están situadas en la ecuación.
1.4.1 TIPOS DE VARIABLES
Una variable es una característica o propiedad de un elemento (individuo, objeto,
transacción, suceso, etc.), que toma distintos valores para cada elemento.
En general se clasifican en dos grandes grupos:
• Variables no métricas o cualitativas
• Variables métricas o cuantitativas
Los diferentes tipos de variable los resumimos a continuación:
Análisis Multivariante
16
Variables cuantitativas o métricas: Son aquellas en las que los valores tomados
por diferentes individuos tienen un significado propio. De hecho, son una
medición o cuantificación de una determinada característica, la respuesta a la
pregunta: ¿Cuánto/s ?
Ejemplos: altura, peso, edad, hijos, ingresos, de un individuo, empleados, oficinas,
beneficios, de una empresa, etc.
Variables cualitativas o no métricas1: Son aquellas en las que las distintas
características de los elementos estudiados son cualidades o categorías alfabéticas.
Sin embargo, con el fin de facilitar el tratamiento de los datos, estas categorías se
convierten en unos códigos, sin que tenga que existir ningún tipo de relación entre
el valor asignado y el significado de la categoría representada.
Ejemplos: nacionalidad, sexo, religión, estudios cursados, clase social, calificación
(Suspenso, Aprobado, Notable, Sobresaliente), etc.
1.4.1.1 CLASIFICACIÓN POR LOS VALORES QUE PUEDEN
ADOPTAR
De acuerdo con el valor que pueden adoptar las variables estas las podemos
clasificar en los siguientes tipos:
• Variable continua. Se trata de una variable cuantitativa que puede adoptar
cualquier valor numérico, Para todo par de valores siempre podemos
encontrar uno intermedio. Por ejemplo la edad, el consumo de teléfono, ...
• Variable discreta. Puede adoptar un número finito de valores distintos,
entre dos valores consecutivos no se puede encontrar ninguno intermedio.
Por ejemplo el número de personas por hogar.
• Variable dicotómica o binaria. Solo puede tomar dos valores, si se definen
como 0 y 1 se llama binaria.
1 Algunos autores las denominan atributos
Análisis Multivariante
17
• Variables ficticias o Dummy. Se utiliza con variables cualitativas, para
poder obtener información a través de operaciones, se convierten en
binarias, indicando el valor 1 la presencia de una categoría de la variable y
0 su ausencia.
Para realizar la conversión de una variable cualitativa en ficticia se necesitan tantas
variables dummy como categorías tiene la variable menos una.
Ejemplos de variables Dummy
La variable Sexo con las categorías hombre y mujer necesitaría una sola variable
dummy D1: Hombre 0 Mujer 1
Consideremos la variable “Color del producto A” que tiene las siguientes
categorías
1 Rojo 2 Verde 3 Azul
Obtendremos las siguientes Dummy 3 – 1 = 2 que corresponden a:
D1 = Rojo 1 Verde y Azul 0
D2 = Verde 1 Rojo y Azul 0
La categoría azul queda definida ya que tiene 0 en las dos ficticias
1.5 ESCALAS DE MEDIDA
Prácticamente todas las investigaciones de mercado recogen los datos en forma de
números, interesando al investigador lo que estos números representan, por medio
de las correspondientes operaciones de medida.
Medir consiste en asignar números a los sucesos, elementos, objetos, atributos, ...
según unas normas predeterminadas.
Puesto que utilizamos diferentes reglas para la asignación de los números, un
mismo número puede dar lugar a diferentes interpretaciones, ello da lugar a la
existencia de diferentes escalas de medida.
Análisis Multivariante
18
Por escala de medida entenderemos la correspondencia entre los números
asignados a las propiedades de los elementos y la significación de los cálculos
matemáticos realizadas con los números. Básicamente en el análisis estadístico se
utilizan las cuatro escalas siguientes:
Nominal, Ordinal, Intervalo y Ratio o de proporción
Las características de estas escalas las resumimos a continuación:
• Nominal: los posibles valores de la variable representan diferentes
categorías, no existiendo ninguna relación entre el código asignado a una
categoría y su significado Ejemplos: profesión, raza, estado civil, ...
o Caso particular: variables dicotómicas, sólo admiten dos posibles
respuestas. Ejemplos: sexo, verdadero / falso, si / no, ... Se
denominan binarias si se codifican 0 / 1.
• Ordinal: los códigos o valores de cada categoría mantienen la misma
relación de orden que el significado de las categorías. Ejemplos: clase
social, escala de preferencia, ...
• Intervalo: los códigos asignados a diferentes respuestas permiten conocer
la magnitud de la característica medida, ya que se mantiene una relación
de orden y distancia. Ejemplos: temperatura, fechas, cualquier variable
redondeada, ...
• Ratio o razón: los códigos representan el propio valor de la característica
estudiada, observándose una relación de orden y de distancia y la
existencia de un origen Ejemplos: cifra de ventas, ratio económico-
financiero, ...
1.6 VARIABLES Y ESCALAS DE MEDIDA
Partiendo de los dos grandes grupos de variables, (cualitativas y métricas),
podemos resumir la relación entre las variables y las escalas de medida como
sigue:
Análisis Multivariante
19
1. Variables no métricas o cualitativas, vienen medidas en escala nominal u
ordinal
2. Variables métricas o cuantitativas se utilizan las escalas de intervalo o de
razón.
3. Variables binarias se utiliza la escala de razón
1.6.1 CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS
En ocasiones en el estudio se deben realizar transformaciones de escala y origen
Las variables las podemos dividir en:
Valores o puntuaciones directas, también llamadas brutas, se obtienen
directamente del instrumento de medida y en sus mismas dimensiones. Se suelen
representar por letras mayúsculas X, Y, Z, ... teniendo medias mX, mY, mZ ... y las
correspondientes desviaciones típicas sX, sy, sZ, ... medidas en la misma escala
Valores o puntuaciones centradas en la media o diferenciales, son el resultado de
un cambio en el origen al obtenerse de la restando de la media el valor, se suelen
representar con letras minúsculas (x, y, z, ...) y se obtienen a partir de la siguiente
operación x = X - mX
Este tipo de puntuación tiene de media 0 y una desviación típica igual a la de las
puntuaciones originales. Se produce un cambio de origen no de escala.
Valores típicos o estandarizados. Se obtienen restando de cada valor la media y
dividiendo por la desviación típica. Se suelen representar por la letra Z y el
subíndice de a correspondiente categoría de la variable.
Se obtienen de X
X
smX
Z−
=
Los valores tipificados están libres de escala y siempre tienen media igual a 0 y
desviación típica igual a 1.
Análisis Multivariante
20
1.7 CLASIFICACIÓN DE LAS TÉCNICAS
MULTIVARIANTES
Los diferentes métodos de análisis multivariante no solo difieren entre sí por el
objetivo o tipo de resultados obtenidos sino que existen ya diferencias en la
tabulación, forma de codificar y en el trabajo con las variables ya que algunos
métodos pueden trabajar con variables nominales, mientras que otros solo lo hacen
con variables ordinales y métricas.
Una clasificación de gran utilidad es el diferenciar las técnicas multivariantes en
dos grupos básicos:
Métodos descriptivos o de interdependencia y métodos explicativos o de
dependencia.
Los métodos explicativos o de dependencia se emplean para explicar o proyectar
la(s) variable(s) dependiente(s) con base en dos o más variables independientes.
Por ejemplo explicar las ventas en función de numerosas variables independientes
(número de vendedores, inversión en publicidad, promoción, renta de los
consumidores, etc.).
Los métodos descriptivos o de interdependencia tratan de dar significado a un
conjunto de variables o bien tratan de agrupar las cosas. Por ejemplo cuando
realizamos un estudio de segmentación.
La clasificación de las técnicas multivariantes las podemos resumir en el siguiente
esquema.
Análisis Multivariante
21
TÉCNICAS MULTIVARIANTES
EXISTEN VARIABLES DEPENDIENTES E INDEPENDIENTES
SI
MÉTODOS EXPLICATIVOS
NO
MÉTODOS DESCRIPTIVOS
Los métodos explicativos y descriptivos, a su vez se dividen de acuerdo con diferentes
criterios los mas habituales son los que reseñamos en los siguientes esquemas2
2 Apuntes investigación Comercial 2 Facultad de Económicas UAB
Análisis Multivariante
22
Análisis Multivariante
23
Análisis Multivariante
24
1.8 BIBLIOGRAFÍA RECOMENDADA
Análisis Multivariante. Hair, Anderson, otros. Editorial Prentica Hall 5 edición
1999
Técnicas de análisis de datos en Investigación de Mercados. Teodoro Luque
(Coordinador), Editorial Pirámide 2000
Análisis Multivariante
25
Métodos Explicativos o de
Dependencia
Análisis Multivariante
26
2. METODOS EXPLICATIVOS O DE DEPENDENCIA
2.1 INTRODUCCIÓN
Los métodos explicativos o de dependencia, del análisis multivariante, son
técnicas que diferencian entre variables independientes, explicativas o predictoras
y variables dependientes o a explicar.
2.2 OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS:
El objetivo principal de los métodos explicativos es:
Encontrar la relación existente entre la variable/s dependiente/s y
la/s independiente/s:
Este objetivo nos conduce a los siguientes objetivos secundarios:
• Explicar el comportamiento de la/s variable/s dependiente/s (Y)
Por qué la Y no es igual en todas las observaciones
• Estimar el efecto de una o varias variables explicativas (X) cuantitativas o
binarias
¿Cuáles son las variables X que explican el comportamiento de Y?
¿En cuánto varía la Y frente a un cambio de cada una de las X’s?
• Predecir el valor de Y
Cuál es el valor de Y para unas X’s determinadas
Hasta que punto hemos conseguido explicar Y
2.3 TÉCNICAS MAS HABITUALES.
En esta modalidad de análisis multivariable de la información las técnicas más
habituales son:
La regresión, el análisis de la varianza, segmentación jerarquica análisis
discriminante, regresión logística, correlaciones canónicas, análisis de ecuaciones
estructurales.
Análisis Multivariante
Regresión Lineal
Análisis Multivariante
28
3. REGRESIÓN LINEAL
Al clasificar los métodos explicativos por el número de variables dependientes y
las escalas de medida de las variables dependientes e independientes nos
encontrábamos que cuando tenemos una sola variable dependiente y todas las
mediciones de las diferentes variables están en escala métrica podemos aplicar la
técnica denominada regresión
De forma esquemática podemos representar esta situación como
METODOS EXPLICATIVOS
NÚMERO DE VARIABLES DEPENDIENTES
UNA
ESCALA DE MEDIDA DE LA VARIABLE (S)
INDEPENDIENTE (S)
MÉTRICA
ESCALA DE MEDIDA DE LA VARIABLE DEPENDIENTE
MÉTRICA
REGRESIÓN
3.1 CONCEPTO
El análisis de regresión trata de analizar la dependencia de una variable
cuantitativa a explicar respecto de una o varias variables explicativas, también
cuantitativas.
Matemáticamente la regresión la podemos representar como:
Y = f (Xi ) Donde Y es la variable dependiente y Xi representa las diferentes variables
independientes.
Si solo hay una variable independiente (X) se trata de un modelo de regresión
simple
Análisis Multivariante
29
Cuando hay dos o más variables independientes se trata de un modelo de regresión
múltiple.
Si recordamos el modelo de regresión simple o modelo de regresión lineal de
primer orden responde a la siguiente fórmula matemática.
y = β0 + β1x + ε donde:
y = variable dependiente o variable a explicar
x = variable independiente o variable explicativa
ε (epsilon) = error o perturbación aleatoria
β0 =origen de la recta: punto donde la recta corta el eje de
ordenadas o eje de la y.
β1 =pendiente de la recta o coeficiente de regresión: nos indica en
cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1
unidad de la variable independiente.
Su representación gráfica corresponde a la indicada en la Fig. 1
El modelo de regresión múltiple viene expresado por:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε donde:
y = variable dependiente o variable a explicar
xi = variables independientes o variables explicativas
Análisis Multivariante
30
ε (epsilon) = error o perturbación aleatoria
β0 = origen cuando todas las variables independientes son 0
βi = pendiente o coeficiente de regresión de la variable i.
Algunos autores utilizan como coeficiente de regresión en el origen α en vez de
β0 La correspondiente ecuación pasa a ser:
Y X X X X Xn n= + + + + + + +α β β β β β ε1 1 2 2 3 3 4 4 ...
Los coeficientes de regresión son en todos los casos los parámetros a estimar.
El modelo de regresión requiere que todas las variables sean métricas, las
variables independientes que sean cualitativas o no métricas se pueden
convertir en variables métricas ficticias (Dummy) dicotomizándolas, de este
modo las convertimos en binarias (0, 1) y por consiguiente las podemos tratar
como cuantitativas
3.1.1 MODELOS ESTOCÁSTICOS
En los modelos denominados deterministas, para los diferentes valores de la
variables independientes corresponden valores determinados de la variable
dependiente.
Sin embargo este modelo no suele describir bien las relaciones entre las variables
porque no tienen en cuenta las posibles variaciones aleatorias en el valor de la
variable independiente (Y) y que, como tales, no se derivan de la variación de las
variables dependientes.
Como consecuencia de lo expuesto surge la necesidad de otro tipo de modelo que
contemple esta situación. Se trata de los denominados modelos estocásticos de
regresión, denominados así porque forma parte de ellos una variable aleatoria ε
denominada error y perturbación aleatoria.
Esta variable representa todas las influencias, normalmente desconocidas, que
pueden hacer variar la variable dependiente (Y), al margen de las variaciones de
las variables independientes (X).
Análisis Multivariante
31
La ecuación de este tipo de modelo será:
Y X X X X Xn n= + + + + + + +α β β β β β ε1 1 2 2 3 3 4 4 ...
3.2 ANÁLISIS DE REGRESIÓN MÚLTIPLE
El análisis de regresión múltiple es una extensión del análisis de regresión
bivariado que nos permite la investigación simultánea del efecto de dos o más
variables independientes sobre una variable dependiente medida en escala métrica.
Por consiguiente se trata de buscar la ecuación que mejor exprese
matemáticamente la relación de los valores de una variable dependiente (Y) con
los valores de dos o más variables independientes (X1 X2 X3 .....Xn) consideradas
conjuntamente.
De esta forma el problema consiste en la identificación de una relación lineal
mediante el análisis de regresión múltiple.
La ecuación obtenida es del tipo:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε
Los coeficientes βi muestran el efecto sobre la variable de un incremento de una
unidad en la variable independiente correspondiente. Estos coeficientes se les
denomina como coeficientes de regresión parcial. El valor original de βi es el
coeficiente sencillo de la regresión bivariada, se define como el coeficiente de
correlación parcial para el que se mantienen constantes los efectos de las otras
variables independientes.
La función del coeficiente β0 consiste en asegurar que la media de los valores de
Y coincide con la media de los valores de X
3.2.1 ¿QUÉ NOS INTERESA CONOCER?:
• ¿Cómo se calculan los coeficientes de regresión, β0 y βi?
• ¿Cómo se interpretan?
• ¿Cómo se determina si son o no estadísticamente significativos?
• ¿Cómo se comprueban las hipótesis del modelo?
Análisis Multivariante
32
3.3 HIPÓTESIS DEL MODELO DE REGRESIÓN
Hipótesis sobre la forma de la distribución de probabilidad de ε y sobre las
variables independientes
Partiendo del modelo:
y = β0 + β1xI + ... + ε
Las correspondientes hipótesis son:
• La media de la distribución de probabilidad de ε es 0. Es decir, la media de
los valores de ε para un número infinitamente grande de experimentos es 0
para cada valor de la variable independiente x. Esta hipótesis implica que el
valor de la media de y, E(y), para un valor dado de x es E(y) = β0 + β1x.
• La distribución de probabilidad de ε es normal.
• Los valores de ε asociados a dos valores cualquiera observados de y, son
independientes. Es decir, el valor de ε asociado a un valor de y no tiene
ninguna influencia sobre los valores de ε asociados a otros valores de y
(esto implica que los errores no están correlacionados consigo mismo o, lo
que es lo mismo, no existe autocorrelación de errores).
• La varianza de la distribución de probabilidad de ε es constante, σ2, para
todos los valores de la variable independiente, X (es decir, existe
homocedasticidad)
• No debe existir excesiva colinealidad o multicolinealidad (correlación
entre las variables independientes).
La hipótesis primera se considera ciertas y no se contrasta. Se supone que se
cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco
hay forma de comprobar que la media de las perturbaciones sea 0 (ya que para los
errores la estimación por mínimos cuadrados exige que su media sea 0).
3.3.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN
Los estimadores mínimos cuadrados son los mejores que se pueden conseguir
(insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (las
perturbaciones)
Análisis Multivariante
33
El método de estimación por mínimos cuadrados minimiza la suma de cuadrados
de las diferencias entre los valores reales y los estimados de la variable
dependiente, o lo que es lo mismo, los errores cometidos en la estimación de la
variable dependiente (Y)
De conformidad con este criterio la mejor recta es aquella que haga mínima la
suma de los cuadrados de los residuos
∑ 2ieMin
3.3.2 COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
El coeficiente de correlación múltiple (R) indica el porcentaje de variación en la
variable dependiente Y explicado por la variación en las variables independientes
Por tanto representa el grado de asociación entre una variable dependiente y dos o
más variables independientes tomadas en conjunto.
Normalmente en la practica se estudia el cuadrado del coeficiente de correlación o
también llamado coeficiente de determinación múltiple (R2), este índice nos
indica el tanto por ciento de la variación total de la variable dependiente Y,
explicado por la ecuación de regresión y es igual a la razón entre la variación
explicada y la variación total de la variable. Por tanto expresa la proporción de la
varianza de la variable dependiente explicada por el modelo de regresión
Este coeficiente puede variar entre 0 y 1. Si es cero indica la inexistencia de
asociación lineal entre la variable dependiente y las independientes tomadas en
conjunto, este valor no es incompatible con la posible existencia de una posible
correlación curvilínea. Si el valor es 1 indica una asociación perfecta entre las
variables.
Con el fin de ver en la practica estos conceptos vamos a realizar su estudio a través
de un ejemplo.
Resultados estadísticos de un análisis de regresión múltiple
Y = 102´18 + 0´387 X1 + 115´2 X2 + 6´73 X3
Coeficiente de determinación múltiple (R2) 0´845
Test F 14´5
Grados de libertad numerador = 3 y denominador. = 8
Análisis Multivariante
34
El valor R2 = 0´845 nos indica que la variación de las variables independientes
representa 84´5% de la varianza en la variable dependiente.
Para probar la significación estadística se realiza el análisis ANOVA (la prueba o
test F). Esta prueba permite probar las magnitudes relativas de la suma de
cuadrados debidas a la regresión (SSr) y la suma de cuadrados de error (SSe), con
sus correspondientes grados de libertad. La fórmula correspondiente es
FSS k
SS n kr
e= − −
( )( ) ( )1
Donde
k es el número de variables independientes y n es el tamaño de la muestra o el
número de observaciones o encuestas.
Si consideramos que trabajamos con un nivel de significación del 5% el valor
correspondiente para F en tablas con 3 y 8 grados de libertad en el numerador y
denominador obtenemos que el valor es Ft = 4´07.
Por consiguiente como el valor calculado es superior al correspondiente de tablas,
obtenemos como conclusión que la relación existente entre las variables
independientes y la dependiente no es una consecuencia de la aleatoriedad o azar.
Análisis Multivariante
35
TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F
NIVEL DE CONFIANZA 95%
m
N 1 2 3 4 5
1 161´4 199´5 215´7 224´6 230´2
2 18´51 19 19´16 19´25 19´30
3 10´13 9´55 9´28 9´12 9´01
4 7´71 6´94 6´59 6´39 6´26
5 6´61 5´79 5´41 5´19 5´05
6 5´99 5´14 4´76 4,53 4´39
7 5´59 4´74 4´35 4´12 3´97
8 5´32 4´46 4´07 3´84 3´69
9 5´12 4´26 3´86 3´63 3´48
10 4´96 4´10 3´71 3´48 3´33
11 4´84 3´98 3´59 3´36 3´20
12 4´75 3´89 3´49 3´26 3´11
13 4´67 3´81 3´41 3´18 3´03
14 4´6 3´74 3´34 3´11 2´96
15 4´54 3´68 3´29 3´06 2´90
Siendo m los grados de libertad del numerador y n los grados de libertad del
denominador.
Análisis Multivariante
36
3.4 COLINEALIDAD
La colinealidad se produce cuando las variables independientes introducidas en el
modelo de regresión están correlacionadas entre ellas.
Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén
correlacionadas las variables independientes.
Cuando una variable independiente se puede expresar como una combinación
lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha
variable, solucionando la colinealidad. El problema se produce cuando la
correlación entre las X’s es alta o muy alta, pero sin llegar a ser total.
Debemos ser conscientes de que en casi todos los modelos de regresión múltiple
planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta
no sea excesiva ni perjudicial.
3.4.1 MATRIZ DE CORRELACIONES
Se trata de una matriz que tiene tantas filas y columnas como número de variables
correlacionadas tengamos. En cada celda se indica el coeficiente de correlación
entre las variables que se cruzan. La diagonal expresa la correlación de cada
variable consigo misma se consignan con 1 ( algunos autores dicen que se dejen
vacías). La celdas por debajo de esta diagonal se dejan en blanco, ya que
representan las correlaciones entre las casillas en orden invertido ( R12 = R21).
3.4.2 CORRELACIÓN PARCIAL
La correlación múltiple se refiere a modelos en los que se relacionan más de dos
variables independientes,. en este tipo de modelo es normal que si tratamos de
hallar la correlación simple entre las variables dos a dos, esta no exprese el grado
real de asociación entre dichas variables porque el resultado estará con toda
seguridad afectado por la influencia en dicha asociación de las demás variables
que intervienen en el modelo.
Se trata de poder establecer la relación o asociación entre dos de las variables del
modelo, eliminando la influencia del resto de variables. Esto es lo que se hace
mediante los coeficientes de correlación parcial. Mediante estos coeficientes se
puede establecer la correlación entre dos variables, controlando o eliminando el
efecto en dicha correlación de otras variables del modelo.
Análisis Multivariante
37
Existen diversos tipos de correlación parcial, según el número de variables que se
controlan.
Cuando no se controla ninguna variable, la correlación entre dos variables, es la
correlación simple o total se denomina de orden cero, si hay una variable de
control se denomina de orden uno, si se controlan dos variables se trata de una
correlación de orden dos y así sucesivamente.
3.4.3 CORRELACIÓN PARCIAL MÚLTIPLE
La correlación parcial múltiple es una modalidad de correlación entre cuatro o más
variables, que combina los tipos de correlación parcial y la múltiple
Al medir la correlación de más de dos variables estamos realizando una
correlación múltiple y si lo hacemos controlando una o más variables, es a su vez
una correlación parcial.
3.4.4 MULTICOLINEALIDAD
Se denomina multicolinealidad la existencia de una elevada correlación entre las
variables independientes que forman parte del modelo.
Se produce cuando las variables explicativas (X) están altamente correlacionadas
entre si. Esta circunstancia perturba la explicación de los coeficientes de regresión
estimados y sus errores estandar.
Cuando esto sucede no es posible separar la influencia propia sobre la variable
dependiente de cada una de las variables independientes, produciéndose el efecto
de un incremento en los errores estándar de los coeficientes de regresión.
La gravedad de la multicolinealidad dependerá del objetivo que se busque con el
modelo. Si lo que pretendemos es predecir los valores de la variable dependiente
(Y) entonces el problema no es grave, pero si lo es cuando se quiere determinar el
efecto de cada variable independiente sobre la dependiente.
3.4.5 EFECTOS DE LA COLINEALIDAD
La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto
mayor sea la correlación entre las X’s:
Análisis Multivariante
38
• Las desviaciones estándar de los coeficientes de regresión están
sobreestimadas, con lo que aparecen como no significativos coeficientes
que en realidad sí lo son.
• Puede suceder que ninguno de los coeficientes de regresión sean distintos
de cero (no son significativos) y que, a nivel conjunto, sí que lo sean.
• Los coeficientes de regresión estimados no son consistentes, es decir,
pueden cambiar al modificar la muestra o al introducir diferentes variables
en el modelo.
En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no
se sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas
están relacionadas).
3.4.6 FORMAS DE MEDIR LA COLINEALIDAD
La colinealidad se puede medir de distintas formas:
• Matriz de correlaciones de Pearson entre cada par de variables
independientes. Da una idea pero no es concluyente.
• Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la
variable Xj frente a todas las demás X’s.
• Factor de Inflación (o agrandamiento) de la Varianza: (FIV) =1/Tolerancia
Análisis Multivariante
39
3.4.6.1 NIVELES DE COLINEALIDAD
Lo podemos resumir en el siguiente cuadro:
Tolerancia VIF Colinealidad:
Toler = 1 VIF = 1 No existe colinealidad
0,3 < Toler < 1 3,33 > VIF > 1 Poca: el modelo no suele presentar efectos (defectos) importantes
0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación
0,01 <Toler< 0,1 100 > VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo
Toler < 0,01 VIF > 100 Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes)
3.4.7 SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD
Para dar solución a este problema se recurre al análisis factorial. Se aplica el
análisis factorial a las variables independientes correlacionadas entre sí y se
sustituyen sus valores por las puntuaciones de los factores obtenidos, que están
absolutamente incorrelaccionados entre sí.
3.4.8 COEFICIENTES DE REGRESIÓN
Lo podemos resumir en:
Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis de regresión simple:
Análisis Multivariante
40
H0 : βi = 0 (la Xi no influye sobre la Y)
Ha : βi ≠ 0
Estadístico de prueba: t =
S
ˆ
β
β
i
i
Región de rechazo: se rechaza H0 si el nivel de
significación observado es pequeño, menor que
0,05
Observaciones: El modelo no será eficiente si incluye variables que no sean
estadísticamente explicativas (las que tienen un coeficiente de regresión
significativamente distinto de 0)
Como cada Xi puede estar medida en diferentes unidades, la comparación de los
coeficientes de correlación de las diferentes variables se ha de realizar mediante los
coeficientes estandarizados
3.4.8.1 SIGNIFICACIÓN DE LOS COEFICIENTES DE REGRESIÓN
El error estándar es la desviación típica estimada del coeficiente de regresión.
El intervalo de confianza es el intervalo para el que se establece una probabilidad
de que el verdadero valor del coeficiente de regresión esté contenido entre los
límites del mismo.
La significación del mismo se realiza mediante el estadístico “t” de Student
estándarErrorregresióndeeCoeficient
t =
Normalmente se contrasta para α = 5%
3.4.8.2 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS
Son aquellos que se obtendrían si se realiza la regresión con todas las variables
estandarizadas (sin unidad de medida).
x
y
y
x
S
SBetaBo
SS
BBeta ⋅=⋅= 1111
Análisis Multivariante
41
3.4.9 ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN
Se utiliza para contrastar la hipótesis de dependencia lineal entre la variable
dependiente (Y) y las variables independientes (X)
La varianza total de la variable dependiente se divide en
• Atribuida al modelo de regresión
• Residuo no explicado por el modelo
3.5 MODELOS CON VARIABLES FICTICIAS
Una de la condiciones del análisis de regresión es que las variables deben estar
medidas en una escala métrica. Este análisis también se puede aplicar a variables
cualitativas, con escala nominal u ordinal, para ello es necesario transformar estas
variables en otras denominadas ficticias (Dummy), esto se hace de acuerdo con el
álgebra de Boole, dando el valor 1 a la posesión del atributo y el 0 a la carencia.
Análisis Multivariante
42
3.6 TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT
Valores de la función de distribución
g.l. = grados de libertad
tc tal que p(t<=tc)=p
Probabilidad p
g.l. 0,995 0,990 0,975 0,950 0,900 0,800 0,750 0,700 0,600 0,550 1 63,657 31,821 12,706 6,314 3,078 1,376 1,000 0,727 0,325 0,158 2 9,925 6,965 4,303 2,920 1,876 1,061 0,816 0,617 0,289 0,142 3 5,841 4,451 3,183 2,353 1,638 0,978 0,765 0,584 0,277 0,137 4 4,604 3,747 2,786 2,132 1,533 0,941 0,741 0,569 0,271 0,134 5 4,032 3,365 2,571 2,015 1,478 0,920 0,727 0,559 0,267 0,132
6 3,707 3,143 2,457 1,943 1,440 0,906 0,718 0,553 0,265 0,131 7 3,499 2,998 2,365 1,895 1,415 0,896 0,711 0,549 0,263 0,130 8 3,355 2,895 2,306 1,860 1,397 0,889 0,706 0,546 0,262 0,130 9 3,250 2,821 2,262 1,833 1,383 0,883 0,703 0,543 0,261 0,129 10 3,169 2,764 2,228 1,812 1,372 0,879 0,700 0,542 0,260 0,129
11 3,106 2,728 2,201 1,796 1,363 0,876 0,697 0,540 0,260 0,129 12 3,055 2,681 2,179 1,782 1,356 0,873 0,695 0,539 0,259 0,128 13 3,012 2,650 2,160 1,771 1,350 0,870 0,694 0,538 0,259 0,128 14 2,987 2,624 2,145 1,761 1,345 0,868 0,692 0,537 0,258 0,128 15 2,947 2,602 2,131 1,753 1,341 0,866 0,691 0,536 0,258 0,128
16 2,921 2,583 2,120 1,746 1,337 0,865 0,690 0,535 0,258 0,128 17 2,898 2,567 2,110 1,740 1,333 0,863 0,689 0,534 0,257 0,128 18 2,888 2,552 2,101 1,734 1,330 0,862 0,688 0,534 0,257 0,127 19 2,861 2,539 2,093 1,729 1,328 0,861 0,688 0,533 0,257 0,127 20 2,845 2,528 2,086 1,725 1,325 0,860 0,687 0,533 0,257 0,127
21 2,831 2,518 2,080 1,721 1,323 0,859 0,686 0,532 0,257 0,127 22 2,819 2,508 2,074 1,717 1,321 0,858 0,686 0,532 0,256 0,127 23 2,807 2,500 2,069 1,714 1,319 0,858 0,685 0,532 0,256 0,127 24 2,797 2,492 2,064 1,711 1,318 0,857 0,685 0,531 0,256 0,127 25 2,787 2,485 2,060 1,708 1,316 0,856 0,684 0,531 0,256 0,127
26 2,779 2,479 2,056 1,706 1,315 0,856 0,684 0,531 0,256 0,127 27 2,771 2,473 2,052 1,703 1,314 0,855 0,684 0,531 0,256 0,127 28 2,763 2,467 2,048 1,701 1,313 0,855 0,683 0,530 0,256 0,127 29 2,756 2,462 2,045 1,699 1,311 0,854 0,683 0,530 0,256 0,127 30 2,750 2,457 2,042 1,697 1,310 0,854 0,683 0,530 0,256 0,127
40 2,704 2,423 2,021 1,684 1,303 0,851 0,681 0,529 0,255 0,126 60 2,660 2,390 2,000 1,671 1,296 0,848 0,679 0,527 0,254 0,126
Análisis Multivariante
43
3.7 EJEMPLO 1
Se quiere estudiar las ventas en función de las inversiones en publicidad,
promoción, el número de vendedores y el de puntos de venta (Tienda). Para ello se
tienen en cuenta los siguientes resultados3
VENTAS PUBLICIDAD PROMOCIÓN VENDEDORES TIENDAS 1400 52 130 25 300 1500 60 145 30 400 2000 80 150 30 500 1990 95 200 27 500 2100 87 180 35 400 2300 100 150 32 357 2200 94 150 36 287 2700 125 125 34 197 2750 136 98 26 146 2600 124 100 30 150 2763 132 87 28 160 3469 190 100 31 198 3165 197 102 42 300 3400 175 198 29 234 3759 186 212 18 126 3896 213 129 21 157 3895 231 142 20 134 4123 248 167 19 128 4230 257 198 21 115 4567 340 158 18 116 3986 425 98 21 138
3 Tratamiento mediante programa DYANE.3
Análisis Multivariante
A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E
IDENTIFICACIÓN DE LAS VARIABLES
VARIABLE DEPENDIENTE: VENTAS
VARIABLES INDEPENDIENTE 1: inversión en publicidad
VARIABLES INDEPENDIENTE 2: inversión en promoción
VARIABLES INDEPENDIENTE 3: número de vendedores
VARIABLES INDEPENDIENTE 4: número de puntos de venta
Matriz de coeficientes de correlación simple:
ventas publicid promo vendedor tiendas -------- -------- -------- -------- --------
ventas 1.0000 0.8868 0.0884 -0.5988 -0.7814
publicid 0.8868 1.0000 -0.0652 -0.5631 -0.6666
promo 0.0884 -0.0652 1.0000 -0.2779 0.2304
vendedor -0.5988 -0.5631 -0.2779 1.0000 0.5508
tiendas -0.7814 -0.6666 0.2304 0.5508 1.0000
Coeficiente de determinación: 0.9033 Coeficiente de correlación múltiple: 0.9504
Coeficiente de regresión alfa: 1416.4829
Análisis Multivariante
45
COEFIC. SUMA DE PROPORC.
DESVIACIÓN COEFICIENTE ERROR T DE CORREL. CUADRADOS VARIANZA
VARIABLE MEDIA ESTÁNDAR REGRESIÓN ESTÁNDAR STUDENT PARCIAL AÑADIDA AÑADIDA
-------- -------------- -------------- ----------- ---------- -------- ------- -------------------- --------
ventas 2990.1429 946.7194 publicid 168.9048 94.4955 6.5105 1.1022 5.9068 0.8280 14098343.7977 0.7865 p=0.0000
promo 143.7619 38.4862 6.4704 2.2696 2.8509 0.5804 384920.6320 0.0215 p=0.0116
vendedor 27.2857 6.6268 13.4207 16.0705 0.8351 0.2044 86916.2111 0.0048 p=0.4160
tiendas 239.7619 127.1314 -3.4300 0.8869 -3.8672 -0.6951 1621077.2282 0.0904 p=0.0014
-------------------- --------
16191257.8689 0.9033
Análisis Multivariante
46
ANÁLISIS DE LA VARIANZA
FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS
---------------------- --------------- --------------------- ---------------------
Debida a la regresión: 4 16191257.8689 4047814.4672
Residuo: 16 1734292.7025 108393.2939
--- ---------------------
Varianza total: 20 17925550.5714
F de Snedecor con 4 y 16 grados de libertad = 37.3438 (p= 0.0000)
Análisis Multivariante
47
ANEXO: A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S IDENTIFICACIÓN DE LAS VARIABLES ------------------------------- VARIABLE 1 : inversión en publicidad VARIABLE 2 : inversión en promoción VARIABLE 3 : número de vendedores VARIABLE 4 : número de puntos de venta Matriz de coeficientes de correlación simple -------------------------------------------- publicid promo vendedor tiendas -------- -------- -------- -------- publicid 1.0000 -0.0652 -0.5631 -0.6666 promo -0.0652 1.0000 -0.2779 0.2304 vendedor -0.5631 -0.2779 1.0000 0.5508 tiendas -0.6666 0.2304 0.5508 1.0000 Test de Bartlett ---------------- Determinante de la matriz de correlación = 0.247672 Ji cuadrado con 6 grados de libertad = 24.8891 (p = 0.0004) FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 -------- -------- -------- -------- VALOR PROPIO: 2.1890 1.1866 0.3582 0.2662 % DE VARIANZA: 54.72% 29.67% 8.95% 6.65% % VAR.ACUMUL.: 54.72% 84.39% 93.35% 100.00% CARGAS DE LOS FACTORES: COMUNALIDAD ----------- publicid -0.8756 -0.0778 0.4658 0.1018 1.0000 promo 0.0272 0.9698 0.1193 -0.2111 1.0000 vendedor 0.8125 -0.4079 0.3109 -0.2771 1.0000 tiendas 0.8726 0.2716 0.1742 0.3668 1.0000 COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: publicid -0.4000 -0.0656 1.3004 0.3825 promo 0.0124 0.8172 0.3332 -0.7929 vendedor 0.3712 -0.3437 0.8678 -1.0409 tiendas 0.3986 0.2288 0.4863 1.3778
Análisis Multivariante
48
Cargas de los factores retenidos: --------------------------------- FACTOR 1 FACTOR 2 COMUNALIDAD -------- -------- ----------- publicid -0.8756 -0.0778 0.7727 promo 0.0272 0.9698 0.9412 vendedor 0.8125 -0.4079 0.8266 tiendas 0.8726 0.2716 0.8351 ROTACIÓN VARIMAX: Cargas de los factores retenidos (después de la rotación): ---------------------------------------------------------- FACTOR 1 FACTOR 2 COMUNALIDAD -------- -------- ----------- publicid -0.8777 -0.0470 0.7727 promo 0.0612 0.9682 0.9412 vendedor 0.7977 -0.4362 0.8266 tiendas 0.8816 0.2407 0.8351 VARIANZA: 2.1877 1.1879 % DE VARIANZA: 54.69% 29.70% % VAR.ACUMUL.: 54.69% 84.39%
Análisis Multivariante
49
3.8 EJEMPLO2 4
A través de un análisis factorial, una empresa de suavizantes ha determinado que los tres conceptos básicos que caracterizan a su producto son: Suavidad, Aroma y Cremosidad. Ahora quiere comprobar cuál o cuáles de ellos influye/n en la intención de compra.
3.72 1.12 830.00 1.00 830.00 1.00 830.00 1.00 830
Intención de compraSuavidadAromaCremosidad
MediaDesviación
típ. N
Estadísticos descriptivos
1.000 .565 .458 .238
.565 1.000 .000 .000
.458 .000 1.000 .000
.238 .000 .000 1.000
. .000 .000 .000
.000 . .500 .500
.000 .500 . .500
.000 .500 .500 .
830 830 830 830
830 830 830 830830 830 830 830830 830 830 830
Intención decompraSuavidadAromaCremosidadIntención decompraSuavidadAromaCremosidadIntención decompraSuavidadAromaCremosidad
Correlaciónde Pearson
Sig.(unilateral)
N
Intenciónde compra Suavidad Aroma Cremosidad
Correlaciones
Como se puede apreciar en estas tablas, éste es un ejemplo peculiar pues entre las
variables independientes no existe ninguna correlación. Esto es lógico pues el análisis
factorial de componentes principales con rotaciones ortogonales genera variables no
correlacionadas entre ellas. Por otro lado, las variables obtenidas están estandarizadas
(media 0, desviación típica 1) y así deberán ser interpretadas.
4 Autor: Teresa Obis ( Profesora Titular Universidad Autónoma de Barcelona UAB)
Análisis Multivariante
50
.765a .586 .584 .72Modelo1
RR
cuadradoR cuadradocorregida
Error típ. de laestimación
Resumen del modelo
Variables predictoras: (Constante), Cremosidad, Aroma, Suavidada.
606.060 3 202.020 389.513 .000a
428.404 826 .5191034.464 829
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
ANOVAb
Variables predictoras: (Constante), Cremosidad, Aroma, Suavidada.
Variable dependiente: Intención de comprab.
A nivel global el modelo obtenido es satisfactorio. Se ha conseguido explicar el 58,6% de la variabilidad total de Y, la intención de compra. Además, como se puede ver en la tabla ANOVA, esta varianza explicada es suficientemente grande respecto a la residual con lo que este modelo es capaz de explicar los cambios producidos en la Intención de compra.
Coeficientesa
3.717 .025 148.689 .000 3.668 3.766.631 .025 .565 25.228 .000 .582 .680.512 .025 .458 20.465 .000 .463 .561.266 .025 .238 10.644 .000 .217 .315
(Constante)SuavidadAromaCremosidad
1B
Errortíp.
Coeficientes noestandarizados
Beta
Coefic.estandar.
t Sig.Límiteinferior
Límitesuperior
Intervalo de confianzapara B al 95%
Variable dependiente: Intención de compraa.
A nivel individual, todos los coeficientes de regresión son significativamente distintos de 0. Por ello, todas las variables incluidas en el modelo aportan explicación sobre la Intención de compra. En concreto, por una unidad estándar de Suavidad, la Intención de compra aumenta en 0,631 puntos (en una escala de 1 a 5). Una unidad estándar de Aroma provoca un aumento, en promedio, de 0,512 puntos en la Intención de compra y una de Cremosidad de 0,266 puntos. Obsérvese como en este caso las Betas coinciden con las correlaciones de Pearson entre cada una de las variables independientes y la dependiente. Esto es lógico ya que, no al existir correlación entre las X’s, cada una de ellas aporta al modelo lo mismo que es capaz de explicar individualmente.
Análisis Multivariante
51
ANEXO Caso: Inmobiliaria Nuez
(Teresa Obis Artal)
Análisis Multivariante
52
4. ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS
El modelo de regresión lineal de primer orden
y = β0 + β1x + ε
donde:
y = variable dependiente o variable a explicar
x = variable independiente o variable explicativa
ε (epsilon) = error o perturbación aleatoria
β0 = origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la y.
β1 = pendiente de la recta o coeficiente de regresión: nos indica en cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente.
Qué nos interesa:
1. Cómo se calculan los coeficientes de regresión, β0 y β1 2. Cómo se interpretan 3. Cómo se determina si son o no estadísticamente significativos 4. Cómo se comprueban las hipótesis del modelo
Análisis Multivariante
53
4.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN POR
MÍNIMOS CUADRADOS ORDINARIOS
Con los datos de la muestra se pueden estimar los parámetros desconocidos del modelo
del siguiente modo:
y = β0 + β1x + ε
∃y = 0
∃β + 1
∃β x
∃y i = 0
∃β + 40xi
iy - ∃y i = yi - ( 0∃β +
1∃β xi)
SSE (Suma de Errores al Cuadrado) = i
n
=∑
1[ iy - (
0∃β +
1∃β xi)]2
La recta de mínimos cuadrados ordinarios es, precisamente, aquella que minimiza la
suma de los errores cuadrados.
Fórmulas para obtener los estimadores mínimos cuadrados
Pendiente: 1
∃β = xy
xx
SSSS
Origen: 0
∃β = y - 1
∃β x
donde SSxy = ( ) ( )
i i
i i
x yx y
n i 1
n
i 1
n
i=1
n
−∑ ∑= =∑
SSxx = ( )
i
i2
2
xx
n
i=1
ni=1
n
∑∑
−
n = tamaño de la muestra
Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (los errores)
Análisis Multivariante
54
5. EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL
La Inmobiliaria Nuez ha recibido quejas de dos de sus clientes, acusándola de que vende los pisos por debajo del precio de mercado. Para demostrar su buen hacer, el gerente de esta inmobiliaria ha conseguido información sobre ventas de pisos de los últimos cuatro meses de su inmobiliaria y de otros competidores. En el fichero de datos se dispone del precio de venta del piso así como de la superficie del mismo (en m2), el número de habitaciones, la antigüedad de la vivienda, en qué zona se localiza, el mes de la venta y si lo ha vendido la Inmobiliaria Nuez u otra agencia. ¿El precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido?
Descriptivos
precio vivienda (miles euros)
469 56,697 10,931 ,505 55,706 57,689 31,205 89,81949 52,477 8,920 1,274 49,915 55,039 35,000 78,494
518 56,298 10,820 ,475 55,364 57,232 31,205 89,819
OtraNuezTotal
N Media
Desvia-ción
típicaErrortípico
Límiteinferior
Límitesuperior
Intervalo deconfianza para la
media al 95%
Mínimo Máximo
CONCEPTOS BÁSICOS: Media: es la suma de los valores de las observaciones dividido por el número de observaciones.
Desviación típica: raíz cuadrada positiva de la suma de cuadrados de las distancias entre la media y cada elemento, dividido por el número total de observaciones (menos una). Es decir, es una distancia promedio entre las observaciones y la media.
Error típico: se calcula como la desviación típica divida por la raíz de n (tamaño de la muestra). Es la desviación típica de la distribución muestral de las medias. Es decir, es la distancia promedio entre las medias de distintas muestras y la media de la población.
Intervalo de confianza para la media al 95%: se calcula como la media de la muestra ±1,96 veces el error típico. Es el intervalo donde se encuentra la media de la población al 95% de confianza.
5.1 COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:
¿Cómo influye la superficie de la vivienda en el precio de la misma?
Análisis Multivariante
55
Coeficientesa
13,819 1,874 7,374 ,000,477 ,021 ,712 23,037 ,000
(Constante)superficie de la vivienda (m2)
1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.
Variable dependiente: precio vivienda (miles euros)a.
Constante β0: En el origen, cuando todas las variables son cero (es decir, un piso sin superficie) el precio del piso es de 13819 Euros.
Pendiente β1: Por cada m² de más del piso, su precio aumenta en 477 Euros.
5.2 CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β0 Y β1
Coeficientesa
13818,516 1873,995 7,374 ,000477,027 20,707 ,712 23,037 ,000
(Constante)superficie de la vivienda (m2)
1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.
Variable dependiente: precio de la vivienda (euros)a.
Coeficientesa
,013819 ,001874 7,374 ,000,000477 ,000021 ,712 23,037 ,000
(Constante)superficie de la vivienda (m2)
1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.
Variable dependiente: precio de la vivivenda (millones euros)a.
Coeficientesa
13,819 1,874 7,374 ,000,0000477 ,0000021 ,712 23,037 ,000
(Constante)superficie vivienda (cm2)
1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.
Variable dependiente: precio vivienda (miles euros)a.
5.3 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS
Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida).
Beta0: Al restar las medias, la constante estándar siempre es 0
Análisis Multivariante
56
x
y
y
x
S
SBetaBo
SS
BBeta ⋅=⋅= 1111
Coeficientesa
13,819 1,874 7,374 ,000,477 ,021 ,712 23,037 ,000
(Constante)superficie de la vivienda (m2)
1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizados
t Sig.
Variable dependiente: precio vivienda (miles euros)a.
COEFICIENTES DE REGRESIÓN ESTANDARIZADOS:
Constante βETA0: la recta de regresión con variables estandarizadas pasa siempre por el origen. Cuando se estandarizan las variables se hace un cambio de ejes y se sitúan en el valor medio de X e Y, por donde pasa la recta de regresión superficie de la vivienda (m2)
140120100806040
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
Pendiente βETA1: Por cada unidad estándar de más de superficie del piso, el precio aumenta en 0,712 unidades estándares de precio
Estadísticos descriptivos
56,298 10,820 51889,05 16,15 518
precio vivienda (miles euros)superficie de la vivienda (m2)
MediaDesviación
típ. N
( )( )
=•
22477,0
..15,16
..82,10
..
..712,0
m
eurosmiles
Xeum
Yeueurosmiles
Xeu
Yeu
5.4 COEFICIENTE DE CORRELACIÓN DE PEARSON
El coeficiente de correlación de Pearson, ρ o R, es una medida que resume la relación
lineal [recta] existente entre dos variables.
Análisis Multivariante
57
ρ = yx
ii
yyxx
xy
ss)1n()yy)(xx(
SSSS
SS−
−−= ∑
De esta forma, se dispone de una medida de la relación entre x e y que no depende de
las unidades de las variables originales. De hecho, el coeficiente de correlación de
Pearson es el coeficiente de regresión (pendiente de la recta) cuando las variables x e y
se introducen en el modelo de forma estandarizada (Beta).
superficie de la vivienda (m2)
140120100806040
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
Correlación positiva
Arreglos (de 0 -nada- a 10)
1086420-2
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
Correlación negativa
Antigüedad de la casa (años)
14121086420
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
Sin correlación
Distancia centro (Km)
20100
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
Sin correlación lineal
El coeficiente de correlación de Pearson toma valores entre –1 y 1. Cuando más
próximo a ±1 sea, mayor será la relación lineal existente entre las dos variables (positiva
o negativa).
Si la correlación de Pearson es 0, no existe relación rectilínea entre las dos variables. En
este caso B1 también será igual a 0.
Análisis Multivariante
58
Estadísticos descriptivos
518 31.205 89.819 56.298 10.820518 51 137 89.05 16.15518 .00 9.50 5.10 1.70518 1 13 6.18 2.08518 .88 19.46 10.57 5.21518
precio vivienda (miles euros)superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)Distancia centro (Km)N válido (según lista)
N Mínimo Máximo Media Desv. típ.
Correlaciones
1.000 .712** -.667** -.004 .061. .000 .000 .930 .163
518 518 518 518 518.712** 1.000 -.951** .055 -.002.000 . .000 .214 .966518 518 518 518 518
-.667** -.951** 1.000 -.069 -.014.000 .000 . .116 .748
518 518 518 518 518
-.004 .055 -.069 1.000 -.014.930 .214 .116 . .755518 518 518 518 518
.061 -.002 -.014 -.014 1.000
.163 .966 .748 .755 .518 518 518 518 518
Correlación PearsonSig. (bilateral)NCorrelación PearsonSig. (bilateral)NCorrelación PearsonSig. (bilateral)N
Correlación PearsonSig. (bilateral)NCorrelación PearsonSig. (bilateral)N
precio vivienda(miles euros)
superficie de lavivienda (m2)
Arreglos (de 0-nada- a 10)
Antigüedad dela casa (años)
Distanciacentro (Km)
preciovivienda(mileseuros)
superficie de la
vivienda(m2)
Arreglos(de 0
-nada- a10)
Antigüedad de la
casa(años)
Distancia centro
(Km)
La correlación es significativa al nivel 0,01 (bilateral).**.
Entre el precio de la vivienda y las otras cuatro variables aparecen 2 correlaciones próximas a 1 (lo que indica relación lineal entre cada una de ellas y el precio) y otras 2 correlaciones próximas a 0 (lo que indica que no existe relación entre ellas y el precio, o que la relación no es rectilínea)
Análisis Multivariante
59
COMPROBACIÓN DE LA BONDAD DEL MODELO:
INFERENCIAS ACERCA DE LA PENDIENTE β1 (o ρ)
Distribución muestral de 1
∃β
Si las hipótesis sobre ε se cumplen, la distribución muestral de 1
∃β , el estimador de la
pendiente por mínimos cuadrados, seguirá una normal con una media β1 (la verdadera
pendiente) y desviación estándar igual a 1
∃βσσ
=xxSS
donde σ es la desviación típica de la perturbación (o estimación).
Intervalo de confianza al 100(1-α)% para la pendiente β1
1
∃β ± tα/2 1
∃βS donde 1
∃βS = SSSxx
y tα/2 se calcula con (n-2) grados de libertad.
Contraste sobre la utilidad del modelo
H0 : β1 = 0 (la X no influye sobre la Y)
Ha : β1 ≠ 0
Estadístico de prueba: t = 1
1
1∃ ∃
∃
β β
βS sSSxx
=
Región de rechazo: t < - tα/2 o t > tα/2;donde tα/2 tiene (n-2) g.l.
También se puede rechazar la H0 cuando el nivel de significación observado (probabilidad de equivocarme si rechazo H0) sea suficientemente pequeño, menor que 0,05 o 0,10
Supuestos: Hipótesis sobre la distribución de probabilidad de ε
Análisis Multivariante
60
5.5 EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS
PISOS:
Coeficientesa
13.819 1.874 7.374 .000 10.137 17.500
.477 .021 .712 23.037 .000 .436 .518
(Constante)superficie de lavivienda (m2)
1B
Errortíp.
Coeficientes noestandarizados
Beta
Coefic.estand.
t Sig.Límiteinferior
Límitesuperior
Intervalo confianzapara B al 95%
Variable dependiente: precio vivienda (miles euros)a.
Cuando aumenta la superficie de la vivienda en 1 m2 el precio de la misma aumenta en 477 euros, en promedio. Al 95% de confianza, el incremento podría situarse entre 436 euros y 518 euros.
Coeficientesa
77.931 1.121 69.543 .000 75.730 80.133
-4.240 .208 -.667 -20.349 .000 -4.649 -3.831
(Constante)Arreglos (de 0-nada- a 10)
1B
Errortíp.
Coeficientes noestandarizados
Beta
Coefic.estand.
t Sig.Límiteinferior
Límitesuperior
Intervalo confianzapara B al 95%
Variable dependiente: precio vivienda (miles euros)a.
Cuando la percepción de arreglos a realizar en la vivienda aumenta un punto en la escala de 10 el precio disminuye en 4240 euros, en promedio.
Coeficientesa
56.422 1.489 37.890 .000 53.497 59.348
-.020 .228 -.004 -.088 .930 -.469 .429
(Constante)Antigüedad dela casa (años)
1B
Errortíp.
Coeficientes noestandarizados
Beta
Coefic.estand.
t Sig.Límiteinferior
Límitesuperior
Intervalo confianzapara B al 95%
Variable dependiente: precio vivienda (miles euros)a.
Al aumentar la antigüedad de la vivienda en 1 año el precio de la misma no varía significativamente. Es decir, sea cual sea la antigüedad de la casa el precio previsto será siempre el mismo: 56422 euros (aproximadamente, el promedio de precio de las observaciones disponibles).
Análisis Multivariante
61
5.6 COEFICIENTE DE DETERMINACIÓN
Podemos preguntarnos, ¿por qué la Y no es igual para todos?
)ˆ()ˆ()( yyyyyy iiii −+−=−
∑ − 2)( yyi = ∑ − 2)ˆ( yyi + ∑ − 2)ˆ( ii yy
SSyy (total) = SSR (explicada) + SSE (residual)
El coeficiente de determinación, R2, representa la proporción de la variabilidad total de
la muestra respeto a y que es explicada por la relación lineal entre x e y. Se calcula
como:
R2 = totaladVariabilid
explicada adVariabilid)(y
)ˆ(y1
SS
SSR2
i
2i =
−−
−=∑
∑y
yi
yy
5.7 COMPROBACIÓN DE LA BONDAD GLOBAL DEL
MODELO: ANALISIS DE LA VARIANZA
Contraste sobre la utilidad global del modelo
H0 : R² = 0 (En la regresión simple coincide con la inferencia sobre β1) Ha : R² ≠ 0
Estadístico de prueba:
F = residualVarianza
explicada Varianza1
112
2
=
−−
−=
−
−−
k nR
kR
k nSSEk
SSESS yy
Donde n es el tamaño de la muestra y k el número total de variables en el modelo (dependiente+independiente/s)
Región de rechazo: cuando el valor de F sea suficientemente grande según las tablas o cuando nivel de significación observado (la probabilidad de equivocarnos si rechazamos la H0) sea suficientemente pequeño, menor que 0,05 o 0,10.
Supuestos: Hipótesis sobre la distribución de probabilidad de ε.
Análisis Multivariante
62
En nuestro ejemplo del precio del piso explicado a través de su superficie, los estadísticos globales del modelo son:
Resumen del modelo
,712a ,507 ,506 7,6044Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), superficie de la vivienda (m2)a.
ANOVAb
30689,069 1 30689,069 530,708 ,000a
29838,571 516 57,82760527,639 517
RegresiónResidualTotal
Modelo
1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), superficie de la vivienda (m2)a.
Variable dependiente: precio vivienda (miles euros)b.
Con las variables incluidas en el modelo, la superficie de la vivienda y una constante, se ha conseguido explicar el 50,7% de la variabilidad del precio del piso (30689 / 60527). Por otro lado, la varianza explicada es 530 veces la residual (30689 / 57). Como la significación de la F es menor que 0,05 podemos afirmar que esta varianza explicada es suficientemente grande. Es decir, hemos conseguido explicar porqué el precio no es igual en todas las viviendas (por la superficie de la misma).
5.8 PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN
• Cuando se rechaza la H0 sobre la utilidad del modelo por medio de la significación
de la F se dice que el modelo es “útil” (con un determinado nivel de confianza). Sin
embargo, útil no significa que necesariamente sea el mejor. Algún otro modelo
podría ofrecer mejores estimaciones y predicciones.
• Un coeficiente de determinación (o de correlación) “alto” no significa que sea muy
próximo a 1, ni un coeficiente “bajo” que sea próximo a 0 (no existe relación). La
significación del test de la F (o de la t) es la que dirá si dicho coeficiente es
suficientemente grande o no (estadísticamente diferente de 0).
Análisis Multivariante
63
• La ausencia de correlación entre dos variables puede indicar, simplemente, que la
relación entre ambas no es rectilínea.
• Un nivel de correlación elevado no implica necesariamente la existencia de una
relación de CAUSALIDAD entre las variables analizadas. Se pueden encontrar
altas correlaciones por CASUALIDAD, lo que se denomina relaciones espurias. Se
producen porque ambas variables están correlacionadas con una tercera variable.
5.9 OTROS AJUSTES DE BONDAD DEL MODELO
R cuadrado corregida, 2R : si se introduce una nueva variable en el modelo, la R2
siempre aumenta (ya que se consigue explicar algo más, aunque sea muy poco). De la
misma manera, al quitar una variable la R2 siempre disminuye (aunque sea muy poco).
Como nos interesa saber si es conveniente introducir/quitar una variable en el modelo,
se ajusta la R2 según los grados de libertad:
)1(1 222 Rkn
kRR −
−−
−=
De esta manera, un aumento de la 2R indica que el modelo ha mejorado al
introducir/quitar una variable.
Desviación típica de la perturbación o de la estimación, σ: Aún en la población, la
estimación de Y para una X concreta puede tener cierto error, ε. Por este motivo se dice
que ésta es una fuente de error propio del modelo de regresión. La variabilidad de este
error intrínseco se mide por σ.
Esta desviación típica de la estimación se estima por:
kne
s i
−=≈ ∑ 2
22σ
Análisis Multivariante
64
5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR
Error muestral para el estimador de la media de y:
La desviación típica de la distribución muestral del estimador del valor medio de y para
un valor de x, por ejemplo xp, viene dada por:
( )
∃yσ σ= +−1
n
2
xx
px x
SS
Se debe al error muestral: por trabajar con datos de una muestra
Error muestral para el estimador de un valor concreto de y:
La desviación típica del error de la predicción de un valor concreto y cuando x = xp, (y -∃y ), es:
( )
( ∃)y y− = + +−
σ σ 11n
2
xx
px x
SS
Por tanto, la varianza total del error de pronóstico se divide en dos partes: varianza debida a la perturbación aleatoria (σ²) y la varianza debida al error muestral.
Análisis Multivariante
65
Intervalo de confianza al 100(1-α)% para el valor medio de y cuando x = xp ∃y ± tα/2 (la desviación estándar estimada de ∃y )
∃y ± tα/2 ( )
s1n
2
xx
px x
SS+
−; donde tα/2 tiene (n-2) g.l.
superficie de la vivienda (m2)
140120100806040
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
por dónde puede estar la recta de la población
Intervalo de confianza al 100(1-α)% para un valor individual de y cuando x = xp ∃y ± tα/2 [la desviación estándar estimada para (y - ∃y )]
∃y ± tα/2 ( )
s1n
2
xx
px x
SS1+ +
−; donde tα/2 tiene (n-2) g.l.
superficie de la vivienda (m2)
140120100806040
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
por dónde pueden estar las observaciones
Análisis Multivariante
66
En nuestro ejemplo, las dos viviendas que dicen que la agencia Nuez ha vendido por debajo del precio tienen una superficie de 104,285 y 90,333 m2 (observaciones 423 y 444) y las vendió a 53313 y 46084 euros:
Resúmenes de casos
399 Otra 35.060 69.238 46.847 45.807 47.886 31.871 61.822406 Otra 42.470 83.238 53.525 52.828 54.223 38.570 68.481409 Otra 58.735 116.095 69.199 67.918 70.480 54.205 84.193416 Otra 49.277 96.048 59.636 58.920 60.351 44.679 74.592423 Nuez 53.313 104.286 63.566 62.663 64.468 48.599 78.532424 Otra 38.253 75.190 49.686 48.821 50.552 34.722 64.651428 Otra 41.145 84.286 54.025 53.341 54.709 39.070 68.980430 Otra 52.470 104.095 63.475 62.577 64.372 48.508 78.441432 Otra 50.120 100.333 61.680 60.879 62.481 46.719 76.641434 Otra 47.590 96.905 60.045 59.315 60.775 45.088 75.002437 Otra 43.072 86.762 55.206 54.543 55.869 40.252 70.160444 Nuez 46.084 90.333 56.910 56.251 57.568 41.956 71.864450 Otra 36.747 76.619 50.368 49.539 51.196 35.406 65.330452 Otra 32.349 60.619 42.735 41.406 44.065 27.737 57.734457 Otra 50.422 101.095 62.044 61.225 62.863 47.082 77.005463 Otra 55.241 113.571 67.995 66.801 69.189 53.008 82.982465 Otra 41.446 81.810 52.844 52.124 53.563 37.887 67.801467 Otra 45.964 93.571 58.455 57.773 59.136 43.500 73.410468 Otra 43.253 84.524 54.139 53.457 54.820 39.184 69.094478 Otra 39.759 76.762 50.436 49.611 51.261 35.474 65.398480 Otra 46.928 95.762 59.500 58.789 60.210 44.543 74.456485 Nuez 47.831 92.476 57.932 57.261 58.603 42.978 72.887499 Otra 31.205 66.000 45.302 44.158 46.447 30.319 60.285503 Otra 62.229 128.048 74.901 73.184 76.618 59.863 89.938
123456789101112131415161718192021222324
Número decaso
Agencia
preciovivienda(mileseuros)
superficie de lavivienda
(m2)Predicted
Value
95% LCI for
PRECIOmean
95% UCI for
PRECIOmean
95% L CIfor
PRECIOindividual
95% U CIfor
PRECIOindividual
Precio previsto (ob. 423) = 13,819 + 0,477 * 104,285 = 63,555 euros.
Al 95% de confianza, la estimación promedio podría situarse entre 62663 y 64468 euros.
Al 95% de confianza, la predicción de una observación particular podría situarse entre 48599 y 78532, lo que incluye el precio de venta de 53313.
Lo mismo sucede con la observación 444. Un piso de 90,333 m2 puede tener un precio de venta situado entre 41956 y 71864 euros. Por ello, la venta a un precio de 46084 euros puede ser factible.
Análisis Multivariante
67
5.11 HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE
Hipótesis sobre la forma de la distribución de probabilidad de ε:
y = β0 + β1x + ε
1. La media de la distribución de probabilidad de ε es 0. Es decir, la media de los
valores de ε para un número infinitamente grande de experimentos es 0 para cada
valor de la variable independiente x. Esta hipótesis implica que el valor de la media
de y, E(y), para un valor dado de x es E(y) = β0 + β1x.
2. La distribución de probabilidad de ε es normal.
3. La varianza de la distribución de probabilidad de ε es constante, σ2, para todos los
valores de la variable independiente, X (es decir, existe homocedasticidad).
4. Los valores de ε asociados a dos valores cualquiera observados de y, son
independientes. Es decir, el valor de ε asociado a un valor de y no tiene ninguna
influencia sobre los valores de ε asociados a otros valores de y (esto implica que los
errores no están correlacionados consigo mismo o, lo que es lo mismo, no existe
autocorrelación de errores).
La hipótesis 1 se considera cierta y no se contrasta. Se supone que se cumple con una
muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de
comprobar que la media de las perturbaciones sea 0 (ya que la estimación por mínimos
cuadrados exige que la media de los errores sea 0).
5.12 NORMALIDAD DE LOS ERRORES
La distribución de probabilidad de ε tiene que ser normal, con una media igual a 0 y una
desviación estándar de σ.
Al cumplirse esta hipótesis, podemos hacer inferencia sobre β1 y comprobar si su valor
es significativamente distinto de 0.
Análisis Multivariante
68
Se contrasta analizando el histograma de los residuos o el gráfico de probabilidad
acumulada observada/esperada según la normal:
Regresión Residuo tipificado
2.131.88
1.631.38
1.13.88.63.38.13-.13
-.38-.63
-.88-1.13-1.38
-1.63-1.88
-2.13
Histograma
Variable dependiente: precio vivienda (miles euros)
Fre
cuen
cia
40
30
20
10
0
Desv. típ. = 1.00
Media = 0.00
N = 518.00
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: precio vivienda (miles euros)
Prob acum observada
1.00.75.50.250.00
Pro
b ac
um e
sper
ada
1.00
.75
.50
.25
0.00
Si el tamaño de muestra es suficientemente grande, el teorema central del límite
garantiza las propiedades de los estimadores mínimos cuadráticos, sea cual sea la forma
de la distribución de las perturbaciones. Si el tamaño de muestra es pequeño y la
distribución es muy asimétrica no se garantiza la normalidad, con los intervalos de
confianza pueden ser incorrectos.
5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES
Las perturbaciones, ε, han de tener una misma varianza, σ2, para todos los valores de la
variable independiente, X.
Es decir, la dispersión de las perturbaciones no puede ser, por ejemplo, más grande para
los valores más grandes de X y más pequeña para los más pequeños.
Análisis Multivariante
69
Se puede utilizar el gráfico de la Y estimada (o de una X) frente a los residuos
estandarizados para ver si el error varía su amplitud:
Gráfico de dispersión
Variable dependiente: precio vivienda (miles euros)
Regresión Valor pronosticado tipificado
43210-1-2-3
Reg
resi
ón R
esid
uo e
stud
entiz
ado
3
2
1
0
-1
-2
-3
Homocedasticidad
Gráfico de dispersión
Variable dependiente: OTRA_Y
Regresión Valor pronosticado tipificado
43210-1-2-3
Reg
resi
ón R
esid
uo e
stud
entiz
ado
4
3
2
1
0
-1
-2
-3
Heterocedasticidad
Numéricamente se comprueba comparando los errores de las observaciones con valores
más bajos con los de las más altas para ver si son estadísticamente diferentes. También
se pueden realizar regresiones de los errores al cuadrado con cada variable X en
búsqueda de una explicación de la heterocedasticidad.
Si se demuestra que hay heterocedasticidad, los estimadores mínimo cuadrático son
ineficientes. Las estimaciones se han de efectuar con un modelo de mínimos cuadrados
generalizados o bien, si se pueden establecer supuestos sobre el comportamiento de las
varianzas, por mínimos cuadrados ponderados.
5.14 NO AUTOCORRELACIÓN DE ERRORES
La autocorrelación de errores se presenta cuando el error que se produce en una
observación está relacionado con el de la otra. Habitualmente se supone un
proceso autorregresivo de primer orden, es decir: ttt uu ερ += −1 .
La presencia de autocorrelación se puede deber a: el modelo no se ha especificado
correctamente (falta alguna X o la relación no es recta); la Y depende del tiempo o tiene
comportamientos cíclicos.
Análisis Multivariante
70
El gráfico de los pronósticos frente a los residuos estandarizados permite ver si los
errores tienen algún comportamiento:
Gráfico de dispersión
Variable dependiente: precio vivienda (miles euros)
Regresión Valor pronosticado tipificado
210-1-2
Reg
resi
ón R
esid
uo e
stud
entiz
ado
4
3
2
1
0
-1
-2
-3
Relación no rectilínea
Comportamiento autoregresivo
La autocorrelación se puede contrastar tratando de inferir el componente autoregresivo
o por medio del test de Durbin-Watson
Si la autocorrelación se produce por un error de especificación se ha de revisar el
modelo. Si hay autocorrelación de errores, pero no se conoce su causa, se debe acudir a
los mínimos cuadrados generalizados (pues los estimadores mínimos cuadrados son
ineficientes) o bien aplicar un procedimiento bi-etápico.
Análisis Multivariante
71
6. LINEALIDAD EN EL MODELO DE REGRESIÓN
6.1 OTRAS TRANSFORMACIONES
En nuestro ejemplo de las viviendas, vimos como el precio estaba relacionado con la distancia al centro pero no de una forma rectilínea
Distancia centro (Km)
20100
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
A la vista de esta gráfica se puede pensar que el ajuste se puede mejorar utilizando un modelo cuadrático
y = β0 + β1x + β2x2 + ε
Los resultados de este modelo de regresión no lineal serían los siguientes: Dependent variable.. PRECIO Method.. QUADRATI Multiple R .81267 R Square .66044 Adjusted R Square .65912 Standard Error 6.31732 Analysis of Variance: DF Sum of Squares Mean Square Regression 2 39974.734 19987.367 Residuals 515 20552.906 39.909 F = 500.82914 Signif F = .0000 -------------------- Variables in the Equation -------------------- Variable B SE B Beta T Sig T DISTANCIA -10.114875 .328898 -4.872461 -30.754 .0000 DISTANCIA**2 .503698 .015961 4.999952 31.559 .0000 (Constant) 93.278782 1.367318 68.220 .0000
Análisis Multivariante
72
precio vivienda (miles euros)
Distancia centro (Km)
20100
Pre
cio
vivi
enda
(m
iles
euro
s)
100
90
80
70
60
50
40
30
Observada
Cuadrático
Ahora solo hay que interpretar los resultados: Por cada Km. de distancia al centro el precio disminuye en 10114 euros, pero a la vez aumenta en 503 por cada Km. al cuadrado.
Curva de costes medios (transformación inversa)
CFbvaX
baY
vQ
CFCM
QCT
QvCFCT
==
+=
+==
+=
;
1
Curva de crecimiento vegetativo (a una tasa de g) (transformación semi-logarítmica)
eb
x
B
x
g( B ;BAY
==
+=+=
+==
eaA
bXaY)(ln lnBlnAlnY
:ciónTransforma
)1
b > 0
a
A
B >1
B < 1
Análisis Multivariante
73
Curva de esfuerzo de marketing (transformación logarítmico-inversa)
xb
aY
Y e xb
a
+=
= +
ln
ciónTransforma
7. ANÁLISIS DE REGRESIÓN MÚLTIPLE
El modelo de regresión múltiple
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε
donde:
y = variable dependiente o variable a explicar
xi = variables independientes o variables explicativas
ε (epsilon) = error o perturbación aleatoria
β0 = origen cuando todas las variables son 0
βi = pendiente o coeficiente de regresión de la variable i.
7.1 INFERENCIAS ACERCA DE LOS COEFICIENTES DE
REGRESIÓN DE CADA VARIABLE, βI
Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la
utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis
de regresión simple:
H0 : βi = 0 (la Xi no influye sobre la Y)
Ha : βi ≠ 0
2b−
b < 0
Análisis Multivariante
74
Estadístico de prueba: t =
S
ˆ
β
β
i
i
Región de rechazo: se rechaza H0 si el nivel de significación observado es pequeño, menor que 0,05 o 0,10
Observaciones: El modelo no será eficiente si incluye variables que no sean estadísticamente explicativas (las que no tienen un coeficiente de regresión significativamente distinto de 0) Como cada Xi puede estar medida en diferentes unidades, la comparación de los
coeficientes de correlación de las diferentes variables se ha de realizar mediante las
Betas
7.2 COEFICIENTE DE DETERMINACIÓN
Como en la regresión simple, el coeficiente de determinación, R2, representa la
proporción de la variabilidad total de la muestra respeto a y que es explicada por la
relación lineal entre x e y.
Se calcula igual que antes:
R2 = totaladVariabilid
explicada adVariabilid
)y(y
)y(y1
SSSSR
2i
2ii
yy=
−
−−=
∑∑
Ahora tiene una gran utilidad. La R2 mide la explicación conjunta conseguida con todas
las variables independientes introducidas en el modelo de regresión (en cambio la R del
modelo global no se puede interpretar, es la raíz cuadrada de la R2).
7.3 COMPROBACIÓN DE LA BONDAD GLOBAL DEL
MODELO: ANALISIS DE LA VARIANZA
Contraste sobre la utilidad global del modelo
H0 : R² = 0 (o, H0 : β1 = β2 = . . . = βk = 0 ningún coeficiente es importante para explicar la y)
Ha : R² ≠ 0 (Ha : al menos un βi ≠ 0 al menos un coeficiente explica la y)
Análisis Multivariante
75
Estadístico de prueba:
F = residualVarianza
explicada Varianza1
112
2
=
−−
−=
−
−−
k nR
kR
k nSSEk
SSESS yy
donde n es el tamaño de la muestra y k el número total de variables en el modelo (dependiente+independientes) Región de rechazo: cuando nivel de significación observado sea suficientemente pequeño, menor que 0,05 o 0,10.
7.4 HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE
Las hipótesis sobre la forma de la distribución de probabilidad de ε son las mismas que
en el modelo de regresión simple.
En la regresión múltiple además se debe cumplir que:
No debe existir excesiva colinealidad o multicolinealidad (correlación entre las
variables independientes).
7.5 COLINEALIDAD
Como se ha indicado, la colinealidad se produce cuando las variables independientes
introducidas en el modelo de regresión están correlacionadas entre ellas.
Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén
correlacionadas las variables independientes.
Cuando una variable independiente se puede expresar como una combinación lineal de
las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable,
solucionando la colinealidad. El problema se produce cuando la correlación entre las
X’s es alta o muy alta, pero sin llegar a ser total.
Debemos ser conscientes de que en casi todos los modelos de regresión múltiple
planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta no sea
excesiva ni perjudicial.
Análisis Multivariante
76
7.6 EFECTOS DE LA COLINEALIDAD
La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto mayor
sea la correlación entre las X’s:
• Las desviaciones estándar de los coeficientes de regresión están sobreestimadas,
con lo que aparecen como no significativos coeficientes que en realidad sí lo son.
• Puede suceder que ninguno de los coeficientes de regresión sean distintos de
cero (no son significativos) y que, a nivel conjunto, sí que lo sean.
• Los coeficientes de regresión estimados no son consistentes, es decir, pueden
cambiar al modificar la muestra o al introducir diferentes variables en el modelo.
En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se
sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas están
relacionadas).
7.7 FORMAS DE MEDIR LA COLINEALIDAD
La colinealidad se puede medir de distintas formas:
• Matriz de correlaciones de Pearson entre cada par de variables independientes. Da
una idea pero no es concluyente.
• Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la variable Xj
frente a todas las demás X’s.
• Factor de Inflación (o agrandamiento) de la Varianza:
(FIV) = 1 / Tolerancia
Análisis Multivariante
77
7.8 NIVELES DE COLINEALIDAD
Tolerancia VIF Colinealidad:
Toler = 1 VIF = 1 No existe colinealidad
0,3 < Toler < 1 3,33 > VIF > 1 Poca: el modelo no suele presentar efectos (defectos) importantes
0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación
0,01 <Toler< 0,1 100 > VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo
Toler < 0,01 VIF > 100 Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes)
Volvamos al ejemplo que trataba de explicar el precio de las viviendas por medio de la superficie del mismo (en m2), el nivel de reparaciones que necesita y la antigüedad de la vivienda. Ahora las incluimos todas ellas en un modelo de regresión múltiple, obteniendo el siguiente resultado:
Correlaciones
1.000 .712 -.667 -.004.712 1.000 -.951 .055
-.667 -.951 1.000 -.069-.004 .055 -.069 1.000
. .000 .000 .465.000 . .000 .107.000 .000 . .058.465 .107 .058 .
precio vivienda (miles euros)superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)precio vivienda (miles euros)superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)
Correlaciónde Pearson
Sig.(unilateral)
preciovivienda(mileseuros)
superficie de lavivienda
(m2)
Arreglos(de 0
-nada- a10)
Antigüedad dela casa(años)
Análisis Multivariante
78
Con las correlaciones de Pearson entre cada par de variables podemos observar, en primer lugar, cuáles son las relaciones existentes entre cada una de las variables X y la Y. En nuestro caso, tanto la superficie de la vivienda como el nivel de arreglos tienen una alta correlación estadísticamente significativa con el precio de la vivienda. La única diferencia es que la relación es de signo positivo en la primera variable y negativa en la segunda. La antigüedad de la casa no influye significativamente en el precio de la vivienda. En segundo lugar, se puede apreciar el nivel de correlación que existe entre las variables independientes. Parece ser que la superficie de la vivienda tiene una alta correlación de signo negativo con el nivel de arreglos (parece que las casas grandes están más bien cuidadas que las pequeñas, o al menos lo aparentan). Esto es una indicación de que el modelo presentará colinealidad.
Resumen del modelo
.714a .510 .507 7.5984Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Antigüedad de la casa (años),superficie de la vivienda (m2), Arreglos (de 0 -nada- a 10)
a.
ANOVAb
30851.138 3 10283.713 178.115 .000a
29676.502 514 57.73660527.639 517
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Antigüedad de la casa (años), superficie de lavivienda (m2), Arreglos (de 0 -nada- a 10)
a.
Variable dependiente: precio vivienda (miles euros)b.
Los resultados a nivel global del modelo parecen satisfactorios. Se consigue explicar un 51% de la variabilidad del precio, y está explicación es suficiente comparada con la residual. Aunque, lo cierto es que no hemos conseguido mejorar extremadamente el coeficiente de determinación que teníamos en el modelo que incluía sólo la superficie de la vivienda (50,7%).
Análisis Multivariante
79
Coeficientesa
6.654 9.179 .725 .469 -11.379 24.688.538 .067 .803 8.060 .000 .407 .669.595 .634 .094 .939 .348 -.650 1.841
-.214 .161 -.041 -1.333 .183 -.530 .102
(Constante)superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)
1B
Errortíp.
Coeficientes noestandarizados
Beta
Coefic.estand.
t Sig.Límiteinferior
Límitesuperior
Intervalo confianzapara B al 95%
Variable dependiente: precio vivienda (miles euros)a.
Finalmente, a nivel individual parece que la única variable con un coeficiente de regresión significativamente distinto de 0 es la superficie. ¿Qué ha pasado con la significación de la variable Arreglos? Es más, menos mal que no es distinta de 0 ya que su coeficiente ha pasado a tener el signo contrario (a nivel individual influía negativamente y ahora, de hacerlo, afecta positivamente). Por otro lado, las Betas en algunas variables no se parecen a la correlación de Pearson de esa variable y el precio. Estos problemas se han producido por el alto nivel de colinealidad existente en el modelo. La tolerancia y el VIF así nos lo indican:
Coeficientesa
.096 10.415
.096 10.434
.994 1.006
superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)
1Tolerancia FIV
Estadísticos decolinealidad
Variable dependiente: precio vivienda (miles euros)a.
Concluyendo, en este modelo la colinealidad impide conocer cuál es el efecto de cada variable independiente sobre la dependiente (¿qué varía el precio? la superficie de la vivienda o el nivel de arreglos que ésta necesita). De todos modos, la variable dependiente (el precio) queda perfectamente explicada por ambas variables.
Análisis Multivariante
80
7.9 INTRODUCCIÓN DE VARIABLES BINARIAS
Una variable binaria es aquella que admite dos posibles valores (se cumple cierta
propiedad o no, verdadero/falso, hombre/mujer) y se codifica con 0 (no pasa) y 1(sí
pasa).
=ticacaracterís la cumple se si,1
ticacaracterís la cumple se no si,0Bx
Si se introduce tal cual en un modelo de regresión lineal supone estimar un efecto
diferencial sobre el origen de la recta en cada categoría de la variable binaria:
y = β0 + β1 x1 + β2 xB + ε
y(si xB = 0) = β0 + β1 x1
y(si xB = 1) = β0 + β1 x1+ β2 1 = (β0 + β2) + β1 x1
Para ver si el precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido, añadimos la variable Agencia al modelo de regresión simple que explicaba el precio en función de la superficie. Gráficamente se puede observar que: Parece que las ventas de la inmobiliaria Nuez se han realizado a unos precios inferiores a las de las otra agencias.
superficie de la vivienda (m2)
140120100806040
prec
io v
ivie
nda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
Agencia
Nuez
Otra
Análisis Multivariante
81
A nivel numérico, los resultados obtenidos son:
Resumen del modelob
.726a .527 .525 7.4599Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Agencia que vendio lavivienda, superficie de la vivienda (m2)
a.
Variable dependiente: precio vivienda (miles euros)b.
ANOVAb
31868.045 2 15934.023 286.327 .000a
28659.594 515 55.65060527.639 517
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Agencia que vendio la vivienda, superficie de lavivienda (m2)
a.
Variable dependiente: precio vivienda (miles euros)b.
Coeficientesa
14.011 1.839 7.620 .000.480 .020 .717 23.632 .000
-5.158 1.121 -.140 -4.603 .000
(Constante)superficie de la vivienda (m2)Agencia que vendio la vivienda
1B Error típ.
Coeficientes noestandarizados
Beta
Coefic.estand.
t Sig.
Variable dependiente: precio vivienda (miles euros)a.
A nivel global, se consigue una explicación del 52,7% de las variaciones del precio, que es estadísticamente significativa. Las ventas de las otras agencias tienen un origen de 14011 euros mientras que las de la Nuez están 5158 euros por debajo. Esta misma diferencia se mantiene para todos los valores de la otra variable explicativa (sea cual sea la superficie).
Análisis Multivariante
82
Superficie de la vivienda (m2)
140120100806040
Pre
cio
vivi
enda
(mile
s eu
ros)
100
90
80
70
60
50
40
30
Nuez
Otra
7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE
También se pueden introducir variables binarias con efecto en la pendiente. En este caso
debe especificarse el modelo en forma multiplicativa:
y = β0 + β1 x1 + β2 xB x1 + ε
y(si xB = 0) = β0 + β1 x1
y(si xB = 1) = β0 + β1 x1+ β2 1 x1 = β0 + (β1+ β2) x1
Así mismo, se puede especificar un modelo que incluya a la vez un efecto sobre el
origen y otro sobre la pendiente. El modelo que recoge estos efectos mixtos es:
y = β0 + β1 x1 + β2 xB + β3 xB x1 + ε
y(si xB = 0) = β0 + β1 x1
y(si xB = 1) = β0 + β1 x1+ β2 1 + β3 1 x1
= (β0 + β2) + (β1+ β3) x1
7.11 INTRODUCCIÓN DE VARIABLES CUALITATIVAS
No se pueden introducir variables cualitativas en un modelo de regresión tal como están
codificadas, pues su coeficiente de regresión recogería un efecto lineal de pasar de un
valor de la variable cualitativa al siguiente. Pero si la variable es cualitativa, ¿cuál es la
categoría que precede a otra?
Análisis Multivariante
83
En nuestro ejemplo de las viviendas, tenemos una variable cualitativa que nos indica en qué zona está ubicada la casa (1. Este, 2. Oeste y 3. Sur). Mediante un análisis de medias se puede observar que el precio medio es diferente en cada una de estas zonas:
Descriptivos
precio vivienda (miles euros)
243 62.824 9.592 .615 61.612 64.036 37.590 89.819166 50.718 8.749 .679 49.377 52.059 32.349 78.494109 50.248 7.531 .721 48.818 51.677 31.205 71.386518 56.298 10.820 .475 55.364 57.232 31.205 89.819
EsteOesteSurTotal
N MediaDesviación típica
Errortípico
Límiteinferior
Límitesuperior
Intervalo confianzapara la media al 95%
Mínimo Máximo
ANOVA
precio vivienda (miles euros)
19508.006 2 9754.003 122.461 .00041019.634 515 79.65060527.639 517
Inter-gruposIntra-gruposTotal
Suma decuadrados gl
Mediacuadrática F Sig.
Pero como puede apreciarse, la disminución que sufre el precio de la vivienda por estar situada en el Oeste en lugar del Este no es el mismo que si está situada en el Sur en lugar del Oeste. En cambio, un modelo de regresión que recogiera la variable Zona diría:
Resumen del modelo
.512a .262 .261 9.3013Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Zona donde esta localizada la casaa.
ANOVAb
15886.798 1 15886.798 183.634 .000a
44640.841 516 86.51360527.639 517
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Zona donde esta localizada la casaa.
Variable dependiente: precio vivienda (miles euros)b.
Análisis Multivariante
84
Coeficientesa
68.619 .997 68.838 .000-7.076 .522 -.512 -13.551 .000
(Constante)Zona donde esta localizada la casa
1B Error típ.
Coeficientes noestandarizados
Beta
Coefic.estand.
t Sig.
Variable dependiente: precio vivienda (miles euros)a.
Por “incrementar en una unidad la X” el precio de la vivienda disminuye en 7076 euros. Este incremento de la X se produce tanto al pasar de Este a Oeste como de Oeste a Sur.
Para introducir adecuadamente una variable cualitativa en una regresión se ha de
convertir dicha variable en binarias (tantas como categorías tenga la variable cualitativa
menos una) y efectuar el análisis con las variables binarias.
Resúmenes de casosa
Oeste .00 1.00Oeste .00 1.00Oeste .00 1.00Sur .00 .00Este 1.00 .00Este 1.00 .00Sur .00 .00Este 1.00 .00Oeste .00 1.00Este 1.00 .00
12345678910
Zona donde estalocalizada la casa Zona Este Zona Oeste
Limitado a los primeros 10 casos.a.
En nuestro ejemplo con-vertiríamos la variable zona de 3 categorías en 2 variables binarias, Zona Este y Zona Oeste.
La tercera categoría no haría falta incluirla ya que está representada por la ausencia de las otras dos.
Y el resultado que obtenemos con el análisis de regresión coincide con el del análisis de varianza (en el que se comparaban las medias):
Resumen del modelo
.568a .322 .320 8.9247Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Zona Oeste, Zona Estea.
Análisis Multivariante
85
ANOVAb
19508.006 2 9754.003 122.461 .000a
41019.634 515 79.65060527.639 517
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Zona Oeste, Zona Estea.
Variable dependiente: precio vivienda (miles euros)b.
Coeficientesa
50.248 .855 58.781 .00012.577 1.029 .581 12.224 .000
.471 1.100 .020 .428 .669
(Constante)Zona EsteZona Oeste
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coefic.estand.
t Sig.
Variable dependiente: precio vivienda (miles euros)a.
La interpretación de los coeficientes sería la siguiente: • En promedio y cuando todas las demás variables son cero (es decir
estamos en la categoría omitida de la variable cualitativa) el precio medio de las viviendas es de 50248 euros.
• Cuando estamos en la zona Este, el precio de la vivienda aumenta, en promedio, en relación a la zona Sur (categoría omitida) en 12577 euros. Por tanto el precio medio se situaría en 62825 (50248+12577).
• Cuando estamos en la zona Oeste, el precio de la vivienda aumenta en relación a la zona Sur en 471 euros, en promedio, situándose en 50719 euros.
Esta misma interpretación se efectuaría si hubieran otras variables cuantitativas en el modelo. En este caso, los coeficientes de correlación indicarían el origen de cada una de las rectas que se mantendría a lo largo de toda la pendiente provocada por la variable cuantitativa (rectas paralelas). Si se quisiera modelizar un efecto no constante se podrían introducir términos de interacción (como vimos con las variables binarias).
7.12 CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS
A lo largo de estos apuntes hemos visto como influían las variables cuantitativas disponibles para explicar el precio de la vivienda: superficie (m2), arreglos necesarios (escala 0 – 10), antigüedad y distancia al centro.
Análisis Multivariante
86
Las dos primeras explicaban el precio de la vivienda de forma significativa aunque entre ellas existía excesiva colinealidad. La antigüedad no influía en el precio de la vivienda y la distancia al centro lo hacía de una forma no lineal (además se ha comprobado que está variable también está relacionada con la superficie en un modelo cuadrático). Por tanto, ante un modelo de regresión múltiple lineal nos tenemos que conformar con incluir sólo la superficie de la vivienda en m2 (evitando así los problemas de colinealidad).
En cuanto a las variables cualitativas, se dispone de la zona y el mes de la venta. Para evitar supuestos de linealidad entre las categorías de estas variables hemos definido unas variables binarias que recogen sus diferentes categorías. Se supone además que los efectos de estas categorías se producen en la constante (y no en la pendiente de la curva).
Finalmente, se incorpora la variable agencia que efectuó la venta para comprobar si la Inmobiliaria Nuez actúa o no de mala fe vendiendo los pisos por debajo de su precio.
Los resultados obtenidos con este modelo son los mejores de todo el análisis como puede comprobarse a continuación:
Estadísticos descriptivos
56.2982 10.8201 51889.05 16.15 518.4691 .4995 518.3205 .4671 518.2703 .4445 518.2529 .4351 518.2452 .4306 518
9.46E-02 .29 518
precio vivienda (miles euros)superficie de la vivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que vendio la vivienda
MediaDesviación
típ. N
Análisis Multivariante
87
Correlaciones
1.000 .712 .568 -.354 .191 .071 -.079 -.114
.712 1.000 -.053 -.051 .024 .023 .023 .035
.568 -.053 1.000 -.646 .064 -.013 -.068 -.211-.354 -.051 -.646 1.000 -.027 .010 .003 .160.191 .024 .064 -.027 1.000 -.354 -.347 -.033.071 .023 -.013 .010 -.354 1.000 -.332 -.021
-.079 .023 -.068 .003 -.347 -.332 1.000 .015
-.114 .035 -.211 .160 -.033 -.021 .015 1.000
. .000 .000 .000 .000 .053 .036 .005
.000 . .116 .123 .297 .300 .299 .211
.000 .116 . .000 .074 .384 .061 .000
.000 .123 .000 . .272 .413 .474 .000
.000 .297 .074 .272 . .000 .000 .225
.053 .300 .384 .413 .000 . .000 .316
.036 .299 .061 .474 .000 .000 . .366
.005 .211 .000 .000 .225 .316 .366 .
precio vivienda(miles euros)superficie de lavivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que lavendióprecio vivienda(miles euros)superficie de lavivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que lavendió
Correla-ción dePearson
Sig.(unila-teral)
preciosuper-ficie
ZonaEste
ZonaOeste
MesEnero
Febrero
MesMarzo
Agencia
A nivel individual puede apreciarse como todas las variables introducidas en el modelo aportan explicación sobre el precio de la vivienda. Las correlaciones más importantes son la que se producen con la superficie de la vivienda y la zona Este (ambas de signo positivo). Entre las variables independientes hay muy poca correlación. Por el gran tamaño de la muestra, son significativas los tres meses entre sí y la agencia con la zona.
Resumen del modelo
.959a .919 .918 3.0938Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Agencia que vendio lavivienda, Mes Marzo, superficie de la vivienda (m2), ZonaOeste, Mes Febrero, Mes Enero, Zona Este
a.
Análisis Multivariante
88
ANOVAb
55646.141 7 7949.449 830.528 .000a
4881.498 510 9.57260527.639 517
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Agencia que vendio la vivienda, Mes Marzo,superficie de la vivienda (m2), Zona Oeste, Mes Febrero, Mes Enero, Zona Este
a.
Variable dependiente: precio vivienda (miles euros)b.
A nivel global se consigue una buena explicación de la variabilidad del precio de venta. Un 91,9% de las diferencias en el precio son explicadas por las variables introducidas en el modelo. Como era de esperar, esta variabilidad es suficiente frente a la residual. Por otro lado, el modelo tiene una R cuadrado ajustada de 0,918, la más alta de todos los modelos analizados.
Coeficientesa
1.061 .869 1.221 .223 -.646 2.768.498 .009 .744 58.529 .000 .482 .515
14.769 .364 .682 40.567 .000 14.054 15.4842.984 .385 .129 7.760 .000 2.229 3.7405.375 .386 .221 13.922 .000 4.617 6.1344.147 .392 .167 10.576 .000 3.377 4.9172.060 .396 .082 5.206 .000 1.282 2.837-.275 .476 -.007 -.578 .563 -1.211 .660
(Constante)superficie de la vivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que vendio la vivienda
1B
Errortíp.
Coeficientes noestandarizados
Beta
Coefic.estand.
t Sig.Límiteinferior
Límitesuperior
Intervalo confianzapara B al 95%
Variable dependiente: precio vivienda (miles euros)a.
A nivel individual todas las variables son estadísticamente significativas, a excepción de la constante y de la agencia que vendió la casa. El modelo sería más eficiente si las elimináramos pero así nos sirve para comprobar que efectivamente, la agencia no provoca diferencias significativas en el precio de venta de la vivienda (una vez deducidos los efectos de la superficie, la zona y el mes de la venta). Ahora se interpretan los coeficientes como hemos hecho en otros modelos:
• En promedio, por cada m2 de más que tenga la vivienda su precio aumenta en 498 euros.
• Una vivienda localizada en la Zona Este tiene un precio 14769 euros superior a las viviendas de la Zona Sur, en promedio. En cambio, si se localiza en la Zona Oeste la diferencia es de solo 2984 euros.
Análisis Multivariante
89
• Los precios de venta van disminuyendo cada mes. Incluso parece que existe una disminución similar (lineal) cada mes de unos 2000 euros.
Finalmente, se puede verificar que, como no hay mucha colinealidad, las conclusiones que se obtenían del análisis individual (correlaciones de Pearson) son muy semejantes a las Betas de cada variable en el análisis conjunto.
Coeficientes a
.979 1.021
.560 1.786
.574 1.743
.628 1.591
.636 1.572
.638 1.568
.951 1.051
superficie de la vivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que vendio la vivienda
1
Tole-rancia FIV
Estadísticos decolinealidad
Variable dependiente: precio vivienda (miles euros)a.
Los estadísticos de colineali-dad nos indican que no se produce altas correlaciones entre todas las variables independientes.
La menor Tolerancia se sitúa a nivel de 0,57 con lo que los efectos de la colinealidad pueden ser despreciables.
Análisis Multivariante
90
Resúmenes de casos
399 Otra 35.060 69.238 Oeste 38.545 37.798 39.292406 Otra 42.470 83.238 Oeste 45.521 44.824 46.218409 Otra 58.735 116.095 Sur 58.909 58.013 59.804416 Otra 49.277 96.048 Sur 48.919 48.127 49.712423 Nuez 53.313 104.286 Sur 52.749 51.630 53.868424 Otra 38.253 75.190 Oeste 41.511 40.794 42.228428 Otra 41.145 84.286 Oeste 46.043 45.347 46.739430 Otra 52.470 104.095 Sur 52.929 52.111 53.748432 Otra 50.120 100.333 Sur 51.055 50.251 51.858434 Otra 47.590 96.905 Oeste 52.331 51.610 53.052437 Otra 43.072 86.762 Sur 44.292 43.503 45.082444 Nuez 46.084 90.333 Sur 45.797 44.695 46.898450 Otra 36.747 76.619 Sur 39.239 38.418 40.059452 Otra 32.349 60.619 Oeste 34.250 33.439 35.062457 Otra 50.422 101.095 Oeste 54.419 53.676 55.161463 Otra 55.241 113.571 Sur 57.651 56.775 58.527465 Otra 41.446 81.810 Oeste 44.809 44.111 45.508467 Otra 45.964 93.571 Sur 47.686 46.897 48.474468 Otra 43.253 84.524 Oeste 46.162 45.466 46.858478 Otra 39.759 76.762 Oeste 42.294 41.583 43.005480 Otra 46.928 95.762 Sur 48.777 47.985 49.569485 Nuez 47.831 92.476 Oeste 49.849 48.828 50.869499 Otra 31.205 66.000 Sur 33.947 33.060 34.835503 Otra 62.229 128.048 Sur 64.864 63.858 65.870
123456789101112131415161718192021222324
Número decaso
Agencia
preciovivienda(mileseuros)
superficiede la
vivienda(m2) Zona
PredictedValue
95% LCI for
PRECIOmean
95% UCI for
PRECIOmean
Finalmente, podemos observar como los precios de venta que fijó la Inmobiliaria Nuez en las observaciones 423 y 444 están incluidos incluso en el intervalo de confianza de la estimación con lo que claramente no aplicó una política fraudulenta.
Análisis Multivariante
91
8. BIBLIOGRAFÍA
KMENTA, Jan (1980): Elementos de econometría. Vicens universidad. Barcelona.
NEWBOLD, Paul (1997): Estadística para los negocios y la economía. Prentice Hall.
Madrid.
NORUSIS, Marija J. (1997): SPSS 7.5 Guide to Data Analysis. Prentice Hall. New
Jersey.
(ya está disponible: SPSS 10.0 Guide to Data Analysis)
LUQUE MARTÍNEZ, Teodoro (coordinador) (2000): Técnicas de análisis de datos en
investigación de mercados. Ediciones Pirámide. Madrid.
Análisis Multivariante
92
ANÁLISIS DE LA VARIANZA (ANOVA)
Análisis Multivariante
93
9. ANÁLISIS DE LA VARIANZA (ANOVA)
9.1 CONCEPTO.
Se trata de una técnica de análisis adecuada para poder extraer conclusiones acerca de si
una o más variables independientes condicionan a otra u otras variables dependientes.
Se trata de un método de dependencia en el que la variable o variables dependientes
están medidas en escala métrica y las variables independientes están medidas en escalas
no métricas.
Esta técnica es de gran utilidad en la experimentación científica y por supuesto en la de
Marketing. Entendemos por experimentación la manipulación intencionada de las
variables independientes (tratamientos) para estudiar la respuesta en la variable o
variables dependientes.
9.2 MODALIDADES DE ANÁLISIS DE LA VARIANZA
En el esquema siguiente resumimos las diferentes tipos de análisis de varianza
Variables independientes Variables dependientes (métricas)
Una Varias
Una ANOVA de un factor MANOVA de un factor
Varias ANOVA de 2 o k factores MANOVA de k factores
Categóricas e intervalos ANCOVA MANCOVA
ANOVA proviene de ANálisis Of VAriance
MANOVA de Múltiple ANálisis Of Variance
ANCOVA de ANálisis Of COVAriance
MANCOVA de Múltiple ANálisis Of COVAriance.
Análisis Multivariante
94
ANCOVA En este procedimiento se introduce una variable independiente (X) métrica,
que no se controla pero incide en la dependiente (covariable), es decir covaría. Si son
varias las dependientes (Y) se llama MANCOVA
9.3 ANOVA
Es una técnica de dependencia diseñada para medir la influencia que una o varias
variables independientes (Xi), (no métricas, cualitativas) tienen sobre otra variable (Y)
dependiente o cuantitativa.
9.3.1 TIPOS DE ANOVA
ANOVA de un solo factor o variable explicativa (one way)
ANOVA con varios factores. Este a su vez se divide en:
• Modelo factorial completo. Es cuando considera los efectos de varias variables
independientes conjuntamente con sus interacciones.
• Modelo factorial incompleto. Solo se tienen en cuenta los efectos por separado
de las variables, sin tener en cuenta las interacciones. También se llama modelo
de efectos principales.
9.4 EXPERIMENTACIÓN
Uno de los objetivos de la Investigación de Marketing es el de tratar de definir las
relaciones que unen al mix de Marketing de la empresa con sus resultados.
Esta información es de suma importancia en el proceso de toma de decisiones, así como
en la planificación estratégica y en los mecanismos de control de la misma.
Las relaciones que se identifican entre las variables del Marketing mix de la empresa y
sus resultados son de tipo causa efecto, constituyendo lo que se denomina relaciones de
causalidad.
El análisis causal es el que pretende investigar las relaciones de influencia o causalidad
entre las diferentes variables.
Desde un punto de vista filosófico se puede entender como causa, aquello que hace ser a
algo que no es, o que venga a ser de forma distinta lo que es. Este concepto de causa
implica el que se diferencie entre la causa que produce algo nuevo de la que solo
modifica lo existente.
Análisis Multivariante
95
Teniendo en cuenta que la investigación de Marketing no se ocupa de los consumidores
y productos en su conjunto, sino sólo de las variables de estos en los estudios
descriptivos y de las relaciones entre las variables en los explicativos, es obvio que a la
Investigación de Marketing le interesa la causalidad no en el sentido que produce un
nuevo ser, sino en la modificación de lo existente.
Cuando se dice que dos variables, están unidas por una relación de causalidad, significa
que, una variable influye en la otra, en el sentido de que una modificación en la primera
conduce a una variación en la segunda.
El análisis de la varianza es la técnica mas apropiada para estudiar y explotar los datos
provenientes de situaciones experimentales. El análisis de la varianza permite extraer
conclusiones sobre si una o más variables independientes (X) influyen y condicionan a
una o varias dependientes (Y), e incluso nos da información si la interacción de las
variables independientes (X) es significativa.
9.5 EL MÉTODO DE EXPERIMENTACIÓN
El método de experimentación consiste en reproducir fenómenos a voluntad del
investigador. Aplicado a la Investigación de Marketing, trata de provocar la conducta
del consumidor en condiciones perfectamente controladas, lo más parecidas posibles a
una situación real, con el objetivo de sacar consecuencias de la respuesta a un estímulo
cuyo efecto queramos conocer.
La principal dificultad de la experimentación consiste en realizar la prueba en las
mismas circunstancias que en la realidad, así como en aislar los resultados obtenidos,
debido a la variación producida respecto a otras variables no controladas en el
experimento. Lo que hacemos es introducir modificaciones en variables de Marketing, y
tratamos de controlar su incidencia en el comportamiento de compra por parte de los
usuarios.
La ventaja de este método es que elimina el factor distorsionador que el entrevistado
provoca al suministrar información en una encuesta, ya que lo que aquí se estudia es el
comportamiento del consumidor ante una determinada situación.
Análisis Multivariante
96
La ejecución de una experimentación debe ser perfectamente planificada. Los aspectos
de esta planificación son:
1. Definición de los objetivos.
2. Definir la zona experimental.
3. Elección al azar de las unidades experimentales
4. Período de duración de la experimentación
5. Diseño experimental
6. Recogida de información
9.5.1 PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN
Entre las aplicaciones más utilizadas podemos reseñar las siguientes: Fijación de
precios. Selección de medios publicitarios y promocionales. Elección de puntos de
venta. Determinación del tipo de envase y su tamaño. Lanzamiento de nuevos
productos.
9.6 METODOLOGÍA DE LA EXPERIMENTACIÓN
En todo experimento se deben definir:
1 Factor principal
Variable independiente estudiada con sus diferentes alternativas, a las que se denomina
“tratamientos”.
2 Factores externos
Se trata de factores influyentes que es conveniente aislar y controlar.
En algunos diseños experimentales se estudian de forma individual y se denominan
factores bloque o rodeo.
3 Unidades experimentales
Son los lugares donde se realiza el experimento. Se dividen en los siguientes tipos:
a) De laboratorio
• Se trata de un local donde se reproducen las condiciones reales del mercado.
Normalmente se suele hacer en el propio centro de investigación.
b) Natural o real
• El estudio se realiza en lugares muestra del mercado real, zonas geográficas,
ciudades, tiendas, etc.
Análisis Multivariante
97
4 Variable dependiente
Es la variable de respuesta por parte del mercado. Nos permite medir los efectos de las
variables estudiadas.
EJEMPLO
Una empresa de conservas vegetales desea medir el efecto de dos estrategias de
promoción diferenciadas para comercio en régimen de autoservicio y para tiendas
especialistas. Definir las características del experimento.
1 Factor principal: los dos tipos de promoción
2 Factor externo: situación del producto en la tienda, en la estantería, día de la semana
3 Unidad experimental: comercio de las características requeridas (tiendas reales)
4 Variable dependiente: Unidades físicas de producto vendidas
9.7 ELEMENTOS DE UN EXPERIMENTO
9.7.1 CONCEPTOS GENERALES
La respuesta es una variable cuantitativa que se va a estudiar en el experimento.
También se denomina variable dependiente, (Y). Ejemplo: las ventas de la empresa
Los factores (uno o varios) son aquellas variables de las que el experimentador quiere
estudiar su efecto sobre la variable respuesta. Tanto si representan variables cualitativas
como cuantitativas, los factores se analizan de forma cualitativa, es decir, se
experimenta con unos valores concretos. Ejemplos: envase, promoción, precio, ...
Los niveles de un factor son los diferentes valores utilizados en el experimento de una
de las variables explicativas. Ejemplos: Envase: 1 litro, 1,5 litros, 2 litros, Promoción:
Reducción precio, Regalo; Precio: 140 ptas., 170 ptas., 200 ptas.
Los tratamientos de un experimento son todas las combinaciones utilizadas de cada
factor-nivel.
La unidad experimental es la observación (individuo u objeto) donde la respuesta y los
factores son observados y medidos.
Un diseño experimental es el procedimiento que utiliza el análisis-para controlar la
especificación de los tratamientos y el método para asignar las unidades experimentales
a cada tratamiento.
Análisis Multivariante
98
Un experimento por observación es aquel en el que el analista observa el tratamiento y
la respuesta de cada unidad experimental.
9.7.2 HIPÓTESIS DE TRABAJO
Como hipótesis nula se considera que no existen diferencias entre las medias de los
tratamientos. Esto es:
H0: µ1= µ2 = . . . = µp
Ha: Por lo menos dos de los p tratamientos tienen medias diferentes.
9.8 ¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI
COMPARAMOS MEDIAS?
ANOVA pretende medir la influencia de una o más variables independientes y
cualitativas (X) sobre una variable dependiente cuantitativa (Y). Es decir pretende
determinar si diversos conjuntos de muestras aleatorias de una variable proceden de la
misma población o no. En el caso de que sean de la misma población, el análisis de la
varianza permite descubrir si la interacción entre las variables explicativas provoca
cambios significativos.
La diferencia existente entre una observación y la media general se divide entre una
parte explicada (distancia entre la media del tratamiento y la media general) y una
residual (distancia entre una observación y la media de su tratamiento):
Es decir
Análisis Multivariante
99
)()()( YYYYYY iiijij −+−=−
Esta misma diferencia, elevada al cuadrado, se calcula para todas las observaciones de
la muestra:
Suma de cuadrados entre grupos (inter)
SC(Explicada) = ( )Y Yi −∑ 2
Suma de cuadrados total
SC(Total) = ( )Y Yij −∑ 2
Suma de cuadrados dentro grupos (intra)
SC(Residual) = ( )Y Yij i−∑ 2
A continuación, se divide cada Suma Cuadrados por sus grados de libertad, obteniendo
los Cuadrados Medios o varianzas:
CM(Total) = ( )Y Yn
ij −−
∑ 2
1 = Varianza Total
CM(Inter-grupos) = ( )Y Yp
i −−
∑ 2
1 = Varianza Explicada
CM(Intra-grupos) = ( )Y Yn p
ij i−−
∑ 2
= Varianza Residual
9.8.1 ESTADÍSTICO DE PRUEBA
Para comprobar si es suficientemente grande la varianza explicada frente a la varianza
residual, se calcula el estadístico de prueba
sidualVarianzaExplicadaVarianza
FRe
=
y su nivel de significación observado (F prob), probabilidad de equivocarnos si se
rechaza la H0, con el que se podrá decidir si se Rechaza o no la H0.
Análisis Multivariante
100
El estadístico F conduce al Rechazo de la H0 cuando el nivel de significación (F prob.)
es pequeño (menor que 0,05), entonces las medias de los tratamientos son
estadísticamente diferentes. Es decir, el tratamiento influye en la respuesta o la variable
dependiente realmente depende de la independiente.
Además, se puede:
a) realizar comparaciones múltiples de medias por pares utilizan-do un
método como por ejemplo el de Scheffé, que permite ver las diferencias
estadísticamente significativas que de forma más estricta existen entre las medias de los
tratamientos.
b) construir intervalos de confianza para una o mas medias individuales.
Si el estadístico F no conduce al Rechazo de la H0, entonces:
las medias son iguales (No rechazamos la hipótesis nula) No se puede creer que de
manera automática esta conclusión es la adecuada. Se tiene que considerar también la
posibilidad de un error de tipo II, el que cometemos si no se rechaza la hipótesis nula
cuando es falsa.
Las medias son realmente diferentes, pero no hemos considera-do otros factores
importantes que también afectan a la respuesta. Estos factores aumentan la variabilidad
residual generando valores mas pequeños de F. Entonces se tiene que incrementar el
tamaño de la muestra para cada tratamiento o se tiene que utilizar un diseño
experimental diferente que tenga en cuenta los otros factores que afectan a la respuesta.
9.9 EXPERIMENTOS ALEATORIOS CON UN FACTOR
Un diseño completamente aleatorio, es aquel en el que se seleccionan muestras
aleatorias para cada tratamiento.
Yij = µi + εij
donde Yij: es la respuesta de la observación j a la que se le ha aplicado el
tratamiento µi: es la media del tratamiento i, y εij: es una parte aleatoria específica de
cada observación.
Hipótesis planteadas:
La hipótesis nula es que las medias de los diferentes tratamientos son iguales
H0: µ1= µ2 = . . . = µp
Análisis Multivariante
101
Ha: Por lo menos dos tratamientos tienen medias diferentes.
Supuestos:
Las distribuciones de probabilidad de las p poblaciones son normales.
Las varianzas de las p poblaciones son iguales.
Las muestras se seleccionan aleatoria e independientemente de las poblaciones
respectivas.
9.9.1 MODELO
Este modelo también puede expresarse como:
Yij = µ + τi + εij
donde µ: es la media general, y τi: es el efecto diferencial del tratamiento i.
H0: τ1= τ2 = . . . = τp
Ha: Por lo menos dos tratamientos tienen efecto diferencial.
9.10 ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY)
Utiliza una sola variable explicativa (X)
El modelo tiene que cumplir los siguientes supuestos:
La variable dependiente (Y) sigue una distribución normal
Las varianzas de todas las poblaciones deben ser aproximadamente iguales
(Homoscedasticidad)
Las muestras son independientes y son obtenidas de forma aleatoria
EJEMPLO 1: ANÁLISIS DE VARIANZA DE UN FACTOR (SPSS)
Caso 1:
Una empresa que quiere lanzar un nuevo refresco en lata de 33 cc. quiere saber si hay
diferencias significativas en el precio de un refresco similar vendido en los 4 tipos de
tiendas diferentes que se están considerando (hipermercados, supermercados,
cooperativas y tiendas tradicionales).
Análisis Multivariante
102
1419,757 3 473,252 18,288 ,0005848,525 226 25,8787268,282 229
Inter-gruposIntra-gruposTotal
Preciolata 33 cc.
Suma decuadrados gl
Mediacuadrática F Sig.
ANOVA
Como las diferencias son significativas se quiere conocer cuáles son los precios medios
que se aplican en cada tipo de tienda (en la muestra y para la población, con un intervalo
de confianza del 95%).
52 44,2134 7,9435 1,0982 42,0086 46,418346 47,8553 5,3715 ,7934 46,2563 49,454350 45,3896 1,9618 ,2775 44,8318 45,947581 50,2857 3,7471 ,4154 49,4590 51,1123
230 47,3497 5,6398 ,3723 46,6162 48,0832
HipermercadoSupermercadoCooperativaTda. tradicionalTotal
Tipodetienda
Preciolata33 cc.
N MediaDesviación
típicaErrortípico
Límiteinferior
Límitesuperior
Intervalo de confianzapara la media al 95%
Descriptivos
Finalmente, se quiere averiguar cuáles de estos precios medios aplicados en las
diferentes tiendas son significativamente distintos entre sí, de una forma estricta
(utilizando el test de comparaciones múltiples Scheffé).
Análisis Multivariante
103
Variable dependiente: Precio lata 33 cc.Scheffé
-3,6419* 1,029 ,007 -6,5408 -,7429-1,1762 1,006 ,714 -4,0101 1,6577-6,0722* ,902 ,000 -8,6115 -3,53303,6419* 1,029 ,007 ,7429 6,54082,4657 1,040 ,135 -,4645 5,3959
-2,4304 ,939 ,085 -5,0766 ,21591,1762 1,006 ,714 -1,6577 4,0101
-2,4657 1,040 ,135 -5,3959 ,4645-4,8960* ,914 ,000 -7,4709 -2,32126,0722* ,902 ,000 3,5330 8,61152,4304 ,939 ,085 -,2159 5,07664,8960* ,914 ,000 2,3212 7,4709
(J) Tipo detiendaSupermercadoCooperativaTda. tradicionalHipermercadoCooperativaTda. tradicionalHipermercadoSupermercadoTda. tradicionalHipermercadoSupermercadoCooperativa
(I) Tipo detiendaHipermercado
Supermercado
Cooperativa
Tda.tradicional
Diferenciade
medias(I-J)
Errortípico Sig.
Límiteinferior
Límitesuperior
Intervalo de confianzaal 95%
Comparaciones múltiples
La diferencia entre las medias es significativa al nivel .05.*.
Schefféa,b
52 44,213449 45,3896 45,389645 47,8553 47,855381 50,2857
,692 ,096 ,104
Tipo de tiendaHipermercadoCooperativaSupermercadoTda. tradicionalSig.
N 1 2 3Subset for alpha = .05
Precio lata 33 cc.
Se muestran las medias para los grupos en los subconjuntos homogéneos.
Uses Harmonic Mean Sample Size = 54,627a.
Los tamaños de los grupos no son iguales. Se utilizará la media armónicade los tamaños de los grupos. Los niveles de error del tipo I no estángarantizados.
b.
9.11 ANOVA CON VARIOS FACTORES
En el estudio ANOVA devarios factores hemos de considerar los diferentes tipos de
efectos y factores que se pueden analizar y que indicamos a continuación:
Análisis Multivariante
104
Intersección: las observaciones habitualmente se sitúan en torno a una media distinta
de cero.
Factores fijos: los niveles de un factor fijo incluyen todos los niveles sobre los que se
desea extraer conclusiones.
Factores aleatorios: los niveles de un factor aleatorio son una muestra aleatoria de los
posibles niveles sobre los que se desea extraer conclusiones.
Covariables: variables explicativas (factores) cuantitativas.
Habitualmente trabajaremos con factores fijos.
Los factores también se pueden clasificar como:
Principales: son los que el investigador controla y modifica para verificar su efecto.
Ejemplos: precio, canal, ...
De rodeo o bloqueo: son aquellos que varían por si solos al repetir el experimento
varias veces (ya que todas las unidades experimentales no son exactamente iguales), el
investigador no los cambia expresamente. Sin embargo, como se sospecha que pueden
influir en la variable respuesta, se debe controlar su efecto. Ejemplos: Tipo de tienda,
día de la semana, ...
9.12 TIPOS DE EXPERIMENTOS HABITUALMENTE
UTILIZADOS EN INVESTIGACIÓN COMERCIAL
Los tipos de experimentos que más habitualmente se utilizan en la Investigación
Comercial son:
- Experimentación al azar.
- Experimentación en bloques aleatorios.
- Experimentación en cuadrado latino.
- Experimentación con intercambio.
- Experimentación factorial.
La experimentación factorial permite tratar dos o más variables simultáneamente,
mientras que los otros sólo permiten manipular una variable.
9.12.1 EXPERIMENTO ALEATORIO O AL AZAR
En este tipo de experimento comercial sólo se controla un factor: la variable
independiente estudiada.
Análisis Multivariante
105
La asignación de tratamiento a las diferentes unidades experimentales se realiza de
forma aleatoria.
Vamos a desarrollar lo expuesto anteriormente mediante un caso práctico:
CASO PRÁCTICO
Un banco realiza un experimento comercial de tres tipos diferentes de promoción para
el lanzamiento de un nuevo producto. Estas promociones consistían en:
P1 Regalo de una bicicleta, P2 Regalo de un ordenador, P3 Regalo de los
electrodomésticos de la cocina
Cada promoción se probó en cinco sucursales diferentes durante un mes. Los resultados
obtenidos, en cuanto a unidades de producto colocadas entre la clientela, se recogen en
el cuadro siguiente:
S1 S2 S3 S4 S5
P1 65 50 30 40 65
P2 30 25 15 20 35
P3 15 10 10 25 50
SOLUCIÓN
Definiremos las siguientes características:
Factor principal: los diferentes tipos de promoción P1, P2, P3, luego K = 3.
Unidades experimentales 15 (5 sucursales x 3 tipos de promoción)
Variable dependiente: unidades vendidas.
Número total de mediciones: n=15
Número de mediciones por cada tratamiento (promoción) nj=5
xij= unidades físicas vendidas en cada sucursal.
Análisis Multivariante
106
mj= media de unidades vendidas por tratamiento.
m= media total.
Partiendo del cuadro de resultados, obtenemos los valores de mj y m, los cuales son:
S1 S2 S3 S4 S5 S mj
P1 65 50 30 40 65 250 50
P2 30 25 15 20 35 125 25
P3 15 10 10 25 50 110 22
y por tanto m = 32´333
Una vez obtenidos estos datos, pasamos a realizar los cálculos de la técnica ANOVA
Dispersión total.
D T x mi ji
n
j
k j
= −==
∑∑ ( ) 2
11
Sustituyendo por los correspondientes valores obtenemos:
DT = (65 - 32´3)2 + (50 - 32.3)2 + (30 - 32´3)2 + (40 - 32´3)2 + (65 - 32´3)2 + (30
- 32´3)2 + (25 - 32´3)2 + (15 - 32´3)2 + (20 - 32´3)2 + (35 - 32´3)2 + (15 - 32´3)2 + (10
- 32´3)2 + (10 - 32´3)2 + (25 - 32´3)2 + (50 - 32´3)2 = 4.693´333
Dispersión factorial:
DF n m mj jj
k
= −=∑ ( )2
1
Sustituyendo obtenemos:
DF = 5(50 - 32´3)2 +5(25 - 32´3)2 +5(22 - 32´3)2 = 2.363´333
Dispersión residual
DR = DT - DF Luego DR = 4.693´33 - 2.363´33 = 2.330
Cuadrado medio factorial (CMF)
CMFDFgl
DFk
= =− 1
Sustituyendo obtenemos CMF = 1.181´6667
Cuadrado medio residual (CMR)
Análisis Multivariante
107
CMRDRgl
DRn k
= =−
Sustituyendo obtenemos CMR = 194´1667
Test de la F
FCMFCMR
=
Sustituyendo obtenemos F= 6´0858
Si buscamos el valor de F en tablas para un nivel del 95% y gl = 2 y 12, obtenemos que
F = 3´89
Como 6´0858 > 3´89, existe un efecto significativo de los diferentes tratamientos
estudiados para un nivel de confianza del 95%.
La conclusión es que los diferentes tipos de promoción afectan significativamente a la
demanda.
La salida realizada con el programa SPSS es:
Esta salida tiene en cuenta la influencia de la sucursal en el experimento (factor rodeo o
bloque), por lo que algunos resultados nos conducen a valores diferentes, aunque la
conclusión final es la misma.
Análisis Multivariante
108
EXPERIMENTO ALEATORIO AL AZAR
15 100,0% 0 ,0% 15 100,0%N Porcentaje N Porcentaje N Porcentaje
Incluidos Excluidos TotalCasos
Resumen del procesamiento de los casosa
Ventas (unidades vendidas) por Tipo de promoción, Sucursala.
50,0000 525,0000 522,0000 536,6667 328,3333 318,3333 328,3333 350,0000 332,3333a 15
SucursalTotalTotalTotal12345Total
Tipo depromociónBicicletaOrdenadorElectrodomésticoTotal
Media NVentas (unidades vendidas)
Medias de las casillasb,c
Media globala.
Ventas (unidades vendidas) por Tipo de promoción, Sucursalb.
No se han calculado las medias de orden 2 o superiordebido al límite en el orden máximo de interacción.
c.
4040,000 6 673,333 8,245 ,0042363,333 2 1181,667 14,469 ,0021676,667 4 419,167 5,133 ,0244040,000 6 673,333 8,245 ,004
653,333 8 81,6674693,333 14 335,238
Ventas (unidades vendidas)(Combinadas)Tipo de promociónSucursal
Efectos principales
ModeloResidualTotal
Suma decuadrados gl
Mediacuadrática F Sig
Método jerárquico
ANOVAa
Ventas (unidades vendidas) por Tipo de promoción, Sucursala.
Análisis Multivariante
109
9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO
En este tipo de experimento comercial se controlan dos factores:
1 La variable independiente o factor principal
2 Un factor de control que se denomina “factor bloque”, también llamado “de rodeo”
Este tipo de experimento comercial se debe hacer cuando se intuye que existe otro
factor influyente en el aspecto estudiado, aparte del factor principal.
Se debe utilizar un número de unidades experimentales suficientes para probar todas las
combinaciones posibles entre las alternativas de los dos factores controlados.
Desarrollemos lo anterior con el siguiente caso:
CASO PRÁCTICO
Una empresa de refrescos va a lanzar al mercado un nuevo producto; para ello realiza
una prueba con tres envases diferentes:
P1 envase de 2l., P2 envase de 1l., P3 envase de 0´5l.
Además la empresa controla otro factor influyente, que es el tipo de establecimiento
donde se expenden los refrescos; para ello definen el siguiente factor bloque:
B1 grandes superficies, B2 supermercados, B3 tienda tradicional y B4 autoservicio.
Cada envase se prueba en los cuatro tipos de tienda, durante un mes. Se obtienen los
resultados siguientes en miles de unidades de producto:
Tabla de resultados:
B1 B2 B3 B4
P1 3 4 3 2
P2 7 8 7 6
P3 8 12 8 4
SOLUCIÓN
Factor Principal: tratamientos P1, P2, P3. Luego k=3
Factor bloque: las alternativas B1, B2, B3, B4, luego R = 4
Unidades experimentales 4x3 =12
Variable dependiente: unidades vendidas
Siendo
Análisis Multivariante
110
n el número de mediciones (12)
xij las unidades vendidas en los diferentes establecimientos.
mj la media de ventas por tratamiento
mi la media de ventas por cada alternativa de bloque
m la media total
Cálculos
B1 B2 B3 B4 S mj
P1 3 4 3 2 12 3
P2 7 8 7 6 28 7
P3 8 12 8 4 32 8
S 18 24 18 12
mi 6 8 6 4
Luego m = 6
Dispersión total DT = 92
Dispersión factorial DF = 56
Dispersión bloque
DB k m mi= −∑ ( )2
DB = 3(6 - 6)2 + 3(8 - 6)2 + 3(6 - 6)2 + 3(4 - 6)2 = 24
Dispersión residual
DR = DT - DF - DB Sustituyendo, DR = 12
Cuadrado medio factorial CMF = 28
Cuadrado medio bloque CMB = 8
Cuadrado medio residual CMR = 2
Test de la F
1 Factor principal
FCMFCMR
=
Luego F = 14
Como el valor en tablas para el 95% y gl 2 y 6 es 5´14
Análisis Multivariante
111
Podemos decir que existe un efecto significativo de los tratamientos estudiados para un
nivel de confianza del 95%
2 Factor bloque
FCMBCMR
=
Luego F = 4
El valor correspondiente en tablas para el 95% y gl 3 y 6 es F = 4´76
Como 4 < 4´76 podemos decir que:
NO existe un efecto significativo del factor bloque para el nivel de confianza del 95%
La correspondiente salida de SPSS es:
Análisis Multivariante
112
9.12.2.1 EXPERIMENTO DE BLOQUE ALEATORIO (SPSS)
12 100,0% 0 ,0% 12 100,0%N Porcentaje N Porcentaje N Porcentaje
Incluidos Excluidos TotalCasos
Resumen del procesamiento de los casosa
Ventas (miles de unidades) por Tipo de promoción, Tipo de tiendaa.
3,0000 47,0000 48,0000 46,0000 38,0000 36,0000 34,0000 36,0000a 12
Tipo de tiendaTotalTotalTotalGran superficieSupermercadoTienda tradicionalAutoservicioTotal
Envase2 litros1 litro1/2 litroTotal
Media NVentas (miles de unidades)
Medias de las casillasb,c
Media globala.
Ventas (miles de unidades) por Envase, Tipo de tiendab.
No se han calculado las medias de orden 2 o superior debido allímite en el orden máximo de interacción.
c.
80,000 5 16,000 8,000 ,01256,000 2 28,000 14,000 ,00524,000 3 8,000 4,000 ,07080,000 5 16,000 8,000 ,01212,000 6 2,00092,000 11 8,364
Ventas (miles de unidades)(Combinadas)EnvaseTipo de tienda
Efectos principales
ModeloResidualTotal
Suma decuadrados gl
Mediacuadrática F Sig
Método jerárquico
ANOVAa
Ventas (miles de unidades) por Tipo de promoción, Tipo de tiendaa.
Análisis Multivariante
113
9.12.3 EXPERIMENTO DE CUADRADO LATINO
En este tipo de experimentación comercial se controlan tres factores:
1 La variable independiente o factor principal
2 Dos factores de control o rodeo que se denominan “factores bloque”
El diseño en cuadrado latino exige utilizar el mismo número de alternativas en los tres
factores controlados.
Deberemos plantear este tipo de estudio cuando se estima que existen otros dos factores
influyentes en el fenómeno estudiado, aparte del factor principal.
Se debe diseñar un número de unidades experimentales suficiente para probar todas las
combinaciones posibles entre los tres factores sometidos a control.
Vamos a desarrollarlo con el siguiente caso práctico:
CASO PRACTICO
Supongamos que una empresa de zumos realiza una prueba de mercado para estudiar el
color adecuado para confeccionar el envase. Se proponen los siguientes colores:
P1 envase verde y blanco, P2 envase rojo y verde, P3 envase azul y verde.
Para ello la empresa controla los siguientes factores influyentes:
Bloque 1 Tipo de punto de venta.
B11 gran superficie, B12 autoservicio, B13 comercio tradicional
Bloque 2 Región geográfica.
B21 Cataluña, B22 Aragón, B23 País Vasco.
Cada envase se prueba en los tres tipos de punto de venta y en las tres regiones
geográficas.
Los resultados obtenidos son (en miles de unidades):
B11 B12 B13
B21 P1 P2 P3
B22 P2 P3 P1
B23 P3 P1 P2
Análisis Multivariante
114
SOLUCIÓN
Supongamos los siguientes datos para la matriz
B11 B12 B13
B21 (P1) 5 (P2) 2 (P3) 3
B22 (P2) 3 (P3) 4 (P1) 6
B23 (P3) 3 (P1) 6 (P2) 2
Conceptos:
Factor principal: los diferentes tratamientos P1, P2, P3, luego K = 3
Factor bloque 1: las alternativas B11, B12, B13, luego R= 3
Factor bloque 2: las alternativas B21, B22; B23, luego L= 3
K=R=L=3
Unidades experimentales: 9 tiendas (3x3)
Variable dependiente: unidades vendidas
n el número de mediciones 9
xijk unidades vendidas
mi media de las unidades vendidas B1
mj media de las unidades vendidas B2
mk media de unidades vendidas por tratamiento
m la media total
Cálculos
B11 B12 B13 S mj
B21 5 2 3 10 3´3
B22 3 4 6 13 4´3
B23 3 6 2 11 3´4
S 11 12 11
mi 3´4 4 3´4
mk toma los valores 5´7, 2´3 y 3´3
Análisis Multivariante
115
mkP1 = (5+6+6) : 3 = 5´7,
Dispersión total DT = 19´556
Dispersión factorial (mk)DF = 17´556
Dispersión bloque 1 (mi) DB1 = 0´222
Dispersión bloque 2 (mj) DB2 = 1´556
Dispersión residual DR = DT -DF - DB1 - DB2
DR = 0´222
Cuadrado medio factorial CMF =17´556 : 2 = 8´778
Cuadrado medio bloque 1 CMB1 =0´222 : 2 = 0´111
Cuadrado medio bloque 2 CMB2 = 1´556 :2 = 0´778
Cuadrado medio residual CMR = 0´222 :2 = 0´111
Test de la F
1 Factor principal F = 8´778 : 0´111 = 79´000
El valor de tablas para el 95% y gl 2 y 2 es Ft = 19
Sí que existe significación
2 Factor bloque 1 F = 0´111 : 0´111 = 1, siendo Ft = 19
Es válida H0
2 Factor bloque 2 F = 0´778 : 0´111 = 7, siendo Ft = 19
Es válida H0
La correspondiente salida del SPSS es:
Análisis Multivariante
116
9.12.3.1 EXPERIMENTO CUADRADO LATINO (SPSS)
9 100,0% 0 ,0% 9 100,0%N Porcentaje N Porcentaje N Porcentaje
Incluidos Excluidos TotalCasos
Resumen del procesamiento de los casosa
Ventas (miles de unidades) por Envase, Tipo de tienda, REGIÓNa.
5,6667 32,3333 33,3333 33,6667 34,0000 33,6667 33,3333 34,3333 33,6667 33,7778a 9
RegiónTotalTotalTotalTotalTotalTotalCataluñaAragónPais VascoTotal
Tipo de tiendaTotalTotalTotalGran superficieAutoservicioTiendatradicionalTotal
EnvaseVerde/blancoRojo/verdeAzul/verdeTotal
Media NVentas (miles de unidades)
Medias de las casillasb,c
Media globala.
Ventas (miles de unidades) por Envase, Tipo de tienda, Regiónb.
No se han calculado las medias de orden 2 o superior debido al límiteen el orden máximo de interacción.
c.
19,333 6 3,222 29,000 ,03417,556 2 8,778 79,000 ,013
,222 2 ,111 1,000 ,5001,556 2 ,778 7,000 ,125
19,333 6 3,222 29,000 ,034,222 2 ,111
19,556 8 2,444
Ventas (miles de unidades)(Combinadas)EnvaseTipo de tiendaRegión
Efectos principales
ModeloResidualTotal
Suma decuadrados gl
Mediacuadrática F Sig
Método jerárquico
ANOVAa
Ventas (miles de unidades) por Envase, Tipo de tienda, Regióna.
Análisis Multivariante
117
9.12.4 EXPERIMENTO CON INTERCAMBIO
Este procedimiento consiste básicamente en la aplicación alternativa y sucesiva de los
diferentes tratamientos a las unidades experimentales. El orden de aplicación de los
diversos tratamientos sobre las unidades experimentales debe ser al azar, con la
condición de que haya el mismo número de unidades experimentales que reciba primero
un tratamiento y después los otros.
Este tipo de experimento combina las características de los bloques aleatorios y los de
los cuadrados latinos pequeños.
9.12.5 EXPERIMENTO FACTORIAL
En los experimentos comerciales de tipo factorial se controlan varios factores
principales, midiendo sus efectos individuales y los conjuntos sobre la variable
dependiente.
Esta es una situación muy habitual en el área de Marketing, donde la aplicación del
Marketing mix produce en el mercado unos resultados diferentes del que se obtendría
por la suma de los efectos aislados de cada factor del mix de Marketing.
La técnica estadística que se utiliza se denomina ANOVA de vía múltiple.
Veamos este experimento con un caso práctico:
CASO PRACTICO
Una empresa realiza un experimento con tres tipos de promoción (Puntos, precio y
sorteo) y dos modelos de envase (500 y 1.000 cc.). El estudio lo realiza en una gran
superficie y en una tienda tradicional, durante un mes.
Los resultados en miles de unidades de producto vendidas son las indicadas en el
siguiente cuadro.
P1 P2 P3
E1 40 34 28
36 28 20
E2 30 26 14
22 16 10
Análisis Multivariante
118
SOLUCIÓN
Factor principal 1 los modelos de envase E1, E2 a=2
Factor principal 2 los tipos de promoción P1, P2, P3 b=3
Unidades experimentales: 12 (dos por cada combinación de factores) K = 2
Variable dependiente: unidades vendidas
n es el número de mediciones totales (12)
xijk unidades vendidas en las diferentes mediciones
mi es la media de unidades vendidas por alternativas del factor 1
mj es la media de unidades vendidas por alternativas del factor 2
mk es la media de unidades vendidas por cada combinación de factores
m es la media total
Cálculos
P1 P2 P3 S mj
E1 40 34 28 186 31
36 28 20
E2 30 26 14 118 19´67
22 16 10
S 128 104 72 304
mi 32 26 18
P1E1 P1E2 P2E1 P2E2 P3E1 P3E2
mk 38 26 31 21 24 12
Siendo m = 25´3
Dispersión Total DT = 930´667
Dispersión Factor 1
DF aK m mj1 2= −∑ ( ) Sustituyendo obtenemos:
DF1 = (2x2) ( 31 - 25´3)2 +(2x2) ( 19´6 - 25´3)2 = 385´33
Análisis Multivariante
119
Dispersión factor 2
DF bK m mi2 2= −∑ ( ) Sustituyendo obtenemos
DF2 = (3x2) (32 - 25´3)2 + (3x2) (26 - 25´3)2 + (3x2) (18 - 25´3)2 = 394´667
Dispersión de la interacción
DIN = S(m +mk - mj - mi)2
DIN = 2´667
Dispersión residual
DR = DT - DF1 - DF2 - DIN
DR = 148
Cuadrado medio del factor 1 CMF1 = 385´333 : 1 = 385´333 (gl= a-1)
Cuadrado medio del factor 2 CMF2 = 394´667 :2 = 197´33 (gl=b-1)
Cuadrado medio de la interacción (CMIN)
CMINDIN
a b=
− −( )( )1 1 Sustituyendo obtenemos: CMIN = 1´333
Cuadrado medio residual (CMR)
CMRDR
ab K=
−( )1 Sustituyendo obtenemos CMR = 24´667
Test de la F
1 Factor 1
F= 385´333 : 24´667 = 15´622
Ft para el 95% y gl 1 y 6 es 5´99
Por tanto existe un efecto significativo.
2 Factor 2
F = 197´333 : 24´667 = 8
Ft para el 95% y gl 2 y 6 es 5´14
Análisis Multivariante
120
Por tanto existe un efecto significativo.
3 Interacción
F = 1´333 : 24´667 = 0´054
Como el valor de F es menor de la unidad, nos indica que no existe un efecto
significativo de la interacción de los dos factores objeto de la experimentación sobre la
demanda.
No es preciso comparar con tablas.
La correspondiente salida con el paquete estadístico SPSS es la siguiente:
Análisis Multivariante
121
9.12.5.1 EXPERIMENTO FACTORIAL SIMPLE (SPSS)
12 100,0% 0 ,0% 12 100,0%N Porcentaje N Porcentaje N Porcentaje
Incluidos Excluidos TotalCasos
Resumen del procesamiento de los casosa
Ventas (miles de unidades) por Envase, Promocióna.
38,00 231,00 224,00 231,00 626,00 221,00 212,00 219,67 632,00 426,00 418,00 425,33a 12
PromociónPuntosPrecioSorteoTotalPuntosPrecioSorteoTotalPuntosPrecioSorteoTotal
Envase500 cc.
1000 cc.
Total
Media NVentas (miles de unidades)
Medias de las casillasb
Media globala.
Ventas (miles de unidades) por Envase, Promociónb.
780,000 3 260,000 10,541 ,008385,333 1 385,333 15,622 ,008394,667 2 197,333 8,000 ,020
2,667 2 1,333 ,054 ,948
782,667 5 156,533 6,346 ,022148,000 6 24,667930,667 11 84,606
Ventas (miles de unidades)(Combinadas)EnvasePromoción
Efectos principales
Envase *Promoción
Interacciones de orden 2
ModeloResidualTotal
Suma decuadrados gl
Mediacuadrática F Sig
Método jerárquico
ANOVAa
Ventas (miles de unidades) por Envase, Promocióna.
Análisis Multivariante
122
TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F (Nivel de confianza 95%)
m
n 1 2 3 4 5
1 161´4 199´5 215´7 224´6 230´2
2 18´51 19 19´16 19´25 19´30
3 10´13 9´55 9´28 9´12 9´01
4 7´71 6´94 6´59 6´39 6´26
5 6´61 5´79 5´41 5´19 5´05
6 5´99 5´14 4´76 4,53 4´39
7 5´59 4´74 4´35 4´12 3´97
8 5´32 4´46 4´07 3´84 3´69
9 5´12 4´26 3´86 3´63 3´48
10 4´96 4´10 3´71 3´48 3´33
11 4´84 3´98 3´59 3´36 3´20
12 4´75 3´89 3´49 3´26 3´11
13 4´67 3´81 3´41 3´18 3´03
14 4´6 3´74 3´34 3´11 2´96
15 4´54 3´68 3´29 3´06 2´90
Siendo m los grados de libertad del numerador y n los grados de libertad del
denominador.
Análisis Multivariante
123
ANEXO 1 RESUMEN DEL MÉTODO ANOVA TRADICIONAL
El proceso de este método es:
Se determinan las siguientes dispersiones:
1.- Dispersión total (DT)
Mide la suma de las dispersiones.
2.- Dispersión factorial (DF)
Mide la dispersión entre los grupos creados por las diferentes alternativas del factor o
factores estudiados.
Dependiendo del tipo de experimento, pueden existir varias dispersiones factoriales,
correspondientes al factor principal y a los factores de bloque.
3.- Dispersión residual (DR)
Mide la dispersión dentro de los grupos creados por las diferentes alternativas del factor
o factores estudiados.
DT = DF + DR DR = DT - DF
4.- Se calcula el cuadrado medio total (CMT)
Se trata de la dispersión total dividida por el número de grados de libertad.
CMT = DT / gl donde gl son los grados de libertad.
5.- Se calcula el cuadrado medio factorial (CMF)
Se trata de la dispersión factorial dividida por el número de grados de libertad.
CMF = DF / gl
Dependiendo del tipo de experimento pueden existir varias varianzas factoriales,
correspondiendo al factor principal y a los factores bloque.
6.- Se calcula el Cuadrado medio residual (CMR)
Se trata de la dispersión residual dividida por el número de grados de libertad.
CMR = DR / gl
7 Se realiza el test de la F
Para cada factor estudiado se calcula:
7-1.- Se calcula el estadístico F
F = CMF / CMR
Análisis Multivariante
124
Si el valor de F es menor que uno, es decir CMF < CMR, no existe un efecto
significativo del factor estudiado sobre la variable dependiente, y por tanto no es
necesario realizar la comparación de F con el correspondiente valor de las tablas.
7-2.- Se determina el valor de F en las tablas estadísticas de la distribución de la F, en
base a los grados de libertad del numerador y del denominador.
7-3.- Se comparan ambos valores.
La hipótesis nula H0 es: NO EXISTE EFECTO SIGNIFICATIVO DEL FACTOR
ESTUDIADO.
Entonces:
Si F > Ft (tabla), no se cumple H0 y por tanto el factor estudiado tiene una influencia
significativa sobre la variable dependiente.
Si F= Ft (tabla), entonces se cumple H0
ANEXO 2 RESUMEN DE TÉRMINOS UTILIZADOS
A continuación vamos a explicar brevemente los conceptos utilizados habitualmente en
la Investigación Comercial por experimentación.
Diseño experimental. Forma de atribuir los diferentes tratamientos a las unidades
experimentales.
Dispersión de bloque. Variación que se produce como consecuencia de la acción de
diversas variables que no pueden ser controladas, pero cuya existencia conocemos.
Dispersión factorial. Variación producida como consecuencia de la influencia de los
diversos tratamientos (factores), cuyos efectos se quieren medir y comparar.
Dispersión residual. Variación que se produce como consecuencia de diferentes
variables, cuyo valor y presencia no conocemos (es decir están sin controlar). También
se llama “error experimental”.
Dispersión total. Es la variación total originada por los diferentes tratamientos, factores
no controlados y las interacciones entre los diversos tratamientos.
Grados de libertad. Expresan el número de datos independientes necesarios para
calcular el valor de un parámetro.
Interacción. Variación que se produce como consecuencia de la influencia recíproca
entre varios tratamientos.
Análisis Multivariante
125
Repetición. Consiste en realizar dos o más veces una experimentación bajo las mismas
condiciones, con el objetivo de obtener una conclusión. También se denomina “réplica”.
Tratamiento. Proceso o variable cuyos efectos se quieren medir y comparar.
Unidad experimental. Conjunto de elementos a los que se aplica el mismo tratamiento,
cuyos efectos se quieren medir y comparar.
Varianza. Es la medida de dispersión de un conjunto de datos con relación a su media.
Matemáticamente se expresa por la fórmula siguiente:
( )σ
µ2
2
1=−
=∑ X
N
ii
N
donde Xi es el valor del dato, µ es la media del universo o
población (N).
Cuando la varianza que se quiere calcular corresponde a una muestra, el valor de N de
dicha muestra se sustituye por los grados de libertad (n-1). La expresión matemática
correspondiente es.
( )S
x m
n
ii
n
2
2
1
1=
−
−=∑
donde n es el tamaño de la muestra, m es la media de la
muestra, y xi = valor del dato correspondiente.
9.13 BIBLIOGRAFÍA
Análisis Multivariable para las Ciencias Sociales. Lévy Varela Editorial Perrazo
Prentice Hall 2003
El Análisis de la Varianza en la Investigación Comercial. Gregoria Mateos-Aparicio y
Miguel Martín. Prentica Hall 2002
Análisis Multivariante
126
ANÁLISIS DISCRIMINANTE
Análisis Multivariante
127
10. ANALISIS DISCRIMINANTE
Introducción
Vamos a reseñar en el siguiente esquema de situación la técnica del Análisis
Discriminante entre los diferentes procedimientos multivariables
Análisis multivariante
Dos grupos de variables
Método Explicativo
Número de variables a explicar: UNA
Tipo de la variable a explicar: Cualitativa
Tipo de las variables explicativas: Métricas
Análisis Discriminante
10.1 CONCEPTO
El análisis discriminante se utiliza para seleccionar entre diferentes grupos, mediante el
análisis de datos con una variable dependiente categórica y variables independientes
medidas en escalas de intervalo. Trata de explicar la pertenencia de las observaciones a
las diferentes categorías o grupos preestablecidos
Análisis Multivariante
128
10.1.1 EJEMPLO
Variable dependiente o criterio: Marca de Refresco que toman los consumidores (Fanta,
Kas, Schweppes)
Variables independientes o de predicción: Las valoraciones obtenidas a través de una
escala Diferencial Semántico (7 puntos).
10.2 OBJETIVOS DEL AD
• Explicar la pertenencia de individuos u objetos a grupos preestablecidos
• Desarrollar las funciones discriminantes. Se trata de combinaciones lineales de
las variables independientes (predictoras), que discriminan mejor entre las
categorías (Grupos) de la variable dependiente.
• Identificar diferencias significativas entre los grupos en función de las variables
predictoras
• Determinar las variables independientes (predictoras) que más contribuyen a la
diferencia entre grupos.
• Clasificar los casos para uno de los grupos en función de las variables
predictoras.
• Evaluar la exactitud de la clasificación.
10.3 CLASIFICACIÓN DEL AD
Las técnicas del AD se clasifican por el número de categorías que tiene la variable
criterio
1. Análisis discriminante de dos grupos: la variable criterio tiene dos categorías
(dicotómica)
2. Análisis discriminante múltiple: la variable criterio tiene tres o más categorías
Análisis Multivariante
129
10.4 RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN
Las similitudes entre las tres técnicas y sus diferencias las resumimos en el siguiente
cuadro
Análisis
Discriminante
ANOVA REGRE-
SION
N de variables dependientes Una Una Una
N de variables independientes Varias Varias Varias
Naturaleza de la variable dependiente Categórica Métrica Métrica
Naturaleza de la variable independiente Métricas Categóricas Métricas
El análisis discriminante de dos grupos está estrechamente relacionado con la Regresión
múltiple. En esta situación la variable dependiente se clasifica como binaria (0 y 1) da
como resultado coeficientes de regresión parcial proporcionales a los coeficientes de la
función discriminante.
10.5 MODELO DEL AD
El modelo estadístico en que se fundamenta el AD comprende combinaciones lineales
de la siguiente estructura:
D = b0 + b1x1 + b2 x2 + b3 x3 + …..+ bk xk
Siendo
• D la calificación discriminante
• B los coeficientes discriminantes
• X variables predictoras
Análisis Multivariante
130
10.6 SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD
10.6.1 SUPUESTOS:
1. Cada uno de los grupos es una muestra de una población normal de variables
múltiples
2. Todas las poblaciones tienen la misma matriz de covarianza
10.6.2 ESTADÍSTICOS
Los estadísticos que más importancia y tienen mayor relación son:
• Correlación Canónica: Mide la asociación entre la única función discriminante
y el conjunto de variables simuladas que definen los datos del grupo (algunos
autores llaman membresía, aunque esta palabra no existe en nuestro idioma, la
podemos considerar equivalente a membrete) del grupo. Mide el grado de
asociación entre los valores discriminantes y los grupos.
• Centroide. Esta formado por los valores medios de las calificaciones
discriminantes para un determinado grupo. Por tanto existen tantos centroides
como grupos. Las medias para un grupo en todas las funciones es el centroide
del grupo.
• Matriz de clasificación o matriz de confusión o predicción. Contiene el
número de casos que se clasifican en forma correcta y errónea. Los casos
clasificados correctamente se distribuyen en la diagonal. La suma de los casos
de la diagonal dividida por el total de casos es la razón de aciertos.
• Coeficientes de la función discriminante. Los no estandarizados son los
multiplicadores de las variables, cuando estas se encuentran en las unidades de
medición originales.
Análisis Multivariante
131
• Calificaciones discriminantes. Los coeficientes no estandarizado se multiplican
por los valores de las variables independientes y se suman al valor constante (b0)
obteniéndose el valor D (Calificación Discriminante)
• Valor específico. Es la razón de la suma de los cuadrados entre y dentro de los
grupos. Los valores específicos altos indican funciones superiores.
• Valores F. Se determinan a partir del ANOVA unidireccional, con la variable de
grupo como variable independiente categórica. Cada indicador sirve como
variable dependiente métrica del ANOVA.
• Medias y desviaciones estándar. Se determinan para cada indicador de cada
grupo
• Matriz agrupada de correlaciones dentro de cada grupo. Se calcula mediante
el promedio de las matrices de covarianza separadas para todos los grupos.
• Coeficientes estandarizados de función discriminante. Se utilizan com
multiplicadores cuando las variables se estandarizan con media 0 y varianza 1
• Correlaciones de estructura. También se llaman cargas discriminantes,
representan las correlaciones sencillas entre los indicadores y la función
discriminante
• Matriz de correlación total. Los casos se tratan como si fueran de una sola
muestra y se determinan las correlaciones
• La λ de Wilks. También llamado estadístico U Para cada indicador es la razón
de la suma de los cuadrados dentro de los grupos con la suma total de cuadrados.
Su valor esta comprendido entre 0 y 1 Los valores próximos a 1 indica que las
medias de un grupo no parecen ser muy diferentes si es cercano a 0 indica que
las medias de los grupos parecen diferentes.
Análisis Multivariante
132
10.7 PASOS DEL ANÁLISIS DISCRIMINANTE
Los pasos o fases que contiene el análisis discriminante son:
1. Formular el problema,
2. Estimar los coeficientes de función discriminante,
3. Determinar la significación discriminante,
4. Interpretar los resultados
5. Verificar la validez del análisis discriminante.
10.7.1 FORMULACIÓN DEL PROBLEMA
Hemos de identificar a través de los objetivos que perseguimos la variable criterio y las
variables predictoras o independientes.
La variable criterio debe establecerse en categorías mutuamente excluyentes y
colectivamente exhaustivas.
Las variables predictivas deben escogerse en función del criterio del investigador.
La muestra se divide en dos partes,
Una parte de la muestra se utiliza para el cálculo de la función discriminante (Muestra
de análisis) La otra parte que se suele denominar como proposición o muestra de
validación y se usa para validar la función discriminante.
Cuando la muestra es grande y se divide en dos partes iguales, lo que se hace es
intercambiar el papel de las mitades haciéndose lo que se denomina validación cruzada
doble.
Análisis Multivariante
133
10.7.2 ESTIMACIÓN
La muestra de análisis la utilizamos para determinar los coeficientes de función
discriminante.
Método directo. Todos los indicadores se incluyen directamente. Es decir se incluyen
todas las variables sin importar su poder de discriminación
Análisis discriminante discreto. Las variables de predicción entran de forma secuencial,
en función de su capacidad para discriminar entre los grupos.
El primer procedimiento es apropiado cuando, por alguna causa (modelo o experiencias)
el investigador quiere que la discriminación se base en todos los indicadores.
El método discreto es de utilidad cuando se quiere seleccionar un conjunto o
subconjunto de indicadores para su inclusión en la función discriminante final.
10.7.3 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN
Para probar la significación estadística se toma como hipótesis nula (H0) En la
población las medias de todas las funciones discriminantes son iguales en todos los
grupos.
La prueba se basa en la λ de Wilks La significación se calcula con base en una
transformación de ji cuadrado
Normalmente se trabaja para un contraste del nivel de significación α = 5%
Rechazamos H0 cuando la significación calculada sea menor que 0´05
10.7.4 INTERPRETACIÓN
La interpretación de los coeficientes es similar a la que se realiza en el análisis de
regresión múltiple.
El valor del coeficiente de un indicador concreto depende del resto de indicadores que
se incluyan en la función discriminante.
Análisis Multivariante
134
Los signos de los coeficientes indican que valores de la variable dan como resultado
valores de la función altos y bajos así como las correlaciones con los grupos
Debido a la posible multicolinealidad en las variables predoctoras, no existe ninguna
medición objetiva de la significación relativa de los indicadores en la discriminación
entre los grupos.
Podemos tener idea de la significación relativa al examinar los coeficientes
estandarizados de la función discriminante
En la praxis, los indicadores con coeficientes estandarizados altos contribuyen más al
poder discriminante.
También se analiza la significación relativa de las variables predoctoras (indicadores)
analizando las correlaciones de estructura (Cargas canónicas o cargas discriminantes)
Estas correlaciones simples entre el indicador y la función discriminante representan la
varianza que la variable independiente comparte con la función.
También podemos añadir a la interpretación de los resultados el Perfil Característico, se
trata de interpretar los resultados mediante la descripción de cada grupo en términos de
las medias de los grupos para las variables de predicción. Una comparación entre las
medias nos ayuda a comprender sus diferencias.
Para una mejor comprensión de estos conceptos reseñamos el siguiente ejemplo del
autor Narres K. Malhotra.
10.7.4.1 EJEMPLO5 LOS VENDEDORES SATISFECHOS CONSERVAN SU
TRABAJO.
Se utilizó el AD para determinar que factores explicaban las diferencias entre los
vendedores que permanecen en la empresa y los que la abandonaron. Las variables
utilizadas pueden observarse en la tabla de resultados
5 Naresh K. Malhotra Investigación de Mercados un enfoque práctico. Segunda edición Prentice Hall 1997
Análisis Multivariante
135
El resultado fue: La correlación canónica, un índice de discriminación R = 0,4572 es
significativa λ de Wilk = 0,7909, F (26 - 173) = 1,7588 y p = 0,0180.
Por tanto el resultado indica que las variables consideradas discriminan entre los que se
fueron de la empresa y los que permanecen.
Ejemplo.
Análisis Multivariante
136
10.7.5 VALIDACIÓN
Si recordamos los datos se dividían aleatoriamente en dos submuestras. Una la
denominamos muestra de análisis y la utilizamos para estimar la función discriminante
y la segunda que llamamos muestra de validación se utiliza para desarrollar la matriz de
clasificación
Los valores relativos discriminantes que se calculan a través de la muestra de análisis,
se multiplican por los valores de las variables de predicción con el objetivo de obtener
las correspondientes calificaciones discriminantes (D) de la muestra de validación. De
aquí se obtiene la razón de aciertos, que es, el porcentaje de casos que se clasifican
correctamente por medio del Análisis Discriminante.
Es de utilidad el comparar el porcentaje de los casos que se clasificaron de forma
correcta con el AD con el porcentaje que obtendríamos por la probabilidad.
Cuando las dos submuestras tienen el mismo tamaño el porcentaje de clasificación por
probabilidad es 0,5, en general cuando los grupos tienen el mismo tamaño el porcentaje
de clasificación por probabilidad es1 dividido por el número de grupos.
Algunos autores citan que: La exactitud alcanzada por el AD debe ser por lo menos un
25% mayor que la alcanzada por la probabilidad.
Los paquetes estadísticos utilizados habitualmente estiman una matriz de clasificación
con base en la muestra de análisis. Dando significación a la variación probable de esos
datos.
Análisis Multivariante
137
10.7.5.1 EJEMPLO:
10.7.5.2 ANÁLISIS DISCRIMINANTE DE DOS GRUPOS.
Análisis Multivariante
138
10.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:
Estadísticos; Clasificar; Discriminante; Variable de agrupación ... (cualitativa); Definir rango ... (mín., máx.); Independientes ... (variables cuantitativas o binarias), Introducir independientes juntas Estadísticos: Descriptivos: Medias* y ANOVAs univariados; Matrices: correlación intra-grupos, Coeficientes de la función: no tipificados; Clasificar: Mostrar: Resultados para cada caso* Tabla de resumen Clasificación dejando uno fuera*.
* pedir solo si interesa.
EJEMPLO DE LAS BICICLETAS
Somos una empresa fabricante de Bicicletas y deseamos conocer, a través
Cuáles son las características diferenciadoras de los consumidores de la gama Alta y de
la gama Media de nuestras bicicletas.
180 100,00 ,00 ,0
0 ,0
0 ,0180 100,0
Casos no ponderadosVálidos
Código de grupo de perdido o fuera de rangoPerdida al menos una variable discriminantePerdidos o fuera de rango ambos, el código degrupo y al menos una de las variablesdiscriminantes.Total
Excluidos
Total
N Porcentaje
Resumen del procesamiento para el análisis de casos
Análisis Multivariante
139
1. ANÁLISIS UNIVARIANTE:
28,93 7,09 141 141,000,65 ,48 141 141,000
26928,72 6726,99 141 141,000
85,96 30,89 141 141,000
2,91 ,68 141 141,000,47 ,50 141 141,000
2,98 ,79 141 141,000
29,21 6,98 39 39,000,64 ,49 39 39,000
42587,18 12704,88 39 39,000
168,46 60,02 39 39,000
4,67 ,62 39 39,000,21 ,41 39 39,000
4,44 1,12 39 39,000
28,99 7,05 180 180,000,64 ,48 180 180,000
30321,39 10559,63 180 180,000
103,83 51,70 180 180,000
3,29 ,98 180 180,000,41 ,49 180 180,000
3,29 1,06 180 180,000
edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados porsemanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza labici por semanaedadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados porsemanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza labici por semanaedadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados porsemanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza labici por semana
Gama deProductoMedia
Alta
Total
Media Desv. típ.No
ponderados Ponderados
N válido (según lista)
Estadísticos del grupo
¿Las medias de estas variables para cada uno de los grupos son significativamente
distintas?
Deberíamos hacer un análisis de la varianza, considerando cada una de las variables
independientes como la variable a explicar y como variable explicativa, el factor,
nuestra variable dependiente (el grupo al que pertenece la observación).
Por ejemplo, el resultado obtenido en el análisis de varianza para la variable
“autoevaluación del nivel ciclista” sería el siguiente:
Análisis Multivariante
140
ANOVA de un factor
94,510 1 94,510 214,389 ,00078,468 178 ,441
172,978 179
Inter-gruposIntra-gruposTotal
Autoevaluacióndel nivelciclista
Suma decuadrados gl
Mediacuadrática F Sig.
ANOVA
El análisis discriminante efectúa ese mismo análisis para todas las variables
explicativas:
1,000 ,047 1 178 ,8291,000 ,003 1 178 ,960
,625 106,929 1 178 ,000
,565 136,839 1 178 ,000
,454 214,389 1 178 ,000,952 9,068 1 178 ,003
,675 85,832 1 178 ,000
edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados porsemanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza labici por semana
Lambdade Wilks F gl1 gl2 Sig.
Pruebas de igualdad de las medias de los grupos
Además del test F, ya conocido, se calcula la Lambda de Wilks:
Total cuadrados de Suma(residual) grupos-intracuadradosde Suma
=WILKSλ
En ambos casos, la H0 es: las medias son iguales.
Si la Significación es pequeña (menor que 0.05 o 0.10) se rechaza la H0. Por tanto, hay
diferencias entre las medias de los grupos.
Finalmente, se obtiene una matriz de correlaciones (intra-grupo) entre las variables
explicativas
Análisis Multivariante
141
1,000 ,179 ,716 ,010 ,037 -,010 -,029
,179 1,000 ,159 ,062 -,058 ,079 -,013
,716 ,159 1,000 ,102 ,015 -,009 ,040
,010 ,062 ,102 1,000 ,577 -,138 ,695
,037 -,058 ,015 ,577 1,000 -,180 ,393
-,010 ,079 -,009 -,138 -,180 1,000 -,135
-,029 -,013 ,040 ,695 ,393 -,135 1,000
edadestado civil (1=casado)Ingresofamiliar anual(Euros)Promedio deKm realizadospor semanaAutoevaluacióndel nivelciclistasexo (1=mujer)Promedio deveces queutiliza la bicipor semana
Correlación
edadest.civil Ingreso
Km porsemana
nivelciclista sexo
Vecessem.
Matrices intra-grupo combinadas
La correlación “intra-grupo” se calcula teniendo en cuenta la pertenencia a un
determinaro grupo. Ejemplo:
Análisis Multivariante
142
10.9 ANALISIS DEL EFECTO CONJUNTO:
En primer lugar se busca la Función discriminante:
KK XBXBXBBD ++++= Λ22110
siendo los coeficientes B’s aquellos que maximizan la relación Suma de Cuadrados
Explicada / Suma de Cuadrados Residual.
En nuestro ejemplo:
-,10273,01998,00012
-,000251,00256-,01476,14424
-4,38912
edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados por semanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza la bici por semana(Constante)
1Función
Coeficientes de las funciones canónicas discriminantes
Coeficientes no tipificados
Con ellos se pueden calcular las puntuaciones discriminantes para cada observación:
D1 = – 0,102 (22) + 0,019 (0) + 0,0001 (22100) – 0,0002 (120) + + 1,002 (5) – 0,014
(0) + 0,144 (3) – 4,389 = 1,40
22 soltero 22100 120 Profesional (5) hombre 3 1,4003922 soltero 28900 200 Profesional (5) hombre 4 2,3352223 soltero 24650 140 Profesional (5) hombre 4 1,7408523 soltero 31450 100 Experto (4) mujer 3 1,3995823 soltero 28050 100 Profesional (5) hombre 4 2,15595
12345
edadestado civil (1=casado)
Ingresofamiliaranual
(Euros)
Promediode Km
realizadospor
semana
Autoeva-luación del
nivel ciclistasexo
(1=mujer)
Promediode vecesque utilizala bici porsemana
Puntuacionesdiscriminantesde la función 1
para elanálisis 1
Resúmenes de casosa
Limitado a los primeros 5 casos.a.
Análisis Multivariante
143
Las puntuaciones discriminantes se pueden guardar, pudiéndose utilizar en otros
análisis. Por ejemplo, podemos comprobar como se han separado los grupos con un
análisis de varianza:
141 -,8222 ,8910 ,0750 -,9705 -,673839 2,9725 1,3263 ,2124 2,5425 3,4024
180 ,0000 1,8579 ,1385 -,2733 ,2733
MediaAltaTotal
GamadeProducto
Puntuacionesdiscriminantesde la función 1
N MediaDesv.típica
Errortípico
Límiteinferior
Límitesuperior
Intervalo de confianzapara la media al 95%
Descriptivos
439,903 1 439,903 439,903 ,000178,000 178 1,000617,903 179
Inter-gruposIntra-gruposTotal
Puntuacionesdiscriminantesde la función 1
Suma decuadrados gl
Mediacuadrática F Sig.
ANOVA
Como también hace el análisis discriminante:
Análisis 1: Resumen de las funciones canónicas discriminantes
,288 217,174 7 ,000
Contrastede lasfunciones1
Lambdade Wilks Chi-cuadrado gl Sig.
Lambda de Wilks
SC Explicada / SC Residual = 439,9 / 178
2,471a 100,0 100,0 ,844Función1
Autovalor% de
varianza%
acumuladoCorrelación
canónica
Autovalores
Se han empleado las 1 primeras funcionesdiscriminantes canónicas en el análisis.
a.
R≡==Total SC
Explicada SC9,6179,439
SC Residual / SC Total = 178 / 617,9
Análisis Multivariante
144
Después de comprobar que los grupos tienen unas medias estadísticamente diferentes,
se pueden analizar los coeficientes de la función discriminante y la correlación entre
ésta y las variables:
-,726,010,997
-,010,666
-,007,125
edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados por semanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza la bici por semana
1Función
Coeficientes estandarizados de las funciones discriminantes canónicas
,698,558,493,442
-,144,010
-,002
Autoevaluación del nivel ciclistaPromedio de Km realizados por semanaIngreso familiar anual (Euros)Promedio de veces que utiliza la bici por semanasexo (1=mujer)edadestado civil (1=casado)
1Función
Matriz de estructura
Correlaciones intra-grupo combinadas entre las variablesdiscriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.
-,103,020,000,000
1,003-,015,144
-4,389
edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados por semanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza la bici por semana(Constante)
1Función
Coeficientes de las funciones canónicas discriminantes
Coeficientes no tipificados
Análisis Multivariante
145
10.10 CLASIFICACIÓN DE LAS OBSERVACIONES:
La probabilidad de pertenecer a un grupo g dado una puntuación discriminante d se
calcula a través del teorema de Bayes:
∑∀
=•=>=•=>
===
ggGPgGdDP
gGPgGdDPdDgGP
)()|()()|(
)|(
donde P(G = g) es la probabilidad a priori.
Normalmente se supone que la probabilidad a priori es la misma para cada grupo, pero
se puede asignar en función del peso de cada grupo.
P(D > d | G = g) es una probabilidad condicionada.
Es la probabilidad de obtener un valor discriminante superior a d dado que la
observación pertenece al grupo g. Se calcula a partir de la distribución de puntuaciones
discriminantes de la muestra.
-,8222,972
Gama de ProductoMediaAlta
1Función
Funciones en los centroides de los grupos
Funciones discriminantes canónicas no tipificadasevaluadas en las medias de los grupos
Análisis Multivariante
146
A partir de estas probabilidades se puede calcular la probabilidad a posteriori, la
probabilidad de pertenecer al grupo g, dado que el valor discriminante es d.
La observación se clasifica en el grupo que tiene una mayor probabilidad.
Estadísticos de clasificación
,500 141 141,000,500 39 39,000
1,000 180 180,000
Gama deProductoMediaAltaTotal
PreviasNo
ponderados Ponderados
Casos utilizados en elanálisis
Probabilidades previas para los grupos
Análisis Multivariante
147
2 2 ,116 1 ,775 2,471 1 ,225 4,940 1,4002 2 ,524 1 ,992 ,406 1 ,008 9,969 2,3352 2 ,218 1 ,926 1,517 1 ,074 6,569 1,7412 2 ,116 1 ,774 2,474 1 ,226 4,936 1,4002 2 ,414 1 ,984 ,667 1 ,016 8,869 2,1562 2 ,185 1 ,898 1,754 1 ,102 6,102 1,6482 2 ,774 1 ,998 ,082 1 ,002 12,307 2,6862 2 ,610 1 ,995 ,261 1 ,005 10,785 2,4622 2 ,373 1 ,979 ,794 1 ,021 8,430 2,0812 2 ,227 1 ,932 1,460 1 ,068 6,690 1,7642 1** ,141 1 ,834 2,165 2 ,166 5,398 ,6492 2 ,851 1 ,998 ,035 1 ,002 13,007 2,7842 1** ,216 1 ,925 1,528 2 ,075 6,545 ,4142 2 ,410 1 ,983 ,679 1 ,017 8,824 2,1482 2 ,503 1 1,000 ,449 1 ,000 19,933 3,6422 2 ,509 1 1,000 ,435 1 ,000 19,842 3,6322 2 ,155 1 ,858 2,024 1 ,142 5,627 1,5502 2 ,505 1 ,991 ,444 1 ,009 9,789 2,3062 2 ,835 1 ,998 ,043 1 ,002 12,865 2,7652 2 ,423 1 ,985 ,642 1 ,015 8,960 2,171
Númerode caso1234567891011121314151617181920
Gruporeal
Grupopronos-ticado p gl
P(D>d |G=g) P(G=g
| D=d)
Distancia deMahalanobisal cuadrado
hasta elcentroide
Grupo mayor
GrupoP(G=g| D=d)
Distancia deMahalanobisal cuadrado
hasta elcentroide
Segundo grupo mayor
Función1
Puntuaciones
discriminantes
Estadísticos por casos
Caso mal clasificado**.
138 3 1412 37 39
97,9 2,1 100,05,1 94,9 100,0
Gama deProductoMediaAltaMediaAlta
Recuento
%
OriginalMedia Alta
Grupo de pertenenciapronosticado
Total
Resultados de la clasificacióna
Clasificados correctamente el 97,2% de los casos agrupadosoriginales.
a.
Análisis Multivariante
148
Estadísticos de clasificación utilizando el método de validación
cruzada.
Este método da resultados de clasificación algo más realistas, puesto que trata de
clasificar cada observación en un modelo que se estima con una muestra en la que no se
incluye dicha observación. Por tanto, se realizan tantos modelos como observaciones
haya en la muestra, y con cada uno de ellos se comprueba si se clasifica adecuadamente
o no una observación omitida.
138 3 1412 37 39
97,9 2,1 100,05,1 94,9 100,0
138 3 1412 37 39
97,9 2,1 100,05,1 94,9 100,0
Gama deProductoMediaAltaMediaAltaMediaAltaMediaAlta
Recuento
%
Recuento
%
Original
Validacióncruzada
a
Media Alta
Grupo de pertenenciapronosticado
Total
Resultados de la clasificaciónb,c
La validación cruzada sólo se aplica a los casos del análisis. En lavalidación cruzada, cada caso se clasifica mediante las funcionesderivadas a partir del resto de los casos.
a.
Clasificados correctamente el 97,2% de los casos agrupadosoriginales.
b.
Clasificados correctamente el 97,2% de los casos agrupadosvalidados mediante validación cruzada.
c.
Análisis Multivariante
149
10.11 MÉTODO DE INCLUSIÓN POR PASOS: MÉTODO
LAMBDA DE WILKS:
Variables introducidas/eliminadasa,b,c,d
Autoevaluación del nivel ciclista .454 1 1 178.0 214.389 1 178.0 .000Ingreso familiar anual (Euros) .360 2 1 178.0 157.568 2 177.0 .000edad .291 3 1 178.0 143.197 3 176.0 .000
Paso123
IntroducidasEstadís
tico gl1 gl2 gl3 Estadístico gl1 gl2 Sig.F exacta
Lambda de Wilks
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
El número máximo de pasos es 14.a.
La F parcial mínima para entrar es 3.84.b.
La F parcial máxima para eliminar es 2.71c.
El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.d.
Variables en el análisis
1.000 214.3891.000 130.445 .6251.000 46.248 .454
.998 99.817 .455
.488 98.642 .454
.487 41.805 .360
Autoevaluación del nivel ciclistaAutoevaluación del nivel ciclistaIngreso familiar anual (Euros)Autoevaluación del nivel ciclistaIngreso familiar anual (Euros)edad
Paso12
3
ToleranciaF para
eliminarLambdade Wilks
Análisis Multivariante
150
Variables no incluidas en el análisis
1.000 1.000 .047 1.0001.000 1.000 9.068 .9521.000 1.000 .003 1.0001.000 1.000 106.929 .6251.000 1.000 85.832 .6751.000 1.000 136.839 .5651.000 1.000 214.389 .454.999 .999 .047 .454.968 .968 .068 .453.997 .997 .285 .453
1.000 1.000 46.248 .360.845 .845 6.567 .437.667 .667 7.150 .436.487 .487 41.805 .291.968 .968 .036 .360.971 .971 .252 .359.844 .844 4.223 .351.659 .659 2.865 .354.968 .487 .025 .291.962 .482 .012 .291.835 .482 1.532 .288.646 .472 .523 .290
edadsexo (1=mujer)estado civil (1=casado)Ingreso familiar anual (Euros)Promedio de veces que utiliza la bici por semanaPromedio de Km realizados por semanaAutoevaluación del nivel ciclistaedadsexo (1=mujer)estado civil (1=casado)Ingreso familiar anual (Euros)Promedio de veces que utiliza la bici por semanaPromedio de Km realizados por semanaedadsexo (1=mujer)estado civil (1=casado)Promedio de veces que utiliza la bici por semanaPromedio de Km realizados por semanasexo (1=mujer)estado civil (1=casado)Promedio de veces que utiliza la bici por semanaPromedio de Km realizados por semana
Pas0
1
2
3
ToleranciaTolerancia
mín.F para
introducirLambdade Wilks
Resumen de las funciones canónicas discriminantes
Autovalores
2.441a 100.0 100.0 .842Función1
Autovalor % de varianza % acumuladoCorrelación
canónica
Se han empleado las 1 primeras funciones discriminantescanónicas en el análisis.
a.
Lambda de Wilks
.291 218.105 3 .000
Contraste delas funciones1
Lambdade Wilks Chi-cuadrado gl Sig.
Análisis Multivariante
151
Coeficientes estandarizados de lasfunciones discriminantes canónicas
-.7451.019
.715
edadIngreso familiar anual (Euros)Autoevaluación del nivel ciclista
1Función
Matriz de estructura
.702
.509
.496
.343-.130-.012.010
Autoevaluación del nivel ciclistaPromedio de Km realizados por semanaa
Ingreso familiar anual (Euros)Promedio de veces que utiliza la bici por semanaa
sexo (1=mujer)a
estado civil (1=casado)a
edad
1Función
Correlaciones intra-grupo combinadas entre las variablesdiscriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.
Esta variable no se emplea en el análisis.a.
Coeficientes de las funciones canónicas discriminantes
-.10544.00012
1.07664-4.17625
edadIngreso familiar anual (Euros)Autoevaluación del nivel ciclista(Constante)
1Función
Coeficientes no tipificados
Funciones en los centroides de los grupos
-.8172.954
Gama de Producto1 Media2 Alta
1Función
Funciones discriminantes canónicas no tipificadasevaluadas en las medias de los grupos
Análisis Multivariante
152
Estadísticos de clasificación
Resumen del proceso de clasificación
1800
0
180
ProcesadosCódigo de grupo perdido o fuera de rangoPerdida al menos una variablediscriminante
Excluidos
Usados en los resultados
Probabilidades previas para los grupos
.500 141 141.000
.500 39 39.0001.000 180 180.000
Gama de Producto1 Media2 AltaTotal
PreviasNo
ponderados Ponderados
Casos utilizados en elanálisis
Resultados de la clasificacióna
138 3 1412 37 39
97.9 2.1 100.05.1 94.9 100.0
Gama de Producto1 Media2 Alta1 Media2 Alta
Recuento
%
Original1 Media 2 Alta
Grupo de pertenenciapronosticado
Total
Clasificados correctamente el 97.2% de los casos agrupados originales.a.
Análisis Multivariante
153
10.12 ANÁLISIS DISCRIMINANTE MÚLTIPLE
Se habla de técnicas de Análisis Discriminante Múltiple (ADM): cuando la variable
criterio tiene tres o más categorías
Si en el ADM existen K categorías o grupos, de la variable criterio, pueden estimarse K
– 1 funciones discriminantes, siempre que el número de variables predictivas
(indicadores) sea mayor a K-1
La primera función tiene la razón más alta que la suma de cuadrados entre los grupos
con la suma de cuadrados dentro de los grupos. La segunda función no correlacionada
con la anterior, tendrá la segunda razón más alta y así sucesivamente. Puede ocurrir que
no todas las razones sean significativas estadísticamente.
10.12.1 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN
La hipótesis nula (H0) es que los centroides de grupo son iguales
Deben tomarse las funciones simultáneamente. Seguidamente se excluye una función y
las medias restantes se prueban en cada paso.
10.12.2 INTERPRETACIÓN
La interpretación de los resultados se realiza a través del examen de los coeficientes
estandarizados de la función discriminante, de los diagramas de dispersión, examen de
la matriz de estructura y del mapa territorial
Mapa territorial: en este diagrama el centroide de cada grupo se indica con un
asterisco (*). Las fronteras de los grupos se muestran por medio de números que
corresponden a los grupos, de esta forma el centroide del grupo 1 esta delimitado por el
número 1, el centroide del grupo 2 por el número 2 y así sucesivamente.
10.12.3 VALIDACIÓN
Se requiere que la mejora con la probabilidad sea al menos un 25% superior.
Análisis Multivariante
154
11. CASO PRÁCTICO DE ADM
EL PEQUEÑO COMERCIO DETALLISTA DE ZARAGOZA
11.1.1 INTRODUCCIÓN
A partir de una encuesta personal realizada por IMSO, S.L. a 818 comercios de
Zaragoza, y tras un análisis uni y bivariante (este último validado con la Chi-cuadrado)
se observa que en los comercios el conocimiento y/o empleo de algunas herramientas de
marketing no es excesivamente elevado.
Para la consecución de los objetivos, hemos aplicado algunas técnicas de investigación
comercial a los datos obtenidos con una encuesta estructurada, recogida mediante
entrevista personal, de una muestra estadísticamente representativa del sector comercio
detallista en Zaragoza6. Dado que Zaragoza en los estudios de mercado ha sido
considerada siempre como ciudad piloto, y por tanto representativa del resto de
ciudades del estado español, los resultados obtenidos con esta muestra se pueden
suponer que en cierto modo son representativos del comercio en todo el territorio
nacional.
Para la obtención de la muestra se ha partido del censo de establecimientos que ha
proporcionado la Federación de Empresarios de Comercio de Zaragoza y que está
fundamentado en la base de datos del Servicio de Información Empresarial de la
Diputación General de Aragón. Según el INE, el número total de establecimientos de la
ciudad de Zaragoza es de 13.996, por lo que se trata de un universo finito.
Para la obtención de las unidades muestrales se siguieron las normas y procedimientos
del muestreo sistemático, eligiendo el primer elemento al azar y el resto mediante
adiciones sucesivas del coeficiente de elevación (relación entre el universo y el tamaño
de la muestra) que en este estudio tomaba un valor de 17. Para establecer el contacto
6 Queremos agradecer a IMSO, S.L. la cesión de la encuesta y los datos que nos han permitido la realización del trabajo.
Análisis Multivariante
155
con el propietario, gerente o encargado del establecimiento comercial se utilizó el
procedimiento del telemarketing, concertando cita y hora para la celebración de la
entrevista. La fase de recogida se realizó durante el primer trimestre de 1996.
Una vez depurados los cuestionarios han quedado 818 entrevistas válidas, lo que para
un nivel de confianza del 95,5% y un nivel de indeterminación máximo p=q=0,5,
supone trabajar con un error máximo del 3,3%. La encuesta incluía preguntas acerca de
las características de los establecimientos, número de empleados, actividad que realizan
en el establecimiento y nivel de estudios de estos empleados, opiniones sobre la
formación continuada (cuándo, por qué, dónde debe hacerse, qué cursos, duración, etc.),
aspectos de marketing conocidos y/o utilizados, etc. En global se han realizado 82
preguntas que generan un total de 253 ítems.
Las técnicas aplicadas para la explotación de esta información son las siguientes. En
primer lugar, se ha realizado un análisis univariante sobre todas las variables de la base
relacionadas con características o atributos de los establecimientos así como sobre las
variables relacionadas a herramientas concretas de marketing.
Posteriormente, y dada la naturaleza cualitativa de las variables de la base, se ha
aplicado el contraste de la Chi-cuadrado que permite establecer la asociación o la
independencia entre dos variables cualitativas.
Como se puede suponer, en este trabajo se ha establecido relación entre las variables
que recogen atributos de los establecimientos entrevistados y las variables que
contienen información sobre el empleo/conocimiento de algunas herramientas del área
de marketing.
Análisis Multivariante
156
En el siguiente cuadro se presenta la ficha técnica de la encuesta realizada:
CUADRO 1. Ficha técnica de la encuesta.
Características
Universo Empresas sección G, divisiones 50, 51 y 52
CNAE937
Ámbito geográfico Ciudad de Zaragoza
Unidad muestral Empresa comercial: establecimientos
Método de recogida de información Encuesta personal estructurada
Tamaño de la muestra 818 encuestas válidas
Nivel de confianza 95,5%, p = q = 0,5
Error muestral 3,3%
Procedimiento de muestreo Sistemático: coeficiente de elevación 17
Fecha trabajo de campo Octubre de 1995 a Abril de 1996
Fuente: elaboración propia
Tras la aplicación de diferentes técnicas de investigación de reducción de dimensiones
(análisis factorial de componentes principales y de correspondencias) se produce la
siguiente reclasificación de los establecimientos comerciales en tres categorías según el
grado de utilización de herramientas de marketing.
Para verificar este aspecto hemos realizado tablas de contingencia cruzando la variable
Grado de Aplicación de Marketing y cada una de las variables utilizadas en el análisis
HOMALS.
En todos los casos, el estadístico de la Chi cuadrado permitía rechazar la hipótesis nula
de independencia entre las variables con un nivel de confianza prácticamente absoluto.
7 Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la división 526 de la CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.
Análisis Multivariante
157
CUADRO 2 Recodificación de la variable Marketing
Tabla de frecuencia Grado aplicación de marketing
Categoría Definición Frecuencia Porcentaje No Marketing Dimensión 1 <= 0 412 50,4 Marketing Básico Dimensión 1 > 0 y Dimensión 2 > 0 261 31,9 Marketing Sofisticado Dimensión 1 > 0 y Dimensión 2 < 0 145 17,7
Total 818 100,0 Fuente: elaboración propia.
11.1.2 ANÁLISIS DISCRIMINANTE
Con los datos obtenidos vamos a ilustrar este caso de análisis discriminante de tres
grupos.
El objetivo que se persigue es determinar las características diferenciales de las
empresas que no aplican técnicas de marketing, frente a las que hacen un marketing
básico o a las que realizan uno de sofisticado. Adicionalmente, el modelo permitirá
predecir en que grupo se clasificarán otras empresas no incluidas en la muestra. De esta
manera, se podría por ejemplo, determinar cuales son las empresas que pueden resultar
más interesantes para un consultor en Marketing.
Discriminante
Resumen del procesamiento para el análisis de casos
475 100.00 .00 .0
0 .0
0 .0475 100.0
Casos no ponderadosVálidos
Códigos de grupo perdidos o fuera de rangoPerdida al menos una variable discriminantePerdidos o fuera de rango ambos, el código de grupoy al menos una de las variables discriminantes.Total excluidos
Excluidos
Casos Totales
N Porcentaje
Análisis Multivariante
158
Estadísticos de grupo
.263 .441 228 228.000
19.189 19.185 228 228.000
.140 .348 228 228.0002.184 2.774 228 228.000
.206 .405 228 228.000
.860 .348 228 228.000-.214 .995 228 228.000-.050 1.069 228 228.000-.156 .991 228 228.000.406 .493 155 155.000
18.942 19.395 155 155.000
.181 .386 155 155.0003.781 4.418 155 155.000
.445 .499 155 155.000
.645 .480 155 155.000
.087 1.003 155 155.000
.013 .951 155 155.000
.218 1.005 155 155.000
.467 .502 92 92.000
19.446 27.532 92 92.000
.359 .482 92 92.0005.630 9.490 92 92.000
.674 .471 92 92.000
.728 .447 92 92.000
.384 .871 92 92.000
.103 .899 92 92.000
.019 .952 92 92.000
.349 .477 475 475.000
19.158 21.072 475 475.000
.196 .397 475 475.0003.373 5.389 475 475.000
.375 .485 475 475.000
.764 .425 475 475.000
.000 1.000 475 475.000
.000 1.000 475 475.000
.000 1.000 475 475.000
Es una sociedadAntigüedad delestablecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenadorEs una sociedadAntigüedad delestablecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenadorEs una sociedadAntigüedad delestablecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenadorEs una sociedadAntigüedad delestablecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenador
Gradoaplicación demarketing1 NoMarketing
2 MarketingBásico
3 MarketingSofisticado
Total
Media Desv. típ.No
ponderadosPondera
dos
N válido (según lista)
Análisis Multivariante
159
Pruebas de igualdad de las medias de los grupos
.968 7.861 2 472 .0001.000 .017 2 472 .983
.958 10.472 2 472 .000
.941 14.887 2 472 .000
.861 38.140 2 472 .000
.949 12.766 2 472 .000
.947 13.235 2 472 .000
.997 .790 2 472 .455
.973 6.607 2 472 .001
Es una sociedadAntigüedad del establecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenador
Lambdade Wilks F gl1 gl2 Sig.
Matrices intra-grupo combinadas
1.000 -.088 .286 .319 .186 -.180 -.063 -.020 .098
-.088 1.000 -.189 .213 .056 .026 -.066 .048 .048
.286 -.189 1.000 .025 .069 -.087 .065 .064 -.019
.319 .213 .025 1.000 .139 -.175 -.080 .039 .115
.186 .056 .069 .139 1.000 -.035 .106 .095 .175-.180 .026 -.087 -.175 -.035 1.000 .052 .146 -.135
-.063 -.066 .065 -.080 .106 .052 1.000 -.014 -.025
-.020 .048 .064 .039 .095 .146 -.014 1.000 -.005
.098 .048 -.019 .115 .175 -.135 -.025 -.005 1.000
CorrelaciónEs una sociedadAntigüedad delestablecimiento (años)EstablecimientoasociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF GenéricosMarketingVal. PF Atención clienteVal. PF Ténicos porordenador
Essociedad
Antigüedad
(años)Estab.
asociado
Núm.emplea
dos
Realizaformaci
ónVentas enmostrador
Val. PFGenéricosMarketing
Val. PFAtencióncliente
Val. PFTénicos
ordenador
Análisis Multivariante
160
Análisis 1
Resumen de las funciones canónicas discriminantes
Autovalores
.285a 84.4 84.4 .471
.053a 15.6 100.0 .224
Función12
Autovalor % de varianza % acumuladoCorrelación
canónica
Se han empleado las 2 primeras funciones discriminantescanónicas en el análisis.
a.
Lambda de Wilks
.739 141.439 18 .000
.950 24.090 8 .002
Contraste delas funciones1 a la 22
Lambdade Wilks Chi-cuadrado gl Sig.
Coeficientes estandarizados de las funciones discriminantescanónicas
.012 -.238-.032 .046.246 .508.363 .309.622 .147
-.240 .690.403 -.043.061 -.131.037 -.491
Es una sociedadAntigüedad del establecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenador
1 2Función
Análisis Multivariante
161
Matriz de estructura
.753* .056
.469* .097
.443* .043
.337* -.138
.107* .038-.324 .676*.204 -.552*.358 .387*.004 .036*
Realiza formaciónNúmero empleadosVal. PF Genéricos MarketingEs una sociedadVal. PF Atención clienteVentas en mostradorVal. PF Ténicos por ordenadorEstablecimiento asociadoAntigüedad del establecimiento (años)
1 2Función
Correlaciones intra-grupo combinadas entre las variablesdiscriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.
Mayor correlación absoluta entre cada variable y cualquierfunción discriminante.
*.
Coeficientes de las funciones canónicas discriminantes
.026 -.507-.002 .002.631 1.305.069 .059
1.380 .327-.578 1.664.413 -.044.060 -.131.037 -.497
-.412 -1.713
Es una sociedadAntigüedad del establecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenador(Constante)
1 2Función
Coeficientes no tipificados
Funciones en los centroides de los grupos
-.505 9.837E-02.231 -.314.861 .285
Grado aplicación demarketing1 No Marketing2 Marketing Básico3 Marketing Sofisticado
1 2Función
Funciones discriminantes canónicas no tipificadasevaluadas en las medias de los grupos
Análisis Multivariante
162
Estadísticos de clasificación
Resumen del proceso de clasificación
475
0
0
475
ProcesadosCódigo de grupo perdidoo fuera de rangoPerdida al menos unavariable discriminante
Excluidos
Usados en los resultados
Probabilidades previas para los grupos
.333 228 228.000
.333 155 155.000
.333 92 92.0001.000 475 475.000
Grado aplicación demarketing1 No Marketing2 Marketing Básico3 Marketing SofisticadoTotal
PreviasNo
ponderados Ponderados
Casos utilizados en elanálisis
11.1.2.1 MAPA TERRITORIAL
En la página siguiente se indica el mapa territorial correspondiente.
Símbolos usados en el mapa territorial
Símbolo Grupo Etiqueta
------ ----- --------------------
1 1 No Marketing
2 2 Marketing Básico
3 3 Marketing Sofisticado
* Indica un centroide de grupo
Análisis Multivariante
163
Mapa territorial
Discriminante canónica
Función 2
-3.0 -2.0 -1.0 .0 1.0 2.0 3.0
∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫ 3.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ 2.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ 1.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 133 * ⌠ ⌠ * 12233 ⌠ .0 12 223 ⌠ 12 233 ⌠ ⌠ 12 * 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ -1.0 12 2233 ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 2233 ⌠ -2.0 12 223 ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233⌠ ⌠ 12 22⌠ ⌠ 12 ⌠ -3.0 12 ∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫ -3.0 -2.0 -1.0 .0 1.0 2.0 3.0 Función discriminante canónica 1 _
Análisis Multivariante
164
Estadísticos por casos
3 3 .009 2 .945 9.462 2 .045 15.550 3.221 2.2571 2** .958 2 .384 .085 1 .313 .491 .185 -.0262 1** .304 2 .559 2.381 3 .249 4.002 -.613 1.6381 1 .955 2 .512 .092 2 .342 .897 -.699 -.1341 1 .833 2 .622 .366 2 .267 2.054 -1.095 .2301 1 .776 2 .602 .507 2 .305 1.863 -1.132 -.2391 1 .897 2 .414 .217 2 .396 .303 -.319 -.3291 1 .976 2 .503 .048 2 .341 .826 -.644 -.0692 2 .571 2 .484 1.120 1 .382 1.593 -.404 -1.1601 2** .630 2 .488 .923 1 .363 1.513 -.299 -1.1141 1 .537 2 .727 1.244 2 .205 3.771 -1.586 .3702 1** .764 2 .504 .538 2 .265 1.822 -.483 .8321 1 .603 2 .664 1.013 2 .211 3.302 -1.139 .8801 1 .765 2 .515 .535 2 .372 1.182 -.828 -.5571 1 .766 2 .645 .534 2 .244 2.477 -1.148 .4452 3** .944 2 .440 .116 2 .320 .751 .581 .4793 3 .195 2 .825 3.270 2 .120 7.127 1.957 1.7231 1 .721 2 .649 .654 2 .268 2.424 -1.301 -.0401 1 .486 2 .742 1.443 2 .198 4.081 -1.683 .3331 1 .872 2 .582 .273 2 .307 1.551 -.993 -.087
Númerode casos1234567891011121314151617181920
Original
Gruporeal
Grupopronosticado p gl
P(D>d | G=g) P(G=g |D=d)
Distanciade
Mahalanobis al
cuadradohasta el
centroide
Grupo mayor
GrupoP(G=g |
D=d)
Distanciade
Mahalanobis al
cuadradohasta el
centroide
Segundo grupo mayor
Función1
Función2
Puntuacionesdiscriminantes
Caso mal clasificado**.
Resultados de la clasificacióna
153 37 38 22850 57 48 15521 15 56 92
67.1 16.2 16.7 100.032.3 36.8 31.0 100.022.8 16.3 60.9 100.0
Grado aplicación demarketing1 No Marketing2 Marketing Básico3 Marketing Sofisticado1 No Marketing2 Marketing Básico3 Marketing Sofisticado
Recuento
%
Original
1 NoMarketing
2 MarketingBásico
3 MarketingSofisticado
Grupo de pertenencia pronosticado
Total
Clasificados correctamente el 56.0% de los casos agrupados originales.a.
Análisis Multivariante
165
11.2 BIBLIOGRAFÍA
Análisis multivariable para las Ciencias Sociales. Jean-Pierre Lévy mangin. Jesúa
Valera Mallou. Prentice Hall 2003
Malhotra Investigación de Mercados. Un enfoque práctico. PrenticeHall 1996
Análisis Multivariante
166
SEGMENTACIÓN
Análisis Multivariante
167
12. SEGMENTACIÓN.
12.1 CONCEPTO.
La segmentación de mercado consiste en la agregación de consumidores en grupos
homogéneos, de forma tal que cada uno de ellos puede ser seleccionado como un
segmento objetivo sobre el cual podamos aplicar estrategias de Marketing mix
diferenciadas.
Las características de los segmentos resultantes deben ser tales que nos posibiliten el
establecimiento y realización de una oferta comercial especializada y diferenciada, es
decir orientada a satisfacer necesidades y deseos de los consumidores específicos de
cada segmento.
12.2 REQUISITOS PARA QUE LA SEGMENTACIÓN DE
MERCADO SEA EFICAZ.
Los principales requisitos que hacen que la segmentación de mercado sea eficaz son:
1. Cada segmento nos debe dar una respuesta diferente a la acción de Marketing mix.
2. Los criterios de segmentación deben ser identificados y evaluados con facilidad.
3. La obtención de los diferentes segmentos no implicará la existencia de categorías
mutuamente excluyentes. Esto significa que en ocasiones un mismo individuo puede
pertenecer a varios segmentos de mercado.
4. La segmentación debe basarse en un adecuado análisis de costes beneficios.
5. Los segmentos identificados deben representar un potencial de mercado suficiente,
por su tamaño y / o por los beneficios que presentan, que sean justificables las
acciones de Marketing a realizar.
6. Los segmentos han de ser alcanzados y servidos con eficacia por la empresa.
7. La empresa tendrá que disponer de recursos suficientes (económicos y humanos),
para poder atender adecuadamente el segmento o segmentos de mercado
seleccionados.
8. Los segmentos deberán ser estables a lo largo del tiempo, con el fin de rentabilizar la
estrategia adoptada de Marketing.
Análisis Multivariante
168
9. Serán prioritarios los segmentos que sean compatibles con los que ya actúa la
empresa con el fin de evitar canibalizaciones.
10.Se deberá involucrar a la empresa a todos los niveles, en la implantación de la
estrategia de segmentación, con el fin de evitar posibles conflictos
interdepartamentales.
11.Los consumidores tienen que percibir diferencias entre los productos de lo que cabe
esperar distintas respuestas a las acciones de Marketing mix.
12.Las diferencias en las percepciones de los consumidores deben ser identificadas y
asociadas a los diferentes grupos del público objetivo.
12.3 CRITERIOS DE SEGMENTACIÓN DE MERCADO.
En el mercado de productos de consumo la segmentación se realiza siguiendo una
serie de criterios que se dividen en: de carácter objetivo y subjetivos. Los criterios
objetivos son aquellos en los que existen parámetros que nos permiten medirlos de
forma inequívoca. Los criterios subjetivos son susceptibles de interpretación.
Criterios objetivos.
Los mas usuales son:
• Geográficos. Es el método mas sencillo, se basa en la desigualdad zonal
explicando así los diferentes comportamientos que aparecen en diferentes
territorios de cierta extensión, en los que aparecen diferencias climáticas,
culturales, económicas...etc.
• Demográficos. Las diferentes características físicas de los consumidores, tales
como, edad ,sexo, estado civil, familia...etc., son la causa de necesidades y
deseos diferentes.
• Socioeconómicos. El comportamiento de los consumidores dependería, en este
caso, de su nivel de renta y su estatus, explicando así la clase social.
Criterios subjetivos.
Los más usuales son:
• Por estilo de vida. El estilo de vida define la forma de ser y de comportarse las
personas, viene definido por sus actividades, opiniones e intereses.
Análisis Multivariante
169
• Por situación. Se separan grupos que ante un mismo producto buscan
satisfacciones diferentes en distintas circunstancias o situaciones. (caña de día
copa de noche).
• Basados en ventajas buscadas. se basa en que, los consumidores encuentran en el
producto ventajas diferentes y los consumen precisamente por ello.
• Psicográfica. Integra dos grupos de criterios: estilo de vida y personalidad. La
basada en la personalidad se aprecia en el mercado cuando las empresas dotan a
sus productos de personalidad de marca que se corresponde con la personalidad
de los consumidores.
Segmentación por comportamiento.
Segmentación en función de comportamientos específicos de compra y uso del
producto. Los más utilizados son:
• El uso. El consumo no esta uniformemente repartido, unos usuarios consumen
más que otros.
• El usuario. Se hace una clasificación considerando los usuarios regulares, los no
usuarios, los usuarios potenciales, los irregulares, los primerizos. Cada grupo
recibirá un tratamiento específico.
• El grado de fidelidad. Se recompensa la fidelidad.
Criterios de segmentación utilizados en mercados industriales.
En el mercado industrial la segmentación puede realizarse desde dos enfoques: basarse
en las necesidades y deseos de los clientes y que el vendedor lo satisfaga, o bien partir
de las características del vendedor y segmentar el mercado de la forma más accesible y
rentable. El mejor método será el que optimice el comportamiento de compra del cliente
con los costes del vendedor.
Normalmente en el mercado industrial se identifican criterios de segmentación, que se
jerarquizan de la siguiente manera:
• 1º- Factores demográficos. Naturaleza de la empresa (pública o privada). Sector
al que pertenece. Tamaño (ventas, plantilla, capital). Localización.
• 2º- Variables operativas. Tecnología de los procesos productivos. Tecnología del
producto, Ventajas competitivas. Productos complementarios. Productos
substitutivos.
Análisis Multivariante
170
• 3º- Enfoques de compra. Organización de compras. Estructura de poder entre las
diferentes personas que intervienen en el proceso de compra. Relaciones
existentes (fidelidad). Política de compras. Criterios de compra.
• 4º- Factores de situación. Urgencia de la necesidad. Tamaño del pedido.
Aplicaciones del producto. Beneficios de pedidos concretos.
• 5º- Características personales del decisor. Similitud de actitudes y características
entre comprador y vendedor. Motivaciones del decisor. Percepción por parte del
comprador de la empresa del vendedor. Actitud al riesgo por parte del
comprador.
Valoración de los segmentos.
Una vez detectados diferentes segmentos en el mercado, la empresa tiene tres posibles
alternativas: Ignorarlos, centrarse en alguno o algunos de ellos y adaptarse a ellos. La
posible alternativa depende entre otros de los siguientes factores:
• Intensidad de la competencia. A la empresa le interesará actuar donde la
competencia sea nula o mínima. Cuanto menor sea la probabilidad de entrada de
competidores más atractivo resultará para la empresa ese segmento.
• Aparición de productos substitutivos en un determinado segmento.
• El poder de negociación de los diversos agentes que intervienen en el proceso de
la compra venta.
12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE
MERCADOS.
Siguiendo a P. Kotler podemos diferenciar tres etapas:
• La primera es el arte de dividir un mercado en grupos de consumidores que
puedan requerir estrategias de Marketing diferenciadas, constituye lo que se
denomina el proceso de segmentación.
• La segunda etapa consiste en definir el mercado objetivo.
• La tercera etapa consiste en fijar el posicionamiento, esto es establecer la
posición competitiva de la empresa y de su oferta en función del público
objetivo.
Análisis Multivariante
171
Lo podemos resumir en el siguiente esquema.
Proceso Definición del mercado objetivo
Posicionamiento del producto
Posibles bases de segmentación.
Valorar el atractivo de cada segmento.
1- Identificar conceptos de posicionamiento y alternativas de diferenciación en los segmentos objetivos.
Identificar variables de segmentación relevantes para el estudio.
Seleccionar los segmentos objetivos..
- Seleccionar, desarrollar y comunicar el concepto de posicionamiento escogido
Recoger información sobre variables de segmentación
Estrategias de cobertura del mercado
Derivar segmentos mediante técnicas de segmentación y tipología.
Describir perfil de los segmentos.
Para llevar a cabo el proceso de segmentación, en principio se recaba y ordena toda la
información existente y disponible en el mercado en relación a una serie de variables
consideradas relevantes. Dichas variables emanan de las bases de segmentación.
En gran número de casos no se conocen a priori todas las características importantes
para orientar la segmentación, para esta circunstancia se realiza una investigación
cualitativa de enfoque para así seleccionar las variables que nos permitirán segmentar el
mercado.
Ante la carencia de información lo que se hace es emplear técnicas de investigación
comercial como la observación o la encuesta. Esta última técnica es la más utilizada, se
define el universo, la muestra, el procedimiento de muestreo, el cuestionario y se realiza
el correspondiente trabajo de campo. La información obtenida se analiza aplicando
técnicas de segmentación y tipología para de esta manera obtener grupos de público
objetivo con características homogéneas.
Las bases de segmentación parten de los criterios antes indicados. No existe una forma
idónea para segmentar el mercado. Existen criterios generales y específicos, unidos a los
objetivos y subjetivos, esta situación la podemos resumir en el siguiente esquema:
Análisis Multivariante
172
CRITERIOS OBJETIVOS
Criterios generales.
Geográficos.
Demográficos.
Socioeconómicos.
Sus combinaciones.
Criterios específicos.
Estatus.
Uso y situaciones
Fidelidad.
Intención de compra.
CRITERIOS SUBJETIVOS
Criterios generales.
Psicográficos.
Estilo de vida.
Clase social.
Personalidad.
Criterios Específicos.
Beneficio buscado.
Comportamiento a las acciones de
Marketing mix.
Percepciones, preferencias y actitudes.
12.5 TÉCNICAS PARA CLASIFICAR UN MERCADO EN
SEGMENTOS.
Una vez definidas que variables de segmentación son adecuadas para realizar una
segmentación de mercado, es preciso acudir a procedimientos estadísticos, que
partiendo de la información obtenida sobre las bases de segmentación, permitan dividir
el mercado en segmentos. Los tipos mas usuales son:
Técnicas de segmentación. En estas técnicas el investigador selecciona una variable o
criterio de segmentación a explicar, antes de realizar el análisis. Posteriormente, se
consideran por parte del investigador diversas variables explicativas, tratando de
estudiar de que forma se relacionan con la variable a explicar. Se denominan diseños de
segmentación a priori.
Técnicas de tipología. En este tipo de técnicas los consumidores se agrupan de acuerdo
a la similitud de sus perfiles multivariables (actitudes, estilo de vida...), sin hacer
distinción entre variables descriptivas y variables a explicar. Se desconoce a priori el
número de segmentos. Se denominan diseños de segmentación post-hoc.
Análisis Multivariante
173
13. TÉCNICAS DE SEGMENTACIÓN.
Se suelen clasificar en tres grandes grupos:
• Métodos clásicos.
• Métodos basados en la teoría de la información
• Otras técnicas de segmentación.
13.1 MÉTODOS CLÁSICOS.
Los métodos clásicos desarrollan un proceso de división del mercado conformando una
estructura arborescente que finaliza con una norma estadística predeterminada, el
criterio para medir la intensidad de la relación entre la variable a explicar y las variables
explicativas es el mismo en todas las etapas del proceso. Seguidamente vamos a señalar
los fundamentos de los métodos más usuales.
13.1.1 MÉTODO BELSON.
Trata de estimar el poder discriminante de diferentes variables explicativas sobre la
variable a explicar. El procedimiento es como sigue:
♠- Se convierten las diversas variables explicativas y la variable a explicar en
dicotómicas.
Si tienen más de dos categorías se sigue el siguiente criterio: Para cada variable
explicativa los individuos se agrupan de tal forma que los que dispongan de una
proporción de la variable a explicar inferior a la de toda la muestra pertenezcan a una
categoría, agrupando en otra a todos aquellos con una proporción superior a la de la
muestra.
♠- Analizar, con una cualquiera de las categorías de cada variable explicativa, su
relación con la variable a explicar mediante la siguiente formula:
C = NC ki P x N ki donde k = 1, 2.
NC ki Representa el número de personas que consumen el producto, (variable a
explicar), y que pertenecen a la categoría k de la variable explicativa i.
P Es el porcentaje de personas que consumen el producto para toda la muestra.
N ki Es el número de personas que pertenecen a la categoría k de la variable explicativa
“y”. Con independencia de que sean o no consumidores del producto).
Análisis Multivariante
174
♠- Tomar aquella variable explicativa (la subdivisión en categorías que la representa)
que manifiesta tener una relación más fuerte con la variable a explicar, mayor valor
absoluto de C.
La muestra se desglosa en dos segmentos correspondientes a la variable de mayor
relación y sus subdivisiones.
♠- A cada uno de los segmentos resultantes se aplica independientemente el método de
segmentación descrito considerando tan solo las restantes variables explicativas.
Seguidamente vamos a realizar un caso practico, en el que aplicaremos los métodos de
Belson y el de análisis de la varianza, más adelante.
EJEMPLO.
Una empresa desarrolla su actividad comercial en Aragón, comercializando cuatro
marcas de productos (A, B, C y D ), en tres tipos diferenciados de establecimientos,
tiendas tradicionales, hipermercados y supermercados. Con la finalidad de establecer
una adecuada segmentación, se realiza un estudio de mercado sobre una muestra de
4.000 hogares, que en el último trimestre han consumido alguna marca de los diferentes
tipos de productos.
Se obtiene información acerca de la marca comprada y el tipo de tienda donde efectuó
la compra. Se saca el siguiente resumen de datos.
Análisis Multivariante
175
DATOS DEL CASO PRÁCTICO.
Tipo de producto.
A.
B.
C.
D.
TOTAL:
Tipo de tienda.
Tradicional. (T).
Hipar. (H).
Supermercado. (S).
TOTAL.
Compradores marca
582.
204.
184.
30.
1.000.
100.
575.
325.
1.000.
Total compradores.
2.044.
718.
646.
592.
4.000.
450.
2.500.
1.050.
4.000.
Método BELSON. Criterio: Realizar la dicotomía de las variables agrupando por un
lado las variables que tengan un porcentaje superior a la media y por otra parte los que
sea su porcentaje inferior a la media.
Variables.
Productos:
A.
B.
C.
D.
Establecimiento.
T.
H.
S.
Media total.
Porcentaje de consumidores.
28´47 %.
28´41 %.
28´48 %.
5´06 %.
22´22 %.
23´00 %.
30´95 %.
25%.
Las agrupaciones que obtenemos de conformidad con el criterio son:
Superior a la media y para la variable producto. A+ B+ C. Inferior a la media D.
Análisis Multivariante
176
Para la variable tienda o establecimiento donde se efectúan las compras, la
correspondiente agrupación es:
Superior a la media: S. Inferior a la media; T + H.
Los resultados de esta segmentación los podemos resumir en el siguiente cuadro:
AGRUPACIONES.
Producto.
A + B + C.
D.
Tienda.
S.
T + H.
COMPRAN MARCA.
970.
30.
325.
675.
TOTAL COMPRAN.
3.408.
592.
1050.
2.950.
Aplicando la ecuación antes descrita obtendremos los siguientes valores.
C = NC ki P x N ki .
Producto.
C = 970 0´25 x 3408 = 118.
Tiendas.
C = 325 0´25 x 1050 = 62´5.
13.1.2 MÉTODO DE ANÁLISIS DE LA VARIANZA.
Trata de encontrar la mejor división dicotómica cuando las variables explicativas tienen
más de dos categorías. Selecciona la mejor dicotomía no la mejor variable explicativa
de cada rama de la estructura arborescente.
La expresión matemática para estimar el poder discriminante es:
DN N P P
na b a b=
× −( ) 2
Donde: n es el tamaño total de la muestra.
N a y b es la dicotomización de las categorías de cada variable explicativa
en dos grupos a y b.
P a y b es el porcentaje de consumidores de las categorías a y b de la
variable explicativa objeto de estudio.
Análisis Multivariante
177
Vamos seguidamente a desarrollar el ejemplo visto con anterioridad aplicando el
método de análisis de la varianza.
DATOS DEL CASO PRÁCTICO.
Tipo de producto.
A.
B.
C.
D.
TOTAL:
Tipo de tienda.
Tradicional. (T).
Hipar. (H).
Supermercado. (S).
TOTAL.
Compradores marca
582.
204.
184.
30.
1.000.
100.
575.
325.
1.000.
Total compradores.
2.044.
718.
646.
592.
4.000.
450.
2.500.
1.050.
4.000.
Análisis Multivariante
178
Los resultados los resumimos en el cuadro siguiente:
ANÁLISIS DE LA VARIANZA:
Grupo.
A+B
C+D.
A+C
B+D
A+D
B+C
A
B+C+D
B
A+C+D.
C
A+B+D.
D
A+B+C.
Total com.
2.762.
1.238.
2.690.
1.310.
2.636.
1.364.
2.044.
1.956.
718.
3.282.
646.
3.354.
592.
3.408.
Co marca.
786.
214.
766.
234.
612.
388.
582.
418.
204.
796.
184.
816.
30.
970.
%Co marc
28´46
17´28.
28´48.
17´83.
23´22.
28´44.
28´47.
21´37.
28´41.
24´25.
28´48.
24´33.
5´07.
28´46.
D discrim.
10´68.
9´98.**
2´44.
5´04.
1´02
0´97.
27´59.←
** D = 2.690 x 1.310 ( 0´2848 - 0´1783 )2 / 4.000 = 9´98.
Del mismo modo procederíamos para la variable tiendas.
Análisis Multivariante
170
13.1.3 MÉTODO DE CHI CUADRADO.
Este procedimiento trata de comparar la distribución efectiva de consumidores, en las
diferentes categorías de cada variable explicativa; con la que correspondería si se
distribuyera según el porcentaje promedio para toda la muestra. Se selecciona la mejor
dicotomía de cada variable explicativa de acuerdo con el criterio discriminante
expresado por la siguiente fórmula:
SCNCO NCT
NCTi i
i
=−∑ ( ) 2
Donde:
NCOi es el número de personas que consumen el producto en la
categoría dicotómica “i” de cada variable explicativa.
NCTi es el número de consumidores teóricos para la categoría
dicotómica “i” de cada variable explicativa. Su cálculo es como sigue: se multiplica el
tamaño de la muestra en cada categoría por el porcentaje medio de consumidores para
toda la muestra.
13.1.4 MODELOS DE CANGUILHEM.
Se basa en dos posibles soluciones para segmentar el mercado:
Descripción por categorías ponderadas de variables no agregadas.
Descripción por segmentos ponderados de variables agregadas.
En el primer caso el método a seguir es:
Se calculan los índices de penetración para las categorías de cada una de las variables
explicativas de acuerdo con la siguiente fórmula:
IP kj = MP kj / S kj
Donde:
IP kj es el índice de penetración o proporción de consumidores en la
categoría k de la variable explicativa j respecto del público objetivo.
MP kj es el número de personas que consumen ( variable a explicar ) el
producto y que pertenecen a la categoría k de la variable explicativa j. S kj Es
el número de personas del público objetivo que pertenecen a la categoría k de la
variable explicativa j.
Análisis Multivariante
171
2. Para cada categoría de las variables explicativas se toma el índice de penetración
máximo y se pondera con un valor igual a uno (1). Las ponderaciones de las restantes
categorías de una variable se obtienen dividiendo su índice de ponderación por el de
valor máximo.
3. La variable que más discrimina es la que presenta mayor disparidad (recorrido o
varianza) entre las ponderaciones de sus categorías.
Método de segmentos ponderados de variables agregadas
Todos los procedimientos descritos con anterioridad consideran las variables
explicativas de forma independiente. Este procedimiento que ahora vamos a desarrollar
trata de evitar este inconveniente.
Es válido cuando se trata de encontrar un segmento optimo, resultante de la agrupación
o cruce de diversas variables explicativas. Se trataría de obtener el segmento que mejor
discrimine el comportamiento de los consumidores.
Se estima para cada segmento o agrupación, un índice de penetración y un índice de
cobertura, el valor de la discriminancia a maximizar viene dado por la siguiente
fórmula:
D S IPS MU P
IP IC= − + −−−
− − + −12
112
1 12
2
2 2( )( )( )
( ) ( )
Donde
IC = M / P es el índice de cobertura o proporción de los consumidores de
un determinado segmento o agrupación respecto del total de consumidores.
M es el número de personas que consumen (variable a explicar ) el
producto y que pertenecen a un segmento o agrupación.
P es el total de consumidores.
IP = M / S Es el índice de penetración o proporción de consumidores de
un determinado segmento o agrupación respecto al público objetivo.
S es el número de personas del público objetivo que pertenecen a cada
segmento o agrupación de consumidores.
U es el total de personas del público objetivo.
Análisis Multivariante
172
13.2 AUTOMATIC INTERACTION DETECTION (AID)
El AID (Detección automática de interacciones) es una técnica de análisis estadístico
que estudia la relación de una variable dependiente o criterio y múltiples predictivas o
independientes, detectando el efecto y las interacciones existentes en las variables
explicativas (X).
El AID no proporciona una función que determine la relación existente entre la variable
dependiente (Y) y las independientes.
Las variables explicativas son de tipo cualitativo, es decir, están medidas en escalas
nominal u ordinal, mientras que la variable dependiente debe estar en escala métrica o
bien ser dicotómica (1,0), con dos frecuencias muy similares.
El AID procede de forma secuencial, mediante análisis de la varianza, realizando
divisiones dicotómicas de la variable dependiente o a explicar.
Se parte del total de la muestra y se divide en dos, en función de la variable que mejor
explica las diferencias en el comportamiento objeto de estudio. Seguidamente cada
grupo obtenido se vuelve a subdividir de conformidad con el criterio de la variable que
mejor define las diferencias. Este proceso continua hasta alcanzar el nivel (tamaño) de
grupo mínimo que fijamos con anterioridad o bien las diferencias entre los valores
medios de los grupos no son significativas.
La técnica AID realiza un análisis secuencial de la varianza, con el fin de obtener en
cada etapa la variable explicativa y dentro de ella la partición entre categorías de la
misma que de una parte maximiza la varianza intergrupos y minimiza la intragrupos.
Las particiones de las variables independientes dependen de si se las considere
Variables libres es decir, utiliza todas las combinaciones dicotómicas posibles entre las
categorías, permite incluir en cada grupo diversas categorías no secuenciales. Por
ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000
euros con de 1500 a 2000 y de 5000 a 10000 euros.
Variables monótonas, la partición solo es posible en sentido ascendente o descendente.
Por ejemplo menos de 5.000 euros, más de 5.000 euros.
Como el AID no proporciona una función, esta técnica puede utilizarse conjuntamente
con otras técnicas multivariantes para completar el análisis. Con el AID se aíslan en
primer lugar las variables y categorías que mejor explican en mayor medida la varianza
Análisis Multivariante
173
de la variable criterio (Y), seguidamente se puede aplicar un análisis de regresión para
estimar los parámetros de las variables seleccionadas por el AID con el fin de poder
realizar predicciones.
13.2.1 VENTAJAS E INCONVENIENTES
La técnica AID nos permite:
Conocer las variables independientes que mejor explican la independiente
Determinar el poder diferenciador de tales variables explicativas, ya que se conoce la
varianza que explica
Identificar segmentos y sus características
Conocer la media de la variable criterio para cada segmento
Fácil comprensión ya que los resultados se representan normalmente en forma
arbolescente
Por el contrario la técnica AID presenta las siguientes limitaciones
Es necesario disponer de muestras grandes (1000 ó más unidades)
Se necesita el que existan varios predictores
La primera variable elegida condiciona las sucesivas particiones
14. CHI-SQUARED AUTOMATIC INTERACTION
DETECTION (CHAID)
14.1 CONCEPTO
Esta técnica estadística estudia la relación entre una variable criterio (Y) que puede ser
tanto cualitativa como métrica y múltiples variables cualitativas
Este modelo es muy similar al AID, pero a diferencia de este que las particiones son
dicotómicas, en el CHAID no tienen por que ser dicotómicas. El criterio de partición de
las variables según las categorías de las mismas se basa en la maximización de la “ji
cuadrado de Bonferroni.
Según Magidson8 (1994) presenta las siguientes mejoras respecto al AID
8 Magidson (1994) Cita en Técnicas de análisis de datos en investigación de mercados. Teodoro Luque Martinez y otros Ed. Pirámide 2000
Análisis Multivariante
174
Une aquellas categorías de un predictor más homogéneas con respecto a la variable
dependiente, pero mantiene todas las categorías que sean heterogéneas. En suma,
combina categorías que no difieran mucho entre ellas.
Como varias categorías pueden diferir estadísticamente, el resultado del proceso de
CHAID no necesariamente será una división dicotómica.
Para dividir un grupo solamente se eligirán variables que sean estadísticamente
significativas.
Utiliza el test de independencia de la ji cuadrado de Bonferroni.
CHAID compara el valor p asociado con el test de independencia de la variable
dicotómica con el valor p ajustado de Bonferroni para la variable con varias categorías.
La mejor variable predictora será la que presente menor p ajustado.
CHAID considere tres tipos de variables
Variables libres es decir, utiliza todas las combinaciones dicotómicas posibles entre las
categorías, permite incluir en cada grupo diversas categorías no secuenciales.
Por ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000
euros con de 1500 a 2000 y de 5000 a 10000 euros.
Variables monótonas, la partición solo es posible en sentido ascendente o descendente.
Por ejemplo menos de 5.000 euros, más de 5.000 euros.
Variable Flotante es similar a la monótona, salvo en la última categoría (suele ser
“Otros”) que puede ser unida a cualquier otra categoría. Esto no sirve si la variable es
dicotómica.
14.1.1 PROCESO
El proceso lo podemos resumir como sigue
• En primer lugar se determinan la variable a explicar y las predictoras o
independientes
• Se desarrollan las tabulaciones cruzadas entre las variables independientes (X) y
la dependiente (Y)
• Se determina las ?2 para cada tabla formada por cada par de categorías capaces
de unirse y la variable dependiente
• Entre los pares que resultan estadísticamente no significativos se unen en una
sola categoría
Análisis Multivariante
175
• Entre los pares significativos la unión se realiza para las categorías más
parecidas, es decir las que tengan menor Chi cuadrado, y con pocas
observaciones
• Se obtiene la “p”, la variable predictora que tenga menor valor es la que se usa
para dividir
• Si “p” no es significativo no se procede a la división
• Este proceso se repite hasta la obtención de todos los grupos, o bien hasta
alcanzar la dimensión de grupo mínimo.
• El resultado es un árbol, las tablas cruzadas para cada nivel de segmentación y
las tablas de ganancia
14.1.2 UTILIDAD
La información obtenida nos permite:
• Identificar segmentos y sus características
• La secuencia de particiones y las variables independientes o predictoras que
intervienen
• Agrupaciones entre variables o entre categorías
• Información acerca de las interacciones entre las variables
14.1.3 VENTAJAS E INCONVENIENTES
Entre las ventajas podemos destacar:
• Podemos tratar variables medidas en escala nominal
• La partición no tiene por que ser dicotómica
• Elimina o corrige el sesgo de que las variables con muchas categorías sean
seleccionadas para la partición, solamente por esta razón
• Puede intervenir el investigador introduciendo variables predictoras, aunque no
sean las más significativas.
Como inconvenientes son de destacar los siguientes:
La respuesta obtenida no tiene por que ser la optima
Hay que tener en cuenta las restricciones dela prueba de Chi cuadrado (meno de 5
observaciones en el 20% de las celdas)
Se necesitan muestras amplias, (más de 1000 unidades)
Análisis Multivariante
176
15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN
MARKETING EN EL COMERCIO
M. TERESA OBIS ARTAL9 JOSEP RIALP CRIADO1
EDUARDO M. JIMÉNEZ MARQUÉS Universidad Autónoma de Barcelona10
15.1 RESUMEN
A lo largo de este trabajo se analiza la actitud hacia la formación en marketing por
parte del sector comercio. A partir de una encuesta personal realizada por IMSO, S.L.
a 818 comercios de Zaragoza, ciudad que consideramos representativa, y tras la
aplicación de diferentes técnicas de investigación tanto de reducción de dimensiones
(análisis factorial de componentes principales y de correspondencias) como de
segmentación (análisis CHAID y AID) se caracterizan los comercios según que realicen
o no formación y según la valoración que realizan a diferentes programas de formación
en marketing (genéricos, de atención al cliente y técnicos con ordenador). Se concluye
que la realización de formación depende, básicamente, del número de trabajadores y de
la utilización de herramientas de marketing. En cuanto a los diferentes programas de
formación, son estas variables junto con la antigüedad del establecimiento y los
artículos que comercializa, las que proporcionan una valoración estadísticamente
diferente de los mismos.
Palabras clave: Comercio, Formación, Componentes principales, A. Correspondencias, AID, CHAID Keywords: Trade, Formation, Principal Components Analysis, Correspondence Analyisis, AID, CHAID.
15.2 INTRODUCCIÓN
Según la Encuesta de Comercio Interior del año 1992, publicada en 1996, el sector
comercio en España está constituido por un total de 642.780 empresas. Su relevancia en
9 Los autores agradecen la financiación recibida de la DGES, proyecto PB95-0616 (T.Obis) y DGICYT, proyecto PB94-0708 (J.Rialp). 10 Departamento de Economía de la Empresa. Facultad de Ciencias Económicas y Empresariales. Universidad Autónoma de Barcelona. Edificio B. Campus de Bellaterra. 08193 (Barcelona). Tel.: 93 - 581 12 09. Fax: 93 - 581 25 55. E-mail: [email protected] / [email protected]
Análisis Multivariante
177
la economía queda de manifiesto si se considera que este sector ocupa a más de 2
millones de trabajadores, lo que representa aproximadamente un 17% del empleo del
país. Sin embargo, y como señala Kotler (1992, p. 596), únicamente algunos de los
establecimientos que estén bien situados, tengan una adecuada gestión, presten un
óptimo servicio a sus clientes y hayan adoptado prácticas modernas de marketing y
gestión, sobrevivirán.
Centrándonos en el último de los aspectos enumerados por Kotler, en un estudio
elaborado por Obis et. al. (1997) se pone de manifiesto que el comercio minorista, en
general, no utiliza de forma extensiva las herramientas de marketing. Por tanto, algunas
empresas de este sector se obstaculizan su supervivencia. Estos resultados se encuentran
en la línea de los obtenidos por Rodríguez del Bosque et al. (1997). En su trabajo se
puede observar, por ejemplo, como el pequeño comercio autónomo tiene objetivos más
conservadores en la marcha de su negocio que las empresas que recurren a estructuras
jurídicas más complejas, como sociedades limitadas o anónimas. Asimismo, también se
detecta que la edad de los comerciantes influye en los objetivos perseguidos.
El interés que se origina llegados a este punto sería responder por qué los
establecimientos comerciales no utilizan herramientas de marketing si éstas favorecen
su subsistencia. En nuestra opinión, la respuesta a esta pregunta podría ir por dos
direcciones: se podría pensar, por un lado, que estas herramientas realmente no se
necesitan en los establecimientos comerciales y, por otro, que los establecimientos
comerciales desconocen tanto la existencia como la forma de emplear estas
herramientas.
La primera de las causas señaladas no parece justificar el escaso empleo de estas
herramientas pues en un entorno turbulento, donde el número de competidores aumenta,
los consumidores están mejor informados y el ciclo de vida de los productos cada vez es
más corto (Santesmases, 1992), el conocimiento y la aplicación de diversas técnicas de
marketing pueden proporcionar una mejor satisfacción de las necesidades del
consumidor, lo que a su vez favorece la subsistencia del comercio. En consecuencia, el
desconocimiento tanto de las herramientas como de su uso sería lo que explicaría el
escaso empleo de las herramientas de marketing.
Análisis Multivariante
178
15.3 OBJETIVOS DEL TRABAJO E HIPÓTESIS
Dada la situación de desconocimiento planteada en la introducción de este trabajo, nos
parece interesante profundizar en los programas de formación en marketing que realizan
los comercios detallistas. En la literatura especializada, los programas de formación, de
forma general, se consideran que favorecen la subsistencia de las empresas (Davies y
Ingram, 1996; Weeks y Stevens, 1997). Por ello, con este trabajo pretendemos
establecer cuál es el seguimiento de los programas de formación por parte de los
establecimientos de comercio. Es más, en caso de que los establecimientos de comercio
no sigan ningún programa de formación, trataremos de determinar las causas ya que tal
vez el no seguimiento se produce porque estos programas no encajan con las
necesidades de los comercios. Los resultados del trabajo de Hogarth-Scott y Jones
(1993), por ejemplo, establecen que las pequeñas empresas en West Yorkshire sienten
que el nivel de soporte no es adecuado y que no existen cursos de formación que
encajen con las necesidades de las pequeñas empresas.
Además, en este trabajo se intenta determinar qué establecimientos siguen planes de
formación, qué características presentan y, por último, se trata de identificar aquellos
comercios que pueden estar más interesados en seguir un plan de formación de
naturaleza más genérico o uno más especifico, por ejemplo, un programa de formación
centrado en la relación con el cliente o con instrumentos técnicos de soporte a la
gestión. De hecho, en la literatura hay diferentes trabajos que, con distintos fines, han
pretendido clasificar a los establecimientos comerciales (Weiers, 1986; Rebollo, 1993;
Sainz de Vicuña, 1996; Sarabia y Ruiz de Maya, 1996).
En el trabajo mencionado anteriormente de Obis et al. (1997) se establece que los que
cuentan con más de 6 empleados; los establecimientos en forma de sociedades o
asociados; los comercios dirigidos por personal contratado; los establecimientos de
confección, moda y textil; los que inician la actividad entre 1991 y 1996; los que
presentan una superficie de la sala de ventas superior a los 150 m2; los que cuentan con
una dirección con una edad que oscila entre 26 y 45 años y los que el porcentaje de
clientes de la zona de influencia no supera el 50%, son los establecimientos que
emplean y/o utilizan más herramientas de marketing. En la línea de este resultado
nuestra primera hipótesis establece que van a ser los establecimientos que más utilizan
Análisis Multivariante
179
las herramientas de marketing los que más van a seguir cursos de formación. De hecho,
no podemos establecer cuál es la causa y cuál el efecto, pero lo cierto es que cuanta más
formación más marketing (o viceversa).
De igual forma, se puede suponer que algunas de estas características de los
establecimientos van a estar relacionadas con la preferencia por un determinado
programa de formación. Además, la realización de programas de formación y el grado
de utilización de las herramientas de marketing también pueden afectar la valoración a
un determinado programa de formación.
En resumen, las hipótesis a contrastar en nuestro trabajo son dos:
H1: Los establecimientos que realizan más formación son los que emplean más
herramientas de marketing.
H2: La valoración a los distintos programas de formación en marketing viene
determinada por la actitud hacia la formación, el grado de utilización del
marketing y algunas otras características del establecimiento comercial.
15.4 METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR
Para la consecución de los objetivos previamente señalados, hemos utilizado diferentes
técnicas de investigación sobre los datos obtenidos con una encuesta estructurada11,
recogida mediante entrevista personal, a una muestra estadísticamente representativa del
sector comercio detallista en Zaragoza12.
En el siguiente cuadro se presenta la ficha técnica de la encuesta realizada:
11 Queremos agradecer a IMSO, S.L. la cesión de la encuesta y los datos que nos han permitido la realización del trabajo. 12 Dado que Zaragoza en diferentes estudios de mercado se ha considerado ciudad piloto, por tanto representativa del resto de ciudades del estado español, los resultados obtenidos con esta muestra se suponen representativos del comercio en todo el territorio nacional. El hecho de que otros autores (p.e. Rodríguez del Bosque et al. 1997) lleguen a conclusiones similares en otros estudios nos confirma este supuesto.
Análisis Multivariante
180
Cuadro 1. Ficha técnica de la encuesta.
Características Encuesta
Universo Empresas sección G, divisiones 50, 51 y 52
CNAE9313
Ámbito geográfico Ciudad de Zaragoza
Unidad muestral Empresa comercial: establecimientos
Método de recogida de información Encuesta personal estructurada
Tamaño de la muestra 818 encuestas válidas
Nivel de confianza 95,5%, p = q = 0,5
Error muestral 3,3%
Procedimiento de muestreo Sistemático: coeficiente de elevación 17
Fecha trabajo de campo Octubre de 1995 a Abril de 1996
Fuente: elaboración propia
De la encuesta, hemos seleccionado aquellas variables que se van a utilizar en esta
investigación. Estas pueden clasificarse en tres grupos: variables caracterizadoras de los
establecimientos encuestados, variables de utilización de herramientas de marketing y,
por último, variables referidas a la valoración de los programas de formación
continuada relacionados con marketing.
Las variables de los primeros dos grupos son de naturaleza cualitativa, mientras que
entre las variables del tercer grupo encontramos dos de naturaleza cualitativa (P17 y
P17B) y el resto, valoraciones a los programas de formación, que son de naturaleza
cuantitativa. En el Cuadro 2 se describen las variables de naturaleza cualitativa
(incluyendo los porcentajes que representan cada categoría) y en el cuadro 3 las
variables cuantitativas (incluyendo su media y su desviación típica).
13 Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la división 526 de la CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.
Análisis Multivariante
181
15.5 TÉCNICAS A UTILIZAR
15.5.1 TÉCNICAS DE REDUCCIÓN DE VARIABLES
Como se puede observar, hay un número considerable de variables que reflejan tanto
utilización de herramientas de marketing como valoraciones a programas de formación.
Para sintetizar la información contenida en ambos colectivos se han utilizado dos
técnicas descriptivas que si bien tienen el mismo objetivo requieren variables de
diferente naturaleza. En concreto, las técnicas que se han utilizado han sido:
• un análisis factorial de componentes principales para resumir la información
contenida en las variables cuantitativas.
• un análisis factorial de correspondencias múltiple para resumir la información
contenida en las variables cualitativas.
15.5.1.1 ANÁLISIS FACTORIAL DE COMPONENTES PRINCIPALES
Dentro del área de análisis multivariante que persigue la reducción de dimensiones el
análisis factorial es un técnica estadística utilizada para identificar un número
relativamente pequeño de factores que resumen la información compartida por muchas
variables relacionadas. Ya que la matriz de correlaciones entre todos los pares de
variables sirve como el punto del partida del análisis factorial, la medición de las
variables debe ser tal que el coeficiente de correlación sea una medida estadística
aceptable, por tanto, las variables que se utilizan en este análisis son variables
cuantitativas o asimilables a cuantitativas. En nuestro caso, las variables que recogen las
valoraciones a los programas de formación cumplen esta condición.
El análisis se efectúa expresando cada variable como una combinación lineal de un
número pequeño de factores, los cuales son compartidos por todas las variables, y un
factor único que es específico para la variable. Los factores comunes se estiman como
combinación lineal de las variables originales y para mejorar su interpretación se puede
proceder a alguna rotación de la solución inicial.
15.5.1.2 ANÁLISIS FACTORIAL DE CORRESPONDENCIAS MÚLTIPLE
Dentro del área de análisis multivariante que persigue la reducción de dimensiones
también se encuentran los procedimientos de escalamiento óptimo, que en cierta forma
Análisis Multivariante
182
suponen una extensión de las técnicas estadísticas de componentes principales y del
análisis de correlación canónica ya que las variables empleadas son de naturaleza
cualitativa. Más concretamente, el resultado de un análisis de escalamiento óptimo
incluye un conjunto de puntuaciones óptimas o cuantificaciones de las categorías de las
variables cualitativas que se analizan, tratando de recoger la mayor asociación posible
entre las mismas. Estas puntuaciones permiten determinar, dentro de una misma
variable, que categorías son similares o diferentes y qué categorías podrían agruparse; y
entre variables distintas, que categorías van juntas y cuál es la correlación máxima entre
las variables.
Análisis Multivariante
183
CUADRO 2: Variables cualitativas utilizadas en este estudio. Porcentajes por categoría.
Sobre los establecimientos encuestados (%) Herramientas de marketing (%) ACT Actividad del establecimiento P37 Dispone de base datos clientes 1 Alimentación y bebidas 14,2 1 No BDC 58,9 2 Confección, moda y textil 14,9 2 Si BDC 41,1 3 Manufacturas 8,3 P38 Ha hecho publicidad en el último año 4 Ocio y recreo 12,3 1 No Pub 49,1 5 Servicios y otros 14,7 2 Si Pub 50,9 6 NS/NC 35,6 P40 Trabaja con alguna agencia P01 Tipo de sociedad de publicidad 1 Autónomo/Soc. Civil 70,8 1 No APu 80,9 2 Sociedad/Cooperativa 29,2 2 Si APu 19,1 P02 Tipo de dirección P39 Principal medio publicitario 1 Propietario 85,6 1 T.V. 5,0 2 Persona contratada 14,4 2 Radio 25,1 P03 Año comienzo actividad 3 Prensa 29,6 1 Antes de 1980 37,9 4 Buzoneo 25,4 2 De 1980 a 1985 18,6 5 Otros 14,9 3 De 1986 a 1990 18,7 P41 Hace alguna promoción 4 De 1991 a 1996 24,8 1 No Pro 52,7 P04 Superficie sala ventas 2 Si Pro 47,3 1 Hasta 50 m2 67,0 P43 Aplica técnicas Merchandising 2 51 – 100 21,4 1 No Merchandising 39,9 3 101 – 150 5,0 2 No sé que es 40,6 4 Más de 150 6,6 3 Si Merchandising 19,6 P05 Tipo de establecimiento P44 Contrata escaparatistas profesionales 1 Independiente 83,5 1 No Esc 90,7 2 Asociado 16,5 2 Si Esc 9,3 P06 Número de empleados P48 Realizó un estudio de 1 1 38,1 mercado antes de abrir 2 2 29,1 1 No EMe 78,1 3 3 – 6 25,8 2 Si EMe 21,9 4 Más de 6 7,0 P53 Acude a ferias y certámenes P11.D Edad Dirección 1 No FyC 30,6 1 18-25 años 1,6 2 Si FyC 69,4 2 26-45 años 27,8 3 Más de 46 21,6 Variables de formación % 4 NS/NC 49,0 P36.1 % clientes zona influencia P17 Ha realizado formación en 1 Hasta el 50% 30,3 los 2 últimos años 2 Del 50 al 99 24,2 1 Si hacemos formación 32,9 3 Todos (100%) 26,9 2 No, no tenemos necesidad 18,8 4 NS/NC 18,6 3 No, no existen programas 5,4 P57 Vende productos importados 4 No, por falta de tiempo 24,4 1 No Importa 38,3 5 No, por otros motivos 10,0 2 Si, mayoristas 47,3 NS/NC 8,4 3 Si, directamente 14,4 P17B Ha realizado formación en P75 Tipo de artículo que comercializa los 2 últimos años (binaria) 1 Cotidiano 24,1 1 Si Formación 32,9 2 Duradero de temporada 16,0 2 No Formación 67,1 3 Duradero especializado 42,4 4 Varios tipos 17,5 Núm. de casos válidos 818
Fuente: Elaboración propia a partir de los datos suministrados por IMSO, S.L.
Análisis Multivariante
184
CUADRO 3 Variables cuantitativas utilizadas en este estudio. Estadísticos descriptivos básicos
Variables de valoración de los
Programas de Formación relacionados
con Marketing
Media
Desviación Estándar
Casos
válidos
P29.AC Val. PF Atención a clientes 8,40 2,71 750
P29.DO Val. PF Diseño asistido
ordenador
2,87 2,95 669
P29.ES Val. PF Escaparatismo 7,27 3,17 735
P29.GS Val. PF Gestión stock 5,18 3,62 674
P29.ME Val. PF Merchandising 4,46 3,47 538
P29.MK Val. PF Marketing 5,36 3,40 708
P29.PC Val. PF Psicología consumidor 6,64 3,30 714
P29.PR Val. PF Promoción 6,56 3,45 703
P29.PU Val. PF Publicidad 5,60 3,39 718
P29.TE Val. PF Telemarketing 2,59 2,65 629
P29.TN Val. PF Técnicas de
negociación
5,25 3,50 692
P29.TV Val. PF Técnicas de ventas 7,16 3,23 739
Fuente: Elaboración propia a partir de los datos suministrados por IMSO, S.L. Casos válidos en el conjunto de las 12 variables: 475.
Por tanto, ya que las puntuaciones tienen propiedades métricas, esta técnica se ha
descrito como una forma de cuantificar datos cualitativos. El paquete estadístico SPSS
presenta diferentes procedimientos de escalamiento óptimo que se pueden clasificar en
función del número y tipo de variables cualitativas que se utilizan14. Dado que las
variables de utilización de herramientas de marketing que consideramos en nuestro
14 Cuando el número de variables que se relaciona son 2 y están medidas con una escala nominal, el procedimiento a utilizar es el ANACOR (el análisis de correspondencia simple). Cuando se relacionan más de 2 variables cualitativas nominales el procedimiento recomendado es el HOMALS (el análisis de correspondencia múltiple). Si entre las variables que se relacionan tenemos algunas ordinales o numéricas el procedimiento a utilizar es el PRINCALS (el análisis de componentes principales no lineal) y, por último, tenemos el OVERALS (el análisis del coeficiente de correlación canónica no lineal) que es el más general de los procedimientos mencionados ya que dependiendo de la naturaleza de las variables puede originar los resultados obtenidos con los demás procedimientos.
Análisis Multivariante
185
análisis son de naturaleza nominal, el procedimiento que hemos utilizado ha sido el
análisis de correspondencias múltiple (el HOMALS). El input para este análisis es una
matriz donde las filas representan objetos (en nuestro caso los establecimientos) y las
columnas variables (las diferentes herramientas de marketing consideradas). En el
análisis sólo se considera la información categórica de las variables, es decir, la única
consideración que se realiza es que algunos objetos están en la misma categoría
mientras que otros no. No se realizan supuestos sobre las distancias o el orden entre las
categorías de una misma variable.
El HOMALS va asignando puntuaciones a cada categoría de cada variable de forma que
las categorías tengan la máxima extensión, es decir, que las categorías estén separadas
unas de otras tanto como sea posible. El análisis HOMALS también asigna
puntuaciones a los objetos de forma que las cuantificaciones de las categorías son los
promedios (los centroides) de las puntuaciones a los objetos que se encuentran en la
misma categoría15.
Por diseño, el análisis HOMALS trata de producir una solución en la cual los objetos
dentro de la misma categoría son representados juntos y objetos en diferentes categorías
son representados alejados unos de otros. Esto se hace para todas las variables en el
análisis. Las representaciones tienen la propiedad de que cada objeto está tan próximo
como sea posible a las puntuaciones de las categorías a las que pertenece. En este
sentido, las categorías dividen los objetos en subgrupos homogéneos (esta es una de las
razones para denominarlo “análisis de homogeneidad”). Las variables se consideran
homogéneas cuando clasifican los objetos dentro de los mismos subgrupos.
15.5.2 TÉCNICAS DE SEGMENTACIÓN
Los objetivos que persigue este trabajo son tanto la caracterización de las empresas de
comercio que realizan programas de formación en marketing como la caracterización de
las empresas según la valoración a unos programas de formación específicos del campo
de marketing.
15 El método que utiliza en este procedimientos es el de los mínimos cuadrados alternativos (ALS). Se trata de un método iterativo en el cual las estimaciones mínimo cuadrado de las puntuaciones de los objetos y nuevas cuantificaciones dadas a las puntuaciones estimadas de los objetos se calculan alternativamente.
Análisis Multivariante
186
En cierta forma, queremos dividir los establecimientos de comercio en segmentos que
se diferencian con respecto, en este caso, a dos criterios:
1. la realización o no de formación, y en caso negativo el motivo de ello.
2. la valoración a diferentes programas de formación de marketing.
Como se puede intuir, el primer criterio queda recogido por una variable de naturaleza
cualitativa ya que se pueden agrupar los establecimientos en diferentes categorías;
mientras que la variable o variables que representan el segundo criterio son de
naturaleza cuantitativa pues se trata de una valoración. Ello lleva a que las técnicas a
utilizar sean diferentes en cada caso. En concreto, para cumplir el primer objetivo
aplicaremos un análisis CHAID mientras que para el segundo aplicaremos la técnica del
AID.
15.5.2.1 ANÁLISIS CHAID.
Como se puede ver en el Cuadro 2, hay una variable que caracteriza a los
establecimientos encuestados en función de si el establecimiento ha realizado formación
en los 2 últimos años (la variable a la que nos referimos es la P17, variable cualitativa
con 5 categorías).
Ya que nuestro objetivo es dividir los establecimientos en segmentos que se diferencian
con respecto a un determinado criterio (en este caso la realización o no de formación y
en caso negativo si ha sido porque no se necesita o por otras causas), ejecutamos un
modelo de segmentación, un CHAID, que está basado en la Chi cuadrado (Kass, 1980;
Magidson, 1988). Este análisis divide la población en grupos distintos basándose en las
categorías del mejor predictor de la variable dependiente16, que debe ser categórica.
Cada uno de los grupos los divide posteriormente en grupos más pequeños basándose en
otras variables predictivas. Este proceso de división continúa hasta que no se pueden
encontrar más predictores estadísticamente significativos o hasta que el tamaño de los
grupos llega a un mínimo establecido.
Los segmentos que el CHAID obtiene son mutuamente exclusivos y exhaustivos; es
decir, los segmentos no se sobreponen y cada caso es contenido exactamente en un
segmento. Además, como los segmentos son definidos por combinaciones de variables
Análisis Multivariante
187
predictivas, fácilmente se puede clasificar cada caso en su segmento apropiado
simplemente conociendo sus categorías en las variables predictivas. El CHAID fusiona
categorías de las variables predictoras que no son significativamente diferentes. Este
procedimiento, combinado con el algoritmo de división, asegura que los casos en un
mismo segmento son homogéneos respecto al criterio de segmentación mientras que los
casos en segmentos diferentes tienden a ser heterogéneos con respecto al criterio de
segmentación.
15.5.2.2 ANÁLISIS AID
El AID o detección automática de interacciones es una técnica de análisis estadístico
que se utiliza para estudiar la relación de dependencia entre una variable dependiente y
múltiples predictoras. Su aplicación, como en el caso del CHAID, permite dividir un
conjunto de individuos o entidades de acuerdo con un determinado criterio. Sin
embargo, y a diferencia de este análisis, la variable dependiente o a explicar debe estar
medida en una escala métrica o dicotómica17. En nuestro caso vamos a contar con los
factores que van a resumir la valoración que las empresas de comercio realizan a los
programas de formación. Los factores resultantes del análisis factorial son variables de
naturaleza cuantitativa.
Este análisis procede de forma secuencial, mediante el análisis de varianza, realizando
divisiones de la variable dependiente. Como en el caso anterior, divide la población en
grupos distintos basándose en la variable que mejor explica las diferencias en la variable
dependiente. Cada grupo se vuelve a subdividir por la variable que mejor explica las
diferencias entre ellos. El proceso continua hasta que las diferencias entre los valores
medios de la variable dependiente en los grupos no son diferentes o hasta que el tamaño
de los grupos llega a un mínimo establecido. Por tanto, se podría pensar que el AID
constituye un análisis de varianza secuencial que permite aislar aquellas variables, y
niveles dentro de las mismas, que explican en mayor medida la varianza de la variable
dependiente. A diferencia de las técnicas anteriores, que se han obtenido con el paquete
16 El empleo de una variable dependiente es la principal diferencia entre el CHAID y el análisis Cluster tradicional. 17 Por lo que respecta a las variables independientes o explicativas pueden ser variables medidas en escalas nominales u ordinales.
Análisis Multivariante
188
estadístico SPSS para Windows versión 7.5, los resultados del AID se han obtenido con
el DYANE (Santesmases, 1996).
15.6 RESULTADOS
15.6.1 IDENTIFICACIÓN DE DIFERENTES PROGRAMAS DE
FORMACIÓN.
La primera etapa en la aplicación de un análisis factorial consiste en verificar la
adecuación del empleo de este análisis. Para comprobar dicha adecuación se utiliza el
KMO y la significación del test de esfericidad de Barlett. En este caso ambos
indicadores permiten establecer la adecuación de aplicar un factorial a la variables que
recogen la valoración a diferentes programas de formación (KMO = 0.875 y
significación del test de Barlett inferior al 5%).
Los tres factores extraídos por componentes principales (ver Cuadro 4) explican más del
60% de la varianza total. Aplicando una rotación varimax se puede establecer que:
1. El primer factor representa los programas de formación en marketing que
podríamos denominar genéricos. Las variables con una mayor correlación son la
valoración al programa de formación en publicidad, en marketing, en promoción y
en merchandising.
2. El segundo factor representa los programas de formación enfocados al clientes.
Las variables que hacen referencia a la valoración de un programa de formación
de atención al cliente y de psicología del consumidor presentan correlaciones que
superan el 0,70 (concretamente, 0,768 y 0,749 respectivamente).
3. El tercer factor representa los programas de formación técnicos que implican el
empleo de herramientas informáticas (la variable que recoge la valoración a los
programas de formación de diseño asistido por ordenador presenta la correlación
más alta con este factor: 0.758).
Análisis Multivariante
189
CUADRO 4 Resultados del Análisis factorial.
Matriz Factorial Comunalidad Matriz Factorial
Rotada
Variables F1 F2 F3 (% var.explicada) F1 F2 F3
Val. PF Publicidad ,75 ,01 -,38 ,72 ,80
Val. PF Marketing ,73 ,17 -,31 ,66 ,75
Val. PF Promoción ,74 ,11 -,16 ,59 ,64 ,33
Val. PF Merchandising ,66 ,14 -,22 ,52 ,64
Val. PF Atención Cliente ,56 -,54 ,13 ,63 ,77
Val. PF Psicolog.
consumidor
,59 -,29 ,51 ,70 ,75 ,38
Val. PF Téc. Ventas ,66 -,37 -,00 ,58 ,40 ,64
Val. PF Escaparatismo ,58 -,46 -,20 ,60 ,48 ,59
Val. PF Diseño asis.
ordenador
,45 ,54 ,31 ,60 ,76
Val. PF Telemarketing ,58 ,50 ,14 ,62 ,37 ,70
Val. PF Gestión stocks ,66 ,00 ,33 ,55 ,49 ,52
Val. PF Téc. Negociación ,66 ,00 ,13 ,47 ,37 ,36 ,45
Valor propio 4,98 1,37 ,90 2,78 2,46 2,00
% varianza explicado 41,51 11,42 7,49 23,22 20,52 16,70
% varianza acumulado 41,51 52,93 60,43 23,22 43,73 60,43
Fuente: elaboración propia.
Por tanto, la reducción que consigue el análisis factorial permite identificar tres tipos
de programas en marketing: los programas genéricos, los programas enfocados a
cliente y, por último, los programas técnicos asistidos por ordenador. En el apartado
4.4. se clasificarán los establecimientos comerciales que prefieren cada uno de estos
programas.
Análisis Multivariante
190
15.7 UTILIZACIÓN DE HERRAMIENTAS DE MARKETING
Como se ha comentado anteriormente, el análisis HOMALS permite clasificar en un
mismo grupo a aquellas observaciones que se asemejan entre sí. Como se puede ver en
el Cuadro 518, la primera dimensión que extrae este análisis, la del eje de abcisas,
claramente separa las empresas que emplean herramientas de marketing de las que no.
La segunda dimensión parece que solamente tiene influencia en aquellos
establecimientos comerciales que emplean herramientas de marketing. No provoca
ninguna diferencia relevante entre los que no emplean estas herramientas mientras que
entre los que sí utilizan herramientas de marketing separa los que usan herramientas
más sofisticadas o complejas de los que aplican herramientas más básicas.
Debido a que pretendemos utilizar esta información en las técnicas de segmentación
AID y CHAID, necesitamos recodificar estas dimensiones en una variable cualitativa.
Considerando conjuntamente las dos dimensiones hemos definido la variable Grado de
aplicación de Marketing que permite clasificar a las empresas en tres grupos según la
utilización que hacen de las diferentes herramientas de marketing (ver Cuadro 6):
empresas que NO emplean herramientas de marketing, empresas que emplean las
herramientas de marketing más básicas y empresas que utilizan herramientas más
sofisticadas de marketing.
18 Los eigenvalues de las dimensiones del HOMALS son 0.323 para la primera dimensión y 0.142 para la segunda.
Análisis Multivariante
191
CUADRO 5 Resultados del Análisis de correspondencias múltiples.
Posicionamiento de cada categoría en los factores
Dimensión 1
2,01,51,0,50,0-,5-1,0-1,5
Dim
ensi
ón 2
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
-2,5
Ferias y certámenes
Estudio de mercado
Escaparatistas prof.
Técnicas Merchandis
Aguna promoción
Agencia publicidad
Medio publicitario
Ha hecho publicidad
Base datos clientes
Si FyCNo FyC
Si EMe
No EMe
Si Esc
No Esc
Si Merchand
No se que es
No Merchand
Si ProNo Pro
Si APuNo APu
No medios
Otros
BuzoneoPrensa
Radio
T.V.
Si Pub
No Pub
Si BDCNo BDC
Fuente: elaboración propia.
Conviene remarcar que con la reclasificación de los establecimientos comerciales en
tres categorías según el grado de utilización de herramientas de marketing se preservan
los resultados obtenidos con el análisis factorial de correspondencias múltiple. Para
verificar este aspecto hemos realizado tablas de contingencia cruzando la variable
Grado de Aplicación de Marketing y cada una de las variables utilizadas en el análisis
HOMALS. En todos los casos, el estadístico de la Chi cuadrado permitía rechazar la
hipótesis nula de independencia entre las variables con un nivel de confianza
prácticamente absoluto.
Análisis Multivariante
192
CUADRO 6 Recodificación de la variable Marketing
Tabla de frecuencia Grado aplicación de marketing
Categoría Definición Frecuencia Porcentaje No Marketing Dimensión 1 <= 0 412 50,4 Marketing Básico Dimensión 1 > 0 y Dimensión 2 > 0 261 31,9 Marketing Sofisticado Dimensión 1 > 0 y Dimensión 2 < 0 145 17,7
Total 818 100,0 Fuente: elaboración propia.
15.8 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS
COMERCIALES SEGÚN LA REALIZACIÓN O NO DE
PROGRAMAS DE FORMACIÓN
El análisis CHAID utilizado para caracterizar a los establecimientos que han realizado
una determinada formación en los dos últimos años divide a los establecimientos en 8
grupos:
Grupo 1: está formado por los establecimientos con un solo empleado (285
establecimientos). De estos un 37,89% no hacen formación por falta de tiempo y un
28,42% considera que no tienen necesidad.
Grupo 2: Está formado por los establecimientos con dos empleados, que no utilizan
herramientas de marketing y que son autónomos (en total, 85 establecimientos). De
éstos un 30,59% no hacen formación porque no tienen necesidad y un 36,47% no la
hacen por falta de tiempo.
Grupo 3: También está formado por los establecimientos con dos empleados que no
utilizan herramientas de marketing pero en este caso tienen forma de sociedad o
cooperativa (26 establecimientos). Un 38,46% de estos establecimientos hacen
formación mientras que un 23,08% no hacen formación por otros motivos.
Grupo 4: Está formado por establecimientos con dos empleados que utilizan
herramientas de marketing, ya sean básicas o sofisticadas. De estos establecimientos
más de un 50% realizan cursos de formación.
Grupo 5: Esta formado por aquellos establecimientos que cuentan con un número de
empleados que oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan
Análisis Multivariante
193
herramientas básicas y que no importan productos. De estos establecimientos, 54 en
total, un 42,59% hacen cursos de formación y un 24,07% señalan que no tienen
necesidad.
Grupo 6: Lo forman los establecimientos que cuentan con un número de empleados que
oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan herramientas
básicas y que venden productos importados. De estos establecimientos, 95 en total, un
48,42% hacen cursos de formación y un 10,53% señalan que no hacen porque no
existen programas adecuados.
Grupo 7: Este grupo está compuesto por los establecimientos que cuentan con un
número de empleados que oscila entre 3 y 6 y que aplican marketing sofisticado. En
total son 46 establecimientos de la muestra de los cuales el 67,39% hacen cursos de
formación y un 15,22% no hacen cursos de formación por diferentes motivos.
Grupo 8: Está formado por los establecimientos con más de 6 empleados (51). De estos
más del 82% hacen cursos de formación mientras que no hay ninguno que diga no hacer
cursos de formación por no tener necesidad.
En conclusión, la mayor diferenciación entre los que realizan programas de formación y
los que no los hacen es el tamaño del establecimiento (a mayor tamaño más realización
de formación). El grado de utilización de las herramientas de marketing también
diferencia entre los que realizan o no programas de formación pero sólo en
establecimientos de 2 empleados o de 3 a 6. La no existencia de programas de
formación adecuados no parece ser una justificación importante para la no realización
de programas de formación puesto que en la mayoría de grupos únicamente alrededor
de un 5% mencionan este aspecto, a excepción de los establecimientos de 3 a 6
trabajadores, que no aplican marketing o bien realizan un marketing básico y que
venden productos importados (en este grupo la no existencia de programas adecuados la
manifiestan un 10,5% de los establecimientos).
Análisis Multivariante
194
CUADRO 7 Resultados del Análisis de clasificación Chaid.
Características de las empresas según formación Total Si Form: 35,91
No nece: 20,56 No progr: 5,87 Falta tpo: 26,70 Otros mo: 10,95
n = 749
Número de
Empleados
1 2 3 - 6 Más de 6 Si Form: 18,25 No nece: 28,42 No progr: 6,67 Falta tpo: 37,89 Otros mo: 8,77
n =285
Si Form: 34,40 No nece: 22,02 No progr: 5,05 Falta tpo: 25,69 Otros mo: 12,84
n = 218
Si Form: 51,28 No nece: 12,82 No progr: 6,67 Falta tpo: 17,44 Otros mo: 11,79
n = 195
Si Form: 82,35No nece: 0,00No progr: 1,96Falta tpo: 3,92Otros mo: 11,76
n = 51 (1) (8) Utilización de
Marketing Utilización de
Marketing
No Marketing Mark. Básico
y Sofisticado No Marketing
Mark. Básico Marketing
Sofisticado
Si Form: 18,92 No nece: 27,03 No progr: 5,41 Falta tpo: 32,43 Otros mo: 16,22
n = 111
Si Form: 50,47 No nece: 16,82 No progr: 4,67 Falta tpo: 18,69 Otros mo: 9,35
N = 107
Si Form: 46,31 No nece: 15,44 No progr: 6,71 Falta tpo: 20,81 Otros mo: 10,74
n = 149
Si Form: 67,39 No nece: 4,35 No progr: 6,52 Falta tpo: 6,52 Otros mo: 15,22
n = 46
(4) (7) Tipo de
sociedad Vende produc.
importados
Autónomo Sociedad No importa Si importa
Si Form: 12,94 No nece: 30,59 No progr: 5,88 Falta tpo: 36,47 Otros mo: 14,12
n = 85
Si Form: 38,46 No nece: 15,38 No progr: 3,85 Falta tpo: 19,23 Otros mo: 23,08
n = 26
Si Form: 42,59 No nece: 24,07 No progr: 0,00 Falta tpo: 20,37 Otros mo: 12,96
n = 54
Si Form: 48,42 No nece: 10,53 No progr: 10,53 Falta tpo: 21,05 Otros mo: 9,47
n = 95
(2) (3) (5) (6)
Análisis Multivariante
195
15.9 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS
COMERCIALES SEGÚN EL TIPO DE PROGRAMA DE
FORMACIÓN REALIZADO
Atendiendo a los resultados del análisis factorial de componentes principales realizado
anteriormente, se han identificado tres programas de formación en marketing:
programas de formación genéricos, programas de formación enfocados a cliente y
programas de formación técnicos asistidos por ordenador. A continuación vamos a
identificar aquellos establecimientos que valoran más cada uno de estos programas
aplicando la técnica del AID.
15.9.1 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN GENÉRICOS
La aplicación del AID tomando como variable cuantitativa el primer factor nos permite
identificar 6 grupos.
Análisis Multivariante
196
CUADRO 8 Resultados del Análisis de clasificación AID.
Características de las empresas según su valoración a los programas de formación genéricos de marketing
Total Media: -0,011
D.Est.: 0,999 n = 440
Ha realizado
formación ∆R² = 0,041
Si Formación No Formación Media: 0,235
D.Est.: 0,910 n = 178
Media: -0,178 D.Est.: 0,989
n = 262
Número de
empleados ∆R² = 0,020
Año comienzo actividad
∆R² = 0,030
Más de 2 1 y 2 Después 1985 Antes 1986 Media: 0,036
D.Est.: 0,884 n = 99
Media: 0,484 D.Est.: 0,830
n = 79
Media: 0,071 D.Est.: 0,976
n = 118
Media: -0,383 D.Est.: 0,906
n = 144
(1) (2) Artículos que
comercializa ∆R² = 0,020
Utilización de Marketing
∆R² = 0,010
Durad. Temp. y Cotidiano
Durad. Espec. y varios tipos
No Marketing Mark. Básico y Sofisticado
Media: 0,488 D.Est.: 0,781
n = 30
Media: -0,161 D.Est.: 0,801
n = 69
Media: -0,497 D.Est.: 0,789
n = 102
Media: -0,105D.Est.: 1,081
n = 42 (3) (4) (5) (6)
Grupo 1: Esta formado por 79 establecimientos que otorgan una valoración media al
factor 1 de 0,4837. Son establecimientos que siguen cursos de formación y que tienen 1
ó 2 empleados.
Análisis Multivariante
197
Grupo 2: En este grupo encontramos 118 establecimientos que otorgan una valoración
media al factor 1 de 0,0713. Son establecimientos que no hacen formación justificando
esta conducta por cualquiera de los motivos que se presentaban y que comenzaron su
actividad después de 1985.
Grupo 3: Se agrupan 30 establecimientos. Dan una valoración al factor 1 de 0,4882. Son
establecimientos que hacen formación, que tienen más de 3 empleados y que
comercializan artículos duraderos de temporada o cotidianos.
Grupo 4: En este grupo encontramos 69 establecimientos comerciales que dan una
valoración media al factor 1 negativa (-0,1605). Son establecimientos que hacen
formación, que tienen más de 3 empleados pero que comercializan artículos duraderos
especializados y artículos de varios tipos.
Grupo 5: Este grupo presenta 102 establecimientos que, como en el caso anterior,
también dan una valoración negativa al factor 1 (-0,4970). Estos establecimientos no
hacen formación y arguyen cualquiera de los motivos considerados, son
establecimientos que comenzaron su actividad antes de 1985 y que no aplican
herramientas de marketing.
Grupo 6: Aquí se agrupan 42 establecimientos que también dan una valoración negativa
al factor 1. Como en el caso anterior, no hacen formación y son establecimientos que
también comenzaron su actividad antes de 1985 pero, a diferencia de los
establecimientos del grupo anterior, utilizan herramientas de marketing básicas y/o
sofisticadas.
En definitiva, los establecimientos que prefieren cursos de formación genéricos se
encuentran en los grupos 1 y 3. Por tanto, son establecimientos que siguen cursos de
formación y que tienen 1 ó 2 empleados o establecimientos que hacen formación, que
tienen más de 3 empleados y que comercializan artículos duraderos de temporada o
cotidianos. Por contra, los que menos valoran este tipo de formación son los
establecimientos del grupo 4 y 5, es decir, los que hacen formación, tienen más de 3
empleados y comercializan productos duraderos especializados o de varios tipos; o los
que no hacen formación por los motivos señalados, operan desde antes de 1985 y no
utilizan herramientas de marketing.
Análisis Multivariante
198
15.9.2 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN ENFOCADOS A CLIENTE
La aplicación del AID tomando como variable cuantitativa el segundo factor nos
permite identificar también en este caso 6 grupos:
Grupo 1: En este grupo encontramos 76 establecimientos que otorgan una valoración
media al factor 2 de -0,5503. Son establecimientos que no hacen formación justificando
que no tienen necesidad.
Grupo 2: Esta formado por 58 establecimientos que otorgan una valoración media al
factor 2 de 0,4736. Son establecimientos que siguen cursos de formación o que no hacen
argumentando diferentes motivos excepto el que señala que no se hacen cursos porque
no se tiene necesidad y que comercializan varios tipos de articulo.
Grupo 3: Se agrupan 141 establecimientos. Dan una valoración media al factor 2 de
0,0951. Son establecimientos que siguen cursos de formación o que no hacen
argumentando diferentes motivos excepto el que señala que no se hacen cursos porque
no se tiene necesidad, comercializan productos duraderos de temporada, especializados
y cotidianos, tienen una superficie de sala de ventas de hasta 50 m2 y la forma que
adoptan es la de autónomos o sociedad civil.
Análisis Multivariante
199
CUADRO 9 Resultados del Análisis de clasificación AID.
Características de las empresas según su valoración a los programas de formación enfocados al cliente
Total Media: -0,001
D.Est.: 1,003 n = 440
Ha realizado
formación ∆R² = 0,063
Si formación y no por otros
No tenemos necesidad
Media: 0,114 D.Est.: 0,875
n = 364
Media: -0,550 D.Est.: 1,266,
n = 76
(1) Artículos que
comercializa ∆R² = 0,020
Varios tipos Específicos Media: 0,474
D.Est.: 0,672 n = 58
Media: 0,045 D.Est.: 0,884
N = 306
(2) Superficie de
ventas ∆R² = 0,010
Más de 50 m² Hasta 50 m² Media: 0,210
D.Est.: 0,759 n = 108
Media: -0,045, D.Est.: 0,929
n = 198
Año comienzo
actividad ∆R² = 0,019
Tipo de sociedad
∆R² = 0,022
Antes 1986 Después 1985 Autónomo Sociedad
Media: 0,468 D.Est.: 0,717
n = 58
Media: -0,090 D.Est.: 0,641
n = 50
Media: 0,095 D.Est.: 0,864
n = 141
Media: -0,390 D.Est.: 0,717
n = 58
(5) (6) (3) (4)
Análisis Multivariante
200
Grupo 4: En este grupo encontramos 58 establecimientos comerciales que dan una
valoración media al factor 2 negativa (-0,39). En cuanto a las características, presentan
las mismas que los establecimientos del grupo 2 con la excepción de que la forma que
adoptan es la de sociedad o cooperativa.
Grupo 5: Este grupo presenta 58 establecimientos que dan una valoración media al
factor 2 positiva (0,4683). Estos establecimientos no hacen formación y arguyen
cualquiera de los motivos considerados excepto el de que no tienen necesidad,
comercializan productos duraderos (de temporada y especializados) y también
productos cotidianos, la superficie de la sala de ventas supera los 50m2 y son
establecimientos que comenzaron su actividad antes de 1985.
Grupo 6: Aquí se agrupan 50 establecimientos que dan una valoración promedio al
factor 2 negativa (-0,0897). Respecto a las características presentan las mismas que el
grupo anterior a diferencia de que comenzaron su actividad después de 1985.
En definitiva, los establecimientos comerciales que prefieren programas de formación
enfocados a clientes son establecimientos que siguen cursos de formación o que no
hacen argumentando diferentes motivos excepto el que señala que no se hacen cursos
porque no se tiene necesidad y que comercializan varios tipos de articulo. También
están los que presentan esas características pero comercializan productos duraderos de
temporada, especializados y cotidianos, tienen una superficie de sala de ventas de hasta
50 m2 y la forma que adoptan es la de autónomos o sociedad civil y, por último, tenemos
los establecimientos que no hacen formación y arguyen cualquiera de los motivos
considerados excepto el de que no tienen necesidad, comercializan productos duraderos
(de temporada y especializados) y también productos cotidianos, la superficie de la sala
de ventas supera los 50m2 y son establecimientos que comenzaron su actividad antes de
1985. Destaca la valoración negativa de los programas de formación enfocados al
cliente que hacen los establecimientos que afirman que no hacen formación porque no
tienen necesidad (grupo 1).
Análisis Multivariante
201
15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN TÉCNICOS QUE EMPLEAN HERRAMIENTAS
INFORMÁTICAS
La aplicación del AID tomando como variable cuantitativa el tercer factor nos permite
identificar ahora 8 grupos:
Grupo 1: Este grupo presenta 62 establecimientos que dan una valoración media al
factor 3 positiva (0,0268). Estos establecimientos hacen formación y utilizan
herramientas sofisticadas de marketing.
Grupo 2: Aquí se agrupan 78 establecimientos que dan una valoración promedio al
factor 3 negativa de -0,4950. Estos establecimientos no hacen cursos de formación y lo
justifican con los diferentes motivos que se les presentan y, en cuanto a los productos
que comercializan, son productos cotidianos.
Grupo 3: Esta formado por 28 establecimientos que otorgan una valoración media al
factor 3 de 0,7503. Son establecimientos que siguen cursos de formación, que no
utilizan herramientas de marketing y si utilizan son herramientas básicas y, además, no
importan productos.
Grupo 4: Aquí se agrupan 49 establecimientos que dan una valoración promedio al
factor 3 negativa de -0,4450. Estos establecimientos no hacen cursos de formación y lo
justifican con los diferentes motivos que se les presentan. En cuanto a los productos que
comercializan son duraderos especializados y de temporada o comercializan varios tipos
de productos. En este grupo encontramos los establecimientos de confección, moda y
textil y manufacturas.
Grupo 5: Se agrupan 66 establecimientos. Dan una valoración media al factor 3 de
0,1231. Son establecimientos que siguen cursos de formación, que no utilizan
herramientas de marketing y si utilizan emplean herramientas básicas, venden productos
importados y comenzaron su actividad antes de 1990.
Análisis Multivariante
202
CUADRO 10 Resultados del Análisis de clasificación AID. Características de las empresas según su
valoración a los programas de formación técnicos con ordenador Total Media: -0,029
D.Est.: 0,987 n = 440
Ha realizado
formación ∆R² = 0,056
Si Formación No Formación Media: 0,256
D.Est.: 1,041 n = 178
Media: -0,222 D.Est.: 0,836
n = 262
Utilización de
Marketing ∆R² = 0,012
Artículos que comercializa ∆R² = 0,019
Marketing Sofisticado
No Marketing Mark. Básico
Duraderos y varios tipos
Cotidiano
Media: 0,027 D.Est.: 0,908
n = 62
Media: 0,378 D.Est.: 1,069
n = 116
Media: -0,106 D.Est.: 0,863
n = 184
Media: -0,495D.Est.: 0,665
n = 78 (1) (2) Vende produc.
importados ∆R² = 0,012
Actividad ∆R² = 0,018
Si importa No importa Confección y
Manufacturas Alimentación,
ocio, servicios
Media: 0,260 D.Est.: 1,087
n = 88
Media: 0,750 D.Est.: 0,829
n = 28
Media: -0,445, D.Est.: 0,779
n = 49
Media: 0,017 D.Est.: 0,837
n = 135
(3) (4) Año comienzo
actividad ∆R² = 0,012
Edad de la dirección
∆R² = 0,018
Antes 1991 Después 1990 Menos de 46 Más de 45
Media: 0,123 D.Est.: 1,058
n = 66
Media: 0,671 D.Est.: 0,948
n =22
Media: 0,154 D.Est.: 0,818
n = 102
Media: -0,405D.Est.: 0,658
n = 33 (5) (6) (7) (8)
Análisis Multivariante
203
Grupo 6: En este grupo encontramos 22 establecimientos comerciales que dan una
valoración media al factor 3 de 0,6709. Presentan las mismas características que los
establecimientos del grupo anterior pero comenzaron su actividad después de 1990.
Grupo 7: Aquí se agrupan 102 establecimientos que dan una valoración promedio al
factor 3 positiva de 0,1540. Estos establecimientos no hacen cursos de formación y lo
justifican con los diferentes motivos que se les presentan. En cuanto a los productos que
comercializan son duraderos especializados y de temporada o comercializan varios tipos
de productos. En este grupo encontramos los establecimientos de alimentación y
bebidas, ocio y recreo, servicios y otros. En estos establecimientos la edad de los
directivos oscila entre 18 y 45 años.
Grupo 8: En este grupo encontramos 33 establecimientos que otorgan una valoración
media al factor 3 de -0,4052. Son establecimientos que presentan las mismas
características que las del grupo anterior con la diferencia de que la edad de la dirección
supera los 45 años (a más edad menos preferencia por la informática).
En definitiva, los establecimientos comerciales que más valorar los programas de
formación que emplean herramientas informáticas son los que hacen formación, que no
utilizan herramientas de marketing o utilizan herramientas básicas y que no venden
productos importados (grupo 3) o los que con las mismas características sí que venden
productos importados e inician su actividad después de 1990 (grupo 6). En cambio, las
valoraciones más negativas las realizan los establecimientos que no hacen formación y
venden productos cotidianos (grupo 2), los que no hacen formación, venden productos
duraderos o de varios tipos y son de confección o manufacturas (grupo 4) o los que son
de alimentación, ocio o servicios y la edad de la dirección supera los 45 años (grupo 8).
En la valoración a este tipo de programas de formación sorprende que los
establecimientos que utilizan marketing sofisticado y los que venden productos
importados tienen una valoración inferior a los que no lo hacen (esto podría sugerir que
los cursos más técnicos no están al nivel de exigencia esperado por aquellos
establecimientos que están en un estadio más avanzado en su actividad).
16. CONCLUSIONES
La clasificación del comercio ha sido un aspecto desarrollado por diferentes trabajos de
la literatura, como se ha puesto de manifiesto con algunas referencias comentadas
Análisis Multivariante
204
anteriormente. Sin embargo, no se había realizado una clasificación de los
establecimientos comerciales atendiendo a su valoración y a su relación con los
programas de formación.
En este trabajo, con la aplicación de técnicas de segmentación como el CHAID y el
AID, se han podido caracterizar a los establecimientos que hacen cursos de formación
así como a los establecimientos que prefieren un determinado curso de formación.
Así, según la realización de programas de formación, en el lado de los que no realizan
formación por falta de tiempo (37%) o por no tener necesidad (30%) destacan dos
grupos: los comercios con un solo empleado y los comercios con dos empleados que no
hacen marketing y son autónomos. Por otro lado, entre los comercios que mayor
formación realizan encontramos los de más de 6 trabajadores y los de 3 a 6 trabajadores
que hacen marketing sofisticado. Finalmente, destaca el grupo de comercios que
presentan de 3 a 6 trabajadores, que no aplican marketing o utilizan un marketing básico
y que venden productos importados puesto que un 10,5% de los mismos detectan que no
existen programas de formación adecuados (en los otros grupos este porcentaje se
situaba alrededor del 5%).
Como resultado general, se puede señalar que hay una clara relación entre realizar
cursos de formación y valorar muy positivamente los diferentes programas de
formación en marketing. De hecho, los grupos de establecimientos que otorgan una
valoración más negativa a los diferentes programas de formación en marketing son
establecimientos que no hacen formación. Por ejemplo, los establecimientos que no
hacen formación, creados antes de 1986 y que tampoco hacen marketing son los que
valoran más negativamente los programas de formación genéricos. Los
establecimientos que dicen no tener necesidad de formación son los que valoran más
negativamente los programas enfocados a clientes.
En cuanto a la preferencia por un determinado curso de formación, se puede señalar que
existen variables que influyen en la valoración de todos los programas de formación
aunque no de la misma forma en cada uno de ellos. Así, cuando los artículos que
comercializa el establecimiento son duraderos de temporada y cotidianos, aumenta la
valoración a los programas genéricos; cuando los establecimientos comercializan
diversos tipos aumenta la valoración de los programas enfocados a los clientes y, por
Análisis Multivariante
205
último, cuando se comercializan artículos cotidianos disminuye en gran medida la
valoración de los programas técnicos.
Atendiendo a la antigüedad de la empresa, se observa como aquellos establecimientos
que operan desde antes de 1986 otorgan una valoración media positiva a los programas
de formación enfocados a clientes y negativa a los programas de formación genéricos.
Para la valoración de los programas de formación técnicos, la diferencia se sitúa en los
comercios creados antes o después de 1990, siendo estos últimos los que más los
valoran.
Finalmente, otras variables que caracterizan la valoración de los programas de
formación considerados son el grado de utilización de las herramientas de marketing.
Para aquellos establecimientos que no utilizan marketing la valoración a los programas
de formación genéricos es más baja que para los establecimientos que utilizan estas
herramientas. Por contra, para aquéllos que ya utilizan herramientas sofisticadas de
marketing, la valoración de los programas técnicos asistidos por ordenador es inferior a
los que no hacen marketing o utilizan herramientas básicas.
En definitiva, los resultados obtenidos permiten contrastar las dos hipótesis planteadas
en un inicio. De este modo, los establecimientos que más emplean herramientas de
marketing son los que realizan más formación (o viceversa) y también se puede
observar como la preferencia por un plan de formación específico viene determinada
por estas dos variables más algunas características del establecimiento comercial.
17. BIBLIOGRAFÍA
Davies Bush, V. y Ingram, T. (1996): “Adapting to Diverse Customers: A Training
Matrix for International Marketers”. Industrial Marketing Management, Vol. 25, nº
5, p. 373 - 383.
Fondo Social Europeo, FORCEM, Federación de Empresarios de Comercio de
Zaragoza (1996): Plan de Estudios Profesionales para el Comercio. Edita IMSO,
S.L.
Hogart-Scott, S. y Jone, M.A. (1993): “Advice and Training Support for the Small
Firms Sector in West Yorkshire”. Journal of European Industrial Training, Vol 17,
nº 1, p.18 - 22.
Análisis Multivariante
206
Kass, G. (1980): “An Exploratory Technique for Investigating Large Quantities of
Categorical Data”. Applied Statistics, Vol. 29, nº 2, p. 119-127.
Kotler, P. (1992): Dirección de Marketing. Análisis, planificación, gestión y control. 7ª
Ed. Prentice Hall.
Magidson, J. (1988): “Improved Statistical Techniques for Response Modeling.
Progresion Beyond Regresion”. Journal of Direct Marketing, Vol. 2, nº 4, p.6 - 18.
Magidson, J. y SPSS Inc (1993): SPSS. SPSS for Windows Chaid Release 6.0. SPSS
Inc. Chicago.
Norusis, M.J. (1983): SPSSx. Introductory Statistics Guide. McGraw-Hill Book
Company.
Obis, T.; Jiménez, E.; Rialp, J. (1997): “El marketing en el comercio de Zaragoza”. IX
Encuentro de Profesores Universitarios de Marketing, Murcia, 25 y 26 de
Septiembre, p. 315-334.
Rebollo, A. (1993): “Clasificación de las Formas Comerciales: el Producto-
Establecimiento”. Distribución Actualidad, nº 10 (junio-julio), p. 10-18.
Rodríguez del Bosque, I.; Agudo San Emeterio, A.; Suárez Vázquez, A.; García de los
Salmones, Mª. (1997): “La modernización del Comercio minorista: Predisposición
hacia el Cambio”. IX Encuentro de Profesores Universitarios de Marketing, Murcia,
25 y 26 de Septiembre, p. 359-375.
Rodríguez del Bosque, I.; Trespalacios Gutiérrez, J.A.; Agudo San Emeterio, A.; Suárez
Vázquez, A.; García de los Salmones, Mª; Fernández Polanco, J. (1997): El Sector
Comercio Minorista en Cantabria. Servicio de Publicaciones de la Universidad de
Cantabria. Gobierno de Cantabria. Santander.
Santesmases Mestre, M. (1992): Marketing. Conceptos y Estrategias. Ediciones
Pirámide, S.A. Madrid.
Santesmases, M. (1997): DYANE. Diseño y análisis de encuestas en investigación
social y de mercados. Ediciones Pirámide. Madrid
Análisis Multivariante
207
Sarabia, F.J. y Ruiz de Maya, S. (1996): “Aspectos Metodológicos para la realización de
Estudios en el Ámbito de la Distribución Comercial”. Esic Market, enero-marzo, p.
117-141.
SPSS Inc. (1990): SPSS Categories. SPSS Inc. Chicago
Weeks, W.A. y Stevens, C.G. (1997): “National Account Management Sales. Training
and Directions for Improvement”. Industrial Marketing Management, Vol. 26, nº 5,
p. 423 - 431.
Weiers, R.M. (1986): Investigación de Mercados. México. Prentice Hall.
Análisis Multivariante
208
ANÁLISIS DE CLASIFICACIÓN MÚLTIPLE (ACM)
Análisis Multivariante
209
18. CONCEPTO DE ACM
El análisis de clasificación múltiple fue diseñada por Andrews, Morgan y Sonquist y
analiza la relación entre un variable dependiente o criterio, medida en escala métrica o
binaria, mientras que las variables explicativas deben se cualitativas, es decir medidas
en escalas nominales u ordinales o bien variables transformadas a este tipo de escalas.
Aplicación
El ACM sustituye con ventaja a la regresión múltiple con variables ficticias (dummy),
por la dificultad o complejidad que puede suponer la transformación de variables
categóricas en ficticias.
Resumen
Y medida en escala métrica
Las x en nominales u ordinales
19. MODELO DEL ACM
El modelo estadístico expresa la variable dependiente (Y) como una función del valor
medio de la misma más los coeficientes asignados a las categorías correspondientes de
las variables explicativas y un término de error. La ecuación matemática es:
njikjinji ecbaYY ,,,,,,,...., ........+++++=
Donde:
Yi,j,k ..n Es el valor de la variable dependiente en el individuo n, que pertenece a la
categoría i de la variable explicativa A, a la categoría j de la variable B, etc.
Y Es la media de todos los casos de la variable dependiente. Gran media
ai Coeficiente estimado correspondiente a la categoría i de la variable independiente A
bj Coeficiente estimado correspondiente a la categoría j de la variable independiente B
ck Coeficiente estimado correspondiente a la categoría k de la variable independiente C
ei,j,,k, …. n error para el elemento o individuo n
Análisis Multivariante
210
Los coeficientes se estiman mediante el método de los mínimos cuadrados.
En el ACM la proporción de varianza explicada por cada una de las variables
independientes se denomina eta cuadrado. )( 2η
Su expresión matemática es.
2
2
2
)(
)(
∑
∑−
−=
kk
jijij
YY
YYNη
Donde
Nij es el número de casos que pertenecen a la categoría j de la variable explicativa i
ijY Valor medio de la variable dependiente de los casos incluidos en la categoría j de la
variable explicativa i
Y Gran media
La medida de la relación entre una variable explicativa y la variable dependiente,
manteniendo constante a las demás, se llama beta cuadrado )( 2β . Su expresión
matemática es:
∑
∑−
=
kk
jijij
YY
aN
2
2
2
)(
)(β
Donde
Nij es el número de casos que pertenecen a la categoría j de la variable explicativa i
aij es el coeficiente de la categoría j de la variable explicativa i
Yk es el valor de la variable dependiente en el caso k (k = 1,2,3,4, ….. n)
Y Gran media
Análisis Multivariante
211
La proporción de la varianza de la variable dependiente explicada por el modelo,
Coeficiente de correlación múltiple al cuadrado (R2) viene dado por
∑
∑∑∑−
=
kk
i j kijkij
YY
YaR
22
)(
19.1 CONSIDERACIONES ACERCA DEL MODELO
El modelo es aditivo, pudiendo detectar relaciones no lineales ya que los coeficientes de
la función estimada miden el efecto sobre la variable dependiente de todas y cada una
de las categorías de las variables explicativas.
El modelo también mide el efecto global de cada variable explicativa, tanto de forma
individual como teniendo en cuéntale efecto simultáneo de todas las demás variables.
Los coeficientes obtenidos por el ACM expresan ajustes con respecto al valor medio de
la variable dependiente.
El ACM no detecta directamente las interacciones entre las variables explicativas por
ser un modelo aditivo.
El ACM guarda relación con el Análisis de detección automática de interacciones,
también desarrollado por Sonquist y Morgan.
20. CASO PRÁCTICO