Anal is is Multi Variable

221
INTRODUCCIÓN AL ANÁLISIS MULTIVARIABLE (PRIMERA PARTE) Eduardo Jiménez Marqués Curso 2004-05

Transcript of Anal is is Multi Variable

Page 1: Anal is is Multi Variable

INTRODUCCIÓN AL ANÁLISIS MULTIVARIABLE (PRIMERA PARTE)

Eduardo Jiménez Marqués

Curso 2004-05

Page 2: Anal is is Multi Variable

Análisis Multivariante

Page 3: Anal is is Multi Variable

Análisis Multivariante

2

ÍNDICE

1. CONCEPTOS GENERALES.............................................12

1.1 INTRODUCCIÓN................................................................. 12

1.1.1 LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS MULTIVARIANTES.......12

1.1.2 ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES? ...........................13

1.2 DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE........................... 14

1.3 ÁREAS DE APLICACIÓN DEL ANÁLISIS MULTIVARIANTE ........... 14

1.4 DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES ................. 14

1.4.1 TIPOS DE VARIABLES.............................................................................15

1.5 ESCALAS DE MEDIDA .......................................................... 17

1.6 VARIABLES Y ESCALAS DE MEDIDA ....................................... 18

1.6.1 CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS..........................19

1.7 CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES.............. 20

1.8 BIBLIOGRAFÍA RECOMENDADA............................................. 24

2. METODOS EXPLICATIVOS O DE DEPENDENCIA .............26

2.1 INTRODUCCIÓN................................................................. 26

2.2 OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS: ........................ 26

2.3 TÉCNICAS MAS HABITUALES. ............................................... 26

Page 4: Anal is is Multi Variable

Análisis Multivariante

3

3. REGRESIÓN LINEAL.....................................................28

3.1 CONCEPTO........................................................................ 28

3.1.1 MODELOS ESTOCÁSTICOS.....................................................................30

3.2 ANÁLISIS DE REGRESIÓN MÚLTIPLE....................................... 31

3.2.1 ¿QUÉ NOS INTERESA CONOCER?:...........................................................31

3.3 HIPÓTESIS DEL MODELO DE REGRESIÓN................................ 32

3.3.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN ............................................32

3.3.2 COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE

DETERMINACIÓN MÚLTIPLE..................................................................................33

3.4 COLINEALIDAD .................................................................. 36

3.4.1 MATRIZ DE CORRELACIONES.................................................................36

3.4.2 CORRELACIÓN PARCIAL ........................................................................36

3.4.3 CORRELACIÓN PARCIAL MÚLTIPLE ........................................................37

3.4.4 MULTICOLINEALIDAD............................................................................37

3.4.5 EFECTOS DE LA COLINEALIDAD.............................................................37

3.4.6 FORMAS DE MEDIR LA COLINEALIDAD ..................................................38

3.4.7 SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD...............................39

3.4.8 COEFICIENTES DE REGRESIÓN ...............................................................39

3.4.9 ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN .......................................41

3.5 MODELOS CON VARIABLES FICTICIAS ................................... 41

3.6 TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT................ 42

3.7 EJEMPLO 1......................................................................... 43

3.8 EJEMPLO2 ......................................................................... 49

Page 5: Anal is is Multi Variable

Análisis Multivariante

4

4. ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS..........52

4.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN POR MÍNIMOS

CUADRADOS ORDINARIOS ........................................................... 53

5. EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL ............54

5.1 COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:............. 54

5.2 CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β0 Y β1 ............. 55

5.3 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS................... 55

5.4 COEFICIENTE DE CORRELACIÓN DE PEARSON........................ 56

5.5 EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS: .......... 60

5.6 COEFICIENTE DE DETERMINACIÓN ....................................... 61

5.7 COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO:

ANALISIS DE LA VARIANZA........................................................... 61

5.8 PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN...................... 62

5.9 OTROS AJUSTES DE BONDAD DEL MODELO ........................... 63

5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR.................... 64

5.11 HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE .................. 67

5.12 NORMALIDAD DE LOS ERRORES ........................................ 67

Page 6: Anal is is Multi Variable

Análisis Multivariante

5

5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES ................. 68

5.14 NO AUTOCORRELACIÓN DE ERRORES ................................ 69

6. LINEALIDAD EN EL MODELO DE REGRESIÓN .................71

6.1 OTRAS TRANSFORMACIONES............................................... 71

7. ANÁLISIS DE REGRESIÓN MÚLTIPLE..............................73

7.1 INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN

DE CADA VARIABLE, βI................................................................. 73

7.2 COEFICIENTE DE DETERMINACIÓN ....................................... 74

7.3 COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO:

ANALISIS DE LA VARIANZA........................................................... 74

7.4 HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE ................. 75

7.5 COLINEALIDAD .................................................................. 75

7.6 EFECTOS DE LA COLINEALIDAD ........................................... 76

7.7 FORMAS DE MEDIR LA COLINEALIDAD.................................. 76

7.8 NIVELES DE COLINEALIDAD ................................................. 77

7.9 INTRODUCCIÓN DE VARIABLES BINARIAS .............................. 80

7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE ........ 82

Page 7: Anal is is Multi Variable

Análisis Multivariante

6

7.11 INTRODUCCIÓN DE VARIABLES CUALITATIVAS ................... 82

7.12 CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS ................ 85

8. BIBLIOGRAFÍA ............................................................91

9. ANÁLISIS DE LA VARIANZA (ANOVA)............................93

9.1 CONCEPTO........................................................................ 93

9.2 MODALIDADES DE ANÁLISIS DE LA VARIANZA ....................... 93

9.3 ANOVA............................................................................. 94

9.3.1 TIPOS DE ANOVA ..................................................................................94

9.4 EXPERIMENTACIÓN............................................................. 94

9.5 EL MÉTODO DE EXPERIMENTACIÓN ...................................... 95

9.5.1 PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN .........................96

9.6 METODOLOGÍA DE LA EXPERIMENTACIÓN............................. 96

9.7 ELEMENTOS DE UN EXPERIMENTO ........................................ 97

9.7.1 CONCEPTOS GENERALES .......................................................................97

9.7.2 HIPÓTESIS DE TRABAJO.........................................................................98

9.8 ¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI

COMPARAMOS MEDIAS?............................................................... 98

9.8.1 ESTADÍSTICO DE PRUEBA ......................................................................99

9.9 EXPERIMENTOS ALEATORIOS CON UN FACTOR .................... 100

Page 8: Anal is is Multi Variable

Análisis Multivariante

7

9.9.1 MODELO............................................................................................ 101

9.10 ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY) ........ 101

9.11 ANOVA CON VARIOS FACTORES ..................................... 103

9.12 TIPOS DE EXPERIMENTOS HABITUALMENTE UTILIZADOS EN

INVESTIGACIÓN COMERCIAL ...................................................... 104

9.12.1 EXPERIMENTO ALEATORIO O AL AZAR ............................................... 104

9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO............................................... 109

9.12.3 EXPERIMENTO DE CUADRADO LATINO............................................... 113

9.12.4 EXPERIMENTO CON INTERCAMBIO ..................................................... 117

9.12.5 EXPERIMENTO FACTORIAL ................................................................. 117

9.13 BIBLIOGRAFÍA ............................................................... 125

10. ANALISIS DISCRIMINANTE.........................................127

10.1 CONCEPTO................................................................... 127

10.1.1 EJEMPLO ............................................................................................ 128

10.2 OBJETIVOS DEL AD ........................................................ 128

10.3 CLASIFICACIÓN DEL AD ................................................ 128

10.4 RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN ..................... 129

10.5 MODELO DEL AD........................................................... 129

10.6 SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD................. 130

10.6.1 SUPUESTOS:....................................................................................... 130

10.6.2 ESTADÍSTICOS ................................................................................... 130

Page 9: Anal is is Multi Variable

Análisis Multivariante

8

10.7 PASOS DEL ANÁLISIS DISCRIMINANTE.............................. 132

10.7.1 FORMULACIÓN DEL PROBLEMA.......................................................... 132

10.7.2 ESTIMACIÓN ...................................................................................... 133

10.7.3 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN............................... 133

10.7.4 INTERPRETACIÓN............................................................................... 133

10.7.5 VALIDACIÓN...................................................................................... 136

10.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:......... 138

10.9 ANALISIS DEL EFECTO CONJUNTO: .................................. 142

10.10 CLASIFICACIÓN DE LAS OBSERVACIONES: ........................ 145

10.11 MÉTODO DE INCLUSIÓN POR PASOS: MÉTODO LAMBDA DE

WILKS: 149

10.12 ANÁLISIS DISCRIMINANTE MÚLTIPLE................................ 153

10.12.1 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN........................... 153

10.12.2 INTERPRETACIÓN........................................................................... 153

10.12.3 VALIDACIÓN .................................................................................. 153

11. CASO PRÁCTICO DE ADM .........................................154

11.1.1 INTRODUCCIÓN................................................................................. 154

11.1.2 ANÁLISIS DISCRIMINANTE .................................................................. 157

11.2 BIBLIOGRAFÍA ............................................................... 165

12. SEGMENTACIÓN.......................................................167

12.1 CONCEPTO................................................................... 167

Page 10: Anal is is Multi Variable

Análisis Multivariante

9

12.2 REQUISITOS PARA QUE LA SEGMENTACIÓN DE MERCADO

SEA EFICAZ. ............................................................................. 167

12.3 CRITERIOS DE SEGMENTACIÓN DE MERCADO. .................. 168

12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE

MERCADOS. ............................................................................. 170

12.5 TÉCNICAS PARA CLASIFICAR UN MERCADO EN

SEGMENTOS. ............................................................................ 172

13. TÉCNICAS DE SEGMENTACIÓN. .................................173

13.1 MÉTODOS CLÁSICOS. .................................................... 173

13.1.1 MÉTODO BELSON............................................................................... 173

13.1.2 MÉTODO DE ANÁLISIS DE LA VARIANZA............................................. 176

13.1.3 MÉTODO DE CHI CUADRADO............................................................. 170

13.1.4 MODELOS DE CANGUILHEM. .............................................................. 170

13.2 AUTOMATIC INTERACTION DETECTION (AID) ................... 172

13.2.1 VENTAJAS E INCONVENIENTES ........................................................... 173

14. CHI-SQUARED AUTOMATIC INTERACTION

DETECTION (CHAID).........................................................173

14.1 CONCEPTO................................................................... 173

14.1.1 PROCESO ........................................................................................... 174

14.1.2 UTILIDAD........................................................................................... 175

14.1.3 VENTAJAS E INCONVENIENTES ........................................................... 175

Page 11: Anal is is Multi Variable

Análisis Multivariante

10

15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN

MARKETING EN EL COMERCIO ..........................................176

15.1 RESUMEN ..................................................................... 176

15.2 INTRODUCCIÓN............................................................ 176

15.3 OBJETIVOS DEL TRABAJO E HIPÓTESIS.............................. 178

15.4 METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR ......... 179

15.5 TÉCNICAS A UTILIZAR.................................................... 181

15.5.1 TÉCNICAS DE REDUCCIÓN DE VARIABLES........................................... 181

15.5.2 TÉCNICAS DE SEGMENTACIÓN ........................................................... 185

15.6 RESULTADOS................................................................ 188

15.6.1 IDENTIFICACIÓN DE DIFERENTES PROGRAMAS DE FORMACIÓN.......... 188

15.7 UTILIZACIÓN DE HERRAMIENTAS DE MARKETING.............. 190

15.8 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES

SEGÚN LA REALIZACIÓN O NO DE PROGRAMAS DE FORMACIÓN..... 192

15.9 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES

SEGÚN EL TIPO DE PROGRAMA DE FORMACIÓN REALIZADO........... 195

15.9.1 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN GENÉRICOS ................................................................................... 195

15.9.2 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN ENFOCADOS A CLIENTE ................................................................ 198

Page 12: Anal is is Multi Variable

Análisis Multivariante

11

15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN TÉCNICOS QUE EMPLEAN HERRAMIENTAS INFORMÁTICAS............. 201

16. CONCLUSIONES .......................................................203

17. BIBLIOGRAFÍA ..........................................................205

18. CONCEPTO DE ACM .................................................209

19. MODELO DEL ACM ...................................................209

19.1 CONSIDERACIONES ACERCA DEL MODELO ....................... 211

20. CASO PRÁCTICO ......................................................211

Page 13: Anal is is Multi Variable

Análisis Multivariante

12

1. CONCEPTOS GENERALES

1.1 INTRODUCCIÓN.

Los procedimientos multivariables constituyen un conjunto de técnicas estadísticas

de amplia aplicación en el mundo científico, especialmente en los estudios de tipo

empírico, adquiriendo cada día más importancia en la investigación Comercial y

muy especialmente en el tratamiento de las encuestas.

1.1.1 LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS

MULTIVARIANTES

El objetivo fundamental de la Investigación Comercial es el de obtener

información objetiva, que permita el disminuir la incertidumbre del decisor en su

toma de decisiones.

A través de la Investigación Comercial la empresa puede disponer de una gran

cantidad de datos acerca de su actividad interna y del entorno en el que desarrolla

su negocio. El mercado donde realiza la actividad económica la empresa, es un

fenómeno complejo donde interactúan un gran número de factores que tienen

influencia en los resultados empresariales (Inflación, paro, paridad de la moneda,

formación de los trabajadores, ecología, legislación, demografía, etc.)

Por tanto podemos afirmar que la mayoría de los problemas de la empresa son

multidimensionales, es decir cualquier actividad empresarial la podemos describir

de acuerdo con diversas dimensiones.

Esto nos conduce a que deberemos estudiar los factores que influyen o que bien

consideramos que lo puedan hacer, de una manera simultánea y para ello se

utilizan unas técnicas estadísticas que se denominan: técnicas multivariantes o

multivaribles.

En la Investigación Comercial a través de encuestas, se realizan una serie de

preguntas, mediante la administración de un cuestionario, que permite mediante su

Page 14: Anal is is Multi Variable

Análisis Multivariante

13

combinación obtener la información acerca del fenómeno objeto de la

investigación.

Por ejemplo para determinar el estilo de vida, hacemos una batería de preguntas

acerca de: la profesión, el nivel de estudios, la renta familiar, el equipamiento del

hogar, electrodomésticos, vehículos, hábitos de consumo, hábitat, etc.

A través del análisis multivariante lo que hacemos es combinar todas las variables,

eliminando la información redundante y se obtiene una nueva variable que no es

observable directamente, que representa un concepto abstracto que se puede medir

obteniéndose un valor para cada elemento, en el caso del ejemplo lo denominamos

estilo de vida.

Esta situación la podemos resumir en el siguiente esquema

Esquema 1

Variables observadas Análisis multivariante Nueva variable abstracta

1.1.2 ¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES?

Las técnicas de análisis multivariante se utilizan cada vez más en la investigación

comercial por las siguientes razones:

1. Permiten el analizar un gran número de encuestas. Simplificando muchos

datos, con la mínima pérdida de información. Consiguiendo hacer más

comprensible la información para la mente humana

2. Permiten analizar toda la información acerca de un determinado fenómeno,

considerando simultáneamente todos los factores que intervienen.

3. Permiten trabajar con cualquier tipo de variable.

Page 15: Anal is is Multi Variable

Análisis Multivariante

14

1.2 DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE

Podemos definir las técnicas multivariantes como, un conjunto de métodos

estadísticos que permiten el análisis de forma simultánea de mas de dos variables

observadas en una Investigación Comercial

Desde una concepción amplia podemos definir el Análisis Multivariante como un

conjunto de métodos que analizan las relaciones entre un número razonablemente

amplio de variables (medidas), tomadas sobre cada elemento de análisis, en una o

más muestras simultáneamente.

1.3 ÁREAS DE APLICACIÓN DEL ANÁLISIS

MULTIVARIANTE

El análisis Multivariante es de aplicación en la Investigación Comercial, en las

siguientes circunstancias:

• Reducción de datos. Se trata de simplificar la estructura del fenómeno

investigado buscando la mayor simplicidad, lo que permitirá una

interpretación muy fácil.

• Clasificación y agrupación Por ejemplo las técnicas de segmentación y

tipología

• Análisis de las relaciones de dependencia, con el fin de predecir o bien

explicar

• En la construcción de modelos. Econometría

1.4 DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES

En las técnicas del análisis multivariante se entiende por variable alguna magnitud

que representa la característica de los elementos objeto de investigación que

tratamos de medir.

Page 16: Anal is is Multi Variable

Análisis Multivariante

15

En una primera clasificación las variables las podemos clasificar en dos grupos,

variables independientes (VI) y variables dependientes (VD).

Las variables dependientes son aquellas cuyo comportamiento es explicado o

pronosticado por una o más variables independientes. Las variables dependientes

también se denominan variables criterio o respuesta, mientras que las variables

independientes son las que servirán para explicar el fenómeno estudiado y se en

ocasiones se denominan como variables explicativas, factores o variables

predictoras.

En los estudios no experimentales, la situación de las variables no siempre es clara,

definiéndose su papel en el contexto de la investigación. Una misma variable

puede adoptar diferentes roles en función de situaciones.

Cuando existen diferencias sistemáticas en una variable dependiente (Y) asociada

a diferentes niveles de variación de la variable independiente (X) se dice que están

relacionadas.

Si todas las variables desempeñan el mismo papel se habla de relaciones de

interdependencia. En este caso no hay una variables con las que se intente explicar

el comportamiento de otras.

En ocasiones, al analizar el modelo la única forma de diferenciar las variables es

simplemente por donde están situadas en la ecuación.

1.4.1 TIPOS DE VARIABLES

Una variable es una característica o propiedad de un elemento (individuo, objeto,

transacción, suceso, etc.), que toma distintos valores para cada elemento.

En general se clasifican en dos grandes grupos:

• Variables no métricas o cualitativas

• Variables métricas o cuantitativas

Los diferentes tipos de variable los resumimos a continuación:

Page 17: Anal is is Multi Variable

Análisis Multivariante

16

Variables cuantitativas o métricas: Son aquellas en las que los valores tomados

por diferentes individuos tienen un significado propio. De hecho, son una

medición o cuantificación de una determinada característica, la respuesta a la

pregunta: ¿Cuánto/s ?

Ejemplos: altura, peso, edad, hijos, ingresos, de un individuo, empleados, oficinas,

beneficios, de una empresa, etc.

Variables cualitativas o no métricas1: Son aquellas en las que las distintas

características de los elementos estudiados son cualidades o categorías alfabéticas.

Sin embargo, con el fin de facilitar el tratamiento de los datos, estas categorías se

convierten en unos códigos, sin que tenga que existir ningún tipo de relación entre

el valor asignado y el significado de la categoría representada.

Ejemplos: nacionalidad, sexo, religión, estudios cursados, clase social, calificación

(Suspenso, Aprobado, Notable, Sobresaliente), etc.

1.4.1.1 CLASIFICACIÓN POR LOS VALORES QUE PUEDEN

ADOPTAR

De acuerdo con el valor que pueden adoptar las variables estas las podemos

clasificar en los siguientes tipos:

• Variable continua. Se trata de una variable cuantitativa que puede adoptar

cualquier valor numérico, Para todo par de valores siempre podemos

encontrar uno intermedio. Por ejemplo la edad, el consumo de teléfono, ...

• Variable discreta. Puede adoptar un número finito de valores distintos,

entre dos valores consecutivos no se puede encontrar ninguno intermedio.

Por ejemplo el número de personas por hogar.

• Variable dicotómica o binaria. Solo puede tomar dos valores, si se definen

como 0 y 1 se llama binaria.

1 Algunos autores las denominan atributos

Page 18: Anal is is Multi Variable

Análisis Multivariante

17

• Variables ficticias o Dummy. Se utiliza con variables cualitativas, para

poder obtener información a través de operaciones, se convierten en

binarias, indicando el valor 1 la presencia de una categoría de la variable y

0 su ausencia.

Para realizar la conversión de una variable cualitativa en ficticia se necesitan tantas

variables dummy como categorías tiene la variable menos una.

Ejemplos de variables Dummy

La variable Sexo con las categorías hombre y mujer necesitaría una sola variable

dummy D1: Hombre 0 Mujer 1

Consideremos la variable “Color del producto A” que tiene las siguientes

categorías

1 Rojo 2 Verde 3 Azul

Obtendremos las siguientes Dummy 3 – 1 = 2 que corresponden a:

D1 = Rojo 1 Verde y Azul 0

D2 = Verde 1 Rojo y Azul 0

La categoría azul queda definida ya que tiene 0 en las dos ficticias

1.5 ESCALAS DE MEDIDA

Prácticamente todas las investigaciones de mercado recogen los datos en forma de

números, interesando al investigador lo que estos números representan, por medio

de las correspondientes operaciones de medida.

Medir consiste en asignar números a los sucesos, elementos, objetos, atributos, ...

según unas normas predeterminadas.

Puesto que utilizamos diferentes reglas para la asignación de los números, un

mismo número puede dar lugar a diferentes interpretaciones, ello da lugar a la

existencia de diferentes escalas de medida.

Page 19: Anal is is Multi Variable

Análisis Multivariante

18

Por escala de medida entenderemos la correspondencia entre los números

asignados a las propiedades de los elementos y la significación de los cálculos

matemáticos realizadas con los números. Básicamente en el análisis estadístico se

utilizan las cuatro escalas siguientes:

Nominal, Ordinal, Intervalo y Ratio o de proporción

Las características de estas escalas las resumimos a continuación:

• Nominal: los posibles valores de la variable representan diferentes

categorías, no existiendo ninguna relación entre el código asignado a una

categoría y su significado Ejemplos: profesión, raza, estado civil, ...

o Caso particular: variables dicotómicas, sólo admiten dos posibles

respuestas. Ejemplos: sexo, verdadero / falso, si / no, ... Se

denominan binarias si se codifican 0 / 1.

• Ordinal: los códigos o valores de cada categoría mantienen la misma

relación de orden que el significado de las categorías. Ejemplos: clase

social, escala de preferencia, ...

• Intervalo: los códigos asignados a diferentes respuestas permiten conocer

la magnitud de la característica medida, ya que se mantiene una relación

de orden y distancia. Ejemplos: temperatura, fechas, cualquier variable

redondeada, ...

• Ratio o razón: los códigos representan el propio valor de la característica

estudiada, observándose una relación de orden y de distancia y la

existencia de un origen Ejemplos: cifra de ventas, ratio económico-

financiero, ...

1.6 VARIABLES Y ESCALAS DE MEDIDA

Partiendo de los dos grandes grupos de variables, (cualitativas y métricas),

podemos resumir la relación entre las variables y las escalas de medida como

sigue:

Page 20: Anal is is Multi Variable

Análisis Multivariante

19

1. Variables no métricas o cualitativas, vienen medidas en escala nominal u

ordinal

2. Variables métricas o cuantitativas se utilizan las escalas de intervalo o de

razón.

3. Variables binarias se utiliza la escala de razón

1.6.1 CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS

En ocasiones en el estudio se deben realizar transformaciones de escala y origen

Las variables las podemos dividir en:

Valores o puntuaciones directas, también llamadas brutas, se obtienen

directamente del instrumento de medida y en sus mismas dimensiones. Se suelen

representar por letras mayúsculas X, Y, Z, ... teniendo medias mX, mY, mZ ... y las

correspondientes desviaciones típicas sX, sy, sZ, ... medidas en la misma escala

Valores o puntuaciones centradas en la media o diferenciales, son el resultado de

un cambio en el origen al obtenerse de la restando de la media el valor, se suelen

representar con letras minúsculas (x, y, z, ...) y se obtienen a partir de la siguiente

operación x = X - mX

Este tipo de puntuación tiene de media 0 y una desviación típica igual a la de las

puntuaciones originales. Se produce un cambio de origen no de escala.

Valores típicos o estandarizados. Se obtienen restando de cada valor la media y

dividiendo por la desviación típica. Se suelen representar por la letra Z y el

subíndice de a correspondiente categoría de la variable.

Se obtienen de X

X

smX

Z−

=

Los valores tipificados están libres de escala y siempre tienen media igual a 0 y

desviación típica igual a 1.

Page 21: Anal is is Multi Variable

Análisis Multivariante

20

1.7 CLASIFICACIÓN DE LAS TÉCNICAS

MULTIVARIANTES

Los diferentes métodos de análisis multivariante no solo difieren entre sí por el

objetivo o tipo de resultados obtenidos sino que existen ya diferencias en la

tabulación, forma de codificar y en el trabajo con las variables ya que algunos

métodos pueden trabajar con variables nominales, mientras que otros solo lo hacen

con variables ordinales y métricas.

Una clasificación de gran utilidad es el diferenciar las técnicas multivariantes en

dos grupos básicos:

Métodos descriptivos o de interdependencia y métodos explicativos o de

dependencia.

Los métodos explicativos o de dependencia se emplean para explicar o proyectar

la(s) variable(s) dependiente(s) con base en dos o más variables independientes.

Por ejemplo explicar las ventas en función de numerosas variables independientes

(número de vendedores, inversión en publicidad, promoción, renta de los

consumidores, etc.).

Los métodos descriptivos o de interdependencia tratan de dar significado a un

conjunto de variables o bien tratan de agrupar las cosas. Por ejemplo cuando

realizamos un estudio de segmentación.

La clasificación de las técnicas multivariantes las podemos resumir en el siguiente

esquema.

Page 22: Anal is is Multi Variable

Análisis Multivariante

21

TÉCNICAS MULTIVARIANTES

EXISTEN VARIABLES DEPENDIENTES E INDEPENDIENTES

SI

MÉTODOS EXPLICATIVOS

NO

MÉTODOS DESCRIPTIVOS

Los métodos explicativos y descriptivos, a su vez se dividen de acuerdo con diferentes

criterios los mas habituales son los que reseñamos en los siguientes esquemas2

2 Apuntes investigación Comercial 2 Facultad de Económicas UAB

Page 23: Anal is is Multi Variable

Análisis Multivariante

22

Page 24: Anal is is Multi Variable

Análisis Multivariante

23

Page 25: Anal is is Multi Variable

Análisis Multivariante

24

1.8 BIBLIOGRAFÍA RECOMENDADA

Análisis Multivariante. Hair, Anderson, otros. Editorial Prentica Hall 5 edición

1999

Técnicas de análisis de datos en Investigación de Mercados. Teodoro Luque

(Coordinador), Editorial Pirámide 2000

Page 26: Anal is is Multi Variable

Análisis Multivariante

25

Métodos Explicativos o de

Dependencia

Page 27: Anal is is Multi Variable

Análisis Multivariante

26

2. METODOS EXPLICATIVOS O DE DEPENDENCIA

2.1 INTRODUCCIÓN

Los métodos explicativos o de dependencia, del análisis multivariante, son

técnicas que diferencian entre variables independientes, explicativas o predictoras

y variables dependientes o a explicar.

2.2 OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS:

El objetivo principal de los métodos explicativos es:

Encontrar la relación existente entre la variable/s dependiente/s y

la/s independiente/s:

Este objetivo nos conduce a los siguientes objetivos secundarios:

• Explicar el comportamiento de la/s variable/s dependiente/s (Y)

Por qué la Y no es igual en todas las observaciones

• Estimar el efecto de una o varias variables explicativas (X) cuantitativas o

binarias

¿Cuáles son las variables X que explican el comportamiento de Y?

¿En cuánto varía la Y frente a un cambio de cada una de las X’s?

• Predecir el valor de Y

Cuál es el valor de Y para unas X’s determinadas

Hasta que punto hemos conseguido explicar Y

2.3 TÉCNICAS MAS HABITUALES.

En esta modalidad de análisis multivariable de la información las técnicas más

habituales son:

La regresión, el análisis de la varianza, segmentación jerarquica análisis

discriminante, regresión logística, correlaciones canónicas, análisis de ecuaciones

estructurales.

Page 28: Anal is is Multi Variable

Análisis Multivariante

Regresión Lineal

Page 29: Anal is is Multi Variable

Análisis Multivariante

28

3. REGRESIÓN LINEAL

Al clasificar los métodos explicativos por el número de variables dependientes y

las escalas de medida de las variables dependientes e independientes nos

encontrábamos que cuando tenemos una sola variable dependiente y todas las

mediciones de las diferentes variables están en escala métrica podemos aplicar la

técnica denominada regresión

De forma esquemática podemos representar esta situación como

METODOS EXPLICATIVOS

NÚMERO DE VARIABLES DEPENDIENTES

UNA

ESCALA DE MEDIDA DE LA VARIABLE (S)

INDEPENDIENTE (S)

MÉTRICA

ESCALA DE MEDIDA DE LA VARIABLE DEPENDIENTE

MÉTRICA

REGRESIÓN

3.1 CONCEPTO

El análisis de regresión trata de analizar la dependencia de una variable

cuantitativa a explicar respecto de una o varias variables explicativas, también

cuantitativas.

Matemáticamente la regresión la podemos representar como:

Y = f (Xi ) Donde Y es la variable dependiente y Xi representa las diferentes variables

independientes.

Si solo hay una variable independiente (X) se trata de un modelo de regresión

simple

Page 30: Anal is is Multi Variable

Análisis Multivariante

29

Cuando hay dos o más variables independientes se trata de un modelo de regresión

múltiple.

Si recordamos el modelo de regresión simple o modelo de regresión lineal de

primer orden responde a la siguiente fórmula matemática.

y = β0 + β1x + ε donde:

y = variable dependiente o variable a explicar

x = variable independiente o variable explicativa

ε (epsilon) = error o perturbación aleatoria

β0 =origen de la recta: punto donde la recta corta el eje de

ordenadas o eje de la y.

β1 =pendiente de la recta o coeficiente de regresión: nos indica en

cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1

unidad de la variable independiente.

Su representación gráfica corresponde a la indicada en la Fig. 1

El modelo de regresión múltiple viene expresado por:

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε donde:

y = variable dependiente o variable a explicar

xi = variables independientes o variables explicativas

Page 31: Anal is is Multi Variable

Análisis Multivariante

30

ε (epsilon) = error o perturbación aleatoria

β0 = origen cuando todas las variables independientes son 0

βi = pendiente o coeficiente de regresión de la variable i.

Algunos autores utilizan como coeficiente de regresión en el origen α en vez de

β0 La correspondiente ecuación pasa a ser:

Y X X X X Xn n= + + + + + + +α β β β β β ε1 1 2 2 3 3 4 4 ...

Los coeficientes de regresión son en todos los casos los parámetros a estimar.

El modelo de regresión requiere que todas las variables sean métricas, las

variables independientes que sean cualitativas o no métricas se pueden

convertir en variables métricas ficticias (Dummy) dicotomizándolas, de este

modo las convertimos en binarias (0, 1) y por consiguiente las podemos tratar

como cuantitativas

3.1.1 MODELOS ESTOCÁSTICOS

En los modelos denominados deterministas, para los diferentes valores de la

variables independientes corresponden valores determinados de la variable

dependiente.

Sin embargo este modelo no suele describir bien las relaciones entre las variables

porque no tienen en cuenta las posibles variaciones aleatorias en el valor de la

variable independiente (Y) y que, como tales, no se derivan de la variación de las

variables dependientes.

Como consecuencia de lo expuesto surge la necesidad de otro tipo de modelo que

contemple esta situación. Se trata de los denominados modelos estocásticos de

regresión, denominados así porque forma parte de ellos una variable aleatoria ε

denominada error y perturbación aleatoria.

Esta variable representa todas las influencias, normalmente desconocidas, que

pueden hacer variar la variable dependiente (Y), al margen de las variaciones de

las variables independientes (X).

Page 32: Anal is is Multi Variable

Análisis Multivariante

31

La ecuación de este tipo de modelo será:

Y X X X X Xn n= + + + + + + +α β β β β β ε1 1 2 2 3 3 4 4 ...

3.2 ANÁLISIS DE REGRESIÓN MÚLTIPLE

El análisis de regresión múltiple es una extensión del análisis de regresión

bivariado que nos permite la investigación simultánea del efecto de dos o más

variables independientes sobre una variable dependiente medida en escala métrica.

Por consiguiente se trata de buscar la ecuación que mejor exprese

matemáticamente la relación de los valores de una variable dependiente (Y) con

los valores de dos o más variables independientes (X1 X2 X3 .....Xn) consideradas

conjuntamente.

De esta forma el problema consiste en la identificación de una relación lineal

mediante el análisis de regresión múltiple.

La ecuación obtenida es del tipo:

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε

Los coeficientes βi muestran el efecto sobre la variable de un incremento de una

unidad en la variable independiente correspondiente. Estos coeficientes se les

denomina como coeficientes de regresión parcial. El valor original de βi es el

coeficiente sencillo de la regresión bivariada, se define como el coeficiente de

correlación parcial para el que se mantienen constantes los efectos de las otras

variables independientes.

La función del coeficiente β0 consiste en asegurar que la media de los valores de

Y coincide con la media de los valores de X

3.2.1 ¿QUÉ NOS INTERESA CONOCER?:

• ¿Cómo se calculan los coeficientes de regresión, β0 y βi?

• ¿Cómo se interpretan?

• ¿Cómo se determina si son o no estadísticamente significativos?

• ¿Cómo se comprueban las hipótesis del modelo?

Page 33: Anal is is Multi Variable

Análisis Multivariante

32

3.3 HIPÓTESIS DEL MODELO DE REGRESIÓN

Hipótesis sobre la forma de la distribución de probabilidad de ε y sobre las

variables independientes

Partiendo del modelo:

y = β0 + β1xI + ... + ε

Las correspondientes hipótesis son:

• La media de la distribución de probabilidad de ε es 0. Es decir, la media de

los valores de ε para un número infinitamente grande de experimentos es 0

para cada valor de la variable independiente x. Esta hipótesis implica que el

valor de la media de y, E(y), para un valor dado de x es E(y) = β0 + β1x.

• La distribución de probabilidad de ε es normal.

• Los valores de ε asociados a dos valores cualquiera observados de y, son

independientes. Es decir, el valor de ε asociado a un valor de y no tiene

ninguna influencia sobre los valores de ε asociados a otros valores de y

(esto implica que los errores no están correlacionados consigo mismo o, lo

que es lo mismo, no existe autocorrelación de errores).

• La varianza de la distribución de probabilidad de ε es constante, σ2, para

todos los valores de la variable independiente, X (es decir, existe

homocedasticidad)

• No debe existir excesiva colinealidad o multicolinealidad (correlación

entre las variables independientes).

La hipótesis primera se considera ciertas y no se contrasta. Se supone que se

cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco

hay forma de comprobar que la media de las perturbaciones sea 0 (ya que para los

errores la estimación por mínimos cuadrados exige que su media sea 0).

3.3.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN

Los estimadores mínimos cuadrados son los mejores que se pueden conseguir

(insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (las

perturbaciones)

Page 34: Anal is is Multi Variable

Análisis Multivariante

33

El método de estimación por mínimos cuadrados minimiza la suma de cuadrados

de las diferencias entre los valores reales y los estimados de la variable

dependiente, o lo que es lo mismo, los errores cometidos en la estimación de la

variable dependiente (Y)

De conformidad con este criterio la mejor recta es aquella que haga mínima la

suma de los cuadrados de los residuos

∑ 2ieMin

3.3.2 COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

El coeficiente de correlación múltiple (R) indica el porcentaje de variación en la

variable dependiente Y explicado por la variación en las variables independientes

Por tanto representa el grado de asociación entre una variable dependiente y dos o

más variables independientes tomadas en conjunto.

Normalmente en la practica se estudia el cuadrado del coeficiente de correlación o

también llamado coeficiente de determinación múltiple (R2), este índice nos

indica el tanto por ciento de la variación total de la variable dependiente Y,

explicado por la ecuación de regresión y es igual a la razón entre la variación

explicada y la variación total de la variable. Por tanto expresa la proporción de la

varianza de la variable dependiente explicada por el modelo de regresión

Este coeficiente puede variar entre 0 y 1. Si es cero indica la inexistencia de

asociación lineal entre la variable dependiente y las independientes tomadas en

conjunto, este valor no es incompatible con la posible existencia de una posible

correlación curvilínea. Si el valor es 1 indica una asociación perfecta entre las

variables.

Con el fin de ver en la practica estos conceptos vamos a realizar su estudio a través

de un ejemplo.

Resultados estadísticos de un análisis de regresión múltiple

Y = 102´18 + 0´387 X1 + 115´2 X2 + 6´73 X3

Coeficiente de determinación múltiple (R2) 0´845

Test F 14´5

Grados de libertad numerador = 3 y denominador. = 8

Page 35: Anal is is Multi Variable

Análisis Multivariante

34

El valor R2 = 0´845 nos indica que la variación de las variables independientes

representa 84´5% de la varianza en la variable dependiente.

Para probar la significación estadística se realiza el análisis ANOVA (la prueba o

test F). Esta prueba permite probar las magnitudes relativas de la suma de

cuadrados debidas a la regresión (SSr) y la suma de cuadrados de error (SSe), con

sus correspondientes grados de libertad. La fórmula correspondiente es

FSS k

SS n kr

e= − −

( )( ) ( )1

Donde

k es el número de variables independientes y n es el tamaño de la muestra o el

número de observaciones o encuestas.

Si consideramos que trabajamos con un nivel de significación del 5% el valor

correspondiente para F en tablas con 3 y 8 grados de libertad en el numerador y

denominador obtenemos que el valor es Ft = 4´07.

Por consiguiente como el valor calculado es superior al correspondiente de tablas,

obtenemos como conclusión que la relación existente entre las variables

independientes y la dependiente no es una consecuencia de la aleatoriedad o azar.

Page 36: Anal is is Multi Variable

Análisis Multivariante

35

TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F

NIVEL DE CONFIANZA 95%

m

N 1 2 3 4 5

1 161´4 199´5 215´7 224´6 230´2

2 18´51 19 19´16 19´25 19´30

3 10´13 9´55 9´28 9´12 9´01

4 7´71 6´94 6´59 6´39 6´26

5 6´61 5´79 5´41 5´19 5´05

6 5´99 5´14 4´76 4,53 4´39

7 5´59 4´74 4´35 4´12 3´97

8 5´32 4´46 4´07 3´84 3´69

9 5´12 4´26 3´86 3´63 3´48

10 4´96 4´10 3´71 3´48 3´33

11 4´84 3´98 3´59 3´36 3´20

12 4´75 3´89 3´49 3´26 3´11

13 4´67 3´81 3´41 3´18 3´03

14 4´6 3´74 3´34 3´11 2´96

15 4´54 3´68 3´29 3´06 2´90

Siendo m los grados de libertad del numerador y n los grados de libertad del

denominador.

Page 37: Anal is is Multi Variable

Análisis Multivariante

36

3.4 COLINEALIDAD

La colinealidad se produce cuando las variables independientes introducidas en el

modelo de regresión están correlacionadas entre ellas.

Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén

correlacionadas las variables independientes.

Cuando una variable independiente se puede expresar como una combinación

lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha

variable, solucionando la colinealidad. El problema se produce cuando la

correlación entre las X’s es alta o muy alta, pero sin llegar a ser total.

Debemos ser conscientes de que en casi todos los modelos de regresión múltiple

planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta

no sea excesiva ni perjudicial.

3.4.1 MATRIZ DE CORRELACIONES

Se trata de una matriz que tiene tantas filas y columnas como número de variables

correlacionadas tengamos. En cada celda se indica el coeficiente de correlación

entre las variables que se cruzan. La diagonal expresa la correlación de cada

variable consigo misma se consignan con 1 ( algunos autores dicen que se dejen

vacías). La celdas por debajo de esta diagonal se dejan en blanco, ya que

representan las correlaciones entre las casillas en orden invertido ( R12 = R21).

3.4.2 CORRELACIÓN PARCIAL

La correlación múltiple se refiere a modelos en los que se relacionan más de dos

variables independientes,. en este tipo de modelo es normal que si tratamos de

hallar la correlación simple entre las variables dos a dos, esta no exprese el grado

real de asociación entre dichas variables porque el resultado estará con toda

seguridad afectado por la influencia en dicha asociación de las demás variables

que intervienen en el modelo.

Se trata de poder establecer la relación o asociación entre dos de las variables del

modelo, eliminando la influencia del resto de variables. Esto es lo que se hace

mediante los coeficientes de correlación parcial. Mediante estos coeficientes se

puede establecer la correlación entre dos variables, controlando o eliminando el

efecto en dicha correlación de otras variables del modelo.

Page 38: Anal is is Multi Variable

Análisis Multivariante

37

Existen diversos tipos de correlación parcial, según el número de variables que se

controlan.

Cuando no se controla ninguna variable, la correlación entre dos variables, es la

correlación simple o total se denomina de orden cero, si hay una variable de

control se denomina de orden uno, si se controlan dos variables se trata de una

correlación de orden dos y así sucesivamente.

3.4.3 CORRELACIÓN PARCIAL MÚLTIPLE

La correlación parcial múltiple es una modalidad de correlación entre cuatro o más

variables, que combina los tipos de correlación parcial y la múltiple

Al medir la correlación de más de dos variables estamos realizando una

correlación múltiple y si lo hacemos controlando una o más variables, es a su vez

una correlación parcial.

3.4.4 MULTICOLINEALIDAD

Se denomina multicolinealidad la existencia de una elevada correlación entre las

variables independientes que forman parte del modelo.

Se produce cuando las variables explicativas (X) están altamente correlacionadas

entre si. Esta circunstancia perturba la explicación de los coeficientes de regresión

estimados y sus errores estandar.

Cuando esto sucede no es posible separar la influencia propia sobre la variable

dependiente de cada una de las variables independientes, produciéndose el efecto

de un incremento en los errores estándar de los coeficientes de regresión.

La gravedad de la multicolinealidad dependerá del objetivo que se busque con el

modelo. Si lo que pretendemos es predecir los valores de la variable dependiente

(Y) entonces el problema no es grave, pero si lo es cuando se quiere determinar el

efecto de cada variable independiente sobre la dependiente.

3.4.5 EFECTOS DE LA COLINEALIDAD

La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto

mayor sea la correlación entre las X’s:

Page 39: Anal is is Multi Variable

Análisis Multivariante

38

• Las desviaciones estándar de los coeficientes de regresión están

sobreestimadas, con lo que aparecen como no significativos coeficientes

que en realidad sí lo son.

• Puede suceder que ninguno de los coeficientes de regresión sean distintos

de cero (no son significativos) y que, a nivel conjunto, sí que lo sean.

• Los coeficientes de regresión estimados no son consistentes, es decir,

pueden cambiar al modificar la muestra o al introducir diferentes variables

en el modelo.

En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no

se sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas

están relacionadas).

3.4.6 FORMAS DE MEDIR LA COLINEALIDAD

La colinealidad se puede medir de distintas formas:

• Matriz de correlaciones de Pearson entre cada par de variables

independientes. Da una idea pero no es concluyente.

• Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la

variable Xj frente a todas las demás X’s.

• Factor de Inflación (o agrandamiento) de la Varianza: (FIV) =1/Tolerancia

Page 40: Anal is is Multi Variable

Análisis Multivariante

39

3.4.6.1 NIVELES DE COLINEALIDAD

Lo podemos resumir en el siguiente cuadro:

Tolerancia VIF Colinealidad:

Toler = 1 VIF = 1 No existe colinealidad

0,3 < Toler < 1 3,33 > VIF > 1 Poca: el modelo no suele presentar efectos (defectos) importantes

0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación

0,01 <Toler< 0,1 100 > VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo

Toler < 0,01 VIF > 100 Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes)

3.4.7 SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD

Para dar solución a este problema se recurre al análisis factorial. Se aplica el

análisis factorial a las variables independientes correlacionadas entre sí y se

sustituyen sus valores por las puntuaciones de los factores obtenidos, que están

absolutamente incorrelaccionados entre sí.

3.4.8 COEFICIENTES DE REGRESIÓN

Lo podemos resumir en:

Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis de regresión simple:

Page 41: Anal is is Multi Variable

Análisis Multivariante

40

H0 : βi = 0 (la Xi no influye sobre la Y)

Ha : βi ≠ 0

Estadístico de prueba: t =

S

ˆ

β

β

i

i

Región de rechazo: se rechaza H0 si el nivel de

significación observado es pequeño, menor que

0,05

Observaciones: El modelo no será eficiente si incluye variables que no sean

estadísticamente explicativas (las que tienen un coeficiente de regresión

significativamente distinto de 0)

Como cada Xi puede estar medida en diferentes unidades, la comparación de los

coeficientes de correlación de las diferentes variables se ha de realizar mediante los

coeficientes estandarizados

3.4.8.1 SIGNIFICACIÓN DE LOS COEFICIENTES DE REGRESIÓN

El error estándar es la desviación típica estimada del coeficiente de regresión.

El intervalo de confianza es el intervalo para el que se establece una probabilidad

de que el verdadero valor del coeficiente de regresión esté contenido entre los

límites del mismo.

La significación del mismo se realiza mediante el estadístico “t” de Student

estándarErrorregresióndeeCoeficient

t =

Normalmente se contrasta para α = 5%

3.4.8.2 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS

Son aquellos que se obtendrían si se realiza la regresión con todas las variables

estandarizadas (sin unidad de medida).

x

y

y

x

S

SBetaBo

SS

BBeta ⋅=⋅= 1111

Page 42: Anal is is Multi Variable

Análisis Multivariante

41

3.4.9 ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN

Se utiliza para contrastar la hipótesis de dependencia lineal entre la variable

dependiente (Y) y las variables independientes (X)

La varianza total de la variable dependiente se divide en

• Atribuida al modelo de regresión

• Residuo no explicado por el modelo

3.5 MODELOS CON VARIABLES FICTICIAS

Una de la condiciones del análisis de regresión es que las variables deben estar

medidas en una escala métrica. Este análisis también se puede aplicar a variables

cualitativas, con escala nominal u ordinal, para ello es necesario transformar estas

variables en otras denominadas ficticias (Dummy), esto se hace de acuerdo con el

álgebra de Boole, dando el valor 1 a la posesión del atributo y el 0 a la carencia.

Page 43: Anal is is Multi Variable

Análisis Multivariante

42

3.6 TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT

Valores de la función de distribución

g.l. = grados de libertad

tc tal que p(t<=tc)=p

Probabilidad p

g.l. 0,995 0,990 0,975 0,950 0,900 0,800 0,750 0,700 0,600 0,550 1 63,657 31,821 12,706 6,314 3,078 1,376 1,000 0,727 0,325 0,158 2 9,925 6,965 4,303 2,920 1,876 1,061 0,816 0,617 0,289 0,142 3 5,841 4,451 3,183 2,353 1,638 0,978 0,765 0,584 0,277 0,137 4 4,604 3,747 2,786 2,132 1,533 0,941 0,741 0,569 0,271 0,134 5 4,032 3,365 2,571 2,015 1,478 0,920 0,727 0,559 0,267 0,132

6 3,707 3,143 2,457 1,943 1,440 0,906 0,718 0,553 0,265 0,131 7 3,499 2,998 2,365 1,895 1,415 0,896 0,711 0,549 0,263 0,130 8 3,355 2,895 2,306 1,860 1,397 0,889 0,706 0,546 0,262 0,130 9 3,250 2,821 2,262 1,833 1,383 0,883 0,703 0,543 0,261 0,129 10 3,169 2,764 2,228 1,812 1,372 0,879 0,700 0,542 0,260 0,129

11 3,106 2,728 2,201 1,796 1,363 0,876 0,697 0,540 0,260 0,129 12 3,055 2,681 2,179 1,782 1,356 0,873 0,695 0,539 0,259 0,128 13 3,012 2,650 2,160 1,771 1,350 0,870 0,694 0,538 0,259 0,128 14 2,987 2,624 2,145 1,761 1,345 0,868 0,692 0,537 0,258 0,128 15 2,947 2,602 2,131 1,753 1,341 0,866 0,691 0,536 0,258 0,128

16 2,921 2,583 2,120 1,746 1,337 0,865 0,690 0,535 0,258 0,128 17 2,898 2,567 2,110 1,740 1,333 0,863 0,689 0,534 0,257 0,128 18 2,888 2,552 2,101 1,734 1,330 0,862 0,688 0,534 0,257 0,127 19 2,861 2,539 2,093 1,729 1,328 0,861 0,688 0,533 0,257 0,127 20 2,845 2,528 2,086 1,725 1,325 0,860 0,687 0,533 0,257 0,127

21 2,831 2,518 2,080 1,721 1,323 0,859 0,686 0,532 0,257 0,127 22 2,819 2,508 2,074 1,717 1,321 0,858 0,686 0,532 0,256 0,127 23 2,807 2,500 2,069 1,714 1,319 0,858 0,685 0,532 0,256 0,127 24 2,797 2,492 2,064 1,711 1,318 0,857 0,685 0,531 0,256 0,127 25 2,787 2,485 2,060 1,708 1,316 0,856 0,684 0,531 0,256 0,127

26 2,779 2,479 2,056 1,706 1,315 0,856 0,684 0,531 0,256 0,127 27 2,771 2,473 2,052 1,703 1,314 0,855 0,684 0,531 0,256 0,127 28 2,763 2,467 2,048 1,701 1,313 0,855 0,683 0,530 0,256 0,127 29 2,756 2,462 2,045 1,699 1,311 0,854 0,683 0,530 0,256 0,127 30 2,750 2,457 2,042 1,697 1,310 0,854 0,683 0,530 0,256 0,127

40 2,704 2,423 2,021 1,684 1,303 0,851 0,681 0,529 0,255 0,126 60 2,660 2,390 2,000 1,671 1,296 0,848 0,679 0,527 0,254 0,126

Page 44: Anal is is Multi Variable

Análisis Multivariante

43

3.7 EJEMPLO 1

Se quiere estudiar las ventas en función de las inversiones en publicidad,

promoción, el número de vendedores y el de puntos de venta (Tienda). Para ello se

tienen en cuenta los siguientes resultados3

VENTAS PUBLICIDAD PROMOCIÓN VENDEDORES TIENDAS 1400 52 130 25 300 1500 60 145 30 400 2000 80 150 30 500 1990 95 200 27 500 2100 87 180 35 400 2300 100 150 32 357 2200 94 150 36 287 2700 125 125 34 197 2750 136 98 26 146 2600 124 100 30 150 2763 132 87 28 160 3469 190 100 31 198 3165 197 102 42 300 3400 175 198 29 234 3759 186 212 18 126 3896 213 129 21 157 3895 231 142 20 134 4123 248 167 19 128 4230 257 198 21 115 4567 340 158 18 116 3986 425 98 21 138

3 Tratamiento mediante programa DYANE.3

Page 45: Anal is is Multi Variable

Análisis Multivariante

A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E

IDENTIFICACIÓN DE LAS VARIABLES

VARIABLE DEPENDIENTE: VENTAS

VARIABLES INDEPENDIENTE 1: inversión en publicidad

VARIABLES INDEPENDIENTE 2: inversión en promoción

VARIABLES INDEPENDIENTE 3: número de vendedores

VARIABLES INDEPENDIENTE 4: número de puntos de venta

Matriz de coeficientes de correlación simple:

ventas publicid promo vendedor tiendas -------- -------- -------- -------- --------

ventas 1.0000 0.8868 0.0884 -0.5988 -0.7814

publicid 0.8868 1.0000 -0.0652 -0.5631 -0.6666

promo 0.0884 -0.0652 1.0000 -0.2779 0.2304

vendedor -0.5988 -0.5631 -0.2779 1.0000 0.5508

tiendas -0.7814 -0.6666 0.2304 0.5508 1.0000

Coeficiente de determinación: 0.9033 Coeficiente de correlación múltiple: 0.9504

Coeficiente de regresión alfa: 1416.4829

Page 46: Anal is is Multi Variable

Análisis Multivariante

45

COEFIC. SUMA DE PROPORC.

DESVIACIÓN COEFICIENTE ERROR T DE CORREL. CUADRADOS VARIANZA

VARIABLE MEDIA ESTÁNDAR REGRESIÓN ESTÁNDAR STUDENT PARCIAL AÑADIDA AÑADIDA

-------- -------------- -------------- ----------- ---------- -------- ------- -------------------- --------

ventas 2990.1429 946.7194 publicid 168.9048 94.4955 6.5105 1.1022 5.9068 0.8280 14098343.7977 0.7865 p=0.0000

promo 143.7619 38.4862 6.4704 2.2696 2.8509 0.5804 384920.6320 0.0215 p=0.0116

vendedor 27.2857 6.6268 13.4207 16.0705 0.8351 0.2044 86916.2111 0.0048 p=0.4160

tiendas 239.7619 127.1314 -3.4300 0.8869 -3.8672 -0.6951 1621077.2282 0.0904 p=0.0014

-------------------- --------

16191257.8689 0.9033

Page 47: Anal is is Multi Variable

Análisis Multivariante

46

ANÁLISIS DE LA VARIANZA

FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS

---------------------- --------------- --------------------- ---------------------

Debida a la regresión: 4 16191257.8689 4047814.4672

Residuo: 16 1734292.7025 108393.2939

--- ---------------------

Varianza total: 20 17925550.5714

F de Snedecor con 4 y 16 grados de libertad = 37.3438 (p= 0.0000)

Page 48: Anal is is Multi Variable

Análisis Multivariante

47

ANEXO: A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S IDENTIFICACIÓN DE LAS VARIABLES ------------------------------- VARIABLE 1 : inversión en publicidad VARIABLE 2 : inversión en promoción VARIABLE 3 : número de vendedores VARIABLE 4 : número de puntos de venta Matriz de coeficientes de correlación simple -------------------------------------------- publicid promo vendedor tiendas -------- -------- -------- -------- publicid 1.0000 -0.0652 -0.5631 -0.6666 promo -0.0652 1.0000 -0.2779 0.2304 vendedor -0.5631 -0.2779 1.0000 0.5508 tiendas -0.6666 0.2304 0.5508 1.0000 Test de Bartlett ---------------- Determinante de la matriz de correlación = 0.247672 Ji cuadrado con 6 grados de libertad = 24.8891 (p = 0.0004) FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 -------- -------- -------- -------- VALOR PROPIO: 2.1890 1.1866 0.3582 0.2662 % DE VARIANZA: 54.72% 29.67% 8.95% 6.65% % VAR.ACUMUL.: 54.72% 84.39% 93.35% 100.00% CARGAS DE LOS FACTORES: COMUNALIDAD ----------- publicid -0.8756 -0.0778 0.4658 0.1018 1.0000 promo 0.0272 0.9698 0.1193 -0.2111 1.0000 vendedor 0.8125 -0.4079 0.3109 -0.2771 1.0000 tiendas 0.8726 0.2716 0.1742 0.3668 1.0000 COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: publicid -0.4000 -0.0656 1.3004 0.3825 promo 0.0124 0.8172 0.3332 -0.7929 vendedor 0.3712 -0.3437 0.8678 -1.0409 tiendas 0.3986 0.2288 0.4863 1.3778

Page 49: Anal is is Multi Variable

Análisis Multivariante

48

Cargas de los factores retenidos: --------------------------------- FACTOR 1 FACTOR 2 COMUNALIDAD -------- -------- ----------- publicid -0.8756 -0.0778 0.7727 promo 0.0272 0.9698 0.9412 vendedor 0.8125 -0.4079 0.8266 tiendas 0.8726 0.2716 0.8351 ROTACIÓN VARIMAX: Cargas de los factores retenidos (después de la rotación): ---------------------------------------------------------- FACTOR 1 FACTOR 2 COMUNALIDAD -------- -------- ----------- publicid -0.8777 -0.0470 0.7727 promo 0.0612 0.9682 0.9412 vendedor 0.7977 -0.4362 0.8266 tiendas 0.8816 0.2407 0.8351 VARIANZA: 2.1877 1.1879 % DE VARIANZA: 54.69% 29.70% % VAR.ACUMUL.: 54.69% 84.39%

Page 50: Anal is is Multi Variable

Análisis Multivariante

49

3.8 EJEMPLO2 4

A través de un análisis factorial, una empresa de suavizantes ha determinado que los tres conceptos básicos que caracterizan a su producto son: Suavidad, Aroma y Cremosidad. Ahora quiere comprobar cuál o cuáles de ellos influye/n en la intención de compra.

3.72 1.12 830.00 1.00 830.00 1.00 830.00 1.00 830

Intención de compraSuavidadAromaCremosidad

MediaDesviación

típ. N

Estadísticos descriptivos

1.000 .565 .458 .238

.565 1.000 .000 .000

.458 .000 1.000 .000

.238 .000 .000 1.000

. .000 .000 .000

.000 . .500 .500

.000 .500 . .500

.000 .500 .500 .

830 830 830 830

830 830 830 830830 830 830 830830 830 830 830

Intención decompraSuavidadAromaCremosidadIntención decompraSuavidadAromaCremosidadIntención decompraSuavidadAromaCremosidad

Correlaciónde Pearson

Sig.(unilateral)

N

Intenciónde compra Suavidad Aroma Cremosidad

Correlaciones

Como se puede apreciar en estas tablas, éste es un ejemplo peculiar pues entre las

variables independientes no existe ninguna correlación. Esto es lógico pues el análisis

factorial de componentes principales con rotaciones ortogonales genera variables no

correlacionadas entre ellas. Por otro lado, las variables obtenidas están estandarizadas

(media 0, desviación típica 1) y así deberán ser interpretadas.

4 Autor: Teresa Obis ( Profesora Titular Universidad Autónoma de Barcelona UAB)

Page 51: Anal is is Multi Variable

Análisis Multivariante

50

.765a .586 .584 .72Modelo1

RR

cuadradoR cuadradocorregida

Error típ. de laestimación

Resumen del modelo

Variables predictoras: (Constante), Cremosidad, Aroma, Suavidada.

606.060 3 202.020 389.513 .000a

428.404 826 .5191034.464 829

RegresiónResidualTotal

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

ANOVAb

Variables predictoras: (Constante), Cremosidad, Aroma, Suavidada.

Variable dependiente: Intención de comprab.

A nivel global el modelo obtenido es satisfactorio. Se ha conseguido explicar el 58,6% de la variabilidad total de Y, la intención de compra. Además, como se puede ver en la tabla ANOVA, esta varianza explicada es suficientemente grande respecto a la residual con lo que este modelo es capaz de explicar los cambios producidos en la Intención de compra.

Coeficientesa

3.717 .025 148.689 .000 3.668 3.766.631 .025 .565 25.228 .000 .582 .680.512 .025 .458 20.465 .000 .463 .561.266 .025 .238 10.644 .000 .217 .315

(Constante)SuavidadAromaCremosidad

1B

Errortíp.

Coeficientes noestandarizados

Beta

Coefic.estandar.

t Sig.Límiteinferior

Límitesuperior

Intervalo de confianzapara B al 95%

Variable dependiente: Intención de compraa.

A nivel individual, todos los coeficientes de regresión son significativamente distintos de 0. Por ello, todas las variables incluidas en el modelo aportan explicación sobre la Intención de compra. En concreto, por una unidad estándar de Suavidad, la Intención de compra aumenta en 0,631 puntos (en una escala de 1 a 5). Una unidad estándar de Aroma provoca un aumento, en promedio, de 0,512 puntos en la Intención de compra y una de Cremosidad de 0,266 puntos. Obsérvese como en este caso las Betas coinciden con las correlaciones de Pearson entre cada una de las variables independientes y la dependiente. Esto es lógico ya que, no al existir correlación entre las X’s, cada una de ellas aporta al modelo lo mismo que es capaz de explicar individualmente.

Page 52: Anal is is Multi Variable

Análisis Multivariante

51

ANEXO Caso: Inmobiliaria Nuez

(Teresa Obis Artal)

Page 53: Anal is is Multi Variable

Análisis Multivariante

52

4. ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS

El modelo de regresión lineal de primer orden

y = β0 + β1x + ε

donde:

y = variable dependiente o variable a explicar

x = variable independiente o variable explicativa

ε (epsilon) = error o perturbación aleatoria

β0 = origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la y.

β1 = pendiente de la recta o coeficiente de regresión: nos indica en cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente.

Qué nos interesa:

1. Cómo se calculan los coeficientes de regresión, β0 y β1 2. Cómo se interpretan 3. Cómo se determina si son o no estadísticamente significativos 4. Cómo se comprueban las hipótesis del modelo

Page 54: Anal is is Multi Variable

Análisis Multivariante

53

4.1 ESTIMACIÓN DEL MODELO DE REGRESIÓN POR

MÍNIMOS CUADRADOS ORDINARIOS

Con los datos de la muestra se pueden estimar los parámetros desconocidos del modelo

del siguiente modo:

y = β0 + β1x + ε

∃y = 0

∃β + 1

∃β x

∃y i = 0

∃β + 40xi

iy - ∃y i = yi - ( 0∃β +

1∃β xi)

SSE (Suma de Errores al Cuadrado) = i

n

=∑

1[ iy - (

0∃β +

1∃β xi)]2

La recta de mínimos cuadrados ordinarios es, precisamente, aquella que minimiza la

suma de los errores cuadrados.

Fórmulas para obtener los estimadores mínimos cuadrados

Pendiente: 1

∃β = xy

xx

SSSS

Origen: 0

∃β = y - 1

∃β x

donde SSxy = ( ) ( )

i i

i i

x yx y

n i 1

n

i 1

n

i=1

n

−∑ ∑= =∑

SSxx = ( )

i

i2

2

xx

n

i=1

ni=1

n

∑∑

n = tamaño de la muestra

Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (los errores)

Page 55: Anal is is Multi Variable

Análisis Multivariante

54

5. EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL

La Inmobiliaria Nuez ha recibido quejas de dos de sus clientes, acusándola de que vende los pisos por debajo del precio de mercado. Para demostrar su buen hacer, el gerente de esta inmobiliaria ha conseguido información sobre ventas de pisos de los últimos cuatro meses de su inmobiliaria y de otros competidores. En el fichero de datos se dispone del precio de venta del piso así como de la superficie del mismo (en m2), el número de habitaciones, la antigüedad de la vivienda, en qué zona se localiza, el mes de la venta y si lo ha vendido la Inmobiliaria Nuez u otra agencia. ¿El precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido?

Descriptivos

precio vivienda (miles euros)

469 56,697 10,931 ,505 55,706 57,689 31,205 89,81949 52,477 8,920 1,274 49,915 55,039 35,000 78,494

518 56,298 10,820 ,475 55,364 57,232 31,205 89,819

OtraNuezTotal

N Media

Desvia-ción

típicaErrortípico

Límiteinferior

Límitesuperior

Intervalo deconfianza para la

media al 95%

Mínimo Máximo

CONCEPTOS BÁSICOS: Media: es la suma de los valores de las observaciones dividido por el número de observaciones.

Desviación típica: raíz cuadrada positiva de la suma de cuadrados de las distancias entre la media y cada elemento, dividido por el número total de observaciones (menos una). Es decir, es una distancia promedio entre las observaciones y la media.

Error típico: se calcula como la desviación típica divida por la raíz de n (tamaño de la muestra). Es la desviación típica de la distribución muestral de las medias. Es decir, es la distancia promedio entre las medias de distintas muestras y la media de la población.

Intervalo de confianza para la media al 95%: se calcula como la media de la muestra ±1,96 veces el error típico. Es el intervalo donde se encuentra la media de la población al 95% de confianza.

5.1 COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:

¿Cómo influye la superficie de la vivienda en el precio de la misma?

Page 56: Anal is is Multi Variable

Análisis Multivariante

55

Coeficientesa

13,819 1,874 7,374 ,000,477 ,021 ,712 23,037 ,000

(Constante)superficie de la vivienda (m2)

1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizados

t Sig.

Variable dependiente: precio vivienda (miles euros)a.

Constante β0: En el origen, cuando todas las variables son cero (es decir, un piso sin superficie) el precio del piso es de 13819 Euros.

Pendiente β1: Por cada m² de más del piso, su precio aumenta en 477 Euros.

5.2 CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β0 Y β1

Coeficientesa

13818,516 1873,995 7,374 ,000477,027 20,707 ,712 23,037 ,000

(Constante)superficie de la vivienda (m2)

1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizados

t Sig.

Variable dependiente: precio de la vivienda (euros)a.

Coeficientesa

,013819 ,001874 7,374 ,000,000477 ,000021 ,712 23,037 ,000

(Constante)superficie de la vivienda (m2)

1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizados

t Sig.

Variable dependiente: precio de la vivivenda (millones euros)a.

Coeficientesa

13,819 1,874 7,374 ,000,0000477 ,0000021 ,712 23,037 ,000

(Constante)superficie vivienda (cm2)

1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizados

t Sig.

Variable dependiente: precio vivienda (miles euros)a.

5.3 COEFICIENTES DE REGRESIÓN ESTANDARIZADOS

Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida).

Beta0: Al restar las medias, la constante estándar siempre es 0

Page 57: Anal is is Multi Variable

Análisis Multivariante

56

x

y

y

x

S

SBetaBo

SS

BBeta ⋅=⋅= 1111

Coeficientesa

13,819 1,874 7,374 ,000,477 ,021 ,712 23,037 ,000

(Constante)superficie de la vivienda (m2)

1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizados

t Sig.

Variable dependiente: precio vivienda (miles euros)a.

COEFICIENTES DE REGRESIÓN ESTANDARIZADOS:

Constante βETA0: la recta de regresión con variables estandarizadas pasa siempre por el origen. Cuando se estandarizan las variables se hace un cambio de ejes y se sitúan en el valor medio de X e Y, por donde pasa la recta de regresión superficie de la vivienda (m2)

140120100806040

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

Pendiente βETA1: Por cada unidad estándar de más de superficie del piso, el precio aumenta en 0,712 unidades estándares de precio

Estadísticos descriptivos

56,298 10,820 51889,05 16,15 518

precio vivienda (miles euros)superficie de la vivienda (m2)

MediaDesviación

típ. N

( )( )

=•

22477,0

..15,16

..82,10

..

..712,0

m

eurosmiles

Xeum

Yeueurosmiles

Xeu

Yeu

5.4 COEFICIENTE DE CORRELACIÓN DE PEARSON

El coeficiente de correlación de Pearson, ρ o R, es una medida que resume la relación

lineal [recta] existente entre dos variables.

Page 58: Anal is is Multi Variable

Análisis Multivariante

57

ρ = yx

ii

yyxx

xy

ss)1n()yy)(xx(

SSSS

SS−

−−= ∑

De esta forma, se dispone de una medida de la relación entre x e y que no depende de

las unidades de las variables originales. De hecho, el coeficiente de correlación de

Pearson es el coeficiente de regresión (pendiente de la recta) cuando las variables x e y

se introducen en el modelo de forma estandarizada (Beta).

superficie de la vivienda (m2)

140120100806040

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

Correlación positiva

Arreglos (de 0 -nada- a 10)

1086420-2

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

Correlación negativa

Antigüedad de la casa (años)

14121086420

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

Sin correlación

Distancia centro (Km)

20100

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

Sin correlación lineal

El coeficiente de correlación de Pearson toma valores entre –1 y 1. Cuando más

próximo a ±1 sea, mayor será la relación lineal existente entre las dos variables (positiva

o negativa).

Si la correlación de Pearson es 0, no existe relación rectilínea entre las dos variables. En

este caso B1 también será igual a 0.

Page 59: Anal is is Multi Variable

Análisis Multivariante

58

Estadísticos descriptivos

518 31.205 89.819 56.298 10.820518 51 137 89.05 16.15518 .00 9.50 5.10 1.70518 1 13 6.18 2.08518 .88 19.46 10.57 5.21518

precio vivienda (miles euros)superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)Distancia centro (Km)N válido (según lista)

N Mínimo Máximo Media Desv. típ.

Correlaciones

1.000 .712** -.667** -.004 .061. .000 .000 .930 .163

518 518 518 518 518.712** 1.000 -.951** .055 -.002.000 . .000 .214 .966518 518 518 518 518

-.667** -.951** 1.000 -.069 -.014.000 .000 . .116 .748

518 518 518 518 518

-.004 .055 -.069 1.000 -.014.930 .214 .116 . .755518 518 518 518 518

.061 -.002 -.014 -.014 1.000

.163 .966 .748 .755 .518 518 518 518 518

Correlación PearsonSig. (bilateral)NCorrelación PearsonSig. (bilateral)NCorrelación PearsonSig. (bilateral)N

Correlación PearsonSig. (bilateral)NCorrelación PearsonSig. (bilateral)N

precio vivienda(miles euros)

superficie de lavivienda (m2)

Arreglos (de 0-nada- a 10)

Antigüedad dela casa (años)

Distanciacentro (Km)

preciovivienda(mileseuros)

superficie de la

vivienda(m2)

Arreglos(de 0

-nada- a10)

Antigüedad de la

casa(años)

Distancia centro

(Km)

La correlación es significativa al nivel 0,01 (bilateral).**.

Entre el precio de la vivienda y las otras cuatro variables aparecen 2 correlaciones próximas a 1 (lo que indica relación lineal entre cada una de ellas y el precio) y otras 2 correlaciones próximas a 0 (lo que indica que no existe relación entre ellas y el precio, o que la relación no es rectilínea)

Page 60: Anal is is Multi Variable

Análisis Multivariante

59

COMPROBACIÓN DE LA BONDAD DEL MODELO:

INFERENCIAS ACERCA DE LA PENDIENTE β1 (o ρ)

Distribución muestral de 1

∃β

Si las hipótesis sobre ε se cumplen, la distribución muestral de 1

∃β , el estimador de la

pendiente por mínimos cuadrados, seguirá una normal con una media β1 (la verdadera

pendiente) y desviación estándar igual a 1

∃βσσ

=xxSS

donde σ es la desviación típica de la perturbación (o estimación).

Intervalo de confianza al 100(1-α)% para la pendiente β1

1

∃β ± tα/2 1

∃βS donde 1

∃βS = SSSxx

y tα/2 se calcula con (n-2) grados de libertad.

Contraste sobre la utilidad del modelo

H0 : β1 = 0 (la X no influye sobre la Y)

Ha : β1 ≠ 0

Estadístico de prueba: t = 1

1

1∃ ∃

β β

βS sSSxx

=

Región de rechazo: t < - tα/2 o t > tα/2;donde tα/2 tiene (n-2) g.l.

También se puede rechazar la H0 cuando el nivel de significación observado (probabilidad de equivocarme si rechazo H0) sea suficientemente pequeño, menor que 0,05 o 0,10

Supuestos: Hipótesis sobre la distribución de probabilidad de ε

Page 61: Anal is is Multi Variable

Análisis Multivariante

60

5.5 EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS

PISOS:

Coeficientesa

13.819 1.874 7.374 .000 10.137 17.500

.477 .021 .712 23.037 .000 .436 .518

(Constante)superficie de lavivienda (m2)

1B

Errortíp.

Coeficientes noestandarizados

Beta

Coefic.estand.

t Sig.Límiteinferior

Límitesuperior

Intervalo confianzapara B al 95%

Variable dependiente: precio vivienda (miles euros)a.

Cuando aumenta la superficie de la vivienda en 1 m2 el precio de la misma aumenta en 477 euros, en promedio. Al 95% de confianza, el incremento podría situarse entre 436 euros y 518 euros.

Coeficientesa

77.931 1.121 69.543 .000 75.730 80.133

-4.240 .208 -.667 -20.349 .000 -4.649 -3.831

(Constante)Arreglos (de 0-nada- a 10)

1B

Errortíp.

Coeficientes noestandarizados

Beta

Coefic.estand.

t Sig.Límiteinferior

Límitesuperior

Intervalo confianzapara B al 95%

Variable dependiente: precio vivienda (miles euros)a.

Cuando la percepción de arreglos a realizar en la vivienda aumenta un punto en la escala de 10 el precio disminuye en 4240 euros, en promedio.

Coeficientesa

56.422 1.489 37.890 .000 53.497 59.348

-.020 .228 -.004 -.088 .930 -.469 .429

(Constante)Antigüedad dela casa (años)

1B

Errortíp.

Coeficientes noestandarizados

Beta

Coefic.estand.

t Sig.Límiteinferior

Límitesuperior

Intervalo confianzapara B al 95%

Variable dependiente: precio vivienda (miles euros)a.

Al aumentar la antigüedad de la vivienda en 1 año el precio de la misma no varía significativamente. Es decir, sea cual sea la antigüedad de la casa el precio previsto será siempre el mismo: 56422 euros (aproximadamente, el promedio de precio de las observaciones disponibles).

Page 62: Anal is is Multi Variable

Análisis Multivariante

61

5.6 COEFICIENTE DE DETERMINACIÓN

Podemos preguntarnos, ¿por qué la Y no es igual para todos?

)ˆ()ˆ()( yyyyyy iiii −+−=−

∑ − 2)( yyi = ∑ − 2)ˆ( yyi + ∑ − 2)ˆ( ii yy

SSyy (total) = SSR (explicada) + SSE (residual)

El coeficiente de determinación, R2, representa la proporción de la variabilidad total de

la muestra respeto a y que es explicada por la relación lineal entre x e y. Se calcula

como:

R2 = totaladVariabilid

explicada adVariabilid)(y

)ˆ(y1

SS

SSR2

i

2i =

−−

−=∑

∑y

yi

yy

5.7 COMPROBACIÓN DE LA BONDAD GLOBAL DEL

MODELO: ANALISIS DE LA VARIANZA

Contraste sobre la utilidad global del modelo

H0 : R² = 0 (En la regresión simple coincide con la inferencia sobre β1) Ha : R² ≠ 0

Estadístico de prueba:

F = residualVarianza

explicada Varianza1

112

2

=

−−

−=

−−

k nR

kR

k nSSEk

SSESS yy

Donde n es el tamaño de la muestra y k el número total de variables en el modelo (dependiente+independiente/s)

Región de rechazo: cuando el valor de F sea suficientemente grande según las tablas o cuando nivel de significación observado (la probabilidad de equivocarnos si rechazamos la H0) sea suficientemente pequeño, menor que 0,05 o 0,10.

Supuestos: Hipótesis sobre la distribución de probabilidad de ε.

Page 63: Anal is is Multi Variable

Análisis Multivariante

62

En nuestro ejemplo del precio del piso explicado a través de su superficie, los estadísticos globales del modelo son:

Resumen del modelo

,712a ,507 ,506 7,6044Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), superficie de la vivienda (m2)a.

ANOVAb

30689,069 1 30689,069 530,708 ,000a

29838,571 516 57,82760527,639 517

RegresiónResidualTotal

Modelo

1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), superficie de la vivienda (m2)a.

Variable dependiente: precio vivienda (miles euros)b.

Con las variables incluidas en el modelo, la superficie de la vivienda y una constante, se ha conseguido explicar el 50,7% de la variabilidad del precio del piso (30689 / 60527). Por otro lado, la varianza explicada es 530 veces la residual (30689 / 57). Como la significación de la F es menor que 0,05 podemos afirmar que esta varianza explicada es suficientemente grande. Es decir, hemos conseguido explicar porqué el precio no es igual en todas las viviendas (por la superficie de la misma).

5.8 PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN

• Cuando se rechaza la H0 sobre la utilidad del modelo por medio de la significación

de la F se dice que el modelo es “útil” (con un determinado nivel de confianza). Sin

embargo, útil no significa que necesariamente sea el mejor. Algún otro modelo

podría ofrecer mejores estimaciones y predicciones.

• Un coeficiente de determinación (o de correlación) “alto” no significa que sea muy

próximo a 1, ni un coeficiente “bajo” que sea próximo a 0 (no existe relación). La

significación del test de la F (o de la t) es la que dirá si dicho coeficiente es

suficientemente grande o no (estadísticamente diferente de 0).

Page 64: Anal is is Multi Variable

Análisis Multivariante

63

• La ausencia de correlación entre dos variables puede indicar, simplemente, que la

relación entre ambas no es rectilínea.

• Un nivel de correlación elevado no implica necesariamente la existencia de una

relación de CAUSALIDAD entre las variables analizadas. Se pueden encontrar

altas correlaciones por CASUALIDAD, lo que se denomina relaciones espurias. Se

producen porque ambas variables están correlacionadas con una tercera variable.

5.9 OTROS AJUSTES DE BONDAD DEL MODELO

R cuadrado corregida, 2R : si se introduce una nueva variable en el modelo, la R2

siempre aumenta (ya que se consigue explicar algo más, aunque sea muy poco). De la

misma manera, al quitar una variable la R2 siempre disminuye (aunque sea muy poco).

Como nos interesa saber si es conveniente introducir/quitar una variable en el modelo,

se ajusta la R2 según los grados de libertad:

)1(1 222 Rkn

kRR −

−−

−=

De esta manera, un aumento de la 2R indica que el modelo ha mejorado al

introducir/quitar una variable.

Desviación típica de la perturbación o de la estimación, σ: Aún en la población, la

estimación de Y para una X concreta puede tener cierto error, ε. Por este motivo se dice

que ésta es una fuente de error propio del modelo de regresión. La variabilidad de este

error intrínseco se mide por σ.

Esta desviación típica de la estimación se estima por:

kne

s i

−=≈ ∑ 2

22σ

Page 65: Anal is is Multi Variable

Análisis Multivariante

64

5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR

Error muestral para el estimador de la media de y:

La desviación típica de la distribución muestral del estimador del valor medio de y para

un valor de x, por ejemplo xp, viene dada por:

( )

∃yσ σ= +−1

n

2

xx

px x

SS

Se debe al error muestral: por trabajar con datos de una muestra

Error muestral para el estimador de un valor concreto de y:

La desviación típica del error de la predicción de un valor concreto y cuando x = xp, (y -∃y ), es:

( )

( ∃)y y− = + +−

σ σ 11n

2

xx

px x

SS

Por tanto, la varianza total del error de pronóstico se divide en dos partes: varianza debida a la perturbación aleatoria (σ²) y la varianza debida al error muestral.

Page 66: Anal is is Multi Variable

Análisis Multivariante

65

Intervalo de confianza al 100(1-α)% para el valor medio de y cuando x = xp ∃y ± tα/2 (la desviación estándar estimada de ∃y )

∃y ± tα/2 ( )

s1n

2

xx

px x

SS+

−; donde tα/2 tiene (n-2) g.l.

superficie de la vivienda (m2)

140120100806040

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

por dónde puede estar la recta de la población

Intervalo de confianza al 100(1-α)% para un valor individual de y cuando x = xp ∃y ± tα/2 [la desviación estándar estimada para (y - ∃y )]

∃y ± tα/2 ( )

s1n

2

xx

px x

SS1+ +

−; donde tα/2 tiene (n-2) g.l.

superficie de la vivienda (m2)

140120100806040

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

por dónde pueden estar las observaciones

Page 67: Anal is is Multi Variable

Análisis Multivariante

66

En nuestro ejemplo, las dos viviendas que dicen que la agencia Nuez ha vendido por debajo del precio tienen una superficie de 104,285 y 90,333 m2 (observaciones 423 y 444) y las vendió a 53313 y 46084 euros:

Resúmenes de casos

399 Otra 35.060 69.238 46.847 45.807 47.886 31.871 61.822406 Otra 42.470 83.238 53.525 52.828 54.223 38.570 68.481409 Otra 58.735 116.095 69.199 67.918 70.480 54.205 84.193416 Otra 49.277 96.048 59.636 58.920 60.351 44.679 74.592423 Nuez 53.313 104.286 63.566 62.663 64.468 48.599 78.532424 Otra 38.253 75.190 49.686 48.821 50.552 34.722 64.651428 Otra 41.145 84.286 54.025 53.341 54.709 39.070 68.980430 Otra 52.470 104.095 63.475 62.577 64.372 48.508 78.441432 Otra 50.120 100.333 61.680 60.879 62.481 46.719 76.641434 Otra 47.590 96.905 60.045 59.315 60.775 45.088 75.002437 Otra 43.072 86.762 55.206 54.543 55.869 40.252 70.160444 Nuez 46.084 90.333 56.910 56.251 57.568 41.956 71.864450 Otra 36.747 76.619 50.368 49.539 51.196 35.406 65.330452 Otra 32.349 60.619 42.735 41.406 44.065 27.737 57.734457 Otra 50.422 101.095 62.044 61.225 62.863 47.082 77.005463 Otra 55.241 113.571 67.995 66.801 69.189 53.008 82.982465 Otra 41.446 81.810 52.844 52.124 53.563 37.887 67.801467 Otra 45.964 93.571 58.455 57.773 59.136 43.500 73.410468 Otra 43.253 84.524 54.139 53.457 54.820 39.184 69.094478 Otra 39.759 76.762 50.436 49.611 51.261 35.474 65.398480 Otra 46.928 95.762 59.500 58.789 60.210 44.543 74.456485 Nuez 47.831 92.476 57.932 57.261 58.603 42.978 72.887499 Otra 31.205 66.000 45.302 44.158 46.447 30.319 60.285503 Otra 62.229 128.048 74.901 73.184 76.618 59.863 89.938

123456789101112131415161718192021222324

Número decaso

Agencia

preciovivienda(mileseuros)

superficie de lavivienda

(m2)Predicted

Value

95% LCI for

PRECIOmean

95% UCI for

PRECIOmean

95% L CIfor

PRECIOindividual

95% U CIfor

PRECIOindividual

Precio previsto (ob. 423) = 13,819 + 0,477 * 104,285 = 63,555 euros.

Al 95% de confianza, la estimación promedio podría situarse entre 62663 y 64468 euros.

Al 95% de confianza, la predicción de una observación particular podría situarse entre 48599 y 78532, lo que incluye el precio de venta de 53313.

Lo mismo sucede con la observación 444. Un piso de 90,333 m2 puede tener un precio de venta situado entre 41956 y 71864 euros. Por ello, la venta a un precio de 46084 euros puede ser factible.

Page 68: Anal is is Multi Variable

Análisis Multivariante

67

5.11 HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE

Hipótesis sobre la forma de la distribución de probabilidad de ε:

y = β0 + β1x + ε

1. La media de la distribución de probabilidad de ε es 0. Es decir, la media de los

valores de ε para un número infinitamente grande de experimentos es 0 para cada

valor de la variable independiente x. Esta hipótesis implica que el valor de la media

de y, E(y), para un valor dado de x es E(y) = β0 + β1x.

2. La distribución de probabilidad de ε es normal.

3. La varianza de la distribución de probabilidad de ε es constante, σ2, para todos los

valores de la variable independiente, X (es decir, existe homocedasticidad).

4. Los valores de ε asociados a dos valores cualquiera observados de y, son

independientes. Es decir, el valor de ε asociado a un valor de y no tiene ninguna

influencia sobre los valores de ε asociados a otros valores de y (esto implica que los

errores no están correlacionados consigo mismo o, lo que es lo mismo, no existe

autocorrelación de errores).

La hipótesis 1 se considera cierta y no se contrasta. Se supone que se cumple con una

muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de

comprobar que la media de las perturbaciones sea 0 (ya que la estimación por mínimos

cuadrados exige que la media de los errores sea 0).

5.12 NORMALIDAD DE LOS ERRORES

La distribución de probabilidad de ε tiene que ser normal, con una media igual a 0 y una

desviación estándar de σ.

Al cumplirse esta hipótesis, podemos hacer inferencia sobre β1 y comprobar si su valor

es significativamente distinto de 0.

Page 69: Anal is is Multi Variable

Análisis Multivariante

68

Se contrasta analizando el histograma de los residuos o el gráfico de probabilidad

acumulada observada/esperada según la normal:

Regresión Residuo tipificado

2.131.88

1.631.38

1.13.88.63.38.13-.13

-.38-.63

-.88-1.13-1.38

-1.63-1.88

-2.13

Histograma

Variable dependiente: precio vivienda (miles euros)

Fre

cuen

cia

40

30

20

10

0

Desv. típ. = 1.00

Media = 0.00

N = 518.00

Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: precio vivienda (miles euros)

Prob acum observada

1.00.75.50.250.00

Pro

b ac

um e

sper

ada

1.00

.75

.50

.25

0.00

Si el tamaño de muestra es suficientemente grande, el teorema central del límite

garantiza las propiedades de los estimadores mínimos cuadráticos, sea cual sea la forma

de la distribución de las perturbaciones. Si el tamaño de muestra es pequeño y la

distribución es muy asimétrica no se garantiza la normalidad, con los intervalos de

confianza pueden ser incorrectos.

5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES

Las perturbaciones, ε, han de tener una misma varianza, σ2, para todos los valores de la

variable independiente, X.

Es decir, la dispersión de las perturbaciones no puede ser, por ejemplo, más grande para

los valores más grandes de X y más pequeña para los más pequeños.

Page 70: Anal is is Multi Variable

Análisis Multivariante

69

Se puede utilizar el gráfico de la Y estimada (o de una X) frente a los residuos

estandarizados para ver si el error varía su amplitud:

Gráfico de dispersión

Variable dependiente: precio vivienda (miles euros)

Regresión Valor pronosticado tipificado

43210-1-2-3

Reg

resi

ón R

esid

uo e

stud

entiz

ado

3

2

1

0

-1

-2

-3

Homocedasticidad

Gráfico de dispersión

Variable dependiente: OTRA_Y

Regresión Valor pronosticado tipificado

43210-1-2-3

Reg

resi

ón R

esid

uo e

stud

entiz

ado

4

3

2

1

0

-1

-2

-3

Heterocedasticidad

Numéricamente se comprueba comparando los errores de las observaciones con valores

más bajos con los de las más altas para ver si son estadísticamente diferentes. También

se pueden realizar regresiones de los errores al cuadrado con cada variable X en

búsqueda de una explicación de la heterocedasticidad.

Si se demuestra que hay heterocedasticidad, los estimadores mínimo cuadrático son

ineficientes. Las estimaciones se han de efectuar con un modelo de mínimos cuadrados

generalizados o bien, si se pueden establecer supuestos sobre el comportamiento de las

varianzas, por mínimos cuadrados ponderados.

5.14 NO AUTOCORRELACIÓN DE ERRORES

La autocorrelación de errores se presenta cuando el error que se produce en una

observación está relacionado con el de la otra. Habitualmente se supone un

proceso autorregresivo de primer orden, es decir: ttt uu ερ += −1 .

La presencia de autocorrelación se puede deber a: el modelo no se ha especificado

correctamente (falta alguna X o la relación no es recta); la Y depende del tiempo o tiene

comportamientos cíclicos.

Page 71: Anal is is Multi Variable

Análisis Multivariante

70

El gráfico de los pronósticos frente a los residuos estandarizados permite ver si los

errores tienen algún comportamiento:

Gráfico de dispersión

Variable dependiente: precio vivienda (miles euros)

Regresión Valor pronosticado tipificado

210-1-2

Reg

resi

ón R

esid

uo e

stud

entiz

ado

4

3

2

1

0

-1

-2

-3

Relación no rectilínea

Comportamiento autoregresivo

La autocorrelación se puede contrastar tratando de inferir el componente autoregresivo

o por medio del test de Durbin-Watson

Si la autocorrelación se produce por un error de especificación se ha de revisar el

modelo. Si hay autocorrelación de errores, pero no se conoce su causa, se debe acudir a

los mínimos cuadrados generalizados (pues los estimadores mínimos cuadrados son

ineficientes) o bien aplicar un procedimiento bi-etápico.

Page 72: Anal is is Multi Variable

Análisis Multivariante

71

6. LINEALIDAD EN EL MODELO DE REGRESIÓN

6.1 OTRAS TRANSFORMACIONES

En nuestro ejemplo de las viviendas, vimos como el precio estaba relacionado con la distancia al centro pero no de una forma rectilínea

Distancia centro (Km)

20100

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

A la vista de esta gráfica se puede pensar que el ajuste se puede mejorar utilizando un modelo cuadrático

y = β0 + β1x + β2x2 + ε

Los resultados de este modelo de regresión no lineal serían los siguientes: Dependent variable.. PRECIO Method.. QUADRATI Multiple R .81267 R Square .66044 Adjusted R Square .65912 Standard Error 6.31732 Analysis of Variance: DF Sum of Squares Mean Square Regression 2 39974.734 19987.367 Residuals 515 20552.906 39.909 F = 500.82914 Signif F = .0000 -------------------- Variables in the Equation -------------------- Variable B SE B Beta T Sig T DISTANCIA -10.114875 .328898 -4.872461 -30.754 .0000 DISTANCIA**2 .503698 .015961 4.999952 31.559 .0000 (Constant) 93.278782 1.367318 68.220 .0000

Page 73: Anal is is Multi Variable

Análisis Multivariante

72

precio vivienda (miles euros)

Distancia centro (Km)

20100

Pre

cio

vivi

enda

(m

iles

euro

s)

100

90

80

70

60

50

40

30

Observada

Cuadrático

Ahora solo hay que interpretar los resultados: Por cada Km. de distancia al centro el precio disminuye en 10114 euros, pero a la vez aumenta en 503 por cada Km. al cuadrado.

Curva de costes medios (transformación inversa)

CFbvaX

baY

vQ

CFCM

QCT

QvCFCT

==

+=

+==

+=

;

1

Curva de crecimiento vegetativo (a una tasa de g) (transformación semi-logarítmica)

eb

x

B

x

g( B ;BAY

==

+=+=

+==

eaA

bXaY)(ln lnBlnAlnY

:ciónTransforma

)1

b > 0

a

A

B >1

B < 1

Page 74: Anal is is Multi Variable

Análisis Multivariante

73

Curva de esfuerzo de marketing (transformación logarítmico-inversa)

xb

aY

Y e xb

a

+=

= +

ln

ciónTransforma

7. ANÁLISIS DE REGRESIÓN MÚLTIPLE

El modelo de regresión múltiple

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε

donde:

y = variable dependiente o variable a explicar

xi = variables independientes o variables explicativas

ε (epsilon) = error o perturbación aleatoria

β0 = origen cuando todas las variables son 0

βi = pendiente o coeficiente de regresión de la variable i.

7.1 INFERENCIAS ACERCA DE LOS COEFICIENTES DE

REGRESIÓN DE CADA VARIABLE, βI

Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la

utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis

de regresión simple:

H0 : βi = 0 (la Xi no influye sobre la Y)

Ha : βi ≠ 0

2b−

b < 0

Page 75: Anal is is Multi Variable

Análisis Multivariante

74

Estadístico de prueba: t =

S

ˆ

β

β

i

i

Región de rechazo: se rechaza H0 si el nivel de significación observado es pequeño, menor que 0,05 o 0,10

Observaciones: El modelo no será eficiente si incluye variables que no sean estadísticamente explicativas (las que no tienen un coeficiente de regresión significativamente distinto de 0) Como cada Xi puede estar medida en diferentes unidades, la comparación de los

coeficientes de correlación de las diferentes variables se ha de realizar mediante las

Betas

7.2 COEFICIENTE DE DETERMINACIÓN

Como en la regresión simple, el coeficiente de determinación, R2, representa la

proporción de la variabilidad total de la muestra respeto a y que es explicada por la

relación lineal entre x e y.

Se calcula igual que antes:

R2 = totaladVariabilid

explicada adVariabilid

)y(y

)y(y1

SSSSR

2i

2ii

yy=

−−=

∑∑

Ahora tiene una gran utilidad. La R2 mide la explicación conjunta conseguida con todas

las variables independientes introducidas en el modelo de regresión (en cambio la R del

modelo global no se puede interpretar, es la raíz cuadrada de la R2).

7.3 COMPROBACIÓN DE LA BONDAD GLOBAL DEL

MODELO: ANALISIS DE LA VARIANZA

Contraste sobre la utilidad global del modelo

H0 : R² = 0 (o, H0 : β1 = β2 = . . . = βk = 0 ningún coeficiente es importante para explicar la y)

Ha : R² ≠ 0 (Ha : al menos un βi ≠ 0 al menos un coeficiente explica la y)

Page 76: Anal is is Multi Variable

Análisis Multivariante

75

Estadístico de prueba:

F = residualVarianza

explicada Varianza1

112

2

=

−−

−=

−−

k nR

kR

k nSSEk

SSESS yy

donde n es el tamaño de la muestra y k el número total de variables en el modelo (dependiente+independientes) Región de rechazo: cuando nivel de significación observado sea suficientemente pequeño, menor que 0,05 o 0,10.

7.4 HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE

Las hipótesis sobre la forma de la distribución de probabilidad de ε son las mismas que

en el modelo de regresión simple.

En la regresión múltiple además se debe cumplir que:

No debe existir excesiva colinealidad o multicolinealidad (correlación entre las

variables independientes).

7.5 COLINEALIDAD

Como se ha indicado, la colinealidad se produce cuando las variables independientes

introducidas en el modelo de regresión están correlacionadas entre ellas.

Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén

correlacionadas las variables independientes.

Cuando una variable independiente se puede expresar como una combinación lineal de

las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable,

solucionando la colinealidad. El problema se produce cuando la correlación entre las

X’s es alta o muy alta, pero sin llegar a ser total.

Debemos ser conscientes de que en casi todos los modelos de regresión múltiple

planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta no sea

excesiva ni perjudicial.

Page 77: Anal is is Multi Variable

Análisis Multivariante

76

7.6 EFECTOS DE LA COLINEALIDAD

La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto mayor

sea la correlación entre las X’s:

• Las desviaciones estándar de los coeficientes de regresión están sobreestimadas,

con lo que aparecen como no significativos coeficientes que en realidad sí lo son.

• Puede suceder que ninguno de los coeficientes de regresión sean distintos de

cero (no son significativos) y que, a nivel conjunto, sí que lo sean.

• Los coeficientes de regresión estimados no son consistentes, es decir, pueden

cambiar al modificar la muestra o al introducir diferentes variables en el modelo.

En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se

sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas están

relacionadas).

7.7 FORMAS DE MEDIR LA COLINEALIDAD

La colinealidad se puede medir de distintas formas:

• Matriz de correlaciones de Pearson entre cada par de variables independientes. Da

una idea pero no es concluyente.

• Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la variable Xj

frente a todas las demás X’s.

• Factor de Inflación (o agrandamiento) de la Varianza:

(FIV) = 1 / Tolerancia

Page 78: Anal is is Multi Variable

Análisis Multivariante

77

7.8 NIVELES DE COLINEALIDAD

Tolerancia VIF Colinealidad:

Toler = 1 VIF = 1 No existe colinealidad

0,3 < Toler < 1 3,33 > VIF > 1 Poca: el modelo no suele presentar efectos (defectos) importantes

0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación

0,01 <Toler< 0,1 100 > VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo

Toler < 0,01 VIF > 100 Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes)

Volvamos al ejemplo que trataba de explicar el precio de las viviendas por medio de la superficie del mismo (en m2), el nivel de reparaciones que necesita y la antigüedad de la vivienda. Ahora las incluimos todas ellas en un modelo de regresión múltiple, obteniendo el siguiente resultado:

Correlaciones

1.000 .712 -.667 -.004.712 1.000 -.951 .055

-.667 -.951 1.000 -.069-.004 .055 -.069 1.000

. .000 .000 .465.000 . .000 .107.000 .000 . .058.465 .107 .058 .

precio vivienda (miles euros)superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)precio vivienda (miles euros)superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)

Correlaciónde Pearson

Sig.(unilateral)

preciovivienda(mileseuros)

superficie de lavivienda

(m2)

Arreglos(de 0

-nada- a10)

Antigüedad dela casa(años)

Page 79: Anal is is Multi Variable

Análisis Multivariante

78

Con las correlaciones de Pearson entre cada par de variables podemos observar, en primer lugar, cuáles son las relaciones existentes entre cada una de las variables X y la Y. En nuestro caso, tanto la superficie de la vivienda como el nivel de arreglos tienen una alta correlación estadísticamente significativa con el precio de la vivienda. La única diferencia es que la relación es de signo positivo en la primera variable y negativa en la segunda. La antigüedad de la casa no influye significativamente en el precio de la vivienda. En segundo lugar, se puede apreciar el nivel de correlación que existe entre las variables independientes. Parece ser que la superficie de la vivienda tiene una alta correlación de signo negativo con el nivel de arreglos (parece que las casas grandes están más bien cuidadas que las pequeñas, o al menos lo aparentan). Esto es una indicación de que el modelo presentará colinealidad.

Resumen del modelo

.714a .510 .507 7.5984Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Antigüedad de la casa (años),superficie de la vivienda (m2), Arreglos (de 0 -nada- a 10)

a.

ANOVAb

30851.138 3 10283.713 178.115 .000a

29676.502 514 57.73660527.639 517

RegresiónResidualTotal

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Antigüedad de la casa (años), superficie de lavivienda (m2), Arreglos (de 0 -nada- a 10)

a.

Variable dependiente: precio vivienda (miles euros)b.

Los resultados a nivel global del modelo parecen satisfactorios. Se consigue explicar un 51% de la variabilidad del precio, y está explicación es suficiente comparada con la residual. Aunque, lo cierto es que no hemos conseguido mejorar extremadamente el coeficiente de determinación que teníamos en el modelo que incluía sólo la superficie de la vivienda (50,7%).

Page 80: Anal is is Multi Variable

Análisis Multivariante

79

Coeficientesa

6.654 9.179 .725 .469 -11.379 24.688.538 .067 .803 8.060 .000 .407 .669.595 .634 .094 .939 .348 -.650 1.841

-.214 .161 -.041 -1.333 .183 -.530 .102

(Constante)superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)

1B

Errortíp.

Coeficientes noestandarizados

Beta

Coefic.estand.

t Sig.Límiteinferior

Límitesuperior

Intervalo confianzapara B al 95%

Variable dependiente: precio vivienda (miles euros)a.

Finalmente, a nivel individual parece que la única variable con un coeficiente de regresión significativamente distinto de 0 es la superficie. ¿Qué ha pasado con la significación de la variable Arreglos? Es más, menos mal que no es distinta de 0 ya que su coeficiente ha pasado a tener el signo contrario (a nivel individual influía negativamente y ahora, de hacerlo, afecta positivamente). Por otro lado, las Betas en algunas variables no se parecen a la correlación de Pearson de esa variable y el precio. Estos problemas se han producido por el alto nivel de colinealidad existente en el modelo. La tolerancia y el VIF así nos lo indican:

Coeficientesa

.096 10.415

.096 10.434

.994 1.006

superficie de la vivienda (m2)Arreglos (de 0 -nada- a 10)Antigüedad de la casa (años)

1Tolerancia FIV

Estadísticos decolinealidad

Variable dependiente: precio vivienda (miles euros)a.

Concluyendo, en este modelo la colinealidad impide conocer cuál es el efecto de cada variable independiente sobre la dependiente (¿qué varía el precio? la superficie de la vivienda o el nivel de arreglos que ésta necesita). De todos modos, la variable dependiente (el precio) queda perfectamente explicada por ambas variables.

Page 81: Anal is is Multi Variable

Análisis Multivariante

80

7.9 INTRODUCCIÓN DE VARIABLES BINARIAS

Una variable binaria es aquella que admite dos posibles valores (se cumple cierta

propiedad o no, verdadero/falso, hombre/mujer) y se codifica con 0 (no pasa) y 1(sí

pasa).

=ticacaracterís la cumple se si,1

ticacaracterís la cumple se no si,0Bx

Si se introduce tal cual en un modelo de regresión lineal supone estimar un efecto

diferencial sobre el origen de la recta en cada categoría de la variable binaria:

y = β0 + β1 x1 + β2 xB + ε

y(si xB = 0) = β0 + β1 x1

y(si xB = 1) = β0 + β1 x1+ β2 1 = (β0 + β2) + β1 x1

Para ver si el precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido, añadimos la variable Agencia al modelo de regresión simple que explicaba el precio en función de la superficie. Gráficamente se puede observar que: Parece que las ventas de la inmobiliaria Nuez se han realizado a unos precios inferiores a las de las otra agencias.

superficie de la vivienda (m2)

140120100806040

prec

io v

ivie

nda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

Agencia

Nuez

Otra

Page 82: Anal is is Multi Variable

Análisis Multivariante

81

A nivel numérico, los resultados obtenidos son:

Resumen del modelob

.726a .527 .525 7.4599Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Agencia que vendio lavivienda, superficie de la vivienda (m2)

a.

Variable dependiente: precio vivienda (miles euros)b.

ANOVAb

31868.045 2 15934.023 286.327 .000a

28659.594 515 55.65060527.639 517

RegresiónResidualTotal

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Agencia que vendio la vivienda, superficie de lavivienda (m2)

a.

Variable dependiente: precio vivienda (miles euros)b.

Coeficientesa

14.011 1.839 7.620 .000.480 .020 .717 23.632 .000

-5.158 1.121 -.140 -4.603 .000

(Constante)superficie de la vivienda (m2)Agencia que vendio la vivienda

1B Error típ.

Coeficientes noestandarizados

Beta

Coefic.estand.

t Sig.

Variable dependiente: precio vivienda (miles euros)a.

A nivel global, se consigue una explicación del 52,7% de las variaciones del precio, que es estadísticamente significativa. Las ventas de las otras agencias tienen un origen de 14011 euros mientras que las de la Nuez están 5158 euros por debajo. Esta misma diferencia se mantiene para todos los valores de la otra variable explicativa (sea cual sea la superficie).

Page 83: Anal is is Multi Variable

Análisis Multivariante

82

Superficie de la vivienda (m2)

140120100806040

Pre

cio

vivi

enda

(mile

s eu

ros)

100

90

80

70

60

50

40

30

Nuez

Otra

7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE

También se pueden introducir variables binarias con efecto en la pendiente. En este caso

debe especificarse el modelo en forma multiplicativa:

y = β0 + β1 x1 + β2 xB x1 + ε

y(si xB = 0) = β0 + β1 x1

y(si xB = 1) = β0 + β1 x1+ β2 1 x1 = β0 + (β1+ β2) x1

Así mismo, se puede especificar un modelo que incluya a la vez un efecto sobre el

origen y otro sobre la pendiente. El modelo que recoge estos efectos mixtos es:

y = β0 + β1 x1 + β2 xB + β3 xB x1 + ε

y(si xB = 0) = β0 + β1 x1

y(si xB = 1) = β0 + β1 x1+ β2 1 + β3 1 x1

= (β0 + β2) + (β1+ β3) x1

7.11 INTRODUCCIÓN DE VARIABLES CUALITATIVAS

No se pueden introducir variables cualitativas en un modelo de regresión tal como están

codificadas, pues su coeficiente de regresión recogería un efecto lineal de pasar de un

valor de la variable cualitativa al siguiente. Pero si la variable es cualitativa, ¿cuál es la

categoría que precede a otra?

Page 84: Anal is is Multi Variable

Análisis Multivariante

83

En nuestro ejemplo de las viviendas, tenemos una variable cualitativa que nos indica en qué zona está ubicada la casa (1. Este, 2. Oeste y 3. Sur). Mediante un análisis de medias se puede observar que el precio medio es diferente en cada una de estas zonas:

Descriptivos

precio vivienda (miles euros)

243 62.824 9.592 .615 61.612 64.036 37.590 89.819166 50.718 8.749 .679 49.377 52.059 32.349 78.494109 50.248 7.531 .721 48.818 51.677 31.205 71.386518 56.298 10.820 .475 55.364 57.232 31.205 89.819

EsteOesteSurTotal

N MediaDesviación típica

Errortípico

Límiteinferior

Límitesuperior

Intervalo confianzapara la media al 95%

Mínimo Máximo

ANOVA

precio vivienda (miles euros)

19508.006 2 9754.003 122.461 .00041019.634 515 79.65060527.639 517

Inter-gruposIntra-gruposTotal

Suma decuadrados gl

Mediacuadrática F Sig.

Pero como puede apreciarse, la disminución que sufre el precio de la vivienda por estar situada en el Oeste en lugar del Este no es el mismo que si está situada en el Sur en lugar del Oeste. En cambio, un modelo de regresión que recogiera la variable Zona diría:

Resumen del modelo

.512a .262 .261 9.3013Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Zona donde esta localizada la casaa.

ANOVAb

15886.798 1 15886.798 183.634 .000a

44640.841 516 86.51360527.639 517

RegresiónResidualTotal

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Zona donde esta localizada la casaa.

Variable dependiente: precio vivienda (miles euros)b.

Page 85: Anal is is Multi Variable

Análisis Multivariante

84

Coeficientesa

68.619 .997 68.838 .000-7.076 .522 -.512 -13.551 .000

(Constante)Zona donde esta localizada la casa

1B Error típ.

Coeficientes noestandarizados

Beta

Coefic.estand.

t Sig.

Variable dependiente: precio vivienda (miles euros)a.

Por “incrementar en una unidad la X” el precio de la vivienda disminuye en 7076 euros. Este incremento de la X se produce tanto al pasar de Este a Oeste como de Oeste a Sur.

Para introducir adecuadamente una variable cualitativa en una regresión se ha de

convertir dicha variable en binarias (tantas como categorías tenga la variable cualitativa

menos una) y efectuar el análisis con las variables binarias.

Resúmenes de casosa

Oeste .00 1.00Oeste .00 1.00Oeste .00 1.00Sur .00 .00Este 1.00 .00Este 1.00 .00Sur .00 .00Este 1.00 .00Oeste .00 1.00Este 1.00 .00

12345678910

Zona donde estalocalizada la casa Zona Este Zona Oeste

Limitado a los primeros 10 casos.a.

En nuestro ejemplo con-vertiríamos la variable zona de 3 categorías en 2 variables binarias, Zona Este y Zona Oeste.

La tercera categoría no haría falta incluirla ya que está representada por la ausencia de las otras dos.

Y el resultado que obtenemos con el análisis de regresión coincide con el del análisis de varianza (en el que se comparaban las medias):

Resumen del modelo

.568a .322 .320 8.9247Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Zona Oeste, Zona Estea.

Page 86: Anal is is Multi Variable

Análisis Multivariante

85

ANOVAb

19508.006 2 9754.003 122.461 .000a

41019.634 515 79.65060527.639 517

RegresiónResidualTotal

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Zona Oeste, Zona Estea.

Variable dependiente: precio vivienda (miles euros)b.

Coeficientesa

50.248 .855 58.781 .00012.577 1.029 .581 12.224 .000

.471 1.100 .020 .428 .669

(Constante)Zona EsteZona Oeste

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coefic.estand.

t Sig.

Variable dependiente: precio vivienda (miles euros)a.

La interpretación de los coeficientes sería la siguiente: • En promedio y cuando todas las demás variables son cero (es decir

estamos en la categoría omitida de la variable cualitativa) el precio medio de las viviendas es de 50248 euros.

• Cuando estamos en la zona Este, el precio de la vivienda aumenta, en promedio, en relación a la zona Sur (categoría omitida) en 12577 euros. Por tanto el precio medio se situaría en 62825 (50248+12577).

• Cuando estamos en la zona Oeste, el precio de la vivienda aumenta en relación a la zona Sur en 471 euros, en promedio, situándose en 50719 euros.

Esta misma interpretación se efectuaría si hubieran otras variables cuantitativas en el modelo. En este caso, los coeficientes de correlación indicarían el origen de cada una de las rectas que se mantendría a lo largo de toda la pendiente provocada por la variable cuantitativa (rectas paralelas). Si se quisiera modelizar un efecto no constante se podrían introducir términos de interacción (como vimos con las variables binarias).

7.12 CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS

A lo largo de estos apuntes hemos visto como influían las variables cuantitativas disponibles para explicar el precio de la vivienda: superficie (m2), arreglos necesarios (escala 0 – 10), antigüedad y distancia al centro.

Page 87: Anal is is Multi Variable

Análisis Multivariante

86

Las dos primeras explicaban el precio de la vivienda de forma significativa aunque entre ellas existía excesiva colinealidad. La antigüedad no influía en el precio de la vivienda y la distancia al centro lo hacía de una forma no lineal (además se ha comprobado que está variable también está relacionada con la superficie en un modelo cuadrático). Por tanto, ante un modelo de regresión múltiple lineal nos tenemos que conformar con incluir sólo la superficie de la vivienda en m2 (evitando así los problemas de colinealidad).

En cuanto a las variables cualitativas, se dispone de la zona y el mes de la venta. Para evitar supuestos de linealidad entre las categorías de estas variables hemos definido unas variables binarias que recogen sus diferentes categorías. Se supone además que los efectos de estas categorías se producen en la constante (y no en la pendiente de la curva).

Finalmente, se incorpora la variable agencia que efectuó la venta para comprobar si la Inmobiliaria Nuez actúa o no de mala fe vendiendo los pisos por debajo de su precio.

Los resultados obtenidos con este modelo son los mejores de todo el análisis como puede comprobarse a continuación:

Estadísticos descriptivos

56.2982 10.8201 51889.05 16.15 518.4691 .4995 518.3205 .4671 518.2703 .4445 518.2529 .4351 518.2452 .4306 518

9.46E-02 .29 518

precio vivienda (miles euros)superficie de la vivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que vendio la vivienda

MediaDesviación

típ. N

Page 88: Anal is is Multi Variable

Análisis Multivariante

87

Correlaciones

1.000 .712 .568 -.354 .191 .071 -.079 -.114

.712 1.000 -.053 -.051 .024 .023 .023 .035

.568 -.053 1.000 -.646 .064 -.013 -.068 -.211-.354 -.051 -.646 1.000 -.027 .010 .003 .160.191 .024 .064 -.027 1.000 -.354 -.347 -.033.071 .023 -.013 .010 -.354 1.000 -.332 -.021

-.079 .023 -.068 .003 -.347 -.332 1.000 .015

-.114 .035 -.211 .160 -.033 -.021 .015 1.000

. .000 .000 .000 .000 .053 .036 .005

.000 . .116 .123 .297 .300 .299 .211

.000 .116 . .000 .074 .384 .061 .000

.000 .123 .000 . .272 .413 .474 .000

.000 .297 .074 .272 . .000 .000 .225

.053 .300 .384 .413 .000 . .000 .316

.036 .299 .061 .474 .000 .000 . .366

.005 .211 .000 .000 .225 .316 .366 .

precio vivienda(miles euros)superficie de lavivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que lavendióprecio vivienda(miles euros)superficie de lavivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que lavendió

Correla-ción dePearson

Sig.(unila-teral)

preciosuper-ficie

ZonaEste

ZonaOeste

MesEnero

Febrero

MesMarzo

Agencia

A nivel individual puede apreciarse como todas las variables introducidas en el modelo aportan explicación sobre el precio de la vivienda. Las correlaciones más importantes son la que se producen con la superficie de la vivienda y la zona Este (ambas de signo positivo). Entre las variables independientes hay muy poca correlación. Por el gran tamaño de la muestra, son significativas los tres meses entre sí y la agencia con la zona.

Resumen del modelo

.959a .919 .918 3.0938Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Agencia que vendio lavivienda, Mes Marzo, superficie de la vivienda (m2), ZonaOeste, Mes Febrero, Mes Enero, Zona Este

a.

Page 89: Anal is is Multi Variable

Análisis Multivariante

88

ANOVAb

55646.141 7 7949.449 830.528 .000a

4881.498 510 9.57260527.639 517

RegresiónResidualTotal

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Agencia que vendio la vivienda, Mes Marzo,superficie de la vivienda (m2), Zona Oeste, Mes Febrero, Mes Enero, Zona Este

a.

Variable dependiente: precio vivienda (miles euros)b.

A nivel global se consigue una buena explicación de la variabilidad del precio de venta. Un 91,9% de las diferencias en el precio son explicadas por las variables introducidas en el modelo. Como era de esperar, esta variabilidad es suficiente frente a la residual. Por otro lado, el modelo tiene una R cuadrado ajustada de 0,918, la más alta de todos los modelos analizados.

Coeficientesa

1.061 .869 1.221 .223 -.646 2.768.498 .009 .744 58.529 .000 .482 .515

14.769 .364 .682 40.567 .000 14.054 15.4842.984 .385 .129 7.760 .000 2.229 3.7405.375 .386 .221 13.922 .000 4.617 6.1344.147 .392 .167 10.576 .000 3.377 4.9172.060 .396 .082 5.206 .000 1.282 2.837-.275 .476 -.007 -.578 .563 -1.211 .660

(Constante)superficie de la vivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que vendio la vivienda

1B

Errortíp.

Coeficientes noestandarizados

Beta

Coefic.estand.

t Sig.Límiteinferior

Límitesuperior

Intervalo confianzapara B al 95%

Variable dependiente: precio vivienda (miles euros)a.

A nivel individual todas las variables son estadísticamente significativas, a excepción de la constante y de la agencia que vendió la casa. El modelo sería más eficiente si las elimináramos pero así nos sirve para comprobar que efectivamente, la agencia no provoca diferencias significativas en el precio de venta de la vivienda (una vez deducidos los efectos de la superficie, la zona y el mes de la venta). Ahora se interpretan los coeficientes como hemos hecho en otros modelos:

• En promedio, por cada m2 de más que tenga la vivienda su precio aumenta en 498 euros.

• Una vivienda localizada en la Zona Este tiene un precio 14769 euros superior a las viviendas de la Zona Sur, en promedio. En cambio, si se localiza en la Zona Oeste la diferencia es de solo 2984 euros.

Page 90: Anal is is Multi Variable

Análisis Multivariante

89

• Los precios de venta van disminuyendo cada mes. Incluso parece que existe una disminución similar (lineal) cada mes de unos 2000 euros.

Finalmente, se puede verificar que, como no hay mucha colinealidad, las conclusiones que se obtenían del análisis individual (correlaciones de Pearson) son muy semejantes a las Betas de cada variable en el análisis conjunto.

Coeficientes a

.979 1.021

.560 1.786

.574 1.743

.628 1.591

.636 1.572

.638 1.568

.951 1.051

superficie de la vivienda (m2)Zona EsteZona OesteMes EneroMes FebreroMes MarzoAgencia que vendio la vivienda

1

Tole-rancia FIV

Estadísticos decolinealidad

Variable dependiente: precio vivienda (miles euros)a.

Los estadísticos de colineali-dad nos indican que no se produce altas correlaciones entre todas las variables independientes.

La menor Tolerancia se sitúa a nivel de 0,57 con lo que los efectos de la colinealidad pueden ser despreciables.

Page 91: Anal is is Multi Variable

Análisis Multivariante

90

Resúmenes de casos

399 Otra 35.060 69.238 Oeste 38.545 37.798 39.292406 Otra 42.470 83.238 Oeste 45.521 44.824 46.218409 Otra 58.735 116.095 Sur 58.909 58.013 59.804416 Otra 49.277 96.048 Sur 48.919 48.127 49.712423 Nuez 53.313 104.286 Sur 52.749 51.630 53.868424 Otra 38.253 75.190 Oeste 41.511 40.794 42.228428 Otra 41.145 84.286 Oeste 46.043 45.347 46.739430 Otra 52.470 104.095 Sur 52.929 52.111 53.748432 Otra 50.120 100.333 Sur 51.055 50.251 51.858434 Otra 47.590 96.905 Oeste 52.331 51.610 53.052437 Otra 43.072 86.762 Sur 44.292 43.503 45.082444 Nuez 46.084 90.333 Sur 45.797 44.695 46.898450 Otra 36.747 76.619 Sur 39.239 38.418 40.059452 Otra 32.349 60.619 Oeste 34.250 33.439 35.062457 Otra 50.422 101.095 Oeste 54.419 53.676 55.161463 Otra 55.241 113.571 Sur 57.651 56.775 58.527465 Otra 41.446 81.810 Oeste 44.809 44.111 45.508467 Otra 45.964 93.571 Sur 47.686 46.897 48.474468 Otra 43.253 84.524 Oeste 46.162 45.466 46.858478 Otra 39.759 76.762 Oeste 42.294 41.583 43.005480 Otra 46.928 95.762 Sur 48.777 47.985 49.569485 Nuez 47.831 92.476 Oeste 49.849 48.828 50.869499 Otra 31.205 66.000 Sur 33.947 33.060 34.835503 Otra 62.229 128.048 Sur 64.864 63.858 65.870

123456789101112131415161718192021222324

Número decaso

Agencia

preciovivienda(mileseuros)

superficiede la

vivienda(m2) Zona

PredictedValue

95% LCI for

PRECIOmean

95% UCI for

PRECIOmean

Finalmente, podemos observar como los precios de venta que fijó la Inmobiliaria Nuez en las observaciones 423 y 444 están incluidos incluso en el intervalo de confianza de la estimación con lo que claramente no aplicó una política fraudulenta.

Page 92: Anal is is Multi Variable

Análisis Multivariante

91

8. BIBLIOGRAFÍA

KMENTA, Jan (1980): Elementos de econometría. Vicens universidad. Barcelona.

NEWBOLD, Paul (1997): Estadística para los negocios y la economía. Prentice Hall.

Madrid.

NORUSIS, Marija J. (1997): SPSS 7.5 Guide to Data Analysis. Prentice Hall. New

Jersey.

(ya está disponible: SPSS 10.0 Guide to Data Analysis)

LUQUE MARTÍNEZ, Teodoro (coordinador) (2000): Técnicas de análisis de datos en

investigación de mercados. Ediciones Pirámide. Madrid.

Page 93: Anal is is Multi Variable

Análisis Multivariante

92

ANÁLISIS DE LA VARIANZA (ANOVA)

Page 94: Anal is is Multi Variable

Análisis Multivariante

93

9. ANÁLISIS DE LA VARIANZA (ANOVA)

9.1 CONCEPTO.

Se trata de una técnica de análisis adecuada para poder extraer conclusiones acerca de si

una o más variables independientes condicionan a otra u otras variables dependientes.

Se trata de un método de dependencia en el que la variable o variables dependientes

están medidas en escala métrica y las variables independientes están medidas en escalas

no métricas.

Esta técnica es de gran utilidad en la experimentación científica y por supuesto en la de

Marketing. Entendemos por experimentación la manipulación intencionada de las

variables independientes (tratamientos) para estudiar la respuesta en la variable o

variables dependientes.

9.2 MODALIDADES DE ANÁLISIS DE LA VARIANZA

En el esquema siguiente resumimos las diferentes tipos de análisis de varianza

Variables independientes Variables dependientes (métricas)

Una Varias

Una ANOVA de un factor MANOVA de un factor

Varias ANOVA de 2 o k factores MANOVA de k factores

Categóricas e intervalos ANCOVA MANCOVA

ANOVA proviene de ANálisis Of VAriance

MANOVA de Múltiple ANálisis Of Variance

ANCOVA de ANálisis Of COVAriance

MANCOVA de Múltiple ANálisis Of COVAriance.

Page 95: Anal is is Multi Variable

Análisis Multivariante

94

ANCOVA En este procedimiento se introduce una variable independiente (X) métrica,

que no se controla pero incide en la dependiente (covariable), es decir covaría. Si son

varias las dependientes (Y) se llama MANCOVA

9.3 ANOVA

Es una técnica de dependencia diseñada para medir la influencia que una o varias

variables independientes (Xi), (no métricas, cualitativas) tienen sobre otra variable (Y)

dependiente o cuantitativa.

9.3.1 TIPOS DE ANOVA

ANOVA de un solo factor o variable explicativa (one way)

ANOVA con varios factores. Este a su vez se divide en:

• Modelo factorial completo. Es cuando considera los efectos de varias variables

independientes conjuntamente con sus interacciones.

• Modelo factorial incompleto. Solo se tienen en cuenta los efectos por separado

de las variables, sin tener en cuenta las interacciones. También se llama modelo

de efectos principales.

9.4 EXPERIMENTACIÓN

Uno de los objetivos de la Investigación de Marketing es el de tratar de definir las

relaciones que unen al mix de Marketing de la empresa con sus resultados.

Esta información es de suma importancia en el proceso de toma de decisiones, así como

en la planificación estratégica y en los mecanismos de control de la misma.

Las relaciones que se identifican entre las variables del Marketing mix de la empresa y

sus resultados son de tipo causa efecto, constituyendo lo que se denomina relaciones de

causalidad.

El análisis causal es el que pretende investigar las relaciones de influencia o causalidad

entre las diferentes variables.

Desde un punto de vista filosófico se puede entender como causa, aquello que hace ser a

algo que no es, o que venga a ser de forma distinta lo que es. Este concepto de causa

implica el que se diferencie entre la causa que produce algo nuevo de la que solo

modifica lo existente.

Page 96: Anal is is Multi Variable

Análisis Multivariante

95

Teniendo en cuenta que la investigación de Marketing no se ocupa de los consumidores

y productos en su conjunto, sino sólo de las variables de estos en los estudios

descriptivos y de las relaciones entre las variables en los explicativos, es obvio que a la

Investigación de Marketing le interesa la causalidad no en el sentido que produce un

nuevo ser, sino en la modificación de lo existente.

Cuando se dice que dos variables, están unidas por una relación de causalidad, significa

que, una variable influye en la otra, en el sentido de que una modificación en la primera

conduce a una variación en la segunda.

El análisis de la varianza es la técnica mas apropiada para estudiar y explotar los datos

provenientes de situaciones experimentales. El análisis de la varianza permite extraer

conclusiones sobre si una o más variables independientes (X) influyen y condicionan a

una o varias dependientes (Y), e incluso nos da información si la interacción de las

variables independientes (X) es significativa.

9.5 EL MÉTODO DE EXPERIMENTACIÓN

El método de experimentación consiste en reproducir fenómenos a voluntad del

investigador. Aplicado a la Investigación de Marketing, trata de provocar la conducta

del consumidor en condiciones perfectamente controladas, lo más parecidas posibles a

una situación real, con el objetivo de sacar consecuencias de la respuesta a un estímulo

cuyo efecto queramos conocer.

La principal dificultad de la experimentación consiste en realizar la prueba en las

mismas circunstancias que en la realidad, así como en aislar los resultados obtenidos,

debido a la variación producida respecto a otras variables no controladas en el

experimento. Lo que hacemos es introducir modificaciones en variables de Marketing, y

tratamos de controlar su incidencia en el comportamiento de compra por parte de los

usuarios.

La ventaja de este método es que elimina el factor distorsionador que el entrevistado

provoca al suministrar información en una encuesta, ya que lo que aquí se estudia es el

comportamiento del consumidor ante una determinada situación.

Page 97: Anal is is Multi Variable

Análisis Multivariante

96

La ejecución de una experimentación debe ser perfectamente planificada. Los aspectos

de esta planificación son:

1. Definición de los objetivos.

2. Definir la zona experimental.

3. Elección al azar de las unidades experimentales

4. Período de duración de la experimentación

5. Diseño experimental

6. Recogida de información

9.5.1 PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN

Entre las aplicaciones más utilizadas podemos reseñar las siguientes: Fijación de

precios. Selección de medios publicitarios y promocionales. Elección de puntos de

venta. Determinación del tipo de envase y su tamaño. Lanzamiento de nuevos

productos.

9.6 METODOLOGÍA DE LA EXPERIMENTACIÓN

En todo experimento se deben definir:

1 Factor principal

Variable independiente estudiada con sus diferentes alternativas, a las que se denomina

“tratamientos”.

2 Factores externos

Se trata de factores influyentes que es conveniente aislar y controlar.

En algunos diseños experimentales se estudian de forma individual y se denominan

factores bloque o rodeo.

3 Unidades experimentales

Son los lugares donde se realiza el experimento. Se dividen en los siguientes tipos:

a) De laboratorio

• Se trata de un local donde se reproducen las condiciones reales del mercado.

Normalmente se suele hacer en el propio centro de investigación.

b) Natural o real

• El estudio se realiza en lugares muestra del mercado real, zonas geográficas,

ciudades, tiendas, etc.

Page 98: Anal is is Multi Variable

Análisis Multivariante

97

4 Variable dependiente

Es la variable de respuesta por parte del mercado. Nos permite medir los efectos de las

variables estudiadas.

EJEMPLO

Una empresa de conservas vegetales desea medir el efecto de dos estrategias de

promoción diferenciadas para comercio en régimen de autoservicio y para tiendas

especialistas. Definir las características del experimento.

1 Factor principal: los dos tipos de promoción

2 Factor externo: situación del producto en la tienda, en la estantería, día de la semana

3 Unidad experimental: comercio de las características requeridas (tiendas reales)

4 Variable dependiente: Unidades físicas de producto vendidas

9.7 ELEMENTOS DE UN EXPERIMENTO

9.7.1 CONCEPTOS GENERALES

La respuesta es una variable cuantitativa que se va a estudiar en el experimento.

También se denomina variable dependiente, (Y). Ejemplo: las ventas de la empresa

Los factores (uno o varios) son aquellas variables de las que el experimentador quiere

estudiar su efecto sobre la variable respuesta. Tanto si representan variables cualitativas

como cuantitativas, los factores se analizan de forma cualitativa, es decir, se

experimenta con unos valores concretos. Ejemplos: envase, promoción, precio, ...

Los niveles de un factor son los diferentes valores utilizados en el experimento de una

de las variables explicativas. Ejemplos: Envase: 1 litro, 1,5 litros, 2 litros, Promoción:

Reducción precio, Regalo; Precio: 140 ptas., 170 ptas., 200 ptas.

Los tratamientos de un experimento son todas las combinaciones utilizadas de cada

factor-nivel.

La unidad experimental es la observación (individuo u objeto) donde la respuesta y los

factores son observados y medidos.

Un diseño experimental es el procedimiento que utiliza el análisis-para controlar la

especificación de los tratamientos y el método para asignar las unidades experimentales

a cada tratamiento.

Page 99: Anal is is Multi Variable

Análisis Multivariante

98

Un experimento por observación es aquel en el que el analista observa el tratamiento y

la respuesta de cada unidad experimental.

9.7.2 HIPÓTESIS DE TRABAJO

Como hipótesis nula se considera que no existen diferencias entre las medias de los

tratamientos. Esto es:

H0: µ1= µ2 = . . . = µp

Ha: Por lo menos dos de los p tratamientos tienen medias diferentes.

9.8 ¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI

COMPARAMOS MEDIAS?

ANOVA pretende medir la influencia de una o más variables independientes y

cualitativas (X) sobre una variable dependiente cuantitativa (Y). Es decir pretende

determinar si diversos conjuntos de muestras aleatorias de una variable proceden de la

misma población o no. En el caso de que sean de la misma población, el análisis de la

varianza permite descubrir si la interacción entre las variables explicativas provoca

cambios significativos.

La diferencia existente entre una observación y la media general se divide entre una

parte explicada (distancia entre la media del tratamiento y la media general) y una

residual (distancia entre una observación y la media de su tratamiento):

Es decir

Page 100: Anal is is Multi Variable

Análisis Multivariante

99

)()()( YYYYYY iiijij −+−=−

Esta misma diferencia, elevada al cuadrado, se calcula para todas las observaciones de

la muestra:

Suma de cuadrados entre grupos (inter)

SC(Explicada) = ( )Y Yi −∑ 2

Suma de cuadrados total

SC(Total) = ( )Y Yij −∑ 2

Suma de cuadrados dentro grupos (intra)

SC(Residual) = ( )Y Yij i−∑ 2

A continuación, se divide cada Suma Cuadrados por sus grados de libertad, obteniendo

los Cuadrados Medios o varianzas:

CM(Total) = ( )Y Yn

ij −−

∑ 2

1 = Varianza Total

CM(Inter-grupos) = ( )Y Yp

i −−

∑ 2

1 = Varianza Explicada

CM(Intra-grupos) = ( )Y Yn p

ij i−−

∑ 2

= Varianza Residual

9.8.1 ESTADÍSTICO DE PRUEBA

Para comprobar si es suficientemente grande la varianza explicada frente a la varianza

residual, se calcula el estadístico de prueba

sidualVarianzaExplicadaVarianza

FRe

=

y su nivel de significación observado (F prob), probabilidad de equivocarnos si se

rechaza la H0, con el que se podrá decidir si se Rechaza o no la H0.

Page 101: Anal is is Multi Variable

Análisis Multivariante

100

El estadístico F conduce al Rechazo de la H0 cuando el nivel de significación (F prob.)

es pequeño (menor que 0,05), entonces las medias de los tratamientos son

estadísticamente diferentes. Es decir, el tratamiento influye en la respuesta o la variable

dependiente realmente depende de la independiente.

Además, se puede:

a) realizar comparaciones múltiples de medias por pares utilizan-do un

método como por ejemplo el de Scheffé, que permite ver las diferencias

estadísticamente significativas que de forma más estricta existen entre las medias de los

tratamientos.

b) construir intervalos de confianza para una o mas medias individuales.

Si el estadístico F no conduce al Rechazo de la H0, entonces:

las medias son iguales (No rechazamos la hipótesis nula) No se puede creer que de

manera automática esta conclusión es la adecuada. Se tiene que considerar también la

posibilidad de un error de tipo II, el que cometemos si no se rechaza la hipótesis nula

cuando es falsa.

Las medias son realmente diferentes, pero no hemos considera-do otros factores

importantes que también afectan a la respuesta. Estos factores aumentan la variabilidad

residual generando valores mas pequeños de F. Entonces se tiene que incrementar el

tamaño de la muestra para cada tratamiento o se tiene que utilizar un diseño

experimental diferente que tenga en cuenta los otros factores que afectan a la respuesta.

9.9 EXPERIMENTOS ALEATORIOS CON UN FACTOR

Un diseño completamente aleatorio, es aquel en el que se seleccionan muestras

aleatorias para cada tratamiento.

Yij = µi + εij

donde Yij: es la respuesta de la observación j a la que se le ha aplicado el

tratamiento µi: es la media del tratamiento i, y εij: es una parte aleatoria específica de

cada observación.

Hipótesis planteadas:

La hipótesis nula es que las medias de los diferentes tratamientos son iguales

H0: µ1= µ2 = . . . = µp

Page 102: Anal is is Multi Variable

Análisis Multivariante

101

Ha: Por lo menos dos tratamientos tienen medias diferentes.

Supuestos:

Las distribuciones de probabilidad de las p poblaciones son normales.

Las varianzas de las p poblaciones son iguales.

Las muestras se seleccionan aleatoria e independientemente de las poblaciones

respectivas.

9.9.1 MODELO

Este modelo también puede expresarse como:

Yij = µ + τi + εij

donde µ: es la media general, y τi: es el efecto diferencial del tratamiento i.

H0: τ1= τ2 = . . . = τp

Ha: Por lo menos dos tratamientos tienen efecto diferencial.

9.10 ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY)

Utiliza una sola variable explicativa (X)

El modelo tiene que cumplir los siguientes supuestos:

La variable dependiente (Y) sigue una distribución normal

Las varianzas de todas las poblaciones deben ser aproximadamente iguales

(Homoscedasticidad)

Las muestras son independientes y son obtenidas de forma aleatoria

EJEMPLO 1: ANÁLISIS DE VARIANZA DE UN FACTOR (SPSS)

Caso 1:

Una empresa que quiere lanzar un nuevo refresco en lata de 33 cc. quiere saber si hay

diferencias significativas en el precio de un refresco similar vendido en los 4 tipos de

tiendas diferentes que se están considerando (hipermercados, supermercados,

cooperativas y tiendas tradicionales).

Page 103: Anal is is Multi Variable

Análisis Multivariante

102

1419,757 3 473,252 18,288 ,0005848,525 226 25,8787268,282 229

Inter-gruposIntra-gruposTotal

Preciolata 33 cc.

Suma decuadrados gl

Mediacuadrática F Sig.

ANOVA

Como las diferencias son significativas se quiere conocer cuáles son los precios medios

que se aplican en cada tipo de tienda (en la muestra y para la población, con un intervalo

de confianza del 95%).

52 44,2134 7,9435 1,0982 42,0086 46,418346 47,8553 5,3715 ,7934 46,2563 49,454350 45,3896 1,9618 ,2775 44,8318 45,947581 50,2857 3,7471 ,4154 49,4590 51,1123

230 47,3497 5,6398 ,3723 46,6162 48,0832

HipermercadoSupermercadoCooperativaTda. tradicionalTotal

Tipodetienda

Preciolata33 cc.

N MediaDesviación

típicaErrortípico

Límiteinferior

Límitesuperior

Intervalo de confianzapara la media al 95%

Descriptivos

Finalmente, se quiere averiguar cuáles de estos precios medios aplicados en las

diferentes tiendas son significativamente distintos entre sí, de una forma estricta

(utilizando el test de comparaciones múltiples Scheffé).

Page 104: Anal is is Multi Variable

Análisis Multivariante

103

Variable dependiente: Precio lata 33 cc.Scheffé

-3,6419* 1,029 ,007 -6,5408 -,7429-1,1762 1,006 ,714 -4,0101 1,6577-6,0722* ,902 ,000 -8,6115 -3,53303,6419* 1,029 ,007 ,7429 6,54082,4657 1,040 ,135 -,4645 5,3959

-2,4304 ,939 ,085 -5,0766 ,21591,1762 1,006 ,714 -1,6577 4,0101

-2,4657 1,040 ,135 -5,3959 ,4645-4,8960* ,914 ,000 -7,4709 -2,32126,0722* ,902 ,000 3,5330 8,61152,4304 ,939 ,085 -,2159 5,07664,8960* ,914 ,000 2,3212 7,4709

(J) Tipo detiendaSupermercadoCooperativaTda. tradicionalHipermercadoCooperativaTda. tradicionalHipermercadoSupermercadoTda. tradicionalHipermercadoSupermercadoCooperativa

(I) Tipo detiendaHipermercado

Supermercado

Cooperativa

Tda.tradicional

Diferenciade

medias(I-J)

Errortípico Sig.

Límiteinferior

Límitesuperior

Intervalo de confianzaal 95%

Comparaciones múltiples

La diferencia entre las medias es significativa al nivel .05.*.

Schefféa,b

52 44,213449 45,3896 45,389645 47,8553 47,855381 50,2857

,692 ,096 ,104

Tipo de tiendaHipermercadoCooperativaSupermercadoTda. tradicionalSig.

N 1 2 3Subset for alpha = .05

Precio lata 33 cc.

Se muestran las medias para los grupos en los subconjuntos homogéneos.

Uses Harmonic Mean Sample Size = 54,627a.

Los tamaños de los grupos no son iguales. Se utilizará la media armónicade los tamaños de los grupos. Los niveles de error del tipo I no estángarantizados.

b.

9.11 ANOVA CON VARIOS FACTORES

En el estudio ANOVA devarios factores hemos de considerar los diferentes tipos de

efectos y factores que se pueden analizar y que indicamos a continuación:

Page 105: Anal is is Multi Variable

Análisis Multivariante

104

Intersección: las observaciones habitualmente se sitúan en torno a una media distinta

de cero.

Factores fijos: los niveles de un factor fijo incluyen todos los niveles sobre los que se

desea extraer conclusiones.

Factores aleatorios: los niveles de un factor aleatorio son una muestra aleatoria de los

posibles niveles sobre los que se desea extraer conclusiones.

Covariables: variables explicativas (factores) cuantitativas.

Habitualmente trabajaremos con factores fijos.

Los factores también se pueden clasificar como:

Principales: son los que el investigador controla y modifica para verificar su efecto.

Ejemplos: precio, canal, ...

De rodeo o bloqueo: son aquellos que varían por si solos al repetir el experimento

varias veces (ya que todas las unidades experimentales no son exactamente iguales), el

investigador no los cambia expresamente. Sin embargo, como se sospecha que pueden

influir en la variable respuesta, se debe controlar su efecto. Ejemplos: Tipo de tienda,

día de la semana, ...

9.12 TIPOS DE EXPERIMENTOS HABITUALMENTE

UTILIZADOS EN INVESTIGACIÓN COMERCIAL

Los tipos de experimentos que más habitualmente se utilizan en la Investigación

Comercial son:

- Experimentación al azar.

- Experimentación en bloques aleatorios.

- Experimentación en cuadrado latino.

- Experimentación con intercambio.

- Experimentación factorial.

La experimentación factorial permite tratar dos o más variables simultáneamente,

mientras que los otros sólo permiten manipular una variable.

9.12.1 EXPERIMENTO ALEATORIO O AL AZAR

En este tipo de experimento comercial sólo se controla un factor: la variable

independiente estudiada.

Page 106: Anal is is Multi Variable

Análisis Multivariante

105

La asignación de tratamiento a las diferentes unidades experimentales se realiza de

forma aleatoria.

Vamos a desarrollar lo expuesto anteriormente mediante un caso práctico:

CASO PRÁCTICO

Un banco realiza un experimento comercial de tres tipos diferentes de promoción para

el lanzamiento de un nuevo producto. Estas promociones consistían en:

P1 Regalo de una bicicleta, P2 Regalo de un ordenador, P3 Regalo de los

electrodomésticos de la cocina

Cada promoción se probó en cinco sucursales diferentes durante un mes. Los resultados

obtenidos, en cuanto a unidades de producto colocadas entre la clientela, se recogen en

el cuadro siguiente:

S1 S2 S3 S4 S5

P1 65 50 30 40 65

P2 30 25 15 20 35

P3 15 10 10 25 50

SOLUCIÓN

Definiremos las siguientes características:

Factor principal: los diferentes tipos de promoción P1, P2, P3, luego K = 3.

Unidades experimentales 15 (5 sucursales x 3 tipos de promoción)

Variable dependiente: unidades vendidas.

Número total de mediciones: n=15

Número de mediciones por cada tratamiento (promoción) nj=5

xij= unidades físicas vendidas en cada sucursal.

Page 107: Anal is is Multi Variable

Análisis Multivariante

106

mj= media de unidades vendidas por tratamiento.

m= media total.

Partiendo del cuadro de resultados, obtenemos los valores de mj y m, los cuales son:

S1 S2 S3 S4 S5 S mj

P1 65 50 30 40 65 250 50

P2 30 25 15 20 35 125 25

P3 15 10 10 25 50 110 22

y por tanto m = 32´333

Una vez obtenidos estos datos, pasamos a realizar los cálculos de la técnica ANOVA

Dispersión total.

D T x mi ji

n

j

k j

= −==

∑∑ ( ) 2

11

Sustituyendo por los correspondientes valores obtenemos:

DT = (65 - 32´3)2 + (50 - 32.3)2 + (30 - 32´3)2 + (40 - 32´3)2 + (65 - 32´3)2 + (30

- 32´3)2 + (25 - 32´3)2 + (15 - 32´3)2 + (20 - 32´3)2 + (35 - 32´3)2 + (15 - 32´3)2 + (10

- 32´3)2 + (10 - 32´3)2 + (25 - 32´3)2 + (50 - 32´3)2 = 4.693´333

Dispersión factorial:

DF n m mj jj

k

= −=∑ ( )2

1

Sustituyendo obtenemos:

DF = 5(50 - 32´3)2 +5(25 - 32´3)2 +5(22 - 32´3)2 = 2.363´333

Dispersión residual

DR = DT - DF Luego DR = 4.693´33 - 2.363´33 = 2.330

Cuadrado medio factorial (CMF)

CMFDFgl

DFk

= =− 1

Sustituyendo obtenemos CMF = 1.181´6667

Cuadrado medio residual (CMR)

Page 108: Anal is is Multi Variable

Análisis Multivariante

107

CMRDRgl

DRn k

= =−

Sustituyendo obtenemos CMR = 194´1667

Test de la F

FCMFCMR

=

Sustituyendo obtenemos F= 6´0858

Si buscamos el valor de F en tablas para un nivel del 95% y gl = 2 y 12, obtenemos que

F = 3´89

Como 6´0858 > 3´89, existe un efecto significativo de los diferentes tratamientos

estudiados para un nivel de confianza del 95%.

La conclusión es que los diferentes tipos de promoción afectan significativamente a la

demanda.

La salida realizada con el programa SPSS es:

Esta salida tiene en cuenta la influencia de la sucursal en el experimento (factor rodeo o

bloque), por lo que algunos resultados nos conducen a valores diferentes, aunque la

conclusión final es la misma.

Page 109: Anal is is Multi Variable

Análisis Multivariante

108

EXPERIMENTO ALEATORIO AL AZAR

15 100,0% 0 ,0% 15 100,0%N Porcentaje N Porcentaje N Porcentaje

Incluidos Excluidos TotalCasos

Resumen del procesamiento de los casosa

Ventas (unidades vendidas) por Tipo de promoción, Sucursala.

50,0000 525,0000 522,0000 536,6667 328,3333 318,3333 328,3333 350,0000 332,3333a 15

SucursalTotalTotalTotal12345Total

Tipo depromociónBicicletaOrdenadorElectrodomésticoTotal

Media NVentas (unidades vendidas)

Medias de las casillasb,c

Media globala.

Ventas (unidades vendidas) por Tipo de promoción, Sucursalb.

No se han calculado las medias de orden 2 o superiordebido al límite en el orden máximo de interacción.

c.

4040,000 6 673,333 8,245 ,0042363,333 2 1181,667 14,469 ,0021676,667 4 419,167 5,133 ,0244040,000 6 673,333 8,245 ,004

653,333 8 81,6674693,333 14 335,238

Ventas (unidades vendidas)(Combinadas)Tipo de promociónSucursal

Efectos principales

ModeloResidualTotal

Suma decuadrados gl

Mediacuadrática F Sig

Método jerárquico

ANOVAa

Ventas (unidades vendidas) por Tipo de promoción, Sucursala.

Page 110: Anal is is Multi Variable

Análisis Multivariante

109

9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO

En este tipo de experimento comercial se controlan dos factores:

1 La variable independiente o factor principal

2 Un factor de control que se denomina “factor bloque”, también llamado “de rodeo”

Este tipo de experimento comercial se debe hacer cuando se intuye que existe otro

factor influyente en el aspecto estudiado, aparte del factor principal.

Se debe utilizar un número de unidades experimentales suficientes para probar todas las

combinaciones posibles entre las alternativas de los dos factores controlados.

Desarrollemos lo anterior con el siguiente caso:

CASO PRÁCTICO

Una empresa de refrescos va a lanzar al mercado un nuevo producto; para ello realiza

una prueba con tres envases diferentes:

P1 envase de 2l., P2 envase de 1l., P3 envase de 0´5l.

Además la empresa controla otro factor influyente, que es el tipo de establecimiento

donde se expenden los refrescos; para ello definen el siguiente factor bloque:

B1 grandes superficies, B2 supermercados, B3 tienda tradicional y B4 autoservicio.

Cada envase se prueba en los cuatro tipos de tienda, durante un mes. Se obtienen los

resultados siguientes en miles de unidades de producto:

Tabla de resultados:

B1 B2 B3 B4

P1 3 4 3 2

P2 7 8 7 6

P3 8 12 8 4

SOLUCIÓN

Factor Principal: tratamientos P1, P2, P3. Luego k=3

Factor bloque: las alternativas B1, B2, B3, B4, luego R = 4

Unidades experimentales 4x3 =12

Variable dependiente: unidades vendidas

Siendo

Page 111: Anal is is Multi Variable

Análisis Multivariante

110

n el número de mediciones (12)

xij las unidades vendidas en los diferentes establecimientos.

mj la media de ventas por tratamiento

mi la media de ventas por cada alternativa de bloque

m la media total

Cálculos

B1 B2 B3 B4 S mj

P1 3 4 3 2 12 3

P2 7 8 7 6 28 7

P3 8 12 8 4 32 8

S 18 24 18 12

mi 6 8 6 4

Luego m = 6

Dispersión total DT = 92

Dispersión factorial DF = 56

Dispersión bloque

DB k m mi= −∑ ( )2

DB = 3(6 - 6)2 + 3(8 - 6)2 + 3(6 - 6)2 + 3(4 - 6)2 = 24

Dispersión residual

DR = DT - DF - DB Sustituyendo, DR = 12

Cuadrado medio factorial CMF = 28

Cuadrado medio bloque CMB = 8

Cuadrado medio residual CMR = 2

Test de la F

1 Factor principal

FCMFCMR

=

Luego F = 14

Como el valor en tablas para el 95% y gl 2 y 6 es 5´14

Page 112: Anal is is Multi Variable

Análisis Multivariante

111

Podemos decir que existe un efecto significativo de los tratamientos estudiados para un

nivel de confianza del 95%

2 Factor bloque

FCMBCMR

=

Luego F = 4

El valor correspondiente en tablas para el 95% y gl 3 y 6 es F = 4´76

Como 4 < 4´76 podemos decir que:

NO existe un efecto significativo del factor bloque para el nivel de confianza del 95%

La correspondiente salida de SPSS es:

Page 113: Anal is is Multi Variable

Análisis Multivariante

112

9.12.2.1 EXPERIMENTO DE BLOQUE ALEATORIO (SPSS)

12 100,0% 0 ,0% 12 100,0%N Porcentaje N Porcentaje N Porcentaje

Incluidos Excluidos TotalCasos

Resumen del procesamiento de los casosa

Ventas (miles de unidades) por Tipo de promoción, Tipo de tiendaa.

3,0000 47,0000 48,0000 46,0000 38,0000 36,0000 34,0000 36,0000a 12

Tipo de tiendaTotalTotalTotalGran superficieSupermercadoTienda tradicionalAutoservicioTotal

Envase2 litros1 litro1/2 litroTotal

Media NVentas (miles de unidades)

Medias de las casillasb,c

Media globala.

Ventas (miles de unidades) por Envase, Tipo de tiendab.

No se han calculado las medias de orden 2 o superior debido allímite en el orden máximo de interacción.

c.

80,000 5 16,000 8,000 ,01256,000 2 28,000 14,000 ,00524,000 3 8,000 4,000 ,07080,000 5 16,000 8,000 ,01212,000 6 2,00092,000 11 8,364

Ventas (miles de unidades)(Combinadas)EnvaseTipo de tienda

Efectos principales

ModeloResidualTotal

Suma decuadrados gl

Mediacuadrática F Sig

Método jerárquico

ANOVAa

Ventas (miles de unidades) por Tipo de promoción, Tipo de tiendaa.

Page 114: Anal is is Multi Variable

Análisis Multivariante

113

9.12.3 EXPERIMENTO DE CUADRADO LATINO

En este tipo de experimentación comercial se controlan tres factores:

1 La variable independiente o factor principal

2 Dos factores de control o rodeo que se denominan “factores bloque”

El diseño en cuadrado latino exige utilizar el mismo número de alternativas en los tres

factores controlados.

Deberemos plantear este tipo de estudio cuando se estima que existen otros dos factores

influyentes en el fenómeno estudiado, aparte del factor principal.

Se debe diseñar un número de unidades experimentales suficiente para probar todas las

combinaciones posibles entre los tres factores sometidos a control.

Vamos a desarrollarlo con el siguiente caso práctico:

CASO PRACTICO

Supongamos que una empresa de zumos realiza una prueba de mercado para estudiar el

color adecuado para confeccionar el envase. Se proponen los siguientes colores:

P1 envase verde y blanco, P2 envase rojo y verde, P3 envase azul y verde.

Para ello la empresa controla los siguientes factores influyentes:

Bloque 1 Tipo de punto de venta.

B11 gran superficie, B12 autoservicio, B13 comercio tradicional

Bloque 2 Región geográfica.

B21 Cataluña, B22 Aragón, B23 País Vasco.

Cada envase se prueba en los tres tipos de punto de venta y en las tres regiones

geográficas.

Los resultados obtenidos son (en miles de unidades):

B11 B12 B13

B21 P1 P2 P3

B22 P2 P3 P1

B23 P3 P1 P2

Page 115: Anal is is Multi Variable

Análisis Multivariante

114

SOLUCIÓN

Supongamos los siguientes datos para la matriz

B11 B12 B13

B21 (P1) 5 (P2) 2 (P3) 3

B22 (P2) 3 (P3) 4 (P1) 6

B23 (P3) 3 (P1) 6 (P2) 2

Conceptos:

Factor principal: los diferentes tratamientos P1, P2, P3, luego K = 3

Factor bloque 1: las alternativas B11, B12, B13, luego R= 3

Factor bloque 2: las alternativas B21, B22; B23, luego L= 3

K=R=L=3

Unidades experimentales: 9 tiendas (3x3)

Variable dependiente: unidades vendidas

n el número de mediciones 9

xijk unidades vendidas

mi media de las unidades vendidas B1

mj media de las unidades vendidas B2

mk media de unidades vendidas por tratamiento

m la media total

Cálculos

B11 B12 B13 S mj

B21 5 2 3 10 3´3

B22 3 4 6 13 4´3

B23 3 6 2 11 3´4

S 11 12 11

mi 3´4 4 3´4

mk toma los valores 5´7, 2´3 y 3´3

Page 116: Anal is is Multi Variable

Análisis Multivariante

115

mkP1 = (5+6+6) : 3 = 5´7,

Dispersión total DT = 19´556

Dispersión factorial (mk)DF = 17´556

Dispersión bloque 1 (mi) DB1 = 0´222

Dispersión bloque 2 (mj) DB2 = 1´556

Dispersión residual DR = DT -DF - DB1 - DB2

DR = 0´222

Cuadrado medio factorial CMF =17´556 : 2 = 8´778

Cuadrado medio bloque 1 CMB1 =0´222 : 2 = 0´111

Cuadrado medio bloque 2 CMB2 = 1´556 :2 = 0´778

Cuadrado medio residual CMR = 0´222 :2 = 0´111

Test de la F

1 Factor principal F = 8´778 : 0´111 = 79´000

El valor de tablas para el 95% y gl 2 y 2 es Ft = 19

Sí que existe significación

2 Factor bloque 1 F = 0´111 : 0´111 = 1, siendo Ft = 19

Es válida H0

2 Factor bloque 2 F = 0´778 : 0´111 = 7, siendo Ft = 19

Es válida H0

La correspondiente salida del SPSS es:

Page 117: Anal is is Multi Variable

Análisis Multivariante

116

9.12.3.1 EXPERIMENTO CUADRADO LATINO (SPSS)

9 100,0% 0 ,0% 9 100,0%N Porcentaje N Porcentaje N Porcentaje

Incluidos Excluidos TotalCasos

Resumen del procesamiento de los casosa

Ventas (miles de unidades) por Envase, Tipo de tienda, REGIÓNa.

5,6667 32,3333 33,3333 33,6667 34,0000 33,6667 33,3333 34,3333 33,6667 33,7778a 9

RegiónTotalTotalTotalTotalTotalTotalCataluñaAragónPais VascoTotal

Tipo de tiendaTotalTotalTotalGran superficieAutoservicioTiendatradicionalTotal

EnvaseVerde/blancoRojo/verdeAzul/verdeTotal

Media NVentas (miles de unidades)

Medias de las casillasb,c

Media globala.

Ventas (miles de unidades) por Envase, Tipo de tienda, Regiónb.

No se han calculado las medias de orden 2 o superior debido al límiteen el orden máximo de interacción.

c.

19,333 6 3,222 29,000 ,03417,556 2 8,778 79,000 ,013

,222 2 ,111 1,000 ,5001,556 2 ,778 7,000 ,125

19,333 6 3,222 29,000 ,034,222 2 ,111

19,556 8 2,444

Ventas (miles de unidades)(Combinadas)EnvaseTipo de tiendaRegión

Efectos principales

ModeloResidualTotal

Suma decuadrados gl

Mediacuadrática F Sig

Método jerárquico

ANOVAa

Ventas (miles de unidades) por Envase, Tipo de tienda, Regióna.

Page 118: Anal is is Multi Variable

Análisis Multivariante

117

9.12.4 EXPERIMENTO CON INTERCAMBIO

Este procedimiento consiste básicamente en la aplicación alternativa y sucesiva de los

diferentes tratamientos a las unidades experimentales. El orden de aplicación de los

diversos tratamientos sobre las unidades experimentales debe ser al azar, con la

condición de que haya el mismo número de unidades experimentales que reciba primero

un tratamiento y después los otros.

Este tipo de experimento combina las características de los bloques aleatorios y los de

los cuadrados latinos pequeños.

9.12.5 EXPERIMENTO FACTORIAL

En los experimentos comerciales de tipo factorial se controlan varios factores

principales, midiendo sus efectos individuales y los conjuntos sobre la variable

dependiente.

Esta es una situación muy habitual en el área de Marketing, donde la aplicación del

Marketing mix produce en el mercado unos resultados diferentes del que se obtendría

por la suma de los efectos aislados de cada factor del mix de Marketing.

La técnica estadística que se utiliza se denomina ANOVA de vía múltiple.

Veamos este experimento con un caso práctico:

CASO PRACTICO

Una empresa realiza un experimento con tres tipos de promoción (Puntos, precio y

sorteo) y dos modelos de envase (500 y 1.000 cc.). El estudio lo realiza en una gran

superficie y en una tienda tradicional, durante un mes.

Los resultados en miles de unidades de producto vendidas son las indicadas en el

siguiente cuadro.

P1 P2 P3

E1 40 34 28

36 28 20

E2 30 26 14

22 16 10

Page 119: Anal is is Multi Variable

Análisis Multivariante

118

SOLUCIÓN

Factor principal 1 los modelos de envase E1, E2 a=2

Factor principal 2 los tipos de promoción P1, P2, P3 b=3

Unidades experimentales: 12 (dos por cada combinación de factores) K = 2

Variable dependiente: unidades vendidas

n es el número de mediciones totales (12)

xijk unidades vendidas en las diferentes mediciones

mi es la media de unidades vendidas por alternativas del factor 1

mj es la media de unidades vendidas por alternativas del factor 2

mk es la media de unidades vendidas por cada combinación de factores

m es la media total

Cálculos

P1 P2 P3 S mj

E1 40 34 28 186 31

36 28 20

E2 30 26 14 118 19´67

22 16 10

S 128 104 72 304

mi 32 26 18

P1E1 P1E2 P2E1 P2E2 P3E1 P3E2

mk 38 26 31 21 24 12

Siendo m = 25´3

Dispersión Total DT = 930´667

Dispersión Factor 1

DF aK m mj1 2= −∑ ( ) Sustituyendo obtenemos:

DF1 = (2x2) ( 31 - 25´3)2 +(2x2) ( 19´6 - 25´3)2 = 385´33

Page 120: Anal is is Multi Variable

Análisis Multivariante

119

Dispersión factor 2

DF bK m mi2 2= −∑ ( ) Sustituyendo obtenemos

DF2 = (3x2) (32 - 25´3)2 + (3x2) (26 - 25´3)2 + (3x2) (18 - 25´3)2 = 394´667

Dispersión de la interacción

DIN = S(m +mk - mj - mi)2

DIN = 2´667

Dispersión residual

DR = DT - DF1 - DF2 - DIN

DR = 148

Cuadrado medio del factor 1 CMF1 = 385´333 : 1 = 385´333 (gl= a-1)

Cuadrado medio del factor 2 CMF2 = 394´667 :2 = 197´33 (gl=b-1)

Cuadrado medio de la interacción (CMIN)

CMINDIN

a b=

− −( )( )1 1 Sustituyendo obtenemos: CMIN = 1´333

Cuadrado medio residual (CMR)

CMRDR

ab K=

−( )1 Sustituyendo obtenemos CMR = 24´667

Test de la F

1 Factor 1

F= 385´333 : 24´667 = 15´622

Ft para el 95% y gl 1 y 6 es 5´99

Por tanto existe un efecto significativo.

2 Factor 2

F = 197´333 : 24´667 = 8

Ft para el 95% y gl 2 y 6 es 5´14

Page 121: Anal is is Multi Variable

Análisis Multivariante

120

Por tanto existe un efecto significativo.

3 Interacción

F = 1´333 : 24´667 = 0´054

Como el valor de F es menor de la unidad, nos indica que no existe un efecto

significativo de la interacción de los dos factores objeto de la experimentación sobre la

demanda.

No es preciso comparar con tablas.

La correspondiente salida con el paquete estadístico SPSS es la siguiente:

Page 122: Anal is is Multi Variable

Análisis Multivariante

121

9.12.5.1 EXPERIMENTO FACTORIAL SIMPLE (SPSS)

12 100,0% 0 ,0% 12 100,0%N Porcentaje N Porcentaje N Porcentaje

Incluidos Excluidos TotalCasos

Resumen del procesamiento de los casosa

Ventas (miles de unidades) por Envase, Promocióna.

38,00 231,00 224,00 231,00 626,00 221,00 212,00 219,67 632,00 426,00 418,00 425,33a 12

PromociónPuntosPrecioSorteoTotalPuntosPrecioSorteoTotalPuntosPrecioSorteoTotal

Envase500 cc.

1000 cc.

Total

Media NVentas (miles de unidades)

Medias de las casillasb

Media globala.

Ventas (miles de unidades) por Envase, Promociónb.

780,000 3 260,000 10,541 ,008385,333 1 385,333 15,622 ,008394,667 2 197,333 8,000 ,020

2,667 2 1,333 ,054 ,948

782,667 5 156,533 6,346 ,022148,000 6 24,667930,667 11 84,606

Ventas (miles de unidades)(Combinadas)EnvasePromoción

Efectos principales

Envase *Promoción

Interacciones de orden 2

ModeloResidualTotal

Suma decuadrados gl

Mediacuadrática F Sig

Método jerárquico

ANOVAa

Ventas (miles de unidades) por Envase, Promocióna.

Page 123: Anal is is Multi Variable

Análisis Multivariante

122

TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F (Nivel de confianza 95%)

m

n 1 2 3 4 5

1 161´4 199´5 215´7 224´6 230´2

2 18´51 19 19´16 19´25 19´30

3 10´13 9´55 9´28 9´12 9´01

4 7´71 6´94 6´59 6´39 6´26

5 6´61 5´79 5´41 5´19 5´05

6 5´99 5´14 4´76 4,53 4´39

7 5´59 4´74 4´35 4´12 3´97

8 5´32 4´46 4´07 3´84 3´69

9 5´12 4´26 3´86 3´63 3´48

10 4´96 4´10 3´71 3´48 3´33

11 4´84 3´98 3´59 3´36 3´20

12 4´75 3´89 3´49 3´26 3´11

13 4´67 3´81 3´41 3´18 3´03

14 4´6 3´74 3´34 3´11 2´96

15 4´54 3´68 3´29 3´06 2´90

Siendo m los grados de libertad del numerador y n los grados de libertad del

denominador.

Page 124: Anal is is Multi Variable

Análisis Multivariante

123

ANEXO 1 RESUMEN DEL MÉTODO ANOVA TRADICIONAL

El proceso de este método es:

Se determinan las siguientes dispersiones:

1.- Dispersión total (DT)

Mide la suma de las dispersiones.

2.- Dispersión factorial (DF)

Mide la dispersión entre los grupos creados por las diferentes alternativas del factor o

factores estudiados.

Dependiendo del tipo de experimento, pueden existir varias dispersiones factoriales,

correspondientes al factor principal y a los factores de bloque.

3.- Dispersión residual (DR)

Mide la dispersión dentro de los grupos creados por las diferentes alternativas del factor

o factores estudiados.

DT = DF + DR DR = DT - DF

4.- Se calcula el cuadrado medio total (CMT)

Se trata de la dispersión total dividida por el número de grados de libertad.

CMT = DT / gl donde gl son los grados de libertad.

5.- Se calcula el cuadrado medio factorial (CMF)

Se trata de la dispersión factorial dividida por el número de grados de libertad.

CMF = DF / gl

Dependiendo del tipo de experimento pueden existir varias varianzas factoriales,

correspondiendo al factor principal y a los factores bloque.

6.- Se calcula el Cuadrado medio residual (CMR)

Se trata de la dispersión residual dividida por el número de grados de libertad.

CMR = DR / gl

7 Se realiza el test de la F

Para cada factor estudiado se calcula:

7-1.- Se calcula el estadístico F

F = CMF / CMR

Page 125: Anal is is Multi Variable

Análisis Multivariante

124

Si el valor de F es menor que uno, es decir CMF < CMR, no existe un efecto

significativo del factor estudiado sobre la variable dependiente, y por tanto no es

necesario realizar la comparación de F con el correspondiente valor de las tablas.

7-2.- Se determina el valor de F en las tablas estadísticas de la distribución de la F, en

base a los grados de libertad del numerador y del denominador.

7-3.- Se comparan ambos valores.

La hipótesis nula H0 es: NO EXISTE EFECTO SIGNIFICATIVO DEL FACTOR

ESTUDIADO.

Entonces:

Si F > Ft (tabla), no se cumple H0 y por tanto el factor estudiado tiene una influencia

significativa sobre la variable dependiente.

Si F= Ft (tabla), entonces se cumple H0

ANEXO 2 RESUMEN DE TÉRMINOS UTILIZADOS

A continuación vamos a explicar brevemente los conceptos utilizados habitualmente en

la Investigación Comercial por experimentación.

Diseño experimental. Forma de atribuir los diferentes tratamientos a las unidades

experimentales.

Dispersión de bloque. Variación que se produce como consecuencia de la acción de

diversas variables que no pueden ser controladas, pero cuya existencia conocemos.

Dispersión factorial. Variación producida como consecuencia de la influencia de los

diversos tratamientos (factores), cuyos efectos se quieren medir y comparar.

Dispersión residual. Variación que se produce como consecuencia de diferentes

variables, cuyo valor y presencia no conocemos (es decir están sin controlar). También

se llama “error experimental”.

Dispersión total. Es la variación total originada por los diferentes tratamientos, factores

no controlados y las interacciones entre los diversos tratamientos.

Grados de libertad. Expresan el número de datos independientes necesarios para

calcular el valor de un parámetro.

Interacción. Variación que se produce como consecuencia de la influencia recíproca

entre varios tratamientos.

Page 126: Anal is is Multi Variable

Análisis Multivariante

125

Repetición. Consiste en realizar dos o más veces una experimentación bajo las mismas

condiciones, con el objetivo de obtener una conclusión. También se denomina “réplica”.

Tratamiento. Proceso o variable cuyos efectos se quieren medir y comparar.

Unidad experimental. Conjunto de elementos a los que se aplica el mismo tratamiento,

cuyos efectos se quieren medir y comparar.

Varianza. Es la medida de dispersión de un conjunto de datos con relación a su media.

Matemáticamente se expresa por la fórmula siguiente:

( )σ

µ2

2

1=−

=∑ X

N

ii

N

donde Xi es el valor del dato, µ es la media del universo o

población (N).

Cuando la varianza que se quiere calcular corresponde a una muestra, el valor de N de

dicha muestra se sustituye por los grados de libertad (n-1). La expresión matemática

correspondiente es.

( )S

x m

n

ii

n

2

2

1

1=

−=∑

donde n es el tamaño de la muestra, m es la media de la

muestra, y xi = valor del dato correspondiente.

9.13 BIBLIOGRAFÍA

Análisis Multivariable para las Ciencias Sociales. Lévy Varela Editorial Perrazo

Prentice Hall 2003

El Análisis de la Varianza en la Investigación Comercial. Gregoria Mateos-Aparicio y

Miguel Martín. Prentica Hall 2002

Page 127: Anal is is Multi Variable

Análisis Multivariante

126

ANÁLISIS DISCRIMINANTE

Page 128: Anal is is Multi Variable

Análisis Multivariante

127

10. ANALISIS DISCRIMINANTE

Introducción

Vamos a reseñar en el siguiente esquema de situación la técnica del Análisis

Discriminante entre los diferentes procedimientos multivariables

Análisis multivariante

Dos grupos de variables

Método Explicativo

Número de variables a explicar: UNA

Tipo de la variable a explicar: Cualitativa

Tipo de las variables explicativas: Métricas

Análisis Discriminante

10.1 CONCEPTO

El análisis discriminante se utiliza para seleccionar entre diferentes grupos, mediante el

análisis de datos con una variable dependiente categórica y variables independientes

medidas en escalas de intervalo. Trata de explicar la pertenencia de las observaciones a

las diferentes categorías o grupos preestablecidos

Page 129: Anal is is Multi Variable

Análisis Multivariante

128

10.1.1 EJEMPLO

Variable dependiente o criterio: Marca de Refresco que toman los consumidores (Fanta,

Kas, Schweppes)

Variables independientes o de predicción: Las valoraciones obtenidas a través de una

escala Diferencial Semántico (7 puntos).

10.2 OBJETIVOS DEL AD

• Explicar la pertenencia de individuos u objetos a grupos preestablecidos

• Desarrollar las funciones discriminantes. Se trata de combinaciones lineales de

las variables independientes (predictoras), que discriminan mejor entre las

categorías (Grupos) de la variable dependiente.

• Identificar diferencias significativas entre los grupos en función de las variables

predictoras

• Determinar las variables independientes (predictoras) que más contribuyen a la

diferencia entre grupos.

• Clasificar los casos para uno de los grupos en función de las variables

predictoras.

• Evaluar la exactitud de la clasificación.

10.3 CLASIFICACIÓN DEL AD

Las técnicas del AD se clasifican por el número de categorías que tiene la variable

criterio

1. Análisis discriminante de dos grupos: la variable criterio tiene dos categorías

(dicotómica)

2. Análisis discriminante múltiple: la variable criterio tiene tres o más categorías

Page 130: Anal is is Multi Variable

Análisis Multivariante

129

10.4 RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN

Las similitudes entre las tres técnicas y sus diferencias las resumimos en el siguiente

cuadro

Análisis

Discriminante

ANOVA REGRE-

SION

N de variables dependientes Una Una Una

N de variables independientes Varias Varias Varias

Naturaleza de la variable dependiente Categórica Métrica Métrica

Naturaleza de la variable independiente Métricas Categóricas Métricas

El análisis discriminante de dos grupos está estrechamente relacionado con la Regresión

múltiple. En esta situación la variable dependiente se clasifica como binaria (0 y 1) da

como resultado coeficientes de regresión parcial proporcionales a los coeficientes de la

función discriminante.

10.5 MODELO DEL AD

El modelo estadístico en que se fundamenta el AD comprende combinaciones lineales

de la siguiente estructura:

D = b0 + b1x1 + b2 x2 + b3 x3 + …..+ bk xk

Siendo

• D la calificación discriminante

• B los coeficientes discriminantes

• X variables predictoras

Page 131: Anal is is Multi Variable

Análisis Multivariante

130

10.6 SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD

10.6.1 SUPUESTOS:

1. Cada uno de los grupos es una muestra de una población normal de variables

múltiples

2. Todas las poblaciones tienen la misma matriz de covarianza

10.6.2 ESTADÍSTICOS

Los estadísticos que más importancia y tienen mayor relación son:

• Correlación Canónica: Mide la asociación entre la única función discriminante

y el conjunto de variables simuladas que definen los datos del grupo (algunos

autores llaman membresía, aunque esta palabra no existe en nuestro idioma, la

podemos considerar equivalente a membrete) del grupo. Mide el grado de

asociación entre los valores discriminantes y los grupos.

• Centroide. Esta formado por los valores medios de las calificaciones

discriminantes para un determinado grupo. Por tanto existen tantos centroides

como grupos. Las medias para un grupo en todas las funciones es el centroide

del grupo.

• Matriz de clasificación o matriz de confusión o predicción. Contiene el

número de casos que se clasifican en forma correcta y errónea. Los casos

clasificados correctamente se distribuyen en la diagonal. La suma de los casos

de la diagonal dividida por el total de casos es la razón de aciertos.

• Coeficientes de la función discriminante. Los no estandarizados son los

multiplicadores de las variables, cuando estas se encuentran en las unidades de

medición originales.

Page 132: Anal is is Multi Variable

Análisis Multivariante

131

• Calificaciones discriminantes. Los coeficientes no estandarizado se multiplican

por los valores de las variables independientes y se suman al valor constante (b0)

obteniéndose el valor D (Calificación Discriminante)

• Valor específico. Es la razón de la suma de los cuadrados entre y dentro de los

grupos. Los valores específicos altos indican funciones superiores.

• Valores F. Se determinan a partir del ANOVA unidireccional, con la variable de

grupo como variable independiente categórica. Cada indicador sirve como

variable dependiente métrica del ANOVA.

• Medias y desviaciones estándar. Se determinan para cada indicador de cada

grupo

• Matriz agrupada de correlaciones dentro de cada grupo. Se calcula mediante

el promedio de las matrices de covarianza separadas para todos los grupos.

• Coeficientes estandarizados de función discriminante. Se utilizan com

multiplicadores cuando las variables se estandarizan con media 0 y varianza 1

• Correlaciones de estructura. También se llaman cargas discriminantes,

representan las correlaciones sencillas entre los indicadores y la función

discriminante

• Matriz de correlación total. Los casos se tratan como si fueran de una sola

muestra y se determinan las correlaciones

• La λ de Wilks. También llamado estadístico U Para cada indicador es la razón

de la suma de los cuadrados dentro de los grupos con la suma total de cuadrados.

Su valor esta comprendido entre 0 y 1 Los valores próximos a 1 indica que las

medias de un grupo no parecen ser muy diferentes si es cercano a 0 indica que

las medias de los grupos parecen diferentes.

Page 133: Anal is is Multi Variable

Análisis Multivariante

132

10.7 PASOS DEL ANÁLISIS DISCRIMINANTE

Los pasos o fases que contiene el análisis discriminante son:

1. Formular el problema,

2. Estimar los coeficientes de función discriminante,

3. Determinar la significación discriminante,

4. Interpretar los resultados

5. Verificar la validez del análisis discriminante.

10.7.1 FORMULACIÓN DEL PROBLEMA

Hemos de identificar a través de los objetivos que perseguimos la variable criterio y las

variables predictoras o independientes.

La variable criterio debe establecerse en categorías mutuamente excluyentes y

colectivamente exhaustivas.

Las variables predictivas deben escogerse en función del criterio del investigador.

La muestra se divide en dos partes,

Una parte de la muestra se utiliza para el cálculo de la función discriminante (Muestra

de análisis) La otra parte que se suele denominar como proposición o muestra de

validación y se usa para validar la función discriminante.

Cuando la muestra es grande y se divide en dos partes iguales, lo que se hace es

intercambiar el papel de las mitades haciéndose lo que se denomina validación cruzada

doble.

Page 134: Anal is is Multi Variable

Análisis Multivariante

133

10.7.2 ESTIMACIÓN

La muestra de análisis la utilizamos para determinar los coeficientes de función

discriminante.

Método directo. Todos los indicadores se incluyen directamente. Es decir se incluyen

todas las variables sin importar su poder de discriminación

Análisis discriminante discreto. Las variables de predicción entran de forma secuencial,

en función de su capacidad para discriminar entre los grupos.

El primer procedimiento es apropiado cuando, por alguna causa (modelo o experiencias)

el investigador quiere que la discriminación se base en todos los indicadores.

El método discreto es de utilidad cuando se quiere seleccionar un conjunto o

subconjunto de indicadores para su inclusión en la función discriminante final.

10.7.3 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN

Para probar la significación estadística se toma como hipótesis nula (H0) En la

población las medias de todas las funciones discriminantes son iguales en todos los

grupos.

La prueba se basa en la λ de Wilks La significación se calcula con base en una

transformación de ji cuadrado

Normalmente se trabaja para un contraste del nivel de significación α = 5%

Rechazamos H0 cuando la significación calculada sea menor que 0´05

10.7.4 INTERPRETACIÓN

La interpretación de los coeficientes es similar a la que se realiza en el análisis de

regresión múltiple.

El valor del coeficiente de un indicador concreto depende del resto de indicadores que

se incluyan en la función discriminante.

Page 135: Anal is is Multi Variable

Análisis Multivariante

134

Los signos de los coeficientes indican que valores de la variable dan como resultado

valores de la función altos y bajos así como las correlaciones con los grupos

Debido a la posible multicolinealidad en las variables predoctoras, no existe ninguna

medición objetiva de la significación relativa de los indicadores en la discriminación

entre los grupos.

Podemos tener idea de la significación relativa al examinar los coeficientes

estandarizados de la función discriminante

En la praxis, los indicadores con coeficientes estandarizados altos contribuyen más al

poder discriminante.

También se analiza la significación relativa de las variables predoctoras (indicadores)

analizando las correlaciones de estructura (Cargas canónicas o cargas discriminantes)

Estas correlaciones simples entre el indicador y la función discriminante representan la

varianza que la variable independiente comparte con la función.

También podemos añadir a la interpretación de los resultados el Perfil Característico, se

trata de interpretar los resultados mediante la descripción de cada grupo en términos de

las medias de los grupos para las variables de predicción. Una comparación entre las

medias nos ayuda a comprender sus diferencias.

Para una mejor comprensión de estos conceptos reseñamos el siguiente ejemplo del

autor Narres K. Malhotra.

10.7.4.1 EJEMPLO5 LOS VENDEDORES SATISFECHOS CONSERVAN SU

TRABAJO.

Se utilizó el AD para determinar que factores explicaban las diferencias entre los

vendedores que permanecen en la empresa y los que la abandonaron. Las variables

utilizadas pueden observarse en la tabla de resultados

5 Naresh K. Malhotra Investigación de Mercados un enfoque práctico. Segunda edición Prentice Hall 1997

Page 136: Anal is is Multi Variable

Análisis Multivariante

135

El resultado fue: La correlación canónica, un índice de discriminación R = 0,4572 es

significativa λ de Wilk = 0,7909, F (26 - 173) = 1,7588 y p = 0,0180.

Por tanto el resultado indica que las variables consideradas discriminan entre los que se

fueron de la empresa y los que permanecen.

Ejemplo.

Page 137: Anal is is Multi Variable

Análisis Multivariante

136

10.7.5 VALIDACIÓN

Si recordamos los datos se dividían aleatoriamente en dos submuestras. Una la

denominamos muestra de análisis y la utilizamos para estimar la función discriminante

y la segunda que llamamos muestra de validación se utiliza para desarrollar la matriz de

clasificación

Los valores relativos discriminantes que se calculan a través de la muestra de análisis,

se multiplican por los valores de las variables de predicción con el objetivo de obtener

las correspondientes calificaciones discriminantes (D) de la muestra de validación. De

aquí se obtiene la razón de aciertos, que es, el porcentaje de casos que se clasifican

correctamente por medio del Análisis Discriminante.

Es de utilidad el comparar el porcentaje de los casos que se clasificaron de forma

correcta con el AD con el porcentaje que obtendríamos por la probabilidad.

Cuando las dos submuestras tienen el mismo tamaño el porcentaje de clasificación por

probabilidad es 0,5, en general cuando los grupos tienen el mismo tamaño el porcentaje

de clasificación por probabilidad es1 dividido por el número de grupos.

Algunos autores citan que: La exactitud alcanzada por el AD debe ser por lo menos un

25% mayor que la alcanzada por la probabilidad.

Los paquetes estadísticos utilizados habitualmente estiman una matriz de clasificación

con base en la muestra de análisis. Dando significación a la variación probable de esos

datos.

Page 138: Anal is is Multi Variable

Análisis Multivariante

137

10.7.5.1 EJEMPLO:

10.7.5.2 ANÁLISIS DISCRIMINANTE DE DOS GRUPOS.

Page 139: Anal is is Multi Variable

Análisis Multivariante

138

10.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:

Estadísticos; Clasificar; Discriminante; Variable de agrupación ... (cualitativa); Definir rango ... (mín., máx.); Independientes ... (variables cuantitativas o binarias), Introducir independientes juntas Estadísticos: Descriptivos: Medias* y ANOVAs univariados; Matrices: correlación intra-grupos, Coeficientes de la función: no tipificados; Clasificar: Mostrar: Resultados para cada caso* Tabla de resumen Clasificación dejando uno fuera*.

* pedir solo si interesa.

EJEMPLO DE LAS BICICLETAS

Somos una empresa fabricante de Bicicletas y deseamos conocer, a través

Cuáles son las características diferenciadoras de los consumidores de la gama Alta y de

la gama Media de nuestras bicicletas.

180 100,00 ,00 ,0

0 ,0

0 ,0180 100,0

Casos no ponderadosVálidos

Código de grupo de perdido o fuera de rangoPerdida al menos una variable discriminantePerdidos o fuera de rango ambos, el código degrupo y al menos una de las variablesdiscriminantes.Total

Excluidos

Total

N Porcentaje

Resumen del procesamiento para el análisis de casos

Page 140: Anal is is Multi Variable

Análisis Multivariante

139

1. ANÁLISIS UNIVARIANTE:

28,93 7,09 141 141,000,65 ,48 141 141,000

26928,72 6726,99 141 141,000

85,96 30,89 141 141,000

2,91 ,68 141 141,000,47 ,50 141 141,000

2,98 ,79 141 141,000

29,21 6,98 39 39,000,64 ,49 39 39,000

42587,18 12704,88 39 39,000

168,46 60,02 39 39,000

4,67 ,62 39 39,000,21 ,41 39 39,000

4,44 1,12 39 39,000

28,99 7,05 180 180,000,64 ,48 180 180,000

30321,39 10559,63 180 180,000

103,83 51,70 180 180,000

3,29 ,98 180 180,000,41 ,49 180 180,000

3,29 1,06 180 180,000

edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados porsemanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza labici por semanaedadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados porsemanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza labici por semanaedadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados porsemanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza labici por semana

Gama deProductoMedia

Alta

Total

Media Desv. típ.No

ponderados Ponderados

N válido (según lista)

Estadísticos del grupo

¿Las medias de estas variables para cada uno de los grupos son significativamente

distintas?

Deberíamos hacer un análisis de la varianza, considerando cada una de las variables

independientes como la variable a explicar y como variable explicativa, el factor,

nuestra variable dependiente (el grupo al que pertenece la observación).

Por ejemplo, el resultado obtenido en el análisis de varianza para la variable

“autoevaluación del nivel ciclista” sería el siguiente:

Page 141: Anal is is Multi Variable

Análisis Multivariante

140

ANOVA de un factor

94,510 1 94,510 214,389 ,00078,468 178 ,441

172,978 179

Inter-gruposIntra-gruposTotal

Autoevaluacióndel nivelciclista

Suma decuadrados gl

Mediacuadrática F Sig.

ANOVA

El análisis discriminante efectúa ese mismo análisis para todas las variables

explicativas:

1,000 ,047 1 178 ,8291,000 ,003 1 178 ,960

,625 106,929 1 178 ,000

,565 136,839 1 178 ,000

,454 214,389 1 178 ,000,952 9,068 1 178 ,003

,675 85,832 1 178 ,000

edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados porsemanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza labici por semana

Lambdade Wilks F gl1 gl2 Sig.

Pruebas de igualdad de las medias de los grupos

Además del test F, ya conocido, se calcula la Lambda de Wilks:

Total cuadrados de Suma(residual) grupos-intracuadradosde Suma

=WILKSλ

En ambos casos, la H0 es: las medias son iguales.

Si la Significación es pequeña (menor que 0.05 o 0.10) se rechaza la H0. Por tanto, hay

diferencias entre las medias de los grupos.

Finalmente, se obtiene una matriz de correlaciones (intra-grupo) entre las variables

explicativas

Page 142: Anal is is Multi Variable

Análisis Multivariante

141

1,000 ,179 ,716 ,010 ,037 -,010 -,029

,179 1,000 ,159 ,062 -,058 ,079 -,013

,716 ,159 1,000 ,102 ,015 -,009 ,040

,010 ,062 ,102 1,000 ,577 -,138 ,695

,037 -,058 ,015 ,577 1,000 -,180 ,393

-,010 ,079 -,009 -,138 -,180 1,000 -,135

-,029 -,013 ,040 ,695 ,393 -,135 1,000

edadestado civil (1=casado)Ingresofamiliar anual(Euros)Promedio deKm realizadospor semanaAutoevaluacióndel nivelciclistasexo (1=mujer)Promedio deveces queutiliza la bicipor semana

Correlación

edadest.civil Ingreso

Km porsemana

nivelciclista sexo

Vecessem.

Matrices intra-grupo combinadas

La correlación “intra-grupo” se calcula teniendo en cuenta la pertenencia a un

determinaro grupo. Ejemplo:

Page 143: Anal is is Multi Variable

Análisis Multivariante

142

10.9 ANALISIS DEL EFECTO CONJUNTO:

En primer lugar se busca la Función discriminante:

KK XBXBXBBD ++++= Λ22110

siendo los coeficientes B’s aquellos que maximizan la relación Suma de Cuadrados

Explicada / Suma de Cuadrados Residual.

En nuestro ejemplo:

-,10273,01998,00012

-,000251,00256-,01476,14424

-4,38912

edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados por semanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza la bici por semana(Constante)

1Función

Coeficientes de las funciones canónicas discriminantes

Coeficientes no tipificados

Con ellos se pueden calcular las puntuaciones discriminantes para cada observación:

D1 = – 0,102 (22) + 0,019 (0) + 0,0001 (22100) – 0,0002 (120) + + 1,002 (5) – 0,014

(0) + 0,144 (3) – 4,389 = 1,40

22 soltero 22100 120 Profesional (5) hombre 3 1,4003922 soltero 28900 200 Profesional (5) hombre 4 2,3352223 soltero 24650 140 Profesional (5) hombre 4 1,7408523 soltero 31450 100 Experto (4) mujer 3 1,3995823 soltero 28050 100 Profesional (5) hombre 4 2,15595

12345

edadestado civil (1=casado)

Ingresofamiliaranual

(Euros)

Promediode Km

realizadospor

semana

Autoeva-luación del

nivel ciclistasexo

(1=mujer)

Promediode vecesque utilizala bici porsemana

Puntuacionesdiscriminantesde la función 1

para elanálisis 1

Resúmenes de casosa

Limitado a los primeros 5 casos.a.

Page 144: Anal is is Multi Variable

Análisis Multivariante

143

Las puntuaciones discriminantes se pueden guardar, pudiéndose utilizar en otros

análisis. Por ejemplo, podemos comprobar como se han separado los grupos con un

análisis de varianza:

141 -,8222 ,8910 ,0750 -,9705 -,673839 2,9725 1,3263 ,2124 2,5425 3,4024

180 ,0000 1,8579 ,1385 -,2733 ,2733

MediaAltaTotal

GamadeProducto

Puntuacionesdiscriminantesde la función 1

N MediaDesv.típica

Errortípico

Límiteinferior

Límitesuperior

Intervalo de confianzapara la media al 95%

Descriptivos

439,903 1 439,903 439,903 ,000178,000 178 1,000617,903 179

Inter-gruposIntra-gruposTotal

Puntuacionesdiscriminantesde la función 1

Suma decuadrados gl

Mediacuadrática F Sig.

ANOVA

Como también hace el análisis discriminante:

Análisis 1: Resumen de las funciones canónicas discriminantes

,288 217,174 7 ,000

Contrastede lasfunciones1

Lambdade Wilks Chi-cuadrado gl Sig.

Lambda de Wilks

SC Explicada / SC Residual = 439,9 / 178

2,471a 100,0 100,0 ,844Función1

Autovalor% de

varianza%

acumuladoCorrelación

canónica

Autovalores

Se han empleado las 1 primeras funcionesdiscriminantes canónicas en el análisis.

a.

R≡==Total SC

Explicada SC9,6179,439

SC Residual / SC Total = 178 / 617,9

Page 145: Anal is is Multi Variable

Análisis Multivariante

144

Después de comprobar que los grupos tienen unas medias estadísticamente diferentes,

se pueden analizar los coeficientes de la función discriminante y la correlación entre

ésta y las variables:

-,726,010,997

-,010,666

-,007,125

edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados por semanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza la bici por semana

1Función

Coeficientes estandarizados de las funciones discriminantes canónicas

,698,558,493,442

-,144,010

-,002

Autoevaluación del nivel ciclistaPromedio de Km realizados por semanaIngreso familiar anual (Euros)Promedio de veces que utiliza la bici por semanasexo (1=mujer)edadestado civil (1=casado)

1Función

Matriz de estructura

Correlaciones intra-grupo combinadas entre las variablesdiscriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.

-,103,020,000,000

1,003-,015,144

-4,389

edadestado civil (1=casado)Ingreso familiar anual (Euros)Promedio de Km realizados por semanaAutoevaluación del nivel ciclistasexo (1=mujer)Promedio de veces que utiliza la bici por semana(Constante)

1Función

Coeficientes de las funciones canónicas discriminantes

Coeficientes no tipificados

Page 146: Anal is is Multi Variable

Análisis Multivariante

145

10.10 CLASIFICACIÓN DE LAS OBSERVACIONES:

La probabilidad de pertenecer a un grupo g dado una puntuación discriminante d se

calcula a través del teorema de Bayes:

∑∀

=•=>=•=>

===

ggGPgGdDP

gGPgGdDPdDgGP

)()|()()|(

)|(

donde P(G = g) es la probabilidad a priori.

Normalmente se supone que la probabilidad a priori es la misma para cada grupo, pero

se puede asignar en función del peso de cada grupo.

P(D > d | G = g) es una probabilidad condicionada.

Es la probabilidad de obtener un valor discriminante superior a d dado que la

observación pertenece al grupo g. Se calcula a partir de la distribución de puntuaciones

discriminantes de la muestra.

-,8222,972

Gama de ProductoMediaAlta

1Función

Funciones en los centroides de los grupos

Funciones discriminantes canónicas no tipificadasevaluadas en las medias de los grupos

Page 147: Anal is is Multi Variable

Análisis Multivariante

146

A partir de estas probabilidades se puede calcular la probabilidad a posteriori, la

probabilidad de pertenecer al grupo g, dado que el valor discriminante es d.

La observación se clasifica en el grupo que tiene una mayor probabilidad.

Estadísticos de clasificación

,500 141 141,000,500 39 39,000

1,000 180 180,000

Gama deProductoMediaAltaTotal

PreviasNo

ponderados Ponderados

Casos utilizados en elanálisis

Probabilidades previas para los grupos

Page 148: Anal is is Multi Variable

Análisis Multivariante

147

2 2 ,116 1 ,775 2,471 1 ,225 4,940 1,4002 2 ,524 1 ,992 ,406 1 ,008 9,969 2,3352 2 ,218 1 ,926 1,517 1 ,074 6,569 1,7412 2 ,116 1 ,774 2,474 1 ,226 4,936 1,4002 2 ,414 1 ,984 ,667 1 ,016 8,869 2,1562 2 ,185 1 ,898 1,754 1 ,102 6,102 1,6482 2 ,774 1 ,998 ,082 1 ,002 12,307 2,6862 2 ,610 1 ,995 ,261 1 ,005 10,785 2,4622 2 ,373 1 ,979 ,794 1 ,021 8,430 2,0812 2 ,227 1 ,932 1,460 1 ,068 6,690 1,7642 1** ,141 1 ,834 2,165 2 ,166 5,398 ,6492 2 ,851 1 ,998 ,035 1 ,002 13,007 2,7842 1** ,216 1 ,925 1,528 2 ,075 6,545 ,4142 2 ,410 1 ,983 ,679 1 ,017 8,824 2,1482 2 ,503 1 1,000 ,449 1 ,000 19,933 3,6422 2 ,509 1 1,000 ,435 1 ,000 19,842 3,6322 2 ,155 1 ,858 2,024 1 ,142 5,627 1,5502 2 ,505 1 ,991 ,444 1 ,009 9,789 2,3062 2 ,835 1 ,998 ,043 1 ,002 12,865 2,7652 2 ,423 1 ,985 ,642 1 ,015 8,960 2,171

Númerode caso1234567891011121314151617181920

Gruporeal

Grupopronos-ticado p gl

P(D>d |G=g) P(G=g

| D=d)

Distancia deMahalanobisal cuadrado

hasta elcentroide

Grupo mayor

GrupoP(G=g| D=d)

Distancia deMahalanobisal cuadrado

hasta elcentroide

Segundo grupo mayor

Función1

Puntuaciones

discriminantes

Estadísticos por casos

Caso mal clasificado**.

138 3 1412 37 39

97,9 2,1 100,05,1 94,9 100,0

Gama deProductoMediaAltaMediaAlta

Recuento

%

OriginalMedia Alta

Grupo de pertenenciapronosticado

Total

Resultados de la clasificacióna

Clasificados correctamente el 97,2% de los casos agrupadosoriginales.

a.

Page 149: Anal is is Multi Variable

Análisis Multivariante

148

Estadísticos de clasificación utilizando el método de validación

cruzada.

Este método da resultados de clasificación algo más realistas, puesto que trata de

clasificar cada observación en un modelo que se estima con una muestra en la que no se

incluye dicha observación. Por tanto, se realizan tantos modelos como observaciones

haya en la muestra, y con cada uno de ellos se comprueba si se clasifica adecuadamente

o no una observación omitida.

138 3 1412 37 39

97,9 2,1 100,05,1 94,9 100,0

138 3 1412 37 39

97,9 2,1 100,05,1 94,9 100,0

Gama deProductoMediaAltaMediaAltaMediaAltaMediaAlta

Recuento

%

Recuento

%

Original

Validacióncruzada

a

Media Alta

Grupo de pertenenciapronosticado

Total

Resultados de la clasificaciónb,c

La validación cruzada sólo se aplica a los casos del análisis. En lavalidación cruzada, cada caso se clasifica mediante las funcionesderivadas a partir del resto de los casos.

a.

Clasificados correctamente el 97,2% de los casos agrupadosoriginales.

b.

Clasificados correctamente el 97,2% de los casos agrupadosvalidados mediante validación cruzada.

c.

Page 150: Anal is is Multi Variable

Análisis Multivariante

149

10.11 MÉTODO DE INCLUSIÓN POR PASOS: MÉTODO

LAMBDA DE WILKS:

Variables introducidas/eliminadasa,b,c,d

Autoevaluación del nivel ciclista .454 1 1 178.0 214.389 1 178.0 .000Ingreso familiar anual (Euros) .360 2 1 178.0 157.568 2 177.0 .000edad .291 3 1 178.0 143.197 3 176.0 .000

Paso123

IntroducidasEstadís

tico gl1 gl2 gl3 Estadístico gl1 gl2 Sig.F exacta

Lambda de Wilks

En cada paso se introduce la variable que minimiza la lambda de Wilks global.

El número máximo de pasos es 14.a.

La F parcial mínima para entrar es 3.84.b.

La F parcial máxima para eliminar es 2.71c.

El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.d.

Variables en el análisis

1.000 214.3891.000 130.445 .6251.000 46.248 .454

.998 99.817 .455

.488 98.642 .454

.487 41.805 .360

Autoevaluación del nivel ciclistaAutoevaluación del nivel ciclistaIngreso familiar anual (Euros)Autoevaluación del nivel ciclistaIngreso familiar anual (Euros)edad

Paso12

3

ToleranciaF para

eliminarLambdade Wilks

Page 151: Anal is is Multi Variable

Análisis Multivariante

150

Variables no incluidas en el análisis

1.000 1.000 .047 1.0001.000 1.000 9.068 .9521.000 1.000 .003 1.0001.000 1.000 106.929 .6251.000 1.000 85.832 .6751.000 1.000 136.839 .5651.000 1.000 214.389 .454.999 .999 .047 .454.968 .968 .068 .453.997 .997 .285 .453

1.000 1.000 46.248 .360.845 .845 6.567 .437.667 .667 7.150 .436.487 .487 41.805 .291.968 .968 .036 .360.971 .971 .252 .359.844 .844 4.223 .351.659 .659 2.865 .354.968 .487 .025 .291.962 .482 .012 .291.835 .482 1.532 .288.646 .472 .523 .290

edadsexo (1=mujer)estado civil (1=casado)Ingreso familiar anual (Euros)Promedio de veces que utiliza la bici por semanaPromedio de Km realizados por semanaAutoevaluación del nivel ciclistaedadsexo (1=mujer)estado civil (1=casado)Ingreso familiar anual (Euros)Promedio de veces que utiliza la bici por semanaPromedio de Km realizados por semanaedadsexo (1=mujer)estado civil (1=casado)Promedio de veces que utiliza la bici por semanaPromedio de Km realizados por semanasexo (1=mujer)estado civil (1=casado)Promedio de veces que utiliza la bici por semanaPromedio de Km realizados por semana

Pas0

1

2

3

ToleranciaTolerancia

mín.F para

introducirLambdade Wilks

Resumen de las funciones canónicas discriminantes

Autovalores

2.441a 100.0 100.0 .842Función1

Autovalor % de varianza % acumuladoCorrelación

canónica

Se han empleado las 1 primeras funciones discriminantescanónicas en el análisis.

a.

Lambda de Wilks

.291 218.105 3 .000

Contraste delas funciones1

Lambdade Wilks Chi-cuadrado gl Sig.

Page 152: Anal is is Multi Variable

Análisis Multivariante

151

Coeficientes estandarizados de lasfunciones discriminantes canónicas

-.7451.019

.715

edadIngreso familiar anual (Euros)Autoevaluación del nivel ciclista

1Función

Matriz de estructura

.702

.509

.496

.343-.130-.012.010

Autoevaluación del nivel ciclistaPromedio de Km realizados por semanaa

Ingreso familiar anual (Euros)Promedio de veces que utiliza la bici por semanaa

sexo (1=mujer)a

estado civil (1=casado)a

edad

1Función

Correlaciones intra-grupo combinadas entre las variablesdiscriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.

Esta variable no se emplea en el análisis.a.

Coeficientes de las funciones canónicas discriminantes

-.10544.00012

1.07664-4.17625

edadIngreso familiar anual (Euros)Autoevaluación del nivel ciclista(Constante)

1Función

Coeficientes no tipificados

Funciones en los centroides de los grupos

-.8172.954

Gama de Producto1 Media2 Alta

1Función

Funciones discriminantes canónicas no tipificadasevaluadas en las medias de los grupos

Page 153: Anal is is Multi Variable

Análisis Multivariante

152

Estadísticos de clasificación

Resumen del proceso de clasificación

1800

0

180

ProcesadosCódigo de grupo perdido o fuera de rangoPerdida al menos una variablediscriminante

Excluidos

Usados en los resultados

Probabilidades previas para los grupos

.500 141 141.000

.500 39 39.0001.000 180 180.000

Gama de Producto1 Media2 AltaTotal

PreviasNo

ponderados Ponderados

Casos utilizados en elanálisis

Resultados de la clasificacióna

138 3 1412 37 39

97.9 2.1 100.05.1 94.9 100.0

Gama de Producto1 Media2 Alta1 Media2 Alta

Recuento

%

Original1 Media 2 Alta

Grupo de pertenenciapronosticado

Total

Clasificados correctamente el 97.2% de los casos agrupados originales.a.

Page 154: Anal is is Multi Variable

Análisis Multivariante

153

10.12 ANÁLISIS DISCRIMINANTE MÚLTIPLE

Se habla de técnicas de Análisis Discriminante Múltiple (ADM): cuando la variable

criterio tiene tres o más categorías

Si en el ADM existen K categorías o grupos, de la variable criterio, pueden estimarse K

– 1 funciones discriminantes, siempre que el número de variables predictivas

(indicadores) sea mayor a K-1

La primera función tiene la razón más alta que la suma de cuadrados entre los grupos

con la suma de cuadrados dentro de los grupos. La segunda función no correlacionada

con la anterior, tendrá la segunda razón más alta y así sucesivamente. Puede ocurrir que

no todas las razones sean significativas estadísticamente.

10.12.1 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN

La hipótesis nula (H0) es que los centroides de grupo son iguales

Deben tomarse las funciones simultáneamente. Seguidamente se excluye una función y

las medias restantes se prueban en cada paso.

10.12.2 INTERPRETACIÓN

La interpretación de los resultados se realiza a través del examen de los coeficientes

estandarizados de la función discriminante, de los diagramas de dispersión, examen de

la matriz de estructura y del mapa territorial

Mapa territorial: en este diagrama el centroide de cada grupo se indica con un

asterisco (*). Las fronteras de los grupos se muestran por medio de números que

corresponden a los grupos, de esta forma el centroide del grupo 1 esta delimitado por el

número 1, el centroide del grupo 2 por el número 2 y así sucesivamente.

10.12.3 VALIDACIÓN

Se requiere que la mejora con la probabilidad sea al menos un 25% superior.

Page 155: Anal is is Multi Variable

Análisis Multivariante

154

11. CASO PRÁCTICO DE ADM

EL PEQUEÑO COMERCIO DETALLISTA DE ZARAGOZA

11.1.1 INTRODUCCIÓN

A partir de una encuesta personal realizada por IMSO, S.L. a 818 comercios de

Zaragoza, y tras un análisis uni y bivariante (este último validado con la Chi-cuadrado)

se observa que en los comercios el conocimiento y/o empleo de algunas herramientas de

marketing no es excesivamente elevado.

Para la consecución de los objetivos, hemos aplicado algunas técnicas de investigación

comercial a los datos obtenidos con una encuesta estructurada, recogida mediante

entrevista personal, de una muestra estadísticamente representativa del sector comercio

detallista en Zaragoza6. Dado que Zaragoza en los estudios de mercado ha sido

considerada siempre como ciudad piloto, y por tanto representativa del resto de

ciudades del estado español, los resultados obtenidos con esta muestra se pueden

suponer que en cierto modo son representativos del comercio en todo el territorio

nacional.

Para la obtención de la muestra se ha partido del censo de establecimientos que ha

proporcionado la Federación de Empresarios de Comercio de Zaragoza y que está

fundamentado en la base de datos del Servicio de Información Empresarial de la

Diputación General de Aragón. Según el INE, el número total de establecimientos de la

ciudad de Zaragoza es de 13.996, por lo que se trata de un universo finito.

Para la obtención de las unidades muestrales se siguieron las normas y procedimientos

del muestreo sistemático, eligiendo el primer elemento al azar y el resto mediante

adiciones sucesivas del coeficiente de elevación (relación entre el universo y el tamaño

de la muestra) que en este estudio tomaba un valor de 17. Para establecer el contacto

6 Queremos agradecer a IMSO, S.L. la cesión de la encuesta y los datos que nos han permitido la realización del trabajo.

Page 156: Anal is is Multi Variable

Análisis Multivariante

155

con el propietario, gerente o encargado del establecimiento comercial se utilizó el

procedimiento del telemarketing, concertando cita y hora para la celebración de la

entrevista. La fase de recogida se realizó durante el primer trimestre de 1996.

Una vez depurados los cuestionarios han quedado 818 entrevistas válidas, lo que para

un nivel de confianza del 95,5% y un nivel de indeterminación máximo p=q=0,5,

supone trabajar con un error máximo del 3,3%. La encuesta incluía preguntas acerca de

las características de los establecimientos, número de empleados, actividad que realizan

en el establecimiento y nivel de estudios de estos empleados, opiniones sobre la

formación continuada (cuándo, por qué, dónde debe hacerse, qué cursos, duración, etc.),

aspectos de marketing conocidos y/o utilizados, etc. En global se han realizado 82

preguntas que generan un total de 253 ítems.

Las técnicas aplicadas para la explotación de esta información son las siguientes. En

primer lugar, se ha realizado un análisis univariante sobre todas las variables de la base

relacionadas con características o atributos de los establecimientos así como sobre las

variables relacionadas a herramientas concretas de marketing.

Posteriormente, y dada la naturaleza cualitativa de las variables de la base, se ha

aplicado el contraste de la Chi-cuadrado que permite establecer la asociación o la

independencia entre dos variables cualitativas.

Como se puede suponer, en este trabajo se ha establecido relación entre las variables

que recogen atributos de los establecimientos entrevistados y las variables que

contienen información sobre el empleo/conocimiento de algunas herramientas del área

de marketing.

Page 157: Anal is is Multi Variable

Análisis Multivariante

156

En el siguiente cuadro se presenta la ficha técnica de la encuesta realizada:

CUADRO 1. Ficha técnica de la encuesta.

Características

Universo Empresas sección G, divisiones 50, 51 y 52

CNAE937

Ámbito geográfico Ciudad de Zaragoza

Unidad muestral Empresa comercial: establecimientos

Método de recogida de información Encuesta personal estructurada

Tamaño de la muestra 818 encuestas válidas

Nivel de confianza 95,5%, p = q = 0,5

Error muestral 3,3%

Procedimiento de muestreo Sistemático: coeficiente de elevación 17

Fecha trabajo de campo Octubre de 1995 a Abril de 1996

Fuente: elaboración propia

Tras la aplicación de diferentes técnicas de investigación de reducción de dimensiones

(análisis factorial de componentes principales y de correspondencias) se produce la

siguiente reclasificación de los establecimientos comerciales en tres categorías según el

grado de utilización de herramientas de marketing.

Para verificar este aspecto hemos realizado tablas de contingencia cruzando la variable

Grado de Aplicación de Marketing y cada una de las variables utilizadas en el análisis

HOMALS.

En todos los casos, el estadístico de la Chi cuadrado permitía rechazar la hipótesis nula

de independencia entre las variables con un nivel de confianza prácticamente absoluto.

7 Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la división 526 de la CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.

Page 158: Anal is is Multi Variable

Análisis Multivariante

157

CUADRO 2 Recodificación de la variable Marketing

Tabla de frecuencia Grado aplicación de marketing

Categoría Definición Frecuencia Porcentaje No Marketing Dimensión 1 <= 0 412 50,4 Marketing Básico Dimensión 1 > 0 y Dimensión 2 > 0 261 31,9 Marketing Sofisticado Dimensión 1 > 0 y Dimensión 2 < 0 145 17,7

Total 818 100,0 Fuente: elaboración propia.

11.1.2 ANÁLISIS DISCRIMINANTE

Con los datos obtenidos vamos a ilustrar este caso de análisis discriminante de tres

grupos.

El objetivo que se persigue es determinar las características diferenciales de las

empresas que no aplican técnicas de marketing, frente a las que hacen un marketing

básico o a las que realizan uno de sofisticado. Adicionalmente, el modelo permitirá

predecir en que grupo se clasificarán otras empresas no incluidas en la muestra. De esta

manera, se podría por ejemplo, determinar cuales son las empresas que pueden resultar

más interesantes para un consultor en Marketing.

Discriminante

Resumen del procesamiento para el análisis de casos

475 100.00 .00 .0

0 .0

0 .0475 100.0

Casos no ponderadosVálidos

Códigos de grupo perdidos o fuera de rangoPerdida al menos una variable discriminantePerdidos o fuera de rango ambos, el código de grupoy al menos una de las variables discriminantes.Total excluidos

Excluidos

Casos Totales

N Porcentaje

Page 159: Anal is is Multi Variable

Análisis Multivariante

158

Estadísticos de grupo

.263 .441 228 228.000

19.189 19.185 228 228.000

.140 .348 228 228.0002.184 2.774 228 228.000

.206 .405 228 228.000

.860 .348 228 228.000-.214 .995 228 228.000-.050 1.069 228 228.000-.156 .991 228 228.000.406 .493 155 155.000

18.942 19.395 155 155.000

.181 .386 155 155.0003.781 4.418 155 155.000

.445 .499 155 155.000

.645 .480 155 155.000

.087 1.003 155 155.000

.013 .951 155 155.000

.218 1.005 155 155.000

.467 .502 92 92.000

19.446 27.532 92 92.000

.359 .482 92 92.0005.630 9.490 92 92.000

.674 .471 92 92.000

.728 .447 92 92.000

.384 .871 92 92.000

.103 .899 92 92.000

.019 .952 92 92.000

.349 .477 475 475.000

19.158 21.072 475 475.000

.196 .397 475 475.0003.373 5.389 475 475.000

.375 .485 475 475.000

.764 .425 475 475.000

.000 1.000 475 475.000

.000 1.000 475 475.000

.000 1.000 475 475.000

Es una sociedadAntigüedad delestablecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenadorEs una sociedadAntigüedad delestablecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenadorEs una sociedadAntigüedad delestablecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenadorEs una sociedadAntigüedad delestablecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenador

Gradoaplicación demarketing1 NoMarketing

2 MarketingBásico

3 MarketingSofisticado

Total

Media Desv. típ.No

ponderadosPondera

dos

N válido (según lista)

Page 160: Anal is is Multi Variable

Análisis Multivariante

159

Pruebas de igualdad de las medias de los grupos

.968 7.861 2 472 .0001.000 .017 2 472 .983

.958 10.472 2 472 .000

.941 14.887 2 472 .000

.861 38.140 2 472 .000

.949 12.766 2 472 .000

.947 13.235 2 472 .000

.997 .790 2 472 .455

.973 6.607 2 472 .001

Es una sociedadAntigüedad del establecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenador

Lambdade Wilks F gl1 gl2 Sig.

Matrices intra-grupo combinadas

1.000 -.088 .286 .319 .186 -.180 -.063 -.020 .098

-.088 1.000 -.189 .213 .056 .026 -.066 .048 .048

.286 -.189 1.000 .025 .069 -.087 .065 .064 -.019

.319 .213 .025 1.000 .139 -.175 -.080 .039 .115

.186 .056 .069 .139 1.000 -.035 .106 .095 .175-.180 .026 -.087 -.175 -.035 1.000 .052 .146 -.135

-.063 -.066 .065 -.080 .106 .052 1.000 -.014 -.025

-.020 .048 .064 .039 .095 .146 -.014 1.000 -.005

.098 .048 -.019 .115 .175 -.135 -.025 -.005 1.000

CorrelaciónEs una sociedadAntigüedad delestablecimiento (años)EstablecimientoasociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF GenéricosMarketingVal. PF Atención clienteVal. PF Ténicos porordenador

Essociedad

Antigüedad

(años)Estab.

asociado

Núm.emplea

dos

Realizaformaci

ónVentas enmostrador

Val. PFGenéricosMarketing

Val. PFAtencióncliente

Val. PFTénicos

ordenador

Page 161: Anal is is Multi Variable

Análisis Multivariante

160

Análisis 1

Resumen de las funciones canónicas discriminantes

Autovalores

.285a 84.4 84.4 .471

.053a 15.6 100.0 .224

Función12

Autovalor % de varianza % acumuladoCorrelación

canónica

Se han empleado las 2 primeras funciones discriminantescanónicas en el análisis.

a.

Lambda de Wilks

.739 141.439 18 .000

.950 24.090 8 .002

Contraste delas funciones1 a la 22

Lambdade Wilks Chi-cuadrado gl Sig.

Coeficientes estandarizados de las funciones discriminantescanónicas

.012 -.238-.032 .046.246 .508.363 .309.622 .147

-.240 .690.403 -.043.061 -.131.037 -.491

Es una sociedadAntigüedad del establecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenador

1 2Función

Page 162: Anal is is Multi Variable

Análisis Multivariante

161

Matriz de estructura

.753* .056

.469* .097

.443* .043

.337* -.138

.107* .038-.324 .676*.204 -.552*.358 .387*.004 .036*

Realiza formaciónNúmero empleadosVal. PF Genéricos MarketingEs una sociedadVal. PF Atención clienteVentas en mostradorVal. PF Ténicos por ordenadorEstablecimiento asociadoAntigüedad del establecimiento (años)

1 2Función

Correlaciones intra-grupo combinadas entre las variablesdiscriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.

Mayor correlación absoluta entre cada variable y cualquierfunción discriminante.

*.

Coeficientes de las funciones canónicas discriminantes

.026 -.507-.002 .002.631 1.305.069 .059

1.380 .327-.578 1.664.413 -.044.060 -.131.037 -.497

-.412 -1.713

Es una sociedadAntigüedad del establecimiento (años)Establecimiento asociadoNúmero empleadosRealiza formaciónVentas en mostradorVal. PF Genéricos MarketingVal. PF Atención clienteVal. PF Ténicos por ordenador(Constante)

1 2Función

Coeficientes no tipificados

Funciones en los centroides de los grupos

-.505 9.837E-02.231 -.314.861 .285

Grado aplicación demarketing1 No Marketing2 Marketing Básico3 Marketing Sofisticado

1 2Función

Funciones discriminantes canónicas no tipificadasevaluadas en las medias de los grupos

Page 163: Anal is is Multi Variable

Análisis Multivariante

162

Estadísticos de clasificación

Resumen del proceso de clasificación

475

0

0

475

ProcesadosCódigo de grupo perdidoo fuera de rangoPerdida al menos unavariable discriminante

Excluidos

Usados en los resultados

Probabilidades previas para los grupos

.333 228 228.000

.333 155 155.000

.333 92 92.0001.000 475 475.000

Grado aplicación demarketing1 No Marketing2 Marketing Básico3 Marketing SofisticadoTotal

PreviasNo

ponderados Ponderados

Casos utilizados en elanálisis

11.1.2.1 MAPA TERRITORIAL

En la página siguiente se indica el mapa territorial correspondiente.

Símbolos usados en el mapa territorial

Símbolo Grupo Etiqueta

------ ----- --------------------

1 1 No Marketing

2 2 Marketing Básico

3 3 Marketing Sofisticado

* Indica un centroide de grupo

Page 164: Anal is is Multi Variable

Análisis Multivariante

163

Mapa territorial

Discriminante canónica

Función 2

-3.0 -2.0 -1.0 .0 1.0 2.0 3.0

∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫ 3.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ 2.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ 1.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 133 * ⌠ ⌠ * 12233 ⌠ .0 12 223 ⌠ 12 233 ⌠ ⌠ 12 * 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ -1.0 12 2233 ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 2233 ⌠ -2.0 12 223 ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233⌠ ⌠ 12 22⌠ ⌠ 12 ⌠ -3.0 12 ∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫ -3.0 -2.0 -1.0 .0 1.0 2.0 3.0 Función discriminante canónica 1 _

Page 165: Anal is is Multi Variable

Análisis Multivariante

164

Estadísticos por casos

3 3 .009 2 .945 9.462 2 .045 15.550 3.221 2.2571 2** .958 2 .384 .085 1 .313 .491 .185 -.0262 1** .304 2 .559 2.381 3 .249 4.002 -.613 1.6381 1 .955 2 .512 .092 2 .342 .897 -.699 -.1341 1 .833 2 .622 .366 2 .267 2.054 -1.095 .2301 1 .776 2 .602 .507 2 .305 1.863 -1.132 -.2391 1 .897 2 .414 .217 2 .396 .303 -.319 -.3291 1 .976 2 .503 .048 2 .341 .826 -.644 -.0692 2 .571 2 .484 1.120 1 .382 1.593 -.404 -1.1601 2** .630 2 .488 .923 1 .363 1.513 -.299 -1.1141 1 .537 2 .727 1.244 2 .205 3.771 -1.586 .3702 1** .764 2 .504 .538 2 .265 1.822 -.483 .8321 1 .603 2 .664 1.013 2 .211 3.302 -1.139 .8801 1 .765 2 .515 .535 2 .372 1.182 -.828 -.5571 1 .766 2 .645 .534 2 .244 2.477 -1.148 .4452 3** .944 2 .440 .116 2 .320 .751 .581 .4793 3 .195 2 .825 3.270 2 .120 7.127 1.957 1.7231 1 .721 2 .649 .654 2 .268 2.424 -1.301 -.0401 1 .486 2 .742 1.443 2 .198 4.081 -1.683 .3331 1 .872 2 .582 .273 2 .307 1.551 -.993 -.087

Númerode casos1234567891011121314151617181920

Original

Gruporeal

Grupopronosticado p gl

P(D>d | G=g) P(G=g |D=d)

Distanciade

Mahalanobis al

cuadradohasta el

centroide

Grupo mayor

GrupoP(G=g |

D=d)

Distanciade

Mahalanobis al

cuadradohasta el

centroide

Segundo grupo mayor

Función1

Función2

Puntuacionesdiscriminantes

Caso mal clasificado**.

Resultados de la clasificacióna

153 37 38 22850 57 48 15521 15 56 92

67.1 16.2 16.7 100.032.3 36.8 31.0 100.022.8 16.3 60.9 100.0

Grado aplicación demarketing1 No Marketing2 Marketing Básico3 Marketing Sofisticado1 No Marketing2 Marketing Básico3 Marketing Sofisticado

Recuento

%

Original

1 NoMarketing

2 MarketingBásico

3 MarketingSofisticado

Grupo de pertenencia pronosticado

Total

Clasificados correctamente el 56.0% de los casos agrupados originales.a.

Page 166: Anal is is Multi Variable

Análisis Multivariante

165

11.2 BIBLIOGRAFÍA

Análisis multivariable para las Ciencias Sociales. Jean-Pierre Lévy mangin. Jesúa

Valera Mallou. Prentice Hall 2003

Malhotra Investigación de Mercados. Un enfoque práctico. PrenticeHall 1996

Page 167: Anal is is Multi Variable

Análisis Multivariante

166

SEGMENTACIÓN

Page 168: Anal is is Multi Variable

Análisis Multivariante

167

12. SEGMENTACIÓN.

12.1 CONCEPTO.

La segmentación de mercado consiste en la agregación de consumidores en grupos

homogéneos, de forma tal que cada uno de ellos puede ser seleccionado como un

segmento objetivo sobre el cual podamos aplicar estrategias de Marketing mix

diferenciadas.

Las características de los segmentos resultantes deben ser tales que nos posibiliten el

establecimiento y realización de una oferta comercial especializada y diferenciada, es

decir orientada a satisfacer necesidades y deseos de los consumidores específicos de

cada segmento.

12.2 REQUISITOS PARA QUE LA SEGMENTACIÓN DE

MERCADO SEA EFICAZ.

Los principales requisitos que hacen que la segmentación de mercado sea eficaz son:

1. Cada segmento nos debe dar una respuesta diferente a la acción de Marketing mix.

2. Los criterios de segmentación deben ser identificados y evaluados con facilidad.

3. La obtención de los diferentes segmentos no implicará la existencia de categorías

mutuamente excluyentes. Esto significa que en ocasiones un mismo individuo puede

pertenecer a varios segmentos de mercado.

4. La segmentación debe basarse en un adecuado análisis de costes beneficios.

5. Los segmentos identificados deben representar un potencial de mercado suficiente,

por su tamaño y / o por los beneficios que presentan, que sean justificables las

acciones de Marketing a realizar.

6. Los segmentos han de ser alcanzados y servidos con eficacia por la empresa.

7. La empresa tendrá que disponer de recursos suficientes (económicos y humanos),

para poder atender adecuadamente el segmento o segmentos de mercado

seleccionados.

8. Los segmentos deberán ser estables a lo largo del tiempo, con el fin de rentabilizar la

estrategia adoptada de Marketing.

Page 169: Anal is is Multi Variable

Análisis Multivariante

168

9. Serán prioritarios los segmentos que sean compatibles con los que ya actúa la

empresa con el fin de evitar canibalizaciones.

10.Se deberá involucrar a la empresa a todos los niveles, en la implantación de la

estrategia de segmentación, con el fin de evitar posibles conflictos

interdepartamentales.

11.Los consumidores tienen que percibir diferencias entre los productos de lo que cabe

esperar distintas respuestas a las acciones de Marketing mix.

12.Las diferencias en las percepciones de los consumidores deben ser identificadas y

asociadas a los diferentes grupos del público objetivo.

12.3 CRITERIOS DE SEGMENTACIÓN DE MERCADO.

En el mercado de productos de consumo la segmentación se realiza siguiendo una

serie de criterios que se dividen en: de carácter objetivo y subjetivos. Los criterios

objetivos son aquellos en los que existen parámetros que nos permiten medirlos de

forma inequívoca. Los criterios subjetivos son susceptibles de interpretación.

Criterios objetivos.

Los mas usuales son:

• Geográficos. Es el método mas sencillo, se basa en la desigualdad zonal

explicando así los diferentes comportamientos que aparecen en diferentes

territorios de cierta extensión, en los que aparecen diferencias climáticas,

culturales, económicas...etc.

• Demográficos. Las diferentes características físicas de los consumidores, tales

como, edad ,sexo, estado civil, familia...etc., son la causa de necesidades y

deseos diferentes.

• Socioeconómicos. El comportamiento de los consumidores dependería, en este

caso, de su nivel de renta y su estatus, explicando así la clase social.

Criterios subjetivos.

Los más usuales son:

• Por estilo de vida. El estilo de vida define la forma de ser y de comportarse las

personas, viene definido por sus actividades, opiniones e intereses.

Page 170: Anal is is Multi Variable

Análisis Multivariante

169

• Por situación. Se separan grupos que ante un mismo producto buscan

satisfacciones diferentes en distintas circunstancias o situaciones. (caña de día

copa de noche).

• Basados en ventajas buscadas. se basa en que, los consumidores encuentran en el

producto ventajas diferentes y los consumen precisamente por ello.

• Psicográfica. Integra dos grupos de criterios: estilo de vida y personalidad. La

basada en la personalidad se aprecia en el mercado cuando las empresas dotan a

sus productos de personalidad de marca que se corresponde con la personalidad

de los consumidores.

Segmentación por comportamiento.

Segmentación en función de comportamientos específicos de compra y uso del

producto. Los más utilizados son:

• El uso. El consumo no esta uniformemente repartido, unos usuarios consumen

más que otros.

• El usuario. Se hace una clasificación considerando los usuarios regulares, los no

usuarios, los usuarios potenciales, los irregulares, los primerizos. Cada grupo

recibirá un tratamiento específico.

• El grado de fidelidad. Se recompensa la fidelidad.

Criterios de segmentación utilizados en mercados industriales.

En el mercado industrial la segmentación puede realizarse desde dos enfoques: basarse

en las necesidades y deseos de los clientes y que el vendedor lo satisfaga, o bien partir

de las características del vendedor y segmentar el mercado de la forma más accesible y

rentable. El mejor método será el que optimice el comportamiento de compra del cliente

con los costes del vendedor.

Normalmente en el mercado industrial se identifican criterios de segmentación, que se

jerarquizan de la siguiente manera:

• 1º- Factores demográficos. Naturaleza de la empresa (pública o privada). Sector

al que pertenece. Tamaño (ventas, plantilla, capital). Localización.

• 2º- Variables operativas. Tecnología de los procesos productivos. Tecnología del

producto, Ventajas competitivas. Productos complementarios. Productos

substitutivos.

Page 171: Anal is is Multi Variable

Análisis Multivariante

170

• 3º- Enfoques de compra. Organización de compras. Estructura de poder entre las

diferentes personas que intervienen en el proceso de compra. Relaciones

existentes (fidelidad). Política de compras. Criterios de compra.

• 4º- Factores de situación. Urgencia de la necesidad. Tamaño del pedido.

Aplicaciones del producto. Beneficios de pedidos concretos.

• 5º- Características personales del decisor. Similitud de actitudes y características

entre comprador y vendedor. Motivaciones del decisor. Percepción por parte del

comprador de la empresa del vendedor. Actitud al riesgo por parte del

comprador.

Valoración de los segmentos.

Una vez detectados diferentes segmentos en el mercado, la empresa tiene tres posibles

alternativas: Ignorarlos, centrarse en alguno o algunos de ellos y adaptarse a ellos. La

posible alternativa depende entre otros de los siguientes factores:

• Intensidad de la competencia. A la empresa le interesará actuar donde la

competencia sea nula o mínima. Cuanto menor sea la probabilidad de entrada de

competidores más atractivo resultará para la empresa ese segmento.

• Aparición de productos substitutivos en un determinado segmento.

• El poder de negociación de los diversos agentes que intervienen en el proceso de

la compra venta.

12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE

MERCADOS.

Siguiendo a P. Kotler podemos diferenciar tres etapas:

• La primera es el arte de dividir un mercado en grupos de consumidores que

puedan requerir estrategias de Marketing diferenciadas, constituye lo que se

denomina el proceso de segmentación.

• La segunda etapa consiste en definir el mercado objetivo.

• La tercera etapa consiste en fijar el posicionamiento, esto es establecer la

posición competitiva de la empresa y de su oferta en función del público

objetivo.

Page 172: Anal is is Multi Variable

Análisis Multivariante

171

Lo podemos resumir en el siguiente esquema.

Proceso Definición del mercado objetivo

Posicionamiento del producto

Posibles bases de segmentación.

Valorar el atractivo de cada segmento.

1- Identificar conceptos de posicionamiento y alternativas de diferenciación en los segmentos objetivos.

Identificar variables de segmentación relevantes para el estudio.

Seleccionar los segmentos objetivos..

- Seleccionar, desarrollar y comunicar el concepto de posicionamiento escogido

Recoger información sobre variables de segmentación

Estrategias de cobertura del mercado

Derivar segmentos mediante técnicas de segmentación y tipología.

Describir perfil de los segmentos.

Para llevar a cabo el proceso de segmentación, en principio se recaba y ordena toda la

información existente y disponible en el mercado en relación a una serie de variables

consideradas relevantes. Dichas variables emanan de las bases de segmentación.

En gran número de casos no se conocen a priori todas las características importantes

para orientar la segmentación, para esta circunstancia se realiza una investigación

cualitativa de enfoque para así seleccionar las variables que nos permitirán segmentar el

mercado.

Ante la carencia de información lo que se hace es emplear técnicas de investigación

comercial como la observación o la encuesta. Esta última técnica es la más utilizada, se

define el universo, la muestra, el procedimiento de muestreo, el cuestionario y se realiza

el correspondiente trabajo de campo. La información obtenida se analiza aplicando

técnicas de segmentación y tipología para de esta manera obtener grupos de público

objetivo con características homogéneas.

Las bases de segmentación parten de los criterios antes indicados. No existe una forma

idónea para segmentar el mercado. Existen criterios generales y específicos, unidos a los

objetivos y subjetivos, esta situación la podemos resumir en el siguiente esquema:

Page 173: Anal is is Multi Variable

Análisis Multivariante

172

CRITERIOS OBJETIVOS

Criterios generales.

Geográficos.

Demográficos.

Socioeconómicos.

Sus combinaciones.

Criterios específicos.

Estatus.

Uso y situaciones

Fidelidad.

Intención de compra.

CRITERIOS SUBJETIVOS

Criterios generales.

Psicográficos.

Estilo de vida.

Clase social.

Personalidad.

Criterios Específicos.

Beneficio buscado.

Comportamiento a las acciones de

Marketing mix.

Percepciones, preferencias y actitudes.

12.5 TÉCNICAS PARA CLASIFICAR UN MERCADO EN

SEGMENTOS.

Una vez definidas que variables de segmentación son adecuadas para realizar una

segmentación de mercado, es preciso acudir a procedimientos estadísticos, que

partiendo de la información obtenida sobre las bases de segmentación, permitan dividir

el mercado en segmentos. Los tipos mas usuales son:

Técnicas de segmentación. En estas técnicas el investigador selecciona una variable o

criterio de segmentación a explicar, antes de realizar el análisis. Posteriormente, se

consideran por parte del investigador diversas variables explicativas, tratando de

estudiar de que forma se relacionan con la variable a explicar. Se denominan diseños de

segmentación a priori.

Técnicas de tipología. En este tipo de técnicas los consumidores se agrupan de acuerdo

a la similitud de sus perfiles multivariables (actitudes, estilo de vida...), sin hacer

distinción entre variables descriptivas y variables a explicar. Se desconoce a priori el

número de segmentos. Se denominan diseños de segmentación post-hoc.

Page 174: Anal is is Multi Variable

Análisis Multivariante

173

13. TÉCNICAS DE SEGMENTACIÓN.

Se suelen clasificar en tres grandes grupos:

• Métodos clásicos.

• Métodos basados en la teoría de la información

• Otras técnicas de segmentación.

13.1 MÉTODOS CLÁSICOS.

Los métodos clásicos desarrollan un proceso de división del mercado conformando una

estructura arborescente que finaliza con una norma estadística predeterminada, el

criterio para medir la intensidad de la relación entre la variable a explicar y las variables

explicativas es el mismo en todas las etapas del proceso. Seguidamente vamos a señalar

los fundamentos de los métodos más usuales.

13.1.1 MÉTODO BELSON.

Trata de estimar el poder discriminante de diferentes variables explicativas sobre la

variable a explicar. El procedimiento es como sigue:

♠- Se convierten las diversas variables explicativas y la variable a explicar en

dicotómicas.

Si tienen más de dos categorías se sigue el siguiente criterio: Para cada variable

explicativa los individuos se agrupan de tal forma que los que dispongan de una

proporción de la variable a explicar inferior a la de toda la muestra pertenezcan a una

categoría, agrupando en otra a todos aquellos con una proporción superior a la de la

muestra.

♠- Analizar, con una cualquiera de las categorías de cada variable explicativa, su

relación con la variable a explicar mediante la siguiente formula:

C = NC ki P x N ki donde k = 1, 2.

NC ki Representa el número de personas que consumen el producto, (variable a

explicar), y que pertenecen a la categoría k de la variable explicativa i.

P Es el porcentaje de personas que consumen el producto para toda la muestra.

N ki Es el número de personas que pertenecen a la categoría k de la variable explicativa

“y”. Con independencia de que sean o no consumidores del producto).

Page 175: Anal is is Multi Variable

Análisis Multivariante

174

♠- Tomar aquella variable explicativa (la subdivisión en categorías que la representa)

que manifiesta tener una relación más fuerte con la variable a explicar, mayor valor

absoluto de C.

La muestra se desglosa en dos segmentos correspondientes a la variable de mayor

relación y sus subdivisiones.

♠- A cada uno de los segmentos resultantes se aplica independientemente el método de

segmentación descrito considerando tan solo las restantes variables explicativas.

Seguidamente vamos a realizar un caso practico, en el que aplicaremos los métodos de

Belson y el de análisis de la varianza, más adelante.

EJEMPLO.

Una empresa desarrolla su actividad comercial en Aragón, comercializando cuatro

marcas de productos (A, B, C y D ), en tres tipos diferenciados de establecimientos,

tiendas tradicionales, hipermercados y supermercados. Con la finalidad de establecer

una adecuada segmentación, se realiza un estudio de mercado sobre una muestra de

4.000 hogares, que en el último trimestre han consumido alguna marca de los diferentes

tipos de productos.

Se obtiene información acerca de la marca comprada y el tipo de tienda donde efectuó

la compra. Se saca el siguiente resumen de datos.

Page 176: Anal is is Multi Variable

Análisis Multivariante

175

DATOS DEL CASO PRÁCTICO.

Tipo de producto.

A.

B.

C.

D.

TOTAL:

Tipo de tienda.

Tradicional. (T).

Hipar. (H).

Supermercado. (S).

TOTAL.

Compradores marca

582.

204.

184.

30.

1.000.

100.

575.

325.

1.000.

Total compradores.

2.044.

718.

646.

592.

4.000.

450.

2.500.

1.050.

4.000.

Método BELSON. Criterio: Realizar la dicotomía de las variables agrupando por un

lado las variables que tengan un porcentaje superior a la media y por otra parte los que

sea su porcentaje inferior a la media.

Variables.

Productos:

A.

B.

C.

D.

Establecimiento.

T.

H.

S.

Media total.

Porcentaje de consumidores.

28´47 %.

28´41 %.

28´48 %.

5´06 %.

22´22 %.

23´00 %.

30´95 %.

25%.

Las agrupaciones que obtenemos de conformidad con el criterio son:

Superior a la media y para la variable producto. A+ B+ C. Inferior a la media D.

Page 177: Anal is is Multi Variable

Análisis Multivariante

176

Para la variable tienda o establecimiento donde se efectúan las compras, la

correspondiente agrupación es:

Superior a la media: S. Inferior a la media; T + H.

Los resultados de esta segmentación los podemos resumir en el siguiente cuadro:

AGRUPACIONES.

Producto.

A + B + C.

D.

Tienda.

S.

T + H.

COMPRAN MARCA.

970.

30.

325.

675.

TOTAL COMPRAN.

3.408.

592.

1050.

2.950.

Aplicando la ecuación antes descrita obtendremos los siguientes valores.

C = NC ki P x N ki .

Producto.

C = 970 0´25 x 3408 = 118.

Tiendas.

C = 325 0´25 x 1050 = 62´5.

13.1.2 MÉTODO DE ANÁLISIS DE LA VARIANZA.

Trata de encontrar la mejor división dicotómica cuando las variables explicativas tienen

más de dos categorías. Selecciona la mejor dicotomía no la mejor variable explicativa

de cada rama de la estructura arborescente.

La expresión matemática para estimar el poder discriminante es:

DN N P P

na b a b=

× −( ) 2

Donde: n es el tamaño total de la muestra.

N a y b es la dicotomización de las categorías de cada variable explicativa

en dos grupos a y b.

P a y b es el porcentaje de consumidores de las categorías a y b de la

variable explicativa objeto de estudio.

Page 178: Anal is is Multi Variable

Análisis Multivariante

177

Vamos seguidamente a desarrollar el ejemplo visto con anterioridad aplicando el

método de análisis de la varianza.

DATOS DEL CASO PRÁCTICO.

Tipo de producto.

A.

B.

C.

D.

TOTAL:

Tipo de tienda.

Tradicional. (T).

Hipar. (H).

Supermercado. (S).

TOTAL.

Compradores marca

582.

204.

184.

30.

1.000.

100.

575.

325.

1.000.

Total compradores.

2.044.

718.

646.

592.

4.000.

450.

2.500.

1.050.

4.000.

Page 179: Anal is is Multi Variable

Análisis Multivariante

178

Los resultados los resumimos en el cuadro siguiente:

ANÁLISIS DE LA VARIANZA:

Grupo.

A+B

C+D.

A+C

B+D

A+D

B+C

A

B+C+D

B

A+C+D.

C

A+B+D.

D

A+B+C.

Total com.

2.762.

1.238.

2.690.

1.310.

2.636.

1.364.

2.044.

1.956.

718.

3.282.

646.

3.354.

592.

3.408.

Co marca.

786.

214.

766.

234.

612.

388.

582.

418.

204.

796.

184.

816.

30.

970.

%Co marc

28´46

17´28.

28´48.

17´83.

23´22.

28´44.

28´47.

21´37.

28´41.

24´25.

28´48.

24´33.

5´07.

28´46.

D discrim.

10´68.

9´98.**

2´44.

5´04.

1´02

0´97.

27´59.←

** D = 2.690 x 1.310 ( 0´2848 - 0´1783 )2 / 4.000 = 9´98.

Del mismo modo procederíamos para la variable tiendas.

Page 180: Anal is is Multi Variable

Análisis Multivariante

170

13.1.3 MÉTODO DE CHI CUADRADO.

Este procedimiento trata de comparar la distribución efectiva de consumidores, en las

diferentes categorías de cada variable explicativa; con la que correspondería si se

distribuyera según el porcentaje promedio para toda la muestra. Se selecciona la mejor

dicotomía de cada variable explicativa de acuerdo con el criterio discriminante

expresado por la siguiente fórmula:

SCNCO NCT

NCTi i

i

=−∑ ( ) 2

Donde:

NCOi es el número de personas que consumen el producto en la

categoría dicotómica “i” de cada variable explicativa.

NCTi es el número de consumidores teóricos para la categoría

dicotómica “i” de cada variable explicativa. Su cálculo es como sigue: se multiplica el

tamaño de la muestra en cada categoría por el porcentaje medio de consumidores para

toda la muestra.

13.1.4 MODELOS DE CANGUILHEM.

Se basa en dos posibles soluciones para segmentar el mercado:

Descripción por categorías ponderadas de variables no agregadas.

Descripción por segmentos ponderados de variables agregadas.

En el primer caso el método a seguir es:

Se calculan los índices de penetración para las categorías de cada una de las variables

explicativas de acuerdo con la siguiente fórmula:

IP kj = MP kj / S kj

Donde:

IP kj es el índice de penetración o proporción de consumidores en la

categoría k de la variable explicativa j respecto del público objetivo.

MP kj es el número de personas que consumen ( variable a explicar ) el

producto y que pertenecen a la categoría k de la variable explicativa j. S kj Es

el número de personas del público objetivo que pertenecen a la categoría k de la

variable explicativa j.

Page 181: Anal is is Multi Variable

Análisis Multivariante

171

2. Para cada categoría de las variables explicativas se toma el índice de penetración

máximo y se pondera con un valor igual a uno (1). Las ponderaciones de las restantes

categorías de una variable se obtienen dividiendo su índice de ponderación por el de

valor máximo.

3. La variable que más discrimina es la que presenta mayor disparidad (recorrido o

varianza) entre las ponderaciones de sus categorías.

Método de segmentos ponderados de variables agregadas

Todos los procedimientos descritos con anterioridad consideran las variables

explicativas de forma independiente. Este procedimiento que ahora vamos a desarrollar

trata de evitar este inconveniente.

Es válido cuando se trata de encontrar un segmento optimo, resultante de la agrupación

o cruce de diversas variables explicativas. Se trataría de obtener el segmento que mejor

discrimine el comportamiento de los consumidores.

Se estima para cada segmento o agrupación, un índice de penetración y un índice de

cobertura, el valor de la discriminancia a maximizar viene dado por la siguiente

fórmula:

D S IPS MU P

IP IC= − + −−−

− − + −12

112

1 12

2

2 2( )( )( )

( ) ( )

Donde

IC = M / P es el índice de cobertura o proporción de los consumidores de

un determinado segmento o agrupación respecto del total de consumidores.

M es el número de personas que consumen (variable a explicar ) el

producto y que pertenecen a un segmento o agrupación.

P es el total de consumidores.

IP = M / S Es el índice de penetración o proporción de consumidores de

un determinado segmento o agrupación respecto al público objetivo.

S es el número de personas del público objetivo que pertenecen a cada

segmento o agrupación de consumidores.

U es el total de personas del público objetivo.

Page 182: Anal is is Multi Variable

Análisis Multivariante

172

13.2 AUTOMATIC INTERACTION DETECTION (AID)

El AID (Detección automática de interacciones) es una técnica de análisis estadístico

que estudia la relación de una variable dependiente o criterio y múltiples predictivas o

independientes, detectando el efecto y las interacciones existentes en las variables

explicativas (X).

El AID no proporciona una función que determine la relación existente entre la variable

dependiente (Y) y las independientes.

Las variables explicativas son de tipo cualitativo, es decir, están medidas en escalas

nominal u ordinal, mientras que la variable dependiente debe estar en escala métrica o

bien ser dicotómica (1,0), con dos frecuencias muy similares.

El AID procede de forma secuencial, mediante análisis de la varianza, realizando

divisiones dicotómicas de la variable dependiente o a explicar.

Se parte del total de la muestra y se divide en dos, en función de la variable que mejor

explica las diferencias en el comportamiento objeto de estudio. Seguidamente cada

grupo obtenido se vuelve a subdividir de conformidad con el criterio de la variable que

mejor define las diferencias. Este proceso continua hasta alcanzar el nivel (tamaño) de

grupo mínimo que fijamos con anterioridad o bien las diferencias entre los valores

medios de los grupos no son significativas.

La técnica AID realiza un análisis secuencial de la varianza, con el fin de obtener en

cada etapa la variable explicativa y dentro de ella la partición entre categorías de la

misma que de una parte maximiza la varianza intergrupos y minimiza la intragrupos.

Las particiones de las variables independientes dependen de si se las considere

Variables libres es decir, utiliza todas las combinaciones dicotómicas posibles entre las

categorías, permite incluir en cada grupo diversas categorías no secuenciales. Por

ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000

euros con de 1500 a 2000 y de 5000 a 10000 euros.

Variables monótonas, la partición solo es posible en sentido ascendente o descendente.

Por ejemplo menos de 5.000 euros, más de 5.000 euros.

Como el AID no proporciona una función, esta técnica puede utilizarse conjuntamente

con otras técnicas multivariantes para completar el análisis. Con el AID se aíslan en

primer lugar las variables y categorías que mejor explican en mayor medida la varianza

Page 183: Anal is is Multi Variable

Análisis Multivariante

173

de la variable criterio (Y), seguidamente se puede aplicar un análisis de regresión para

estimar los parámetros de las variables seleccionadas por el AID con el fin de poder

realizar predicciones.

13.2.1 VENTAJAS E INCONVENIENTES

La técnica AID nos permite:

Conocer las variables independientes que mejor explican la independiente

Determinar el poder diferenciador de tales variables explicativas, ya que se conoce la

varianza que explica

Identificar segmentos y sus características

Conocer la media de la variable criterio para cada segmento

Fácil comprensión ya que los resultados se representan normalmente en forma

arbolescente

Por el contrario la técnica AID presenta las siguientes limitaciones

Es necesario disponer de muestras grandes (1000 ó más unidades)

Se necesita el que existan varios predictores

La primera variable elegida condiciona las sucesivas particiones

14. CHI-SQUARED AUTOMATIC INTERACTION

DETECTION (CHAID)

14.1 CONCEPTO

Esta técnica estadística estudia la relación entre una variable criterio (Y) que puede ser

tanto cualitativa como métrica y múltiples variables cualitativas

Este modelo es muy similar al AID, pero a diferencia de este que las particiones son

dicotómicas, en el CHAID no tienen por que ser dicotómicas. El criterio de partición de

las variables según las categorías de las mismas se basa en la maximización de la “ji

cuadrado de Bonferroni.

Según Magidson8 (1994) presenta las siguientes mejoras respecto al AID

8 Magidson (1994) Cita en Técnicas de análisis de datos en investigación de mercados. Teodoro Luque Martinez y otros Ed. Pirámide 2000

Page 184: Anal is is Multi Variable

Análisis Multivariante

174

Une aquellas categorías de un predictor más homogéneas con respecto a la variable

dependiente, pero mantiene todas las categorías que sean heterogéneas. En suma,

combina categorías que no difieran mucho entre ellas.

Como varias categorías pueden diferir estadísticamente, el resultado del proceso de

CHAID no necesariamente será una división dicotómica.

Para dividir un grupo solamente se eligirán variables que sean estadísticamente

significativas.

Utiliza el test de independencia de la ji cuadrado de Bonferroni.

CHAID compara el valor p asociado con el test de independencia de la variable

dicotómica con el valor p ajustado de Bonferroni para la variable con varias categorías.

La mejor variable predictora será la que presente menor p ajustado.

CHAID considere tres tipos de variables

Variables libres es decir, utiliza todas las combinaciones dicotómicas posibles entre las

categorías, permite incluir en cada grupo diversas categorías no secuenciales.

Por ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000

euros con de 1500 a 2000 y de 5000 a 10000 euros.

Variables monótonas, la partición solo es posible en sentido ascendente o descendente.

Por ejemplo menos de 5.000 euros, más de 5.000 euros.

Variable Flotante es similar a la monótona, salvo en la última categoría (suele ser

“Otros”) que puede ser unida a cualquier otra categoría. Esto no sirve si la variable es

dicotómica.

14.1.1 PROCESO

El proceso lo podemos resumir como sigue

• En primer lugar se determinan la variable a explicar y las predictoras o

independientes

• Se desarrollan las tabulaciones cruzadas entre las variables independientes (X) y

la dependiente (Y)

• Se determina las ?2 para cada tabla formada por cada par de categorías capaces

de unirse y la variable dependiente

• Entre los pares que resultan estadísticamente no significativos se unen en una

sola categoría

Page 185: Anal is is Multi Variable

Análisis Multivariante

175

• Entre los pares significativos la unión se realiza para las categorías más

parecidas, es decir las que tengan menor Chi cuadrado, y con pocas

observaciones

• Se obtiene la “p”, la variable predictora que tenga menor valor es la que se usa

para dividir

• Si “p” no es significativo no se procede a la división

• Este proceso se repite hasta la obtención de todos los grupos, o bien hasta

alcanzar la dimensión de grupo mínimo.

• El resultado es un árbol, las tablas cruzadas para cada nivel de segmentación y

las tablas de ganancia

14.1.2 UTILIDAD

La información obtenida nos permite:

• Identificar segmentos y sus características

• La secuencia de particiones y las variables independientes o predictoras que

intervienen

• Agrupaciones entre variables o entre categorías

• Información acerca de las interacciones entre las variables

14.1.3 VENTAJAS E INCONVENIENTES

Entre las ventajas podemos destacar:

• Podemos tratar variables medidas en escala nominal

• La partición no tiene por que ser dicotómica

• Elimina o corrige el sesgo de que las variables con muchas categorías sean

seleccionadas para la partición, solamente por esta razón

• Puede intervenir el investigador introduciendo variables predictoras, aunque no

sean las más significativas.

Como inconvenientes son de destacar los siguientes:

La respuesta obtenida no tiene por que ser la optima

Hay que tener en cuenta las restricciones dela prueba de Chi cuadrado (meno de 5

observaciones en el 20% de las celdas)

Se necesitan muestras amplias, (más de 1000 unidades)

Page 186: Anal is is Multi Variable

Análisis Multivariante

176

15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN

MARKETING EN EL COMERCIO

M. TERESA OBIS ARTAL9 JOSEP RIALP CRIADO1

EDUARDO M. JIMÉNEZ MARQUÉS Universidad Autónoma de Barcelona10

15.1 RESUMEN

A lo largo de este trabajo se analiza la actitud hacia la formación en marketing por

parte del sector comercio. A partir de una encuesta personal realizada por IMSO, S.L.

a 818 comercios de Zaragoza, ciudad que consideramos representativa, y tras la

aplicación de diferentes técnicas de investigación tanto de reducción de dimensiones

(análisis factorial de componentes principales y de correspondencias) como de

segmentación (análisis CHAID y AID) se caracterizan los comercios según que realicen

o no formación y según la valoración que realizan a diferentes programas de formación

en marketing (genéricos, de atención al cliente y técnicos con ordenador). Se concluye

que la realización de formación depende, básicamente, del número de trabajadores y de

la utilización de herramientas de marketing. En cuanto a los diferentes programas de

formación, son estas variables junto con la antigüedad del establecimiento y los

artículos que comercializa, las que proporcionan una valoración estadísticamente

diferente de los mismos.

Palabras clave: Comercio, Formación, Componentes principales, A. Correspondencias, AID, CHAID Keywords: Trade, Formation, Principal Components Analysis, Correspondence Analyisis, AID, CHAID.

15.2 INTRODUCCIÓN

Según la Encuesta de Comercio Interior del año 1992, publicada en 1996, el sector

comercio en España está constituido por un total de 642.780 empresas. Su relevancia en

9 Los autores agradecen la financiación recibida de la DGES, proyecto PB95-0616 (T.Obis) y DGICYT, proyecto PB94-0708 (J.Rialp). 10 Departamento de Economía de la Empresa. Facultad de Ciencias Económicas y Empresariales. Universidad Autónoma de Barcelona. Edificio B. Campus de Bellaterra. 08193 (Barcelona). Tel.: 93 - 581 12 09. Fax: 93 - 581 25 55. E-mail: [email protected] / [email protected]

Page 187: Anal is is Multi Variable

Análisis Multivariante

177

la economía queda de manifiesto si se considera que este sector ocupa a más de 2

millones de trabajadores, lo que representa aproximadamente un 17% del empleo del

país. Sin embargo, y como señala Kotler (1992, p. 596), únicamente algunos de los

establecimientos que estén bien situados, tengan una adecuada gestión, presten un

óptimo servicio a sus clientes y hayan adoptado prácticas modernas de marketing y

gestión, sobrevivirán.

Centrándonos en el último de los aspectos enumerados por Kotler, en un estudio

elaborado por Obis et. al. (1997) se pone de manifiesto que el comercio minorista, en

general, no utiliza de forma extensiva las herramientas de marketing. Por tanto, algunas

empresas de este sector se obstaculizan su supervivencia. Estos resultados se encuentran

en la línea de los obtenidos por Rodríguez del Bosque et al. (1997). En su trabajo se

puede observar, por ejemplo, como el pequeño comercio autónomo tiene objetivos más

conservadores en la marcha de su negocio que las empresas que recurren a estructuras

jurídicas más complejas, como sociedades limitadas o anónimas. Asimismo, también se

detecta que la edad de los comerciantes influye en los objetivos perseguidos.

El interés que se origina llegados a este punto sería responder por qué los

establecimientos comerciales no utilizan herramientas de marketing si éstas favorecen

su subsistencia. En nuestra opinión, la respuesta a esta pregunta podría ir por dos

direcciones: se podría pensar, por un lado, que estas herramientas realmente no se

necesitan en los establecimientos comerciales y, por otro, que los establecimientos

comerciales desconocen tanto la existencia como la forma de emplear estas

herramientas.

La primera de las causas señaladas no parece justificar el escaso empleo de estas

herramientas pues en un entorno turbulento, donde el número de competidores aumenta,

los consumidores están mejor informados y el ciclo de vida de los productos cada vez es

más corto (Santesmases, 1992), el conocimiento y la aplicación de diversas técnicas de

marketing pueden proporcionar una mejor satisfacción de las necesidades del

consumidor, lo que a su vez favorece la subsistencia del comercio. En consecuencia, el

desconocimiento tanto de las herramientas como de su uso sería lo que explicaría el

escaso empleo de las herramientas de marketing.

Page 188: Anal is is Multi Variable

Análisis Multivariante

178

15.3 OBJETIVOS DEL TRABAJO E HIPÓTESIS

Dada la situación de desconocimiento planteada en la introducción de este trabajo, nos

parece interesante profundizar en los programas de formación en marketing que realizan

los comercios detallistas. En la literatura especializada, los programas de formación, de

forma general, se consideran que favorecen la subsistencia de las empresas (Davies y

Ingram, 1996; Weeks y Stevens, 1997). Por ello, con este trabajo pretendemos

establecer cuál es el seguimiento de los programas de formación por parte de los

establecimientos de comercio. Es más, en caso de que los establecimientos de comercio

no sigan ningún programa de formación, trataremos de determinar las causas ya que tal

vez el no seguimiento se produce porque estos programas no encajan con las

necesidades de los comercios. Los resultados del trabajo de Hogarth-Scott y Jones

(1993), por ejemplo, establecen que las pequeñas empresas en West Yorkshire sienten

que el nivel de soporte no es adecuado y que no existen cursos de formación que

encajen con las necesidades de las pequeñas empresas.

Además, en este trabajo se intenta determinar qué establecimientos siguen planes de

formación, qué características presentan y, por último, se trata de identificar aquellos

comercios que pueden estar más interesados en seguir un plan de formación de

naturaleza más genérico o uno más especifico, por ejemplo, un programa de formación

centrado en la relación con el cliente o con instrumentos técnicos de soporte a la

gestión. De hecho, en la literatura hay diferentes trabajos que, con distintos fines, han

pretendido clasificar a los establecimientos comerciales (Weiers, 1986; Rebollo, 1993;

Sainz de Vicuña, 1996; Sarabia y Ruiz de Maya, 1996).

En el trabajo mencionado anteriormente de Obis et al. (1997) se establece que los que

cuentan con más de 6 empleados; los establecimientos en forma de sociedades o

asociados; los comercios dirigidos por personal contratado; los establecimientos de

confección, moda y textil; los que inician la actividad entre 1991 y 1996; los que

presentan una superficie de la sala de ventas superior a los 150 m2; los que cuentan con

una dirección con una edad que oscila entre 26 y 45 años y los que el porcentaje de

clientes de la zona de influencia no supera el 50%, son los establecimientos que

emplean y/o utilizan más herramientas de marketing. En la línea de este resultado

nuestra primera hipótesis establece que van a ser los establecimientos que más utilizan

Page 189: Anal is is Multi Variable

Análisis Multivariante

179

las herramientas de marketing los que más van a seguir cursos de formación. De hecho,

no podemos establecer cuál es la causa y cuál el efecto, pero lo cierto es que cuanta más

formación más marketing (o viceversa).

De igual forma, se puede suponer que algunas de estas características de los

establecimientos van a estar relacionadas con la preferencia por un determinado

programa de formación. Además, la realización de programas de formación y el grado

de utilización de las herramientas de marketing también pueden afectar la valoración a

un determinado programa de formación.

En resumen, las hipótesis a contrastar en nuestro trabajo son dos:

H1: Los establecimientos que realizan más formación son los que emplean más

herramientas de marketing.

H2: La valoración a los distintos programas de formación en marketing viene

determinada por la actitud hacia la formación, el grado de utilización del

marketing y algunas otras características del establecimiento comercial.

15.4 METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR

Para la consecución de los objetivos previamente señalados, hemos utilizado diferentes

técnicas de investigación sobre los datos obtenidos con una encuesta estructurada11,

recogida mediante entrevista personal, a una muestra estadísticamente representativa del

sector comercio detallista en Zaragoza12.

En el siguiente cuadro se presenta la ficha técnica de la encuesta realizada:

11 Queremos agradecer a IMSO, S.L. la cesión de la encuesta y los datos que nos han permitido la realización del trabajo. 12 Dado que Zaragoza en diferentes estudios de mercado se ha considerado ciudad piloto, por tanto representativa del resto de ciudades del estado español, los resultados obtenidos con esta muestra se suponen representativos del comercio en todo el territorio nacional. El hecho de que otros autores (p.e. Rodríguez del Bosque et al. 1997) lleguen a conclusiones similares en otros estudios nos confirma este supuesto.

Page 190: Anal is is Multi Variable

Análisis Multivariante

180

Cuadro 1. Ficha técnica de la encuesta.

Características Encuesta

Universo Empresas sección G, divisiones 50, 51 y 52

CNAE9313

Ámbito geográfico Ciudad de Zaragoza

Unidad muestral Empresa comercial: establecimientos

Método de recogida de información Encuesta personal estructurada

Tamaño de la muestra 818 encuestas válidas

Nivel de confianza 95,5%, p = q = 0,5

Error muestral 3,3%

Procedimiento de muestreo Sistemático: coeficiente de elevación 17

Fecha trabajo de campo Octubre de 1995 a Abril de 1996

Fuente: elaboración propia

De la encuesta, hemos seleccionado aquellas variables que se van a utilizar en esta

investigación. Estas pueden clasificarse en tres grupos: variables caracterizadoras de los

establecimientos encuestados, variables de utilización de herramientas de marketing y,

por último, variables referidas a la valoración de los programas de formación

continuada relacionados con marketing.

Las variables de los primeros dos grupos son de naturaleza cualitativa, mientras que

entre las variables del tercer grupo encontramos dos de naturaleza cualitativa (P17 y

P17B) y el resto, valoraciones a los programas de formación, que son de naturaleza

cuantitativa. En el Cuadro 2 se describen las variables de naturaleza cualitativa

(incluyendo los porcentajes que representan cada categoría) y en el cuadro 3 las

variables cuantitativas (incluyendo su media y su desviación típica).

13 Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la división 526 de la CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.

Page 191: Anal is is Multi Variable

Análisis Multivariante

181

15.5 TÉCNICAS A UTILIZAR

15.5.1 TÉCNICAS DE REDUCCIÓN DE VARIABLES

Como se puede observar, hay un número considerable de variables que reflejan tanto

utilización de herramientas de marketing como valoraciones a programas de formación.

Para sintetizar la información contenida en ambos colectivos se han utilizado dos

técnicas descriptivas que si bien tienen el mismo objetivo requieren variables de

diferente naturaleza. En concreto, las técnicas que se han utilizado han sido:

• un análisis factorial de componentes principales para resumir la información

contenida en las variables cuantitativas.

• un análisis factorial de correspondencias múltiple para resumir la información

contenida en las variables cualitativas.

15.5.1.1 ANÁLISIS FACTORIAL DE COMPONENTES PRINCIPALES

Dentro del área de análisis multivariante que persigue la reducción de dimensiones el

análisis factorial es un técnica estadística utilizada para identificar un número

relativamente pequeño de factores que resumen la información compartida por muchas

variables relacionadas. Ya que la matriz de correlaciones entre todos los pares de

variables sirve como el punto del partida del análisis factorial, la medición de las

variables debe ser tal que el coeficiente de correlación sea una medida estadística

aceptable, por tanto, las variables que se utilizan en este análisis son variables

cuantitativas o asimilables a cuantitativas. En nuestro caso, las variables que recogen las

valoraciones a los programas de formación cumplen esta condición.

El análisis se efectúa expresando cada variable como una combinación lineal de un

número pequeño de factores, los cuales son compartidos por todas las variables, y un

factor único que es específico para la variable. Los factores comunes se estiman como

combinación lineal de las variables originales y para mejorar su interpretación se puede

proceder a alguna rotación de la solución inicial.

15.5.1.2 ANÁLISIS FACTORIAL DE CORRESPONDENCIAS MÚLTIPLE

Dentro del área de análisis multivariante que persigue la reducción de dimensiones

también se encuentran los procedimientos de escalamiento óptimo, que en cierta forma

Page 192: Anal is is Multi Variable

Análisis Multivariante

182

suponen una extensión de las técnicas estadísticas de componentes principales y del

análisis de correlación canónica ya que las variables empleadas son de naturaleza

cualitativa. Más concretamente, el resultado de un análisis de escalamiento óptimo

incluye un conjunto de puntuaciones óptimas o cuantificaciones de las categorías de las

variables cualitativas que se analizan, tratando de recoger la mayor asociación posible

entre las mismas. Estas puntuaciones permiten determinar, dentro de una misma

variable, que categorías son similares o diferentes y qué categorías podrían agruparse; y

entre variables distintas, que categorías van juntas y cuál es la correlación máxima entre

las variables.

Page 193: Anal is is Multi Variable

Análisis Multivariante

183

CUADRO 2: Variables cualitativas utilizadas en este estudio. Porcentajes por categoría.

Sobre los establecimientos encuestados (%) Herramientas de marketing (%) ACT Actividad del establecimiento P37 Dispone de base datos clientes 1 Alimentación y bebidas 14,2 1 No BDC 58,9 2 Confección, moda y textil 14,9 2 Si BDC 41,1 3 Manufacturas 8,3 P38 Ha hecho publicidad en el último año 4 Ocio y recreo 12,3 1 No Pub 49,1 5 Servicios y otros 14,7 2 Si Pub 50,9 6 NS/NC 35,6 P40 Trabaja con alguna agencia P01 Tipo de sociedad de publicidad 1 Autónomo/Soc. Civil 70,8 1 No APu 80,9 2 Sociedad/Cooperativa 29,2 2 Si APu 19,1 P02 Tipo de dirección P39 Principal medio publicitario 1 Propietario 85,6 1 T.V. 5,0 2 Persona contratada 14,4 2 Radio 25,1 P03 Año comienzo actividad 3 Prensa 29,6 1 Antes de 1980 37,9 4 Buzoneo 25,4 2 De 1980 a 1985 18,6 5 Otros 14,9 3 De 1986 a 1990 18,7 P41 Hace alguna promoción 4 De 1991 a 1996 24,8 1 No Pro 52,7 P04 Superficie sala ventas 2 Si Pro 47,3 1 Hasta 50 m2 67,0 P43 Aplica técnicas Merchandising 2 51 – 100 21,4 1 No Merchandising 39,9 3 101 – 150 5,0 2 No sé que es 40,6 4 Más de 150 6,6 3 Si Merchandising 19,6 P05 Tipo de establecimiento P44 Contrata escaparatistas profesionales 1 Independiente 83,5 1 No Esc 90,7 2 Asociado 16,5 2 Si Esc 9,3 P06 Número de empleados P48 Realizó un estudio de 1 1 38,1 mercado antes de abrir 2 2 29,1 1 No EMe 78,1 3 3 – 6 25,8 2 Si EMe 21,9 4 Más de 6 7,0 P53 Acude a ferias y certámenes P11.D Edad Dirección 1 No FyC 30,6 1 18-25 años 1,6 2 Si FyC 69,4 2 26-45 años 27,8 3 Más de 46 21,6 Variables de formación % 4 NS/NC 49,0 P36.1 % clientes zona influencia P17 Ha realizado formación en 1 Hasta el 50% 30,3 los 2 últimos años 2 Del 50 al 99 24,2 1 Si hacemos formación 32,9 3 Todos (100%) 26,9 2 No, no tenemos necesidad 18,8 4 NS/NC 18,6 3 No, no existen programas 5,4 P57 Vende productos importados 4 No, por falta de tiempo 24,4 1 No Importa 38,3 5 No, por otros motivos 10,0 2 Si, mayoristas 47,3 NS/NC 8,4 3 Si, directamente 14,4 P17B Ha realizado formación en P75 Tipo de artículo que comercializa los 2 últimos años (binaria) 1 Cotidiano 24,1 1 Si Formación 32,9 2 Duradero de temporada 16,0 2 No Formación 67,1 3 Duradero especializado 42,4 4 Varios tipos 17,5 Núm. de casos válidos 818

Fuente: Elaboración propia a partir de los datos suministrados por IMSO, S.L.

Page 194: Anal is is Multi Variable

Análisis Multivariante

184

CUADRO 3 Variables cuantitativas utilizadas en este estudio. Estadísticos descriptivos básicos

Variables de valoración de los

Programas de Formación relacionados

con Marketing

Media

Desviación Estándar

Casos

válidos

P29.AC Val. PF Atención a clientes 8,40 2,71 750

P29.DO Val. PF Diseño asistido

ordenador

2,87 2,95 669

P29.ES Val. PF Escaparatismo 7,27 3,17 735

P29.GS Val. PF Gestión stock 5,18 3,62 674

P29.ME Val. PF Merchandising 4,46 3,47 538

P29.MK Val. PF Marketing 5,36 3,40 708

P29.PC Val. PF Psicología consumidor 6,64 3,30 714

P29.PR Val. PF Promoción 6,56 3,45 703

P29.PU Val. PF Publicidad 5,60 3,39 718

P29.TE Val. PF Telemarketing 2,59 2,65 629

P29.TN Val. PF Técnicas de

negociación

5,25 3,50 692

P29.TV Val. PF Técnicas de ventas 7,16 3,23 739

Fuente: Elaboración propia a partir de los datos suministrados por IMSO, S.L. Casos válidos en el conjunto de las 12 variables: 475.

Por tanto, ya que las puntuaciones tienen propiedades métricas, esta técnica se ha

descrito como una forma de cuantificar datos cualitativos. El paquete estadístico SPSS

presenta diferentes procedimientos de escalamiento óptimo que se pueden clasificar en

función del número y tipo de variables cualitativas que se utilizan14. Dado que las

variables de utilización de herramientas de marketing que consideramos en nuestro

14 Cuando el número de variables que se relaciona son 2 y están medidas con una escala nominal, el procedimiento a utilizar es el ANACOR (el análisis de correspondencia simple). Cuando se relacionan más de 2 variables cualitativas nominales el procedimiento recomendado es el HOMALS (el análisis de correspondencia múltiple). Si entre las variables que se relacionan tenemos algunas ordinales o numéricas el procedimiento a utilizar es el PRINCALS (el análisis de componentes principales no lineal) y, por último, tenemos el OVERALS (el análisis del coeficiente de correlación canónica no lineal) que es el más general de los procedimientos mencionados ya que dependiendo de la naturaleza de las variables puede originar los resultados obtenidos con los demás procedimientos.

Page 195: Anal is is Multi Variable

Análisis Multivariante

185

análisis son de naturaleza nominal, el procedimiento que hemos utilizado ha sido el

análisis de correspondencias múltiple (el HOMALS). El input para este análisis es una

matriz donde las filas representan objetos (en nuestro caso los establecimientos) y las

columnas variables (las diferentes herramientas de marketing consideradas). En el

análisis sólo se considera la información categórica de las variables, es decir, la única

consideración que se realiza es que algunos objetos están en la misma categoría

mientras que otros no. No se realizan supuestos sobre las distancias o el orden entre las

categorías de una misma variable.

El HOMALS va asignando puntuaciones a cada categoría de cada variable de forma que

las categorías tengan la máxima extensión, es decir, que las categorías estén separadas

unas de otras tanto como sea posible. El análisis HOMALS también asigna

puntuaciones a los objetos de forma que las cuantificaciones de las categorías son los

promedios (los centroides) de las puntuaciones a los objetos que se encuentran en la

misma categoría15.

Por diseño, el análisis HOMALS trata de producir una solución en la cual los objetos

dentro de la misma categoría son representados juntos y objetos en diferentes categorías

son representados alejados unos de otros. Esto se hace para todas las variables en el

análisis. Las representaciones tienen la propiedad de que cada objeto está tan próximo

como sea posible a las puntuaciones de las categorías a las que pertenece. En este

sentido, las categorías dividen los objetos en subgrupos homogéneos (esta es una de las

razones para denominarlo “análisis de homogeneidad”). Las variables se consideran

homogéneas cuando clasifican los objetos dentro de los mismos subgrupos.

15.5.2 TÉCNICAS DE SEGMENTACIÓN

Los objetivos que persigue este trabajo son tanto la caracterización de las empresas de

comercio que realizan programas de formación en marketing como la caracterización de

las empresas según la valoración a unos programas de formación específicos del campo

de marketing.

15 El método que utiliza en este procedimientos es el de los mínimos cuadrados alternativos (ALS). Se trata de un método iterativo en el cual las estimaciones mínimo cuadrado de las puntuaciones de los objetos y nuevas cuantificaciones dadas a las puntuaciones estimadas de los objetos se calculan alternativamente.

Page 196: Anal is is Multi Variable

Análisis Multivariante

186

En cierta forma, queremos dividir los establecimientos de comercio en segmentos que

se diferencian con respecto, en este caso, a dos criterios:

1. la realización o no de formación, y en caso negativo el motivo de ello.

2. la valoración a diferentes programas de formación de marketing.

Como se puede intuir, el primer criterio queda recogido por una variable de naturaleza

cualitativa ya que se pueden agrupar los establecimientos en diferentes categorías;

mientras que la variable o variables que representan el segundo criterio son de

naturaleza cuantitativa pues se trata de una valoración. Ello lleva a que las técnicas a

utilizar sean diferentes en cada caso. En concreto, para cumplir el primer objetivo

aplicaremos un análisis CHAID mientras que para el segundo aplicaremos la técnica del

AID.

15.5.2.1 ANÁLISIS CHAID.

Como se puede ver en el Cuadro 2, hay una variable que caracteriza a los

establecimientos encuestados en función de si el establecimiento ha realizado formación

en los 2 últimos años (la variable a la que nos referimos es la P17, variable cualitativa

con 5 categorías).

Ya que nuestro objetivo es dividir los establecimientos en segmentos que se diferencian

con respecto a un determinado criterio (en este caso la realización o no de formación y

en caso negativo si ha sido porque no se necesita o por otras causas), ejecutamos un

modelo de segmentación, un CHAID, que está basado en la Chi cuadrado (Kass, 1980;

Magidson, 1988). Este análisis divide la población en grupos distintos basándose en las

categorías del mejor predictor de la variable dependiente16, que debe ser categórica.

Cada uno de los grupos los divide posteriormente en grupos más pequeños basándose en

otras variables predictivas. Este proceso de división continúa hasta que no se pueden

encontrar más predictores estadísticamente significativos o hasta que el tamaño de los

grupos llega a un mínimo establecido.

Los segmentos que el CHAID obtiene son mutuamente exclusivos y exhaustivos; es

decir, los segmentos no se sobreponen y cada caso es contenido exactamente en un

segmento. Además, como los segmentos son definidos por combinaciones de variables

Page 197: Anal is is Multi Variable

Análisis Multivariante

187

predictivas, fácilmente se puede clasificar cada caso en su segmento apropiado

simplemente conociendo sus categorías en las variables predictivas. El CHAID fusiona

categorías de las variables predictoras que no son significativamente diferentes. Este

procedimiento, combinado con el algoritmo de división, asegura que los casos en un

mismo segmento son homogéneos respecto al criterio de segmentación mientras que los

casos en segmentos diferentes tienden a ser heterogéneos con respecto al criterio de

segmentación.

15.5.2.2 ANÁLISIS AID

El AID o detección automática de interacciones es una técnica de análisis estadístico

que se utiliza para estudiar la relación de dependencia entre una variable dependiente y

múltiples predictoras. Su aplicación, como en el caso del CHAID, permite dividir un

conjunto de individuos o entidades de acuerdo con un determinado criterio. Sin

embargo, y a diferencia de este análisis, la variable dependiente o a explicar debe estar

medida en una escala métrica o dicotómica17. En nuestro caso vamos a contar con los

factores que van a resumir la valoración que las empresas de comercio realizan a los

programas de formación. Los factores resultantes del análisis factorial son variables de

naturaleza cuantitativa.

Este análisis procede de forma secuencial, mediante el análisis de varianza, realizando

divisiones de la variable dependiente. Como en el caso anterior, divide la población en

grupos distintos basándose en la variable que mejor explica las diferencias en la variable

dependiente. Cada grupo se vuelve a subdividir por la variable que mejor explica las

diferencias entre ellos. El proceso continua hasta que las diferencias entre los valores

medios de la variable dependiente en los grupos no son diferentes o hasta que el tamaño

de los grupos llega a un mínimo establecido. Por tanto, se podría pensar que el AID

constituye un análisis de varianza secuencial que permite aislar aquellas variables, y

niveles dentro de las mismas, que explican en mayor medida la varianza de la variable

dependiente. A diferencia de las técnicas anteriores, que se han obtenido con el paquete

16 El empleo de una variable dependiente es la principal diferencia entre el CHAID y el análisis Cluster tradicional. 17 Por lo que respecta a las variables independientes o explicativas pueden ser variables medidas en escalas nominales u ordinales.

Page 198: Anal is is Multi Variable

Análisis Multivariante

188

estadístico SPSS para Windows versión 7.5, los resultados del AID se han obtenido con

el DYANE (Santesmases, 1996).

15.6 RESULTADOS

15.6.1 IDENTIFICACIÓN DE DIFERENTES PROGRAMAS DE

FORMACIÓN.

La primera etapa en la aplicación de un análisis factorial consiste en verificar la

adecuación del empleo de este análisis. Para comprobar dicha adecuación se utiliza el

KMO y la significación del test de esfericidad de Barlett. En este caso ambos

indicadores permiten establecer la adecuación de aplicar un factorial a la variables que

recogen la valoración a diferentes programas de formación (KMO = 0.875 y

significación del test de Barlett inferior al 5%).

Los tres factores extraídos por componentes principales (ver Cuadro 4) explican más del

60% de la varianza total. Aplicando una rotación varimax se puede establecer que:

1. El primer factor representa los programas de formación en marketing que

podríamos denominar genéricos. Las variables con una mayor correlación son la

valoración al programa de formación en publicidad, en marketing, en promoción y

en merchandising.

2. El segundo factor representa los programas de formación enfocados al clientes.

Las variables que hacen referencia a la valoración de un programa de formación

de atención al cliente y de psicología del consumidor presentan correlaciones que

superan el 0,70 (concretamente, 0,768 y 0,749 respectivamente).

3. El tercer factor representa los programas de formación técnicos que implican el

empleo de herramientas informáticas (la variable que recoge la valoración a los

programas de formación de diseño asistido por ordenador presenta la correlación

más alta con este factor: 0.758).

Page 199: Anal is is Multi Variable

Análisis Multivariante

189

CUADRO 4 Resultados del Análisis factorial.

Matriz Factorial Comunalidad Matriz Factorial

Rotada

Variables F1 F2 F3 (% var.explicada) F1 F2 F3

Val. PF Publicidad ,75 ,01 -,38 ,72 ,80

Val. PF Marketing ,73 ,17 -,31 ,66 ,75

Val. PF Promoción ,74 ,11 -,16 ,59 ,64 ,33

Val. PF Merchandising ,66 ,14 -,22 ,52 ,64

Val. PF Atención Cliente ,56 -,54 ,13 ,63 ,77

Val. PF Psicolog.

consumidor

,59 -,29 ,51 ,70 ,75 ,38

Val. PF Téc. Ventas ,66 -,37 -,00 ,58 ,40 ,64

Val. PF Escaparatismo ,58 -,46 -,20 ,60 ,48 ,59

Val. PF Diseño asis.

ordenador

,45 ,54 ,31 ,60 ,76

Val. PF Telemarketing ,58 ,50 ,14 ,62 ,37 ,70

Val. PF Gestión stocks ,66 ,00 ,33 ,55 ,49 ,52

Val. PF Téc. Negociación ,66 ,00 ,13 ,47 ,37 ,36 ,45

Valor propio 4,98 1,37 ,90 2,78 2,46 2,00

% varianza explicado 41,51 11,42 7,49 23,22 20,52 16,70

% varianza acumulado 41,51 52,93 60,43 23,22 43,73 60,43

Fuente: elaboración propia.

Por tanto, la reducción que consigue el análisis factorial permite identificar tres tipos

de programas en marketing: los programas genéricos, los programas enfocados a

cliente y, por último, los programas técnicos asistidos por ordenador. En el apartado

4.4. se clasificarán los establecimientos comerciales que prefieren cada uno de estos

programas.

Page 200: Anal is is Multi Variable

Análisis Multivariante

190

15.7 UTILIZACIÓN DE HERRAMIENTAS DE MARKETING

Como se ha comentado anteriormente, el análisis HOMALS permite clasificar en un

mismo grupo a aquellas observaciones que se asemejan entre sí. Como se puede ver en

el Cuadro 518, la primera dimensión que extrae este análisis, la del eje de abcisas,

claramente separa las empresas que emplean herramientas de marketing de las que no.

La segunda dimensión parece que solamente tiene influencia en aquellos

establecimientos comerciales que emplean herramientas de marketing. No provoca

ninguna diferencia relevante entre los que no emplean estas herramientas mientras que

entre los que sí utilizan herramientas de marketing separa los que usan herramientas

más sofisticadas o complejas de los que aplican herramientas más básicas.

Debido a que pretendemos utilizar esta información en las técnicas de segmentación

AID y CHAID, necesitamos recodificar estas dimensiones en una variable cualitativa.

Considerando conjuntamente las dos dimensiones hemos definido la variable Grado de

aplicación de Marketing que permite clasificar a las empresas en tres grupos según la

utilización que hacen de las diferentes herramientas de marketing (ver Cuadro 6):

empresas que NO emplean herramientas de marketing, empresas que emplean las

herramientas de marketing más básicas y empresas que utilizan herramientas más

sofisticadas de marketing.

18 Los eigenvalues de las dimensiones del HOMALS son 0.323 para la primera dimensión y 0.142 para la segunda.

Page 201: Anal is is Multi Variable

Análisis Multivariante

191

CUADRO 5 Resultados del Análisis de correspondencias múltiples.

Posicionamiento de cada categoría en los factores

Dimensión 1

2,01,51,0,50,0-,5-1,0-1,5

Dim

ensi

ón 2

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

-2,5

Ferias y certámenes

Estudio de mercado

Escaparatistas prof.

Técnicas Merchandis

Aguna promoción

Agencia publicidad

Medio publicitario

Ha hecho publicidad

Base datos clientes

Si FyCNo FyC

Si EMe

No EMe

Si Esc

No Esc

Si Merchand

No se que es

No Merchand

Si ProNo Pro

Si APuNo APu

No medios

Otros

BuzoneoPrensa

Radio

T.V.

Si Pub

No Pub

Si BDCNo BDC

Fuente: elaboración propia.

Conviene remarcar que con la reclasificación de los establecimientos comerciales en

tres categorías según el grado de utilización de herramientas de marketing se preservan

los resultados obtenidos con el análisis factorial de correspondencias múltiple. Para

verificar este aspecto hemos realizado tablas de contingencia cruzando la variable

Grado de Aplicación de Marketing y cada una de las variables utilizadas en el análisis

HOMALS. En todos los casos, el estadístico de la Chi cuadrado permitía rechazar la

hipótesis nula de independencia entre las variables con un nivel de confianza

prácticamente absoluto.

Page 202: Anal is is Multi Variable

Análisis Multivariante

192

CUADRO 6 Recodificación de la variable Marketing

Tabla de frecuencia Grado aplicación de marketing

Categoría Definición Frecuencia Porcentaje No Marketing Dimensión 1 <= 0 412 50,4 Marketing Básico Dimensión 1 > 0 y Dimensión 2 > 0 261 31,9 Marketing Sofisticado Dimensión 1 > 0 y Dimensión 2 < 0 145 17,7

Total 818 100,0 Fuente: elaboración propia.

15.8 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS

COMERCIALES SEGÚN LA REALIZACIÓN O NO DE

PROGRAMAS DE FORMACIÓN

El análisis CHAID utilizado para caracterizar a los establecimientos que han realizado

una determinada formación en los dos últimos años divide a los establecimientos en 8

grupos:

Grupo 1: está formado por los establecimientos con un solo empleado (285

establecimientos). De estos un 37,89% no hacen formación por falta de tiempo y un

28,42% considera que no tienen necesidad.

Grupo 2: Está formado por los establecimientos con dos empleados, que no utilizan

herramientas de marketing y que son autónomos (en total, 85 establecimientos). De

éstos un 30,59% no hacen formación porque no tienen necesidad y un 36,47% no la

hacen por falta de tiempo.

Grupo 3: También está formado por los establecimientos con dos empleados que no

utilizan herramientas de marketing pero en este caso tienen forma de sociedad o

cooperativa (26 establecimientos). Un 38,46% de estos establecimientos hacen

formación mientras que un 23,08% no hacen formación por otros motivos.

Grupo 4: Está formado por establecimientos con dos empleados que utilizan

herramientas de marketing, ya sean básicas o sofisticadas. De estos establecimientos

más de un 50% realizan cursos de formación.

Grupo 5: Esta formado por aquellos establecimientos que cuentan con un número de

empleados que oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan

Page 203: Anal is is Multi Variable

Análisis Multivariante

193

herramientas básicas y que no importan productos. De estos establecimientos, 54 en

total, un 42,59% hacen cursos de formación y un 24,07% señalan que no tienen

necesidad.

Grupo 6: Lo forman los establecimientos que cuentan con un número de empleados que

oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan herramientas

básicas y que venden productos importados. De estos establecimientos, 95 en total, un

48,42% hacen cursos de formación y un 10,53% señalan que no hacen porque no

existen programas adecuados.

Grupo 7: Este grupo está compuesto por los establecimientos que cuentan con un

número de empleados que oscila entre 3 y 6 y que aplican marketing sofisticado. En

total son 46 establecimientos de la muestra de los cuales el 67,39% hacen cursos de

formación y un 15,22% no hacen cursos de formación por diferentes motivos.

Grupo 8: Está formado por los establecimientos con más de 6 empleados (51). De estos

más del 82% hacen cursos de formación mientras que no hay ninguno que diga no hacer

cursos de formación por no tener necesidad.

En conclusión, la mayor diferenciación entre los que realizan programas de formación y

los que no los hacen es el tamaño del establecimiento (a mayor tamaño más realización

de formación). El grado de utilización de las herramientas de marketing también

diferencia entre los que realizan o no programas de formación pero sólo en

establecimientos de 2 empleados o de 3 a 6. La no existencia de programas de

formación adecuados no parece ser una justificación importante para la no realización

de programas de formación puesto que en la mayoría de grupos únicamente alrededor

de un 5% mencionan este aspecto, a excepción de los establecimientos de 3 a 6

trabajadores, que no aplican marketing o bien realizan un marketing básico y que

venden productos importados (en este grupo la no existencia de programas adecuados la

manifiestan un 10,5% de los establecimientos).

Page 204: Anal is is Multi Variable

Análisis Multivariante

194

CUADRO 7 Resultados del Análisis de clasificación Chaid.

Características de las empresas según formación Total Si Form: 35,91

No nece: 20,56 No progr: 5,87 Falta tpo: 26,70 Otros mo: 10,95

n = 749

Número de

Empleados

1 2 3 - 6 Más de 6 Si Form: 18,25 No nece: 28,42 No progr: 6,67 Falta tpo: 37,89 Otros mo: 8,77

n =285

Si Form: 34,40 No nece: 22,02 No progr: 5,05 Falta tpo: 25,69 Otros mo: 12,84

n = 218

Si Form: 51,28 No nece: 12,82 No progr: 6,67 Falta tpo: 17,44 Otros mo: 11,79

n = 195

Si Form: 82,35No nece: 0,00No progr: 1,96Falta tpo: 3,92Otros mo: 11,76

n = 51 (1) (8) Utilización de

Marketing Utilización de

Marketing

No Marketing Mark. Básico

y Sofisticado No Marketing

Mark. Básico Marketing

Sofisticado

Si Form: 18,92 No nece: 27,03 No progr: 5,41 Falta tpo: 32,43 Otros mo: 16,22

n = 111

Si Form: 50,47 No nece: 16,82 No progr: 4,67 Falta tpo: 18,69 Otros mo: 9,35

N = 107

Si Form: 46,31 No nece: 15,44 No progr: 6,71 Falta tpo: 20,81 Otros mo: 10,74

n = 149

Si Form: 67,39 No nece: 4,35 No progr: 6,52 Falta tpo: 6,52 Otros mo: 15,22

n = 46

(4) (7) Tipo de

sociedad Vende produc.

importados

Autónomo Sociedad No importa Si importa

Si Form: 12,94 No nece: 30,59 No progr: 5,88 Falta tpo: 36,47 Otros mo: 14,12

n = 85

Si Form: 38,46 No nece: 15,38 No progr: 3,85 Falta tpo: 19,23 Otros mo: 23,08

n = 26

Si Form: 42,59 No nece: 24,07 No progr: 0,00 Falta tpo: 20,37 Otros mo: 12,96

n = 54

Si Form: 48,42 No nece: 10,53 No progr: 10,53 Falta tpo: 21,05 Otros mo: 9,47

n = 95

(2) (3) (5) (6)

Page 205: Anal is is Multi Variable

Análisis Multivariante

195

15.9 CLASIFICACIÓN DE LOS ESTABLECIMIENTOS

COMERCIALES SEGÚN EL TIPO DE PROGRAMA DE

FORMACIÓN REALIZADO

Atendiendo a los resultados del análisis factorial de componentes principales realizado

anteriormente, se han identificado tres programas de formación en marketing:

programas de formación genéricos, programas de formación enfocados a cliente y

programas de formación técnicos asistidos por ordenador. A continuación vamos a

identificar aquellos establecimientos que valoran más cada uno de estos programas

aplicando la técnica del AID.

15.9.1 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN GENÉRICOS

La aplicación del AID tomando como variable cuantitativa el primer factor nos permite

identificar 6 grupos.

Page 206: Anal is is Multi Variable

Análisis Multivariante

196

CUADRO 8 Resultados del Análisis de clasificación AID.

Características de las empresas según su valoración a los programas de formación genéricos de marketing

Total Media: -0,011

D.Est.: 0,999 n = 440

Ha realizado

formación ∆R² = 0,041

Si Formación No Formación Media: 0,235

D.Est.: 0,910 n = 178

Media: -0,178 D.Est.: 0,989

n = 262

Número de

empleados ∆R² = 0,020

Año comienzo actividad

∆R² = 0,030

Más de 2 1 y 2 Después 1985 Antes 1986 Media: 0,036

D.Est.: 0,884 n = 99

Media: 0,484 D.Est.: 0,830

n = 79

Media: 0,071 D.Est.: 0,976

n = 118

Media: -0,383 D.Est.: 0,906

n = 144

(1) (2) Artículos que

comercializa ∆R² = 0,020

Utilización de Marketing

∆R² = 0,010

Durad. Temp. y Cotidiano

Durad. Espec. y varios tipos

No Marketing Mark. Básico y Sofisticado

Media: 0,488 D.Est.: 0,781

n = 30

Media: -0,161 D.Est.: 0,801

n = 69

Media: -0,497 D.Est.: 0,789

n = 102

Media: -0,105D.Est.: 1,081

n = 42 (3) (4) (5) (6)

Grupo 1: Esta formado por 79 establecimientos que otorgan una valoración media al

factor 1 de 0,4837. Son establecimientos que siguen cursos de formación y que tienen 1

ó 2 empleados.

Page 207: Anal is is Multi Variable

Análisis Multivariante

197

Grupo 2: En este grupo encontramos 118 establecimientos que otorgan una valoración

media al factor 1 de 0,0713. Son establecimientos que no hacen formación justificando

esta conducta por cualquiera de los motivos que se presentaban y que comenzaron su

actividad después de 1985.

Grupo 3: Se agrupan 30 establecimientos. Dan una valoración al factor 1 de 0,4882. Son

establecimientos que hacen formación, que tienen más de 3 empleados y que

comercializan artículos duraderos de temporada o cotidianos.

Grupo 4: En este grupo encontramos 69 establecimientos comerciales que dan una

valoración media al factor 1 negativa (-0,1605). Son establecimientos que hacen

formación, que tienen más de 3 empleados pero que comercializan artículos duraderos

especializados y artículos de varios tipos.

Grupo 5: Este grupo presenta 102 establecimientos que, como en el caso anterior,

también dan una valoración negativa al factor 1 (-0,4970). Estos establecimientos no

hacen formación y arguyen cualquiera de los motivos considerados, son

establecimientos que comenzaron su actividad antes de 1985 y que no aplican

herramientas de marketing.

Grupo 6: Aquí se agrupan 42 establecimientos que también dan una valoración negativa

al factor 1. Como en el caso anterior, no hacen formación y son establecimientos que

también comenzaron su actividad antes de 1985 pero, a diferencia de los

establecimientos del grupo anterior, utilizan herramientas de marketing básicas y/o

sofisticadas.

En definitiva, los establecimientos que prefieren cursos de formación genéricos se

encuentran en los grupos 1 y 3. Por tanto, son establecimientos que siguen cursos de

formación y que tienen 1 ó 2 empleados o establecimientos que hacen formación, que

tienen más de 3 empleados y que comercializan artículos duraderos de temporada o

cotidianos. Por contra, los que menos valoran este tipo de formación son los

establecimientos del grupo 4 y 5, es decir, los que hacen formación, tienen más de 3

empleados y comercializan productos duraderos especializados o de varios tipos; o los

que no hacen formación por los motivos señalados, operan desde antes de 1985 y no

utilizan herramientas de marketing.

Page 208: Anal is is Multi Variable

Análisis Multivariante

198

15.9.2 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN ENFOCADOS A CLIENTE

La aplicación del AID tomando como variable cuantitativa el segundo factor nos

permite identificar también en este caso 6 grupos:

Grupo 1: En este grupo encontramos 76 establecimientos que otorgan una valoración

media al factor 2 de -0,5503. Son establecimientos que no hacen formación justificando

que no tienen necesidad.

Grupo 2: Esta formado por 58 establecimientos que otorgan una valoración media al

factor 2 de 0,4736. Son establecimientos que siguen cursos de formación o que no hacen

argumentando diferentes motivos excepto el que señala que no se hacen cursos porque

no se tiene necesidad y que comercializan varios tipos de articulo.

Grupo 3: Se agrupan 141 establecimientos. Dan una valoración media al factor 2 de

0,0951. Son establecimientos que siguen cursos de formación o que no hacen

argumentando diferentes motivos excepto el que señala que no se hacen cursos porque

no se tiene necesidad, comercializan productos duraderos de temporada, especializados

y cotidianos, tienen una superficie de sala de ventas de hasta 50 m2 y la forma que

adoptan es la de autónomos o sociedad civil.

Page 209: Anal is is Multi Variable

Análisis Multivariante

199

CUADRO 9 Resultados del Análisis de clasificación AID.

Características de las empresas según su valoración a los programas de formación enfocados al cliente

Total Media: -0,001

D.Est.: 1,003 n = 440

Ha realizado

formación ∆R² = 0,063

Si formación y no por otros

No tenemos necesidad

Media: 0,114 D.Est.: 0,875

n = 364

Media: -0,550 D.Est.: 1,266,

n = 76

(1) Artículos que

comercializa ∆R² = 0,020

Varios tipos Específicos Media: 0,474

D.Est.: 0,672 n = 58

Media: 0,045 D.Est.: 0,884

N = 306

(2) Superficie de

ventas ∆R² = 0,010

Más de 50 m² Hasta 50 m² Media: 0,210

D.Est.: 0,759 n = 108

Media: -0,045, D.Est.: 0,929

n = 198

Año comienzo

actividad ∆R² = 0,019

Tipo de sociedad

∆R² = 0,022

Antes 1986 Después 1985 Autónomo Sociedad

Media: 0,468 D.Est.: 0,717

n = 58

Media: -0,090 D.Est.: 0,641

n = 50

Media: 0,095 D.Est.: 0,864

n = 141

Media: -0,390 D.Est.: 0,717

n = 58

(5) (6) (3) (4)

Page 210: Anal is is Multi Variable

Análisis Multivariante

200

Grupo 4: En este grupo encontramos 58 establecimientos comerciales que dan una

valoración media al factor 2 negativa (-0,39). En cuanto a las características, presentan

las mismas que los establecimientos del grupo 2 con la excepción de que la forma que

adoptan es la de sociedad o cooperativa.

Grupo 5: Este grupo presenta 58 establecimientos que dan una valoración media al

factor 2 positiva (0,4683). Estos establecimientos no hacen formación y arguyen

cualquiera de los motivos considerados excepto el de que no tienen necesidad,

comercializan productos duraderos (de temporada y especializados) y también

productos cotidianos, la superficie de la sala de ventas supera los 50m2 y son

establecimientos que comenzaron su actividad antes de 1985.

Grupo 6: Aquí se agrupan 50 establecimientos que dan una valoración promedio al

factor 2 negativa (-0,0897). Respecto a las características presentan las mismas que el

grupo anterior a diferencia de que comenzaron su actividad después de 1985.

En definitiva, los establecimientos comerciales que prefieren programas de formación

enfocados a clientes son establecimientos que siguen cursos de formación o que no

hacen argumentando diferentes motivos excepto el que señala que no se hacen cursos

porque no se tiene necesidad y que comercializan varios tipos de articulo. También

están los que presentan esas características pero comercializan productos duraderos de

temporada, especializados y cotidianos, tienen una superficie de sala de ventas de hasta

50 m2 y la forma que adoptan es la de autónomos o sociedad civil y, por último, tenemos

los establecimientos que no hacen formación y arguyen cualquiera de los motivos

considerados excepto el de que no tienen necesidad, comercializan productos duraderos

(de temporada y especializados) y también productos cotidianos, la superficie de la sala

de ventas supera los 50m2 y son establecimientos que comenzaron su actividad antes de

1985. Destaca la valoración negativa de los programas de formación enfocados al

cliente que hacen los establecimientos que afirman que no hacen formación porque no

tienen necesidad (grupo 1).

Page 211: Anal is is Multi Variable

Análisis Multivariante

201

15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIÓN TÉCNICOS QUE EMPLEAN HERRAMIENTAS

INFORMÁTICAS

La aplicación del AID tomando como variable cuantitativa el tercer factor nos permite

identificar ahora 8 grupos:

Grupo 1: Este grupo presenta 62 establecimientos que dan una valoración media al

factor 3 positiva (0,0268). Estos establecimientos hacen formación y utilizan

herramientas sofisticadas de marketing.

Grupo 2: Aquí se agrupan 78 establecimientos que dan una valoración promedio al

factor 3 negativa de -0,4950. Estos establecimientos no hacen cursos de formación y lo

justifican con los diferentes motivos que se les presentan y, en cuanto a los productos

que comercializan, son productos cotidianos.

Grupo 3: Esta formado por 28 establecimientos que otorgan una valoración media al

factor 3 de 0,7503. Son establecimientos que siguen cursos de formación, que no

utilizan herramientas de marketing y si utilizan son herramientas básicas y, además, no

importan productos.

Grupo 4: Aquí se agrupan 49 establecimientos que dan una valoración promedio al

factor 3 negativa de -0,4450. Estos establecimientos no hacen cursos de formación y lo

justifican con los diferentes motivos que se les presentan. En cuanto a los productos que

comercializan son duraderos especializados y de temporada o comercializan varios tipos

de productos. En este grupo encontramos los establecimientos de confección, moda y

textil y manufacturas.

Grupo 5: Se agrupan 66 establecimientos. Dan una valoración media al factor 3 de

0,1231. Son establecimientos que siguen cursos de formación, que no utilizan

herramientas de marketing y si utilizan emplean herramientas básicas, venden productos

importados y comenzaron su actividad antes de 1990.

Page 212: Anal is is Multi Variable

Análisis Multivariante

202

CUADRO 10 Resultados del Análisis de clasificación AID. Características de las empresas según su

valoración a los programas de formación técnicos con ordenador Total Media: -0,029

D.Est.: 0,987 n = 440

Ha realizado

formación ∆R² = 0,056

Si Formación No Formación Media: 0,256

D.Est.: 1,041 n = 178

Media: -0,222 D.Est.: 0,836

n = 262

Utilización de

Marketing ∆R² = 0,012

Artículos que comercializa ∆R² = 0,019

Marketing Sofisticado

No Marketing Mark. Básico

Duraderos y varios tipos

Cotidiano

Media: 0,027 D.Est.: 0,908

n = 62

Media: 0,378 D.Est.: 1,069

n = 116

Media: -0,106 D.Est.: 0,863

n = 184

Media: -0,495D.Est.: 0,665

n = 78 (1) (2) Vende produc.

importados ∆R² = 0,012

Actividad ∆R² = 0,018

Si importa No importa Confección y

Manufacturas Alimentación,

ocio, servicios

Media: 0,260 D.Est.: 1,087

n = 88

Media: 0,750 D.Est.: 0,829

n = 28

Media: -0,445, D.Est.: 0,779

n = 49

Media: 0,017 D.Est.: 0,837

n = 135

(3) (4) Año comienzo

actividad ∆R² = 0,012

Edad de la dirección

∆R² = 0,018

Antes 1991 Después 1990 Menos de 46 Más de 45

Media: 0,123 D.Est.: 1,058

n = 66

Media: 0,671 D.Est.: 0,948

n =22

Media: 0,154 D.Est.: 0,818

n = 102

Media: -0,405D.Est.: 0,658

n = 33 (5) (6) (7) (8)

Page 213: Anal is is Multi Variable

Análisis Multivariante

203

Grupo 6: En este grupo encontramos 22 establecimientos comerciales que dan una

valoración media al factor 3 de 0,6709. Presentan las mismas características que los

establecimientos del grupo anterior pero comenzaron su actividad después de 1990.

Grupo 7: Aquí se agrupan 102 establecimientos que dan una valoración promedio al

factor 3 positiva de 0,1540. Estos establecimientos no hacen cursos de formación y lo

justifican con los diferentes motivos que se les presentan. En cuanto a los productos que

comercializan son duraderos especializados y de temporada o comercializan varios tipos

de productos. En este grupo encontramos los establecimientos de alimentación y

bebidas, ocio y recreo, servicios y otros. En estos establecimientos la edad de los

directivos oscila entre 18 y 45 años.

Grupo 8: En este grupo encontramos 33 establecimientos que otorgan una valoración

media al factor 3 de -0,4052. Son establecimientos que presentan las mismas

características que las del grupo anterior con la diferencia de que la edad de la dirección

supera los 45 años (a más edad menos preferencia por la informática).

En definitiva, los establecimientos comerciales que más valorar los programas de

formación que emplean herramientas informáticas son los que hacen formación, que no

utilizan herramientas de marketing o utilizan herramientas básicas y que no venden

productos importados (grupo 3) o los que con las mismas características sí que venden

productos importados e inician su actividad después de 1990 (grupo 6). En cambio, las

valoraciones más negativas las realizan los establecimientos que no hacen formación y

venden productos cotidianos (grupo 2), los que no hacen formación, venden productos

duraderos o de varios tipos y son de confección o manufacturas (grupo 4) o los que son

de alimentación, ocio o servicios y la edad de la dirección supera los 45 años (grupo 8).

En la valoración a este tipo de programas de formación sorprende que los

establecimientos que utilizan marketing sofisticado y los que venden productos

importados tienen una valoración inferior a los que no lo hacen (esto podría sugerir que

los cursos más técnicos no están al nivel de exigencia esperado por aquellos

establecimientos que están en un estadio más avanzado en su actividad).

16. CONCLUSIONES

La clasificación del comercio ha sido un aspecto desarrollado por diferentes trabajos de

la literatura, como se ha puesto de manifiesto con algunas referencias comentadas

Page 214: Anal is is Multi Variable

Análisis Multivariante

204

anteriormente. Sin embargo, no se había realizado una clasificación de los

establecimientos comerciales atendiendo a su valoración y a su relación con los

programas de formación.

En este trabajo, con la aplicación de técnicas de segmentación como el CHAID y el

AID, se han podido caracterizar a los establecimientos que hacen cursos de formación

así como a los establecimientos que prefieren un determinado curso de formación.

Así, según la realización de programas de formación, en el lado de los que no realizan

formación por falta de tiempo (37%) o por no tener necesidad (30%) destacan dos

grupos: los comercios con un solo empleado y los comercios con dos empleados que no

hacen marketing y son autónomos. Por otro lado, entre los comercios que mayor

formación realizan encontramos los de más de 6 trabajadores y los de 3 a 6 trabajadores

que hacen marketing sofisticado. Finalmente, destaca el grupo de comercios que

presentan de 3 a 6 trabajadores, que no aplican marketing o utilizan un marketing básico

y que venden productos importados puesto que un 10,5% de los mismos detectan que no

existen programas de formación adecuados (en los otros grupos este porcentaje se

situaba alrededor del 5%).

Como resultado general, se puede señalar que hay una clara relación entre realizar

cursos de formación y valorar muy positivamente los diferentes programas de

formación en marketing. De hecho, los grupos de establecimientos que otorgan una

valoración más negativa a los diferentes programas de formación en marketing son

establecimientos que no hacen formación. Por ejemplo, los establecimientos que no

hacen formación, creados antes de 1986 y que tampoco hacen marketing son los que

valoran más negativamente los programas de formación genéricos. Los

establecimientos que dicen no tener necesidad de formación son los que valoran más

negativamente los programas enfocados a clientes.

En cuanto a la preferencia por un determinado curso de formación, se puede señalar que

existen variables que influyen en la valoración de todos los programas de formación

aunque no de la misma forma en cada uno de ellos. Así, cuando los artículos que

comercializa el establecimiento son duraderos de temporada y cotidianos, aumenta la

valoración a los programas genéricos; cuando los establecimientos comercializan

diversos tipos aumenta la valoración de los programas enfocados a los clientes y, por

Page 215: Anal is is Multi Variable

Análisis Multivariante

205

último, cuando se comercializan artículos cotidianos disminuye en gran medida la

valoración de los programas técnicos.

Atendiendo a la antigüedad de la empresa, se observa como aquellos establecimientos

que operan desde antes de 1986 otorgan una valoración media positiva a los programas

de formación enfocados a clientes y negativa a los programas de formación genéricos.

Para la valoración de los programas de formación técnicos, la diferencia se sitúa en los

comercios creados antes o después de 1990, siendo estos últimos los que más los

valoran.

Finalmente, otras variables que caracterizan la valoración de los programas de

formación considerados son el grado de utilización de las herramientas de marketing.

Para aquellos establecimientos que no utilizan marketing la valoración a los programas

de formación genéricos es más baja que para los establecimientos que utilizan estas

herramientas. Por contra, para aquéllos que ya utilizan herramientas sofisticadas de

marketing, la valoración de los programas técnicos asistidos por ordenador es inferior a

los que no hacen marketing o utilizan herramientas básicas.

En definitiva, los resultados obtenidos permiten contrastar las dos hipótesis planteadas

en un inicio. De este modo, los establecimientos que más emplean herramientas de

marketing son los que realizan más formación (o viceversa) y también se puede

observar como la preferencia por un plan de formación específico viene determinada

por estas dos variables más algunas características del establecimiento comercial.

17. BIBLIOGRAFÍA

Davies Bush, V. y Ingram, T. (1996): “Adapting to Diverse Customers: A Training

Matrix for International Marketers”. Industrial Marketing Management, Vol. 25, nº

5, p. 373 - 383.

Fondo Social Europeo, FORCEM, Federación de Empresarios de Comercio de

Zaragoza (1996): Plan de Estudios Profesionales para el Comercio. Edita IMSO,

S.L.

Hogart-Scott, S. y Jone, M.A. (1993): “Advice and Training Support for the Small

Firms Sector in West Yorkshire”. Journal of European Industrial Training, Vol 17,

nº 1, p.18 - 22.

Page 216: Anal is is Multi Variable

Análisis Multivariante

206

Kass, G. (1980): “An Exploratory Technique for Investigating Large Quantities of

Categorical Data”. Applied Statistics, Vol. 29, nº 2, p. 119-127.

Kotler, P. (1992): Dirección de Marketing. Análisis, planificación, gestión y control. 7ª

Ed. Prentice Hall.

Magidson, J. (1988): “Improved Statistical Techniques for Response Modeling.

Progresion Beyond Regresion”. Journal of Direct Marketing, Vol. 2, nº 4, p.6 - 18.

Magidson, J. y SPSS Inc (1993): SPSS. SPSS for Windows Chaid Release 6.0. SPSS

Inc. Chicago.

Norusis, M.J. (1983): SPSSx. Introductory Statistics Guide. McGraw-Hill Book

Company.

Obis, T.; Jiménez, E.; Rialp, J. (1997): “El marketing en el comercio de Zaragoza”. IX

Encuentro de Profesores Universitarios de Marketing, Murcia, 25 y 26 de

Septiembre, p. 315-334.

Rebollo, A. (1993): “Clasificación de las Formas Comerciales: el Producto-

Establecimiento”. Distribución Actualidad, nº 10 (junio-julio), p. 10-18.

Rodríguez del Bosque, I.; Agudo San Emeterio, A.; Suárez Vázquez, A.; García de los

Salmones, Mª. (1997): “La modernización del Comercio minorista: Predisposición

hacia el Cambio”. IX Encuentro de Profesores Universitarios de Marketing, Murcia,

25 y 26 de Septiembre, p. 359-375.

Rodríguez del Bosque, I.; Trespalacios Gutiérrez, J.A.; Agudo San Emeterio, A.; Suárez

Vázquez, A.; García de los Salmones, Mª; Fernández Polanco, J. (1997): El Sector

Comercio Minorista en Cantabria. Servicio de Publicaciones de la Universidad de

Cantabria. Gobierno de Cantabria. Santander.

Santesmases Mestre, M. (1992): Marketing. Conceptos y Estrategias. Ediciones

Pirámide, S.A. Madrid.

Santesmases, M. (1997): DYANE. Diseño y análisis de encuestas en investigación

social y de mercados. Ediciones Pirámide. Madrid

Page 217: Anal is is Multi Variable

Análisis Multivariante

207

Sarabia, F.J. y Ruiz de Maya, S. (1996): “Aspectos Metodológicos para la realización de

Estudios en el Ámbito de la Distribución Comercial”. Esic Market, enero-marzo, p.

117-141.

SPSS Inc. (1990): SPSS Categories. SPSS Inc. Chicago

Weeks, W.A. y Stevens, C.G. (1997): “National Account Management Sales. Training

and Directions for Improvement”. Industrial Marketing Management, Vol. 26, nº 5,

p. 423 - 431.

Weiers, R.M. (1986): Investigación de Mercados. México. Prentice Hall.

Page 218: Anal is is Multi Variable

Análisis Multivariante

208

ANÁLISIS DE CLASIFICACIÓN MÚLTIPLE (ACM)

Page 219: Anal is is Multi Variable

Análisis Multivariante

209

18. CONCEPTO DE ACM

El análisis de clasificación múltiple fue diseñada por Andrews, Morgan y Sonquist y

analiza la relación entre un variable dependiente o criterio, medida en escala métrica o

binaria, mientras que las variables explicativas deben se cualitativas, es decir medidas

en escalas nominales u ordinales o bien variables transformadas a este tipo de escalas.

Aplicación

El ACM sustituye con ventaja a la regresión múltiple con variables ficticias (dummy),

por la dificultad o complejidad que puede suponer la transformación de variables

categóricas en ficticias.

Resumen

Y medida en escala métrica

Las x en nominales u ordinales

19. MODELO DEL ACM

El modelo estadístico expresa la variable dependiente (Y) como una función del valor

medio de la misma más los coeficientes asignados a las categorías correspondientes de

las variables explicativas y un término de error. La ecuación matemática es:

njikjinji ecbaYY ,,,,,,,...., ........+++++=

Donde:

Yi,j,k ..n Es el valor de la variable dependiente en el individuo n, que pertenece a la

categoría i de la variable explicativa A, a la categoría j de la variable B, etc.

Y Es la media de todos los casos de la variable dependiente. Gran media

ai Coeficiente estimado correspondiente a la categoría i de la variable independiente A

bj Coeficiente estimado correspondiente a la categoría j de la variable independiente B

ck Coeficiente estimado correspondiente a la categoría k de la variable independiente C

ei,j,,k, …. n error para el elemento o individuo n

Page 220: Anal is is Multi Variable

Análisis Multivariante

210

Los coeficientes se estiman mediante el método de los mínimos cuadrados.

En el ACM la proporción de varianza explicada por cada una de las variables

independientes se denomina eta cuadrado. )( 2η

Su expresión matemática es.

2

2

2

)(

)(

∑−

−=

kk

jijij

YY

YYNη

Donde

Nij es el número de casos que pertenecen a la categoría j de la variable explicativa i

ijY Valor medio de la variable dependiente de los casos incluidos en la categoría j de la

variable explicativa i

Y Gran media

La medida de la relación entre una variable explicativa y la variable dependiente,

manteniendo constante a las demás, se llama beta cuadrado )( 2β . Su expresión

matemática es:

∑−

=

kk

jijij

YY

aN

2

2

2

)(

)(β

Donde

Nij es el número de casos que pertenecen a la categoría j de la variable explicativa i

aij es el coeficiente de la categoría j de la variable explicativa i

Yk es el valor de la variable dependiente en el caso k (k = 1,2,3,4, ….. n)

Y Gran media

Page 221: Anal is is Multi Variable

Análisis Multivariante

211

La proporción de la varianza de la variable dependiente explicada por el modelo,

Coeficiente de correlación múltiple al cuadrado (R2) viene dado por

∑∑∑−

=

kk

i j kijkij

YY

YaR

22

)(

19.1 CONSIDERACIONES ACERCA DEL MODELO

El modelo es aditivo, pudiendo detectar relaciones no lineales ya que los coeficientes de

la función estimada miden el efecto sobre la variable dependiente de todas y cada una

de las categorías de las variables explicativas.

El modelo también mide el efecto global de cada variable explicativa, tanto de forma

individual como teniendo en cuéntale efecto simultáneo de todas las demás variables.

Los coeficientes obtenidos por el ACM expresan ajustes con respecto al valor medio de

la variable dependiente.

El ACM no detecta directamente las interacciones entre las variables explicativas por

ser un modelo aditivo.

El ACM guarda relación con el Análisis de detección automática de interacciones,

también desarrollado por Sonquist y Morgan.

20. CASO PRÁCTICO