Portafolio Estadística Inferencial
-
Upload
tamara-apraez -
Category
Documents
-
view
1.244 -
download
4
Transcript of Portafolio Estadística Inferencial
PORTAFOLIO DE ESTADÍSTICA INFERENCIAL
UNIVERSIDAD POLITÉCNICA ESTATAL DEL CARCHI
ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN COMERCIAL
INTERNACIONAL
Tulcán – Ecuador
DOCENTE: MSC. JORGE POZO
INTEGRANTES:
6° “B” – Comercio Exterior
MARZO 2012- AGOSTO 2012
1
INTRODUCCION
La estadística inferencial es necesaria cuando queremos hacer alguna
afirmación sobre más elementos de los que vamos a medir. La estadística
inferencial hace que ese salto de la parte al todo se haga de una manera
“controlada”. Aunque nunca nos ofrecerá seguridad absoluta, sí nos ofrecerá
una respuesta probabilística. Esto es importante: la estadística no decide;
sólo ofrece elementos para que el investigador o el lector decidan. En
muchos casos, distintas personas perciben diferentes conclusiones de los
mismos datos.
El proceso será siempre similar. La estadística dispone de multitud de
modelos que están a nuestra disposición. Para poder usarlos hemos de
formular, en primer lugar, una pregunta en términos estadísticos. Luego
hemos de comprobar que nuestra situación se ajusta a algún modelo (si no
se ajusta no tendría sentido usarlo). Pero si se ajusta, el modelo nos
ofrecerá una respuesta estadística a nuestra pregunta estadística. Es tarea
nuestra devolver a la psicología esa respuesta, llenándola de contenido
psicológico.
La estadística descriptiva, como indica su nombre, tiene por finalidad
describir. Así, si queremos estudiar diferentes aspectos de, por ejemplo, un
grupo de personas, la estadística descriptiva nos puede ayudar. Lo primero
será tomar medidas, en todos los miembros del grupo, de esos aspectos o
variables para, posteriormente, indagar en lo que nos interese. Sólo con
esos indicadores ya podemos hacernos una idea, podemos describir a ese
conjunto de personas.
2
OBJETIVO DE LA ESTADÍSTICA
La estadística es el conjunto de técnicas que se emplean para la
recolección, organización, análisis e interpretación de datos. Los datos
pueden ser cuantitativos, con valores expresados numéricamente, o
cualitativos, en cuyo caso se tabulan las características de las
observaciones. La estadística sirve en administración y economía para tomar
mejores decisiones a partir de la comprensión de las fuentes de variación y
de la detección de patrones y relaciones en datos económicos y
administrativos.
JUSTIFICACIÓN
El presente portafolio tiene como justificación recolectar todo el trabajo dado
en clases como portafolio de apoyo del estudiante y además ampliar mas el
contenido con investigaciones bibliográficas de libros ya que esto nos
permitirá analizar e indagar de los temas no entendidos para auto educarse
el estudiante y así despejar los dudas que se tiene con la investigación y el
análisis de cada uno de los capítulos ya que la estadística inferencial es
amplia y abarca problemas que estas relacionados con el entorno para
poder sacar nuestras propias decisiones ya que la estadística inferencial nos
ayudara a la carrera en la que estamos siguiendo como lo es comercio
exterior ampliar mas nuestros conocimientos y utilizar más el razonamiento y
sacar conclusiones adecuadas según el problema que se presente en el
entorno ay que las matemáticas y la estadística nos servirá a futuro para así
poderlos emplear a futuro .
3
CAPITULO I
EL SISTEMA INTERNACIONAL DE UNIDADES
Las unidades del sistema internacional de unidades se clasifican en
fundamentales y derivadas. Las unidades fundamentales no se pueden
reducir. Se citan las unidades fundamentales de interés en la asignatura de
ciencias e ingenierías de os materiales.
Las unidades derivadas se expanden en función de las unidades
fundamentales utilizando signos matemáticos de multiplicación y de división.
Por ejemplo las unidades de densidad del sí son el kilogramo por metro
cubico algunas unidades derivadas tienen nombres y símbolos especiales.
Unidad de masa El kilogramo (kg) es igual a la masa del prototipo
internacional del kilogramo (Diaz, 2008)
Unidad de tiempo El segundo (s) es la duración de 9 192 631 770 periodos
de la radiación correspondiente a la transición entre los dos niveles
HIPERFINOS del estado fundamental del átomo de cesio 133. (Diaz, 2008)
Unidad de intensidad de corriente eléctrica El ampere (A) es la intensidad
de una corriente constante que manteniéndose en dos conductores
paralelos, rectilíneos, de longitud infinita, de sección circular despreciable y
4
situados a una distancia de un metro uno de otro en el vacío, produciría una
fuerza igual a 2·10-7 newton por metro de longitud. (Diaz, 2008)
Unidad de temperatura termodinámica El kelvin (K), unidad de
temperatura termodinámica, es la fracción 1/273,16 de la temperatura
termodinámica del punto triple del agua. (Diaz, 2008)
Unidad de cantidad de sustancia El mol (mol) es la cantidad de sustancia
de un sistema que contiene tantas entidades elementales como átomos hay
en 0,012 kilogramos de carbono 12. (Diaz, 2008)
Unidad de intensidad luminosa La candela (CD) es la unidad luminosa, en
una dirección dada, de una fuente que emite una radiación monocromática
de frecuencia 540·1012 HERTZ y cuya intensidad energética en dicha
dirección es 1/683 WATT por estereorradián. (Diaz, 2008)
Peso: es una magnitud derivada se considera como una unidad vectorial.
(Diaz, 2008)
Escalar: aquel que indica el número y la unidad. (Diaz, 2008)
Vector: indica número unidad dirección etc. (Diaz, 2008)
Magnitud derivada: el peso de la unidad newton es una unidad de fuerza.
(Diaz, 2008)
Gravedad: es la que permite a los cuerpos caer en perpendiculares según la
gravedad de la tierra (Diaz, 2008)
MULTIPLOS Y SUBMULTIPLOS
Múltiplo
Un múltiplo de un número es otro número que lo contiene un número entero
de veces. En otras palabras, un múltiplo de n es un número tal que, dividido
por n, da por resultado un número entero Los primeros múltiplos del uno al
diez suelen agruparse en las llamadas tablas de multiplicar. (Pineda, 2008)
5
Submúltiplo
Un número entero a es submúltiplo de otro número b si y sólo si b es múltiplo
de a, (Pineda, 2008).
COMENTARIO:
El Sistema Internacional de Unidades (SI) tiene la finalidad de: Estudiar el
establecimiento de un conjunto de reglas para las unidades de medida y
como estudiantes de comercio exterior nos ayuda muchísimo porque con el
podemos obtener los resultados al almacenar una mercancía en el
contenedor sin perder el tiempo que es valioso en la carrera, y también si
perder el espacio dentro de dicho contenedor.
El sistema internacional de unidades es estudiado para obtener datos reales
y a su vez poder dar nuestros resultados sacando conclusiones propias de la
carrera Para una comunicación científica apropiada y efectiva, es esencial
que cada unidad fundamental de magnitudes de un sistema, sea
especificada y reproducible con la mayor precisión posible.
6
ORGANIZADOR GRAFICO:
Sistema Internacional de Medidas y Unidades
Magnitudes fundamentales
Una magnitud fundamental
es aquella que se define
por sí misma y es
independiente de las
demás (masa, tiempo,
longitud, etc.).
Magnitudes derivadas
Para resolver el problema que suponga la utilización de unidades diferentes en distintos lugares del mundo, en la XI
Conferencia General de Pesos y Medidas (París, 1960) se estableció el Sistema Internacional de Unidades (SI). En el
cuadro siguiente puedes ver las magnitudes fundamentales del SI, la unidad de cada una de ellas y la abreviatura que se
emplea para representarla:
Son la que
dependen de las
magnitudes
fundamentales.
Múltiplos Submúltiplos
Un número es un
submúltiplo si otro lo
contiene varias veces
exactamente. Ej.: 2 es
un submúltiplo de 14,
ya que 14 lo contiene
7 veces.= 14 = 2 • 7
Un múltiplo de n es
un número tal que,
dividido por n, da por
resultado un número
entero
7
TRABAJO # 1
MÚLTIPLOS Y SUBMÚLTIPLOS
MÚLTIPLOS.- Se pueden obtener múltiplos de cualquier número, son
aquellos que se obtiene al sumar el mismo número varias veces o al
multiplicarlo por cualquier número. (son infinitos), (Aldape & Toral, 2005,
pág. 94).
Ejemplo:
Múltiplos de 5:
5-10-15-20-25-30-35-405-500-1000
SUBMÚLTIPLOS.- Los submúltiplos son todo lo contrario, son las divisiones
exactas de un número, (Aldape & Toral, 2005).
Por ejemplo :
Submúltiplos de 30:
6, 10, 5, 2, 3, etc.
8
MAGNITUDES FUNDAMENTALES Y DERIVADAS
LAS MAGNITUDES FUNDAMENTALES.- Una magnitud fundamental es
aquella que se define por sí misma y es independiente de las demás (masa,
tiempo, longitud, etc.).
LONGITUD: Es la medida del espacio o la distancia que hay entre
dos puntos. La longitud de un objeto es la distancia entre sus
extremos, su extensión lineal medida de principio a fin, (Serway &
Faughn, 2006).
MASA: Es la magnitud que cuantifica la cantidad de materia de un
cuerpo, (Serway & Faughn, 2006).
TIEMPO: Es la magnitud física que mide la duración o separación de
acontecimientos sujetos a cambio, de los sistemas sujetos a
observación, (Serway & Faughn, 2006).
INTENSIDAD DE CORRIENTE ELECTRICA: Se denomina
intensidad de corriente eléctrica a la cantidad de electrones que pasa
a través de una sección del conductor en la unidad de tiempo,
(Serway & Faughn, 2006).
TEMPERATURA: Es una magnitud referida a las nociones comunes
de calor o frío. Por lo general, un objeto más "caliente" tendrá una
temperatura mayor, (Serway & Faughn, 2006).
INTENSIDAD LUMINOSA: En fotometría, la intensidad luminosa se
define como la cantidad flujo luminoso, propagándose en una
dirección dada, que emerge, atraviesa o incide sobre una superficie
por unidad de ángulo solido, (Enríquez, 2002).
CANTIDAD DE SUSTANCIA: Su unidad es el mol. Surge de la
necesidad de contar partículas o entidades elementales
microscópicas indirectamente a partir de medidas macroscópicas
(como la masa o el volumen). Se utiliza para contar partículas,
(Enríquez, 2002).
9
MAGNITUDES DERIVADAS.- Son la que dependen de las magnitudes
fundamentales.
VELOCIDAD: Es la magnitud física que expresa la variación de
posición de un objeto en función del tiempo, o distancia recorrida por
un objeto en la unidad de tiempo, (Enríquez, 2002).
AREA: Área es la extensión o superficie comprendida dentro de una
figura (de dos dimensiones), expresada en unidades de medida
denominadas superficiales, (Enríquez, 2002).
VOLUMEN: Es una magnitud definida como el espacio ocupado por
un cuerpo, (Enríquez, 2002).
FUERZA: se puede definir como una magnitud vectorial capaz de
deformar los cuerpos (efecto estático), modificar su velocidad o
vencer su inercia y ponerlos en movimiento si estaban inmóviles,
(Enríquez, 2002).
TRABAJO: El trabajo, en mecánica clásica, es el producto de una
fuerza por la distancia que recorre y por el coseno del ángulo que
forman ambas magnitudes vectoriales entre sí, (Enríquez, 2002).
La unidad del trabajo es el JOULE.
ENERGIA: Es una magnitud física abstracta, ligada al estado
dinámico de un sistema y que permanece invariable con el tiempo en
los sistemas aislados. La unidad de la energía es el Joule, (Enríquez,
2002).
10
Figura Esquema Área Volumen
Cilindro
Esfera
Cono
Cubo
A = 6 a2 V = a3
Prisma
A = (perim. base •h) + 2 •
area base
V = área base
• h
Pirámid
e
Fórmulas de área y volumen de cuerpos geométricos
11
CONCLUSIONES
El sistema internacional de unidades es muy importante porque se
involucra en nuestra carrera permitiendo la relación económica con
otros países mediante comercio internacional y su negociación entre
ellos. como también la práctica de problemas del sistema
internacional de unidades nos ayudan a ver la realidad de nuestro
entorno de cómo podemos solucionar problemas al momento de
exportar una mercancía, que cantidad de materia prima,
electrodomésticos, enceres que actualmente se exporta en gran
cantidad, puede alcanzar dentro de un contenedor.
El sistema internacional de unidades nos ayudan a vincularnos en los
negocios, como realizar negociaciones en el exterior porque a través
de este sistema podemos indicar el volumen, área, del tipo de
trasporte el cual se va a exportar la mercancía, que cantidad de cajas
por ejemplo podemos enviar al exterior este sistema es muy
fundamental en la carrera de comercio exterior.
Recomendaciones
Se recomienda saber todas las medidas del sistema internacional de
unidades como también las magnitudes , longitud, masa y volumen de
las figuras geométrica para que nuestro producto o mercancía pueda
ser exportada al exterior, es necesario conocer debido a que nos
permitirá realizar una buena negociación conociendo la cantidad de
mercancía que puede introducirse en el transporte.
Es de mucha importancia, que como estudiantes de la carrera de
comercio exterior conozcamos las unidades básicas más utilizadas
que se encuentran presentes en el Sistema internacional para una
correcta aplicación en los ejercicios propuestos. La utilización de las
medidas del Sistema Internacional se presenta a nivel internacional y
por ende son aplicadas en el los negocios de Comercio Internacional
ya que permite una mejor movimiento e intercambio.
12
13
BIBLIOGRAFÍA
Aldape, A., & Toral, C. (2005). Matemáticas 2. México: PROGRESO S.A.
Altamirano, E. (2007).
Anderson, D. R. (2005). Estadística para Administración y Economía.
México: Cengage Learning.
Diaz, R. G. (2008). Unidades fundamentales .
Enríquez, H. (2002). Fundamentos de Electricidad. México: LIMUSA S.A.
Física, E. d. (1997). Brian Mckittrick. Madrid: Reverté S.A.
García, M. A. (2000). Estadística Avanzada con el Paquete Systat. Murcia:
I.S.B.N.
J.R, W. D. (20007). Ciencias e Ingenieria de las Materias .
14
Pineda, L. (2008). matematicas.
Rodrígues, M. E. (2001). Coeficientes de Asociación. México: Plaza y
Valdés.
Sabadías, A. V. (2001). Estadística Descriptiva e Inferencial . Murcia:
COMPOBELL.
Serway, R. A., & Faughn, J. S. (2006). FÍSICA para bachillerato general.
New York: THOMSON.
Weiers, R. M. (2006). Introducción a la Estadística para Negocios. México:
Learning Inc.
Willliams, T. A. (2008). Estadística para Administración y Economía. México:
Cengage Learning.
LINKOGRAFIA
http://www.sc.ehu.es/sbweb/fisica/unidades/unidades/unidades.htm
file:///K:/Tabla-de-Magnitudes-Unidades-Y-Equivalencias.htm
file:///K:/books.htm
file:///K:/volumenes/areas_f.html
file:///K:/cuerposgeoAreaVolum.htm
ANEXOS:
1.- Convertir 2593 Pies a Yardas.
15
2.- Convertir 27,356 Metros a Millas
3.- Convertir 386 Kilogramos a Libras.
4.- Convertir 2,352 Segundos a Año.
5.- Convertir 1.1 Millas/Hora a Metros/Segundo.
16
TRANSFORMACIONES
En muchas situaciones tenemos que realizar operaciones con magnitudes
que vienen expresadas en unidades que no son homogéneas. Para que los
cálculos que realicemos sean correctos, debemos transformar las unidades
de forma que se cumpla el principio de homogeneidad, (Ledanois & Ramos,
2002).
Por ejemplo, si queremos calcular el espacio recorrido por un móvil que se
mueve a velocidad constante de 72 Km/h en un trayecto que le lleva 30
segundos, debemos aplicar la sencilla ecuación S = v·t, pero tenemos el
problema de que la velocidad viene expresada en kilómetros/hora, mientras
que el tiempo viene en segundos. Esto nos obliga a transformar una de las
dos unidades, de forma que ambas sean la misma, para no violar el principio
de homogeneidad y que el cálculo sea acertado, (Ledanois & Ramos, 2002).
Para realizar la transformación utilizamos los factores de conversión.
Llamamos factor de conversión a la relación de equivalencia entre dos
unidades de la misma magnitud, es decir, un cociente que nos indica los
valores numéricos de equivalencia entre ambas unidades, (Ledanois &
Ramos, 2002).
EJERCICIOS REALIZADOS EN CLASE
Volumen 300 transformar en pulgadas 3
V= 100000
17
V= 100000
Q= 7200000
Vol. Paralelepípedo L x a x h
Vol. Cubo
Vol. Esfera
Vol. Cilindro
Vol. Pirámide
Área cuadrada
Área de un rectángulo B x h
Área de un circulo
Área de un triangulo
En una bodega tiene un largo de 60 m un ancho de 30 m cuantas cadjas de
manzana puede ubicar en esta bodega en estas cajas tiene 60cm de lado y
30 de ancho y 40 de altura.
Vol. de p bodega = l x a h = 60 x 30 x3 = 5400
Vol. De p caja = 60 x 30 x 40 = 72000
18
TRANSFORMACIÓN
X=
Un tanquero tiene una longitud de 17 m y un radio del tanque de 1.50 m.
¿Cuántos litros se puede almacenar en dicho tanque?.
RESOLUCION
VOL. CILINDRO =
VOL. CILINDRO= 3.1416 X (1.50 X (17)= 0 120.17
TRANSFORMACIÓN
120.17
19
SISTEMA INTERNACIONAL DE UNIDADES
LONGITUD
1 Km 1000 m
1 m 100 cm
1 cm 10 mm
1 milla 1609 m
1 m 1000 mm
MASA
1qq 100 lbs.
1 Kg 2.2 lbs.
1 qq 45.45 Kg
1 qq 1 arroba
1 arroba 25 lbs.
1 lb 454 g
1 lb 16 onzas
1 utm 14.8 Kg
1 stug 9.61 Kg
1 m 10 Kg
1 tonelada 907 Kg
ÁREA
100
1 10000
1 hectárea 10000
1 acre 4050
1 pie (30.48 cm
1 pie 900.29
1 10.76
20
COMENTARIO EN GRUPO:
Como comentario en grupo podemos decir que las transformaciones nos
servirá en la carrera del comercio exterior y además poder resolver
problemas que se presenten ya que al realizar ejercicios de cilindros y
tanque etc., y otras formas geométricas nos servirá para determinar cuántas
cajas o bultos, etc. que pueden alcanzar en una almacenera o en cada uno
de los contenedores esto nos servirá al realizar prácticas o al momento de
emprender nuestro conocimientos a futuro.
ORGANIZADOR GRAFICO:
21
LONGITUD
Observamos que desde los submúltiplos, en la parte inferior, hasta los
múltiplos, en la parte superior, cada unidad vale 10 veces más que la
anterior, (Riley & Sturges, 2004).
LONGITUD
1 KM 100 M
1 M 100M, 1000MM
1 MILLA 1609M
1 PIE 30,48CM, 0,3048M
1 PULGADA 2,54CM
1 AÑO LUZ 9,46X1015M
TIEMPO.
El tiempo es la magnitud física con la que medimos la duración o separación
de acontecimientos sujetos a cambio, de los sistemas sujetos a observación,
esto es, el período que transcurre entre el estado del sistema cuando éste
aparentaba un estado X y el instante en el que X registra una variación
perceptible para un observador (o aparato de medida). El tiempo ha sido
frecuentemente concebido como un flujo sucesivo de situaciones
atomizadas, (López, March, García, & Álvarez, 2004).
MEDIDAS DEL TIEMPO
1 AÑO 365 DIAS
1 MES 30 DIAS
1SEMANA 7 DIAS
1 DIA 24 HR
1 HORA 60 MIN,3600SEG
1 MINUTO 60 SEG.
MASA Y PESO.
La masa es la única unidad que tiene este patrón, además de estar en
Sevres, hay copias en otros países que cada cierto tiempo se reúnen para
ser regladas y ver si han perdido masa con respecto a la original. El
kilogramo (unidad de masa) tiene su patrón en: la masa de un cilindro
fabricado en 1880, compuesto de una aleación de platino-iridio (90 % platino
22
- 10 % iridio), creado y guardado en unas condiciones exactas, y que se
guarda en la Oficina Internacional de Pesos y Medidas en Seres, cerca de
París, (Hewitt, 2004).
PESO
De nuevo, atención a lo siguiente: la masa (la cantidad de materia) de cada
cuerpo es atraída por la fuerza de gravedad de la Tierra. Esa fuerza de
atracción hace que el cuerpo (la masa) tenga un peso, que se cuantifica con
una unidad diferente: el Newton (N), (Torre, 2007).
SISTEMA DE CONVERSION DE MASA
1 TONELADA
1000 KG
1 QQ 4 ARROBAS, 100 L
1 ARROBA 25 L
1 KG 2,2 L
1 SLUG 14,58 KG
1 UTM 9,8 KG
1 KG 1000 GR
1 L 454 GR, 16 ONZAS
23
TRABAJO # 2
24
25
26
27
28
29
30
31
32
CONCLUSIÓN:
La conversión de unidades es la transformación de una cantidad, expresada
en una cierta unidad de medida, en otra equivalente. Este proceso suele
realizarse con el uso de los factores de conversión y las tablas de
conversión del Sistema Internacional de Unidades.
Frecuentemente basta multiplicar por un factor de conversión y el resultado
es otra medida equivalente, en la que han cambiado las unidades.
Cuando el cambio de unidades implica la transformación de varias unidades
se pueden utilizar varios factores de conversión uno tras otro, de forma que
el resultado final será la medida equivalente en las unidades que buscamos.
Cuando se trabaja en la resolución de problemas, frecuentemente surge la
necesidad de convertir valores numéricos de un sistema de unidades a otro,
por lo cual es indispensable tener conocimientos sobre las equivalencias de
los diferentes sistemas de unidades que nos facilitan la conversión de una
unidad a otra, tomando en cuenta el país y la medida que se emplee en los
diferentes lugares.
RECOMENDACIÓN:
En toda actividad realizada por el ser humano, hay la necesidad de medir
"algo"; ya sea el tiempo, distancia, velocidad, temperatura, volumen,
ángulos, potencia, etc. Todo lo que sea medible, requiere de alguna unidad
con qué medirlo, ya que las personas necesitan saber qué tan lejos, qué tan
rápido, qué cantidad, cuánto pesa, en términos que se entiendan, que sean
reconocibles, y que se esté de acuerdo con ellos; debido a esto es
necesario tener conocimientos claros sobre el Sistema De Conversión De
Unidades pues mediante el entendimiento de este sistema o patrón de
referencia podremos entender y comprender con facilidad las unidades de
medida las cuales las podremos aplicar en la solución de problemas de
nuestro contexto.
33
CRONOGRAMA DE ACTIVIDADES:
MES DE MARZO-ABRIL
ACTIVIDADES M J V S D L M
Investigar sobre el Sistema Internacional de Unidades y la Áreas y volúmenes de diferentes figuras geométricas
X X
Ejecución del Formato del Trabajo X
Resumen de los textos investigados X X
Finalización del Proyecto X
Presentación del Proyecto X
BIBLIOGRAFIA
Enríquez, H. (2002). Fundamentos de Electricidad. México: LIMUSA S.A.
Física, E. d. (1997). Brian Mckittrick. Madrid: Reverté S.A.
García, M. A. (2000). Estadística Avanzada con el Paquete Systat. Murcia:
I.S.B.N.
Hewitt, P. G. (2004). Física Conceptual. México: Pearson Educación S.A.
J.R, W. D. (20007). Ciencias e Ingenieria de las Materias .
Ledanois, J. M., & Ramos, A. L. (2002). Magnitudes, Dimensiones y
Conversiones de Unidades. Caracas: EQUINOCCIO.
López, J. C., March, S. C., García, F. C., & Álvarez, J. M. (2004). Curso de
Ingeniería Química. Barcelona: REVERTÉ S.A.
Pineda, L. (2008). matematicas.
Riley, W. F., & Sturges, L. F. (2004). ESTÁTICA. Barcelona: REVERTÉ.
LINKOGRAFIA:
34
http://es.wikipedia.org/wiki/Magnitud_fundamental#Unidades_en_el_Siste
ma_Internacional_de_Unidades_.28SI.29
http://es.wikipedia.org/wiki/Superficie_%28matem%C3%A1tica%29
http://www.quimicaweb.net/ciencia/paginas/magnitudes.html
http://www.profesorenlinea.cl/geometria/VolumenCilindro.htm
http://mimosa.pntic.mec.es/clobo/geoweb/volum1.htm
http://www.sc.ehu.es/sbweb/fisica/unidades/unidades/unidades.htm
ANEXOS:
1.- Investigar las medidas de un tráiler, de una mula y de un camión sencillo,
además las medidas de las cajas de plátano, manzanas, quintales de papa y
arroz. Con esa información calcular el número de cajas y quintales que
alcanzan en cada uno de los vehículos.
TRAILER MULA CAMION SENCILLO
Largo 14.30m Largo 8.27m Largo 10.80m
Ancho 2.45m Ancho 2.50m Ancho 2.60m
Alto 2.6m Alto 1.44m. Alto 4.40m
Medidas de las cajas:
Medidas de las cajas de plátano
LARGO ANCHO ALTO
20cm 51cm 34cm
Medidas de las cajas de manzana
7.5cm 9.5cm 7.5cm
35
Desarrollo:
36
a.
1 caja de plátano-----------------911*10-05m3
X 91.09m3
b.
1 caja de manzana-----------------5.3*108m3
X 9.11*10-05m3
c.
37
1 qq de papa-----------------0.05m3
X 9.11*10-05m3
d.
1 qq de arroz-----------------0.05m3
X 9.11*10-05m3
e.
1 caja de plátano-----------------911*10-05m3
X 29.77m3
38
f.
1 caja de manzana-----------------5.3*108m3
X 29.77m3
g.
1 qq de papa-----------------0.05m3
X 29.77m3
.
h.
1 qq de arroz-----------------0.05m3
X 9.11*10-05m3
39
i.
1 caja de plátano-----------------911*10-05m3
X 123.55m3
j.
1 caja de manzana-----------------5.3*108m3
X 123.55m3
k.
1 qq de papa-----------------0.05m3
X 123.55m3
40
.
l.
1 qq de arroz-----------------0.05m3
X 123.55m3
.
41
CRONOGRAMA DE ACTIVIDADES DEL PRIMER CAPÍTULO:
Tiempo Actividades
MARZO ABRIL MAYO
SEMANAS SEMANAS SEMANAS
1 2 3 4 1 2 3 4 1 2 3 4
PRIMERA CLASE
Competencia especifica (27-Marzo-2012)
X
Introducción de la Materia (27-Marzo-2012)
x
SEGUNDA CLASE
Sistema Internacional de Unidades (03-Abril-2012)
X
Tarea Sistema Internacional de Unidades. Entregar el 10 de abril del
2012
X
TERCERA CLASE
Aplicación de transformaciones (17 de abril del 2012)
X
Tarea Ejercicios de aplicación acerca del Sistema Internacional de unidades según las transformaciones (24 de abril del 2012)
X
CUARTA CLASE
Evaluación primer capitulo (03 de Mayo del 2012)
x
42
43
44
CAPITULO II
MARCO TEORICO:
COEFICIENTE DE CORRELACIÓN Y REGRESIÓN LINEAL
La correlación estadística determina la relación o dependencia que existe entre las
dos variables que intervienen en una distribución bidimensional. Es decir,
determinar si los cambios en una de las variables influyen en los cambios de la
otra. En caso de que suceda, diremos que las variables están correlacionadas o
que hay correlación entre ellas.
Una medida estadística ampliamente utilizada que mide el grado de
relación lineal entre dos variables aleatorias. El coeficiente de correlación
debe situarse en la banda de -1 a +1. El coeficiente de correlación se
calcula dividiendo la covarianza de las dos variables aleatorias por el
producto de las desviaciones típicas individuales de las dos variables
aleatorias. Las correlaciones desempeñan un papel vital en la creación de
carteras y la gestión de riesgos, (Weiers, 2006).
Comentario:
A una correlación se la puede apreciar con un grupo de técnicas
estadísticas empleadas para medir la intensidad de dicha relación entre dos
variables, en donde se deben identificar la variable dependiente y la
independiente.
DIAGRAMA DE DISPERSIÓN
Representación gráfica del grado de relación entre dos variables cuantitativas.
45
Características principales
A continuación se comentan una serie de características que ayudan a
comprender la naturaleza de la herramienta.
Impacto visual
Un Diagrama de Dispersión muestra la posibilidad de la existencia de correlación
entre dos variables de un vistazo.
Comunicación
Simplifica el análisis de situaciones numéricas complejas.
Guía en la investigación
El análisis de datos mediante esta herramienta proporciona mayor información que
el simple análisis matemático de correlación, sugiriendo posibilidades y
alternativas de estudio, basadas en la necesidad de conjugar datos y procesos en
su utilización, (García, 2000).
Comentario:
El diagrama de dispersión sirve para una representación gráfica más fácil y
útil cuando se quiere describir el comportamiento de un conjunto de dos
variables, en donde aparece representado como un punto en el plano
cartesiano.
COEFICIENTE DE CORRELACIÓN RECTILINEA DE PEARSON
En estadística, el coeficiente de correlación de Pearson es un índice que mide la
relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la
covarianza, la correlación de Pearson es independiente de la escala de medida de
las variables.
46
De manera menos formal, podemos definir el coeficiente de correlación de
Pearson como un índice que puede utilizarse para medir el grado de relación de
dos variables siempre y cuando ambas sean cuantitativas.
El coeficiente de correlación es una medida de asociación entre dos
variables y se simboliza con la literal r; los valores de la correlación van de
+ 1 a - 1, pasando por el cero, el cual corresponde a ausencia de
correlación. Los primeros dan a entender que existe una correlación
directamente proporcional e inversamente proporcional, respectivamente,
(Willliams, 2008).
Comentario:
El coeficiente de correlación de Pearson nos da una idea de que tan
relacionadas están dos variables, este número varía entre 0 y 1; si el
coeficiente es > 0.9, entonces es una buena correlación y cuando un
coeficiente es < 0.3 indica que las variables no están correlacionadas entre
ellas y por lo que el 1 representa una correlación perfecta.
INTERPRETACIÓN DE UN COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación como previamente se indicó oscila entre –1 y +1
encontrándose en medio el valor 0 que indica que no existe asociación lineal entre
las dos variables a estudio. Un coeficiente de valor reducido no indica
necesariamente que no exista correlación ya que las variables pueden presentar
una relación no lineal como puede ser el peso del recién nacido y el tiempo de
gestación. En este caso el r infraestima la asociación al medirse linealmente. Los
métodos no paramétrico estarían mejor utilizados en este caso para mostrar si las
variables tienden a elevarse conjuntamente o a moverse en direcciones diferentes.
Como ya se ha planteado el grado de correlación mide la intensidad de
relación lineal, ya sea directa, inversa o inexistente entre dos variables, se
47
dice que es directa si tiene signo positivo, inversa de signo negativo y nula
cuando el valor sea aproximadamente igual a cero, (Anderson, 2005).
Comentario:
El coeficiente de correlación mide solo la relación con una línea recta, dos
variables pueden tener una relación curvilínea fuerte, a pesar de que su
correlación sea pequeña; por lo tanto cuando analicemos las relaciones
entre dos variables debemos representarlas gráficamente y posteriormente
calcular el coeficiente de correlación para un mejor entendimiento.
FORMULA
REGRESIÓN LINEAL SIMPLE
Elegida una de las variables independientes y representadas los valores de la
variable bidimensional, si observamos que la función que mejor se adapta a la
forma de la nube de puntos es una recta, tendremos un problema de regresión
lineal. Si hemos elegido el carácter X como variable independiente, tendremos a la
recta de regresión de Y sobre X. Si elegimos Y como variable independiente, se
obtendrá la recta de regresión de X sobre Y.
Regresión Lineal Simple.- suponga que tenemos una única variable respuesta
cuantitativa Y, y una única variable predictora cuantitativa X. Para estudiar la
relación entre estas dos variables examinaremos la distribución condicionales de Y
dado X=x para ver si varían cuando varia x. (MORER, 2004)
48
COMENTARIO:
Podemos concluir diciendo que una de las variables independientes y
representadas los valores que mejor se adapta a la forma de la nube de
puntos es una recta, tendremos un problema de regresión lineal. A demás
el hecho de entender de que se trata una regresión lineal y saberla aplicar
relacionando dos variables nos será de mucha ayuda en nuestro futuro ya
que nos permitirá aplicar lo aprendido en problemas reales que se nos
presenten en nuestra vida profesional como por ejemplo el saber que tan
buena resulta una relación entre exportaciones e importaciones que el
Ecuador ha realizado y así con esto poder tomar decisiones.
CORRELACIÓN POR RANGOS
Cuando se obtienen datos en parejas, tales como observaciones de dos variables
para un mismo individuo, deseamos conocer si las dos variables están
relacionadas o no y de estarlo, el grado de asociación entre ellas.
Correlación Por Rangos.- Este coeficiente de Sperman, es muy utilizado en
investigaciones de mercado, especialmente cuando no se deben aplicar medidas
cuantitativas para ciertas características cualitativas, en aquellos casos , en donde
se pueden aplicar ambos coeficientes de correlación, encontraremos que sus
resultados son bastante aproximados. (BENCARDINO, 2006)
COMENTARIO:
Son datos en pareja para poder conocer la relación que existe entre ellas
para un solo individuo en común, y medir el grado de asociación entre ellas.
Esto es muy interesante ya que en un futuro nos ayudara en lo que nos
vamos a desarrollar que es un ambiente de negocios, ya que podemos
aplicar esta técnica estadística aprendida, y así poder solucionar problemas
que se nos presenten comúnmente y saber que tan buena es la relación
49
entre las dos variables propuestas es decir nos ayudara mucho ya que nos
dará una idea de que tan relacionadas linealmente están dos variables y si
su relación es positiva o negativa.
RANGO
La diferencia entre el menor y el mayor valor. En {4, 6, 9, 3, 7} el menor valor es 3,
y el mayor es 9, entonces el rango es 9-3 igual a 6. Rango puede significar
también todos los valores de resultado de una función.
Rango.- es una categoría que puede aplicarse a una persona en función de su
situación profesional o de su status social. Por ejemplo: “Tenemos que respetar el
rango del superior a la hora de realizar algún pedido”, “Diríjase a mi sin olvidar su
rango o será sancionado. (MORER, 2004)
COMENTARIO:
Rango es el valor que se diferencia entre el menor y el mayor valor. Rango
puede significar también todos los valores de resultado de una función, y se
puede así relacionar y correlacionar a dos variables para obtener resultados
que nos ayudan a la toma de decisiones. A demás un rango es importante
ya que nos permite la obtención de datos más exactos y pues con esto
nuestro trabajo se entonara de forma más real y sobre todo de forma más
precisa, y por ende tomaremos decisiones más acertadas.
COMENTARIO GENERAL:
La correlación y regresión lineal están estrechamente relacionadas entre si las
cuales nos ayudan a comprender el análisis de los datos muéstrales para saber
qué es y cómo se relacionan entre sí dos o más variables en una población que
deseemos estudiar para así poder determinar posibles resultados que nos darán
50
en un estudio de mercado por ejemplo ya que nuestra carrera de comercio exterior
está muy relacionada con ese ámbito.
La regresión lineal por otro lado nos permitirá graficar las dos variables a estudiar
determinando su situación y si es conveniente o no desarrollar lo propuesto o
investigado. La finalidad de una ecuación de regresión seria estimar los valores de
una variable con base en los valores conocidos de la otra.
Es decir en resumen que nos permitirá tomar decisiones acertadas dentro de un
estudio ya sea en una población que determinara el éxito o fracaso entre dos
variables a estudiar, y facilitara la recolección de información.
ORGANIZADOR GRAFICO:
CORRELACION Y REGRESION
LINEAL
ayuda a la toma de decisiones segun lo
resultante en la aplicacion de estos
grupodetécnicasestadísticasusadasparamedirlafuerzadelaasociaciónentredosvariable
s
se ocupa de establecer si existe una relación así como de determinar su magnitud y dirección mientras que la
regresión se encarga principalmente de utilizar a
la relación para efectuar una predicción.
determinar posibles resultados como por ejemplo del exito en
un estudi de mercado
permite evaluar decisiones que se
tomen en una poblacion
herramienta basica para estudios y
analisis que pueden determinar el exito o
fracaso entre dos opciones
51
TRABAJO #3
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
CRONOGRAMA DE ACTIVIDADES:
Actividad
Días
Responsable
Mar, 08 Mié, 09 Jue, 10 Vie,11 Sáb,12 Dom,13 Lun,14 Mar,15 Mié,16 Jue,17
Copias Tamara
Apraez, Diana
Coral, Diana
García, Tania
Herrera.,
Janeth Reina
Iniciar con
los
ejercicios
Tamara
Apraez, Diana
Coral, Diana
Garcia, Tania
Herrera.,
Janeth Reina
Terminar los
ejercicios
Tamara
Aprez, Diana
Coral, Diana
García, Tania
Herrera.,
Janeth Reina
Prueba Tamara
Aprez, Diana
Coral, Diana
Garcia, Tania
Herrera.,
Janeth Reina
82
ANEXOS:
Ejemplo 1:
La siguiente tabla representa las puntuaciones de 7 sujetos en dos variables X e
Y.
X: 6 3 7 5 4 2 1
Y: 7 6 2 6 5 7 2
Calcule:
a. El coeficiente de correlación de Pearson entre X e Y
b. La recta de regresión de Y sobre X en puntuaciones directas
c. La varianza de Y ( ), la varianza de las puntuaciones pronosticadas ( )
y la varianza error (
a)
X Y XY X2 Y2
6 3 7 5 4 2 1
7 6 2 6 5 7 2
42 18 14 30 20 14 2
36 9
49 25 16 4 1
49 36 4
36 25 49 4
28 35 140 140 203
83
b)
c)
Ejemplo 2:
Se tienen los datos conjuntos de dos variables, X e Y, con los valores que se
muestran en la tabla:
X: 1; 3; 5; 7; 9; 11; 13
Y: 1; 4; 6; 6; 7; 8; 10
a. Si utilizamos la variable X como predictora de la variable Y, ¿qué porcentaje
de variabilidad de Y no puede ser explicada por la variabilidad de X?.
b. ¿Qué valor pronosticaríamos en la variable Y, si en la variable X obtenemos
un valor de 10?
c. Suponiendo que no dispusiéramos de la información relativa a la variable X,
¿qué valor pronosticaríamos para la variable Y? (Razone su respuesta).
84
a) Completamos la siguiente tabla:
X Y XY X2 Y2
1 1 1 1 1
3 4 12 9 16
5 6 30 25 36
7 6 42 49 36
9 7 63 81 49
11 8 88 121 64
13 10 130 169 100
49 42 366 455 302
El cuadrado del coeficiente de correlación (coeficiente de determinación) se
interpreta como proporción de varianza de la variable Y que se explica por las
variaciones de la variable X. Por tanto: es la proporción de varianza no
explicada. Esta proporción multiplicada por 100 es el tanto por ciento o porcentaje.
b) Aplicamos la ecuación de regresión de Y sobre X: Y= b.X + a. Siendo b la
pendiente y ala ordenada cuyas expresiones aparecen entre paréntesis.
85
c) Le pronosticaríamos la media, porque no disponiendo información de la variable
X es con el que cometemos menos error de pronóstico.
Ejemplo 3:
Elección de la prueba estadística para medir la asociación o correlación. Las
edades en días están en escala de tipo intervalo, tenemos dos variables, entonces
aplicamos esta prueba.
Objetivo: Conocer qué grado de asociación existe entre la edad y peso corporal de
niños de edades desde el nacimiento hasta los 6 meses.
Hipótesis.
Entre las observaciones de edad de los niños y peso corporal existe correlación
significativa.
Ho. Entre las observaciones de edad de los niños y pero corporal no existe
correlación significativa.
86
Ejemplo 4:
Se ha evaluado a 7 sujetos su inteligencia espacial (variable X) y sus
puntuaciones fueron: 13, 9, 17, 25, 21, 33, 29. Además se les pidió a los sujetos
que reconocieran un conjunto de figuras imposibles (variable Y). Después de
calcular la ecuación de regresión para pronosticar Y a partir de X, se sabe que
87
para una puntuación típica de 1,2 en X se pronosticaría una puntuación típica de
0,888 en Y. También se sabe que la desviación típica de las puntuaciones
pronosticadas para Y es 11,1. Con estos datos calcular:
a. El coeficiente de correlación de Pearson entre X e Y
Sujeto Xi
1 13 169
2 9 81
3 17 289
4 25 625
5 21 441
6 33 1089
7 29 841
Sumatorio 147 3535
a. La ecuación de regresión en puntuaciones diferenciales para pronosticar Y
a partir de X
88
a. La varianza de los errores del pronóstico.
Ejemplo 5:
De dos variables X e Y, y para un grupo de 5 sujetos, se saben los siguientes
datos que se muestran en la tabla:
Calcular:
a) Recta de regresión de Y sobre X en puntuaciones directas.
89
b) Coeficiente de correlación de Pearson entre X e Y
c) La varianza de las puntuaciones pronosticadas.
EJEMPLO 6:
Se desea importar desde el país de Colombia transformadores eléctricos. El
Ecuador tiene las cotizaciones de cinco empresa diferentes, y se hace el análisis
de cual empresa es la más conveniente, y las unidades que se va a vender en el
país de importación.
Empresas
Valor de los transformadores
x
Unidades posibles a vender
y
X2
Y2
XY
1
2
3
4
5
1800
1500
1200
900
850
100
98
80
62
58
3.240.000
2.250.000
1.440.000
810.000
722.500
10.000
9.604
6.400
3.844
3.364
180.000
147.000
96.000
55.800
49.300
∑x = 6.250 ∑y = 398 ∑x2=8.462.500 ∑y2=33.212 ∑xy=
528.100
Fórmula:
90
Análisis: si se obtiene ese porcentaje se puede lograr una venta exitosa para la
empresa importadora.
EJEMPLO 7:
Se desea importar desde el país de Colombia transformadores eléctricos. El
Ecuador tiene las cotizaciones de cinco empresa diferentes, y se hace el análisis
de cual empresa es la más conveniente, y las unidades que se va a vender en el
país de importación.
91
Empresas
Valor de los transformadores
x
Unidades posibles a vender
y
X2
Y2
XY
1
2
3
4
5
1800
1500
1200
900
850
100
98
80
62
58
3.240.000
2.250.000
1.440.000
810.000
722.500
10.000
9.604
6.400
3.844
3.364
180.000
147.000
96.000
55.800
49.300
∑x = 6.250 ∑y = 398 ∑x2=8.462.500 ∑y2=33.212 ∑xy=
528.100
Fórmula:
Análisis: si se obtiene ese porcentaje se puede lograr una venta exitosa para la
empresa importadora.
92
EJEMPLO 8:
La empresa MIDECAR ha clasificado como mercancías de mayor responsabilidad
las mercancías peligrosas y frágiles obteniendo así los siguientes datos
mensuales sobre las toneladas de mercancías que ingresan sobre este tipo:
MESES Mercancías
Peligrosas
Mercancías
Frágiles
x y x^2 y^2 xy
Enero 189 85 35721 7225 16065,00
Febrero 105 96 11025 9216 10080,00
Marzo 125 78 15625 6084 9750,00
Abril 116 48 13456 2304 5568,00
Mayo 124 98 15376 9604 12152,00
659 405 91203 34433 53615
93
94
La relación que existe dentro de las mercancías frágiles y peligrosas tiende a
positiva como lo demuestra el resultado numérico coma la formula y al grafica
respecto al eje x y eje y.
EJEMPLO 9:
3. De una determinada empresa Exportadora de Plátano se conocen los
siguientes datos, referidos al volumen de ventas (en millones de dólares) y al
gasto en publicidad ( en miles de dólares) de los últimos 6 años:
a) ¿Existe relación lineal entre las ventas de la empresa y sus gastos en
publicidad?
95
ANALISIS: En este caso r es 0.304 por tanto existe correlación ordinal positiva y
es imperfecta, es decir a mayor gasto en publicidad mayor volumen de ventas.
EJEMPLO 10:
La empresa FERRERO desea importar nueces desde Colombia por lo cual no
está seguro que empresa de transporte contratar para la mercancía de acuerdo a
esto esta empresa decide verificar los rendimientos que han tenido estas
empresas en el transporte por lo cual ha hecho una investigación de mercado y a
obtenido los siguientes resultados.
96
EMPRESAS DE
TRANSPORTE
CALIDAD DE
SERVICIO (X)
RENDIMIENTO
(Y)
XY
TRANSCOMERINTER
TRANSURGIN
TRANSBOLIVARIANA
SERVICARGAS
19
17
16
14
46
44
40
30
361
289
256
196
2116
1936
1600
900
874
748
640
420
66 160 1102 6552 2682
r
r=
r= 0,038
Es una relación positiva pero se podría decir que la empresa no podrá depender
de las dos variables ya que no son muy dependientes el uno del otro.
97
EJEMPLO 11:
Se está efectuando un proyecto de investigación en una empresa para determinar
si existe relación entre los años de servicio y la eficiencia de un empleado. El
objetivo de estudio fue predecir la eficiencia de un empleado con base en los años
de servicio. Los resultados de la muestra son:
0
1
2
3
4
5
6
7
0 5 10 15 20 25
Empleados
Años de Servicio
“X”
Puntuación de eficiencia
“Y”
XY
X2
Y2 Y` A 1 6 6 1 36 3.23 B 20 5 100 400 25 4.64 C 6 3 18 36 9 3.61 D 8 5 40 64 25 3.77
E 2 2 4 4 4 3.31
F 1 2 2 1 4 3.23 G 15 4 60 225 16 4.30 H 8 3 24 64 9 3.77
61 30 254 795 128
98
r = .3531
DESVIACIÓN ESTÁNDAR
b = 202 = .0765
2639
a = 3.75 - .0765 (7.625) = 3.16
( y - y )2 ( y - y´ )2
5.0625 7.6729
1.5625 0.0961
0.5625 0.3721
1.5625 1.5129
3.0625 1.7161
3.0625 1.5129
99
0.0625 0.09
0.5625 0.5929
r2 = 15.5 - 13.5659 = 0.1247 = 0.1247
EJEMPLO 12:
Un analista de operaciones de comercio exterior realiza un estudio para analizar la
relación entre la producción y costos de fabricación de la industria electrónica. Se
toma una muestra de 10 empresas seleccionadas de la industria y se dan los
siguientes datos:
EMPRESA MILES DE
UNIDADES x MILES DE
$ y XY X2 Y2
A 40 150 6000 1600 22500
B 42 140 5880 1764 19600
C 48 160 7680 2304 25600
D 55 170 9350 3025 28900
E 65 150 9750 4225 22500
F 79 162 12798 6241 26244
G 88 185 16280 7744 34225
H 100 165 16500 10000 27225
I 120 190 22800 14400 36100
J 140 185 25900 19600 34225
Σx 777 Σy 1657 Fxy 132938 Σx2 70903 Σy 2 277119
100
r = 1´329,380 - 1´287,489 =
[709030 - 603729][2771190 - 2745949]
r = ___41891 = r= _41891__ = 0.8078
(105301) (25541) 51860.32
DESVIACION ESTANDAR
0
20
40
60
80
100
120
140
160
180
200
0 20 40 60 80 100 120 140 160
101
Syx = (277119) - 134.7909 (1657) - (.3978) (132.938)
10 - 2
Syx = 10.53
MARCO TEORICO:
CORRELACIÓN Y REGRESIÓN LINEAL
La correlación y la regresión están muy relacionadas entre sí. Ambas implican la
relación entre dos o más variables. La correlación se ocupa principalmente. De
establecer si existe una relación, así como de determinar su magnitud y dirección,
mientras que la regresión se encarga principalmente de utilizar a la relación. En
este capítulo analizaremos la correlación y más adelante la regresión lineal
Relaciones;
La correlación se ocupa de establecer la magnitud y la dirección de las relaciones.
Analizaremos algunas características importantes generales de estas con las que
comprenderemos mejor este tema.
Relaciones lineales:
Veamos una relación lineal entre dos variable. La siguiente tabla nos muestra el
salario mensual que percibieron cinco agentes de ventas y el valor en dólares de
las mercancías vendidas por cada uno de ellos en ese mes.
102
Agente variable X mercancía vendida ($) Y variable salario ($)
1 0 500
2 1000 900
3 2000 1300
4 3000 1700
5 4000 2100
Podemos analizar mejor la relación entre estas variables. Si trazamos una grafica
trazamos los valores XyY, para cada agente de ventas, como los puntos de dicha
grafica. Sería una grafica de dispersión o de dispersigrama.
La grafica de dispersión para los datos de los agentes de ventas aparece en el
cuadro.
Una relación lineal.- entre dos variables, es aquella que puede representarse con
la mejor exactitud mediante una línea recta.
Problema de que ambos tienen escalas muy diferentes. Como mencionamos
anteriormente podemos resolver esta dificultad al convertir cada calificación en su
valor Z transformado, lo cual colocaría a ambas variables en la misma escala, en
la escala Z.
Para apreciar la utilidad de los puntajes Z en la determinación de la correlación,
consideremos el siguiente ejemplo. Supongamos que el supermercado de su
barrio está vendiendo naranjas, las cuales ya están empacadas; cada bolsa tiene
marcado el precio total. Ud. quiere saber si existe una relación entre el peso de las
naranjas de cada bolsa y su costo. Como Ud. Es investigador nato, elige al azar
seis bolsas y la pesa, de hecho están relacionadas estas variables. Existe una
correlación positiva perfecta entre el costo y el peso de las naranjas. Asi el
coeficiente de correlación debe ser igual a + 1.
Para utilizar esta ecuación primero hay que convertir cada puntaje en bruto en su
valor transformado. Esto puede tardar mucho tiempo y crear errores de redondeo
103
con alguna algebra, esta ecuación se puede transformar en una ecuación de
cálculo que utilice datos en bruto:
Ecuación para el cálculo de la r de pearson
r
Donde es la suma de los productos de cada pareja XyY
también se llama la suma de los productos cruzados.
Datos hipotéticos a partir de cinco sujetos:
SUBJETIVO X Y X2 Y2 XY
A 1 2 1 4 2
B 3 5 9 25 15
C 4 3 16 9 12
D 6 7 36 49 42
E 7 5 49 25 35
TOTAL 21 22 111 112 106
104
r
r
PROBLEMA DE PRÁCTICA:
Tenemos una relación lineal imperfecta y estamos interesados en calcular la
magnitud y dirección de la magnitud y dirección de la relación mediante la r
Pearson.
# de
estudiantes
IQ
(promedio de
calificaciones)
Promedio
de datos
Y
X2 Y2 XY
1 2 3 4 5 6 7 8 9
10 11 12
TOTAL
110 112 118 119 122 125 127 130 132 134 136 138
1503
1.0 1.6 1.2 2.1 2.6 1.8 2.6 2.0 3.2 2.6 3.0 3.6
27.3
12.100 12.544 13.924 14.161 14.884 15.625 16.129 16.900 17.424 17.956 18.496 19.044
189.187
1.00 2.56 1.44 4.41 6.76 3.24 6.76 4.00
10.24 6.76 9.00
12.96 69.13
110.0 179.2 141.6 249.9 317.2 225.0 330.2 260.0 422.4 384.4 408.0 496.8
3488.0
105
r
r
Una segunda interpretación de la r de pearson es que también se puede
interpretar en términos de la variabilidad de Y explicada por medio de X. este
punto de vista produce más información importante acerca de r y la relación entre
X y Y en este ejemplo la variable X representa una competencia de ortografía y la
variable Y la habilidad de la escritura de seis estudiantes de tercer grado. Suponga
que queremos que queremos predecir la calificación de la escritura de Esteban, el
estudiante cuya calificación en ortografía es de 88.
Para calcular la r de Pearson para cada conjunto. Observe que en el conjunto B,
donde la correlación es menor, a algunos de los valores
r=
Son positivos y otros son negativos. Estos tienden a cancelarse entre si, lo
cual hace que r tenga una menor magnitud. Sin embargo, en los conjuntos A y C
todos los productos tienen el mismo signo, haciendo que la magnitud de r
aumente. Cuando las parejas de datos ocupan las mismas u opuestas posiciones
106
dentro de sus propias distribuciones, los productos tienen el mismo signo, la
cual produce una mayor magnitud de r
Calculando r utilizando para el conjunto B, utilizando la ecuación para los datos en bruto
¿Qué quiere utilizar la ecuación de los datos en bruto o la los puntajes z?
Sume la constante 5 de los datos X en el conjunto A y calcule r de nuevo, mediante la
ecuación de datos en bruto ¿ha cambiado el valor?
Construya una grafica de dispersión para las parejas de datos.
Sería justo decir que este es un examen confiable
Un grupo de investigadores a diseñado un cuestionario sobre la tensión, consistente en
quince sucesos. Ellos están interesados en determinar si existe una coincidencia entre
dos culturas acerca de la cantidad relativa de ajustes que acarrea cada suceso. El
cuestionario se aplica a 300 estadounidenses y 300 italianos. Cada individuo debe utilizar
el evento “matrimonio” como estándar y juzgar los demás eventos en relación con el
ajuste necesario para el matrimonio recibe un valor arbitrario de 50 puntos. Si se
considera un evento requiere de más ajustes que el matrimonio, el evento debe recibir
más de 50 puntos. el número de puntos excedentes depende de la cantidad de ajustes
requeridos. Después de cada sujeto de cada cultura ha asignado de puntos a todos los
eventos, se promedian los puntos de cada evento. Los resultados aparecen en la
siguiente tabla.
EVENTOS
ESTADOUNIDENSES
ITALIANOS
Muerte de la esposa 100 80
Divorcio 73 95
Separación de la pareja 65 85
Temporada en prisión 63 52
Lesiones personales 53 72
Matrimonio 50 50
107
Despedido del trabajo 47 40
Jubilación 45 30
Embarazo 40 28
Dificultades sexuales 39 42
Reajustes económicos 39 36
Problemas con la
familia política
29 41
Problemas con el jefe 23 35
Vacaciones 13 16
Navidad 12 10
a. Suponga que los datos tienen al menos una escala de intervalo y calcule la
correlación entre los datos de los estadounidenses y la de los italianos
b. Suponga que los datos solo tienen una escala ordinal y calcule la correlación entre
los datos de ambas culturas
INDIVIDUO EXAMEN CON
LÁPIZ Y PAPEL
PSIQUIATRA
A
PSIQUIATRA
B
1 48 12 9
2 37 11 12
3 30 4 5
4 45 7 8
5 31 10 11
6 24 8 7
7 28 3 4
108
8 18 1 1
9 35 9 6
10 15 2 2
11 42 6 10
12 22 5 3
un Psicólogo ha construido un examen lápiz-papel, a fin de medir la depresión. Para
comparar los datos de los exámenes con los datos de los expertos, 12 individuos “con
perturbaciones emocionales” realizan el examen lápiz-papel. Los individuos son
calificados de manera independiente por los dos psiquiatras, de acuerdo con el grado de
depresión determinado para cada uno como resultado de las entrevistas detalladas. Los
datos aparecen a continuación.
Los datos mayores corresponden a una mayor depresión.
a. ¿Cuál es la correlación de los datos de los dos psiquiatras?
b. ¿Cuál es la correlación sobre las calificaciones del examen de lápiz y papel de
cada psiquiatra?
Para este problema, suponga que Ud. Es un psicólogo que labora en el departamento de
recursos humanos de una gran corporación. El presidente de la compañía acaba de
hablar con Ud. Acerca de la importancia de contratar personal productivo en la sección de
manufactura de la empresa y le ha pedido que ayude a mejorar la capacidad de la
institución para hacer esto. Existen 300 empleados en esta sección y cada obrero fabrica
el mismo artículo. Hasta ahora la corporación solo ha recurrido a entrevistas para elegir a
estos empleados. Ud. Busca bibliografía y descubre dos pruebas de desempeño lápiz y
papel, bien estandarizadas y piensa que podrían estar relacionadas con los requisitos de
desempeño de esta sección. Para determinar si alguna de ellas se puede usar como
dispositivo de selección elige a 10 empleados representativos de la sección de la
manufactura, garantizando que una amplio rango de desempeño quede representado en
109
la muestra y realiza las dos pruebas con cada empleado por semana, promediando
durante los últimos seis meses.
Desempeño
en el
trabajo
Examen 1
Examen 2
1
50
10
25
2
74
19
35
3
62
20
40
4
90
20
49
5
98
21
50
6
52
14
29
7
68
10
32
8
80
24
44
9
88
16
46
10
76
14
35
CORRELACIÓN
4.1.1. TÉCNICAS DE CORRELACIÓN
En los capítulos anteriores, ustedes estudiaron las distribuciones de una sola
variable. A continuación abordaremos el estudio de dos variables y no solamente
de una. Particularmente estudiaremos qué sentido tiene afirmar que dos variables
están relacionadas linealmente entre si y cómo podemos medir esta relación
lineal.
4.1.2. RELACIONES LINEALES ENTRE VARIABLES
Supongamos que disponemos de dos pruebas siendo una de ellas una prueba de
habilidad mental y otra una prueba de ingreso a la Universidad. Seleccionemos
cinco estudiantes y presentemos en la tabla Nº 4.1.1 los puntajes obtenidos en
estas dos pruebas.
110
Tabla Nº 4.1.1
Estudiantes X
Prueba de habilidad
mental
Y
Examen de Admisión
María 18 82
Olga 15 68
Susana 12 60
Aldo 9 32
Juan 3 18
La tabla nos dice que si podemos hacer tal suposición ya que los estudiantes con
puntajes altos en la prueba de habilidad mental tienen también un puntaje alto en
el examen de admisión y los estudiantes con puntaje bajo en la prueba de
habilidad mental. Tienen también bajo puntajes en el examen de admisión. En
circunstancia como la presente (cuando los puntajes altos de una variable están
relacionados con los puntajes altos de la otra variable y los puntajes) afirmaríamos
que hay una relación lineal positiva entre las variables, entonces podemos definir
una relación lineal positiva entre ese conjunto de pares valores X y Y, tal la
muestra la tabla N º 4.1.1
Supongamos que en lugar de los resultados de la tabla Nº 4.1.1, hubiéramos
obtenido los puntajes que se muestran en la tabla Nº 4.1.2 ¿podríamos afirmar
que en esta situación los puntajes de la prueba de habilidad mental pueden usarse
para pronosticar los puntajes del examen de admisión? También, aunque en este
caso mostramos una relación contraria a la que ocurre en la realidad ya que los
sujetos con puntajes altos en el test de habilidad mental aparecen con puntajes
bajos en el examen de admisión y los sujetos con puntajes bajos en el test de
habilidad mental presentan los puntajes altos en el examen de admisión, entonces
111
podemos definir una relación lineal negativa entre un conjunto de pares valores X
y Y (tal como en la tabla Nº 4.1.2) es decir, los puntajes altos de X están
apareados con los puntajes bajos de Y y los puntajes bajos de X están apareados
con los puntajes de Y.
Tabla Nº 4.1.2
Estudiantes X Prueba de habilidad
mental
Y Examen de Admisión
María 18 18
Olga 15 32
Susana 12 60
Aldo 9 68
Juan 3 82
Tabla Nº 4.1.3
Estudiantes X Prueba de habilidad
mental
Y Examen de Admisión
María 18 18
Olga 15 82
Susana 12 68
Aldo 9 60
Juan 3 32
Examinemos ahora la tabla Nº 4.1.3. En este casi ya no podemos afirmar que los
puntajes de la prueba de habilidad mental sirvan para pronosticar los puntajes del
examen de admisión, ya que unos puntajes bajos del examen de admisión y
algunos puntajes bajos del test de habilidad mental están apareados con otros
112
puntajes altos del examen de admisión, entonces en este caso, decimos que no
existe una relación lineal entre las variables X y Y.
4.1.3. DIAGRAMA DE DISPERSIÓN
En las situaciones que se presentan en la vida real no tenemos solamente cinco
parejas de valores para ambas variables, sino muchísimas parejas. Otra forma
alternativa de ver si existe o no relación lineal entre dos variables seria hacer una
grafica de los valores X y Y en un sistema de coordenadas rectangulares, este tipo
de gráfica es conocido con el nombre de diagrama de dispersión, gráfico de
dispersión o nube de puntos. Dibujemos el diagrama que corresponde a la Tabla N
º 4.1.1. Lo haremos haciendo corresponder a cada valor de la variable
independiente X, un valor de la variable dependiente Y, es decir, para la alumna
Susana haremos corresponder du puntaje en la prueba de habilidad mental (12)
con su puntaje de la prueba de admisión (60); al alumno Juan le hacemos
corresponder su puntaje del test de habilidad mental (3) con su puntaje del
examen de admisión (18). Luego ubicaremos los cinco pares de puntajes en el
sistema de ejes rectangulares y obtendremos los gráficos Nº 4.1.1 y Nº 4.1.2
Observemos en el gráfico Nª 4.1.1 que la tabla Nª 4.1.1. Es descrita por el
diagrama de dispersión. Vemos en este gráfico que los cinco puntos dan la
sensación de ascender en línea recta de izquierda a derecha. Esto es
característico en datos en los que existe una relación lineal positiva. Aunque estos
cinco datos no configuren una línea recta en forma perfecta. Se puede trazar una
línea recta que describa que estos puntos en forma bastante aproximada
conforme se ve en el gráfico Nª 4.1.2 y por esto decimos que la relación es lineal.
Si ocurre que todos los puntos de la gráfica de dispersión están incluidos en una
sola línea en forma exacta afirmamos que la relación lineal es perfecta. El grado
en que se separan los puntos de una sola línea recta nos da el grado en que la
relación lineal no es perfecta. Así cuando menos puntos se encuentran en una
113
sola línea decimos que la relación lineal no es perfecta. Así cuando menos puntos
se encuentran en una sola línea decimos que la relación lineal entre las dos
variables es menos fuerte y cuando más puntos queden incluidos en una línea
recta afirmamos que la relación lineal es más fuerte.
GRÁFICO Nª 4.1.1.
114
Usando los datos de una tabla Nº 4.1.2 y utilizando la misma forma de razonar
empleada hasta ahora podemos construir el correspondiente gráfico de dispersión,
tal como se muestra en el gráfico Nº 4.1.3.
Podemos observar en el gráfico Nº 4.1.4. que la nube de puntos de la gráfica
pueden delinearse bien por una línea recta, lo que nos indica que hay una relación
lineal entre las dos variables X y Y Vemos también que la línea desciende de
izquierda a derecha (tienen pendiente negativa) por lo que decimos que la relación
lineal entre las dos variables es negativa.
Si tenemos en cuenta la tabla Nº 4.1.3 podemos obtener una figura como se
muestra en la gráfica Nº 4.1.5 Notamos, en esta situación, que resultará inútil
cualquier línea recta que trate describir adecuadamente este diagrama de
dispersión.
Diagrama de Dispersión
Y
80
70
60
50
40
30
20
10
2 4 6 8 10 12 14 16 18 20 X
115
GRÁFICO Nº 4.1.4.
Diagrama de Dispersión aproximado por una línea recta
4.1.4 COEFICIENTE DE CORRELACIONE RECTILINEA DE PEARSON
Con ayuda de las gráficas nos podemos formar una idea si la nube de puntos, o
diagrama de dispersión, representa una reacción lineal y si esta relación lineal es
positiva o negativa, pero con la sola observación de la gráfica no podemos
cuantificar la fuerza de la relación, lo que si conseguiremos haciendo uso del
coeficiente r de Pearson.
El coeficiente de correlación r de Pearson, toma valores comprendidos entre 1 y +
pasando por 0. El número -1 corresponde a una correlación negativa perfecta (los
puntos del diagrama de dispersión deben encontrarse formando perfectamente
una línea recta). El numero +1 corresponde a una correlación positiva perfecta.
(los puntos del diagrama de dispersión deben encontrarse formando
perfectamente una línea recta). El coeficiente de correlación r=0 se obtiene
80
70
60
50
40
30
20
10
2 4 6 8 10 12 14 16 18 20 X
116
cuando no existe ninguna correlación entre las variables. Los valores negativos
mayores que -1 indican una correlación negativa y los valores positivos menores
que 1 indican una correlación positiva.
Referente a la magnitud de r podemos decir que independientemente del signo,
cuando el valor absoluto de r esté más cercana de 1, mayor es la fuerza de la
correlación, es así que -0,20 y +0.20 son iguales en fuerza (ambos son dos
valores débiles) los valores -0.93 y +0.93 también son iguales en fuerza (ambos
son dos valores fuertes).
Cálculo del Coeficiente r de Pearson utilizando una máquina calculadora
cuando los datos no son muy numerosos.
Dadas dos variables X y Y con sus respectivos valores. En la Tabla podemos
calcular el coeficiente de Pearson con una máquina calculadora mediante la
siguiente fórmula.
Tabla Auxiliar 4.1.4.
(1) x
(2) Y
(3) X^2
(4) Y^2
(5) XY
18 82 324 6724 1476
15 68 225 4624 1020
12 60 144 3600 720
9 32 81 1024 288
3 18 9 324 54
∑X = 57 ∑Y = 260 ∑X2 =783 ∑Y
2 =16296 ∑XY =3558
En las columnas (1) y (2) se han escrito los valores de X y Y. En la columna (3) se
han elevado al cuadrado los valores de X. En la columna (4) se han elevado al
117
cuadrado los valores de Y. En la columna (5) se ha efectuado el producto de cada
pareja de valores X y Y. Aplicando los datos en la fórmula 4.1.1., se tiene:
INTERPRETACIONES DE UN COEFICIENTE DE CORRELACIÓN
¿Qué tan elevado es un coeficiente de correlación dado? Tofo coeficiente de
correlación que no sea cero indica cierto grado de relación entre dos variables.
Pero es necesario examinar más esta materia, porque el grado de intensidad de
relación se puede considerar desde varios puntos de vista. No se puede decir que
un r de 0,50 indique una relación dos veces más fuerte que la indicada por un r de
0, 25. Ni se puede decir tampoco que un aumento en la correlación de r = 0,40 a r
= 0,60 equivalga a un aumento de r = 0,70 a r = 0,90. Es de observar que una
correlación de 0,60 indica una relación tan estrecha como una correlación de +
0,60. La relación difiere solamente en la dirección.
Siempre que éste establecido fuera de toda duda razonable una relación entre dos
variables, el que el coeficiente de correlación sea pequeño puede significar
únicamente que la situación medida está contaminada por algún factor o factores
no controlados. Es fácil concebir una situación experimental en la cual, si se han
mantenido constantes todos los factores que o sean pertinentes, el r podría haber
sido 1 en lugar de 0,20. Por ejemplos: generalmente la correlación entre la
118
puntuación de aptitud y el aprovechamiento académico es 0,50 puesto que ambos
se miden en una población cuyo aprovechamiento académico también es
influenciable por el esfuerzo, las actitudes, las peculiaridades de calificación de los
profesores, etc. Si se mantuvieran constantes todos os demás factores
determinantes del aprovechamiento y se midieran exactamente la aptitud y las
notas, el r seria 1 en vez de 0,50.
Una conclusión práctica respecto a la correlación es que ésta es siempre relativa a
la situación dentro de la cual se obtiene y su magnitud no representa ningún
hecho natural absoluto. El coeficiente de correlación es siempre algo puramente
relativo a las circunstancias en que se ha obtenido y se ha de interpretar a la luz
de esas circunstancias y sólo muy rara vez en algún sentido absoluto.
Además podemos agregar que la interpretación de un coeficiente de correlación
como de medida del grado de relación lineal entre dos variables es una
interpretación matemática pura y está completamente desprovista de
implicaciones de causa y efecto. El hecho de que dos variables tiendan a
aumentar o disminuir al mismo tiempo no implica que obligadamente una tenga
algún efecto directo o indirecto sobre la otra.
A continuación calcularemos con la fórmula antes indicada el coeficiente de
PEARSON de la relación presentada en la tabla.
Cuadro Auxiliar 4.1.5.
(1) x
(2) Y
(3) X^2
(4) Y^2
(5) XY
18 18 324 324 324
15 32 225 1024 480
12 60 144 3600 720
9 68 81 4624 612
3 82 9 6724 246
∑X = 57 ∑Y = 260 ∑X2 =783 ∑Y
2 =16296 ∑XY =2382
119
Vemos que la correlación es fuerte y negativa.
Ahora calculemos con la misma fórmula de Pearson Nº 4.1.1. El Coeficiente de
Correlación lineal con los datos de la tabla nº 4.1.3.
Cuadro Auxiliar Nº 4.1.6
(1) x
(2) Y
(3) X^2
(4) Y^2
(5) XY
18 18 324 324 324
15 82 225 6724 1230
12 68 144 4624 816
9 60 81 3600 540
3 32 9 1024 96
∑X=57 ∑Y=260 ∑X2=783 ∑Y2=16296 ∑XY=3006
La correlación es muy débil y positiva.
120
CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS EN
CLASES
El presente tema nos conduce a calcular el coeficiente de correlación r, que nos
proporciona información de la fuerza de la relación que existe entre dos
conjuntos.
Ejemplo: calcular el grado de correlación entre las puntuaciones obtenidas en
inventario de hábitos de estudio y los puntajes obtenidos de un examen
matemático, aplicados a un total de 134 alumnos de un colegio de la localidad.
^-^X Hábitos de Y ^\esiudio
Matemáticas^
20 - 30 30 - 40 40 - 50 50 - 60 Total fy
70 -* 80 3 2 2 7
60 -> 70 1 0 4 5 10
50 ~» 60 2 6 16 3 27
40 50 4 14 19 10 47
30 >-'■» 40 7 15 6 0 28
20 M 30 8 2 0 1 t 1
10 20 1 1 2 4
Total f. 23 40 48 23 134
Podemos notar que el problema no es tan simple, como el casa anterior, dado,
que ahora los datos se han clasificado en una tabla de doble entrada N" 4.1.7.
Este): cuadro muestra, en la primera columna del lado izquierdo los intervalos de
clase 0» la variable Y, los que cubren todos los posibles datos acerca de las
puntuaciones! alcanzadas por los estudiantes en la prueba de Matemática.
Nótese que los in te rva los los crecen de abajo hacia arriba. En la fila superior
se presentan les intervalos <%
121
Dentro del cuadro en los casilleros interiores o celdas de la tabla, se encuentran
las frecuencias de celda que correspondan a puntajes que pertenecen tanto a un
intervalo de la variable Y como un intervalo de la variable X.
La fórmula que utilizaremos es la siguiente
Para obtener los datos que deben aplicarse en la formula vamos a construir el
cuadro auxiliar al mismo tiempo que se explica el significado de los símbolos de
esa formula
Lo primero que hacemos es reemplazar los intervalos horizontales y verticales por
sus respectivas marcas de clase a continuación adicionalmente al cuadro N4.1.7
cinco columnas por el lado derecho, cuyos encabezamientos son : f para la
primera.
1) Para determinar las frecuencias marginales que se deben colocar en la
columna f sumamos las frecuencias de las celdas que están en la misma
fila de la marca de clase 75, obtenemos 3+2+2=7, numero que se escribe
en el primer casillero o celda de la columna f. en la fila de la marca de
clase 65 sumamos 1+4+5=10 numero que se escribe debajo del 7.
2) Ahora vamos a determinar las frecuencias marginales de la variable x: en
la columna encabezada con la marca de clase 25 sumemos verticalmente
las frecuencias 1+2+4+7+8+1=23
3) Centremos nuestra atención en la columna encabezada u, este signo
significa desviación estándar y procedemos a la misma forma en las tablas.
Recuerden que las desviaciones unitarias positivas: +1+2 y negativas : -1-2
y -3 corresponden a los intervalos menores.
4) Luego vamos a determinar las desviaciones unitarias horizontales de la
variable X. el origen de trabajo es la marca de clase 45 que se halla en la
fila superior del cuadro , por esa razón , escribimos cero debajo de la
frecuencia marginal 48.
122
5) A continuación vamos a determinar los valores que deben colocarse en la
columna encabezada. Para obtener los valores de la cuarta columna
encabezada debemos tomar en cuenta que por lo tanto basta multiplicar
cada valor de la segunda columna por su correspondiente valor de la
tercera columna así se obtiene el respectivo valor de la cuarta columna. En
efecto:
(3)(21)=63 (20)(20)=40(+1)(27)=27; 00*00=0; (-1)(-28)=28; (-2)(-22)=44 y (-
3)(-12)=36
La suma 63+40+27+28+44+36=238
Ahora nos fijamos horizontalmente en la tercera fila. Tenemos que (f)(u)=fu
por consiguiente basta multiplicar verticalmente un valor de la primera fila por
su correspondiente valor de la primera fila por su correspondiente valor de la
segunda fila para obtener el respectivo valor de la tercera fila.
(23)(-2)=-46; (40)(-1)=-40; (48)(0)=0 y (23)(+1)=23
Sumando horizontalmente:
(-46)+ (-40)+ (23)=-86+23=-63
Vamos por la cuarta fila vemos que u (fu)= Fu2 luego basta multiplicar cada
elemento de la segunda fila por su correspondiente elemento de la tercera fila
por su correspondiente elemento de la tercera fila para obtener el respectivo
elemento de la cuarta fila así:
(-2)(-46)=9; (-1)(-40)=40; 0*0=0y (+1)(23)=23
Para obtener valores de la quinta columna observamos que hay tres factores
el 1 es la frecuencia f de la celda o casillero que se está considerando el
segundo factor es la desviación unitaria u, el tercer factor es la desviación
unitaria, por lo tanto el procedimiento será el siguiente: tomemos el número 3
que es la frecuencia de la celda determinada por el cruce de los intervalos que
tienen la marcha de la clase 75 horizontalmente y 35 verticalmente.
123
Para ubicar el tercer factor corremos la vista del numero 3 hacia su derecha
hasta llegar a la columna de las desviaciones unitarias u y ubicamos el
numero +3 formemos el producto de estos tres números: (3)(--1)(+3)=-9
encerrado de un semicírculo lo escribimos en la celda elegida
En la misma fila tomamos la celda siguiente: (2) (0)(+)
Continuando hacia la derecha (2) (+1)(+3)=6
X hábitos estudio Y matemática 25 35 45 55 Fy Uy FyUy FyU^2y
suma de los # en semicírculos
75 2 3 2 2 7 3 21 63 -3
65 1 0 4 5 10 2 20 40 6
55 2 6 16 3 27 1 27 27 -7
45 4 14 19 10 47 0 0 0 0
35 7 15 6 0 28 -1 -28 23 29
25 8 2 0 1 11 -2 -22 44 34
15 1 0 1 2 4 -3 -12 36 0
∑FxUx = 6
∑FxUx^2= 238
∑FxyUxUy= 59
Fx 23 40 48 23 134 Ux -2 -1 0 1 FxUx -46 -40 0 23 ∑FxUx=-63 FxUx^2 92 40 0 23 ∑FxUx^2=155
La fórmula del paso (9) lleva el signo ∑para indicar que se deben sumar
horizontalmente los números que están encerrados en los semicírculos de esa
primera fila elegida así: -9+0+6. Este número se escribe en la quita columna.
Trabajemos con la segunda fila: (1) (-2)(+2)= -4 se encierra en un semicírculo.
(0)(-1)(+2)= 0
(4)(0)(+2)= 0
(5)(+1)(+2)= 10
124
Sumando 0 + 0 + 10 = 10
Ahora con la tercera fila:
(2)(-2)(+1)= -4
(6)(-1)(+1)= -6
(16)(0)(+1)= 0
(0)(+1)(+1)= 3
Sumando: (-4) + (-6) + 0 + 3 = -7
Cuarta fila
(-4) + (-2) + 0 = 0 todos los productos vales cero, luego la suma = 0
Quinta fila
(7)(-2)(-1)= 14
(15)(-1)(-1)= 15
(6)(0)(-1)= 0
(0)(+1)(-1)= 0
La suma es: 14+15= 29
(8)(-2)(-2)= 32
(2)(-1)(-2)= 4
(0)(0)(-2)= 0
(1)(+1)(-2)= -2
La suma es: 32 + 4 -2 = 34
Séptima fila:
125
(1)(-2)(-3)= 6
(1)(0)(-3)= 0
(2)(1)(-3)= -6
Sumando: 6 + 0 – 6 = 0
Sumando los valores de la columna quinta.
Reuniendo los resultados anteriores, se tienen los datos para aplicar en la formula
n= 134
∑ = 59
∑ = -63
∑ = 6
∑ = 155
∑ = 238
r=
r=
r= 0,358
126
Ejercicio Resuelto N° 2 de Cálculo de Coeficiente de Correlación Entre
Conjuntos de Datos Agrupados
Calcular el coeficiente de correlación lineal de las puntuaciones en matemáticas y
físicas de 100 estudiantes de la Facultad de Ciencias de la Universidad MN
X Puntuación matemáticas Y Puntuación fisica 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 TOTAL
90 - 100 0 0 0 2 5 5 12
80 - 90 0 0 1 3 6 5 15
70 - 80 0 1 2 11 9 2 25
60 - 70 2 3 10 3 1 0 19
50 - 60 4 7 6 1 0 0 18
40 - 50 4 4 4 0 0 0 11
TOTAL 10 15 22 20 21 12 100
127
PUNTACIÓN EN MATEMÁTICA
SUMA DE LOS NÚMEROS
ENCERRADOS EN SEMICÍRCULOS EN
CADA FILA
45 55 65 75 85 95 Fy Uy Fy Uy Fy U2y
PU
NT
UA
CIO
N E
NF
ISIS
CA
Y
95 2 5 5 12 2 24 48 54
85 1 3 6 5 15 1 15 15 30
75 1 2 11 9 2 25 0 0 0 0
65 2 3 10 3 1 19 -1 -19 19 2
55 4 7 6 1 18 -2 -36 72 28
45 4 4 3 11 -3 -33 99 36
fx 10 15 22 20 21 12 100 -3 -49 253 150
Ux -2 -1 0 1 2 3 3 Σfy Uy Σfy U2y Σ fxy Ux Uy
FxUx -20 -15 0 20 42 36 63 Σfx Ux
Fx U2
x 40 15 0 20 84 10
8
267 Σfx U2x
128
En este problema tenemos que calcular el confidente de correlación lineal r para
dos conjuntos de datos constituidos por los calificativos en una escala de 0 a 100,
en matemáticas y en física para 100 estudiantes de la facultad de Ciencias de
cierta universidad
Los datos se muestran en el cuadro N° 4.1.9 Notemos que a lo largo de la línea
horizontal superior se encuentran los intervalos que contienen los calificativos de
matemáticas desde 40 hasta 100.
Igualmente en la primera columna vertical izquierda, se encuentran los calificativos
para física de los mismos estudiantes, desde el calificativo 40 hasta 100. Notese
que en la columna de los calificativos de física los datos crecen de abajo hacia
arriba y para la fila horizontal superior vemos que los calificativos en matemáticas
crecen izquierda a derecha.
A continuación procederemos a calcular el confidente de correlación r para estos
datos aplicando el mismo método que utilizaremos en el problema anterior.
1) Traslademos los datos del cuadro N° 4.1.9. Llamaremos xy a cualquiera de
las frecuencias de los casilleros interiores del cuadro N° 4.1.9. En el cuadro
N° 4.1.10. podemos observar que se han agregado cinco columnas por el
lado derecho y cuatro filas por la parte interior
Observemos en el cuadro N° 4.1.10 que los intervalos para la puntuación en
matemáticas y para la puntación en física se han remplazado por las marcas de
clase correspondientes. Así en la fila horizontal superior se han remplazado el
primer intervalo 40 50 por su marca de clase45, el segundo intervalo 50 60
por su marca de clase 55 y de esta manera se han remplazado los demás
intervalos por sus marcas de clases en el cuadro N° 4.1.10.
De igual forma para la columna primera de la izquierda vemos que los intervalos
se han remplazado por sus respectivas marcas de clase así para la puntuación en
física el primer intervalo superior 90 100 se han remplazado por su marca de
clase 95, el segundo intervalo superior 80 90 se ha remplazado por su marca
129
de clase 85 y así sucesivamente hasta llegar al intervalo inferior 40 50 que se
ha remplazado por su marca de clase 45.
Ahora vamos a realizar los pasos siguientes
1) Para las frecuencia marginales fy sumemos todos los valores fxy de la
primera fila que tiene la marca de clase 95. De esta forma tenemos: 2+5+5=
12 Para la segunda fila que corresponde a la marca de clase 85
obtenemos: 1+3+6+5= 15 que escribimos en el segundo casillero de fy.
2) Dediquemos nuestra atención a las frecuencias marginales fx. el primer
resultado de fx lo obtenemos sumando las frecuencias fxy para la colunia que
tiene la marca de clase 45, de esta forma tenemos: 2+4= 10 que se escribe
en el primer casillero de fx para el segundo casillero tenemos el número 15
que se obtiene verticalmente de las frecuencias fxy de la columna que tiene
de marca de clase 55. Continuando con las sumas de las f de las demás
columnas llenamos las frecuencias marginales fx.
3) Atendamos la columna Uy la columna Uy tiene en total 6 casilleros
arbitrariamente escogemos uno de estos casilleros como origen de trabajo
y le asignamos el numero 0. Aquí hemos escogido el tercer casillero
contando de arriba hacia abajo. Observamos ahora la primera columna de
la izquierda en donde están las marcas de clase de los puntajes de física.
Aquí observamos que las marcas de clase crecen de abajo hacia arriba
entonces las desviaciones unitarias en la columna Uy crecerán de abajo
hacia arriba entonces del 0 hacia abajo, las desviaciones unitarias son
números negativos que van decreciendo hacia abajo.
Desde el 0 hacia arriba las desviaciones serán positivas y crecientes.
De manera que podemos observar que la columna Uy está conformada por
los siguientes números que crecen del 0 hacia arriba: 1,2 y desde el 0 hacia
abajo decrece: -1,-2,-3.
4) Veamos la fila Ux
130
Notamos que el fila horizontal superior las marcas de clase crecen de
izquierda a derecha de igual forma las desviaciones unitarias crecerán de
izquierda a derecha. Elegiremos como origen de trabajo arbitrariamente uno
del casillero Ux el tercero contando de izquierda a derecha, y vamos
asignando números positivos crecientes hacia la derecha del 0, así
tenemos 1, 2,3 ya hacia la izquierda, a partir del cero, tendremos:-1y-2.
5) Expliquemos la columna fy Uy. Multipliquemos cada valor de fy por su
correspondiente valor de Uy y se obtiene un valor Fy Uy. Por ejemplo el
numero 24 se obtiene multiplicando la frecuencia marginal fy = 12 por su
correspondiente desviación unitaria Uy = 2esto es, 12*2= 24. Para el
segundo casillero multiplicamos 15*1=15; para el tercero 25*0=, así hasta
terminar con 11*(-3)= -33.
6) Observemos la columna Fy U2y. L primera celda de esta columna tiene el
número 48 que se obtiene de multiplicando el valor Uy =2 de la segunda
columna por su correspondiente valor Fy Uy = 24 de la tercera columna, es
decir, 2*24= 48. Para el segundo casillero de la columna fy U2y , tenemos 15
que es igual a 1 por 15. De esta forma continuamos llenando los demás
valores de la columna Fy U2y.
7) Veamos ahora la fila fx ux. El número -20 del primer casillero de esta fila se
obtiene multiplicando la frecuencia marginal fx = 10 por su correspondiente
desviación unitaria Ux = -2 es decir: 10 (-2)= -20.
Para el segundo casillero de FX UX, multiplicamos (-1)*(-15)= 15 y así
sucesivamente 12*3= 36.
8) Veamos Fx U2
x. El primer casillero de esta fila es 40 y es el resultado de
multiplicar -2 del primer casillero de la fila Fx Ux por menos 20 de su
correspondiente primer casillero de la fila Ux esto es, (-2)* (-20)= 40. Para
el segundo casillero de fx U2
x multiplicamos -1 del segundo casillero de Ux
por -15 de su correspondiente segundo casillero de FX UX, luego obtenemos
(-1) *(-15)=15 .Así continuamos multiplicando los valores de los casilleros
131
Ux por sus correspondientes valores de la fila Fx Ux hasta llegar a (3) (36)=
108.
9) Interesa ahora obtener los números encerrados en semicírculo, por ejemplo
ahora, el numero 4, que corresponde a la marca de clase 75 para la
puntuación en matemáticas y a la marca de clase 95 de la puntuación en
física.
10) Para saber cómo se obtiene este numero 4, corramos nuestra vista hacia
la derecha dirigiéndonos hacia la columna UY y obtenemos el numero 2.
Del numero 4, encerrado en semicírculo, bajemos la vista con dirección a la
fila Ux y obtenemos 1. La frecuencia del casillero donde esta el 4, encerrado
en semicírculo, es fxy = 2. Multiplicando estos 3 factores tendremos fxy Ux Uy
= (2) (1) (2) = 4.
Podemos anunciar la siguiente regla:
Para obtener los valores encerrados en semicírculos en los casilleros interiores del
cuadro N°4..1.10 multiplicamos el valor de la frecuencia fxy del casillero para el
cual estamos haciendo el cálculo, por los valores de las desviaciones unitarias Uy y
Ux , obtenidas corriendo la vista hacia la derecha hasta columna Uy y también
hacia abajo hasta legar a la fila Ux.
Así por ejemplo, para el casillero que corresponde a las marcas de clase 75 en
matemática y 85 en física, tenemos la frecuencia de la celda Fxy = 3, los otros dos
factores son: Uy =1 y Ux = 1.
Luego (3) x (1) x (1) = 3 que es el valor encerrado en semicírculo.
Para el casillero correspondiente a la marca de clase 55 en matemáticas marca de
clase 45 en física, tenemos:
132
fxy = 4, Uy = -3, Ux = -1
fxy Ux Uy = (4) (-3) (-1) = 12 que es el valor encerrado en semicírculo. Así podemos
proceder para obtener todos los demás valores encerrados en semicírculos.
Sumando las frecuencias marginales de la columna fy, se tiene ∑ fy =100.
Sumando los valores de la tercera columna se obtiene ∑fy Uy = - 49. Sumando los
valores de la cuarta columna, tenemos ∑fy U^2y = 253. La suma de los valores de
la quinta columna:
∑fxy Ux Uy = 150
Para todas las filas, en el último casillero de la derecha se tiene la suma de los
valores de la fila. Así, por ejemplo, ∑fx = 100; ∑fy = 100.
Para la tercera fila: ∑fx Ux = 63
Para la cuarta fila: ∑fx U^2x = 267
Estos totales de filas y columnas reemplazaremos en la fórmula.
Vemos que el coeficiente de correlación en este caso es 0.79.
133
Ejercicio Propuesto Nº 1 del Cálculo del Coeficiente de Correlación entre dos
Conjuntos Agrupados de Datos.
Supongamos que tenemos 30 sujetos a los que hemos aplicado una prueba de
conocimientos de Psicología General (variable x) y un test de inteligencia (variable
y).
Aplicando los datos tomados del Cuadro Auxiliar en la fórmula tenemos:
Resultado:
Ejemplo propuesto N°2 del cálculo del coeficiente de correlación entre dos
conjunto de datos agrupados. Supongamos que se tienen 50 vendedores de cierta
compañía. Estos vendedores durante un año 1985 han realizado ventas tal como
lo muestra el cuadro N°4.1.13, el que también muestra el número de años de
experiencia que tiene como vendedores.
Para dicho cuando, se pide calcular el coeficiente de correlación lineal r.
134
0 2
2 4
4 6
6 8
8 10
TOTAL
15 18 1 1
12 15 2 3 4 9
9 12 7 3 2 12
6 9 6 9 4 19
3 6 5 2 7
1 3 2 2
TOTAL 2 11 18 12 7 50
Tomando los datos obtenidos n el cuadro Auxiliar N°4.1.14 apliquemos en la
formula N° 4.1.12, se tiene.
Años de
experiencia
X
Monto de
ventas Y
135
136
Progresiones lineales simples
4.2.1. Regresión lineal simple
Al comenzar a estudiar las técnicas de correlación afirmamos que
estudiaríamos dos variables y no solamente una. Llamamos a esa ocasión X a
una de las variables Y a la otra. En el tema que nos ocuparemos ahora,
estudiaremos la forma de predecir v valores de Y conociendo primero los
valores de X. Es así que viendo la tabla N 4.2.1, similar a la que utilizamos
cuando estudiamos correlación, conociendo el puntaje en la prueba de
habilidad mental (variable X) para un alumno determinado, podemos anticipar
el puntaje del examen de admisión (variable Y) del mismo alumno.
Consideraremos la relación lineal expresada por el cuadro N4.2.1 si dibujamos
esa relación, obtenemos el grafico N4.2.1. Como podemos observar todos los
puntos se alinean exactamente. En una sola línea recta, la que recibe el
nombre de línea de regresión. Teniendo en cuenta esta línea, podemos
predecir cualquiera d los valores de Y conociendo el valor de X; para X=25,
según la recta, correspondiente de Y=35, para X=20 corresponde Y=30. Etc.
En este caso se trata de una correlación positiva perfecta cuyo coeficiente de
correlación es +1.
Prueba de habilidad
mental X
Examen de Admisión
Y
SUSANA 5 15
IVAN 10 20
LOURDES 15 25
ALDO 20 30
JUAN 25 35
MARIA 30 40
137
CESAR 35 45
OLGA 40 50
Recordemos ahora el grafico N 4.1.2 que dibujamos cuando estudiamos
correlación, en este grafico observamos el diagrama de dispersión aproximado
por una línea recta, la recta que mejor se ajuste a los puntos del diagrama de
dispersión, es decir, en la mejor medida procure dejar igual número de puntos
del diagrama de dispersión por encima de ella que igual número de puntos
debajo, se llama línea de regresión.
ECUACION DE LA REGRESION RECTILINEA
La ecuación que describe la línea de regresión es:
GRÁFICO
Serie 1
f(x)=1*x+10; R²=1
-5 5 10 15 20 25 30 35 40 45
-5
5
10
15
20
25
30
35
40
45
x
y
r = 1,00
138
= media de la variable X en la muestra.
X = un valor de la variable X
r = coeficiente de Pearson, de la correlación lineal entre las variables X y Y.
SY = desviación estándar de Y en la muestra.
SX = desviación estándar de X en la muestra.
Yr = Valor Y resultado del cálculo de la fórmula.
Veamos cómo podemos predecir los valore de Y a partir de los valores de X.
como el gráfico de este cuadro es una línea recta ascendente sabemos que su
coeficiente de correlación de Pearson r = +1. Además tenemos los siguientes
resultados:
X = 22,5 SX = 11,46 Y= 32,5 SY = 11,46
Estos resultados se pueden calcular a partir de los datos del cuadro.
Apliquemos estos datos a la fórmula, obtenemos la siguiente expresión:
Simplificando términos obtenemos:
Escojamos cualquier valor de X, por ejemplo para María x = 30, reemplazando
este valor en (b).
Vemos en le cuadro el valor que corresponde a María efectivamente es 40, es
decir podemos usar la ecuación para predecir los valores de Y conociendo los
valores de X.
139
Esta fórmula de regresión se puede aplicar par dos variables X y Y, entre las
cuales no es obligatorio que exista una correlación lineal perfecta, es decir, no
es obligatorio que el r para la correlación entre X y Y sea siempre igual a 1.
Este valor de r para otras aplicaciones de la regresión, puede tomar cualquier
valor distinto de 1.
Ejercicios Resueltos de Regresión Lineal Simple
Al aplicar un test de inteligencia a una muestra representativa constituida por
800 alumnos, se obtuvo la puntuación media de 30,4 puntos, con la desviación
estándar de 12,6 puntos.
La edad media de la muestra fue de 14,5 años, con la desviación estándar de
3,2 años.
El coeficiente de correlación lineal de Pearson entre la variable Y, edad de los
sujetos estudiados y la variable X, rendimiento mental de los mismos sujetos,
fue r = 0,89.
Con estos datos se pide determinar la ecuación de regresión rectilínea de edad
en base del puntaje del rendimiento mental.
¿Qué edad corresponde a los sujetos que alcanzan puntuaciones de:
X1 = 18 Puntos X4 = 50 Puntos
X2 = 25 Puntos X5 = 60 Puntos
X3 = 45 Puntos X6 = 80 Puntos
Datos:
= 14,5 SY = 3,2 r = 0, 89
= 30,4 SX = 12,6
Aplicando estos datos en la fórmula se tiene:
140
Es la ecuación de regresión buscada.
Respuesta de la 1ra. Pregunta
X1 = 18
YR = 7,63 + 0,226 (18) = 7,63 + 4,07
YR = 11,7 años
Segunda pregunta
X2 = 25
YR = 7,63 + 0,226 (25) = 7,63 + 5,65
YR = 13,28 años
Tercera pregunta
X3 = 45
YR = 7,63 + 0,226 (45) = 7,63 + 10,17
YR = 17,8 años
Cuarta pregunta
X4 = 50
YR = 7,63 + 0,226 (50) = 7,63 + 11,3
YR = 18,93 años
Quinta pregunta
X5 = 60
YR = 7,63 + 0,226 (60) = 7,63 + 13,56
YR = 21,19 años
141
Sexta pregunta
X6 = 80
YR = 7,63 + 0,226 (80) = 7,63 + 18,08
YR = 25,71 años
Este cuadro contiene la primera columna los nombres de los alumnos, en la
segunda están los rangos de esos alumnos en la variable, en la tercera se
hallan los rangos de los alumnos en la variable Y. En la cuarta columna están
las diferencias de los rangos correspondientes de las variables X y Y. en la
quinta columna se colocan las cuadros de las diferencias, ya calculadas.
CUADRO AUXILIAR Nº 4.3.4
ALUMNOS RENGO DE
X
RANGO DE
Y
D=
DIFERENCIA
Rodríguez 3 3 0 0
Fernández 4 5 -1 1
Córdova 2 1 1 1
Flores 1 2 -1 1
Lema 5 4 1 1
APLICANDO LOS DATOS EN LA FORMULA Nº 4.3.1, SE TIENE
P= 0.08
Es una correlación positiva. Su valor es muy alto y poco común puesto que la
práctica enseña que en la correlación de la inteligencia con el rendimiento
escolar en las asignaturas, casi siempre se alcanza un valor próximo a 0.5.
EJEMPLO 2
142
Supongamos el siguiente cuadro nº 4.3.5. Queremos calcular el coeficiente de
correlación por rangos.
CUADRO Nº 4.3.5
EXAMINADOS PRUEBA DE
HABILIDAD MENTAL
X
APTITUD ACADÉMICA
Y
Susana 49 55
Iván 46 50
Lourdes 45 53
Aldo 42 35
Juan 39 48
maría 37 46
cesar 20 29
Olga 15 32
Observamos que los examinados están ordenados con respecto a la prueba de
habilidad mental de mayor a menor; podemos afirmar que la posición o rango
que se podría asignar a Susana es el primero, a Iván le correspondería el
segundo, para Lourdes el tercero tal como se muestra en el cuadro Nº4.3.6.
De igual forma podríamos ordenar la posición o rango de los postulantes según
los resultados de la prueba de aptitud académica Y del examen de admisión, lo
que se muestra en el cuadro Nº4.3.6 es así como Susana también ocupa el
número de orden o rango primero y Lourdes ocupa el segundo lugar o rango
dos en esa prueba, así podemos continuar ordenando los alumnos según su
rango en la pruebe de aptitud académica y terminaremos con cesar que ocupa
el rango 8 en tal prueba.
CORRELACIÓN POR RANGOS
143
Es el orden que posee o se asignan a cada miembro de un conjunto de de
elementos de acuerdo a una escala ordinal dada. El rango ubica el elemento en
un punto de esa escala.
Por ejemplo: podemos establecer un ordenamiento de los alumnos de acuerdo
a los puntajes alcanzados en un examen. Así tenemos en el cuadro Nº 4.3.1
que sigue:
CUADRO Nº 4.3.1
ALUMNOS García león Pérez Ruíz Lazo Lora
PUNTAJES 40 65 52 70 76 56
Ordenándolos de acuerdo a la magnitud del puntaje, establecemos los rangos
siguientes en el cuadro Nº 4.3.1.
CUADRO Nº 4.3.2
ALUMNOS García león Pérez Ruíz Lazo Lora
RANGOS 6 3 5 2 1 4
4.3.2 COEFICIENTE DE CORRELACIÓN POR RANGOS
La correlación por rangos se refiere a la correspondencia en el ordenamiento
de los elementos de dos conjuntos dados. La fuerza de la correlación se mide
por medio del coeficiente por rangos de spearman, cuya fórmula es:
En donde.
P= letra griega rho, designa el coeficiente de correlación por rangos.
144
D= diferencias de rangos correspondientes entre si pertenecientes a dos
variables X y Y. Por ejemplo d=
n= numero de pares correspondientes.
EJEMPLOS Nº 1
En la primera columna de la izquierda del cuadro Nº 4.3.3 se presenta un grupo
de 5 estudiantes; en la segunda columna están sus niveles mentales que se
consideran como categorías de la variable X, en la tercera columna se indican
los resultados de una prueba de matemáticas aplicadas al grupo, cuyas
puntuaciones son valores de la variable Y.
CUADRO Nº 4.3.3
ALUMNOS NIVEL MENTAL
X
MATEMÁTICAS
Y
Rodríguez medio 35
Fernández interior al promedio 17
Córdova superior al promedio 48
flores muy superior al
promedio
42
lema muy inferior al promedio 20
Calcular el coeficiente de correlación por rangos.
ESTUDIANTES CLASIFICACION
DE LOS RANGOS
CLASIFICACION DE
LOS RANGOS
D= DIF D2
RANGO X RANGO Y
145
SUSANA 1 1 0 0
ESTEBAN 2 3 -1 1
LOURDES 3 2 1 1
ALDO 4 6 -2 4
JUAN 5 4 1 1
MARIA 6 5 1 1
CESAR 7 8 -1 1
OLGA 8 7 1 1
∑D2 = 10
En la descripción de este cuadro la columna X corresponde a los rangos en las
pruebas de habilidad mental, la columna Y corresponde a los rangos de las
pruebas de los estudiantes de actitud académica. La columna D corresponde a
la diferencia del rango de un elemento de la columna X menos el rango de su
correspondiente elemento en la columna Y. en la columna D2 se halla el
cuadrado de la diferencia anotada en la columna D.
Ahora para medir la correlación entre los resultados de la prueba de habilidad
mental y del examen de admisión, tomamos los datos del cuadro anterior en el
que los datos están transformados en rangos.
Conforme ya mencionamos en el ejemplo 1 la fuerza de la correlación en este
tipo de problemas, se determina por el coeficiente p (rho) de correlación de
rangos de spearman. Aplicamos la formula N° 4,3,1 en donde
N= 8 pares
∑D2 = 10, este número es el resultado de la suma de los números D elevados
al cuadrado que figuran la columna D2.
146
Vemos que existe una correlación positiva fuerte entre las puntuaciones de la
prueba de la habilidad mental y los puntajes de la actitud académica del
examen de admisión.
Caso de rangos empatados o repetidos
Examinemos el caso N° 4.3.7 y supongamos que en el examen de admisión de
Susana y Esteban obtuvieron el mismo puntaje 55 y por lo tanto a cualquiera
de los dos le corresponde los rangos primero o segundo para romper esta
indeterminación, convenimos en asignar a cada uno de ellos el promedio de
ambos
Rangos, o sea
= 1.5 entonces tanto Susana como esteban tendrán el
rango
Tratemos ahora los rangos del VI Ciclo vemos que los profesores L Y P están
empleados o igualados en puntaje por lo que a cualquiera de los dos le
corresponde el rango 5 o el rango 6.el rango que le asignemos serán el
resultado de promedio 5 y 6 que son los dos rangos empatados, luego (5+6) / 2
=5.5 será el número que le asignamos como rango.
Los profesores Fy Z tienen en el VI ciclo los rangos 3 y 4 a cualquiera de estos
dos les corresponde el tercer o cuarto lugar. El número que les asignaremos
será (3+4) /2 = 3.5.
Luego elaboramos una columna para los nuevos rangos Y en donde a los
profesores L y P les asignaremos el rango 5.5 y a los profesores F Y Z les
asignaremos el rango 3 Y 5. los profesores J Y K seguirán con los rangos 1 y 2
respectivamente.
En La Columna D se colocan las diferencias X – Y
Nos ocuparemos ahora de la columna D2. En esta columna se encuentran
valores de la columna D elevados al cuadrado, luego sumamos los valores de
la columna D2 y obtenemos = 17.
Ahora aplicaremos la formula número 4.3.1.
147
Aquí = 17.
N= 6
P= 1- = 0.5
Luego la correlación entre los puntajes asignados a los 6 pro0fesores por el V
ciclo y los puntajes asignados por el VI ciclo es positiva, pero su magnitud no
es ni muy fuerte ni muy débil.
2º EJERCICIO
Cinco niños se someten a una pruebe de habilidad mental y los resultados de
estas se ordenan por rangos en la columna X. también se muestran en la
columna Y los rangos de estos mismos 5 niños respecto al tiempo que gastan
al mirar la tv.? (Ver cuadro Nº 4.3.1)
¿Existe correlación entre el rendimiento mental de los niños y el tiempo que
gastan mirando tv.?
Calculando los nuevos rangos para la columna Y teniendo en cuenta rangos
igualados obtenemos:
ALUMNOS x Y
A 1 4 o 5
B 2 4 o 5
C 3 2 o 3
D 4 1
E 5 2 o 3
¿Existe correlación entre el rendimiento mental de los niños y el tiempo que
gastan mirando tv.?
6 (17) 6 (36 -1)
6 (36 – 1)
148
Calculando los nuevos rangos para la columna Y. teniendo en cuenta los
rangos iguales obtenemos:
X Y D X - Y
D2
A 1 4.5 -3.5 12.25
B 2 4.5 -2.5 6.25
C 3 2.5 0.5 0.25
D 4 1 3 9
E 5 2.5 2.5 6.25
2 = 34.00
Para Obtener Los Rangos Correspondientes A Los Niños A Y B Hemos
Sumado Los Lugares Que Podrían Ocupar Cualquiera De Los Dos Y Que Son
5 Y 4 Y Luego Esta Suma La Dividimos Entre El Numero De Rango Igualados
Que Son Dos, Esto Es: (4+5)/ 2= 4.5 Luego Rango Que Les Corresponda A A
Y B Es 4.5
DE IGUAL FORMA PROCEDEMOS PARA LOS RANGO C Y E obteniendo
para ellos como nuevo rango 2.5.
Ahora añadiremos una nueva columna D, en esta columna escribiremos
diferencia entre uno de los rangos de x menos el correspondiente rango de Y.
Elevamos al cuadrado cada valor de y y escribimos cada resultado en la
columna del cuadrado. Luego sumamos los valores de la columna de D2 y
obtenemos 2 =34.00
P= 1 – 1.7=+0.7
Luego obtenemos una correlación negativa cuya magnitud es 0.7 que es un
valor fuerte para este tipo de situación.
EJERCICIO PROPUESTO DE CÁLCULO DE COEFICIENTE DE SPEARMAN
149
La tabla muestra siete estudiantes que ordenados alfabéticamente obtuvieron
su número de orden según sus calificaciones en teoría y práctica académica en
un curso de lenguaje. Calcular el coeficiente de correlación de SPEARMAN.
ALUMNOS PRACTICA X TEORIA Y
A 7 6
B 4 7
C 6 5
D 3 2
E 5 1
F 2 4
G 1 3
2º EJERCICIO
El cuadro muestra las correspondientes alturas en centímetros de grupo de
padres y de sus hijos primogénitos.
1) calcular el coeficiente de correlación de espermas
2) calcular también el coeficiente de Pearson
3) son parecidos?
ALTURA PADRE X ALTURA HIJOS Y
172 178
164 154
180 180
190 184
164 166
164 166
165 166
180 175
RESPUESTA 1 p= 0.89
3º EJERCICIO
En la tabla los cinco siguientes individuos se han colocado por rangos de 1 a 5
sobre X e Y. calcular el coeficiente de correlación.
X Y
150
A 2 3
B 1 2
C 3 1
D 5 5
E 4 4
RESPUESTA 1 p= 0.7
EJERCICIO
El gerente del personal una empresa agroindustrial estudia la relación entre la
variable dependiente Y y la variable independiente X de su personal obrero.
Recoge una muestra aleatoria de 10 trabajadores y se obtuvieron los datos en
dólares por semana.
a) Determinar el diagrama de dispersión
b) De su comentario sobre el valor de la pendiente
La relación es positiva e imperfecta porque al pasar la recta no cruza por
todos los puntos, sin embargo el valor de la pendiente se aproxima a
uno.
c) Estime el gasto que correspondería a un salario semanal de 90USD.
Salario (x)
Gasto (y)
X2 Y
2 XY (xi -Ẋ) (xi - Ẋ)^2 (Yi -Ῡ) (Yi -Ῡ)^2
28 25 784 625 700 -17,8 316,84 -13,4 179,56
151
25 20 625 400 500 25 625 20 400
35 32 1225 1024 1120 35 1225 32 1024
40 37 1600 1369 1480 40 1600 37 1369
45 40 2025 1600 1800 45 2025 40 1600
50 40 2500 1600 2000 50 2500 40 1600
50 45 2500 2025 2250 50 2500 45 2025
35 30 1225 900 1050 35 1225 30 900
70 55 4900 3025 3850 70 4900 55 3025
80 60 6400 3600 4800 80 6400 60 3600
ƩX=458 ƩY=384 ƩX2=23784 ƩY
2=16168 ƩXY=19550 Ʃ(xi -Ẋ)
=412,2 Ʃ(xi - Ẋ)^2=
23316,84
Ʃ(Yi -Ῡ) =345,6
Ʃ(Yi-Ῡ)^2= 15722,56
Desviación Estándar (X)
Sx =
Sx =
= 48,28
Ẋ =
Sy =
= 39, 65
152
Ῡ =
+
+
+
+
+ = 73, 54 gasto de un salario semanal
r = -0.005
153
COMENTARIO.- Vemos que los vehículos de 20 toneladas no tienen relación con los de
40 toneladas, ya que a los de 20 se los utiliza más para las importaciones que los de 40
debido a que son más ligeros al transportar las mercancías.
154
155
156
157
158
PRUEBA DE HIPÓTESIS
Hipótesis Estadística
Se llama hipótesis, a una suposición o conjetura; que se formula, con el
propósito de ser verificada. Cuando se establece la veracidad de una hipótesis,
se adquiere el compromiso de verificada en base a los datos de la muestra
obtenida. La hipótesis estadística es fundamentalmente distinta de una
proposición matemática, debido que al decidir sobre su certeza podemos tomar
decisiones equivocadas, mientras que en la proposición matemática podemos
afirmar categóricamente si es verdadera o falsa.
Hipótesis Nula
Es una hipótesis que afirma lo contrario de lo que se quiere probar. En ella se
supone que el parámetro de la población que se está estudiando, tiene
determinado valor. A la hipótesis nula, se le representa con el símbolo Ho, y se
formula con la intención de rechazarla.
Ejemplo: Para decidir que una moneda está cargada, suponemos lo contrario,
es decir, que la moneda es legal, esto es, que tiene igual probabilidad o
proporción de salir cara, que de salir sello. Llamamos P (proporción poblacional
de cara) y Q (proporción poblacional de sello), P +Q = 1 (proporción del total o
100% de los casos); pero la moneda es legal, entonces esperamos que P = Q,
reemplazando P por Q, P + P = 1, 2P = 1 y P = 0.5, es decir, la proporción
poblacional de éxito (cara), para todas las monedas legales es 0.5. Sobre esta
base, durante la ejecución del experimento, aceptamos que actúan únicamente
las leyes del azar, descartando la influencia de cualquier otro factor.
Hipótesis Alternativa
Es una hipótesis diferente de la hipótesis nula. Expresa lo que realmente
creemos es factible, es decir, constituye la hipótesis de investigación. Se le
designa por el símbolo . En el ejemplo citado, la hipótesis alternativa sería:
: P ≠ 0.5, es decir, P > 0.5 o P < 0.5, si es que queremos realmente
averiguar que la moneda no es legal.
Concepto de significación en una Prueba Estadística
Suponiendo que está formulada una hipótesis y que al realizar un experimento
para someterla a prueba encontramos que el estadístico de la muestra, difiere
marcadamente del valor del parámetro que establece la hipótesis nula , en
ese caso, decimos que la diferencias encontradas son significativas y estamos
159
en condiciones de rechazar la hipótesis nula o, al menos no aceptarla en
base a la muestra obtenida.
En realidad estamos determinando, si la diferencia, entre el valor del parámetro
establecido en y el valor del estadístico obtenido en la muestra, se debe tan
solo al error de muestreo (en este caso aceptamos ); o si la diferencia es tan
grande que el valor obtenido por el estadístico de la muestra, no es fruto del
error de muestreo, en este caso rechazamos .
Prueba de Hipótesis
Se le llama también ensayo de hipótesis o dócima de hipótesis. Son
procedimientos que se usan para determinar, se es razonable o correcto,
aceptar que el estadístico obtenido en la muestra, puede provenir de la
población que tiene parámetro, el formulado en .
Como resultado de la prueba de hipótesis, aceptamos o rechazamos . Si
aceptamos , convenimos en que el error de muestreo (el azar), por sí solo,
puede dar lugar al valor al estadístico que origina la diferencia entre éste y el
parámetro. Si rechazamos , convenimos que la diferencia es tan grande, que
no es fruto del error de muestreo (al azar) y concluimos que el estadístico de la
muestra no proviene de una población que tenga el parámetro estudiado.
El mecanismo para rechazar la hipótesis , es el siguiente: suponemos como
válida la hipótesis nula , la que afirma que el parámetro tiene cierto valor
(supongamos el caso de la media poblacional entonces : ʯ = . Tomamos
una muestra y calculamos el estadístico de la muestra (para el caso de la
media el estadístico es la media muestral x ). Como suponemos que es
cierta, podemos suponer que la muestra proviene de la población que tiene
como parámetro el de (es decir, no serán muy diferentes) y la
probabilidad de que dicha diferencia muestral pequeña aparezca, será grande.
Si en cambio tomamos una muestra de una población que no tiene como
parámetro , en dicho caso el valor de x - , será grande, (x será muy
distinto que ), es decir, dicha diferencia será significativa, y la probabilidad de
obtener dicha diferencia muestral al muestrear, será peque a. ecesitamos un
estándar, es decir, un valor tal que, al comparar con l la probabilidad de
obtener una diferencia entre x y , nos permita aceptar o rechazar .
Llamemos a este valor el nivel de significación. ste será tal que, si la
probabilidad de la diferencia entre x y es muy peque a (menor que ),
rechazaremos y la muestra aleatoria no proviene de la población con
parámetro ; si la probabilidad de la diferencia entre x - es grande (mayor
que ) aceptamos y la muestra aleatoria proviene de la población con
parámetro .
160
Cuando se toma la decisión de rechazar o aceptar la hipótesis , se corre el
riesgo de equivocarse (recuerde que nos hemos referido a la probabilidad de
obtener una diferencia entre x y y no de un hecho establecido), es decir, de
cometer errores.
Estos posibles errores son:
Error tipo I
Consiste en rechazar la hipótesis , cuando en realidad no debería ser
rechazada, por ser verdadera. La probabilidad de cometer el error tipo I, se
llama alfa ( ).
Error tipo II
Consiste en no rechazar a hipótesis Ho, cuando debería ser rechazada por ser
falsa. La probabilidad de cometer el error tipo II, se llama beta (β).
Se debe procurar que la probabilidad de los errores tipo I y tipo II, sean las más
pequeñas posibles, sin embrago, para un tamaño de muestra dado, el querer
disminuir un tipo de error, trae consigo, incrementar el otro tipo de error. La
única forma de disminuir ambos errores, es aumentar el tamaño de la muestra.
Nivel de significación de una Prueba Estadística.
En relación a la comprobación de una hipótesis dada, se llama nivel de
significación, a la probabilidad a de cometer el error tipo I, al rechazar la
hipótesis nula Ho.
Los niveles de significación más usados en la práctica son: de 0.05 (5%) y de
0.01 (1%).
El nivel de significación de 5% se interpreta de la siguiente manera: en 100
casos, cabe esperar, que en 5 de ellos se cometa una decisión equivocada, al
rechazar la hipótesis Ho, cometiendo, en consecuencia, un error de tipo I.
Pasos de una Prueba de Hipótesis
1o Formular la Ho y la H1
161
2o Determinar si la prueba es unilateral o bilateral.
3o Asumir el nivel de significación de la prueba.
4oDeterminar la distribución muestral que se usara en la prueba.
5o Elaborar el esquema de la prueba.
6o Calcular el estadístico de la prueba.
7o Tomar la decisión, para esto, se comparan el esquema de la parte.
5o, con el estadístico del paso 6o.
Ejemplo de una prueba de hipótesis utilizando los pasos anteriores.
Se realiza el experimento aleatorio de lanzar 50 veces una moneda,
obteniéndose 34 veces el resultado cara. Al nivel de significación de 5%, se
quiere averiguar si la moneda está cargada.
1) Ho: P= 0.5, la moneda no está cargada.
H1: P≠ 0.5 la moneda está cargada (P>0.5 ó P<0.5).
2) La prueba debe ser bilateral o de dos colas, porque hay dos
posibilidades en la H1:
a) Si se obtiene muchas veces cara, entonces la moneda está cargada
de un lado (P>0.5).
b) Si se obtiene pocas veces cara, entonces la moneda está cargada
del otro lado (P<0.5).
3) Asumimos el nivel de significación de 5%, con lo que estamos
aceptando de que con la probabilidad de 0.05, puede ocurrir que se
rechace Ho, a pesar de ser verdadera; cometiendo por lo tanto el error
de tipo I. la probabilidad de no rechazar Ho, será de 0.95.
4) Determinar la distribución muestral que se utilizara en la prueba.
Tenemos por dato muestral la proporción
, el parámetro de Ho, es la
proporción poblacional P; entonces utilizaremos la distribución muestral
de proporciones para describir la variación de las muestras por el error d
162
muestreo. Tamaño de muestra n= 50> 30. (Muestra grande)
aproximaremos la distribución muestral de proporciones, mediante la
distribución normal, porque n=50> 30.
5) Esquema de la prueba: En la distribución normal de probabilidades
estandarizadas, para el nivel de significación de 5%, el nivel de
confianza será de 95%, entonces los coeficientes críticos o coeficientes
de confianza para la prueba bilateral serán: -1.96 1.96, es decir -1.96 ≤ z
≤ 1.96.
El esquema correspondiente es:
163
Si al realizar el experimento y calcular el puntaje estandarizado Z, encontramos
que Z cae fuera del intervalo -195 ≤ z ≥ 1.96, esto indicara que se debe
rechazar H˳
Si por el contrario Z cae dentro del intervalo ya mencionado, eso indicara que
no debemos rechazar H˳
Vemos que hay dos regiones e rechazo, por eso la prueba se llama prueba
bilateral o de dos colas.
6) Cálculo de Z. utilizando la fórmula 5.3.2
Donde Xi corresponde en este caso a la producción de la muestra: p`
: es la medida de la distribución muestral de proporciones, igual a la
proporción poblacional P de H˳
: es la desviación estándar de la distribución muestral de proporciones,
llamada también error estándar de la proporción: p`
164
Ejemplo de Prueba de una Cola o Unilateral.
Un laboratorio afirma que uno de sus productos tiene 905 de efectividad para
curar una enfermedad. En una muestra de 200 persona de aliviaron 160.
Determinar que a afirmación no es cierta, es decir, la medicina cura meno del
90% de los casos. Sea el nivel de significación 0.05.
1) .- H˳: P = 0.90 P, proporción poblacional de éxito.
H1: P < 0.90 Es lo que queremos probar.
2) .- Habrá una sola región de rechazo o región crítica y es aquella en la
que la proporción de personas curadas por la medicina es menor que
0.90; luego se trata de una prueba unilateral, o de una sea cola; en esta
165
caso de cola izquierda, que es la dirección a la que apunta la
desigualdad de H1.
3) Asumiendo el nivel de significación de 5% (0.05), en la distribución
normal de probabilidades estandarizada se tiene el coeficiente critico de
Z= -1.65.
4) Como el dato es una proporción muestral, y en Ho hay una proporción
poblacional, usaremos la distribución muestral de proporciones.
5) El esquema de la prueba es:
166
´P = Proporción de la muestra =
P = Proporción de la población P = 0.9
Grados de libertad: el termino libertad se refiere a libertad para variar y recoger
datos de la muestra. Analicemos la fórmula para la desviación estándar
corregida
Para calcular la desviación estándar es necesario estimar la media poblacional
û mediante x= u, es decir se eta estimando un parámetro poblacional por lo
tanto por grados de libertad serán n-1. Al querer calcular la desviación estándar
ha disminuido en uno la libertad de escoger los datos, por haber estimado un
parámetro, la media poblacional.
En la prueba de student de diferencia de medidas, se estimaran dos medias
poblacionales de cada una de las dos poblaciones de las cuales se toman los
datos, para calcular las dos medias. Los grados de libertad serán n1+n2-2
donde n1 es el tamaño de la muestra 1, tomada de la población 1 y n2 es el
tamaño de la muestra tomada de la población 2.
Los grados de libertad están representados por la siguiente formula
Gl=n-k
N: numero de observaciones independientes
K: numero de parámetros estimados
Distribución de Student
Cuando:
i) el tamaño de la muestra es pequeño y este es menor que 30
ii) la población de donde se obtienen los datos está distribuida normalmente
167
iii) se desconoce la desviación estándar de la población entonces haremos uso
de la distribución de Student
La distribución de Student está representada por el estadístico t:
El estadístico z de la distribución normal era
En el denominador de t tenemos s, que varía de muestra en muestra. En el
denominador de z tenemos o , la desviación estándar de la población que es
una constante; t sigue una distribución de Student con n-1 grados de libertad,
los valores de t se pueden encontrar en la tabla correspondiente en el apéndice
de este libro. Existe un valor específico para cada grado de libertad asociado
con un determinado nivel de significación.
La grafica de la distribución de Student es mas aplanada que la distribución
normal Z.
Ejemplo de prueba de una media utilizando la distribución de student
Se aplico un test de inteligencia a una muestra de 15 alumnos de un salón de
clase de cierto Colegio y se determino un CI promedio de 105.4 con una
desviación estándar de 5.3. Se saber que al estandarizar el mencionado test en
los colegios secundarios de la localidad, se hallo un CI medio de 101.
Asumiendo un nivel de significación de 1% probar que el rendimiento mental
Distribución de
student
Distribución
normal
168
del grupo de 15 alumnos, es más alto que el promedio de estandarización del
test.
U= rendimiento mental medio de estandarización = 101
X= rendimiento mental medio de la muestra = 105,4
1) formulación de la hipótesis
H0:µ = 101, no existe diferencias significativas en el rendimiento mental, de la
muestra X y de la población
H1: µ= >101
2) prueba unilateral de cola derecha, de acuerdo con H1,
3) Nivel De Significación Asumido: 1% = 0.01
4) Distribución aplicable para la prueba
Considerando que los datos son la media de la muestra X y la media
poblacional µ, se debe reutilizar la distribución maestral de medias, además
como n <30 (muestra pequeña) y se desconoce 0 (desviación estándar de la
población) se empleara la distribución de student, ya que ese sabe los valores
de CI siguen una distribución normal.
5) Esquema grafico de la prueba
El nivel de significación es a = 0.01
Los grados de libertad son:
Gi= n-1 = 15 – 1=14g. de lib
En la tabla de distribución de student, con 14gl, a = 0.01 y prueba de 1 cola,
encontramos el t crítica: tc =2.624
169
6) Cálculo del estadístico de la prueba
Datos
X= 105.4 ; µ = 101 ; s= 5.3 ; n= 15
170
7) toma de decisiones
Observamos que t=3.11 se ubica en la región de rechazo por tanto se descarta
que µ = 101 y se acepta la alternativa µ > 101 es decir el grupo de 15 alumnos
tiene rendimiento mental mayor que el promedio de estandarización.
Ejemplo:
Una tableteadora de un laboratorio farmacéutico produce comprimidos de cierto
medicamento, con un peso medio de 2grs. Por comprimido. Para determinar si
la maquina sigue en buenas condiciones de producción, se tomó una muestra
de 10 tabletas cuyos pesos en gramos son: 2.04; 1.96; 2.00; 1.98: 2.02; 2.01;
1.97; 1.94; 2.03; 2.01, asumiendo un nivel de significación de 0.01, verificar que
la maquina no está en
Buenas condiciones de producción.
Llamemos:
µ: el peso medio de las tabletas producidas por la máquina.
1) Formulación de hipótesis
H0: µ= 2, la maquinas se halla en buenas condiciones.
171
H1: µ ≠ 2, la maquina no se halla en buenas condiciones
2) Prueba bilateral porque en H1 hay dos posibilidad
µ>2 o µ< 2
3) Nivel de significación , s4e asume el 1% = 0.01
4) Distribución de probabilidad apropiada para la prueba.
Considerando que las hipótesis se refieren a medios poblacionales, que se
da como dato el valor de la media población µ= 2grs, y que se puede
calcular la media de la muestra, utilizaremos la distribución muestral de las
medias para efectuar la prueba. Siendo la muestra pequeña (n= 10) y la
desviación de student o de la población desconocida, no es aplicable la
distribución normal y por tanto recurridos a la distribución de student,
asumiendo que la población.
172
173
Ejercicio.
Un laboratorio afirma que uno de sus productos tiene el 90% de efectividad
para curar una enfermedad. En una muestra de 200 personas se aliviaron 160.
Determinar que la afirmación no es cierta, es decir que la medicina cura menos
del 90% de los casos. Si el nivel de significancia (error de estimación) es del
0,05
1.- HALLAR H0 Y HA
2.- DETERMINAR LA CAMPANA DE GAUSS
Es unilateral de una cola
3.- DETERMINAR EL VALOR DE CONFIANZA
4.- DETERMINAR EL VALOR DE n
5.- GRAFICAR LA CAMPANA DE GAUSS
174
6.- CALCULAR EL VALOR DE Z
= 0,80
175
7.- rechazo de la hipótesis nula y aceptación de la hipótesis alternativa, porque
los medicamentos curan menos del 90% a los pacientes.
Ejercicio.
Una muestra de 80 alambres de acero producidos por la Fábrica A, da una
resistencia media a la rotura de 1230lobras con una desviación estándar de
120 libras. Una muestra de 100 alambres de acero producidos por la Fábrica B
da una resistencia media a la rotura de 1190 libras con una desviación
estándar de 90 libras. ¿Hay una diferencia real en la resistencia media de las
dos marcas de alambre de acero, si el nivel de confianza es el 95%?
1.- DETERMINAR LA HO Y LA HA.
Ho: U1 = U2
Ha: U1 U2
2.- DETERMINAR LA CAMPANA DE GAUSS
La campana de gauss es bilateral de 2 colas
3.- DETERMINAR EL VALOR DE CONFIANZA
Nivel de significancia o E.E. = 0,05
Z =1,96 valor estandarizado
176
4.- DETERMINAR QUÉ TIPO DE MUESTRA SE UTILIZA
n 1 = 80 n > 30
n 2 = 100 n > 30 Prueba de Hipótesis
5.- CONSTRUIR LA CAMPANA DE GAUSS
6.- CALCULAR EL PUNTAJE Z
1 = 1230 S1 = 120
2 = 1190 S2 = 90
177
7.- Rechazo la hipótesis nula y acepto la hipótesis alternativa. La rotura de los
alambres de la Fábrica A es diferente a la rotura de los alambres de la Fábrica
B.
Ejercicio.
Los salarios diarios de una industria particular tiene una distribución normal con
media de 23,20 dólares y una desviación estándar de 4,50 dólares. Si una
compañía de esta industria emplea 40 trabajadores, les paga un promedio de
21,20 dólares. ¿Puede se acusada esta compañía de pagar salarios inferiores
con un nivel de significancia del 1%?
1.- DETERMINAR LA HO Y LA HA.
Ho: U = 23,20
Ha: U > 23,20
2.- DETERMINAR LA CAMPANA DE GAUSS
La campana de gauss es de una cola
3.- NIVEL DE CONFIANZA = 99%
178
4.- DETERMINAR QUÉ TIPO DE MUESTRA SE UTILIZA
5.- CONSTRUIR LA CAMPANA DE GAUSS
6.- CALCULAR EL PUNTAJE Z
7.- Rechazo la hipótesis nula y acepto la hipótesis alternativa. No está pagando
a los trabajadores lo que les corresponde entonces debe entrar a un juicio para
resolver este inconveniente.
179
Ejercicio.
Según una encuesta realizada se afirma que la exportación de petróleo crudo
tiene el 95% de efectividad para comercializarse en el mercado internacional.
En una muestra de 45 países a los que se envía el petróleo ecuatoriano, se
reflejaron que 35 países los más grandes importadores de petróleo tienen
ventas elevadas. Determinar que la afirmación no es cierta, es decir que la
exportación de petróleo se comercializa en menos del 95%. Si se tiene un nivel
de significancia del 0,05.
1. Ho: U = 95%
Ha: U < 95%
2. La campana de Gauss es de una cola
3. α = 95%
Error de Estimación: 0,05
Z = -1,65
4. n = 45 n > 30 Prueba de Hipótesis
5. Construir Campana de Gauss
6.
180
7. Rechazo la hipótesis nula y acepto la hipótesis alternativa.
Las exportaciones de petróleo que el Ecuador realiza a diferentes países
se comercializan en más del 95%, por lo que el país puede continuar
realizando sus exportaciones al exterior.
ORGANIZADOR GRTÁFICO
PRUEBA DE
HIPÓTESIS
Es una suposición o conjetura respecto a
una característica
Al aceptar o rechazar la hipótesis nula debe
asumirse un determinado error al tomar una decisión
Procedimiento de toma de decisión que
conduce a la aceptación o rechazo
de hipótesisestadísticas
Proposición sobre los parámetros de una
población o sobre la distribución de
probabilidad de una variable aleatoria
181
DISTRIBUCIÓN T-STUDENT
En probabilidad y estadística, la distribución t-Student es una distribución de
probabilidad que surge del problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra es pequeño.
Una variable aleatoria se distribuye según el modelo de t-Student con n grados
de libertad, donde n es un entero positivo, si su función de densidad es la
siguiente:
f(t)=
)1(2
12
)1(
)2
(
)2
1(
n
n
t
nn
n
, - t ,
0
1)( dxexp xp
siendo p>0
La gráfica de esta función de densidad es simétrica respecto del eje de
ordenadas, con independencia del valor de n, y de forma semejante a la
distribución normal.
Propiedades:
1. La media es 0 y su varianza 2n
n
, n>2.
2. La gráfica de la función de densidad es en forma de campana.
3. Los datos están más disperso que la curva normal estándar.
4. A medida que n aumenta, la gráfica se aproxima a la normal N(0,1).
5. La gráfica es muy parecida a la de la normal estándar diferenciándose
en que las colas de t están por encima de la normal, y el centro se
encuentra por debajo del de la normal.
6. Cuando los grados de libertad son altos, los valores de t coinciden con
los de la normal.
Ejercicio:
La empresa de transporte pesado TRANSURGIR de la ciudad de Tulcán
adquirió camines nuevos que cargan un peso aproximado a 15 toneladas
cada uno para determinar si esta afirmación es verdad se tomo una muestra de
7 camiones con repletos de carga cuya carga pesaba; 15,04tonn, 14,96tonn,
15tonn, 14,98tonn, 15,2tonn, 15,1tonn y 14,96tonn. Asumiendo un nivel de
182
significancia de 0,01 verificar que los camiones si cumplen con el peso
establecido.
Ho: u=15tonn
Ha: u≠2 u es diferente de dos
1) Bilateral
2) 99% 0,01 gl=n-1
gl= 10-1= 9
t=±3,250
3) n˂30 T-student
4) GRAFICA
5) –
–
Xi (Xi-X) (Xi-X)2
15,04 0,006 0,000032653
14,96 -0,074 0,005518367
15 -0,034 0,00117551
14,98 -0,054 0,002946939
15,2 0,166 0,027461224
15,1 0,066 0,004318367
14,96 -0,074 0,005518367
105,24
-
0,000000000000008881784197 0,046971429
183
6) Aceptamos la hipótesis nula y rechazamos la hipótesis alternativa ya
que el peso que puede transportar cada camión se encuentra en la
zona de aceptación.
ORGANIZADOR GRÁFICO
DISTRIIBUCIÓN T - STUDENT
LAS TABLAS DE LA DISTRIBUCIÓN T DE
STUDENT DAN VALORES ACUMULADOS DE
IZQUIERDA A DERECHA.
SURGE DE ESTIMAR LA MEDIA DE UNA
POBLACIÓN NORMALMENTE
DISTRIBUIDA CUANDO EL TAMAÑO DE LA
MUESTRA ES PEQUEÑA.
SIRVE PARA LA DETERMINACIÓN DE
LAS DIFERENCIAS ENTRE LAS DOS MEDIAS
MAESTRALES Y PARA LA CONSTRUCCIÓN DEL
INTERVALO DE CONFIANZA
ES UNA PRUEBA ESTADISTICA PARA
EVALUAR SI DOS GRUPOS DIFIEREN
ENTRE SI DE MANERA SIGNIFICATIVA
RESPECTO DE SUS MEDIAS
184
TAREA
REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden
utilizar para solucionar problemas comunes en los negocios.
Muchos estudios se basan en la creencia de que es posible identificar y
cuantificar alguna Relación Funcional entre dos o más variables, donde una
variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables
cualquiera en un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable
dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo
una variable independiente, razón por la cual se le denomina también
Regresión Divariada porque sólo hay dos variables, una dependiente y otra
independiente y se representa así:
Y = f (X)
"Y está regresando por X"
La variable dependiente es la variable que se desea explicar, predecir.
También se le llama REGRESANDO ó VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó
REGRESOR y se le utiliza para EXPLICAR Y.
185
REGRESIÓN LINEAL SIMPLE
En el estudio de la relación funcional entre dos variables poblacionales, una
variable X, llamada independiente, explicativa o de predicción y una variable Y,
llamada dependiente o variable respuesta, presenta la siguiente notación:
Y = a + b X + e
Donde:
a: es el valor de la ordenada donde la línea de regresión se intercepta con el
eje Y.
b: es el coeficiente de regresión poblacional (pendiente de la línea recta)
e: es el error
SUPOSICIONES DE LA REGRESIÓN LINEAL
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente
independientes.
ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL
Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir,
encontrar los valores de a y b con los datos observados de la muestra. El
método de estimación es el de Mínimos Cuadrados, mediante el cual se
obtiene:
186
Luego, la ecuación de regresión muestral estimada es
Que se interpreta como:
a es el estimador de a
Es el valor estimado de la variable Y cuando la variable X = 0
b es el estimador de b , es el coeficiente de regresión
Está expresado en las mismas unidades de Y por cada unidad de X. Indica el
número de unidades en que varía Y cuando se produce un cambio, en una
unidad, en X (pendiente de la recta de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento en
Y por cada unidad de aumento en X.
PRUEBA DE HIPÓTESIS
A partir de esta unidad estudiaremos lo relacionado a probar diferentes tipos de
hipótesis, empezando por definir que es una hipótesis y una prueba de
hipótesis, enlistaremos los pasos para probar una hipótesis, y realizaremos
pruebas de hipótesis relativas a la media de una población y a las medias de
dos poblaciones.
¿Qué es una hipótesis?
Hipótesis es una afirmación o suposición respecto al valor de un parámetro
poblacional
Son ejemplos de hipótesis, o afirmaciones hechas sobre un parámetro
poblacional las siguientes:
El ingreso mensual promedio de todos los ciudadanos es $4500.00
El 20% de los delincuentes capturados son sentenciados a prisión
187
El 90% de las formas fiscales son llenadas correctamente
Todas estas hipótesis tienen algo en común, las poblaciones de interés son tan
grandes que no es factible estudiar todos sus elementos. Como ya sabemos,
una alternativa a estudiar la población entera es tomar una muestra de la
población de interés. De esta manera podemos probar una afirmación para
determinar si la evidencia soporta o no la afirmación.
¿Qué es una prueba de hipótesis?
Una prueba de hipótesis comienza con una afirmación o suposición acerca de
un parámetro poblacional, tal como la media poblacional. Una hipótesis podría
ser que la colegiatura que pagan los estudiantes universitarios de la República
Mexicana es en promedio de 3000 pesos. Para comprobar esta hipótesis no
podríamos contactar a todos los estudiantes universitarios de la república, el
costo sería exorbitante. Para probar la validez de esta afirmación podríamos
seleccionar una muestra de la población de estudiantes y basados en ciertas
reglas de decisión, aceptar o rechazar la hipótesis. Si la media muestral fuera
de 1000 pesos ciertamente tendríamos que rechazar la hipótesis, pero si la
media muestral fuera 2990 pesos ¿podríamos asumir que la media poblacional
si es de 3000 pesos?, ¿podemos atribuir al error de muestreo la diferencia de
10 pesos entre las dos medias, o es una diferencia significativa?
Prueba de hipótesis es un procedimiento basado en una evidencia muestral y
la teoría de la probabilidad, usado para determinar si la hipótesis es una
afirmación razonable para no ser rechazada, o es una afirmación poco
razonable y ser rechazada.
Procedimiento de 4 pasos para probar una hipótesis
Hay un procedimiento de cuatro pasos que sistematizan la prueba de hipótesis.
Para ilustrar el procedimiento, completemos el ejemplo anterior. Supongamos
que la muestra es de 20 estudiantes y el nivel de significancia es de .05. Los
cuatro pasos son los siguientes:
Paso 1. Establecer las hipótesis nula y alterna
El primer paso es establecer la hipótesis a ser probada. Esta es llamada la
hipótesis nula, simbolizada por H0, el subíndice cero implica “cero diferencia”.
Usualmente el t rmino “no” es encontrado en la hipótesis nula significando “no
cambio”. La hipótesis nula de la introducción podría ser “la colegiatura mensual
188
promedio de los estudiantes universitarios no es diferente de 3000 pesos”. sto
es lo mismo que decir “…es igual a 3000 pesos”. La hipótesis nula se puede
simbolizar H0: µ = 3000.
La hipótesis nula es una afirmación que será aceptada si los datos de la
muestra no nos proveen de evidencia convincente de que es falsa, es decir, si
se acepta la hipótesis nula decimos que la evidencia no es suficiente para
rechazarla pero no podemos afirmar que es verdadera.
La hipótesis alterna es la afirmación que se acepta si se rechaza la hipótesis
nula. Esta hipótesis, también llamada hipótesis de investigación, se simboliza
con Ha. La hipótesis alterna es aceptada si la evidencia proporcionada por la
muestra es suficiente para afirmar que la Ho es falsa.
En este ejemplo las hipótesis serían las siguientes:
Ho: La colegiatura promedio de los estudiantes no es diferente de 3000 pesos
Ho: µ = 3000
Ha: La colegiatura promedio de los estudiantes es diferente de 3000 pesos
Ha: µ ≠ 3000
Paso 2. Determinar el criterio de contraste
Determinar el criterio de contraste consiste en especificar el nivel de
significancia, el tipo de distribución, y los valores críticos.
Existen cuatro posibilidades al tomar una decisión respecto a una hipótesis:
Aceptar Ho Rechazar Ho
Ho verdadera Decisión
correcta
Error
Tipo I
Ho falsa Error
Tipo II
Decisión
correcta
Nivel de significancia es la probabilidad de rechazar una hipótesis nula
verdadera
189
El nivel de significancia es simbolizado por α, y también es conocido como
nivel de riesgo. Este último término es más apropiado porque es el riesgo que
se toma de rechazar una hipótesis verdadera.
No hay un nivel de significancia para todos los estudios, se puede utilizar
cualquier valor de probabilidad entre 0 y 1. Tradicionalmente, el nivel de .05 es
aplicado a proyectos de investigación, el nivel .01 a control de calidad, y .10 a
sondeos políticos. Tú como investigador debes decidir el nivel de significancia
antes de colectar la muestra de datos.
El tipo de distribución se determinará dependiendo de la naturaleza de la
hipótesis y del tamaño de la muestra. Cuando la hipótesis es relativa a medias
poblacionales y las muestras son grandes (n>30) se utiliza la distribución
normal. Cuando es relativa a la media y la muestra es chica (n≤30) se utiliza la
distribución t de student.
Los valores críticos son los valores de la variable de la distribución que limitan
el área crítica, que es la parte de la curva que corresponde al nivel de
significancia.
En este ejemplo el nivel de significancia es de .05, se utiliza la distribución t de
student porque la muestra es pequeña, los valores críticos se encontraron de la
siguiente manera
l área crítica cuando la hipótesis alterna tiene el símbolo ( ≠ ) se divide en dos
y se dice que el problema es de dos colas, y cada cola vale /2. Si la Ha tiene
el signo (<) el problema es de la cola izquierda, si tiene el signo(>) es de la cola
derecha, y en ambos casos la cola vale . ste problema es de dos colas:
190
Paso 3. Calcular el estadístico de prueba
El estadístico de prueba es un valor obtenido de la información de la muestra
para compararlo con el criterio de contraste y rechazar o aceptar la hipótesis. El
estadístico de prueba cambia de acuerdo a la distribución que se utilice. En
este problema el estadístico de prueba es t y se simboliza t*
Supongamos que las colegiaturas de los estudiantes universitarios
entrevistados son las siguientes:
2821 3102 2398 2511 3222
2329 3109 2725 3627 2933
3822 3044 3125 2650 2741
3054 3281 2292 2952 2462
La media y la desviación estándar de la muestra son 2910 y 411.95
respectivamente, se procede enseguida a calcular el error estándar y la t*
Paso 4. Tomar decisión y conclusión
Una regla de decisión es establecer las condiciones sobre las cuales la
hipótesis nula es rechazada o no rechazada. Si el estadístico de prueba queda
dentro de la zona crítica la hipótesis nula deberá ser rechazada. Si el
191
estadístico de prueba queda fuera de la zona crítica la hipótesis nula no
deberá ser rechazada.
En el ejemplo de las colegiaturas, como el estadístico de prueba quedó fuera
de la zona crítica la hipótesis nula no puede ser rechazada. La conclusión
podría ser la siguiente:
“ o hay evidencia suficiente para afirmar que la colegiatura que pagan en
promedio los estudiantes universitarios es diferente de 3000 pesos, en un nivel
de significancia de .05”
DISTRIBUCIÓN T-STUDENT
En probabilidad y estadística, la distribución t-Student es una distribución de
probabilidad que surge del problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra es pequeño.
Una variable aleatoria se distribuye según el modelo de t-Student con n grados
de libertad, donde n es un entero positivo, si su función de densidad es la
siguiente:
f(t)=
)1(2
12
)1(
)2
(
)2
1(
n
n
t
nn
n
, - t ,
0
1)( dxexp xp
siendo p>0
La gráfica de esta función de densidad es simétrica respecto del eje de
ordenadas, con independencia del valor de n, y de forma semejante a la
distribución normal.
192
Propiedades:
7. La media es 0 y su varianza 2n
n
, n>2.
8. La gráfica de la función de densidad es en forma de campana.
9. Los datos están más disperso que la curva normal estándar.
10. A medida que n aumenta, la gráfica se aproxima a la normal N(0,1).
11. La gráfica es muy parecida a la de la normal estándar diferenciándose
en que las colas de t están por encima de la normal, y el centro se
encuentra por debajo del de la normal.
12. Cuando los grados de libertad son altos, los valores de t coinciden con
los de la normal.
EJERCICIOS
1.- El gerente de personal de la empresa P&C quiere estudiar la relación entre
el ausentismo y la edad de sus trabajadores, tomó una muestra aleatoria de 10
trabajadores de la empresa y encontró los siguientes datos.
Edad (años) Ausentismo
(días por año)
25 46 58 37 55 32 41 50 23 60
18 12 8
15 10 13 7 9
16 6
450 552 464 555 550 416 287 450 368 360
625 2116 3364 1369 3025 1024 1681 2500 529
3600
324 144 64
225 100 169 49 81
256 36
313,29 10,89
234,09 32,49
151,29 114,49
2,89 53,29
388,09 299,29
43,56 0,36
11,56 12,96 1,96 2,56
19,36 5,76
21,16 29,16
193
PRIMER MÉTODO
SEGUNDO MÉTODO
194
TERCER MÉTODO
CUARTO MÉTODO
QUINTO MÉTODO
Serie 1
f(x)=-0.25985876*x+22.495969; R²=0.7281
-5 5 10 15 20 25 30 35 40 45 50 55 60 65 70
-20
-10
10
20
30
40
50
x
y
195
2.- El banco de préstamos estudia la relación entre ingreso (X) y de ahorros (Y)
mensuales de sus clientes.
a) Determinar la ecuación lineal de las dos variables.
b) Trace el diagrama de dispersión en el plano cartesiano
c) Estime el ingreso que corresponde a un ahorro semanal de 90 dólares.
d) Si el ahorro es de 200 dólares que gasto puede realizar el obrero en
dicha semana.
e) Si el ingreso es de 350 dólares cual es el salario.
0
50
100
150
200
250
300
350
400
0 200 400 600 800 1000
Títu
lo d
el e
je
Título del eje
Y
Lineal (Y)
196
Desarrollo
Ingresos Ahorros
x Y X Y X2 Y2 (xi-x) (xi-x)2 (yi-y) (yi-y)2
350 100 35000 122500 10000 -283,33 80275,89 -111,11 12345,43
400 110 44000 160000 12100 -233,33 54442,89 -101,11 10223,23
450 130 58500 202500 16900 -183,33 33609,89 -81,11 6578,83
500 160 80000 250000 25600 -133,33 17776,89 -51,11 2612,23
950 350 332500 902500 122500 316,67 100279,89 138,89 19290,43
850 350 297500 722500 122500 216,67 46945,89 138,89 19290,43
700 250 175000 490000 62500 66,67 4444,89 38,89 1512,43
900 320 288000 810000 102400 266,67 71112,89 108,89 11857,03
600 130 78000 360000 16900 -33,33 1110,89 -81,11 6578,83
5700 1900 1388500 4020000 491400 410000 90288,89
Primer caso
X=
Y=
197
3.- Un comerciante mayorista encargo un estudio para determinar la relación
entre los gastos de publicidad semanal por radio y las ventas de sus productos.
En el estudio se obtuvieron los siguientes resultados.
Semana 2 3 4 5 6 7 8 9 10 11
Gasto de Publicidad ($) 30 20 40 30 50 70 60 80 70 80
Venta ($) 300 250 400 - 550 750 630 930 700 840
En la quinta semana por diversos motivos no se pudo hacer el estudio
a) Determine la ecuación de regresión de ventas sobre gastos de
publicidad
X=
Semanas Ingresos Ahorros
x Y xy
2 30 300 9000 900 90000 -25,6 652,80 -294,44 86694,91
3 20 250 5000 400 62500 -35,55 1263,80 -344,44 118638,91
4 40 400 16000 1600 160000 -15,55 241,80 -194,44 37806,91
6 50 550 27500 2500 302500 -5,55 30,80 -44,44 1974,91
7 70 750 52500 4900 562500 14,45 208,80 155,56 24198,91
8 60 630 37800 3600 396900 4,45 19,80 35,56 1264,51
9 80 930 74400 6400 864900 24,45 597,80 335,56 112600,51
10 70 700 49000 4900 490000 14,45 208,80 105,56 11142,91
11 80 840 67200 6400 705600 24,45 597,80 245,56 60299,71
500 5350 338400 31600 3634900 0,05 3822,22 454622,22
198
Y=
199
b. Estime la cosecha si se aplica 12 sacos de fertilizantes.
c. Determina el coeficiente de determinación. De su comentario sobre este
valores
yr= -5,27 + 10,79(30) yr= 318,43
4.- Se obtuvieron los siguientes datos para determinar la relación entre
cantidad de fertilizante y producción de papa por hectárea.
Sacos de fertilizante por hectárea 3 4 5 6 7 8 9 10 11 12
Rendimiento en quintales 45 48 52 55 60 65 68 70 74 76
a) Encuentre la ecuación de regresión de la cosecha sobre el fertilizante,
por el método de mínimos cuadrados.
0
200
400
600
800
1000
0 50 100
Títu
lo d
el e
je
Título del eje
Ahorros Y
Lineal (Ahorros Y)
b. Estime la cosecha si se aplica 12 sacos de fertilizantes ¿Cuánto es el error o
residual?
-76=1.63 es el error.
c. Determina el coeficiente de determinación. De su comentario sobre este
valores
201
5.- El número de horas de estudio invertidas y las calificaciones finales en un
curso de matemáticas de una muestra 10 alumnos ha dado los siguientes
resultados:
Alumno
Horas de estudio 14 16 22 20 18 16 18 22 10 8
Calificación 12 13 15 15 17 11 14 16 8 5
a) Determine la recta de regresión de la calificación sobre el número de
horas de estudio invertidos. Interprete la ecuación de regresión.
Alumno Horas de
Estudio X
Calificación
Y XY
A1 14 12 168 196 -2,40 5,76
A2 16 13 208 256 -0,40 0,16
A3 22 15 330 484 5,60 31,36
A4 20 15 300 400 3,60 12,96
A5 18 17 306 324 1,60 2,56
A6 16 11 176 256 -0,40 0,16
A7 18 14 252 324 1,60 2,56
202
A8 22 16 352 484 5,60 31,36
A9 10 8 80 100 -6,40 40,96
A10 8 5 40 64 -8,40 70,56
–
6.- Sobre la base de una muestra de tamaño 28 se encontró que la ecuación de
regresión muestral de gastos mensuales (Y) sobre tamaño de la familia (X) es:
Además la covarianza de Y con X es igual a 32, y la desviación estándar de Y
es igual a 5,
a) Determine el coeficiente de correlación y analizar la bondad del ajuste
de la línea de regresión con el coeficiente de determinación.
203
7.- Una muestra de 60 de las 350 agencias de ventas de automóviles de una
importadora registrada en un mes con X (autos vendidos por agencia), Y
(ventas en miles de dólares) ha dado los siguientes resultados:
a) Determine la ecuación de regresión:
Ecuación
b) Calcule el coeficiente de terminación ¿Qué porcentaje de la
variación total es explicada por la regresión?
204
8.- Los contadores con frecuencia estiman los gastos generales basados en el
nivel de producción. En la tabla que sigue se da la información recabada sobre
gastos generales y las unidades producidas en 10 plantas y se desea estimar
una ecuación de regresión para estimar gastos generales futuros.
Gastos generales ($) 300 1000 1100 1200 600 800 900 500 400 200
Unidades producidas 15 45 55 75 30 40 45 20 18 10
a) Determine la ecuación de regresión y haga un análisis del coeficiente de
regresión.
205
–
206
9.- Las cantidades de un compuesto químico (Y) que se disuelven en 100
gramos de agua a diferentes temperaturas (X) se registraron en la tabla que
sigue:
X (°C) Y gramos
0 15 30 45 60 75
10 15 27 33 46 50
8 12 23 30 40 52
10 14 25 32 43 53
9 16 24 35 42 54
11 18 26 34 45 55
11,8 15 25
32,8 43,2 52,8
225 180,6
X (°C) Y gramos
0 11,8 0 0 139,24 1406,25 139,24
15 15 225 225 225 225 225
30 25 750 900 625 900 625
45 32,8 1476 2025 1075,84 2025 1075,84
60 43,2 2592 3600 1866,24 3600 1866,24
75 52,8 3960 5625 2787,84 5625 2787,84
207
PRIMER MÉTODO
SEGUNDO MÉTODO
TERCER MÉTODO
208
10.- Una muestra de 60 de las 350 agencias de ventas de automóviles de una
importadora registrada en un mes con X (autos vendidos por agencia), Y
(ventas en miles de dólares) ha dado los siguientes resultados:
Determine la ecuación de regresión:
Ecuación
209
Calcule el coeficiente de terminación ¿Qué porcentaje de la variación total
es explicada por la regresión?
11.- Los contadores con frecuencia estiman los gastos generales basados en el
nivel de producción. En la tabla que sigue se da la información recabada sobre
gastos generales y las unidades producidas en 10 plantas y se desea estimar
una ecuación de regresión para estimar gastos generales futuros.
Gastos generales
($) 300 1000 1100 1200 600 800 900 500 400 200
Unidades
producidas 15 45 55 75 30 40 45 20 18 10
210
N x Y X2 Y2 X Y (xi-x)2 (yi-y)2
1 300 15 90000 225 4500 160000,00 412,09
2 1000 45 1000000 2025 45000 90000,00 94,09
3 1100 55 1210000 3025 60500 160000,00 388,09
4 1200 75 1440000 5625 90000 250000,00 1576,09
5 600 30 360000 900 18000 10000,00 28,09
6 800 40 640000 1600 32000 10000,00 22,09
7 900 45 810000 2025 40500 40000,00 94,09
8 500 20 250000 400 10000 40000,00 234,09
9 400 18 160000 324 7200 90000,00 299,29
10 200 10 40000 100 2000 250000.00 640.09
sumatoria 7000 353 6000000 16249 309700 1100000,00 3788,10
Determine la ecuación de regresión y haga un análisis del coeficiente de
regresión.
–
211
Diagrama de dispersión en el plano cartesiano
PASOS DE UNA PRUEBA DE HIPOTESIS
Primer paso formular la hipótesis nula y la hipótesis alternativa
Hipótesis nula
Ho = β=0
La hipótesis alternativa
Ha= β<0; β>0
Segundo paso determinar si la prueba es unilateral o bilateral
Bilateral
Tercer paso Asumir el nivel se significación de la prueba
99% 2.58
0
10
20
30
40
50
60
70
80
0 200 400 600 800 1000 1200 1400
Series1
212
Cuarto paso determinar la distribución muestral que se usara en la prueba
Quinto paso elaborar el esquema de la prueba
-2.58 +2.58
Sexto paso calcular el estadístico de la prueba
3
213
CONCLUSIONES:
Mediante el presente trabajo he podido conocer y aplicar sobre
regresión, prueba de hipótesis y t-student, además he aprendido sobre
las relaciones que existen entre las variables dentro de un problema.
Con el desarrollo de varios problemas con respecto al tema he podido
practicar y aprender las relaciones existentes: relación infinita, positiva
perfecta, negativa imperfecta, nula etc.
RECOMENDACIONES:
Es de vital ayuda poner en práctica los conocimientos aprendidos ya que
nos servirán dentro de nuestra carrera.
Es necesario identificar el coeficiente de correlación dentro de dos
variables porque estas se aplican dentro del desarrollar un proyecto.
CRONOGRAMA DE ACTIVIDADES
ACTIVIDAD
DIAS
Responsable
Mayo Junio Julio
M 22
V 25
S 26
M 29 V 1 S 2 M 5 V 8 S 9
M 12
V 15
S 16
M 18
V 22
S 23
M 26
V 29
S 30 M 3 M 4 J 5
Recepción de Clases Msc. Jorge P.
Copias del texto Tamara A.
Desarrollo del marco teórico Tamara A.
Desarrollo de los ejercicios Tamara A.
Propuesta de ejercicios Tamara A.
Entrega de Trabajo
Tamara A.
215
BIBLIOGRAFÍA
Rodríguez, María Elene, ÁlvareZ, Sergio y Bravo, Ernesto. 2001. Coeficientes de Asociación.
México : Plaza y Valdés S.A, 2001.
Sabadías, Antonia Vargas. 1995. Estadística Descriptiva e Inferencial. Cuenca : CIDI, 1995.
Williams, Thomas A. 2008. Estadística para Administración y Economía. México : Cengage
Learning Editores S.A, 2008.
ANEXOS
Ejercicio # 1
Dados los siguientes datos referentes a horas trabajadas en una maquila (X), y
a unidades de cobijas producidas (Y), determinar la recta de regresión el
coeficiente de correlación lineal e interpretarlo y resolver por medio de los 5
métodos.
216
PRIMER MÉTODO
SEGUNDO MÉTODO
217
TERCER MÉTODO
CUARTO MÉTODO
QUINTO MÉTODO
218
Ejercicio # 2
Se exporta café ecuatoriano a Japón y según los datos obtenidos en el estudio
de mercado, se puede evidenciar el año en el cual se exporto gran cantidad de
este grano en miles de toneladas.
Serie 1
f(x)=3.4734043*x+31.741135; R²=0.9101
-150 -100 -50 50 100 150 200 250 300 350 400
-100
-50
50
100
150
200
250
300
350
400
450
500
x
y
219
PRIMER MÉTODO
SEGUNDO MÉTODO
220
TERCER MÉTODO
CUARTO MÉTODO
QUINTO MÉTODO
221
Ejercicio # 3
De una población se toma una muestra de 40 observaciones. La media
muestral es de 102 y la desviación estándar 5. De otra población se toma una
muestra de 50 observaciones. La media mustral es ahora 99 y la desviación
estándar es 6. Realice la siguiente prueba de hipótesis usando como nivel de
significancia 0,04.
Ho: u1 = u2
Ho: u1 ≠ u2
a) Es esta una prueba de una o de dos colas?
Esta es una prueba de hipótesis de dos colas
b ) Establezca la regla de decisión
Si Z > que le valor crítico, se rechaza la hipótesis nula y se acepta la
hipótesis alternativa
c) Calcule el valor del estadístico de prueba
Si Z > que el valor crítico, se rechaza la hipótesis nula y se acepta
H1
Serie 1
f(x)=3.4734043*x+31.741135; R²=0.9101
-80 -60 -40 -20 20 40 60 80 100 120 140 160 180 200 220
-50
50
100
150
200
250
x
y
222
d) Cuál es su decisión respecto a la hipótesis nula?
Como su valor calculado Z (2,59) > 2,05; se rechaza la hipótesis nula y se
acepta la hipótesis alternativa
Si Z tabulada es 0,5 - 0,02 = 0,48 este valor en la tabla es 2,05
e) Cuál es el valor p?
Z = 2,59 Area 0,4952
0,5 - 0,4952 = 0,0048 * 2 = 0,0096
Ejercicio # 4
Prueba la hipótesis H0 : p = 0.4
H1 : p 0.4
Presuma que = 0.45, n = 200, y = .01.
Solución:
H0 : p = 0.4
H1 : p 0.4
Usando = .01, el diagrama de la región de rechazo es:
Calculando el valor z para la proporción muestral p = 0.45),
obtenemos:
.005 .005
-2.575 2.575
223
0346.0200
)4.01(4.0
p
Z = 45.10346.0
4.045.0
Dibujando z = 1.45 en el diagrama de la región de rechazo (Paso 2) obtenemos:
Como el valor z está fuera de la región de rechazo (sombreada), por lo tanto no rechazamos Ho.
La proporción en la población es 0.4.
Ejercicio # 5
Suponer una variable aleatoria X para designar el peso de un pasajero de
avión, que se interesa en conocer el peso promedio de todos los pasajeros.
Como hay limitaciones de tiempo y dinero para pesarlos a todos, se toma una
muestra de 36 pasajeros de la cual se obtiene una media muestral = 160
libras. Suponga además que la distribución de los pasajeros tenga una
distribución normal con desviación estándar = 30. Con un nivel de
significancia de .05. ¿ Se puede concluir que el peso promedio de todos los
pasajeros es menor que 170 libras?
Datos
n =36
= 160 libras
= 30
= .05
1. Establecer la hipótesis
Ho: 170
Ha: < 170
X
X
.005 .005
-2.575 2.575
1.45
224
2. Establecer la estadística de prueba
Z =
3. Definir el nivel de significancia y la zona de rechazo
-1.64
Nivel de significancia = .05
Zona de rechazo = { Z/ Z -1.64}
4. Calcular la estadística de prueba
Z = la media poblacional esta bajo la hipótesis nula
entonces tenemos
Hacer liga con nivel de significancia y zona de rechazo
5. Regla de decisión basada en la estadística de prueba
Como -2 es menor que -1.64 la hipótesis nula se rechaza con un nivel de
significancia de 0.05.
6. Conclusión
n
X
n
X
25
10
36
30
170160
Z
225
Así podemos afirmar: que el peso promedio de todos los pasajeros
corresponde a un valor menor de 170 libras con .
Ejercicio # 6
La producción promedio de leche diaria por vaca en la provincia en los meses
de verano ha sido en los años anteriores de 10.1 litro. Este año en una muestra
simple aleatoria de 16 días de los meses de verano se obtuvo una producción
media diaria por vaca de 9.8 litros con una varianza muestral de 1.21. ¿Hay
razón para afirmar que ha variado la producción de leche diaria promedio por
vaca?. Considere distribución normal y = 0.05
Esta es una prueba paramétrica sobre media, ya que de lo que se trata es de
verificar si ha tenido variación la producción diaria promedio de leche por vaca.
La información que nos brinda el problema es la siguiente:
= 10.1 σ² = ? n = 16 x = 9.8 S2 = 1.21 S = 1.1
Estamos en el caso en que se desconoce la varianza poblacional (2 ) y n
30, luego tenemos que trabajar con la distribución t'student, para el cálculo de
la R.C.
1.- Formulación de las hipótesis
Ho: = 10.1
H1: 10.1
Aquí Ho nos expresa que la producción promedio de leche es de 10.1 y H1 que
la producción promedio de leche varió, es decir puede ser mayor ó menor.
2.- Nivel de significación
= 0,05
PRUEBA CHI - CUADRADO
Pruebas Paramétricas. Se llama así a las pruebas de hipótesis que cumplen
tres requisitos fundamentales:
1. La variable de la prueba debe ser la variable cuantitativa.
226
2. Los datos se obtienen por muestreo estadístico.
3. Los datos deben ajustarse a determinadas distribuciones estadísticas.
Ejemplos.
1. La prueba basada en la distribución normal de probabilidades.
2. La prueba de student.
Pruebas No Paramétricas.- llamadas también pruebas de distribución libre.
Son aquellas que:
1. La variable de la prueba puede ser cualitativa o cuantitativa.
2. Los datos se obtienen por muestreo estadístico.
3. Son independientes de cualquier distribución de probabilidad.
Ejemplo.
La prueba de Chi – Cuadrado (también llamada prueba Ji –Cuadrado).
Las pruebas paramétricas son mas poderosas. Sin embargo cuando la variable
es cualitativa, sólo se puede usar las pruebas no paramétricas.
El Estadístico Chi – Cuadrado
En un estadístico que sirve de base para una prueba no paramétrica
denominada prueba chi – cuadrado que se utiliza especialmente para variables
cualitativas, esto es, variables que carecen de unidad y por lo tanto sus valores
no pueden expresarse numéricamente. Los valores de estas variables son
categorías que sólo sirven para clasificar los elementos del universo del
estudio. También puede utilizarse para variables cuantitativas,
transformándolas, previamente, en variables cualitativas ordinales.
El estadísticos chi- cuadrado se define por
En donde:
n= número de elementos de la muestra.
227
n-1= número de grados de libertad
s2= varianza de la muestra
a2= varianza de la población
Desarrollaremos un ejemplo numérico con la finalidad de fijar el concepto de
Chi – cuadrado.
Ejemplo:
En un estudio de la capacidad de aprendizaje de matemáticas, en los niños de
una población, se tomó una muestra representativa de 40 niños. Se les aplicó
una prueba de diagnostico del aprendizaje en matemáticas y con los datos
obtenidos se calculó la varianza s2=8.4, conociendo que la varianza poblacional
es de 2= 12,37, calcular el valor del estadístico chi-cuadrados.
Datos:
n= 40 S2= 8,4 a2= 12,37
Ahora vamos a elaborar el concepto de DISTRIBUCIÓN MUESTRAL DEL
ESTADÍSTICO CHI- CUADRADO.
Supongamos que se realiza los pasos siguientes:
1. De una población de N elementos se extrae todas las muestras posibles
del mismo tamaño n.
2. Con los datos de cada muestra se calcula el estadístico chi – cuadrado.
3. Con todos los valores de Chi – cuadrado se forma una distribución de
frecuencias; éstas se denomina distribución muestral del Chi-cuadrado.
Esta distribución muestral se representa gráficamente en un sistema de
coordenadas, colocando en el eje de abscisas los valores del estadístico Chi-
cuadrado.
228
Cuadrado en el eje vertical se colocan las frecuencias de cada valor del chi-
cuadrado.
El área encerrada bajo la curva y el eje horizontal es igual a uno y representar
la probabilidad de que Chi-cuadrado tome valores mayores que 0.
El área rayada situada a la derecha de la ordenada levantada en la abscisa x2
(gl), representa la probabilidad de cometer el error tipo l en la prueba de chi-
cuadrado. Esta probabilidad es el nivel de significación de la prueba. El valor
x2 (gl) se llama valor crítico del chi-cuadrado y se determina por medio de una
tabla especial, que representa al final del libro el aprendizaje de tablas.
Antes de entrar en el manejo de la tabla debemos tener encuentra que para
una probabilidad dad, por ejemplo =0.05, al aumentar el número de grados de
libertada también aumenta el valor crítico de Chi-cuadrado; esto se ilustra en
las tres figuras siguientes:
229
Este crecimiento del valor crítico se debe a que el aumentar el número de
grados de libertad, la curva de la distribución muestral de Chi-cuadrado tiende
a tomar una forma más extendida y por tanto el punto crítico se desplaza hacia
la derecha.
Descripción y manejo de la tabla.- La tabla de valores críticos de x2 se
encuentra en el apéndice. En la línea horizontal superior encabezando en cada
columna se hayan los valores de .
En la primera columna de la izquierda están los grados de libertad. Los
ejemplos siguientes el manejo de la tabla.
1. Ejemplo:
=0.05 y gl= 4 g de l
A partir de gl=4g de l, dirigimos una visual hacia la derecha hasta cortar a la
visual que baja por =0.05; en la intersección se encuentra el valor crítico
2. Ejemplo:
Si
Hallamos x2 (6)=12.592
3. Ejemplo:
Si
Encontramos x2 (10) = 18.307
230
Con estos 9 valores de la variable de estudio X, vamos a elaborar el cuadro de
frecuencias observadas correspondientes a las 10 categorías establecidas.
Cuadro 11. 3. 2
Intervalos Conteo Frecuencias
Observadas
Menos de 6,26 a 6, 26 IIII - I 6
6 , 26 a 11,62 IIII - I 6
11,62 a 15,51 III 3
15,51 a 18,80 IIII 5
18,80 a 21,96 IIII 4
21,96 a 25,12 IIII - IIII 10
25,12 a 28,41 III 3
28,41 a 32,30 IIII 4
32,30 a 37,66 IIII 4
37,66 a más. IIII 5
A continuación debemos realizar la clasificación y conteo de los 50 datos, es
decir, colocar a cada uno de ellos dentro de su categoría representándolo por
una tarja. La suma de las tarjas de cada clase da la frecuencia observada de
esta clase.
Para facilitar el cálculo del estadístico chi-cuadrado mediante la fórmula
indicada
Agregamos las frecuencias observadas y esperadas en celdas tal como se
presenta a continuación. Recordemos que se fijo la frecuencia esperada de 5
en cada intervalo, luego:
231
Frecuencia observada O, y frecuencia esperada E, en la Prueba Chi-cuadrado
de Bondad de Ajuste.
Ei 5 5 5 5 5 5 5 5 5 5
Oi 6 6 3 5 4 10 3 4 4 5
7) Toma de decisiones
Observamos que este valor de Chi-cuadrado, en el esquema grafico (figura
11.3.5) se ubica en la regresión de aceptación, luego aceptamos esto es,
que la muestra se obtiene de una población distribuida normalmente.
Problema
De una investigación demográfica se conoce que los habitantes de ciertos
países se distribuyen en la forma siguiente: 0- 20 años, 25%; 21 – 40 años,
35%; 41 -61 años, 25%; 61 -80 años, 10%; 81 – 100 años, 5%.
Después de transcurridos varios años se quiso probar que la distribución
poblacional de las edades no ha cambiado para lo que se selecciono una
muestra respectiva de 1000 personas y se observo que las frecuencias de las 5
categorías fueron: 0- 20 años, 200; 21 – 40 años, 300; 41 -61 años, 300; 61 -80
años, 100; 81 – 100 años, 100.
1) la distribución actual por edades es igual a la del año de ejecución
del censo
La distribución actual por edades no es igual a la del año de
ejecución
2) La prueba es unilateral y de cola derecha
3) Nivel de significación a= 0.10
4) Se utiliza la distribución CHI – CUADRADO
232
ESQUEMA DE LA PRUEBA
Existen k= 5 celdas, tenemos gl = K-1 = 5-1=4 grados de libertad a =
0.10 en la tabla de CHI – CUADRADO obtenemos
5) CALCULO DEL ESTADÍSTICO DE LA PRUEBA
200
300
300
100
100
Las frecuencias observadas nos las proporcionan con la muestra aleatoria de
los 1.000 habitantes.
CALCULO DE LAS FRECUENCIAS ESPERADAS
= 1.000 X 25% = 250 = 1.000 X 35% = 350
77.14
7.779
250 350 250 100 50
233
= 1.000 X 25% = 250 = 1.000 X 105% = 100
= 1.000 X 5% = 50
CALCULO DEL ESTADISTICO CHI – CUADRADO
=
+
= 10+7.14+10+0+50
= 77.14
6) TOMA DE DECISIONES
Vemos que el estadístico calculado CHI – CUADRADO (77.14) es mayor
que el valor critico encontrado en la tabla (7.779) vemos que 77.14 cae
en la región de rechazo por lo tanto rechazamos y aceptamos , es
decir la distribución actual por edades no es igual a la de la investigación
demográfica.
CORRECCIÓN DE YATES
Cuando el número de grados de libertad es igual a la unidad, es necesario
realizar una corrección por continuidad durante el cálculo del estadístico de la
234
prueba. Esta corrección se denomina de yates y consiste en disminuir en 0.05
al valor absoluto de la diferencia entre las frecuencias observadas y as
frecuencias esperadas.
El ejemplo siguiente ilustra la aplicación de esta corrección.
PROBLEMA
En el año de 1960, la proporción de hombres y mujeres de cierta institución de
enseñanza superior, fue de 75% y 25%, respectivamente. Con la finalidad de
verificar si el transcurso del tiempo había originado algún cambio en las
proporciones de estudiantes de ambos sexos, en el año de 1970 se tomó una
muestra aleatoria de 100 alumnos de 1º ciclo, obteniendo 60 hombres y 40
mujeres. Con estos datos realizar la verificación por medio de la prueba de CHI
– CUADRADO, asumiendo el nivel de significación de a= 5%.
1) la distribución de hombres y mujeres en el año de 1970 también es
de 75% y de 25% respectivamente
La distribución de hombres y mujeres en el año de 1970 no es del
75% ni del 25% respectivamente
2) La prueba es universal y de cola derecha
3) Nivel de significación a= 0.05
4) Emplearemos la distribución muestral de CHI – CUADRADO
235
5) ESQUEMA DE LA PRUEBA
Existen 2 categorías entonces K= 2 y gl = K – 1 =2-1=1 a= 0.05 con
estos datos vamos a la tabla de CHI – CUADRADO y obtenemos
3.841.
6) CALCULO DEL ESTADÍSTICO DE LA PRUEBA
60
40
OBTENCIÓN DE LOS VALORES ESPERADOS
Valor esperado para los hombres: 100 x 75% = 75
11.21
3.841
75 25
236
Valor esperado para las mujeres: 100 x 25% = 25
CACULO DEL ESTADÍSTICO DE LA PRUEBA
Como gl = 1 utilizaremos la corrección de yates
=2.8+8.41= 11.21
7) TOMA DE DESICIONES
Como el valor de CHI – CUADRADO es de 11.21, mayor que el valor
CHI – CUADRADO afirmamos que 11.21 cae en la región de rechazo,
luego rechazamos la por lo tanto afirmamos que la distribución de
hombres y mujeres no es del 75% ni del 25% respectivamente.
En un estudio realizado en el departamento de investigación del ESAN acerca
del perjuicio étnico hacia el negro. En los universitarios de lima se aplico
Lugar de residencia
Grado de perjuicio
Barriadas Barrios populares
Barrios residenciales
total
237
Una encuesta a los universitarios según su lugar de procedencia, obteniendo
los resultados que presenta la siguiente tabla
Al nivel de significación Q=0.05, determinar que las variables perjuicio étnico
hacia el negro y lugar de residencia son independientes
1. Ho: el perjuicio étnico y el lugar de residencia son independientes
H1: existe dependencia entre las variables.
2. La prueba es unilateral y la cola derecha
3. Asumimos el nivel de significación de Q= 0.05
4. Utilizaremos la distribución muestral de chi-cuadrado porque las dos
variables son cualitativas.
5. Esquema de la prueba
Gl =(C-1) (F-1) 1.1.3.4
Gl =(3-1) (2-1) = 2 11.3.4
Gl= 2
Q= 0.05
X2 = (2) = 5.991
C= # de columnas
F= # de filas
6. Calculo del estadístico de la prueba x= 3.54
5.991
Formula
2
X2= 3.54
Ya conocemos las frecuencias observadas para determinar las frecuencias
esperadas emplearemos la misma tabla, manteniendo invariables de
frecuencias marginales de dos variables
intermedios
Alto 32 225 50 307
Bajo 28 290 79 397
Total 60 515 129 704
238
Lugar de Residencia
Grado de perjuicio
Barriadas Barrios populares
(intermedios)
Barrios residenciales
total
Alto E11 E12 E13 307
Bajo E21 E22 E23 397
Total 60 515 129 704
Cuando las variables X y Y son independientes, las frecuencias de cada celda
son igual al productos de las frecuencias marginales correspondientes dividido
por el tamaño de la muestra.
26.16
32
224.58
225
33.84
28
290.42
290
72.75
79
56.25
50
239
Las frecuencias esperadas y las asociadas determinan las frecuencias
observadas anteriormente
ORGANIZADOR GRÁFICO
UNIVERSIDAD POLITÉCNICA ESTATAL DEL CARCHI
CHI - CUADRADO
SI SE EXTRAEN TODAS LAS MUESTRAS
POSIBLES DE UNA POBLACIÓN NORMAL Y A CADA MUESTRA
SE LE CALCULA SU VARIANZA
LOS VALORES DE X2 SON MAYORES O IGUALES QUE 0.
FORMA DE UNA DISTRIBUCIÓN X2
DEPENDE DEL GL=N-1. EN CONSECUENCIA, HAY UN NÚMERO
INFINITO DE DISTRIBUCIONES X2.
EL ÁREA BAJO UNA CURVA CHI-
CUADRADA Y SOBRE EL EJE HORIZONTAL
ES 1.
240
PROYECTO DE ESTADÍSTICA INFERENCIAL
ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN COMERCIAL
INTERNACIONAL
Tulcán – Ecuador
DOCENTE: MSC. JORGE POZO
INTEGRANTES:
Tamara Liceth Apráez Lima
MARZO 2012- AGOSTO 2012
241
TEMA:
Sistemas informáticos y métodos estadísticos aplicados al comercio
exterior.
PROBLEMA:
La falta de conocimiento de la utilización de los programas spss y Excel
no nos ha permitido aplicar los métodos estadísticos en el contexto del
comercio exterior en cuanto a correlación y regresión lineal, varianza,
prueba de hipótesis, t student, chi cuadrado
OBJETIVOS:
General:
Investigar sobre el correcto manejo de los programas spss y Excel en la
aplicación de problemas relacionados al comercio exterior
Específicos:
Investigar bibliográficamente acerca de SPSS y EXCEL.
Practicar el manejo del SPSS y EXCEL con ejercicios estadísticos
aplicados al comercio exterior.
Analizar los pasos a seguir a través de los programas spss y Excel para
los métodos estadísticos
JUSTIFICACIÓN:
242
El presente trabajo tiene la finalidad de conocer el correcto manejo de los
programas spss y Excel mediante los métodos estadísticos que son
Correlación y Regresión Lineal, Varianza, Prueba de Hipótesis, T - Student,
Chi Cuadrado para dar solución a la problemática del contexto del comercio
exterior.
Al aplicar y utilizar estos programas podremos adquirir más practica en la
informática y en un futuro resolver casos reales del comercio que se pueden
presentar en nuestra vida laboral esto también nos permitirá optimizar el tiempo
empleado en la resolución de los mismos.
Al conocer e investigar acerca de este importante tema comprendemos como
se operan estos programas que son esenciales para enriquecer el
conocimiento estadístico aplicado en la informática y lo cual ha permito que se
determine la varias interrogantes, a través de formulas matemáticas y también
con la utilización de sistemas informáticos los cuales realizan de manera ágil y
rápida las diferentes operaciones planteadas es por eso que este trabajo es de
gran relevancia ya que se podrá determinar a través de un problema del
contexto de comercio exterior como se aplica al programa informático SPSS y
como está compuesto y cuáles son sus usos en la estadística inferencial.
INTRODUCCION
243
La estadística inferencial es necesaria cuando queremos hacer alguna
afirmación sobre más elementos de los que vamos a medir. La estadística
inferencial hace que ese salto de la parte al todo se haga de una manera
“controlada”. Aunque nunca nos ofrecerá seguridad absoluta, sí nos ofrecerá
una respuesta probabilística. Esto es importante: la estadística no decide; sólo
ofrece elementos para que el investigador o el lector decidan. En muchos
casos, distintas personas perciben diferentes conclusiones de los mismos
datos.
El proceso será siempre similar. La estadística dispone de multitud de modelos
que están a nuestra disposición. Para poder usarlos hemos de formular, en
primer lugar, una pregunta en términos estadísticos. Luego hemos de
comprobar que nuestra situación se ajusta a algún modelo (si no se ajusta no
tendría sentido usarlo). Pero si se ajusta, el modelo nos ofrecerá una respuesta
estadística a nuestra pregunta estadística. Es tarea nuestra devolver a la
psicología esa respuesta, llenándola de contenido psicológico.
La estadística descriptiva, como indica su nombre, tiene por finalidad describir.
Así, si queremos estudiar diferentes aspectos de, por ejemplo, un grupo de
personas, la estadística descriptiva nos puede ayudar. Lo primero será tomar
medidas, en todos los miembros del grupo, de esos aspectos o variables para,
posteriormente, indagar en lo que nos interese. Sólo con esos indicadores ya
podemos hacernos una idea, podemos describir a ese conjunto de personas.
MARCO TEORICO
Estadística Inferencial
244
La Estadística inferencial o Inferencia estadística estudia cómo sacar
conclusiones generales para toda la población a partir del estudio de una
muestra, y el grado de fiabilidad o significación de los resultados obtenidos,
(ditutor, 2010).
CORRELACIONES
El concepto de relación o correlación entre dos variables se refiere al grado de
parecido o variación conjunta existente entre las mismas. En este apartado
vamos a estudiar un tipo particular de relación llamada lineal y se limita a
considerar únicamente el caso de dos variables cuantitativas (correlación
simple).
Una relación lineal positiva entre dos variables X e Y significa que los valores
de las dos variables varían de forma parecida: los sujetos que puntúan alto en
X tienden a puntuar alto en Y y los que puntúan bajo en X tienden a puntuar
bajo en Y. Una relación lineal negativa significa que los valores de ambas
variables varían justamente el revés.
Para poder cuantificar el grado de relación lineal existente entre dos variables
cuantitativas, así como medir el grado de ajuste de la nube de puntos a una
recta, vamos a estudiar coeficientes de correlación.
En el procedimiento de Tablas de Contingencia ya se puede obtener el
coeficiente de correlación de Pearson, en este apartado estudiaremos el
procedimiento Correlaciones que incluye tres opciones (1) Bivariadas, para el
estudio de la relación entre dos variables cuantitativas, (2) Parciales, para el
estudio de la relación entre dos variables cuantitativas cuando se controla o
elimina el efecto de terceras variables y (3) Distancias, para el estudio de la
relación entre dos variables cualquiera que sea su nivel de medida.
Correlaciones Bivariadas
245
El procedimiento Correlaciones divariadas ofrece tres tipos de coeficientes: rxy
de Pearson, tau-b de Kendall y rho de Spearman. Para acceder a este
procedimiento, elegir:
Analizar
Correlaciones
Divariadas.
La lista de variables sólo muestra las variables que poseen formato numérico.
Es necesario trasladar al menos dos variables.
Coeficientes de Correlación, pueden seleccionarse uno o más de los tres
siguientes coeficientes:
Pearson: Es una medida de la asociación lineal entre dos variables. Los
valores del coeficiente de correlación van de -1 a 1. El signo del
coeficiente indica la dirección de la relación y su valor absoluto indica la
fuerza. Los valores mayores indican que la relación es más estrecha.
Tau-b de Kendall: Es una medida no paramétrica de asociación para
variables ordinales o de rangos que tiene en consideración los empates.
El signo del coeficiente indica la dirección de la relación y su valor
absoluto indica la magnitud de la misma, de tal modo que los mayores
valores absolutos indican relaciones más fuertes. Los valores posibles
van de -1 a 1, pero un valor de -1 o +1 sólo se puede obtener a partir de
tablas cuadradas.
Spearman: Versión no paramétrica del coeficiente de correlación de
Pearson, que se basa en los rangos de los datos en lugar de hacerlo en
los valores reales. Resulta apropiada para datos ordinales, o los de
intervalo que no satisfagan el supuesto de normalidad. Los valores del
coeficiente van de -1 a +1. El signo del coeficiente indica la dirección de
la relación y el valor absoluto del coeficiente de correlación indica la
fuerza de la relación entre las variables. Los valores absolutos mayores
indican que la relación es mayor.
Prueba de significación. Junto con cada coeficiente de correlación, el Visor
ofrece la información necesaria para contrastar la hipótesis nula de que el
246
valor poblacional del coeficiente es cero. El SPSS permite seleccionar el nivel
crítico deseado:
Bilateral: Probabilidad de obtener resultados tan extremos como el
obtenido, y en cualquier dirección, cuando la hipótesis nula es cierta. Un
nivel de significación bilateral (de dos colas) contrasta una hipótesis
nula en la que la dirección del efecto no se especifica de antemano.
Unilateral: Probabilidad de obtener un resultado tan extremo como el
observado, y en la misma dirección, cuando la hipótesis nula es cierta.
Contrasta la hipótesis nula en la que se especifica con antelación la
dirección del efecto.
REGRESIÓN LINEAL
En estadística la regresión lineal o ajuste lineal es un método matemático que
modela la relación entre una variable dependiente Y, las variables
independientes Xi y un t rmino aleatorio ε
La regresión y la correlación están íntimamente ligados, ambos implican la
relación entre 2 variables y utilizan el mismo conjunto de datos básicos.
La regresión se centra en el uso de la relación para determinar una predicción,
cuando la relación es perfecta, esto es cuando todos los puntos están sobre la
recta y se utilizan para señalar la predicción, la situación se hace más compleja
cuando la relación es imperfecta.
Esta recta es la línea de regresión por los mínimos cuadrados. La distancia
vertical en cada punto y la recta representan el error de la predicción, pareciera
que el error total seria la suma algebraica y- y^'.
El error total de predicción presentado por , es menor para la línea
de regresión por mínimos cuadrados.
FORMULA DE LA REGRESIÓN
247
PRUEBA DE HIPÓTESIS
Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en
parámetro poblacional. Después de recolectar una muestra aleatoria, se
compara la estadística muestral, así como la media (x), con el parámetro
hipotético, se compara con una supuesta media poblacional (). Después se
acepta o se rechaza el valor hipotético, según proceda. se rechaza el valor
hipotético sólo si el resultado muestral resulta muy poco probable cuando la
hipótesis es cierta.
Etapas de la prueba de hipótesis
ETAPA 1.- planear la hipótesis nula y la hipótesis alternativa. la hipótesis nula
(h0) es el valor hipotético del parámetro que se compra con el resultado
muestral resulta muy poco probable cuando la hipótesis es cierta.
ETAPA 2.- especificar el nivel de significancia que se va a utilizar. el nivel de
significancia del 5%, entonces se rechaza la hipótesis nula solamente si el
resultado muestral es tan diferente del valor hipotético que una diferencia de
esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de
1.05 o menos.
ETAPA 3.- elegir la estadística de prueba. la estadística de prueba puede ser la
estadística muestral (el estimador no segado del parámetro que se prueba) o
una versión transformada de esa estadística muestral. Por ejemplo, para probar
el valor hipotético de una media poblacional, se toma la media de una muestra
aleatoria de esa distribución normal, entonces es común que se transforme la
media en un valor z el cual, a su vez, sirve como estadística de prueba.
Consecuencias de las decisiones en pruebas de hipótesis.
ETAPA 4.- establecer el valor o valores críticos de la estadística de prueba.
Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística
de prueba que se van a utilizar, se produce a establecer el o los valores críticos
de estadística de prueba. puede haber uno o más de esos valores,
dependiendo de si se va a realizar una prueba de uno o dos extremos.
248
ETAPA 5.- determinar el valor real de la estadística de prueba. por ejemplo, al
probar un valor hipotético de la media poblacional, se toma una muestra
aleatoria y se determina el valor de la media muestral. si el valor crítico que se
establece es un valor de z, entonces se transforma la media muestral en un
valor de z.
ETAPA 6.- tomar la decisión. se compara el valor observado de la estadística
muestral con el valor (o valores) críticos de la estadística de prueba. Después
se acepta o se rechaza la hipótesis nula. si se rechaza ésta, se acepta la
alternativa; a su vez, esta decisión tendrá efecto sobre otras decisiones de los
administradores operativos, como por ejemplo, mantener o no un estándar
de desempeño o cuál de dos estrategias de mercadotecnia utilizar.
La distribución apropiada de la prueba estadística se divide en dos regiones:
una región de rechazo y una de no rechazo. si la prueba estadística cae en
esta última región no se puede rechazar la hipótesis nula y se llega a la
conclusión de que el proceso funciona correctamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el
valor crítico en la distribución estadística que divide la región del rechazo (en la
cual la hipótesis nula no se puede rechazar) de la región de rechazo. a hora
bien el valor crítico depende del tamaño de la región de rechazo.
Pasos de la prueba de hipótesis
1. expresar la hipótesis nula
2. expresar la hipótesis alternativa
3. especificar el nivel de significancia
4. determinar el tamaño de la muestra
5. establecer los valores críticos que establecen las regiones de rechazo de
las de no rechazo.
6. determinar la prueba estadística.
7. coleccionar los datos y calcular el valor de la muestra de la prueba
estadística apropiada.
8. determinar si la prueba estadística ha sido en la zona de rechazo a una de
no rechazo.
9. determinar la decisión estadística.
249
10. expresar la decisión estadística en términos del problema.
Conceptos básicos para el procedimiento de pruebas de hipótesis.
HIPÓTESIS ESTADÍSTICA:
Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la
población aplicada.
Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las
poblaciones.
HIPÓTESIS NULA.
En muchos casos formulamos una hipótesis estadística con el único propósito
de rechazarla o invalidarla. así, si queremos decidir si una moneda está
trucada, formulamos la hipótesis de que la moneda es buena (o sea p = 0,5,
donde p es la probabilidad de cara).
Analógicamente, si deseamos decidir si un procedimiento es mejor que otro,
formulamos la hipótesis de que no hay diferencia entre ellos (o sea. que
cualquier diferencia observada se debe simplemente a fluctuaciones en
el muestreo de la misma población). tales hipótesis se suelen llamar hipótesis
nula y se denotan por ho.
Para todo tipo de investigación en la que tenemos dos o más grupos, se
establecerá una hipótesis nula.
La hipótesis nula es aquella que nos dice que no existen diferencias
significativas entre los grupos.
Una hipótesis nula es importante por varias razones:
Es una hipótesis que se acepta o se rechaza según el resultado de la
investigación.
El hecho de contar con una hipótesis nula ayuda a determinar si existe una
diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al
azar.
250
No toda investigación precisa de formular hipótesis nula. Recordemos que la
hipótesis nula es aquella por la cual indicamos que la información a obtener es
contraria a la hipótesis de trabajo.
Al formular esta hipótesis, se pretende negar la variable independiente. es
decir, se enuncia que la causa determinada como origen del problema fluctúa,
por tanto, debe rechazarse como tal.
HIPÓTESIS ALTERNATIVA.
Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. por
ejemplo: si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p
" 0,5 ó p > 0,5.
Una hipótesis alternativa a la hipótesis nula se denotará por h1.
al responder a un problema, es muy conveniente proponer otras hipótesis en
que aparezcan variables independientes distintas de las primeras que
formulamos. por tanto, para no perder tiempo en búsquedas inútiles, es
necesario hallar diferentes hipótesis alternativas como respuesta a un
mismo problema y elegir entre ellas cuáles y en qué orden vamos a tratar su
comprobación.
Las hipótesis, naturalmente, serán diferentes según el tipo de investigación que
se esté realizando. en los estudios exploratorios, a veces, el objetivo de la
investigación podrá ser simplemente el de obtener los mínimos conocimientos
que permitan formular una hipótesis. también es aceptable que, en este caso,
resulten poco precisas, como cuando afirmamos que "existe algún tipo de
problema social en tal grupo", o que los planetas poseen algún tipo
de atmósfera, sin especificar de qué elementos está compuesto.
ERRORES DE TIPO I Y DE TIPO II.
Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha
cometido un error de tipo i.
Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos
que se cometió un error de tipo ii.
En ambos casos, se ha producido un juicio erróneo.
251
Para que las reglas de decisión (o no contraste de hipótesis) sean buenos,
deben diseñarse de modo que minimicen los errores de la decisión; y no es una
Cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de
disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo.
En la práctica, un tipo de error puede ser más grave que el otro, y debe
alcanzarse un compromiso que disminuya el error más grave.
La única forma de disminuir ambos a la vez es aumentar el tamaño de la
muestra que no siempre es posible.
NIVELES DE SIGNIFICACIÓN.
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos
dispuesto a correr el riesgo de cometerán error de tipo i, se llama nivel de
significación.
Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la
muestra, de manera que los resultados obtenidos no influyan en nuestra
elección.
En la práctica, es frecuente un nivel de significación de 0,05 ó 0,01, si bien se
une otros valores. si por ejemplo se escoge el nivel de significación 0,05 (ó 5%)
al diseñar una regla de decisión, entonces hay unas cinco (05) oportunidades
entre 100 de rechazar la hipótesis cuando debiera haberse aceptado; es decir,
tenemos un 95% de confianza de que hemos adoptado la decisión correcta. en
tal caso decimos que la hipótesis ha sido rechazada al nivel de significación
0,05, lo cual quiere decir que tal hipótesis tiene una probabilidad 0,05 de ser
falsa.
252
Como en general estas pruebas se aplican a dos muestras, se denominarán a
y b para referirse a ellas, así entenderemos por:
na al número de elementos de la muestra a
nb al número de elementos de la muestra b
xb al promedio de la muestra b
s2a la varianza de la muestra a
y así sucesivamente
Entonces se pueden distinguir 6 casos a saber:
1. caso de muestras grandes (n>30)
2. caso de na = nb y s2a = s2b
3. caso de na = nb y s2a <> s2b
4. caso de na <> nb y s2a = s2b
5. caso de na <> nb y s2a <> s2b
6. caso de variables dependientes
Cuando las muestras a probar involucran a más de 30 observaciones.
DISTRIBUCIÓN T-STUDENT
En probabilidad y estadística, la distribución t (de Student) es una distribución
de probabilidad que surge del problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la
determinación de las diferencias entre dos medias muestrales y para la
construcción del intervalo de confianza para la diferencia entre las medias de
dos poblaciones cuando se desconoce la desviación típica de una población y
ésta debe ser estimada a partir de los datos de una muestra.
253
Función de densidad de probabilidad
Usos
Entre los usos más frecuentes de las pruebas t se encuentran:
• El test de locación de muestra única por el cual se comprueba si la
media de una población distribuida normalmente tiene un valor especificado en
un hipótesis nula.
• El test de locación para dos muestras, por el cual se comprueba si las
medias de dos poblaciones distribuidas en forma normal son iguales. Todos
estos test son usualmente llamados test t de Student, a pesar de que
estrictamente hablando, tal nombre sólo debería ser utilizado si las varianzas
de las dos poblaciones estudiadas pueden ser asumidas como iguales; la
forma de los test que se utiliza cuando esta asunción se deja de lado suele ser
llamada a veces como Prueba t de Welch. Estas pruebas suelen ser
comúnmente nombradas como pruebas t desapareadas o de muestras
independientes, debido a que tienen su aplicación más típica cuando las
unidades estadísticas que definen a ambas muestras que están siendo
comparadas no se superponen.5
• El test de hipótesis nula por el cual se demuestra que la diferencia entre
dos respuestas medidas en las mismas unidades estadísticas es cero. Por
ejemplo, supóngase que se mide el tamaño del tumor de un paciente con
cáncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de
muchos pacientes disminuyera de tamaño luego de seguir el tratamiento. Esto
con frecuencia es referido como prueba t de mediciones apareadas o
repetidas.5 6
254
• El test para comprobar si la pendiente de una regresión lineal difiere
estadísticamente de cero.
CHI CUADRADO
La prueba o test chi-cuadrado es considerada como una prueba no paramétrica
que mide la discrepancia entre una distribución observada y una observación
teórica (bondad de ajuste), indicando en qué medida las diferencias existentes
entre ambas, de haberlas, se deben al azar en el contraste de hipótesis.
También se utiliza el test chi-cuadrado para probar la homogeneidad entre dos
poblaciones o independencia de dos variables entre sí, mediante la
presentación de datos dados en tablas de contingencia.
Es decir:
a) Chi-cuadrado de bondad de ajuste o significancia: para comprobar si los
datos se ajustan a una distribución concreta.
b) Chi-cuadrado de homogeneidad: para ver si dos muestras
provienen de una misma población o una población con una misma
familia de distribución (los datos vienen dado en una tabla de
contingencia).
c) Chi cuadrado de independencia: para comprobar si dos
muestras son independientes (los datos vienen en una tabla
de contingencia).
255
PROGRAMA SPSS STADISTC
INSTALAR EL PROGRAMA SPSS
Antes de realizar la instalación del programa, es necesario revisar que nuestro
equipo cumpla con todos los requisitos para la ejecución del paquete, de
manera que no se presenten conflictos en el equipo durante la instalación o en
la ejecución del programa. El Hardware y el Software mínimos necesarios para
ejecutar SPSS 12.0 para Windows son los siguientes:
Microsoft® Windows Me, Windows 98, Windows XP, Windows 2000, o
Windows NT® 4.0 Service Pack.
Procesador Pentium o de tipo Pentium.
128 MB o más de memoria de acceso aleatorio.
220 MB de espacio libre en disco duro.
Unidad de CD ROM.
Adaptador gráfico con una resolución mínima de 800 X 600 (SVGA).
256
Para la conexión con un servidor SPSS, es necesario un adaptador de
red que ejecute el protocolo de red TCP/IP.
Además de estos requisitos técnicos, también necesitaremos el número de
serie y los códigos de licencia para cada uno de los módulos del paquete, los
cuales deben ser proporcionados por el proveedor local del programa. Después
de comprobar que se cumplen todos los requisitos podemos iniciar la
instalación. Para instalar el programa SPSS 12.0 para Windows, debemos
situarnos en el escritorio (Vista inicial del sistema operativo) e ingresar en la
unidad de CD ROM del ordenador el CD que nos proporciona el proveedor del
paquete. El programa de instalación de SPSS cuenta con una rutina de
AUTORUN, por lo que de forma automática emerge en la pantalla del
ordenador la ventana de instalación.
Figuras 1-0 y 1-1
En esta ventana aparecen todas las opciones de instalación del paquete, entre
las que encontramos Instalar SPSS, Instalar SmartViewer (nos permite abrir los
resultados generados por SPSS en los ordenadores que no cuentan con el
programa), Data Access Pack (Instala los controladores ODBC para una gran
gama de programas de bases de datos), Internet Explorer 6.0 (Necesario para
navegar en Internet) y Adobe Acrobat Reader 5.0 (Necesario para acceder a
las ayudas o los manuales del programa que aparecen en formato PDF).
Si por algún motivo no aparece de forma automática la ventana de instalación,
debemos abrirla mediante el Explorador de Windows, por lo que hacemos
doble clic sobre el icono Mi PC en el escritorio; al aparecer la ventana de
exploración, seleccionamos la unidad de CD-ROM de manera que aparezca en
257
la ventana el contenido del CD [Fig.1-2]. Para iniciar la instalación hacemos
doble clic sobre el archivo Setup con lo que aparece la ventana de la figura
anterior.
Figuras 1-2
Es importante resaltar, que antes de iniciar la copia de los archivos del
programa, es necesario cerrar todas las aplicaciones que se encuentren
abiertas o de lo contrario podría presentarse algunos inconvenientes en la
instalación. Para instalar el programa debemos seleccionar en el menú
principal la opción Instalar SPSS, de modo que el programa comienza los
preparativos activando el asistente InstallShield® [Fig.1-4], el cual nos guiará
durante todo el proceso de instalación, a través de una serie de múltiples
pantallas y cuadros de diálogo. Al terminar de cargar el asistente aparece la
ventana de Bienvenida.
258
Figuras 1-3 y 1-4
Para continuar con la instalación debemos hacer clic en el botón Siguiente, con
lo que aparece la ventana del Contrato de licencia [Fig.1-6]; en esta ventana se
encuentra el contrato que se establece entre la compañía y el usuario al
momento de instalar el programa en el ordenador.
A través de este contrato se reconoce los derechos de autor de la compañía y
se aceptan los términos legales que conlleva la instalación del programa. Para
poder continuar es necesario seleccionar la opción “Acepto los términos del
contrato de licencia” y hacer sucesivamente clic en Siguiente con lo que
aparece la ventana Información Léeme [Fig.1-7]. En esta ventana encontramos
toda la información del paquete, incluyendo las instrucciones de instalación, las
limitaciones del programa y los posibles problemas que se pueden presentar
durante la ejecución del programa.
Figuras 1-5 y 1-6
El SPSS es un programa de análisis estadístico fácil de utilizar y con gran
capacidad operativa. Permite analizar datos almacenados en diversos formatos
y generar documentos con alta calidad de presentación.
EDITOR DE DATOS
Al instalar el programa se crean, automáticamente, los siguientes iconos que
aparecen en la barra Programas de Windows.
259
El icono SPSS 10.0 para Windows da acceso al programa. Seleccionándolo
con el cursor se entra en el programa y aparece la ventana Editor de datos.
Figuras 1-7
La ventana Editor de datos permite gestionar la entrada, lectura,
transformación, importación y almacenaje de ficheros de datos.
El editor está formado por un conjunto de filas y columnas en las que se
visualizan los datos del archivo activo. Las columnas recogen las variables del
archivo, las filas los individuos o elementos observados y las celdas los valores.
Además el editor presenta las siguientes barras:
1. Barra de menú del editor.
260
• Archivo: presenta los procedimientos relacionados con la lectura, impresión y
almacenaje de archivos.
• Edición: contiene las opciones de copiar, mover y pegar del entorno Windows.
• Ver: modifica la visualización de las barras y pantalla.
• Datos: permite definir variables y modificarlas bien temporalmente o bien de
manera definitiva; en este caso se deberá salvar el archivo antes de finalizar la
sesión.
• Tranformar: permite definir, temporalmente o de manera definitiva, nuevas
variables a partir de las existentes.
• Analizar: recoge los procedimientos estadísticos.
• Gráficos: permite la creación, modificación y edición de una amplia gama de
gráficos.
• Utilidades: informa sobre las características de los archivos de datos.
• Ventana: presenta las opciones de ventana del entorno Windows.
• ?: Permite consultar la ayuda o el tutorial.
2. Barra de herramientas. Contiene un conjunto de iconos que dan acceso
directo a algunos procedimientos.
• Los tres primeros iconos activan las opciones abrir, guardar e imprimir,
respectivamente, del menú Archivo y permiten, tal como indican sus nombres,
abrir, almacenar e imprimir el archivo de datos.
• Da acceso a los últimos cuadros de diálogo utilizados.
• Deshace la última modificación.
• Permite ir a un gráfico determinado.
• Desplazan el cursor a la fila (n\circ de individuo o elemento muestral) o
a la columna (variable) indicada, respectivamente.
• Busca, en la variable seleccionada, un dato.
261
• Añaden una fila (elemento) o una columna (variable), respectivamente.
• El primero segmenta el archivo, el segundo permite activar un
criterio de ponderación y el tercero selecciona casos a analizar.
• Muestra u oculta las etiquetas de los valores de las variables.
• Permite usar conjuntos de variables previamente definidos.
3. Barra de estado. Se encuentra en la parte inferior de la pantalla e indica el
estado actual del proceso, el número de elementos que se están procesando,
las iteraciones realizadas y los filtrados, ponderaciones o segmentaciones
activados.
Para continuar hacemos clic en Siguiente surgiendo la ventana Información del
cliente [Fig.1-8]. A través de esta ventana se define el nombre del usuario y/o la
empresa a la que corresponde la licencia. En las versiones anteriores de
SPSS, se incluye una tercera casilla en la que se debe ingresar el número de
serie del CD-ROM.
Una vez se ingresan los datos en cada una de las respectivas casillas,
hacemos clic en Siguiente con lo que aparece la ventana Carpeta destino
[Fig.1-9]; en esta ventana podemos especificar la unidad y la carpeta en la que
deseamos que se instalen los componentes del programa. Por defecto el
programa define la unidad C: y la carpeta Archivos de programa como la
ubicación ideal para la instalación de los componentes, si se desea definir otra
ubicación, debemos hacer clic en el botón Cambiar y emplear la ventana de
navegación para definir el destino.
Figuras 1-8 y 1-9
262
Para continuar hacemos clic en Siguiente de manera que surge la ventana
Información de licencia [Fig.1-10]. En esta ventana debemos ingresar los
códigos de licencia para cada uno de los módulos del paquete (Básico,
Estadísticas Profesionales, Tablas, Tendencias, Categorías, Conjoint, Pruebas
Exactas, Estadísticas Avanzadas, Valores Perdidos, Mapas y Complex
Simples). Cada uno de los códigos de licencia debe ser introducido en la casilla
Código y sucesivamente hacer clic en Actualizar.
A medida que se actualizan los códigos, aparece en la casilla de selección
situada en la parte inferior de la ventana, la confirmación de los módulos que
serán instalados en el ordenador. Una vez se han ingresado los códigos de
licenciamiento para los módulos y aparece en la casilla la confirmación de la
licencia, hacemos clic en Siguiente con lo que aparece la ventana Tipo de
Instalación [Fig.1-11].
Figuras 1-10 y 1-11
En esta ventana podemos seleccionar el tipo de instalación que deseamos
realizar (Completa o Personalizada). Al contrario de las versiones anteriores del
programa, el tipo de instalación personalizada nos permite omitir algunos de los
componentes del programa, mientras la instalación completa instala la totalidad
de los componentes, por lo que requiere de una mayor capacidad de disco; es
decir, los 220 MB expuestos en las especificaciones.
Una vez seleccionado el tipo de instalación Completa, hacemos clic en
Siguiente emergiendo la ventana Preparado para instalar el programa [Fig.1-
12]. Esta ventana nos informa que se ha definido satisfactoriamente todos los
parámetros de licenciamiento y a su vez nos advierte que si deseamos
rectificar alguno de los datos definidos en los pasos anteriores, debemos
realizarlo haciendo clic en el botón Atrás. Si estamos seguros de los datos
263
definidos, hacemos clic en Instalar dando inicio a la copia de archivos [Fig.1-
13]. El proceso de instalación puede durar varios minutos y depende de la
cantidad de módulos que se hayan definido.
Figuras 1-12 y 1-13
Una vez se terminan de instalar todos los componentes (archivos) de los
diferentes módulos, aparece la ventana de confirmación de la instalación [Fig.1-
14]. En esta ventana aparece la opción de registro en línea, por medio de la
cual se envía un mensaje de instalación a la compañía fabricante del Software.
Si no deseamos realizar el registro del producto o simplemente lo queremos
hacer más tarde, debemos desactivar la casilla que aparece al costado
izquierdo de la opción, haciendo clic sobre ella de manera que desaparezca el
visto bueno. Para dar por terminada la instalación del programa hacemos clic
en el botón Finalizar, cerrando el asistente de instalación y apareciendo el
mensaje de la figura [1-15]. Este mensaje nos informa que debemos reiniciar el
sistema operativo para que se actualice la configuración de los archivos del
sistema.
Figura 1-14
264
Figura 1-15
Para finalizar la instalación hacemos clic en el botón Si, de manera que se
reinicia el sistema y se actualiza la configuración. Una vez se carga
nuevamente el sistema operativo, estamos listos para iniciar a trabajar con el
paquete estadístico SPSS 12.0.
INTRODUCCIÓN AL SPSS
Para ingresar al programa, tenemos dos opciones; la primera es mediante el
acceso directo ubicado en el Escritorio (Si lo hay) y la segunda es mediante la
ruta Inicio.. Programas.. SPSS para Windows.. SPSS 12.0 para Windows
[Fig.1-16].
Figura 1-16
Al iniciar el programa se abre automáticamente el Asistente de inicio [Fig.1-17];
a través de este asistente podemos comenzar a trabajar con SPSS de seis
diferentes maneras; entre las que encontramos Ejecutar el tutorial, Introducir
datos (Crear nuevo archivo), Ejecutar una consulta creada anteriormente
(Importar los datos de una archivo de base de datos), Crear una nueva
consulta mediante el asistente de base de datos (Definir los parámetros de
ubicación y nombre de un archivo de Base de datos), Abrir una fuente de datos
265
existente (Esta opción cuenta con una casilla en su parte inferior, en donde
aparecen todos los archivos de datos que se hayan utilizado con anterioridad
en el programa; si es la primera vez que se abre el programa desde su
instalación sólo aparece la opción Más archivos, la cual al ser elegida abre una
ventana de navegación para la ubicación del archivo).
La última opción que aparece en el asistente corresponde a Abrir otro tipo de
archivo; a través de esta opción podemos ubicar y abrir cualquier tipo de
archivo de SPSS distinto al de datos. Para seleccionar alguna de las opciones
basta con hacer clic sobre ella de manera que aparezca un punto en la casilla
de activación ( ). A pesar de la utilidad que nos brinda el asistente, el
programa nos da la posibilidad de decidir si queremos que aparezca el
asistente cada vez que se ejecute el programa o no. Para desactivar el
asistente debemos activar la opción No volver a mostrar este cuadro de
diálogo, ubicada en la parte inferior del asistente.
Figuras 1-17
Antes de continuar es necesario aclarar los tipos de archivos que genera
SPSS, los cuales son:
Archivos de Datos: son los archivos generados por el sistema (SPSS),
en los cuales se almacena la información (casos y variables) que se
haya creado en el editor o se haya importado de otras fuentes. Este tipo
de archivo se genera con la extensión (*.sav).
266
Archivos de resultados: son los archivos generados por el sistema, en
los cuales se plasman todos los resultados de los procesos que se han
realizado con el paquete (Tablas, Gráficos, Estadísticos, etc). Este tipo
de archivo se identifica con la extensión (*.spo).
Archivos de sintaxis: este tipo de archivos contienen las líneas de código
o palabras clave de cada uno de los procedimientos que se hayan
realizado con el paquete (Frecuencias, Gráficos, etc.). Este tipo de
archivo se identifica con la extensión (*.sps).
Desde luego SPSS nos permite trabajar con un gran número de formatos de
archivo, provenientes de diferentes programas de bases de datos, hojas de
cálculo, procesadores de palabras e incluso generadores de gráficos.
Para continuar seleccionamos la opción Abrir una fuente de datos existente y
sucesivamente hacemos clic en Aceptar, surgiendo la ventana de exploración
de Windows [Fig.1-18]. A través de esta ventana, podemos ubicar de forma
rápida y sencilla un archivo dentro del ordenador o la red. Por defecto la
ventana de exploración se ubica en la carpeta SPSS ubicada en la unidad [C:];
en esta carpeta se encuentran todos los archivos de muestra que se incluyen
con el programa, los cuales son nombrados en la mayoría de los tutoriales del
paquete.
Figuras 1-18 y 1-19
En nuestro caso vamos a ubicar el archivo Cap1.sav, el cual se encuentra en la
carpeta Capítulo 1 del CD adjunto al libro. Si aun no has ingresado el CD, es
necesario que lo insertes en la unidad de CD-ROM del ordenador antes de
iniciar la ubicación del archivo. Una vez se ingresa el CD adjunto, ubicamos a
través de la casilla Buscar en la unidad de CD-ROM (Libro de SPSS [E:]); al
267
seleccionar la unidad, aparecen en la ventana todas las carpetas de contenido
que se incluyen en el CD adjunto. En la ventana localizamos la carpeta
Capítulo 1 y hacemos doble clic sobre ella de manera que aparezca en la
ventana el archivo Cap1 [Fig.1-19]. Para finalizar seleccionamos el archivo y
sucesivamente hacemos clic en Abrir, de manera que la información contenida
en el archivo es representada en el Editor de datos [Fig.1-20].
Figuras 1-20
EDITOR DE DATOS DE SPSS
Esta es la ventana principal del programa, en ella se encuentra la mayoría de
los procedimientos que se pueden realizar con el paquete, así como los
accesos directos a las opciones de los diferentes módulos. Además esta es la
única ventana del programa en la que podemos apreciar la información (Casos
y Variables) en su estado original (Desagrupado). El Editor de datos esta
compuesto por cinco secciones, cada una de las cuales nos ofrece opciones e
información diferente. Los componentes del editor de datos son:
Barra de Menús
268
Como la mayoría de los programas basados en el sistema operativo Windows,
el Editor de datos de SPSS cuenta con una barra de menús desplegables, en
donde se encuentran las diferentes opciones, procedimientos y aplicaciones
que se pueden ejecutar con el programa. En SPSS se cuenta con diez
diferentes menús desplegables [Fig.1-21]; dentro de los que encontramos
Archivo, Edición, Ver, Datos, Transformar, Analizar, Gráficos, Utilidades,
Ventana y Ayuda (?).
Figuras 1-17
Las opciones y procedimientos de los menús Archivo, Edición y Ver, están
orientados a las propiedades de Editor de datos. Las opciones y
procedimientos de los menús Datos y Transformar se enfocan a las
propiedades y modificación de los datos (Casos o variables) del archivo que se
encuentre abierto. Los procedimientos de los menús Analizar y Gráficos se
encaminan en la descripción y análisis de los datos a través de pruebas
estadísticas o gráficos representativos. El menú Utilidades en cambio se
orienta a la generación y ejecución de los procesos automáticos; es decir, sus
opciones y procedimientos se emplean en la utilidad de producción. Por último
aparecen los menús Ventana y Ayuda (?), los cuales como su nombre lo indica
se orientan a las opciones de ventana y las ayudas del paquete. El contenido
de cada uno de estos menús se irá explorando a través de los capítulos del
libro.
Barra de Herramientas
En esta barra se encuentran los botones de acceso directo a los
procedimientos más comúnmente utilizados del programa. Los procedimientos
de esta barra pueden ser modificados por el usuario de acuerdo a su criterio y
necesidades; permitiéndole personalizar su contenido. Por defecto el programa
incluye dentro de la barra de herramientas los procedimientos:
Abrir Archivo ( ), Guardar archivo ( ) e Imprimir ( ): Al seleccionar
(Hacer clic) el botón Abrir archivo, aparece la ventana de exploración de
269
Windows por medio de la cual podemos ubicar un archivo en el ordenador
(Sólo admite algunos tipos de formato [Ver Tipos de archivo en la ventana de
exploración]). Al seleccionar Guardar archivo, los cambios que se hayan
realizado en el editor de datos al archivo activo (Abierto), son guardados. Al
seleccionar Imprimir, se abre la ventana de impresión de Windows; a través de
esta opción se imprime el contenido del archivo de datos; es decir, los casos y
las variables. Esta opción sólo es útil si el número de datos es muy pequeño.
Recuperar cuadro de diálogo ( ): Este botón nos permite acceder de forma
rápida a los últimos procedimientos que hayamos efectuado en SPSS; es decir,
nos muestra los diferentes cuadros de diálogo (ventanas) que se hayan
ejecutado (Empleado) con anterioridad en el programa, como frecuencias,
gráficos, tablas, etc. Al seleccionar esta opción se despliega una lista con el
nombre de los procedimientos que se han realizado [Fig.1-22]; si elegimos
alguna de ellas (Hacer clic), aparecerá el cuadro de diálogo del procedimiento.
Figuras 1-22
Deshacer ( ) y Rehacer ( ): Este par de iconos también son comunes en
la mayoría de los programas de Windows, con la diferencia que en SPSS, sólo
nos permite deshacer o rehacer la última acción y solamente una. Para que se
activen estos botones, se debe realizar alguna operación en el Editor de datos
(Cortar, copiar, eliminar, etc.).
Ir a gráfico ( ): Este icono nos permite ir rápidamente al último gráfico
realizado durante la sesión actual de SPSS; al seleccionarlo aparece la
ventana de resultados y nos enseña el gráfico.
Ir a caso ( ): Como su nombre lo indica nos permite ir a un caso específico
dentro del archivo de datos activo; es decir, nos ubica en la posición donde se
encuentra el caso. Al seleccionar esta opción aparece la ventana
270
correspondiente [Fig.1-23]; en este cuadro debemos ingresar el número del
caso que nos interesa ubicar.
Figuras 1-23
Variables ( ): a través de esta opción podemos obtener la información
(Propiedades) que se haya definido para cada una de las variables del archivo
activo. Cuando seleccionamos este icono se abre un nuevo cuadro de diálogo
[Fig. 1-24], en el cual nos muestra toda la información de cada una de las
variables (el nombre, la etiqueta, si hay o no valores perdidos, el nivel de
medida, los valores y las etiquetas de cada valor).
Figura 1-24
Si se desea observar la información de otra variable, basta con señalarla en la
lista de variables (Hacer clic) y la información de ella aparece dentro de la
casilla del cuadro de diálogo. Este botón es de bastante utilidad cuando se
desconoce el contenido de los datos o sencillamente se nos olvida el contenido
y estamos realizando análisis con los procedimientos del programa.
BARRA DE HERRAMIENTAS DE SPSS
271
Buscar ( ): A través de este icono podemos ubicar un valor dentro de una
variable; es decir, nos permite encontrar un número o una combinación de
caracteres dentro de los registros de una variable. Dado que generalmente se
utilizan números para representar las categorías de las variables (Por ejemplo:
hombre = 0 y mujer =1) y las bases de datos poseen múltiples variables, sería
ilógico esperar que la búsqueda se realice en todo el archivo.
Al seleccionar el procedimiento Buscar, aparece un nuevo cuadro de diálogo
[Fig.1-25]; para identificar la variable en la que se realizará la búsqueda, el
cuadro adiciona en la parte superior la frase “Buscar datos en la variable ***”
(donde *** = nombre de la variable). Para seleccionar una variable se debe
hacer clic sobre ella directamente en el editor de datos, de manera que el
nombre de la variable en la frase cambie por el de la variable seleccionada.
Figuras 1-25
Si nos fijamos en el cuadro de diálogo Buscar datos, notaremos que aparece
en la parte inferior del cuadro la opción Coincidir mayúsculas y minúsculas;
esta opción nos permite especificarle al programa que realice la búsqueda de
forma más exacta; desde luego esta opción sólo es aplicable a las variables
272
que tengan caracteres alfanuméricos (Letras). Por último encontramos el botón
Buscar siguiente; a través de este botón podemos pasar de un caso o registro
encontrado, que coincida con las condiciones de búsqueda, al siguiente.
Insertar caso ( ) e Insertar variable ( ): Como su nombre lo indica, estas
dos opciones nos permiten ingresar un nuevo Caso o Variable. Al seleccionar
la opción Ingresar caso, el programa nos permite ingresar los valores del caso
para cada una de las variables del archivo. Si por el contrario seleccionamos la
opción Insertar variable, el programa nos permite ingresar una nueva variable o
pregunta para los casos del archivo de datos activo.
Segmentar archivo ( ): Este icono nos permite dividir nuestra base de
datos (Archivo activo) en distintos grupos de acuerdo a la variable que
utilicemos para la segmentación. Al seleccionar esta opción, se abre un nuevo
cuadro de diálogo [Fig.1-26]; en el que encontramos tres diferentes opciones
de segmentación. La primera opción del cuadro es Analizar todos los casos, no
crear los grupos; esta opción nos permite trabajar con todos los casos de la
base y calcular los resultados de los estadísticos empleando la totalidad de los
casos u observaciones.
La segunda opción corresponde a Comparar los grupos; esta opción nos
permite comparar los resultados de los procedimientos que se realicen con el
programa para las categorías de la variable de agrupación; para realizar la
comparación el programa realiza los cálculos solamente con los datos de cada
categoría y presenta los resultados de forma comparativa; es decir ubica de
forma jerárquica los resultados de cada categoría (por ejemplo: tabla categoría
1, tabla categoría 2, gráfico categoría 1, gráfico categoría 2, estadístico
categoría 1, estadístico categoría 2).
La tercera opción corresponde a Organizar los resultados por grupos; esta
opción es muy similar a la opción anterior, con la diferencia que los resultados
de los procedimientos que se realicen con el programa se representan en
forma organizada (Por ejemplo: Tabla Cat1, Gráfico Cat1, Estadístico Cat1,
Tabla Cat2, Gráfico Cat2, Estadístico Cat2). Esta opción es bastante útil si
nosotros deseamos hacer un análisis separado de la muestra por algún tipo de
“rangos”, como por ejemplo el g nero, la región, la fecha, etc.
273
Figuras 1-26
Para realizar la segmentación de archivo debemos seleccionar una de las dos
últimas opciones, de manera que se active la casilla “Grupos basados en”; una
vez se activa se ingresa en ella la variable o las variables que deseamos utilizar
como rango y finalmente hacemos clic en Aceptar. Después de segmentar el
archivo, cada procedimiento (tablas, gráficos o estadísticos) que se realice con
el programa, mostrará los resultados de acuerdo a la segmentación. En
capítulos posteriores emplearemos este procedimiento para comprender los
resultados que ocasiona.
Ponderar ( ): A través de esta opción, podemos asignarle un peso o valor
diferente a cada uno de los casos; es decir, darle mayor importancia a unos
valores de registro que a otros, esto se hace con el fin de poder sacar algún
resultado representativo de la población y no de la muestra. Para poder realizar
este procedimiento, es necesario tener una variable de ponderación en la cual
se encuentran los valores (Pesos) de cada registro; en capítulos posteriores
emplearemos esta opción para comprender los resultados que ocasiona.
Seleccionar casos ( ): A través de esta opción, podemos seleccionar
solamente los casos que cumplan con los criterios que el investigador imponga;
por ejemplo, las personas del género femenino. A su vez, este procedimiento
nos brinda la oportunidad de pedirle al programa que tome un fragmento de los
casos de forma aleatoria. Al activar la selección de casos el programa realiza
los cálculos de los procedimientos sólo con los casos que hayan sido
seleccionados.
274
Etiquetas de valor ( ): Esta opción nos permite observar en el editor de
datos, los valores de los datos o la categoría a la que corresponde. Al activar
esta opción aparecen en el editor de datos las categorías (palabras) de cada
una de las variables [Fig.1-27]. Si por el contrario desactivamos esta opción,
aparecen en el editor de datos los números (Valores) de cada variable [Fig.1-
28]. La utilidad de esta opción radica en la capacidad de darnos información
sobre los datos que contiene cada una de las variables categóricas.
Figuras 1-27
Usar conjuntos ( ): Este procedimiento nos permite generar o utilizar
conjuntos de variables, para restringir el número de variables mostradas en las
listas de origen de los cuadros de diálogo. Los conjuntos de variables
pequeños hacen que la búsqueda y la selección de variables para los análisis
sea más fácil y pueden incluso mejorar el rendimiento. Si el archivo de datos
contiene un elevado número de variables y los cuadros de diálogo se abren con
lentitud, es necesario restringir las listas de origen de los cuadros con
subconjuntos de variables más pequeños, lo que reduce la cantidad de tiempo
empleado en abrirlos.
PERSONALIZAR LA BARRA DE HERRAMIENTAS DE SPSS
Los procedimientos que se incluyen en la barra de herramientas pueden ser
modificados, extrayendo o ingresando los procedimientos que deseemos. Para
realizar la personalización de la barra de herramientas, debemos ubicar el
puntero del ratón sobre la barra de herramientas y hacer clic derecho sobre ella
de manera que aparezca el menú desplegable [Fig.1-29].
275
Figuras 1-29
Una vez aparece el menú, seleccionamos la opción personalizar con lo que
aparece el cuadro de diálogo correspondiente [Fig.1-30]. A través de este
cuadro podemos personalizar las barras de herramientas existentes e incluso
crear nuevas barras. En las barras de herramientas se puede incluir cualquier
procedimiento disponible, o cualquier acción del menú.
Para personalizar una barra de herramientas, debemos seleccionar en la lista
de Categorías (Menús y opciones), la categoría en que se encuentre el
procedimiento que deseamos incluir. Una vez se selecciona la Categoría, se
actualizan en la lista de elementos los procedimientos que se incluyen dentro
de ella. Para seleccionar el procedimiento basta con hacer clic sobre el y
manteniendo oprimido el botón del ratón, arrastrarlo hasta la ubicación de la
barra donde deseamos ingresarlo. Al soltar el botón del ratón, aparece en la
barra el icono representativo del procedimiento seleccionado.
Figuras 1-30
276
A manera de ejemplo ingresaremos en la barra de herramientas el
procedimiento Frecuencias. Para realizarlo debemos seleccionar en la lista de
categorías la opción Analizar, de manera que aparezca en la lista de elementos
los procedimientos típicos de este menú. Una vez se actualiza el contenido,
nos dirigimos a la barra de desplazamiento horizontal ubicada en la parte
inferior del cuadro (Personalización de la barra Editor de datos) y la
arrastramos hacia la derecha de manera que aparezca el extremo derecho de
la barra de herramientas.
Después de aparecer el extremo de la barra, ubicamos en la lista de elementos
la opción Separador ( ) en la parte superior de la lista de elementos; lo
seleccionamos (Hacer clic) y manteniendo el botón del ratón oprimido lo
arrastramos hacia el costado derecho de la barra del editor de datos, en donde
lo soltamos. Una vez se suelta el separador, aparece en la barra un segmento
sin icono; el objetivo de ingresar este separador, consiste en crear un espacio
entre los botones usar conjuntos y Frecuencias que vamos a infiltrar. Después
de ingresar el separador, introducimos el procedimiento Frecuencias,
ubicándolo en la lista de elementos y llevándolo hasta el costado derecho de la
barra de herramientas, en donde soltamos el botón de ratón y aparece el botón
123 [Fig.1-31].
Figuras 1-31
277
Una vez se ingresa el procedimiento a la barra de herramientas, hacemos clic
en Aceptar con lo que se cierra el cuadro de diálogo y volvemos al editor de
datos. Si nos fijamos en la barra de herramientas del editor de datos,
notaremos que ahora aparece en ella el icono ( ), el cual representa el
procedimiento Frecuencias; si hacemos clic en él se abrirá el cuadro de diálogo
correspondiente. Este mismo procedimiento debe ser empleado para ingresar
nuevas aplicaciones a la barra de herramientas.
Barra de Posición
La barra de posición esta ubicada debajo de la barra de herramientas en el
editor de datos y nos permite identificar de forma rápida y sencilla el número
del caso (Fila), la variable (Columna) y el valor de la casilla de registro que
hemos seleccionado [Fig.1-32]. Para activar la barra, debemos hacer clic sobre
cualquiera de las casillas del editor de datos, con lo que aparecerá de forma
automática la información de la casilla. La utilidad de esta casilla se pone en
evidencia cuando trabajamos con archivos que cuenten con un número elevado
de registros.
Figura 1-32
VISTAS DEL EDITOR DE DATOS DE SPSS
El editor de datos cuenta con dos diferentes tipos de vistas (Datos y Variables),
a través de las cuales podemos modificar o definir parámetros específicos de la
información contenida en el archivo. La primera de estas vistas corresponde a
la Vista de datos [Fig.1-33]. Esta es la vista que aparece por defecto en el
editor de datos y mediante ella podemos ingresar, modificar o eliminar los
casos y registros (valores) del archivo. La estructura de la vista de datos esta
diseñada de manera, que las variables (Preguntas) se ubiquen en las columnas
y los casos, registros u observaciones se ubiquen en las filas.
278
Figuras 1-33
A través de la Vista de datos podemos observar, modificar o eliminar cada uno
de los valores de los casos que componen el archivo de datos. Además cuando
creamos un archivo nuevo, es en esta vista donde se ingresan los datos; para
realizarlo debemos ingresar la información en cada una de las casillas. Es
necesario resaltar que se denomina Caso a las repuestas que un individuo
proporciona a la totalidad de las preguntas o variables del archivo.
La segunda vista del editor de datos corresponde a la Vista de Variables [Fig.1-
34]. A través de la vista de variables se definen los parámetros informativos de
las preguntas o variables del archivo; esta vista es sin ninguna duda la parte
más importante del paquete, ya que de la correcta definición de nuestras
variables depende la efectividad de nuestro análisis y los procedimientos que
podamos realizar con ellas. Para seleccionar esta vista basta con hacer clic
sobre la pestaña Vista de variables ubicada en la parte inferior de la ventana.
279
Figuras 1-34
Al seleccionar la vista de variables, aparece en la parte superior del área de
datos una serie de propiedades preestablecidas por el programa entre las que
encontramos Nombre, Tipo, Anchura, Decimales, Etiqueta, Valores, Perdidos,
Columna, Alineación y Medida. Cada una de estas propiedades tiene un
propósito específico y es necesario antes de generar algún tipo de análisis,
comprobar que estén correctamente diligenciados cada uno de los campos. Si
nos fijamos en las casillas de la vista notaremos que ahora las filas
corresponden a cada una de las variables de nuestra base o archivo; esto se
debe a que en la vista de variables la estructura esta diseñada para que las
Propiedades de las variables se ubiquen en las columnas y las variables se
ubiquen en las filas.
Es importante hacer notar la diferencia estructural entre la Vista de Variables y
la Vista de Datos [Fig.1-35]; esta diferencia se produce debido a que en la Vista
de variables definimos las características de las variables; es decir, sus
propiedades. Lo único que se realiza en esta vista, es ingresar información
complementaria de las variables, la cual determina los procedimientos que
pueden ser empleados en el análisis, de acuerdo a las características de la
variable. Mientras la Vista de datos nos permite ingresar, modificar o eliminar
los datos (registros o variables) del archivo.
280
Figuras 1-35
Si nos fijamos en las estructuras de las vistas del Editor de datos, notaremos
que para la vista de datos, las variables se ubican en las columnas y los casos
o registros se ubican en las filas, mientras que para la vista de variables, las
propiedades (Definición) se ubican en las columnas y las variables se ubican
en las filas. Una vez aclaradas las diferencias estructurales de las vistas,
continuaremos describiendo cada una de las propiedades de las variables, las
cuales determinan en gran medida los diferentes procedimientos que se
pueden realizar con los datos.
PROPIEDADES DE LAS VARIABLES EN SPSS
Las variables en SPSS cuentan con una serie de propiedades que deben ser
definidas por el investigador o usuario antes de realizar cualquier tipo de
análisis con ella. De la correcta definición de las propiedades, depende en gran
medida la calidad de los análisis que se realicen y por lo tanto la veracidad de
los resultados o conclusiones que se generen. SPSS ha estipulado diez
propiedades informativas de las variables entre las que encontramos:
I. Nombre:
Este parámetro nos permite identificar y diferenciar las variables que componen
el archivo; para cada una de las variables se debe definir un nombre específico.
El programa establece una serie de normas para los nombres de variables,
entre las que encontramos:
281
Cada nombre de variable debe ser único; no se permiten duplicados.
La longitud del nombre no debe exceder los 64 bytes. Sesenta y cuatro
bytes suelen equivaler a 64 caracteres en idiomas de un sólo byte (por
ejemplo, inglés, francés, alemán, español, italiano, hebreo, ruso, griego,
árabe, tailandés) y 32 caracteres en los idiomas de dos bytes (por
ejemplo, japonés, chino, coreano).
El nombre debe comenzar por una letra. Los demás caracteres pueden
ser letras, dígitos, puntos o los símbolos @, #, _ o $.
Los nombres de variable no pueden terminar en punto.
Se deben evitar los nombres de variable que terminan con subrayado
(para evitar conflictos con las variables creadas automáticamente por
algunos procedimientos).
No se pueden utilizar espacios en blanco ni caracteres especiales (por
ejemplo, !, ?, ' y *).
Las palabras reservadas (ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT,
OR, TO, WITH) no se pueden utilizar como nombres de variable.
Los nombres de variable se pueden definir combinando de cualquier
manera caracteres en mayúsculas y en minúsculas, esta distinción entre
mayúsculas y minúsculas se conserva en lo que se refiere a la
visualización.
Para las versiones anteriores de SPSS (11.5, 11.0, 10.0, etc.) la longitud de las
variables es de sólo ocho Bytes, lo cual generalmente no es suficiente para
identificar una variable, por lo que es recomendable utilizar las tres primeras
letras de cada palabra de la frase; es decir,
Estado Civil = estciv
Nivel de confianza = nivdecon
No necesariamente se debe seguir esta regla, lo realmente importante es que
el nombre de la variable le permita identificar al usuario o investigador, el
contenido a que se hace referencia; es decir, permitirle al usuario hacerse una
idea del tema que abarca los datos de esa variable.
II. Tipo:
La propiedad Tipo, nos permite especificarle al programa la naturaleza de los
datos que se incluyen dentro de la variable; es decir, nos permite definir la
282
forma y el significado de los caracteres que se encuentran en los registros de la
variable. SPSS nos permite elegir entre ocho diferentes tipos de variables para
representar Números (Magnitudes), Fechas (Tiempo), Monedas (Dinero) y
Letras (Cadena). Desde luego es aconsejable trabajar las variables de forma
numérica ya que el análisis estadístico es una ciencia matemática y para su
correcto funcionamiento es necesario realizar las operaciones con números; ya
que en algunos casos no es posible tener los datos de forma numérica, el
paquete nos permite trabajarlos como una cadena de caracteres (Letras y
Números).
Para definir el Tipo, debemos hacer clic en la casilla de la variable de interés,
de manera que aparezca en el costado derecho de la casilla un pequeño
cuadrado con puntos suspensivos ( ). Al seleccionar el botón (Hacer clic),
aparece el cuadro de diálogo Tipo de variable [Fig.1-36], en donde aparecen
los diferentes Tipos de variable que se pueden elegir para la variable
seleccionada.
Figura 1-36
Numérico: Se emplea en una variable numérica cuyos valores representan
magnitudes o cantidades y se asocian de forma estándar; es decir, asume la
283
notación por defecto de Windows para la separación decimal (Enteros (,)
Decimales) “1000,00”; este suele ser el tipo mas usado.
Coma y/o Punto: Estos dos tipos de variables se emplean en una variable
numérica cuyos valores representan magnitudes o cantidades. Al seleccionar la
opción Coma los valores se asocian con comas que delimitan cada tres
posiciones y con el punto como delimitador decimal “1,000.00”. Cuando se
selecciona el Punto los valores se asocian con puntos que delimitan cada tres
posiciones y con la coma como delimitador decimal “1.000,00”.
Notación científica: Se utiliza en una variable numérica cuyos valores son
demasiado grandes o pequeños, por lo cual se emplea un exponente con signo
que representa una potencia en base diez. 1’000.000.00 = 1.0E+6 ó 0.000001
= 1.0E(-6). SPSS nos permite representarlo de varias formas como 1000000,
1.0E6, 1.0D6, 1.0E+6, 1.0+6. La notación es útil cuando manejamos cifras
extremas de lo contrario es mejor manejarlo de forma numérica.
ANCHURA, DECIMALES Y ETIQUETAS EN SPSS
Fecha: Este tipo de variable se emplea cuando los valores de la variable
representan fechas de calendario u horas de reloj; al seleccionarla aparece en
el cuadro de diálogo una casilla con el listado de los diferentes formatos que el
programa reconoce [Fig.1-37]. Para elegir alguno de ellos basta con hacer clic
sobre el formato y sucesivamente en Aceptar.
Figura 1-37
Dólar: se emplea en una variable numérica cuyos valores representan sumas
de dinero en dólares. Al seleccionar este tipo de variable aparece en el cuadro
284
de diálogo un listado de formatos monetarios [Fig.1-38], en donde debemos
seleccionar el formato que más se acomode a los datos.
Figuras 1-38 y 1-39
Moneda personalizada: Este tipo de variable se emplea cuando los valores de
una variable representan sumas de dinero diferentes al dólar (Pesos, pesetas,
Euros, etc.); al seleccionar esta opción aparece un nuevo listado [Fig.1-39], en
el cual debemos seleccionar uno de los formatos existentes. Estos formatos no
representan monedas especificas, si no que por el contrario el programa asume
que la moneda es de origen distinto al dólar. La diferencia con el tipo dólar es
que nos permite trabajar con cinco (5) diferentes tipos de moneda.
Cadena: Este tipo de variable se emplea cuando los valores no son numéricos
o sencillamente no representan magnitudes o cantidades; estas variables no
son utilizadas en los cálculos de los estadísticos. Las variables de cadena
pueden contener cualquier tipo de caracteres siempre que no exceda la
longitud máxima de 255; las mayúsculas y las minúsculas se consideran
diferentes ya que el programa trabaja bajo el código ASCII. A este tipo de
variables, también se le suele denominar como variable alfanumérica. Para
definir alguno de los tipos de variable, basta con hacer clic sobre la opción que
se desee y sucesivamente hacer clic en el botón Aceptar, con lo que se cierra
la ventana y el tipo elegido aparece en la casilla seleccionada.
III. Anchura:
Por medio de esta propiedad podemos definir el máximo de dígitos que
contienen los registros de una variable; para el cálculo del ancho se incluyen
los dígitos enteros y los decimales. Por ejemplo;
Anchura 5 = xxx.xx ó x,xxx.x ó xx,xxx donde x representa un número aleatorio.
285
No debemos cometer el error de pensar que una vez establecida la anchura, ya
no podremos encontrar una cifra con mayor cantidad de números dentro de los
registros. La opción Anchura se emplea para darle una idea al investigador, de
las cifras que encontrará cuando le pida al paquete información de las
variables, es decir, no restringe la cantidad de números sino que es un
parámetro informativo, el cual le brinda a la persona que opere el programa una
idea de los rangos máximos que puede tomar esta variable, pero no impide que
se ingresen valores que sobrepasen esta longitud.
IV. Decimales
A través de este parámetro se define el número de dígitos decimales que
pueden contener los registros de la variable. Las cifras que superen esta
longitud serán aproximadas por el programa. Cuando una cifra supera la
longitud, el programa aproxima hacia arriba los dígitos que sobrepasen la
longitud si el valor del último de ellos es igual o mayor que cinco, de lo contrario
(menor que 5) se aproxima hacia abajo; es decir:
1.07X si X < 5 entonces se aproxima a 0 es decir = 1.07
1.07X si X => 5 entonces se aproxima a 10 es decir = 1.08
Las propiedades Anchura y Decimales pueden ser editadas directamente
desde la ventana de Tipo de variable cuando se eligen los tipos numéricos de
variables Numérica, Coma, Punto, Notación científica, Dólar o Moneda
personalizada [Fig.1-40], ya que al seleccionar estas opciones se habilita en el
cuadro de diálogo las casillas Anchura y Decimales.
Figuara 1-40
286
Hay que notar que cuando seleccionamos los Tipos de variables como la
Fecha y Cadena estas propiedades se desactivan; esto se debe a que para el
tipo de formato Fecha el programa ha predefinido estos parámetros y no
podemos alterarlo, la única opción que tenemos es escoger otro formato de
fecha; mientras que para el tipo cadena no se puede tener números decimales.
V. Etiqueta
Dado que generalmente los sesenta y cuatro (64) caracteres del nombre
(Versiones anteriores ocho [8]) y las normas que se deben cumplir, no permiten
describir de forma clara la variable y el contenido de ella; SPSS nos brinda la
posibilidad de utilizar una etiqueta por medio de la cual podemos describir la
variable mediante la utilización de un máximo de 255 caracteres.
El uso de la etiqueta es bastante útil para facilitar la interpretación de los
resultados (Tablas, Gráficos o estadísticos), para las personas que no han
participado en la generación de los procedimientos y desconocen el significado
del nombre de la variable. El uso de la etiqueta es opcional, el programa en
caso de no existir una etiqueta utiliza el nombre de la variable para generar los
resultados. Para saber si una variable tiene estipulada una etiqueta debemos
ubicar el cursor del ratón sobre el nombre de la variable en la vista de datos, de
manera que aparezca una leyenda informativa. Para comprender el valor
práctico del uso de etiquetas, debemos observar las tablas de la figura [1-41].
Figura 1-41
Estas tablas contienen la frecuencia y el porcentaje de las categorías de la
variable Estado civil (Casado y Soltero); la primera tabla cuenta con etiquetas
287
para el nombre de la variable y para las categorías de la variable, mientras que
la segunda tabla no cuenta con etiquetas. Si nos fijamos en la tablas notaremos
que para interpretar la segunda tabla encontramos dificultades ya que no
podemos determinar que categoría representan los números cero (0) y uno (1).
Esta misma dificultad puede presentarse cuando nosotros realizamos un
análisis de datos y entregamos los resultados a una persona que no haya
participado en los procedimientos; para evitar estos inconvenientes se sugiere
definir las etiquetas de variable y de valores.
Antes de definir la propiedad Valores debemos ver primero las propiedades
Perdidos y Medida, ya que la utilización de la etiquetas de valor está
determinado por estos dos parámetros y en este momento no seria muy clara
su definición.
VALORES PERDIDOS Y ETIQUETAS DE VALOR EN SPSS
VI. Valores perdidos
Los valores perdidos son razones por las cuales no obtenemos una respuesta
coherente de algún entrevistado; es decir, es una razón que nos indica la causa
por la que no me aporta información el entrevistado. Dentro de los valores
perdidos podemos encontrar:
No sabe
No responde o se niega a responder
No aplica o sencillamente la pregunta no lo afecta EJ: preguntarle a una
persona soltera la edad a la que se caso por primera vez, si no se ha
casado nunca esta pregunta no lo afecta.
Debemos tener claro que los valores perdidos son razones y no errores,
generalmente tendemos a confundir un valor perdido con un valor que no esta
dentro de nuestro rango. Por ejemplo, si en la variable género (sexo), tenemos
los valores (1 = mujeres y 2 = hombres) y después de revisar el archivo nos
damos cuenta que tenemos en algunos registros el valor 3, generalmente
cometemos el error de pensar que este es un valor perdido, pero no lo es, este
tipo de valores los debemos considerar como errores ya sea de digitación o de
captura y la forma de corregirlos es ir hasta la fuente (entrevistas) y determinar
288
a que grupo pertenecía el individuo. Si no podemos determinar el grupo y los
valores son muy pocos es recomendable prescindir de estos casos.
SPSS maneja dos tipos de valores perdidos; el primero es perdido por el
sistema, el cual se identifica por la ausencia total de datos; es decir, casillas
vacías y el segundo corresponde a los datos perdidos definidos por el usuario
(No sabe, No responde o No aplica). El programa detecta automáticamente los
valores perdidos por el sistema y los omite, mientras que los valores perdidos
por el usuario deben ser definidos al programa o de lo contrario los cálculos se
realizarán contando con estos valores, lo cual puede afectar severamente los
resultados.
Figuras 1-42
Para definir un valor perdido por el usuario debemos activar la casilla
correspondiente a Perdidos de la variable de interés, de manera que aparezca
al costado derecho de la casilla un cuadrado con puntos suspensivos ( ). Al
seleccionar el cuadrado (Hacer clic) aparece la ventana de Valores Perdidos
[Fig.1-42]. En este cuadro encontramos tres diferentes posibilidades. La
primera corresponde a No hay valores perdidos (Los cálculos se realizan con la
totalidad de los registros). La segunda corresponde a Valores perdidos
discretos (son un máximo de tres valores perdidos en la variable; se puede
emplear los valores (números) que se deseen.
Para este tipo de valores se recomienda que exista una distancia considerable
entre los valores representativos y los perdidos con el fin de facilitar su
identificación). La tercera y última opción corresponde a Rango más un valor
discreto opcional (se utiliza cuando tenemos varios parámetros de valores
perdidos, los cuales se encuentran dentro de un rango. Para seleccionar esta
289
opción es necesario que no existan valores representativos de grupos dentro
del rango de lo contrario serán omitidos de los cálculos. Además esta opción
nos permite ingresar un valor discreto adicional). Para seleccionar cualquiera
de las opciones basta con hacer clic sobre la opción de manera que aparezca
en la casilla de activación ( ) un punto negro y sucesivamente ingresar los
valores.
VII. Columnas y Alineación
Estos dos parámetros son netamente de formato (es decir de presentación) y
sus efectos son apreciables únicamente en la vista de datos. La primera
propiedad (columnas) nos indica el ancho de la columna, mientras que la
segunda (Alineación) determina la alineación de los datos dentro de la casilla.
El parámetro columna, al igual que en una hoja de cálculo, podemos alterarlo
de forma directa en la vista de datos colocando el cursor al lado de la columna
hasta que aparezca el indicador, hacemos clic y lo sostenemos arrastrando
hasta obtener el ancho deseado.
VIII. Medidas
Este es el parámetro más importante de las variables, de su definición depende
el tipo de análisis que podemos realizar con el programa. Dentro de la
estadística se han catalogado cuatro diferentes escalas de medida, pero para
SPSS estas escalas se resumen en sólo tres:
Nominal: son variables numéricas cuyos valores (Números) indican una
categoría de pertenencia. Para este tipo de medida, las categorías no
cuentan con un orden lógico que nos permita establecer una
comparación de superioridad entre ellas. Un ejemplo de variable nominal
puede ser el género, la raza, el estado civil, etc.
Ordinal: son variables numéricas cuyos valores indican una categoría
de pertenencia y a su vez las categorías poseen un orden lógico que nos
indica una superioridad o prelación. Un ejemplo de variable ordinal
puede ser el nivel de ingresos, categoría del vehículo, nivel educativo,
etc.
Escala: son variables numéricas cuyos valores representan una
magnitud o cantidad y no una categoría; los valores de este tipo de
290
medida pueden ser empleados en operaciones aritméticas como la
suma, la resta, la multiplicación y la división ya que los intervalos
(Distancia entre los números) cuentan con la misma longitud. Un
ejemplo de variable de escala puede ser la edad, las ventas, la distancia
en metros, la altura, etc.
Para los archivos de datos con formato SPSS creados en versiones anteriores
se aplican las siguientes reglas.
Las variables de cadena (alfanuméricas) se establecen en nominales.
Las variables de cadena y numéricas con etiquetas de valor definidas se
establecen en ordinales.
Las variables numéricas sin etiquetas de valor definidas que no superen
un número específico de valores únicos (24), se establecen como
ordinales, mientras que si el número de valores supera los 24 se definen
como de Escala.
IX. Valores
Los valores o Etiquetas de valor nos permiten generar una leyenda que facilite
la interpretación de los números representativos de cada categoría de una
variable, ya sea en los resultados o en la vista de datos. Debido a que se
utilizan números para representar cada categoría es necesario crear una
pequeña leyenda que nos permita ver en letras la categoría a la que
corresponde cada número. Las etiquetas de valor no pueden exceder los 60
caracteres y se deben emplear solamente si se cumplen los siguientes
requisitos:
La variable es categórica, es decir Nominal u Ordinal.
Se tienen valores perdidos por el usuario.
Para definir las etiquetas de valor debemos activar la casilla de valor
correspondiente a la variable de interés de tal manera que aparezca al costado
derecho un cuadrado con puntos suspensivos en su interior. Al hacer clic sobre
el cuadrado aparece la ventana Etiquetas de valor [Fig.1-43]; en esta ventana
encontramos tres casillas.
291
Figura 1-43
La primera corresponde al Valor o número, en ella debemos digitar el número
al que deseamos dar la etiqueta. La segunda casilla corresponde a la Etiqueta
de valor, en ella digitamos la categoría a la que corresponde ese valor (máximo
60 caracteres) y la tercera casilla corresponde a las etiquetas añadidas; es
decir, las categorías que ya se han definido. Para ingresar una etiqueta de
valor, debemos primero ingresar el valor en la casilla Valor, sucesivamente
ingresar la leyenda en la casilla Etiqueta y finalizar haciendo clic en el botón
Añadir, con lo que aparece en la casilla el número y la leyenda
correspondiente.
Si deseamos cambiar una etiqueta que ya haya sido añadida, debemos
seleccionarla en la casilla (hacer clic sobre ella), editar ya sea el número o la
etiqueta y hacer clic en Cambiar. Si por el contrario deseamos eliminarla,
debemos seleccionarla y hacer clic en Eliminar. Para finalizar basta con hacer
clic en Aceptar, con lo que la ventana se cerrara y las etiquetas quedarán
definidas. Es necesario Añadir antes de Aceptar o de lo contrario se perderá
cualquier operación de Añadir o Cambiar pendiente.
ÁREA DEL PROCESADOR
La última sección del editor de datos corresponde al área del procesador, la
cual esta ubicada en la parte inferior de la ventana. A través de esta área
podemos saber el estado del procesador de acuerdo al proceso que se este
realizando. Esta sección es de bastante utilidad cuando le pedimos al programa
un procedimiento y se cuenta con un elevado número de registros; en algunos
casos la base es tan extensa que puede tardar bastante tiempo la ejecución del
292
resultado, en estos casos generalmente se tiende a pensar que el programa se
bloqueo, antes de determinarlo es importante saber cual es el estado del
procesador ya que el retardo puede ser ocasionado por la extensión de los
datos. Además, cuando la licencia caduca, en esta área encontramos el
mensaje el procesador no esta disponible.
GENERANDO TABLAS DE FRECUENCIA EN SPSS
Además de la ventana editor de datos, SPSS cuenta con otras ventanas como
la de Resultados o la de Sintaxis. Para conocer la ventana de resultados,
vamos a generar una tabla de frecuencias con las variables Género y Estado
civil. Para realizarlo debemos ir al menú Analizar.. Estadísticos descriptivos..
Frecuencias [Fig.1-44]. Al seleccionar la opción frecuencias, aparece el cuadro
de diálogo correspondiente [Fig.1-45]. A través de esta ventana se deben
definir las variables a las que queremos realizar la tabla de frecuencias.
Figuras 1-44 y 1-45
Si observamos el listado de variables que aparece al costado izquierdo del
cuadro, notaremos que las variables están por su etiqueta y no por el nombre,
esto es útil si desconocemos el archivo y su contenido, pero si es un archivo
que hemos creado o su contenido nos es familiar, seria más aconsejable
manejarlo por el nombre de las variables. Antes de continuar vamos a ver como
se puede cambiar la forma de representar las variables en la lista. Para
realizarlo es necesario cerrar por un momento la ventana Frecuencias, luego
volveremos a ella. Para cerrarla basta con hacer clic en el botón cancelar
ubicado al costado derecho del cuadro.
293
Una vez cerrada la ventana nos dispondremos a cambiar la forma de
representar las variables en la lista, para esto debemos ir al menú Edición...
opciones, al hacer clic en opciones se abre el cuadro de diálogo
correspondiente [Fig.1-46].
Figuras 1-46
En este cuadro se manejan todas las opciones del paquete. Podemos observar
que en la parte superior del cuadro hay una serie de pestañas; cada una de
ellas corresponde a un proceso específico del paquete. Dentro de estos
procesos encontramos (General, Visor, Visor de borrador, etiquetas de los
resultados, gráficos, interactivos, tablas pivote, datos, moneda y procesos). Al
seleccionar uno de ellos, el contenido de la ventana cambiará y nos mostrará
las opciones que cada pestaña maneja. Por el momento nos concentraremos
en la pestaña General, en ella encontraremos la opción listas de variables, en
la parte superior izquierda.
Figura 1-47
294
Esta sección nos permite manipular la forma como deseamos que se
representen las listas de variables, en nuestro caso deseamos que las listas se
determinen por el nombre de las variables y en orden alfabético. Para hacerlo
debemos seleccionar las opciones Mostrar nombres y Alfabético haciendo clic
en el circulo ( ) que se encuentra a la izquierda de ellas [Fig.1-47]. Después
de seleccionar las opciones, hacemos clic en Aplicar y sucesivamente en
Aceptar, de manera que se cierra la ventana.
Para comprobar el efecto realizado en las listas de variables, vamos a
continuar con la realización de la tabla de frecuencias. Para esto nuevamente
abrimos la opción frecuencias en el menú Analizar... Estadísticos descriptivos...
Frecuencias; al seleccionar la opción, aparece nuevamente el cuadro de
diálogo correspondiente [Fig.1-48]. Si nos fijamos en el listado de variables,
notaremos que ahora aparecen los nombres de las variables y no la etiqueta.
Figura 1-48
Continuando con el ejemplo, debemos ubicar las variables Género y Estado
civil (Estciv) en la lista de variables e ingresarlas a la casilla de selección. Para
hacerlo, debemos resaltar la variable deseada (Género) en la lista y
sucesivamente hacer clic en el botón flecha, de manera que aparezca en la
casilla de selección. Una vez ingresamos las dos variables, hacemos clic en el
botón Aceptar, ejecutando las tablas de frecuencia y sus consecuencias son
presentadas en la ventana Visor de resultados. Las demás partes de la ventana
Frecuencias, serán explicadas a profundidad en los capítulos posteriores.
VISOR DE RESULTADOS DE SPSS
295
En esta ventana se representan de forma gráfica todos los procedimientos
(Tablas, Gráficos o Estadísticos) que se hayan ejecutado en el programa.
SPSS cuenta con dos tipos diferentes de Ventanas de resultados, el primero es
el Visor de Resultados [Fig.1-49] donde se muestra de forma interactiva los
resultados de los procesos y los organiza en forma jerárquica de acuerdo con
el orden que se hayan realizado.
La segunda ventana corresponde al Visor de Borrador [Fig.1-50]; en esta
ventana los resultados se muestran en formato de texto, suprimiendo todas las
características interactivas de los resultados. Este tipo de resultados puede ser
abierto con cualquiera de los programas lectores de texto. La principal
diferencia de estas dos ventanas, consiste en que el visor de Borrador no
puede modificar el formato de los resultados y además suprime las
propiedades interactivas de los objetos, mientras que en el visor de resultados
puede ordenar, editar o generar procedimientos de forma interactiva.
Figuras 1-49 y 1-50
La utilidad del visor de borrador radica en la posibilidad de compartir los
resultados de los procedimientos en formato de texto con ordenadores que no
tengan instalado el paquete SPSS. Esta utilidad se ha visto afectada con la
inclusión del programa SmartViewer en el CD de instalación de SPSS ya que
este programa nos permite observar los resultados del paquete en forma
interactiva sin necesidad de instalar los módulos. Dado que el Visor de
Resultados es más completo y nos ofrece múltiples propiedades interactivas de
edición, nos concentraremos en el estudio de esta ventana.
296
Figuras 1-51
El visor de resultados esta dividido en tres partes [Fig.1-51]. La primera de ellas
corresponde al navegador de resultados; esta sección nos permite explorar los
resultados que hemos obtenido a través de los diferentes análisis realizados.
La segunda sección corresponde al visualizador de resultados en el cual
obtenemos la imagen de los resultados de los procedimientos (Tablas y
Gráficos). La tercera sección corresponde a las opciones de ventana, en la cual
encontramos los diferentes procedimientos de la ventana y algunos del
paquete.
Navegador de Resultados
A través del navegador de resultados, podemos explorar todos los resultados
obtenidos mediante los distintos procedimientos del paquete, así como también
organizarlos de acuerdo a nuestro criterio o las necesidades del reporte. SPSS
ha estructurado el navegador de forma jerárquica, con el fin de establecer un
orden en los resultados. Para comprender la estructura básica del navegador
de resultados debemos observar la figura [1-52].
Note como el programa ubica el resultado de cada procedimiento por separado
y dentro de cada uno de ellos se incluyen las diferentes propiedades con que
cuentan; entre las diferentes propiedades de los procedimientos encontramos
el Título, las notas, los estadísticos, los descriptivos, etc. Es necesario resaltar
que en SPSS se denomina procedimiento a cualquier tipo de análisis que
realicemos con el paquete; es decir, que consideraremos como procedimiento
297
la generación de frecuencias, las tablas de contingencia, la generación de
gráficos, etc.
Figura 1-52
Para apreciar la estructura del navegador directamente en los resultados, se
anexa la figura [1-53], la cual corresponde a una de las presentaciones típicas
del navegador; en ella podemos observar que para este caso existen dos
procedimientos; el primero de ellos corresponde al análisis de frecuencias y el
segundo a un análisis explorar (estos procedimientos serán examinados con
mayor detenimiento en los capítulos posteriores). Debajo de cada
procedimiento, aparece una serie de propiedades que nos permiten describir
de forma más explicita el contenido y el objetivo del procedimiento. Las
propiedades varían de acuerdo al procedimiento elegido, pero hay dos que
están presentes en todas las aplicaciones del paquete, correspondientes al
Título y las notas.
Si nos fijamos en la parte inferior de la Figura [1-53], notaremos que algunos de
los resultados tienen en su izquierda un icono parecido a un libro cerrado y
otros a un libro abierto, esto se debe a que el programa nos brinda la
posibilidad de ocultar o mostrar un resultado simplemente haciendo clic en el
signo que se encuentra a su izquierda ( ó ). Cuando el signo es positivo ( ),
nos indica que ese resultado esta oculto y si el signo es negativo ( ) nos indica
que esta desplegado o abierto. Nosotros podemos ocultar una propiedad o un
proceso, ya que su forma de ejecución es exactamente igual.
Además de las opciones anteriormente enunciadas, el navegador también nos
permite organizar los resultados a nuestro criterio o necesidades; para
298
realizarlo sólo basta con seleccionar la propiedad o el procedimiento que
deseemos reubicar y arrastrarlo hasta la posición que se desee. A través del
curso utilizaremos constantemente esta ventana y podremos comprender de
una mejor manera su beneficio.
VISUALIZADOR DE RESULTADOS DE SPSS
La segunda parte de la ventana Visor de Resultados corresponde al
visualizador de resultados, en ella se ven representados todos los resultados
de los procedimientos que se han realizado con el programa y a su vez, los
efectos de las opciones de ocultar o mostrar del navegador se hacen notorios
en esta sección. Si se elige la opción ocultar, los resultados del procedimiento
desaparecen del visualizador y sólo volverán a presentarse hasta que se elija la
opción mostrar en el navegador [Fig.1-54]. En esta figura se incluye el estado
del visualizador antes y después de seleccionar la opción mostrar.
Figuras 1-54
Adicionalmente, en esta sección es donde se puede acceder a la edición de los
objetos (Tablas y Gráficos). Para poder activar la edición es necesario ubicar el
puntero del ratón sobre el objeto y hacer doble clic, con lo cual se abrirá el
editor correspondiente al objeto seleccionado (Editor de tablas pivote o Editor
de Gráficos).por el momento no profundizaremos en estos temas ya que no
tiene sentido hablar de la edición de tablas o gráficos sin antes mencionar la
forma de generarlos con SPSS.
299
Opciones de Ventana
La tercera sección que compone la ventana Visor de resultados corresponde a
las opciones de ventana, en ella se encuentran la barra de menús, la barra de
herramientas y la barra de opciones del navegador; en estos componentes
encontramos las funciones que nos permiten realizar los diferentes
procedimientos de la ventana e incluso algunos procedimientos del paquete. Si
nos fijamos en la barra de menús, notaremos que los menús correspondientes
a Datos y Transformar han desaparecido y en su lugar se encuentran los
menús Insertar y Formato.
Este cambio se debe a que los menús Datos y Transformar sólo contienen
opciones aplicables a los datos (Registros y variables) cuando se encuentran
desagrupados y por lo tanto deben ejecutarse en el editor de datos de SPSS.
De igual manera los menús Insertar y Formato sólo contienen procedimientos
que sólo pueden ser ejecutados en el visor de resultados ya que están
orientados a los resultados.
Dentro del menú Insertar [Fig.1-55], se encuentran los procedimientos Salto de
página, Eliminar salto de página, Nuevo encabezado, Nuevo título, Nuevo título
de página, Nuevo texto, Gráfico 2-D interactivo, Gráfico 3-D interactivo, Gráfico
antiguo, Nuevo mapa, Archivo de texto y Objeto. En el menú Formato [Fig.1-
56], por el contrario encontramos sólo tres opciones correspondientes Alinear a
la derecha, Centrar y Alinear a la izquierda, las cuales se utilizan de la misma
forma que en el editor de datos.
300
Figura 1-55
Figura 1-56
Ahora, si nos fijamos en la barra de herramientas de la ventana visor de
resultados [Fig.1-57], notaremos que conserva algunos de los procedimientos
que encontramos en el editor de datos y sólo incluye dos nuevos
procedimientos correspondientes a Seleccionar últimos resultados y Designar
ventana. Desde luego estos procedimientos sólo son aplicables para la ventana
de resultados.
301
Figura 1-57
Seleccionar últimos resultados ( ): Como su nombre lo indica, nos
permite seleccionar los resultados del último procedimiento ejecutado. Al
seleccionar esta opción, en el visualizador aparecen las tablas o gráficos
correspondientes al último procedimiento. Es de bastante utilidad
cuando tenemos un número considerable de resultados.
Designar ventana ( ): Este icono se utiliza cuando tenemos más de
una ventana de resultados abierta. Lo que hace es comunicarle al
programa que todos los resultados que generemos se deben representar
en la ventana designada. Cuando tenemos más de una ventana abierta
el programa adhiere los resultados nuevos a la última ventana que se
haya abierto, lo cual puede ocasionar confusión y posiblemente pérdida
de la información. Para evitarlo debemos activar el icono en la ventana
que deseemos utilizar para los nuevos resultados. Para designar una
ventana hacemos clic en el icono de manera que su color desaparezca.
Figura 1-58
La última sección que encontramos dentro de las opciones de ventana
corresponde a la barra de opciones de navegador [Fig.1-58]. En esta barra
encontramos una serie de botones que nos permiten realizar tareas con el
navegador como Ascender, Degradar, Expandir, Contraer, Mostrar, Ocultar,
Insertar Título,, Insertar encabezado e Insertar Texto. Desde luego, la
activación de estas opciones sólo tiene efectos en el navegador de resultados
por lo que dejamos su exploración al lector.
EXPORTAR RESULTADOS DE SPSS
Una de las alternativas más sobresalientes que se puede apreciar en el Visor
de resultados corresponde a Exportar. A través de este procedimiento
302
podemos enviar los resultados obtenidos mediante SPSS a una gran diversidad
de formatos como Html (Paginas Web), de texto, Word/RTF y Excel. Esta
opción nos permite compartir los resultados del paquete con nuestros
colaboradores o incluso subirlos a Internet, a través de la creación de archivos
de resultados en otros formatos de mayor difusión.
Para exportar resultados de SPSS, debemos ir al menú Archivo y escoger la
opción Exportar, de modo que surja el cuadro de diálogo correspondiente
[Fig.1-59]. A través de este cuadro se definen los parámetros que serán
exportados, así como las propiedades del archivo resultante.
Figuras 1-59
Para exportar los resultados, es necesario elegir en la lista de exportación el
tipo de elementos que van a ser exportados [Fig.1-60]. Se puede exportar los
resultados y los gráficos, los resultados sin los gráficos ó sólo los gráficos. Una
vez seleccionado el tipo de elementos, definimos el nombre del archivo
resultante (Introduzca un nombre de archivo para los documentos de
resultados o un nombre clave para los gráficos [si está seleccionada la opción
sólo gráficos]). Por lo general los resultados son guardados bajo el nombre
OUTPUT. Si deseamos cambiar el nombre es necesario ingresar en la casilla
Exportar archivo una nueva ruta o un nuevo nombre para el archivo resultante.
303
Figuras 1-60 y 1-61
Después de definir el nombre del archivo, determinamos en la sección Exportar
qué, los elementos que vamos a remitir. En esta sección encontramos las
opciones Todos los objetos (Tablas y gráficos), todos los objetos visibles y la
opción objetos seleccionados. Cuando se ha señalado la opción Sólo gráficos
en la lista de tipo de exportación, se exhibe en la sección Exportar qué las
opciones de la figura 1-61.
Por último debemos definir el formato de exportación; para exportar los
documentos de resultados con o sin gráficos el programa nos ofrece sólo
cuatro diferentes formatos Archivo Html (*.htm), Archivo de texto (*.txt), Archivo
Word/RTF (*.doc) o Archivo de Excel [Fig.1-62]. Si por el contrario se exportan
sólo los gráficos, el programa nos ofrece una gran variedad de formatos [Fig.1-
63], entre los que encontramos metarchivo de Windows (WMF), mapa de bits
de Windows (BMP), PostScript encapsulado (EPS), JPEG, PNG y PICT de
Macintosh.
Figuras 1-62 y 1-63
Para comprender mejor la forma de exportar los resultados, vamos a
transportar a manera de ejemplo las tablas de frecuencia que hemos creado en
los apartados anteriores. Para realizarlo vamos a seleccionar en la lista de
exportación la opción Documentos de resultados [sin gráficos]; luego de elegir
la opción, nos dirigimos a la sección Exportar archivo y hacemos clic en el
botón Examinar de manera que aparezca la ventana de exploración [Fig.1-64].
Por medio de esta ventana ubicamos en la casilla Guardar en, la carpeta
Escritorio y sucesivamente hacemos clic en Guardar. Una vez volvemos al
cuadro de exportación, escogemos en la sección Exportar qué, la opción Todos
304
los objetos de manera que obtenemos los resultados de la figura [1-65].
Inmediatamente se comprueba que coinciden las condiciones de exportación,
hacemos clic en Aceptar con lo que el archivo es creado en el escritorio.
Figuras 1-64 y 1-65
Es aconsejable que antes de realizar una exportación de resultados se eliminen
los resultados que no vayan a ser enviados, para que no se presenten
dificultades durante o después de la exportación. Es necesario aclarar que las
propiedades interactivas de los resultados se perderán al momento de realizar
la exportación, por lo que es fundamental realizar antes la edición de los
resultados.
GUARDAR ARCHIVOS O FICHEROS EN SPSS
SPSS nos permite guardar los archivos que se generan en cada una de las
ventanas del paquete (Datos, Resultados o Sintaxis). A pesar que el
procedimiento para guardar un archivo es similar en todas las ventanas, nos
enfocaremos exclusivamente en la ventana Editor de datos, ya que el cuadro
de diálogo empleado en esta ventana presenta algunas diferencias respecto a
los cuadros obtenidos para la ventanas de Resultados y Sintaxis.
Para guardar un archivo de datos, debemos dirigirnos al menú Archivo y
seleccionar la opción Guardar como; al elegir esta opción aparece la ventana
de navegación [Fig.1-66]. Si nos fijamos en el contenido de la ventana,
notaremos que en la parte inferior aparecen tres opciones y a su vez en el
costado derecho se encuentra un botón denominado Variables.
Estos elementos surgen, debido a que SPSS nos permite guardar los archivos
de datos en una diversidad de formatos como Excel, dBASE, SAS, Archivos de
texto, etc. Cuando se elige el formato Excel en la sección Guardar como, se
305
habilitan las dos primeras opciones de la ventana (Escribir nombres de
variables en hoja de cálculo y Guardar etiquetas de valores donde se hayan
definido en vez de los valores de datos). Si por el contrario se elige el formato
SAS, solamente se activa la última opción (Guardar etiquetas de valor en un
archivo .sas). La utilidad de estas opciones radica en la posibilidad de guardar
aspectos informativos fundamentales de las variables, dentro de los archivos
de otro tipo de formato.
Figuras 1-66 y 1-67
Por otro lado, el botón Variables nos permite definir las variables que serán
incluidas dentro del archivo. Al activar este botón, surge un nuevo cuadro de
diálogo [Fig.1-67], a través del cual se especifican las variables del archivo
resultante. Por defecto el programa selecciona todas las variables; si se desea
excluir algunas de ellas, es necesario hacer clic sobre la casilla de selección
que se encuentra al costado izquierdo de la variable, de manera que
desaparezca la marca X. Por lo general, este procedimiento es empleado
cuando deseamos guardar parte o la totalidad de las variables dentro de un
archivo de formato distinto al de SPSS. Por el momento no utilizaremos esta
opción, por lo que hacemos clic en el botón Cancelar de esta nueva ventana.
Si lo que deseamos es guardar el archivo en formato de SPSS (*.sav), sólo es
necesario ubicar el lugar del ordenador donde queremos guardarlo, asignarle
un nombre al archivo y finalizar haciendo clic en el botón Guardar. Antes de
guardar el archivo, vamos a conocer la ventana de sintaxis. Si nos fijamos en
los botones de la ventana de navegación [Fig.1-66], notaremos que aparece un
botón bajo el nombre de Pegar el cual se encuentra presente en la mayoría de
los cuadros de diálogo del paquete.
306
Por medio de este botón se le especifica al programa que agregue a la ventana
de sintaxis, los comandos (Palabras clave) del procedimiento que estamos
realizando. A manera de ejemplo vamos a crear una nueva ventana de sintaxis
con el procedimiento Guardar; para lograrlo, ingresamos en la casilla Nombre
del archivo de la ventana de navegación, la leyenda Ejemplo y sucesivamente
ubicamos la unidad [C:] en la casilla Guardar en. Para finalizar hacemos clic en
el botón Pegar con lo que el procedimiento es pegado en una nueva ventana
de sintaxis.
VENTANA DE SINTAXIS DE SPSS
La ventana de sintaxis nos permite trabajar los procedimientos del paquete
mediante palabras de código, lo que es particularmente ventajoso cuando
manejamos análisis continuos; es decir, cada cierto tiempo tenemos que
realizar el mismo análisis a una base de datos cuyos registros se actualizan
con cierta regularidad.
La utilización de la sintaxis reduce el tiempo que se invierte en el
procesamiento de los datos y la generación de los reportes o resultados. SPSS
nos permite ir más allá y generar procesos que realicen todo el reporte de
forma automática, agregándolo simplemente en las tareas programadas del
PC.
Para acceder a la ventana de sintaxis, contamos con dos posibilidades; la
primera consiste en ir al menú Archivo, seleccionar el procedimiento Nuevo y
elegir la opción Sintaxis [Fig.1-68]. La segunda alternativa consiste en hacer
clic sobre el botón Pegar, que aparece en la mayoría de los cuadro de diálogo
de los diferentes procedimientos del paquete, de manera que se active de
forma automática la ventana de sintaxis [Fig.1-69]. Si nos fijamos en los menús
de esta ventana notaremos que cuenta con los mismos menús descritos para el
editor de datos a excepción de un nuevo menú denominado Ejecutar.
307
Figuras 1-68 y 1-69
Un archivo de sintaxis es simplemente un archivo de texto que contiene
comandos o palabras claves. Aunque es posible abrir una ventana de sintaxis y
escribir comandos, con frecuencia es más sencillo permitir que el programa nos
ayude a construir el archivo pegando la sintaxis de comandos directamente de
los cuadros de diálogo. Para generar un archivo de sintaxis, se han establecido
algunas normas básicas que se deben cumplir para garantizar el óptimo
funcionamiento de los procedimientos. Las reglas de la sintaxis son:
Cada comando debe empezar en una línea nueva y terminar con un
punto (.).
La mayoría de los subcomandos están separados por barras inclinadas
(/). La barra inclinada que precede al primer subcomando de un
comando, generalmente es opcional.
Los nombres de variable deben escribirse completos.
El texto incluido entre apóstrofos o comillas debe ir contenido en una
sola línea.
Cada línea de la sintaxis de comando no puede exceder los 80
caracteres.
Debe utilizarse un punto (.) para indicar decimales, independientemente
de la configuración regional de Windows.
Los nombres de variable que terminen en un punto pueden causar
errores en los comandos creados por los cuadros de diálogo. No es
posible crear nombres de variable de este tipo en los cuadros de diálogo
y en general deben evitarse.
Para comprender la forma de pegar y correr la sintaxis de un procedimiento,
vamos a retomar la tabla de frecuencias que realizamos para las variables
308
Género y Estados civil (estciv) en los apartados anteriores. Para realizarlo nos
apoyaremos en uno de los botones de la barra de herramienta descritos con
anterioridad correspondiente a Recuperar cuadros de diálogo ( ); al activarlo
se despliega la lista de procedimientos que se han generado con el programa;
en ella elegimos la opción frecuencias, con lo que surge nuevamente el cuadro
de diálogo correspondiente [Fig.1-70]. Una vez aparece el cuadro, ubicamos en
la lista las variables Género y Estciv y las ingresamos en la casilla de selección.
Después de ingresarlas hacemos clic en Pegar, de modo que se cierre el
cuadro Frecuencias y a su vez aparece en la ventana de sintaxis los comandos
del procedimiento [Fig.1-71].
Figura 1-70
Figura 1-71
309
Para correr (Ejecutar) los comandos de sintaxis, tenemos dos opciones; la
primera es seleccionar cualquiera de las opciones del menú Ejecutar (Todo,
Selección, Actual o Hasta el final) y La segunda opción para correr los
comandos de sintaxis corresponde al botón ejecutar selección ( ) ubicado en
la barra de herramientas.
Al seleccionar la opción Todo del menú Ejecutar, el programa ejecuta todos los
comandos de sintaxis que se encuentren en el archivo; si por el contrario
elegimos la opción selección, el programa ejecuta solamente los comandos
seleccionados por el usuario dentro del archivo. Si elegimos Actual, el
programa ejecuta la sintaxis del comando en el que se encuentre el cursor de
ratón. Por último si elegimos hasta el final, el programa ejecuta la sintaxis de
comandos que se encuentren desde la ubicación del cursor del ratón hasta la
sintaxis del fin del archivo.
Sin importar que método empleemos para correr la sintaxis, una vez la
corramos aparecen en el visor de resultados las ilustraciones de los
procedimientos [Fig.1-72].
La utilidad de la sintaxis radica en la posibilidad de guardar los comandos de
múltiples procedimientos y ejecutarlos cuantas veces queramos, sin necesidad
de volver a definir cada uno de los cuadros de diálogo. Adicionalmente, si por
algún motivo se alteran los datos del archivo, ya sea porque se adiciona
información, se reemplazan algunos valores o se eliminan casos, los cálculos
de los procedimientos de la sintaxis serán realizados de acuerdo a la
información que contenga el archivo al momento de ejecutar el archivo de
sintaxis.
310
Figuras 1-72
Es importante resaltar que el programa nos permite modificar los parámetros
de los diferentes procedimientos, directamente en la ventana de sintaxis,
simplemente reemplazando las palabras clave o códigos. A manera de
ejemplo, vamos a modificar el procedimiento Frecuencias, de manera que
aparezca en los resultados la tabla de la variable Región; para realizarlo,
debemos volver a la ventana de sintaxis y ubicar en ella el procedimiento
FREQUENCIES.
A continuación reemplazamos la variable Género por la variable Región, por lo
que colocamos el cursor sobre la palabra Género y por medio del teclado
ingresamos la frase región. Para finalizar hacemos clic en el botón Ejecutar ( )
creando las tablas en el visor de resultados [Fig.1-73]. Al observar los
resultados, notaremos que ha desaparecido la tabla de la variable Género y en
su lugar se encuentra la tabla de la variable Región.
311
Figura 1-70
En conclusión, la ventana de sintaxis nos permite guardar los comandos de los
diferentes procedimientos que se realicen con el programa, ofreciéndonos la
posibilidad de ejecutarlos varias veces, sin importar los cambios que se le
efectúen a los datos del archivo; adicionalmente, la sintaxis nos permite
generar nuevos procedimientos a partir de los comandos de una aplicación,
simplemente modificando las variables o las palabras clave, lo que representa
un ahorro de tiempo en la generación del procesamiento.
APLICACIÓN DE UN PROBLEMA DE COMERCIO EXTERIOR EN EL SPSS
312
1.- Abrimos el programa SPSS
2.- Seleccionamos la opción: Introducir datos
3.- Ingresamos las variables
313
4.- Ingresamos los datos en las variables
CORRELACIÓN
1.- Seleccionamos la opción: Correlaciones – Bivariadas
314
2.- Seleccionamos la opción: Seleccionamos las dos variables
315
3.- Seleccionamos la opción: Medidas y desviaciones típicas
4.- Seleccionamos la opción: Analizar
316
REGRESIÓN LINEAL
1.- Seleccionamos la opción: Analizar – regresión - Lineales
2.- Seleccionamos las variables independiente y dependiente
317
318
3.- Aceptamos para que el programa analice
319
PRUEBA DE HIPOTESIS
320
1.- Seleccionamos la opción comparar medias – Prueba T para una muestra
2.-
321
T STUDENT
322
323
CHI CUADRADO
324
325
ANÁLISIS
Esta aplicación explica cómo utilizar un programa informático para llevar a cabo
el tratamiento y análisis de información estadística. Se dirige a un conjunto muy
amplio de lectores, tanto aquellos que se inicien en el aprendizaje de la
Estadística como para los que ya tienen unos conocimientos previos sobre la
materia y quieren aplicarlos con la ayuda de un programa ampliamente
difundido en la actualidad como es el programa SPSS, versión 11.
Se presupone que el usuario que utiliza esta aplicación quiere introducirse en
los conocimientos básicos de la Estadística mediante la utilización de un
programa informático para el tratamiento de datos, concretamente el programa
326
SPSS, versión 11. Para el seguimiento del libro no se requiere ningún
conocimiento previo del funcionamiento de este programa. Este material ha
sido concebido como un instrumento aplicado al aprendizaje de la Estadística,
ya que permite ver cómo se aplican los conocimientos y se obtienen los
resultados con las herramientas informáticas disponibles.
En cada uno de los apartados se consideran dos partes que permiten, en
primer lugar, familiarizarse con el entorno del programa SPSS, y seguidamente
se procede a explicar las técnicas de análisis de datos: se incluyen una
explicación teórica con definiciones, expresiones y fórmulas que permite
introducir o recordar al lector la teoría estadística que se está utilizando.
Al finalizar el trabajo de este material, el usuario habrá adquirido los
conocimientos necesarios para utilizar el programa SPSS en los siguientes
aspectos:
- Introducción y lectura de los datos.
- Análisis de estadística descriptiva básica univariante.
- Tablas de frecuencias bivariantes.
- Contraste de hipótesis paramétricas y no paramétricas.
- Especificación, estimación y evaluación de un modelo de regresión lineal
simple. - Identificación de modelos de series temporales y realización de
predicciones.
Este material tiene un enfoque eminentemente práctico dado que para cada
uno de los procesos incluidos se presentan: instrucciones de los pasos a
seguir, imágenes de las pantallas que se van obteniendo y ejemplos resueltos
incluyendo los resultados obtenidos por el programa, así como todas las fases
intermedias que nos llevan a ellos, y las conclusiones que pueden extraerse de
los mismos.
CONCLUSIONES:
Mediante el presente trabajo hemos podido conocer y aplicar sobre los
sistemas informáticos y métodos aplicados al comercio exterior, además
hemos aprendido sobre las relaciones que existen entre las variables
dentro de un problema.
327
Con el desarrollo de problemas relacionados al comercio exterior con
respecto al tema hemos podido practicar y aprender el manejo del spss
y Excel.
La aplicación de los programas informáticos nos ayuda en nuestra vida
laboral para desempeñar nuestros conocimientos en comercio exterior.
RECOMENDACIONES:
Es de vital ayuda poner en práctica los conocimientos aprendidos ya que
nos servirán dentro de nuestra carrera y el desarrollo de la problemática
que en ella se engloba.
Es necesario identificar los resultados porque estas se aplican para el
desarrollo de proyectos.
Proponer ejercicios mediante la distribución del chi cuadrado en función
a las actividades del comercio exterior y así lograr una mayor
comprensión.
CRONOGRAMA DE ACTIVIDADES
ACTIVIDAD JULIO 2012
lunes 9 martes 10 Miercoles11 jueves 12 Sábado 14 Domingo 15
Organización del Tema X
Investigación del Tema X
Análisis del Tema X
Documentación del Tema x
Finalización del trabajo x
Estudiar trabajo x
BIBLIOGRAFÍA
http://www.spssfree.com/spss/intro13.html
328
ditutor. (2010). ditutor. Obtenido de
http://www.ditutor.com/inferencia_estadistica/estadistica_inferencial.html
http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student. (s.f.). Obtenido de
http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student:
http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student
http://es.wikipedia.org/wiki/Varianza. (s.f.). Obtenido de
http://es.wikipedia.org/wiki/Varianza: http://es.wikipedia.org/wiki/Varianza
http://nutriserver.com/Cursos/Bioestadistica/Correlacion_Regresion.html. (s.f.). Obtenido de
http://nutriserver.com/Cursos/Bioestadistica/Correlacion_Regresion.html:
http://nutriserver.com/Cursos/Bioestadistica/Correlacion_Regresion.html
http://www.gestiopolis.com/economia/matematicas-correlacion-y-regresion-lineal.htm. (s.f.).
Obtenido de http://www.gestiopolis.com/economia/matematicas-correlacion-y-
regresion-lineal.htm: http://www.gestiopolis.com/economia/matematicas-
correlacion-y-regresion-lineal.htm
http://www.monografias.com/trabajos17/pruebas-de-hipotesis/pruebas-de-hipotesis.shtml.
(s.f.). Obtenido de http://www.monografias.com/trabajos17/pruebas-de-
hipotesis/pruebas-de-hipotesis.shtml:
http://www.monografias.com/trabajos17/pruebas-de-hipotesis/pruebas-de-
hipotesis.shtml
inei. (2012).
329
EJERCICIO - CORRELACIÓN
Una compañía de seguros de transporte, considera que el número de
vehículos Asaltos(Y) en una autopista a más de 120 km/h , puede ponerse
en función del número de baches que existe en ella (x) por que se estimaría
que al bajar la velocidad estos asaltados. Durante 5 días obtuvo los
siguientes resultados:
Baches (x) 5 7 2 1 9
Asaltos (Y) 15 18 10 8 20
330
a) Calcula el coeficiente de correlación lineal.
1. Ingresamos lo datos de las variables dependiente e independiente, en
donde Baches es (X), y Asaltos es (Y).
331
2.- Pasar los datos de cada variable
2. Primero realizaremos la correlación Lineal a través de la grafica de
dispersión para analizar si esta es positiva o negativa.
3. En la ventana de dispersión y puntos escogemos diagrama de
dispersión simple y hacemos clic en definir.
332
4. Seleccionamos las variables dependiente e independiente y las
pasamos al cuadro de dialogo y agregamos el titulo de la gráfica.
5. Hacemos clic en aceptar y nos aparecerá la gráfica, donde se
diferencian los puntos de dispersión.
6.
333
7. Para trazar la recta hacemos un clic en la grafica y nos aparecerá la
ventana editor de gráficos
8. Hacemos clic en Añadir línea de ajuste total.
334
9.- Aparece la ventana propiedades y hacemos clic lineal y cerrar.
10.- Ahora tendremos la gráfica, en donde nos muestra que la relación
de la pendiente es positiva ya que es de forma ascendente por que
tienen una relación muy fuerte entre la cantidad de baches que existe en
la autopista para que se provoquen los asaltos a los transportistas.
335
336
11.- Para la relación numérica nos vamos a analizar, correlación y
bivariadas.
12.- Escogemos en la siguiente ventana las variables, cantidad de
asaltos y baches existentes en la utopista.
337
13.- Nos vamos a opciones y escogemos desviación de medidas típicas,
productos cruzados diferenciados y covarianza y hacemos clic en
continuar, y aceptar.
14.- Y obtenemos como resultado que la variable
338
15.- Para saber que tanto influye la cantidad existente de baches para
que se ocasionen los asaltos hacemos la regresión lineal en donde
obtenemos los siguientes resultados.
339
16.- En esta gráfica vemos que existe el r de square que es el nivel de
confianza que se tiene para decir que influye en un 99% la cantidad de
baches en una autopista para que se realicen los asaltos a los
automotores del transporte pesado y por consecuente la perdida de las
mercancías por que al seguro les conviene que los importadores o
exportadores contraten un seguro de mercancías.
EJERCICIO – CORRELACIÓN
340
Pasos para calcular la “CORRELACION” en el SPSS
1. Escribir las variables a utilizar
2. Pasar los datos de cada variable
Correlación
1. Hacer clic en analizar
341
2. Dar clic en correlación
3. Dar clic en bivariadas
342
4. En el cuadro que se despliega pasamos las variables a lado derecho
5. Damos clic en coeficiente de correlación Pearson y en la prueba de
hipótesis unilateral.
343
6. Damos clic en aceptar y automáticamente obtenemos los resultados de
la correlación lineal.
7. Como crear la gráfica, hacemos clic en gráficos, cuadros de diálogos
antiguos, y dispersión puntos.
344
8. En la ventana de dispersión de puntos, escogemos dispersión simple y
hacemos clic en definir.
345
9.- Elegimos las variables independiente y dependiente, hacemos clic en titulo y
ponemos el titulo que llevara nuestra gráfica.
10.- Y obtenemos nuestra grafica con los puntos de dispersión.
11.- Para trazar la línea por los puntos hacemos clic sobre la grafica y nos
aparece la ventana editor de gráficos.
346
12.- Luego hacemos clic en añadir línea de ajuste total, aparece la ventana
propiedades en donde escoges lineal y cerrar
347
13.- Y así obtendrás la grafica con la línea para saber por dónde se cruzan los
puntos y saber si es positiva o negativa.
EJERCICIO – REGRESIÓN LINEAL
348
Buscamos en Inicio el programa SPSS
Clic en aceptar en el programa
Clic en introducir datos y aceptar
349
Introducimos el nombre de la variable
Escribimos el nombre de la variable que es meses
350
El nombre de la segunda variable es importaciones
Introducimos los datos en la variable meses que son 36 meses
351
Introducimos los datos de las importaciones realizadas en los 36 meses
Clic en analizar luego de introducir los datos
352
Clic en analizar- regresion
Clic en analizar- regresión- lineales
353
Luego se deplegará una tabla y verificamos que las variables sean dependientes o
independientes
Clic en estadísticos y luego en histograma y continuar
354
A continuación se analizan los datos y aparecen los resultados
355
356
EJERCICIO - PRUEBA DE HIPOTESIS
357
La camara de Comercio del Ecuador a sacado una muestra para analizar entre
las exportacion e importaciones con los siguientes datos con un nivel de
significancia del 0.05.
AÑO – MES Exportaciones x Importaciones y
2009-01 873 1224
2009-02 800 1031
2009-03 993 1119
2009-04 1018 1019
2009-05 1113 1120
2009-06 1167 1090
2009-07 1237 1143
2009-08 1359 1082
2009-09 1212 1265
2009-10 1369 1284
2009-11 1249 1271
2009-12 1467 14178
2010-01 1334 1429
2010-02 1286 1190
2010-03 1514 1428
2010-04 1576 1679
2010-05 1360 1501
2010-06 1469 1542
2010-07 1397 1699
2010-08 1328 1872
2010-09 1392 1564
2010-10 1613 1738
2010-11 1489 1857
2010-12 1726 1773
358
2011-01 1621 1619
2011-02 1690 1511
2011-03 2032 1888
2011-04 1831 1854
2011-05 2009 1942
2011-06 1863 1981
2011-07 1974 1803
2011-08 1772 2008
2011-09 1856 2075
2011-10 1827 2035
2011-11 1868 2135
2011-12 1975 2089
2012-01 2120 2011
2012-02 2021 1773
TOTAL GENERAL 76614 90367
Pasos para calcular en el SPSS la Prueba de Hipótesis
1. Escribir las variables a utilizar
359
2. Pasar los datos de cada variable
PRUEBA DE HIPÓTESIS
1. Hacer clic en analizar y luego damos clic en configuración de medidas y para
el cálculo de la prueba de hipótesis damos clic en prueba t para una muestra.
360
2.- En el cuadro que se despliega pasamos las variables a lado derecho
361
3.- Damos clic en aceptar y automáticamente obtenemos los resultados de la
correlación lineal.
EJERCICO – T STUDENT
362
El INEC ha obtenido muestra de datos para analizar entre las importaciones
con los siguientes datos con un nivel de significancia del 0.05.
1.- Ingresamos las variables en el programa
2.- Ingresamos los datos en cada variable
3.- Seleccionar: comparar medidas y prueba T para muestras relacionadas
363
4.- Seleccionar las variables dependiente e independiente en la Prueba T para muestras
relacionadas
364
5.- Damos click en analizar
365
EJERCICIO – CHI CUADRADO
366
Buscamos en Inicio el programa SPSS
Clic en aceptar en el programa
Clic en introducir datos y aceptar
367
Introducimos el nombre de la variable
Escribimos el nombre de la variable que es meses
368
El nombre de la segunda variable es importaciones
Introducimos los datos en la variable meses que son 36 meses
369
Introducimos los datos de las importaciones realizadas en los 36 meses
Clic en analizar luego de introducir los datos
370
Clic en estadísticos descriptivos
Clic en estadísticos descriptivos-tablas de contingencia
371
Se desplega una pantalla y le damos clic en filas y columnas y estaditicos
Luego clic en chi cuadrado-continuar y aceptar
372
A continuación sale el análisis de los datos
Resumen del procesamiento de los casos
373
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
MESES *
IMPORTACIONES
36 100.0% 0 .0% 36 100.0%
Pruebas de chi-cuadrado
Valor gl
Sig. asintótica
(bilateral)
Chi-cuadrado de Pearson 1260.000a 1225 .238
Razón de verosimilitudes 258.013 1225 1.000
Asociación lineal por lineal .089 1 .765
N de casos válidos 36
a. 1296 casillas (100.0%) tienen una frecuencia esperada inferior a 5. La
frecuencia mínima esperada es .03.
374
PROYECTO DE ESTADÍSTICA INFERENCIAL
UNIVERSIDAD POLITÉCNICA ESTATAL DEL
CARCHI
ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN
COMERCIAL INTERNACIONAL
Tulcán – Ecuador
DOCENTE: MSC. JORGE POZO
INTEGRANTES:
Tamara Liceth Apráez Lima
MARZO 2012- AGOSTO 2012
TEMA:
La aplicación de los programas estadísticos en el Hospital Luis G. Dávila
PROBLEMA:
La falta de conocimiento del uso de programas estadísticos como lo es el SPSS
no ha permitido conocer al Hospital Luis G. Dávila, la cantidad de pacientes que
asistente en cada uno de sus departamentos, como el Departamento de
Cardiología.
General:
Investigar sobre el uso del programa SPSS para así poder determinar el
número de pacientes que ingresa al Hospital Luis G. Dávila por cada
departamento.
Específicos:
Investigar bibliográficamente acerca del programa SPSS para así poder
aplicar en el hospital Luis G Dávila.
Analizar e investigar los pasos a seguir para ingresar datos y obtener
resultados del número de pacientes que ingresan al Hospital según la edad
de 30 a más de 90 años.
Interpretar los datos obtenidos en el programa SPSS sobre los pacientes
que ingresan al hospital Luis G Dávila según su edad.
JUSTIFICACIÓN:
El presente trabajo tiene como finalidad la aplicación de los programas
estadísticos en el Hospital Luis G. Dávila uno de los programas a aplicarse es el
programa spss donde nos detallaran cada uno de los estadísticos para poder
analizarlos e interpretarlos y buscar una solución adecuada para cada resultado
dado además investigaremos bibliográficamente cada tema dado para ampliar los
conocimientos de estudiante con esto analizar y para qué sirve cada uno de los
temas estadísticos aplicado en el programa spss.
MARCO TEÓRICO
ESTADÍSTICA
La Estadística es la parte de las Matemáticas que se encarga del estudio de una
determinada característica en una población, recogiendo los datos, organizándolos
en tablas, representándolos gráficamente y analizándolos para sacar conclusiones
de dicha población.
Según se haga el estudio sobre todos los elementos de la población o sobre un
grupo de ella, vamos a diferenciar dos tipos de Estadística:
Estadística descriptiva. Realiza el estudio sobre la población completa,
observando una característica de la misma y calculando unos parámetros que den
información global de toda la población.
Estadística inferencial. Realiza el estudio descriptivo sobre un subconjunto de la
población llamado muestra y, posteriormente, extiende los resultados obtenidos a
toda la población.
TABLAS DE FRECUENCIA
Este procedimiento es aconsejable para aquellos casos en los que queremos
analizar los resultados de una serie de variables, que tienen todas las mismas
categorías de respuesta. Por defecto, las variables forman las columnas y las
categorías las filas. Cada casilla muestra el número de casos de esa categoría. Si
lo desea, puede seleccionar una o más variables de agrupamiento.
Una tabla de frecuencias (también conocida como tabla de distribución de
frecuencias) es una tabla en la que se organizan los datos en clases, es decir, en
grupos de valores que escriben una característica de los datos y muestra el
número de observaciones del conjunto de datos que caen en cada una de las
clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En
principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes
en el conjunto de datos junto con el número de veces que aparece, es decir, su
frecuencia absoluta. Se puede complementar la frecuencia absoluta con la
denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el
total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia
simple y la frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un histograma.
Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los
intervalos de valores.
MEDIA
Es la medida de posición central más utilizada, la más conocida y la más sencilla
de calcular, debido principalmente a que sus ecuaciones se prestan para el
manejo algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica
en su sensibilidad al cambio de uno de sus valores o a los valores extremos
demasiado grandes o pequeños. La media se define como la suma de todos los
valores observados, dividido por el número total de observaciones.
Cuando los valores representan una población la ecuación se define como:
MEDIANA
Con esta medida podemos identificar el valor que se encuentra en el centro de los
datos, es decir, nos permite conocer el valor que se encuentra exactamente en la
mitad del conjunto de datos después que las observaciones se han ubicado en
serie ordenada. Esta medida nos indica que la mitad de los datos se encuentran
por debajo de este valor y la otra mitad por encima del mismo. Para determinar la
posición de la mediana se utiliza la fórmula
MODA
El valor de la observación que aparece con más frecuencia.
Puede determinarse para todos los niveles de datos: nominal, ordinal, de intervalo
y de razón. No se ve afectada por valores muy altos o muy bajos. Al igual que la
mediana, puede utilizarse como medida de tendencia central para distribuciones
con clases de extremo abierto.
Desventajas de la moda:
Para muchos conjuntos de datos no hay valor modal porque ningún valor
aparece más de una vez.
Para algunos conjuntos de datos hay más de una moda (bimodal = que
tiene dos modas).
DESVIACIÓN ESTÁNDAR
La desviación estándar o desviación típica es la raíz cuadrada de
la varianza.
Es decir, la raíz cuadrada de la media de los cuadrados de las
puntuaciones de desviación.
La desviación estándar se representa por σ.
Desviación estándar para datos agrupados
VARIANZA
La varianza es la media aritmética del cuadrado de las
desviaciones respecto a la media de una distribución estadística.
La varianza se representa por .
Varianza para datos agrupados
COEFICIENTE DE CORRELACIÓN
Mide el grado de intensidad de esta posible relación entre las variables. Este
coeficiente se aplica cuando la relación que puede existir entre las variables es
lineal (es decir, si representáramos en un gráfico los pares de valores de las dos
variables la nube de puntos se aproximaría a una recta).
No obstante, puede que exista una relación que no sea lineal, sino exponencial,
parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la
intensidad de la relación las variables, por lo que convendría utilizar otro tipo de
coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor
es representar los pares de valores en un gráfico y ver que forma describen.
REGRESIÓN LINEAL
Tiene como objeto estudiar cómo los cambios en una variable, no aleatoria,
afectan a una variable aleatoria, en el caso de existir una relación funcional entre
ambas variables que puede ser establecida por una expresión lineal, es decir, su
representación gráfica es una línea recta. Cuando la relación lineal concierne al
valor medio o esperado de la variable aleatoria, estamos ante un modelo de
regresión lineal simple. La respuesta aleatoria al valor x de la variable controlada
se designa por Yx y, según lo establecido, se tendrá
De manera equivalente, otra formulación del modelo de regresión lineal simple
sería: si xi es un valor de la variable predictora e Yi la variable respuesta que le
corresponde, entonces
Ei es el error o desviación aleatoria de Yi
PRUEBA DE HIPÓTESIS
La estadística inferencial es el proceso de usar la información de una muestra
para describir el estado de una población. Sin embargo es frecuente que usemos
la información de una muestra para probar un reclamo o conjetura sobre la
población. El reclamo o conjetura se refiere a una hipótesis. El proceso que
corrobora si la información de una muestra sostiene o refuta el reclamo se llama
prueba de hipótesis.
A base de la información de una muestra nosotros podemos cometer dos tipos de
errores en nuestra decisión.
1. Podemos rechazar un H0 que es cierto.
2. Podemos aceptar un H0 que es falso.
El primero se llama error Tipo 1
Error Tipo 1: Cuando rechazamos una Hipótesis Nula que es cierta cometemos
error tipo 1.
Y el segundo error se llama error Tipo 2.
Error Tipo 2: Cuando aceptamos una Hipótesis Nula que es falsa
cometemos error tipo 2.
DISTRIBUCIÓN T – STUDENT
la distribución t (de Student) es una distribución de probabilidad que surge del
problema de estimar la media de una población normalmente distribuida cuando el
tamaño de la muestra es pequeño. Surge, en la mayoría de los estudios
estadísticos prácticos, cuando la desviación típica de una población se desconoce
y debe ser estimada a partir de los datos de una muestra.
Existen dos versiones de la prueba t-Student: una que supone que las varianzas
poblacionales son iguales y otra versión que no asume esto último. Para decidir si
se puede suponer o no la igualdad de varianza en las dos poblaciones, se debe
realizar previamente la prueba F-Snedecor de comparación de dos varianzas.
La distribución t de Student es la distribución de probabilidad del cociente:
Donde
Z tiene una distribución normal de media nula y varianza 1
V tiene una distribución chi-cuadrado con ν grados de libertad
Z y V son independientes
Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la
distribución t de Student no central con parámetro de no-centralidad μ.
DISTRIBUCIÓN CHI CUADRADO
Esta prueba puede utilizarse incluso con datos medibles en una escala nominal.
La hipótesis nula de la prueba Chi-cuadrado postula una distribución de
probabilidad totalmente especificada como el modelo matemático de la población
que ha generado la muestra.
Para realizar este contraste se disponen los datos en una tabla de frecuencias.
Para cada valor o intervalo de valores se indica la frecuencia absoluta observada o
empírica (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se
calculan para cada valor o intervalo de valores la frecuencia absoluta que cabría
esperar o frecuencia esperada (Ei=n·pi , donde n es el tamaño de la muestra y pi
la probabilidad del i-ésimo valor o intervalo de valores según la hipótesis nula). El
estadístico de prueba se basa en las diferencias entre la Oi y Ei y se define como:
Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n
es suficientemente grande, es decir, si todas las frecuencias esperadas son
mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias
inferiores a 5.
CRONOGRAMA:
Actividad
Días
Responsable Mar, 08 Mié,
09
Jue,
10
Vie,11 Sáb,12 Dom,13 Lun,14 Mar,15 Mié,16 Jue,17
Copias Tamara
Apraez,
Diana Coral,
Diana García,
Tania
Herrera.,
Janeth Reina
Iniciar con
los
ejercicios
Tamara
Apraez,
Diana Coral,
Diana Garcia,
Tania
Herrera.,
Janeth Reina
Terminar
los
ejercicios
Tamara
Aprez, Diana
Coral, Diana
García,
Tania
Herrera.,
Janeth Reina
Defensa de
proyecto
Tamara
Aprez, Diana
Coral, Diana
Garcia,
Tania
Herrera.,
Janeth Reina
CONCLUSIÓN
Como conclusión podemos decir que tanto la estadística descriptiva como la
inferencial es necesaria para poder analizar los resultados dados en el programa
SPSS y por ende impartir los conocimientos del estudiante y sacar nuestras
propias conclusiones sabiendo que la estadística descriptiva e inferencial son
esenciales para resolver problemas de la comunidad como es el tema del Número
de pacientes en el Hospital Luis G Dávila en la ciudad de Tulcán para solucionar
los causas y efectos que trae este tema a un problema comunitario de la cuidad .
RECOMENDACIONES:
Como recomendación podemos indicar la aplicación de ejercicios que se
relacionen con problemas de la comunidad y por ende del comercio exterior y
analizar cada uno de los resultados dados en clase dando una crítica constructiva
y aportando ideas para poder solucionar el problema del entorno en programas
informáticos con mayor veracidad dando como resultado datos viables para el
tema dado.
DATOS:
En el departamento de cardiologia vamos a estudiara y relacionar a atraves de los
programas estadisticos del SPSS la cantidad de pacientes que ingresan a este
departamento de acuerdo a los dias ade la semana.
DEPARTAMENTO DE CARDIOLOGIA
CANTIDAD DIAS PACIENTES
1 LUNES 5
2 MARTES 8
3 MIERCOLES 6
4 JUEVES 5
5 VIERNES 4
6 SABADO 8
7 DOMINGO 3
ESTADISTICA DESCRIPTIVA
1) ingresamos al programa donde nos sale una pantalla y hacemos clic en
aceptar
2.- hacemos clic en el documento donde esta los datos para aplicar la estadistica
descriptiva luego ponemos abrir el archivo
3.- luego nos sale esta pantallita en donde damos clic en aceptar
4.- y nos aprece los datos automaticamente para realizar en el ejercicio
5.- luego damos clic en vista de variables y nos damos cuenta que ya estan
ingresado las variables
6.- para realizar el ejercicio damos clic en analizar
7.- en analizar damos clic en la opcion estadistica descriptiva
8.- dentro de la estadistica descritiva damos clic en descritiva
9.- luego nos aparece un cuadro en donde vamos a pasar cada una de las
variables para poder aplicar el ejercicio
10.- luego damos clic en opciones del cuadro anterior y seleccionamos medidas ,
desviacion tipica, variables ,maximo, minimo y lista de variables y damos clic en
aceptar.
11.- automaticamente ya nos dan los resultados de la estadistica descriptiva
12.- luego nos vamos a analizar clic en estadistica descriptiva destro de esta
damos clic en frecuencias
13.- luego nos da esta pantalla en donde vamos a volver a pasar cada una de las
variables y damos clic en estadisticos
14.- no aparece esta pantalla en donde vamos a dar clic en las opciones cuartiles
media, mediana y moda , en la parte de abajo hacemos clic en desviacion tipica ,
minimos, maximos, variables y damos clic en continuar
15.- luego damos clic en graficos
16.- nos ingresa esta pantalla en donde vamos hacer clic en graficos de sectores
en porcentajes y damos continuar
17.- ya nos aparece automáticamente los resultados de las frecuencias de la
estadística descriptiva junto con el grafico
ANALISIS: Los resultado nos muestran que el mayor numero de pacientes que
acueden al departamento de cardiologia es el dia viernes con un porcentaje de
28.57% de afluencia de pacientes.
ESTADISTICA INFERENCIAL
CORRELACION
1.- damos clic en analizar
2.- dentro de analizar hacemos clic en correlaciones dentro de esta hacemos clic
en bivariadas
3.- luego nos aprece esta pantalla en donde vamos a pasar cada una de las
variables
4.- una ves pasadas las variables damos en aceptar
5.- y los datos nos parece automaticamente
6.- para realizar graficos damos clic en graficos
7.- dentro de graficos damos clic en cuadros de dialogos antiguos y dentro de este
damos clic en dispersion puntos
8.- nos parece una pantalla en donde vamos a escoger el grafico que vamos a
utilizar y luego clic en difinir
9.- luego pasamos cada una de las varibles dependiente e independiente y damos
clic en titulos
10.- nos aparece esta pantalla donde vamos a poner el titulo del grafico
11.- y luego damos clic en aceptar
12.- no aparece automaticamente el grafico que vamos a utilizar para poder
analizar los datos.
13.- luego damos clic en añadir linea de ajuste editar
14.- nos parece una pantalla y dentro de esta damos clic en linea de ajuste
hacemos clic en lineal y damos clic en aplicar
15.- y nos parece atomaticamente la grafica lineal que escogimos
REGRESIÓN LINEAL
1-.- hacemos clic en archivo dentro de este damos clic en abrir y nos parece
esta pantallita en donde vamos a escoger la carpeta en donde se encuentra
el documento de los datos
2.- seleccionamos en archivo donde se encuentran los datos de regresión lineal damos clic en
aceptar para que se ingresen los datos al programa spss
4.- luego nos aparece una pantallita en donde solo vamos a dar clic en la opción aceptar
5.- automáticamente se nos ingresan las variables en el programa Spss en la opción vista de
variables
6.- además se nos ingresa automáticamente los datos para realizar el ejercicio de regresión lineal
7.- para realizar el ejercicio de regresión lineal damos clic en analizar
8.- dentro de analizar damos clic en regresión y dentro de este icono damos clic en lineales
9.- luego nos parece esta pantalla en donde vamos a pasar la variable dependiente e
independiente
10.-luego damos clic en gráficos en donde nos parece esta pantalla y pasamos las variables
dependiente y la independiente dentro de esta pantalla hacemos clic en histograma y luego en
continuar y aceptar
11.- y nos sale automáticamente los valores de la regresión lineal con todo grafico
12.- damos clic en el cuadrito amarillo
13.- Nos parece esta pantalla
14.- damos clic en línea de ajuste en donde vamos a escoger lineal en ninguna y ponemos en
aceptar
15.- y automáticamente nos parece el grafico de la regresión lineal
PASOS PARA REALIZAR EL EJERCICIO DE LA PRUEBA DE
HIPÓTESIS
1.- prendemos el computador
2.- esperamos que se prenda totalmente
3.- damos clic en inicio
4.- seleccionamos el programa que se encuentra en la barra inicio imb spss y
damos clic
5.- esperamos que se instale el programa spss
6.- nos sale esta pantallita para poder realizar el ejercicio
7.- damos clic en la parte inferior de la pantalla en vista de datos
8.- en vista de datos debemos ingresar los datos para lo cual hacemos clic en
archivo
9.- en archivo seleccionamos la opción abrir
10.- en la opción abrir seleccionamos la opción datos
11.- a lo que hacemos clic en datos nos aparece esta pantallita para poder
ingresar los datos
12.- en la pantalla hacemos clic en archivo de tipo y se nos desglosaran los
formatos en donde se encuentra el archivo
13.- de preferencia para que se realice de manera fácil los datos que vamos
ingresar estén en excel para lo cual en la barra que se desplaza de archivo de tipo
damos clic en excel en donde se encuentran los datos
14.- después de seleccionar el archivo nos vamos en la parte superior en donde
vamos a seleccionar la carpeta en donde se encuentra los datos ya sea en
documentos, en escritorio o en la flash usb en mi caso doy clic en el nombre de la
flash
15.- al hacer clic en la flash donde se encuentra los datos se nos despliegan todos
los archivos en excel en donde debemos hacer clic en el documento donde estén
los datos de prueba de hipótesis.
16.- luego de seleccionar el archivo hacemos clic en abrir
17.- luego nos saldara esta pantallita en donde hacemos clic aceptar
18.- automáticamente los datos saldrán
19.- luego en la parte superior hacemos clic en vista de variables y nos saldrá esta
pantallita en donde ya están ingresados los datos para la prueba de hipótesis
20.- para realizar el ejercicio hacemos clic en la opción analizar que esta en la
parte superior de la pantalla
21.- en analizar seleccionamos la opción comparar medidas y se nos despliega
opciones
22.- luego en la opción comparar medidas damos clic en la opción prueba t para
una muestra que es la opción para realizar la prueba de hipótesis
23.- luego nos aparece esta pantallita en donde vamos a pasar cada uno de las
variables damos clic en la variable y clic en el botón del medio donde
automáticamente se pasaran las variables
24.- aquí en la pantalla ya están pasadas cada una de las variables y damos clic
en aceptar
25.- la repuesta de la prueba de hipótesis nos saldrá automáticamente para poder
analizar la repuesta y los resultados de la prueba de hipótesis
PASOS PARA REALIZAR LA T DE STUDENT
1.- damos click en inicio y abrimos el programa spss desde su punto de ubicación
2.- en el recuadro damos click en la segunda opción “introducir datos” y
posteriormente damos click en “aceptar”
3.- desplazamos el cursor hacia la parte superior izquierda y damos click en
“archivo”
4.- desplazamos el cursor hacia “abrir” y damos click en “datos”
5.- se abrirá un recuadro denominado “abrir datos” del cual seleccionaremos la
base de datos para ingresarlos.
6.- desplazamos el cursor hasta “archivos de tipo” y seleccionamos la opción
“excel”
7.- una vez seleccionado el archivo necesario para ingresarlo desplazamos el
cursor hacia la parte inferior y damos click en la opción “abrir”.
8.- en el siguiente recuadro “apertura de origen de datos de excel” solamente
damos click en “aceptar”
9.- una vez abierto el documento, el programa spss asigna los datos en cada
celda.
10.- desplazamos el cursor hacia la parte inferior izquierda y seleccionamos la
opción “vista de variables” para comprobar que los datos han sido ingresados
correctamente
11.- desplazamos el cursor hacia la parte superior de la pantalla y seleccionamos
la sexta pesta a denominada “analizar” y damos click en ella, despu s
desplazamos el cursor hacia la opción “compara medias” y damos click en la
cuarta opción del recuadro “prueba t para muestras relacionadas”
12.- en el recuadro “prueba t para muestras relacionadas” seleccionamos la primer
variable y damos click en la flecha para ingresar la variable en el recuadro de
“variables emparejadas” y repetimos la acción con la segunda variable.
13.- desplazamos el cursor hasta la pesta a “opciones” en donde damos click y
automáticamente aparece un recuadro en donde cambiamos el intervalo de
confianza según la veracidad de la información y finalmente damos click en
“continuar”.
14.- una vez realizado los pasos anteriores se procede a dar click en “aceptar”
para que el programa empiece a analizar los datos ingresados.
15.- aparece otra pantalla en donde los datos han sido analizados por el programa
y respectivamente se obtienen las respuestas.
ANALISIS: En la correlacion y regresion lineal nos muestra una relacion positiva
muy fuerte ya que en el departamento de cardiologia.
La prueba de hipotesis nos muestra que la hipotesis alternativa en la que no existe
afluencia de pacientes en el departamento de cardiologia es de 7,84% dejando a
la hipotesis nula, la cual no es convenciente por lo que el departamento deberia
buscar el porque no existe mucha aglomeración de pacientes en el departamento
antes mencionado.
DATOS:
TABLA DE CONTINGENCIA:
Esta tabla representa la cantidad de pacientes que ingresan a los distintos departamentos , asi podiendo relacionar y
analizar la edad promedio de los pacientes que acuden al departamento.
Hipótesis nula de que el departamento de cardiología entre los 40 a 50 tiene más afluencia.
Hipótesis alternativa de que no existe mucha afluencia en la edad de 40 a 50 años
MESES EDAD CARDIOLOGIA GINECOLOGIA TRAUMATOLOGIA PSICOLOGIA TOTAL
ENERO 30 a 40 10 9 1 11 31
FEBRERO 40 a 50 5 8 8 15 36
MARZO 50 a 60 6 7 9 16 38
ABRIL 60 a 70 8 6 4 14 32
MAYO 70 a 80 6 5 6 15 32
JUNIO 80 a 90 7 4 9 14 34
AGOSTO 90 a mas 11 8 10 12 41
TOTAL 53 47 47 97 244
APLICACIÓN DE UN PROBLEMA DE CHI CUADRADO
1.- Abrimos el programa SPSS desde el escritorio
2.- Seleccionamos la opción: Introducir datos
3.- Ir a la pestaña vista de variables:
En esta pestaña Vista de variables introducimos las mismas es decir cada
supuesto o pregunta en caso de tratarse de encuestas.
4.- Ingresamos las variables
En este caso hemos ingresado edad, cardiología, ginecología,
traumatología, psicología, que serán las variables que usaremos en el
ejemplo.
5.- luego de haber ingresado las variables procedemos a ingresar los datos
para eso iremos a la pestaña vista de datos e ingresamos valores
correspondientes.
6 luego de esto procedemos a calcular el chi cuadrado nos vamos a la
pestaña analizar, luego estadísticos descriptivos, tablas de contingencia
7.- pasamos las variables a filas y columnas respectivamente
8.- luego de haber pasado las variables vamos a la pestaña estadísticos y
seleccionamos chi cuadrado
9.- después a la pestaña casillas en donde seleccionamos esperadas y observadas
Luego continuar….
10.- pulsamos aceptar
11.- luego se desplegara otra hoja de resultados en donde estará lo que deseamos
obtener
Análisis: podemos determinar que la edad promedio de personas que
afluyen a los departamentos de cardiología, traumatología , ginecología
psicología, son en una edad promedio de 40 a 50 años de edad en donde
existe mayor personas que no padecen este tipo de enfermedades, por lo
que la hipótesis alternativa de que el departamento de cardiología que
edad promedio tienen mas afluencia, es rechazada ya que la hipótesis
alternativa de que no existe mucha afluencia es ya que en la edad de 40 a
50 años padecen este tipo de enfermedades.