Ejemplo de Analisis Estadistico en Excel vs SPSS
-
Upload
nenita-luisa-linda -
Category
Documents
-
view
32 -
download
0
description
Transcript of Ejemplo de Analisis Estadistico en Excel vs SPSS
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS ADMINISTRATIVAS
TEMA:
Aplicará funciones de probabilidad y su uso en la distribución
binomial y distribución binomial negativa tanto en Excel como
en SPSS.
GRUPO # 2
INTEGRANTES:
GOMEZ DE LA TORRE MOHAMEHT SAYNER SIMBAD
GUALOTO JUNA RONALD PATRICIO
PINCAY BERMUDEZ PAOLA BEATRIZ
TROYA OCAÑA EDMUNDO EDUARDO
VASQUEZ GUALPA WASHINGTON FELIPE
II PARCIAL
DOCENTE: ECON. GALO APOLO L.
AGOSTO, 2015
Índice
1. INTRODUCCIÓN ................................................................................................................... 1
1.1 OBJETIVOS: ........................................................................................................................ 2
1.1.1 Objetivos Generales: ................................................................................................. 2
1.1.2 Objetivos Específicos: .............................................................................................. 2
2. DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL. ......................................................... 3
2.1 Definición ......................................................................................................................... 3
2.2 Sintaxis ............................................................................................................................. 4
2.3 Propiedades de la distribución Binomial ................................................................ 5
2.4 Anexos .............................................................................................................................. 5
2.4.1 Ejemplo: 1 ..................................................................................................................... 5
3. DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL NEGATIVA ..................................... 9
3.1 Definición ......................................................................................................................... 9
3.2 Sintaxis ........................................................................................................................... 10
3.3 Propiedades de distribución Binomial negativo ................................................. 11
3.4 Ejemplo: 1 ...................................................................................................................... 11
4. CONCLUSIÓN ..................................................................................................................... 16
5. BIBLIOGRAFÍA ................................................................................................................... 17
~ 1 ~
1. INTRODUCCIÓN
Estudiaremos en este tema dos de las distribuciones de probabilidad más
importantes y que son imprescindibles en el estudio de la estadística.
La distribución binomial es uno de los primeros ejemplos de las llamadas
distribuciones discretas (que solo pueden tomar un número finito, o infinito
numerable, de valores). Fue estudiada por Jakob Bernoulli (Suiza, 1654-1705),
quién escribió el primer tratado importante sobre probabilidad, “Ars conjectandi”
(El arte de pronosticar). Los Bernoulli formaron una de las sagas de matemáticas
más importantes de la historia.
Hoy en día, en las empresas tenemos muchas situaciones donde se espera que
ocurra o no un evento especifico. Este puede ser de éxito o fracaso sin dar paso
a un punto medio. Por ejemplo, En la producción de un artículo, este puede salir
bueno o malo. Casi bueno no es un resultado de interés. Para situaciones como
estas se utilizan la distribución binomial.
Se describe el uso de la distribución binomial para obtener probabilidad de
ocurrencia de ese evento que representa un resultado esperado.
La distribución binomial negativa puede considerarse como una extensión o
ampliación de la distribución geométrica. La distribución binomial negativa es un
modelo adecuado para tratar aquellos procesos en los que se repite un
determinado ensayo o prueba hasta conseguir un número determinado de
resultados favorables (por vez primera). Es por tanto de gran utilidad para
aquellos muestreos que procedan de esta manera. Si el número de resultados
favorables buscados fuera 1 estaríamos en el caso de la distribución geométrica.
~ 2 ~
1.1 OBJETIVOS:
1.1.1 Objetivos Generales:
Conocer las funciones de Probabilidad que se aplicaran en Excel y SPSS
para realizar la Distribución Binomial y Distribución Binomial Negativa.
1.1.2 Objetivos Específicos:
Analizar el concepto de Distribución Binomial y Binomial Negativa.
Calcular la probabilidad del éxito o fracaso de un evento.
Identificar las funciones y elementos de probabilidades
~ 3 ~
2. DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL.
2.1 Definición
En estadística, la distribución binomial es una distribución de probabilidad-
discreta que cuenta el número de éxitos en una secuencia de n ensayos de
Bernoulli independientes entre sí, con una probabilidad fija p de ocurrencia del
éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser
dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se
denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con
una probabilidad q = 1 - p. En la distribución binomial el anterior experimento se
repite n veces, de forma independiente, y se trata de calcular la probabilidad de
un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho,
en una distribución de Bernoulli.
Para representar que una variable aleatoria X sigue una distribución binomial de
parámetros n y p, se escribe:
La distribución binomial es la base del test binomial de significación estadística.
Experimento Binomial:
Existen muchas situaciones en las que se presenta una experiencia binomial.
Cada uno de los experimentos es independiente de los restantes (la probabilidad
del resultado de un experimento no depende del resultado del resto). El resultado
de cada experimento ha de admitir sólo dos categorías (a las que se denomina
éxito y fracaso). Las probabilidades de ambas posibilidades han de ser
constantes en todos los experimentos (se denotan como p y q o p y 1-p).
Se designa por X a la variable que mide el número de éxitos que se han
producido en los n experimentos.
Cuando se dan estas circunstancias, se dice que la variable X sigue una
distribución de probabilidad binomial, y se denota B(n, p).
~ 4 ~
2.2 Sintaxis
La función de probabilidad es
Donde
P(X) =Probabilidad de X éxitos, dadas n y p
n = Número de observaciones
p = Probabilidad de éxitos
1-p = Probabilidad de fracasos
X = Número de éxitos en la muestra ( X = 0, 1, 2, 3, 4,……… n )
Donde
Siendo
Las combinaciones de en ( elementos tomados de en)
Ejemplo:
Supongamos que se lanza un dado (con 6 caras) 50 veces y queremos conocer
la probabilidad de que el número 3 salga 20 veces. En este caso tenemos una X
~ B (50, 1/6) y la probabilidad sería P(X=20):
~ 5 ~
2.3 Propiedades de la distribución Binomial
Media de la distribución binomial
La media de la distribución binomial es igual a la multiplicación del tamaño n
de la muestra por la probabilidad de éxito p
np
Desviación estándar de la distribución binomial
)1(2 pnp
2.4 Anexos
2.4.1 Ejemplo: 1
Una Urna contiene 40 bolas blancas y 60 bolas negras. Sacamos 8 veces una
bola, devolviéndola, cada vez, a la urna:
A. ¿Cuál es la probabilidad de que 5 sean blancas?
Paso 1: Identificación de datos:
~ 6 ~
Paso 2: Aplicación de la Función de Probabilidad Binomial Individual,
reemplazando con los datos del ejercicio:
~ 7 ~
Paso 1: En SPSS procedemos a identificar las variables con sus respectivos
datos, pulsando la opción Vista de variables:
Paso 2: Nos dirigimos a Vista de Datos y Escogemos la opción Transformar se
abre una ventana y seleccionamos Calcular variable:
~ 8 ~
Paso 3:
Se abrirá un cuadro de dialogo y en Grupo de Funciones escogemos la opción
FDP Y FDP NO CENTRADA, luego en Funciones y Variables Especiales
escogemos la opción PDF.BINOM:
Paso 4:
Reemplazamos en la función indicada nuestros datos del ejercicio,
seleccionamos la variable de destino y damos clic en aceptar:
~ 9 ~
Paso 5:
Comparamos los resultados arrojados en la tabla con los resultados de Excel:
3. DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL NEGATIVA
3.1 Definición
Puede definirse como una generalización del modelo Geométrico o de Pascal.
Así, dado un suceso A y su complementario Ac, cuando X representa el número
de veces que se da Ac (ausencias, fallos, etc.) hasta que se produce r veces el
suceso A, en una serie de repeticiones de la experiencia aleatoria en condiciones
independientes, decimos que X sigue la distribución Binomial negativa. Nótese
que, cuando r = 1, tenemos exactamente el modelo geométrico.
Este modelo queda definido por dos parámetros p (la probabilidad de A: p = P(A))
y r (el número de veces que debe producirse A para que detengamos la
experiencia).
La función de densidad viene dada por:
~ 10 ~
Donde q representa el complementario de p: q = 1 − p.
NEGBINOM.DIST (función NEGBINOM.DIST)
Este artículo describe la sintaxis de la fórmula y el uso de la función
NEGBINOM.DIST en Microsoft Excel.
Devuelve la distribución binomial negativa, la probabilidad de que se obtenga un
valor de núm_fracasos antes que de núm_éxitos, con un valor de prob_éxito.
Esta función es similar a la distribución binomial, con la excepción de que el
número de éxitos es fijo y el número de ensayos es variable. Al igual que la
distribución binomial, se supone que los ensayos son independientes.
Por ejemplo, supongamos que necesita encontrar 10 personas que dispongan
de excelentes reflejos y sabe que la probabilidad de que un candidato tenga esta
cualidad es 0,3. NEGBINOM.DIST calcula la probabilidad de que entrevistará un
número determinado de candidatos no calificados antes de encontrar los 10
candidatos buscados.
3.2 Sintaxis
NEGBINOM.DIST (núm_fracasos,núm_éxitos,prob_éxito,acumulado)
La sintaxis de la función NEGBINOM.DIST tiene los siguientes argumentos:
Núm_fracasos Obligatorio. Es el número de fracasos.
Núm_éxitos Obligatorio. Es el número límite de éxitos.
Prob_éxito Obligatorio. Es la probabilidad de obtener un éxito.
Acumulado Obligatorio. Es un valor lógico que determina la forma
de la función. Si el argumento acumulado es VERDADERO,
NEGBINOM.DIST devuelve la función de distribución acumulativa; si
es FALSO, devuelve la función de densidad de probabilidad.
~ 11 ~
3.3 Propiedades de distribución Binomial negativo
1) Esperanza: E(X) = r ´ q/p
2) Varianza: V(X) = r ´ q/p2
3) Se cumplen las siguientes propiedades respecto la función de densidad:
4) Este modelo se ajusta bien a contajes (números de individuos por unidad de
superficie) cuando se produce una distribución contagiosa (los individuos tienden
a agruparse).
5) La distribución Binomial negativa puede definirse con mayor generalidad si
tomamos r como un número real positivo cualquiera (no necesariamente entero).
Pero, en dicho caso, se pierde el carácter intuitivo del modelo y se complican
ligeramente los cálculos. Por dichas razones, se ha excluido dicha posibilidad en
esta presentación.
Donde:
X es núm_fracasos, r es núm_éxitos y p es prob_éxito.
3.4 Ejemplo: 1
En la serie del campeonato de la NBA el equipo que gane 4 de 7 juegos será el
ganador, suponga que los equipos de Chicago Bull´s y L.A. Lakers se enfrentan
en los juegos del campeonato y que Chicago Bull´s tiene una probabilidad de
55% de ganarle a L.A. Lakers:
a) ¿Cuál es la probabilidad de que Chicago gane la serie en 6 juegos?
b) ¿Cuál es la probabilidad de que Chicago gane la serie en 7 juegos?
~ 12 ~
Paso 1: Identificación de datos:
Paso 2: Aplicación de la Función de Probabilidad Binomial Negativa,
reemplazando con los datos del ejercicio:
~ 13 ~
Paso 1: En SPSS procedemos a identificar las variables con sus respectivos
datos, pulsando la opción Vista de variables:
~ 14 ~
Paso 2: Nos dirigimos a Vista de datos, luego clic en opción Transformar se abre
una ventana y damos clic en Calcular variable:
Paso 3: Se abrirá un cuadro de dialogo y en grupo de funciones escogemos la
opción FDP Y FDP NO CENTRADA, luego en funciones y variables escogemos
la opción PDF.NEGBIN:
~ 15 ~
Paso 4: Reemplazamos en la función indicada nuestros datos del ejercicio,
seleccionamos la variable de destino y damos clic en aceptar:
Paso 5:
Comparamos los resultados arrojados en la tabla con los resultados de Excel:
~ 16 ~
4. CONCLUSIÓN
En conclusión la mejor manera de visualizar el proyecto es gracias a la
comprensión de conceptos, entendimos que la distribución binomial y la
distribución binomial negativa son una poderosa herramienta probabilística que
bien aplicada nos podrá ayudar a facilitar los cálculos para la solución de
problemas.
El objetivo central de este trabajo es saber que aprendimos a diferenciar entre
una distribución binomial y una distribución binomial negativa.
Por medio de los grandes avances tecnológicos hemos ahorrado tiempo para el
análisis probabilístico, sin embargo la comprensión de la lógica que se utiliza
para llegar a la resolución del mismo.
~ 17 ~
5. BIBLIOGRAFÍA
Distribución de Probabilidad Binomial
http://es.wikipedia.org/wiki/Distribuci%C3%B3n_binomial
Lind, D & Marchal, W & Wathen, S (2008). Estadística aplicada a los Negocios y
la Economía (13 Ed). Mc Graw Hill
Distribución de Probabilidad Binomial Negativa
https://support.office.com/es-mx/article/NEGBINOMDIST-funci%C3%B3n-
NEGBINOMDIST-c8239f89-c2d0-45bd-b6af-172e570f8599?ui=es-ES&rs=es-
MX&ad=MX
~ 18 ~
TEMA: DISTRIBUCION DE POISSON Y
DISTRIBUCION HIPERGEOMETRICA
TRABAJO DEL GRUPO No. 3
COMPUTO N3
ALUMNOS
PATRICIA ARELLANO SEGUNDO CHASIJUAN
JOSELINE PARRALES KATHYUSKA RODRIGUEZ
PROFESOR: EC. GALO APOLO LOAYZA
~ 19 ~
POISSON
Es una distribución de probabilidad discreta que expresa la probabilidad
de que un número de eventos ocurran en un periodo de tiempo y es
utilizado en situaciones donde los sucesos son impredecibles o de
ocurrencia aleatoria.
Una distribución discreta es un conjunto de variables aleatorias que sólo
pueden tomar un conjunto finito o infinito numerable de valores
diferentes.
Aquí la formula donde k es el número de ocurrencias del evento o
fenómeno
λ es un parámetro positivo que representa el número de veces que se
espera que ocurra el fenómeno durante un intervalo dado.
e es la base de los logaritmos naturales
Ejercicio # 1: Un radar de carretera detecta un promedio de 6
infracciones diarias. Calcular lo siguiente:
1.- Que el radar detecte 4 infracciones al día.
2.- Que el radar detecte menos de dos infracciones al día.
Debo identificar cual es mi Media o λ que en este caso es 6, luego mi X,
en el numeral 1 mi X es 4 pues como me indica que las infracciones son 4
al día esto es X=4. En el numeral 2 mi X es 1 pues como me indica que las
infracciones son menos de dos infracciones, esto es X=1.
1) Que el radar detecte 4 infracciones al día.
Media o λ es 6
P (X=4)
~ 20 ~
Como se puede apreciar las variables que debo llenar son las siguientes:
X en este caso es 4 pues me pide detectar 4 infracciones al día
Media en este caso es mi promedio y en el planteamiento del problema
indica que existe un promedio de 6 infracciones diarias
Acumulado, ponemos cero, porque no se acumula ya que pide un valor
igual a 4, en ninguna parte indica menor o mayor 4, si fuera de esta última
forma, se pone 1.
Aquí visto el problema desde otro punto de vista
Vamos a realizar el mismo problema con SPSS:
Al iniciar el programa nos vamos a vista de variable y como solo vamos a
buscar la probabilidad de X, ponemos a Nombre X, le ponemos sin
decimales pues mi número es entero.
Luego vamos a vista de datos y ya tenemos como título en mi columna
X, el número que vamos a buscar son las 4 infracciones, luego ponemos:
Transformar/Calcular Variable y se abre una nueva ventana
~ 21 ~
En variable de destino pondremos la letra Y, en grupo de funciones
buscaremos FDP y FDP no centrada, luego en el otro menú de funciones
y variables especiales elegimos Pdf.Poisson el cual se me ejecuta mi
expresión numérica para ya trabajarlo, tengo dos interrogantes (¿?), la
primera interrogante es X que ya en su momento colocamos el 4 y la otra
interrogante es mi Media o sea el número 6, doy aceptar y se me abre
una nueva ventana que me muestra que mi formula se ha ejecutado.
Aquí el resultado final en SPSS
~ 22 ~
Y podemos observar que tanto en Excel como en SPSS el resultado es el
mismo
ANALISIS: La probabilidad de que el radar detecte 4 infracciones al día es
del 13,39%
2) Que el radar detecte menos de dos infracciones al día.
Media o λ es 6
P (X<2)
Como se puede apreciar las variables que debo llenar son las siguientes:
X en este caso es 1 pues me pide detectar menos de dos infracciones al
día
Media en este caso es mi promedio y en el planteamiento del problema
indica que existe un promedio de 6 infracciones diarias
Acumulado, ponemos uno, porque aquí si se acumula ya que pide un
valor menor a dos.
Aquí visto el problema desde otro punto de vista
~ 23 ~
Vamos a realizar el mismo problema con SPSS:
Como yo hicimos un ejercicio anterior, borramos los datos y el número
que vamos a buscar es menos de dos infracciones, es decir ahora el
número 1, luego ponemos: Transformar/Calcular Variable y se abre una
nueva ventana
En variable de destino ya está colocada la letra Y, en grupo de funciones
buscaremos FDA y FDA no centrada, luego en el otro menú de funciones
y variables especiales elegimos Cdf.Poisson el cual se me ejecuta mi
expresión numérica para ya trabajarlo, tengo dos interrogantes (¿?), la
primera interrogante es X que ya en su momento colocamos el 1 y la otra
~ 24 ~
interrogante es mi Media o sea el número 6, doy aceptar y se me abre
una nueva ventana que me muestra que mi formula se ha ejecutado.
Aquí el resultado en SPSS
Y podemos observar que tanto en Excel como en SPSS el resultado es el
mismo
ANALISIS: La probabilidad de que el radar detecte menos de dos
infracciones al día es del 1,74%
Ejercicio # 2: Las llamadas de emergencia registradas en una estación de
policía son 10 por hora. Calcular lo siguiente:
1) Que ingresen dos llamadas por hora.
2) Que ingresen como minino tres llamadas por hora.
Media o λ es 10
P (X=2)
P (X<3)
Ya identificado mis variables, procedemos a realizar en Excel el
planteamiento.
1) Que ingresen dos llamadas por hora.
~ 25 ~
X es igual a dos, mi media es 10 y como mi valor no es acumulado, se
pone 0.
La resolución del ejercicio en SPSS
En variable de destino pondremos la letra Y, en grupo de funciones
buscaremos FDP y FDP no centrada, luego en el otro menú de funciones
y variables especiales elegimos Pdf.Poisson el cual se me ejecuta mi
expresión numérica para ya trabajarlo, tengo dos interrogantes (¿?), la
primera interrogante es X que ya en su momento colocamos el 2 y la otra
interrogante es mi Media o sea el número 10, doy aceptar y se me abre
una nueva ventana que me muestra que mi formula se ha ejecutado.
~ 26 ~
Aquí el resultado en SPSS
Y podemos observar que tanto en Excel como en SPSS el resultado es el
mismo
ANALISIS: La probabilidad de que ingresen dos llamadas por hora es del
0.23%
2) Que ingresen como minino tres llamadas por hora.
X es igual a dos porque se busca mínimo tres llamadas por hora, mi media
es 10 y como mi valor es acumulado, se pone 1.
La resolución del ejercicio en SPSS
~ 27 ~
En variable de destino ya esta colocada la letra Y, en grupo de funciones
buscaremos FDA y FDA no centrada, luego en el otro menú de funciones
y variables especiales elegimos Cdf.Poisson el cual se me ejecuta mi
expresión numérica para ya trabajarlo, tengo dos interrogantes (¿?), la
primera interrogante es X que ya en su momento colocamos el 2 y la otra
interrogante es mi Media o sea el número 10, doy aceptar y se me abre
una nueva ventana que me muestra que mi formula se ha ejecutado.
Aquí el resultado en SPSS
~ 28 ~
Y podemos observar que tanto en Excel como en SPSS el resultado es el
mismo
ANALISIS: La probabilidad de que ingresen menos de tres llamadas por
hora es del 0.28%
~ 29 ~
HIPERGEOMETRICA
En Estadística, la hipergeométrica es una de las distribuciones de
probabilidad discreta. Esta distribución se utiliza para calcular la
probabilidad de una selección aleatoria de un objeto sin repetición.
Aquí, el tamaño de la población es el número total de objetos en el
experimento.
Ejercicio No. 1:
De 40 edificios en un parque industrial 15 no cumplen con el código
eléctrico. Si se seleccionan 10 edificios aleatoriamente. Determine la
probabilidad de que:
3 no cumplan el código
PROCEDIMIENTO:
Para desarrollar en Excel realizamos el siguiente procedimiento:
1. Determinamos los elementos:
2. Aplicamos la función Excel:
N= 40
n= 10
C= 15
x= 3
N-C= 25
n-x= 7
~ 30 ~
3. Se obtiene el resultado:
En SPSS:
Para desarrollar el ejercicio en SPSS realizamos el siguiente
procedimiento:
1. Identificamos y detallamos los datos de la siguiente manera:
X= población
Y= muestra
Z= población éxito
A= muestra éxito
B= resultado
~ 31 ~
2. En vista de datos colocamos los valores previamente identificados:
2. Luego nos ubicamos en transformar , calcular variables en esa
pantalla a la derecha nos ubicamos en grupo de funciones en el
caso de la hipergeométrica es FDP Y FDP no centrada en la
ventada de funciones y variables especiales nos ubicamos en
Pdf.Hyper
~ 32 ~
3. En el recuadro de expresión numérica colocamos los elementos de
la formula en el siguiente orden: (a,x,z,y) donde a es igual a muestra
éxito , x es igual a la población , z es igual a la muestra éxito y y a
la muestra.
Y en variable de destino seleccionamos b que es el resultado
~ 33 ~
4. Presionamos aceptar y se procesa el resultado:
~ 34 ~
5. Se obtiene el resultado:
6. Al final se compara los resultados con la función Excel y SPSS por
comprobación.
Ejercicio No. 2:
1.- Planteamiento:
~ 35 ~
Cuál es la probabilidad de que del total de 100 estudiantes del curso de
Computación:
3 mujeres, 7 varones (nuevos estudiantes) y un repetidor reprueben el curso,
cuando del universo de estudiantes 22 son mujeres y los 78 restante son hombres,
de los cuales son 70 nuevos estudiantes y 8 estan repitiendo.
Variables Probabilidad
Estudiantes Acierto muestra Fx= Excel Fx= SPSS
Mujeres 3 22 0.254948 0.254948
Varones 7 70 0.231960 0.231960
Repetidor 1 8 0.407297 0.407297
Suman 11 100
2.- Aplicación Excel a) Selección de formular.- La fórmula en Excel a utilizar para resolver el
ejercicio planteado es “DISTR.HIPERGEOM” a la misma se puede acceder
por dos mecanismo: Vía comando directamente de la celda
“=Distr.Hipergeom” o desde la barra de herramienta opción “formulas” +
“Estadisticas” + “Distr.Hipergeom”.
b) Selección de
variables.-
Una vez
identificada
la formula se
procede a la
selección las
variables
requeridas por la ventana de “Argumentos de función”:
* Muestra_éxito: 3 Es el número de aciertos que necesitamos medir su
probable distribución en el resultado.
* Núm_de_muestra: 22 Es la cantidad exacta del universo toda que
forma parte de la probabilidad global para nuestros aciertos.
* Población_éxito: 11Es el número total de todos los aciertos que
necesitamos obtener su probabilidad de las diferentes variables (para
este ejercicio son tres variables: Mujeres; Hombres y repetidores)
* Núm_de_población: 100 El del universo total de donde tomamos las
muestra para el estudio de distribución
~ 36 ~
c) Resultado:
Una vez seleccionadas las variables se procede a dar clip en “aceptar”
y se obtiene la probabilidad, y el proceso se repite para cada una de las
variables
Variables Probabilidad
Acierto muestra Fx= Excel Fx= SPSS
Mujeres 3 22 0.254948
Varones 7 70 0.231960
Repetidor 1 8 0.407297
Suman 11 100
Nota: En el caso de tener una serie de variable y para ahorrar el trabajo,
al momento de seleccionar en la formula las celdas de
“Poblacion_de_éxito” y “Núm_de_población” se las fijan con F4.
~ 37 ~
3.- Aplicació3n en SPSS Statistics a) Planteamiento.- En diferencia al planteamiento en Excel, las
sumatoria se las colocan directamente como una columna más, es
decir sin que esto implique una fórmula para el resultado.
b) Selección de formula.- Una vez planteado el ejercicio se procede a la
selección de la fórmula que en diferencia a Excel no existe un comando
en las celdas misma que te permita ir directamente, necesariamente se
necesita seleccionar en la barra de herramientas la opción
“transformar” + “Calcular variable”
Una vez selecciona la opción “calcular variable” se activa una ventana
en la cual debemos seleccionar de “Grupo de funciones” la opción
“FDP y FDP no centrada”; y de “Funciones y variables especiales” la
opción “Pdf.Hyper” que es la función de distribución Hipergeometrica, y
~ 38 ~
le damos doble clip y automáticamente nos aparece la formula en la
parte superior en “Expresión numérica”.
a)
c) Selección de
variables.- Una vez
identificada la
formula se
procede a la
selección las variables requeridas por la ventana de “Calcular variable”:
Formula PDF.HYPER(¿,?,?,?)
* “C”: Es la columna de los números de aciertos que deseamos en el caso de
nuestro ejercicio es “Aciertos”.
* “total”: Es la columna del total de la población en nuestro ejercicio es igual a
“Total_Población”.
* “Muestra”: es cada una de la muestra de las diferentes variables o variable
que plante el ejercicio, en el caso de nuestro ejercicio es la columna
“muestra”.
* “Aciertos”: Es la sumatoria de cada uno de los aciertos que deseamos en
cada variable, en nuestro ejercicio es la columna “Total Aciertos”
* “Variable de destino”: es el nombre que le damos a la columna donde se
reflejara el resultado.
c) Resultado:
~ 39 ~
Una vez seleccionadas las variables se procede a dar clip en “aceptar” y se
obtiene la probabilidad de cada una de las variables, en diferencia a Excel no
debes calcular una a una ni debes fijar alguna celda para rellenar.
~ 40 ~
Ejercicio No. 3:
Al someter a prueba un tipo de caucho para camiones sobre un terreno
mojado, se observó que de los 120 camiones puesto a prueba,
36 no terminaron la prueba por deslizamiento. Si
se someten a prueba 16 camiones
Hallar la probabilidad de que
exactamente 6 no finalicen la prueba
Halle la probabilidad de que
menos que 2 no finalicen la
prueba
Paso 1
Comienzo a analizar el ejercicio, aquí me está indicando que tengo un
total de 120 camiones. Cual sería mi probabilidad de que de estos
exactamente 6 no finalicen la prueba y de que menos de 2 no finalicen
la prueba. Defino mis variables y comienzo a resolver
probabilidad de que 6 exactamente no finalicen
la prueba
N= 120
C= 36
n= 16
x= 6
probabilidad que menos de 2 no finalicen la
prueba
N= 120
C= 36
N= 16
x<2 1
Al escoger mi formula tengo que verificar bien, ya que existe una
distribución Hipergeometrica normal y una negativa, en este caso se
aplica la normal
~ 41 ~
Esta es la que yo voy a aplicar porque voy a
hallar mi probabilidad
Paso 2
Comienzo a aplicar mi formula de Excel de la siguiente manera
Como vemos aquí mi muestra de éxito es 6 de los que me piden que
exactamente esos no finalicen la prueba, esta es mi probabilidad.
Luego me pide mi número de muestra que en este caso viene a ser mis
16 camiones que se someten a la prueba
Luego de este ubico mi población de éxito que es mi 36 que no
terminaron la prueba por deslizamiento.
Y por último tenemos mi población total que son mis 120 camiones.
Y como resultado me da 0.173234572
Ejercicio en spss
Comienzo a ubicar mis variables y valores
~ 42 ~
Luego veo mis datos si están correctos
Y procedo a irme a transformar calcular
Transformar variables y cojo fdp y fdp no centrada y luego pdf hyper
Me va a aparecer una ventanita que me sale calcular variable existente
y ponemos aceptar, porque es allí donde aparecerá nuestro resultado
~ 43 ~
Y procedo a calcular
Ubicando mis variables
En este caso el orden para obtener mi resultado es mi prueba de éxito,
luego x que es mi población total, de ahí pongo z que es mi población
de éxito y por último y que es mi muestra y obtengo mi resultado de la
sgte manera:
~ 44 ~
Luego de esto me ubico en vista de datos para ver mi resultado
Y ese es el resultado obtenido tanto en Excel como en sps
Comparación
Procedo a resolver mi sgte probabilidad de que menos de 2 no finalicen
la prueba
Y obtengo mi resultado
Y se realiza el mismo procedimiento
En spss
~ 45 ~
Y obtenemos el resultado
~ 46 ~
REGRESIÓN LINEAL SIMPLE EN EXCEL Y SPSS.
Docente: Econ. Galo Apolo
Integrantes: Álava Velásquez Darlin Humberto
Asacata Asacata Walter Gonzalo
Barchi Jiménez María Isabel
Castro Yépez Carmen Carolina
~ 47 ~
Guzmán Rugel Alexandra Esther
N3: GRUPO # 5 7HOO - 10H00 AM
Segundo Parcial
REGRESIÓN LINEAL SIMPLE
Es el proceso que consiste en poner en relación a una variable dependiente (Y)
en Función de otra independiente (X), llamada también variable explicativa o
predictora, mediante la ecuación de una recta, basados en una relación de
causalidad para el fenómeno en estudio.
Así, en el ejemplo 5.1 vemos que las cantidad demandada de muñecas (Y), es
una función del precio de las mismas (X). Es decir, que Y = f(X).
La relación funcional a la que se postula es la ecuación de una recta, por lo tanto,
se postula que:
Yi = a + bXi.
Donde a y b son los coeficientes de regresión, siendo b la pendiente de la recta
y es negativa porque recoge el efecto de la relación inversa entre el precio de
las muñecas y la cantidad demandada.
En el diagrama de dispersión obtenido antes, se puede apreciar que no todos los
puntos caen sobre la recta postulada, por lo que es necesario agregarle al
modelo una Componente de error, así el modelo queda como:
~ 48 ~
Yi = a + bXi + ei
Ahora el problema se reduce a encontrar los valores de a y de b que permitan
hacer pronósticos de Y asumiendo determinados valores de X,. Para poder
determinar los valores de a y de b, se postula que los errores promedien cero,
es decir buscando que todos los puntos caigan sobre la recta y que la varianza
de estos errores sea mínima, surgiendo así el método de los mínimos cuadrados
ordinarios.
Modelo de Regresión Lineal Simple Fórmulas
~ 49 ~
Donde:
Regresión lineal simple en Excel
Para poder realizar el ejercicio de regresión lineal simple e Excel se tiene abrir el
programa Excel:
Y nos aparecerá de esta manera:
Abierto el programa el siguiente paso es ingresar el ejercicio y los datos de
regresión lineal simple:
Ejercicio
~ 50 ~
En una agencia bancaria se registró el número de depósitos realizados y el
monto total de estas transacciones en una hora de trabajo dando los siguientes
resultados.
a) Obtenga la ecuación de regresión lineal simple el monto total y el número
de depósitos.
b) Estime cual sería el monto total cuyo número de depósitos es 20 interprete
el resultado.
c) Realice el grafico de los datos junto con la recta estimada a y b de una
interpretación al mismo.
Ya ingresado procedemos con el desarrollo del ejercicio de regresión
lineal simple los datos los ordenamos en forma vertical:
Y sumamos los datos del número de depósitos x es una variable independiente
y también los monto miles de dólares y es una variable dependiente quedando
de esta manera como esta en el gráfico.
Como y depende de x.
y monto (miles de dolares) 10 5 7 19 11 8
x numero de depositos 16 9 3 25 7 13
Observaciones numero de depositos monto miles de dolares
x y
1 16 10
2 9 5
3 3 7
4 25 19
5 7 11
6 13 8
~ 51 ~
Se procede a resolver el cuadro de regresión lineal simple se multiplica el valor
de x con el valor de y y presionamos enter y nos da un resultado como este y
lo resolvemos en forma vertical:
Ahora procedemos con el siguiente proceso de elevar los valores de x al
cuadradox^2 en forma vertical excepto la sumatoria:
Observaciones numero de depositos monto miles de dolares
x y
1 16 10
2 9 5
3 3 7
4 25 19
5 7 11
6 13 8
73 60
~ 52 ~
Ya realizado el cuadro con los valores y el siguiente paso es obtener el número
de datos, la media y, la media x, y la media x elevado al cuadrado x^2 y nos
queda de esta manera.
Para obtener el número de datos se arrastra el último valor de observaciones
que a su vez es el 6.
Para obtener la media y se debe aplicar la función promedio y nos indicara que
ingrese los valores y tenemos que ingresar los valores de media excepto la suma
total y se presiona enter y nos da un resultado como se puede observar.
Las obtener la media de x se debe aplicar la función promedio y nos indicara que
ingrese los valores y tenemos que ingresar los valores de x excepto la suma
total y se presiona enter y nos da un resultado como se puede observar.
n datos 6
media y 10
~ 53 ~
Procedemos a resolver la media x elevada al cuadrado:
Y nos da el resultado requerido.
~ 54 ~
Procedemos a resolver las fórmulas de regresión lineal simple:
En este caso procedemos a resolver la formula de b ingresamos la suma de xy
menos el numero multiplicado la media de x y la media y y presionamos enter.
En forma manual:
Resolvemos el siguiente paso que es la suma de x^2 menos el numero de datos
multiplicado con la media de x^2y presionamos enter.
~ 55 ~
Y resolvemos la ecuación de b dividiendo la primera parte de la formula con la
segunda parte y presionamos enter.
Y nos da el resultado esperado:
~ 56 ~
En forma de función se tiene usar la función de pendiente tomamos todos los
valores de numero de depósitos x y monto miles de dólares y y presionamos
enter y el resultado esperado.
Ahora resolvemos la formula a:
Tomamos la media y menos el resultado de b multiplicado con la media de x y
presionamos enter:
~ 57 ~
Y la forma de función es mediante la función intersección eje donde tomamos los
valores de numero de depósitos x y los valores de monto miles de dólares y y
presionamos enter y obtenemos el resultado esperado.
El siguiente paso es resolver la ecuación de regresión lineal simple con su
respectivo análisis:
En la cual se toma el resultado de a más el resultado de b multiplicado con
variable x que a su vez da como resultado de 13,96.
Ý= a + bx
~ 58 ~
En forma de función se aplica la función de pronóstico en la cual se toma los
valores de números de depósitos x y los valores de monto miles de dólares y
presionamos enter y nos da el resultado de 13,96.
Ahora realizamos el literal b que es estime cual sería el monto total cuyo número
de depósitos es 20 interprete el resultado.
Procedemos a restar el valor de y menos el monto miles dólares que es 19
menos el resultado de la ecuación que es 13,96 y nos un resultado de 5,04 y en
el siguiente grafico podemos observar el análisis de este resultado.
~ 59 ~
Análisis se puede observar en el perímetro que en el número de depósitos es
de 25 el monto es de 19 al estimar el monto de 20 existe una disminución del
monto de 5,04 debido a la baja de 5 depósitos.
El siguiente paso es realizar el grafico:
Tomamos los valores de número de depósitos x y el monto miles de dólares y:
~ 60 ~
Y nos vamos a insertar en el cual buscamos en donde dice dispersión y hacemos
clic y dándonos algunas opciones pero en este caso escogemos la primera
opción y automáticamente nos da el grafico y hacemos clic:
Y el siguiente paso es ingresar la línea de dispersión primero hacemos clic en
los puntos azules que están en el gráfico y damos un clic derecho y nos
aparecen unas opciones y escogemos la opción agregar línea de tendencia, la
presentación ecuación en el gráfico y automáticamente la línea, la ecuación de
la regresión lineal aparece y se plasma en el gráfico.
numero de depositos monto miles de dolares
x y
16 10
9 5
3 7
25 19
7 11
13 8
~ 61 ~
Y el siguiente paso realizar un análisis sobre el grafico de regresión lineal
simple:
Análisis:
La pendiente es positiva lo que nos indica que a medida que aumenta el
número de depósitos aumenta el número
Del monto total además, al obtener un coeficiente de determinación 0.64
podemos concluir que el 64% del monto de ventas se explica por la relación
lineal que existe entre el número de depósitos.
El siguiente paso es ir a archivo hacer clic en opciones:
~ 62 ~
Y nos dará una serie opciones de entre las cuales haremos clic en
complementos, iremos en donde dice administración y haremos clic en
complementos de Excel y haremos clic en donde dice ir:
Y nos aparecerá un cuadro de complementos con una serie de opciones y
debemos poner un visto en herramientas de análisis y herramientas de análisis
de VGA y hacemos clic en aceptar
~ 63 ~
Y queda instalado la base de datos de esta manera:
~ 64 ~
Ir a base de datos hacer clic y nos dará un serie de opciones
Y escogemos regresión y nos aparece un cuadro de análisis de regresión lineal
simple en donde se debe ingresar los datos de x y y en donde dice rango y de
entrada van todos los datos de y y en donde dice rango x de entrada van los
datos de x damos un clic en rótulos y para que aparezca los títulos de x y y en
donde dice opciones de salida marcamos en rango de salida para escoger algún
lugar de la hoja de Excel para que aparezca en ese lugar escogido en este caso
yo escogí una hoja nueva.
Y de esta manera aparece el cuadro de resumen de análisis regresión lineal
simple y análisis de varianza:
~ 65 ~
Y procedemos a realizar un análisis de datos estadísticos de la regresión.
El siguiente paso es realizar un análisis sobre este cuadro
Análisis:
R^2 0,55 Es una relación positiva media entre estos 2 puntos de x y.
Entre más se acerque a 1 este valor tiene una relación positiva
Entre más se acerque este a 0 este valor no pueden tener una relación positiva.
~ 66 ~
Y = a+bx
Y=3,85263158+ 0,50526316x
REGRESIÓN LINEAL EN SPSS
1. Primero se debe tener abierto el programa de EXCEL y el SPSS y copiamos
las variables X y para traerlas al SPSS
EN EXCELL:
~ 67 ~
Para llevar las variables X y se lo puede hacer con las teclas CTRL + C; luego y
ya abierto el SPSS damos con las teclas CTRL + V para copiar los valores en
SPSS como podemos ver en el siguiente gráfico:
2. Para obtener el grafico de regresion lineal se busca la opcion GRAFICO DE
DIALOGO ANTIGUOS y de hay DISPERSION DE PUNTOS
~ 68 ~
3. Escogemos la opción DISPERSIÓN SIMPLE. Y la opción DEFINIR
4. El cual nos va a mostrar otra ventana, en donde tenemos que ubicar las
variables independientes (X) y las variables dependientes (Y) como se muestra
en el siguiente gráficos
~ 69 ~
5° Se da ACEPTAR para que salga el diagrama regresión lineal y se da click en
cualquiera de los puntos y escogemos la opción LINEAL de los cuadros
pequeños. Para obtener el grafico del ejercicio
~ 70 ~
60 Ya que se obtuvo el grafico; nuestro siguiente paso es el obtener los datos de
la REGRESIÓN LINEAL. Para ello debemos ir a la barra de herramientas del
SPSS y escoger la opción ANALIZAR el cual nos va aparecer una lista de
opciones en la que tenemos que escoger REGRESIÓN y luego escoger de la
nueva lista la opción LINEALES
~ 71 ~
7. De aquí se nos abre una ventana en donde tenemos que definir las variables
dependientes (Y) y las variables independientes (X)
Ya una vez ubicadas las variables procedemos a elegir la opción ACEPTAR.
Para que nos aparezca el cuadro el cuadro de texto del SPSS en donde nos
viene toda la información de la REGRESION LINEAL
~ 72 ~
Con estos resultados podemos comparar con EXCEL los resultados que está en
el TEXTO DEL SPSS encerrados en círculos; incluyendo también el grafico tanto
en EXCEL como en el SPSS:
~ 73 ~
EN EXCELL
Quedando la siguiente formula:
En donde si X es cero; Y es igual a 3.85 Como se demostró en el SPSS
El grafico en EXCEL es el siguiente:
~ 74 ~
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS ADMINISTRATIVAS
TRABAJO EN EQUIPO
“REGRESIÓN LINEAL MÚLTIPLE”
ASIGNATURA: CÓMPUTO 3
TUTOR: ING. GALO APOLO
INTEGRANTES:
ARÉVALO PARRA BLANCA ARACELLY.
CAMPOS CEDEÑO LISSETTE ANNABEL.
JIMENEZ ORTEGA JENNY GEOMAIRA.
SEGURA SEGURA KIMBERLY PAMELA.
PERIODO LECTIVO: 2015-2016
REGRESIÓN LINEAL MÚLTIPLE (EXCEL)
~ 75 ~
El promotor inmobiliario selecciona al azar una muestra de 11 edificios de
oficinas entre 1.500 edificios y obtiene los siguientes datos:
X1 X2 Y
Área Antigüedad Precio
1 2.3 2 98
2 3.4 8 162
3 3.2 11 164
4 5.7 9 230
5 5.3 11 210
6 5.1 12 200
7 4.8 22 182
8 6.4 8 300
9 5.4 17 192
10 9.1 18 360
11 10.4 12 464
X1= Area es la variable independiente.
X2= Antigüedad es la variable independiente.
Y= Precio es la variable dependiente.
DE FORMA MANUAL
1. Se eleva X1 al cuadrado, arrastramos las celdas hacia abajo, y
seleccionamos autosuma.
2. Se eleva X2 al cuadrado, arrastramos las celdas hacia abajo, y
seleccionamos autosuma.
3. Se multiplica X1 por X2, arrastramos las celdas hacia abajo, y
seleccionamos autosuma.
4. Multiplicamos X1 por Y, arrastramos las celdas hacia abajo, y
seleccionamos autosuma.
5. Multiplicamos X2 por Y, arrastramos las celdas hacia abajo, y
seleccionamos autosuma.
~ 76 ~
DEMOSTRACIÓN
FÓRMULA MATRICIAL
DEMOSTRACIÓN
Reemplazar mediante la fórmula los datos de la tabla anterior de la siguiente
manera:
~ 77 ~
PRIMERA MATRIZ
PRIMERA COLUMNA DE LA FÓRMULA
1. N es el número de datos
2. ∑X1 es la suma total de los valores del área.
3. ∑X2 es la suma total de los valores antigüedad.
SEGUNDA COLUMNA DE LA FÓRMULA
1. ∑X1 es la suma total de los valores del área.
2. ∑X12 es la suma total de los valores del área elevado al
cuadrado.
3. ∑X1*X2 es la multiplicación de los valores de área por antigüedad.
TERCERA COLUMNA DE LA FÓRMULA
1. ∑X2 es la suma total de los valores antigüedad.
2. ∑X1*X2 es la multiplicación de los valores de área por antigüedad.
3. ∑X22 es la suma total de los valores de la antiguedad elevado al cuadrado.
11 61.1 130
XXT 61.1 397.81 775
130 775 1840
SEGUNDA MATRIZ
1. ∑y es la suma total de los valores del precio.
2. ∑X1*Y es la multiplicación del área por el precio.
3. ∑X2*Y es la multiplicación de la antigüedad por el precio.
11
61.1
130
61.1
397.81
775
130
775
1840
~ 78 ~
2562
XTY 16677
31792
INVERSA DE LAS MATRICES
1. Seleccionamos 3 filas y 3 columnas.
2. Buscamos la formula MINVERSA y seleccionamos la primera parte de la matriz,
cerramos paréntesis y presionamos Ctrl+Shift+Enter.
0.79916157 -0.07102961 -0.02654514
-0.07102961 0.02032199 -0.00354114
-0.02654514 -0.00354114 0.00391046
3. La segunda matriz permanece igual.
2562
16677
31792
Para obtener los coeficientes hacemos la multiplicación de la inversa de las matrices
mediante la fórmula MMULT.
18.9680762
44.352118
-2.74279421
~ 79 ~
Entonces nuestra ecuación es la siguiente:
Donde:
B0 = 18.9680762
B1 = 44.352118
B2= -2.74279421
Realizamos el análisis:
El precio depende del área y la antigüedad a mayor valor aumentará sus precios.
A menor valor de las variables independientes el precio disminuye.
REGRESIÓN LINEAL MÚLTIPLE (FORMULA EXCEL)
El promotor inmobiliario selecciona al azar una muestra de 11 edificios de
oficinas entre 1.500 edificios y obtiene los siguientes datos:
X1 X2 Y
Área Antigüedad Precio
1 2.3 2 98
2 3.4 8 162
3 3.2 11 164
4 5.7 9 230
5 5.3 11 210
6 5.1 12 200
7 4.8 22 182
8 6.4 8 300
9 5.4 17 192
10 9.1 18 360
11 10.4 12 464
~ 80 ~
1. Seleccionamos en la barra de herramientas la opción Datos.
2. Seleccionamos “análisis de datos”.
3. En el cuadro de análisis de datos seleccionamos regresión y damos clic en aceptar.
4. Aparece la ventana de regresión
En rango Y de entrada: seleccionamos la columna de precio (variable
dependiente).
~ 81 ~
En rango X de entrada: seleccionamos las columnas área y antigüedad (variables
independientes).
Si seleccionamos los datos desde su nombre de la variable, seleccionamos la
opción “rótulos”.
Opciones de salida: podemos elegir entre las 3 alternativas.
Rango de salida: se ubica en la celda de la misma hoja.
En una hoja nueva: en otra hoja.
En un libro nuevo: se crea otro archivo.
5. Damos clic en “aceptar” y aparece automáticamente la tabla de resumen de la regresión
lineal múltiple.
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.98331805 Existe una relación positiva fuerte.
Coeficiente de determinación R^2 0.96691439
R^2 ajustado 0.95864299
Error típico 21.1259041
Observaciones 11
ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 2 104344.4785 52172.23924 116.8984808 1.19828E-06
Residuos 8 3570.430607 446.3038259
Total 10 107914.9091
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0% Superior 95,0%
Intercepción 18.9680762 18.88567882 1.004362957 0.344611754 -24.58237722 62.51852967 -24.58237722 62.51852967
Area 44.352118 3.011607702 14.7270569 4.44265E-07 37.40733817 51.2968978 37.40733817 51.2968978
Antigüedad -2.7427942 1.321080602 -2.076174768 0.071539279 -5.789211544 0.303623119 -5.789211544 0.303623119
~ 82 ~
REGRESIÓN LINEAL MÚLTIPLE (SPSS)
El promotor inmobiliario selecciona al azar una muestra de 11 edificios de
oficinas entre 1.500 edificios y obtiene los siguientes datos:
1. Seleccionamos en “vista de variables” e insertamos los nombres de las variables que
vamos a analizar (X1,X2,Y)
2. Ubicamos las diferentes opciones de vista de variables dependiendo de nuestros
datos, en este caso utilizaremos nuestra primera variable con decimales.
3. Ponemos etiquetas a nuestras variables.
4. Podemos alinear a la izquierda, derecha o centrado.
5. Seleccionamos la medida, como nuestros datos son cuantitativos seleccionamos
escala.
Demostración:
X1 X2 Y
Área Antigüedad Precio
1 2.3 2 98
2 3.4 8 162
3 3.2 11 164
4 5.7 9 230
5 5.3 11 210
6 5.1 12 200
7 4.8 22 182
8 6.4 8 300
9 5.4 17 192
10 9.1 18 360
11 10.4 12 464
~ 83 ~
1. Ubicamos en vista de datos los valores de nuestras variables (copiar, tipear o enviar
directamente desde el archivo).
2. Seleccionamos en “Analizar” luego “regresión” y elegimos “lineales”.
3. Aparece el cuadro de regresión lineal y ubicamos las variables la Y que es la dependiente:
precio, Independientes: X1 es el área y X2 es la antigüedad y damos clic en aceptar.
~ 84 ~
RESUMEN DEL ANÁLISIS DE LA REGRESIÓN MÚLTIPLE
Variables entradas/eliminadasa
Modelo
Variables
introducidas
Variables
eliminadas Método
1 Antiguedad,
Areab . Intro
a. Variable dependiente: Precio
b. Todas las variables solicitadas introducidas.
Nos damos cuenta que todas las variables están insertadas.
Resumen del modelo
Modelo R R cuadrado
R cuadrado
ajustado
Error estándar
de la estimación
1 ,983a ,967 ,959 21,126
a. Predictores: (Constante), Antiguedad, Area
Es la estadística de la regresión.
ANOVAa
Modelo
Suma de
cuadrados gl
Media
cuadrática F Sig.
1 Regresión 104344,478 2 52172,239 116,898 ,000b
~ 85 ~
Residuo 3570,431 8 446,304
Total 107914,909 10
a. Variable dependiente: Precio
b. Predictores: (Constante), Antiguedad, Area
Es el análisis de la varianza
Coeficientesa
Modelo
Coeficientes no estandarizados
Coeficientes
estandarizados
t Sig. B Error estándar Beta
1 (Constante) 18,968 18,886 1,004 ,345
Area 44,352 3,012 1,032 14,727 ,000
Antiguedad -2,743 1,321 -,145 -2,076 ,072
a. Variable dependiente: Precio
COMPROBACIÓN
FORMA MANUAL
18.9680762
44.352118
-2.74279421
FORMULA EXCEL (REGRESIÓN)
Intercepción 18.9680762
Area 44.352118
Antigüedad -2.74279421
SPSS
Coeficientesa
Modelo
Coeficientes no estandarizados
Coeficientes
estandarizados
t Sig. B Error estándar Beta
1 (Constante) 18,968 18,886 1,004 ,345
Area 44,352 3,012 1,032 14,727 ,000
Antiguedad -2,743 1,321 -,145 -2,076 ,072
a. Variable dependiente: Precio
~ 86 ~
GRUPO #4
Diana Olives Moncayo
PRUEBA T SUPONIENDO VARIANZAS IGUALES
A continuación, explicaremos como realizar una prueba T suponiendo varianzas
iguales en ambos Excel y el programa SPSS.
EXCEL
En Excel tenemos las siguientes calificaciones de dos universidades distintas, la
Universidad de Guayaquil y la Universidad Católica. Queremos verificar si las medias
de los datos son diferentes o iguales entonces declaramos las siguientes hipótesis (cabe
recalcar en utilizaremos un margen de error de 0.05):
En Excel, para determinar el estadístico T hay que hacer 3 pasos:
H1= Existe una diferencia significativa entre la media de calificaciones del grupo de la
Universidad de Guayaquil y la media de calificaciones del grupo de la Universidad Católica. H
0= NO existe una diferencia significativa entre la media de calificaciones del grupo
de la Universidad de Guayaquil y la media de calificaciones del grupo de la Universidad Católica.
~ 87 ~
Tenemos las siguientes formulas:
Para realizar ambas fórmulas elaboramos la siguiente tabla. Es solamente tomar los
datos de ambas universidades y elevarlos al cuadrado como nos pide la formula y
calcular “n”.
Utilizamos la función “Contar” y en este caso “n1” y “n2” tienen el mismo valor que es
15.
~ 88 ~
Realizamos la primera formula de esta manera:
S1:
S2:
El siguente paso para calcular la Prueba T es:
~ 89 ~
Asi realizamos la formula y obtenemos el valor 1.44.
Finalmente, determinamos la Prueba T utilizando una formula, o sea de forma manual.
Obtenemos el valor 0.1522. Este es nuestro estadístico T. Para confirmar que esta
bien, realizamos la prueba T mediante “Analisis de datos” en Excel.
Primero, hacemos clic en “Datos” y despues en “Analisis de datos”.
Segundo, localizamos en la lista “Prueba t para dos muestras suponiendo varianzas
iguales”.
~ 90 ~
Despues para cada variable, elegimos los rangos de cada universidad. En este caso el
primer rango son las calificaciones de la Universidad de Guayaquil y el segundo rango
las calificaciones de la Universidad Católica.
Elegimos una opcion de salida. Vamos a escoger un rango de salida para que nos
aparezca en la misma hoja de trabajo.
~ 91 ~
Aquí podemos verificar que nuestro estadistico t si tiene el mismo valor que nos dio la
formula (0.1522).
Ahora, para ver cual hipotesis se rechaza y cual se acepta, observamos el estadistico t
(0.15522) y el valor critico de t (dos colas). Utilizamos dos colas porque son dos
muestras.
Si el estadistico t es MENOR que el valor critico de t,
entonces aceptamos la hipotesis nula que es que NO
existe una diferencia significativa entre las dos medias.
Rechazamos la hipotesis alterna.
H1= Existe una diferencia significativa entre la media de calificaciones del grupo de
la Universidad de Guayaquil y la media de calificaciones del grupo de la Universidad Católica.
H0= NO existe una diferencia significativa entre la media de calificaciones del
grupo de la Universidad de Guayaquil y la media de calificaciones del grupo de la Universidad Católica.
~ 92 ~
SPSS
Abrimos el programa SPSS y copiamos los mismos datos de Excel de esta forma:
Primero, en vista de variables, le ponemos nombres a cada variable. En este caso
“Universidad” y “Calificación”. Le bajamos a 0 decimales. Tenemos que poner etiqueta
a la variable “Universidad” y darle valores a cada universidad. Para eso hacemos lo
siguiente:
Hacemos clic en valores como podemos ver en la imagen.
Nos aparece la siguiente ventana. Le damos un nombre y un valor a cada universidad.
Primer en valor ponemos “1” y como etiqueta “UG” y hacemos clic en “Añadir”, esto
quiere decir que el numero 1 va a representar a la Universidad de Guayaquil.
Hacemos lo mismo para la Universidad Catolica pero ahora el numero 2 va a
representar a la UC.
H1= Existe una diferencia significativa entre la media de calificaciones
del grupo de la Universidad de Guayaquil y la media de calificaciones del grupo de la Universidad Católica.
H0= NO existe una diferencia significativa entre la media de
calificaciones del grupo de la Universidad de Guayaquil y la media de calificaciones del grupo de la Universidad Católica.
~ 93 ~
El siguiente paso es copiar y pegar nuestros valores de Excel a SPSS y eso se hace
seleccionando los datos y pegarlos en SPSS en donde corresponden. Tenemos lo siguiente:
~ 94 ~
Ahora, para realizar la prueba t, hacemos clic en “Analizar”.
~ 95 ~
Ponemos el cursor sobre “Comparar medias” y después hacemos clic en “Prueba T para
muestras independientes”.
Nos aparece la siguiente ventana. En esta ventana ingresamos la variable de prueba que este
caso es la variable dependiente, la calificación de los estudiantes de cada universidad. En
“Variable de agrupación” insertamos la variable “Universidad”.
Como podemos observar en la imagen superior, después de universidad nos aparecen dos signos
de interrogación. Aquí vamos a dar uso a los valores de cada etiqueta, o cada universidad.
~ 96 ~
Hacemos clic en “Definir grupos…” y nos aparece la siguiente ventana. Si bien recordamos el
numero 1 representaba a la Universidad de Guayaquil, en este caso el grupo 1. Y el numero 2
representaba a la Universidad Católica, en este caso el grupo 2. Hacemos clic en “Continuar” y
después en “Aceptar”.
Finalmente, se abre otra ventana donde aparecen los datos de la Prueba T. Aquí también
podemos analizar las medias. También se puede verificar el valor del estadístico t (0,152) que
es igual al de Excel.
En lo contrario al procedimiento en Excel, en vez de comparar el valor del estadístico t con el
valor crítico, vamos a comparar el valor significativo (si se asumen varianzas iguales) con
nuestro margen de error (0.05) para ver cuál hipótesis se rechaza o se acepta.
Nuestro valor significativo es 0.88.
~ 97 ~
Si el Pvalor es mayor que el margen de error, entonces se
acepta la hipótesis nula y se rechaza la hipótesis alterna.
H1= Existe una diferencia significativa entre la media de calificaciones
del grupo de la Universidad de Guayaquil y la media de calificaciones del grupo de la Universidad Católica.
H0= NO existe una diferencia significativa entre la media de
calificaciones del grupo de la Universidad de Guayaquil y la media de calificaciones del grupo de la Universidad Católica.
~ 98 ~
ESTADIGRAFO Z PARA LA DISTRIBUCIÓN NORMAL
Determina el número de desviaciones estándar entre algún valor X y la media de
la población. Para calcular el valor de Z usamos la siguiente fórmula.
Ejemplo en datos simples:
El gerente de personal de una gran compañía requiere que los solicitantes
a un puesto efectúen cierta prueba y alcancen una calificación de 500. Si
las calificaciones de la prueba se distribuyen normalmente con media 485
y desviación estándar 30 ¿Qué porcentaje de los solicitantes pasará la
prueba?
VARIABLE 500
MEDIA 485
DESV. ESTA 30
Z 0.50
x VALOR REQUERIDO
u MEDIA
Ϭ DESVIACION ESTANDAR
XZ
~ 99 ~
Ejemplo en datos agrupados:
En una población de 17 personas varían sus edades con un aumento de
3 años en cada una de ellas, a continuación hallar la distribución normal
y las edades de los individuos empezando con la primera edad que es de
3 años.
Pasos a utilizar para hallar la distribución normal en Excel:
1. Hallar la media de los datos
=PROMEDIO(datos) En nuestro caso los datos es la edad
2. Hallar la desviación estándar
=desvest(datos) En nuestro caso los datos es la edad
3. Aplicamos la fórmula de la distribución normal
Z= (EDAD – MEDIA) / DESVIACIÓN
ESTÁNDAR
#DE PERSONAS EDAD
1 3
2 6
3 9
4 12
5 15
6 18
7 21
8 24
9 27
10 30
11 33
12 36
13 39
14 42
15 45
16 48
17 51
XZ
~ 100 ~
GRAFICO:
1. Seleccionamos los valores de la columna DISTRIBUCIÓN NORMAL
2. Damos clic en INSERTAR, Grafico de dispersión.
PASOS PARA HALLAR DISTRIBUCIÓN NORMAL EN SPPS
1. INGRESAMOS LOS DATOS
~ 101 ~
2. DEBEMOS CALCULAR MEDIA Y DESVIACIÓN ESTÁNDAR
Damos clic en ANALIZAR, luego en COMPARAR MEDIDAS, y por último en MEDIAS
Ubicamos la lista de datos dependientes e independientes y damos clic en aceptar
~ 102 ~
3. DAMOS CLIC EN TRANSFORMAR Y LUEGO EN CALCULAR VARIABLE
En el grupo defunciones escogemos FDP Y FDPNO CENTRADA
En funciones y variables especiales damos clic en Pdf.Normal
4. INGRESAMOS LOS DATOS QUE NOS PIDE LA FORMULA Y ACEPTAMOS
5. AUTOMÁTICAMENTE APARECE LA COLUMNA DE LA DISTRIBUCIÓN NORMAL
~ 103 ~
GRAFICO
1. DAMOS CLIC EN GRÁFICOS, CUADRO DE DIÁLOGOS ANTIGUOS Y
DISPERSIÓN/PUNTOS
2. ESCOGEMOS DISPERSIÓN SIMPLE Y DAMOS CLIC EN DEFINIR
3. SELECCIONAMOS LAS VARIABLES Y ACEPTAMOS
~ 104 ~
EN NUESTRA HOJA DE RESULTADOS APARECERÁ EL GRAFICO DE NUESTRA
DISTRIBUCIÓN.
~ 105 ~
MATERIA: COMPUTACION APLICADO A LA
ESTADISTICA
TEMA: ESTADISTICO F O DISTRIBUCION F
INTEGRANTES: VERONICA REYES DEL PEZO
ROSA ADRIAN CERCADO
FREDDY MIGUEL NUÑEZ
PROFESOR: Econ. GALO APOLO
2015 - 2016
~ 106 ~
~ 107 ~
INDICE
Tabla de contenido CONCEPTO .................................................................................................................................... 1
CALCULO DEL ESTADISTICO F .................................................................................................. 2
DETERMINACION DE LOS GRADOS DE LIBERTAD ................................................................... 3
EJERCICIO .................................................................................................................................. 4
FORMA MAUAL ........................................................................................................................ 5
FORMA FUNCION ..................................................................................................................... 8
FORMA IBM
SPSS……………………………………..…..………………………………………………………………………….10
~ 108 ~
PRUEBA FISHER O ESTADISTICO F
1.1.-Concepto.- Esta es la distribución de probabilidad de la razón de dos varianzas, provenientes de 2 poblaciones diferentes. Por medio de esta distribución es posible determinar la probabilidad de ocurrencia de una razón especifica.
1.1.1.-Características de la distribución F
1.- Existe una distribución F diferente para cada combinación de tamaño de muestra y
numero de muestras. Por lo tanto existe una distribución F que se aplica cundo se toman
cinco muestras de seis observaciones cada una. En caso de la distribución F, los valores
críticos para los niveles 0,005 y 0,01 generalmente se proporcionan para determinadas
combinaciones de tamaños de muestra y numero de muestras.
2.- La distribución es continua respecto al intervalo de 0 a + ∞. La razón no puede ser
negativa, ya que ambos términos de la razón F están elevados al cuadrado. Por otra
parte, grandes diferencias entre valores medios de muestra, acompañadas de pequeñas
variancias muéstrales pueden dar como resultado valores extremadamente grandes de
la razón F. La distribución F no puede ser negativa, El menor valor que F puede tomar
es 0.
3.- La forma de cada distribución de muestreo teórico F depende del número de grados
de libertad que estén asociados a ella. Tanto el numerador como el denominador tienen
grados de libertad relacionados.
4.- Tiene sesgo positivo la cola larga de la distribución es hacia el lado derecho. Cuando el número de grados de libertad aumenta, tanto en el numerador como en el denominador, la distribución se aproxima a ser normal. 5.- Es asintótica cuando los valores de X aumentan, la curva F se aproxima al eje X pero nunca lo toca. Este caso es similar al comportamiento de la distribución de probabilidad normal.
2.1.-Análisis de la Varianza (ANOVA)
También se la utiliza la distribución F en el análisis de la técnica de la varianza
(ANOVA), en la cual se comparan tres o más medias poblacionales para determinar si
pueden ser iguales. Para emplear ANOVA, se supone lo siguiente:
1.- Las poblaciones siguen la distribución normal.
2.- Las poblaciones tienen desviaciones estándares iguales.
3.- Las poblaciones son independientes.
Cuando se cumplan estas condiciones, F se emplea la prueba del estadístico de prueba.
¿Por qué es necesario estudiar ANOVA? ¿Por qué no solo se emplea la prueba de las
diferencias entre medias poblacionales. La razón más importante es la acumulación
~ 109 ~
indeseable del error tipo 1. Suponga cuatros métodos distintos (A, B, C, D) para capacitar
personal para ser bomberos. La asignación de cada uno de los 40 prospectos del grupo
de este año es aleatoria en cada uno de los cuatros métodos. Al final del programa de
capacitación, a los cuatros grupos se les administra una prueba común para medir la
compresión de las técnicas contra incendios. La pregunta es: ¿existe una diferencia entre
las calificaciones medias del examen de los cuatros grupos? La respuesta a esta pregunta
permitirá comprar los cuatros métodos de capacitación.
CALCULO DEL ESTADISTICO F (MATEMATICAMENTE)
Nota: Para calcular el estadístico f podemos utilizar las funciones de análisis de
varianzas tales como:
ANOVA
PRUEBA T
PRUEBA ESTADISITICO F
REGRESION LINEAL
CHI-CUADRADO
2.1.1-Determinación de los grados de libertad
Los grados de libertad para el numerador y le denominador del a función F se basan en
los cálculos necesarios para derivar cada estimación de la variancia de la población. La
estimación intermediante de varianza (numerador) comprende la división de la suma de
~ 110 ~
las diferencias elevadas al cuadrado entre el número de medias (muestras) menos uno,
o bien, k – 1. Así, k -1 es el número de grados de libertad para el numerador.
En forma semejante, el calcular cada variancia muestral, la suma de las diferencias
elevadas al cuadrado entre el valor medio de la muestra y cada valor de la misma se
divide entre el número de observaciones de la muestra menos uno, o bien, n – 1. Por lo
tanto el promedio de las variancias muéstrales se determina dividiendo la suma de las
variancias de la muestra entre el número de muestras, o K. los grados de libertad para
el denominador son entonces, k(n – 1).
Los términos
Son las varianzas muéstrales respectivas. Si la hipótesis nula es verdadera, el estadístico
de prueba.
Sigue la distribución F con n1 – 1 y n2 – 1 grados de libertad. A fin de reducir el tamaño
de la tabla de valores críticos, la varianza más grande de la muestra se coloca en el
numerador; de aquí, la razón F que se indica en la tabla siempre es mayor que 1.00. Así,
el valor crítico de la cola derecha es el único que se requiere. El valor crítico de F de una
prueba de dos colas se determina dividiendo el nivel de significancia entre dos y después
se consultan los grados de libertad apropiados en el apéndice.
3.1.-Ejercicio N1
APLICADO EN EXCEL
3.1.1FORMA MANUAL
Un profesor universitario tiene en su grupo de alumnos que provienen de 4 escuelas
de bachillerato, después de aplicarles el primer examen, obtiene los siguientes
resultados:
ESCUELA A ESCUELA B ESCUELA C ESCUELA D
6 6 10 9
8 7 6 9
9 8 5 9
9
6
7
Nominación de cada elemento:
Formula Matemáticas aplicar:
nc
cTxSCE
Nxnc
ctSCT
22
22
/
~ 111 ~
Desarrollo del primer paso
SCT= Suma de Cuadrados de Factor Fuente
Suma total de las variables obtenidas Suma total de las variables independiente
Suma total de Número de datos Número de datos
Desarrollo del segundo paso
SCE= Suma de cuadrado error
Suma total de X ^2 Suma total de las variables obtenidas
1er Paso
2do Paso
~ 112 ~
CUADRADOS TOTAL
SUMAS 36 36 100 81 253
64 49 36 81 230
81 64 25 81 251
81 0 36 0 117
49 49
900
Suma total de Número de datos
Luego de desarrollar independientemente las partes de la fórmula matemática procedemos a
realizar la TABLA ANOVA
MANUAL
FUENTE SUMA DE CUADRADOS GRADOS DE LIBERTAD CUADRADO MEDIO F
FACTOR 10.8 3 3.6 1.74
ERROR 22.8 11 2.07
TOTAL
CALCULO DE LA SUMA AL CUADRADO:
Suma total de las variables obtenidas Suma total de las variables Factor Independiente
Suma total de Número de datos Número de datos
CALCULO DEL GRADO DE LIBERTAD:
NUMERO DE VARIABLES MENOS UNO
NUMERO TOTAL DE DATOS MENOS UNO
CALCULO DE GRADO MEDIO:
~ 113 ~
SUMA DE CUADRDOS
TOTAL DE LOS GRADOS DE LIBERTAD DEL FACTOR
SUMA DE CUADRADOS
TOTAL DE LOS GRADOS DE LIBERTAD DE ERROR
Obtenidos estos datos (3.6 y 2.07), los dividimos y como resultado me da 1.74 que es
la función F como lo vemos en la grafica remarcada de color rojo.
3.1.2 FORMA FUNCION
~ 114 ~
Posteriormente vamos al MENU de Excel parte superior y damos clic en DATOS y luego
HERRAMIENTA DE ANALISIS DE DATOS y nos despliega una ventana llamada ANALISIS
DE DATOS posteriormente damos clic en ANALISIS DE VARIANZA DE UN FACTOR
~ 115 ~
Posteriormente siguiendo el proceso me aparece una ventana llamada ANALISIS DE
VARIANZA DE UN FACTOR luego sombreo los rótulos con los datos de todas las escuelas
y activo una pestaña en la casilla ROTULOS y activo RANGO DE SALIDA para obtener los
datos en la misma celda. Doy clic en aceptar y me aparece el análisis de varianza de un
factor
Comparamos los resultados que están remarcados con rojo y notamos que de la forma
matemática y Excel el estadístico F es el mismo resultado.
~ 116 ~
3.1.3 APLICADO EN IBM SPSS STATISTICS
Abrimos el programa IBM SPSS STATISTCS
Luego en vista de variables colocamos las variables en este caso son las variables
ESCUELAS y ALUMNOS (población), en decimales dejamos en cero el valor, luego a
vamos valores y me aparece una ventana que dice etiquetas de valor. En VALOR
colocamos el uno porque es la primera escuela y en ETIQUETA colocamos ESCUELA A y
damos clic en añadir posteriormente le damos valor a las siguientes escuelas como lo
hicimos con la ESCUELA A. Luego damos clic en aceptar y se agregan las 4 escuelas.
~ 117 ~
Luego vamos a vista de datos y colocamos los datos que tenemos en Excel , es decir en
ESCUELA colocamos el tipo de ESCUELA A,B,C O D y en POBLACION colocamos los
DATOS de cada escuela.
~ 118 ~
Luego vamos a la opción del menú ANALIZAR damos clic y posteriormente vamos a
COMPARAR MEDIAS y luego ANOVA DE UN FACTOR y damos clic.
Siguiendo el proceso anterior me aparece una ventana llamada ANOVA DE UN FACTOR
y coloco en lista de dependientes la POBLACION y en factor ESCUELA y luego doy clic
en Post hoc.
~ 119 ~
Siguiendo el proceso anterior me aparece una ventana llamada ANOVA DE UN FACTOR
COMPARACIONES MULTIPLES POST HOC y activo con una pestaña en la casilla DMS
posteriormente doy clic en CONTINUAR.
~ 120 ~
Siguiendo el proceso anterior después doy clic en OPCIONES y me aparece una ventana
llamada ANOVA DE UN FACTOR OPCIONES activo con una pestaña en las casillas
DESCRIPTIVOS, PRUEBA DE HOMOGENIEDAD DE LAS VARIANZAS y GRAFICOS DE LAS
MEDIAS y doy clic en CONTINUAR.
~ 121 ~
Luego del proceso anterior me aparecerá una ventana nueva de resultado, en esta
ventana observamos los diferentes resultados como los GRADOS DE LIBERTAD y el
ESTADISTICO F con el mismo valor de FORMA MANUAL O MATEMATICAMENTE, EXCEL
y IBM SPSS. Los resultados los podemos comparar de FORMA MANUAL O
MATEMATICAMENTE, EXCEL y IBM SPSS ya que están sombreados de color rojo.
~ 122 ~
ANOVA
poblacion
Suma de
cuadrados gl
Media
cuadrática F Sig.
Entre grupos 10,800 3 3,600 1,737 ,217
Dentro de grupos 22,800 11 2,073
Total 33,600 14
~ 123 ~
En conclusión: Se acepta la hipótesis nula y se rechaza la hipótesis alternativa. Si el
resultado F hubiera sido mayor que mi F critico como conclusión rechazo la hipótesis
nula y acepto la hipótesis alternativa.
Se busca el valor crítico en la tabla de la distribución F
Zona de aceptación
de la hipótesis nula Zona de rechazo