Universidad Mariano Gálvez de Guatemala Centro Universitario de Escuintla Facultad de...

Universidad Mariano Gálvez de Guatemala Centro Universitario de Escuintla Facultad de Ciencias de la Administración Maestría en Dirección y Gestión del Recurso Humano Curso Modelos para la Toma de Decisiones Ing. M.A. Claudia Esmeralda Marisol Villela Cervantes

CAPÍTULO III

DISTRIBUCIONES DE

PROBABILIDAD

-

Estudiante: Ana Lourdes Martínez Garzaro Carné: 2728-09-12510 Fecha: Escuintla, Febrero de 2015

http://maestrias.umg.edu.gt/moodle/user/view.php?id=848&course=1512

CAPÍTULO III

DISTRIBUCIONES DE

PROBABILIDAD

III DISTRIBUCIONES DE PROBABILIDAD

Una distribución de probabilidad indica toda la gama de valores que pueden

representarse como resultado de un experimento si éste se llevase a cabo.

Es decir, describe la probabilidad de que un evento se realice en el futuro,

constituye una herramienta fundamental para la prospectiva, puesto que se puede

diseñar un escenario de acontecimientos futuros considerando las tendencias

actuales de diversos fenómenos naturales.

Toda distribución de probabilidad es generada por una variable (porque puede

tomar diferentes valores) aleatoria x (porque el valor tomado es totalmente al

azar). (Wong, 2008)

1. Distribución Normal. Parámetros. Fórmula de estandarización. Cálculo

de probabilidades normales

1.1. Distribución Normal

Una distribución normal de media μ y desviación típica σ se designa por N(μ,

σ). Su gráfica es la campana de Gauss:

El área del recinto determinado por la función y el eje de abscisas es igual a la

unidad.

Al ser simétrica respecto al eje que pasa por x = µ, deja un área igual a 0.5 a la

izquierda y otra igual a 0.5 a la derecha.

La probabilidad equivale al área encerrada bajo la curva. (Vitutor, s.f.)

http://www.monografias.com/trabajos11/travent/travent.shtml

http://www.monografias.com/trabajos54/resumen-estadistica/resumen-estadistica.shtml

http://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtml


1.2. Parámetros

Un parámetro estadístico es un número que se obtiene a partir de los datos de

una distribución estadística.

Los parámetros estadísticos sirven para sintetizar la información dada por una

tabla o por una gráfica. (Vitutor, s.f.)

Tipos de parámetros estadísticos

Hay tres tipos parámetros estadísticos:

De centralización.

De posición

De dispersión. (Vitutor, s.f.)

a. Medidas de centralización

Nos indican en torno a qué valor (centro) se distribuyen los datos.

Las medidas de centralización son:

Media aritmética

La media es el valor promedio de la distribución.

Mediana

La mediana es la puntación de la escala que separa la mitad superior de

la distribución y la inferior, es decir divide la serie de datos en dos partes

iguales.

Moda

La moda es el valor que más se repite en una distribución. (Vitutor, s.f.)

b. Medidas de posición

Las medidas de posición dividen un conjunto de datos en grupos con el mismo

número de individuos.

Para calcular las medidas de posición es necesario que los datos estén

ordenados de menor a mayor.

Las medidas de posición son:

http://www.vitutor.com/estadistica/descriptiva/a_10.html



Cuartiles

Los cuartiles dividen la serie de datos en cuatro partes iguales.

Deciles

Los deciles dividen la serie de datos en diez partes iguales.

Percentiles

Los percentiles dividen la serie de datos en cien partes iguales. (Vitutor,

s.f.)

c. Medidas de dispersión

Las medidas de dispersión nos informan sobre cuanto se alejan del centro los

valores de la distribución.

Las medidas de dispersión son:

Rango o recorrido

El rango es la diferencia entre el mayor y el menor de los datos de una

distribución estadística.

Desviación media

La desviación media es la media aritmética de los valores absolutos de

las desviaciones respecto a la media.

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones

respecto a la media.

Desviación típica

La desviación típica es la raíz cuadrada de la varianza.(Vitutor, s.f.)

1.3. Fórmula de Estandarización

Abrahan De Moivre (1733) fue el primero en obtener la ecuación matemática

de la curva normal. Kart Friedrich Gauss y Márquez De Laplece (principios del

siglo diecinueve) desarrollaron más ampliamente los conceptos de la curva. La

curva normal también es llamada curva de error, curva de campana, curva de

Gauss, distribución gaussiana o curva de Moivre.(Ibujes, 2013)







http://www.monografias.com/Matematicas/index.shtml

http://www.monografias.com/trabajos6/etic/etic.shtml

http://www.monografias.com/trabajos11/travent/travent.shtml

Su altura máxima se encuentra en la media aritmética, es decir su ordenada

máxima corresponde a una abscisa igual a la media aritmética. La asimetría de

la curva normal es nula y por su grado de apuntamiento o curtosis se clasifica

en mesocúrtica.(Ibujes, 2013)

- Ecuación

Su ecuación matemática de la función de densidad es:

Donde:

X = valor en el eje horizontal

Y = altura de la curva para cualquier valor de x

Cuando se expresa la variable x en unidades estándar (fórmula de

estandarización)(Ibujes, 2013)

La ecuación anterior es reemplazada por la llamada forma canónica, la cual

es

Nota: No existe una única distribución normal, sino una familia de

distribuciones con una forma común, diferenciadas por los valores de su

media y su varianza. De entre todas ellas, la más utilizada es la distribución

normal estándar, que corresponde a una distribución con una media

aritmética de 0 y una desviación típica de 1.(Ibujes, 2013)

http://www.monografias.com/trabajos7/mafu/mafu.shtml

http://www.monografias.com/trabajos5/estat/estat.shtml


http://www.monografias.com/trabajos5/fami/fami.shtml


1.4. Cálculo de probabilidades normales

- Tipificación de la Variable

Para calcular probabilidades con variables que siguen la distribución normal se

usan tablas. Pero, puesto que sería imposible tener una tabla para cada

posible distribución normal, solamente la tenemos para la distribución normal

estándar, es decir, para la N( 0 , 1 ). (Descartes, 2015)

Necesitaremos, pues, ser capaces de transformar las variables X "normales"

N(µ,σ) que encontremos, en variables Z que sigan una distribución normal

estándar N(0,1). Este proceso de llevar cualquier distribución normal a una

N( 0 , 1 ) se llama "tipificación de la variable". (Descartes, 2015)

Para tipificar X (o sea, transformarla en Z), el primer paso es "centrar" la

variable; es decir, hacer que la media µ sea 0.

El siguiente paso es conseguir que la desviación típica σ sea 1.

Por tanto para tipificar una variable lo que hemos de hacer es restar la media y

dividir por la desviación típica.

Ejemplo 1: X →N( 8 , 1.5). Calcula P[ X < 6]

y para terminar y

calcular la probabilidad, aplicamos lo que viene a continuación. Con esto lo

que hemos hecho es simplemente tipificar la variable transformando la

probabilidad pedida en una relacionada con la normal N ( 0 , 1 ).

(Descartes, 2015)

2. Distribución Binomial. Proceso de Bernoulli. Calcular probabilidades

binomiales.

2.1. Distribución Binominal

Un experimento sigue el modelo de la distribución binomial o de Bernoulli si:

1. En cada prueba del experimento sólo son posibles dos resultados: el suceso

A (éxito) y su contrario .

2. La probabilidad del suceso A es constante, es decir, que no varía de una

prueba a otra. Se representa por p.

3. El resultado obtenido en cada prueba es independiente de los resultados

obtenidos anteriormente.

La distribución binomial se suele representar por B(n, p).

N es el número de pruebas de que consta el experimento.

p es la probabilidad de éxito.

La probabilidad de es 1− p, y la representamos por q.(Vitutor, 2012)

2.2. Proceso de Bernoulli

Es una distribución de probabilidad discreta, que toma valor 1 para la

probabilidad de éxito p y valor 0 para la probabilidad de fracaso q = 1 − p. Por

lo tanto, si X es una variable aleatoria con esta distribución. Consiste en

realizar un experimento aleatorio una sola vez y observar si cierto suceso

ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y q=1-p el que

no lo sea (fracaso).Existen muchas situaciones en las que se presenta una

experiencia binomial. Cada uno de los experimentos es independiente de los

restantes (la probabilidad del resultado de un experimento no depende del

resultado del resto). El resultado de cada experimento ha de admitir sólo dos

categorías (a las que se denomina éxito y fracaso). Las probabilidades de

ambas posibilidades han de ser constantes en todos los experimentos. Un

experimento que tenga dos resultados. Al primero se le llama éxito y al otro

fracaso. La probabilidad por éxito se denota por p. por consecuencia la

probabilidad de fracaso es 1-p. lo anterior representa un ensayo de Bernoulli

con probabilidad de éxito p. el más el más sencillo de este es el lanzamiento de

una moneda. Los posibles resultados son dos “cara o cruz” si cara se define

como éxito, entonces p constituye esa probabilidad. En una moneda p=

½N=número de elementos. P=éxito. q=fracaso. X=variable aleatoria. La

distribución Bernoulli estada por los únicos dos valores posibles que deben

ser1 y 0; de no cumplirse esta regla es decir si se quebranta se estaría ablando

de que no es una distribución Bernoulli sino otra de las tantas distribuciones.

Ejemplo: X p1 .50 .5Suma 1 Si se lanza una moneda 5 veces ¿Probabilidad

de que se obtenga 3 veces cruz? N=5P=.5q=.5X=3P= (1) (.5)3 (.5)2 La

distribución binomial o de Bernoulli La distribución binomial está asociada a

experimentos del siguiente tipo:- Realizamos n veces cierto experimento en el

que consideramos solo la posibilidad de éxito o fracaso.(Vitutor, 2012)

3. Distribución de Poisson. Calcular Probabilidades Poisson

En teoría de probabilidad y estadística, la distribución de Poisson es una

distribución de probabilidad discreta que expresa, a partir de una frecuencia

de ocurrencia media, la probabilidad que ocurra un determinado número de

eventos durante cierto periodo de tiempo. La función de masa de la

distribución de Poisson es donde k es el número de ocurrencias del

evento o fenómeno (la función nos da la probabilidad de que el evento

suceda precisamente k veces). λ es un parámetro positivo que representa

el número de veces que se espera que ocurra el fenómeno durante un

intervalo dado. Por ejemplo, si el suceso estudiado tiene lugar en promedio

4 veces por minuto y estamos interesados en la probabilidad de que ocurra

k veces dentro de un intervalo de 10 minutos, usaremos un modelo de

distribución de Poisson con λ = 10×4 = 40.E es la base de los logaritmos

naturales (e = 2,71828 ...)Tanto el valor esperado como la varianza de una

variable aleatoria con distribución de Poisson son iguales a λ. Los

momentos de orden superior son polinomios de Touchard en λ cuyos

coeficientes tienen una interpretación combinatorio. De hecho, cuando el

valor esperado de la distribución de Poisson es 1, entonces según la

fórmula de Dobinski, el n-ésimo momento iguala al númerode particiones de

tamaño n. La moda de una variable aleatoria de distribución de Poisson con

un λ no enteroes igual a, el mayor de los enteros menores que λ (los

símbolos representanla función parte entera). Cuando λ es un entero

positivo, las modas son λ y λ − 1.La función generadora de momentos de la

distribución de Poisson con valor esperado λ Las variables aleatorias de

Poisson tienen la propiedad de ser infinitamentedivisibles.La divergencia

Kullback-Leibler desde una variable aleatoria de Poisson deparámetro λ0 a

otra de parámetro λ (Vitutor, 2012)

¿Para qué sirve conocer que algo es Poisson?Porque si se tiene

caracterizado el comportamiento probabilístico de un fenómenoaleatorio,

podemos contestar preguntas como: • ¿Qué probabilidad hay de que

lleguen más de 15 clientes al banco en un intervalo de 5 minutos de

duración? • ¿Qué probabilidad hay de que suceda por lo menos una falla en

un tramo de 1km de tubería de gas? • ¿Qué probabilidad hay de que en un

estanque de cultivo de camarón, haya más de media tonelada? • ¿Qué

probabilidad hay de que en un área de 1km se encuentren más de 3 brotes

de una enfermedad?¿Por qué algunas cosas supimos de antemano que

iban a ser Poisson y que otrasno?Porque los fenómenos que son procesos

de Poisson en la línea o en el tiempo, enla superficie, o en el espacio,

tienen algunas características que matemáticamentela delatan, como son: •

Que se está contando el número de eventos que suceden en un área (o

intervalo de tiempo, o volumen) determinada. • Que la probabilidad de que

suceda un evento sobre un área muy pequeña, es también muy pequeña. •

Que en un mismo lugar (o en el mismo tiempo), no pueden suceder más de

uno solo de los eventos que se están contando. • Que si se duplica el

tamaño de la superficie (intervalo de tiempo, etc.), entonces se duplica la

probabilidad de registrar ahí un evento.Notas y conclusiones • Los ejemplos

vistos de procesos de Poisson, son homogéneos en el sentido de que la

probabilidad de que suceda un evento no varía según la posición sobre el

espacio. Existen también procesos de Poisson que son heterogéneos. • Se

concluye que los fenómenos aleatorios no son tan impredecibles como se

pudiera pensar. Que en efecto, muestran un concepto llamado regularidad

estadística, que es la que hace que éstos se puedan estudiar

matemáticamente. (Vitutor, 2012)

CAPÍTULO IV

PRONÓSTICOS

IV PRONÓSTICOS

1. REGRESIÓN SIMPLE. ECUACIÓN DE PRONÓSTICO. ERROR

ESTÁNDAR DE ESTIMACIÓN. INTERVALOS DE PREDICCIÓN

Regresión Simple

En estadística la regresión simple o lineal o ajuste lineal es un

métodomatemático que modela la relación entre una variable dependienteY,

las variables independientesXi y un término aleatorio ε. Este modelo puede

ser expresado como:

: variable dependiente, explicada o regresando.

: variables explicativas, independientes o regresores.

: parámetros, miden la influencia que las variables

explicativas tienen sobre el regresando.

donde es la intersección o término "constante", las son los

parámetros respectivos a cada variable independiente, y es el número de

parámetros independientes a tener en cuenta en la regresión. La regresión

lineal puede ser contrastada con la regresión no lineal.(Wikipedia, 2015)

Diagrama de dispersión e interpretación

El primer paso para determinar si existe o no una relación entre dos

variables es observar la gráfica de datos observados. Esta grafica se llama

diagrama de dispersión.(Riaño, s.f.)

Un diagrama nos puede dar dos tipos de información, visualmente podemos

buscar patrones que nos indiquen que las variables están relacionadas.

Entonces si esto sucede, podemos ver qué tipo de línea, o ecuación de

estimación, describe esta relación.(Riaño, s.f.)

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://es.wikipedia.org/wiki/M%C3%A9todo

http://es.wikipedia.org/wiki/M%C3%A9todo

http://es.wikipedia.org/wiki/Modelo_matem%C3%A1tico

http://es.wikipedia.org/wiki/Variable_dependiente

http://es.wikipedia.org/wiki/Variable_independiente

http://es.wikipedia.org/wiki/Aleatoriedad

http://es.wikipedia.org/wiki/Regresi%C3%B3n_no_lineal

Primero tomamos los datos de la tabla que deseamos analizar y

dependiendo de que se desea averiguar se construye la gráfica colocando

la variable dependiente en el eje Y y la independiente en el eje X, Cuando

vemos todos estos puntos juntos, podemos visualizar la relación que existe

entre estas dos variables. Como resultado, también podemos trazar, “o

ajustar” una línea recta a través de nuestro diagrama de dispersión para

representar la relación. Es común intentar trazar estas líneas de forma tal

que un número igual de puntos caiga a cada lado de la línea.(Riaño, s.f.)

Estimación mediante la línea de regresión

Hasta el momento las líneas de regresión se colocaron al ajustar las líneas

visualmente entre los puntos de datos, pero para graficar estas líneas de

una forma más precisa podemos utilizar una ecuación que relaciona las dos

variables matemáticamente.(Riaño, s.f.)

La ecuación para una línea recta donde la variable dependiente Y está

determinada por la varianza dependiente X es:

Usando esta ecuación podemos tomar un valor dado en X y calcular el valor

de Y la A se denomina intersección en Y porque su valor es el punto en el

cual la línea de regresión cruza el eje Y porque su valor es el punto en el

cual la línea de regresión cruza el eje Y, es decir el eje vertical. La b es la

pendiente de la línea, representa que tanto cada cambio de unidad de la

variable independiente X cambia la variable dependiente Y. Tanto a como b

son constantes numéricas, puesto que para cada recta dada, sus valores no

cambian.(Riaño, s.f.)

Recta de regresión por el método de mínimos cuadrados.

Ahora que hemos visto como determinar la ecuación para una línea recta,

pensemos como podemos calcular una ecuación para una línea dibujada en

medio de un conjunto de puntos en un diagrama de dispersión. Para esto

debemos minimizar el error entre los puntos estimados en la línea y los

verdaderos puntos observados que se utilizaron para trazarla.(Riaño, s.f.)

Para esto debemos introducir un nuevo símbolo, para simbolizar los valores

individuales de los puntos estimados, esto es, aquellos puntos que caen en

la línea de estimación. En consecuencia escribiremos la ecuación para la

línea de estimación como una forma en que podemos medir el error de

nuestra línea de estimación es sumando todas las diferencias, o errores,

individuales entre los puntos observados y los puntos estimados.(Riaño,

s.f.)

La suma de las diferencias individuales para calcular el error no es una

forma confiable de juzgar la bondad de ajuste de una línea de estimación.

El problema al añadir los errores individuales es el efecto de cancelación de

los valores positivos y negativos, por eso usamos valores absolutos en esta

diferencia a modo de cancelar la anulación de los signos positivos y

negativos, pero ya que estamos buscando el menor error debemos buscar

un método que nos muestre la magnitud del error, decimos que la suma de

los valores absolutos no pone énfasis en la magnitud del error.(Riaño, s.f.)

Parece razonable que mientras más lejos este un punto de la línea de

estimación, más serio seria el error, preferiríamos tener varios errores

pequeños que uno grande. En efecto, deseamos encontrar una forma de

“penalizar” errores absolutos grandes, de tal forma que podamos evitarlos.

Puede lograr esto si cuadramos los errores individuales antes de sumarlos.

Con estos se logran dos objetivos:

penaliza los errores más grandes

cancela el efecto de valores positivos y negativos

Como estamos buscando la línea de estimación que minimiza la suma de

los cuadrados de los errores a esto llamamos método de mínimos

cuadrados.(Riaño, s.f.)

Si usamos el método de mínimos cuadrados, podemos determinar si una

línea de estimación tiene un mejor ajuste que otro. Pero para un conjunto

de puntos de datos a través de los cuales podríamos trazar un número

infinito de líneas de estimación, ¿cómo podemos saber cuándo hemos

encontrado la mejor línea de ajuste?(Riaño, s.f.)

Los estadísticos han derivado dos ecuaciones que podemos utilizar para

encontrar la pendiente y la intersección Y de la línea de regresión del mejor

ajuste. La primera fórmula calcula la pendiente.

b = pendiente de la línea de estimación de mejor ajuste

X = valores de la variable independiente

Y = valores de la variable dependiente

= media de los valores de la variable independiente

= media de los valores de la variable dependiente

n = número de puntos de datos

La segunda ecuación calcula la intersección en Y

a = intersección en Y

b = pendiente de la ecuación anterior


= media de los valores de la variable independiente

Verificación de la ecuación de estimación

Ahora que sabemos cómo calcular la línea de regresión, podemos verificar

que tanto se ajusta.

Tomando los errores individuales positivos y negativos deben dar cero.

(Riaño, s.f.)

Error estándar de la estimación

El error estándar nos permite deducir la confiabilidad de la ecuación de

regresión que hemos desarrollado.(Riaño, s.f.)

Este error se simboliza Se y es similar a la desviación estándar en cuanto a

que ambas son medidas de dispersión.

El error estándar de la estimación mide la variabilidad, o dispersión de los

valores observados alrededor de la línea de regresión y su fórmula es la

siguiente



n = número de puntos de datos(Riaño, s.f.)

Método de atajo para calcular el error estándar de la estimación

Dado que utilizar la ecuación anterior requiere una serie de cálculos

tediosos, se ha diseñado una ecuación que puede eliminar unos de estos

pasos, la ecuación es la siguiente:




b = pendiente de la ecuación de la estimación

n = número de puntos de datos(Riaño, s.f.)

Interpretación del error estándar de la estimación

Como se aplicaba en la desviación estándar, mientras más grande sea el

error estándar de estimación, mayor será la dispersión de los puntos

alrededor de la línea de regresión. De manera que inversa, si Se = 0,

esperemos que la ecuación de estimación sea un estimador perfecto de la

variable dependiente. En este caso todos los puntos deben caer en la línea

de regresión y no habría puntos dispersos.(Riaño, s.f.)

Usaremos el error estándar como una herramienta de igual forma que la

desviación estándar. Esto suponiendo que los puntos observados están

distribuidos normalmente alrededor de la línea de regresión, podemos

encontrar un 68% de los puntos en + 1 Se, 95.5% en + 2 Se y 99.7% de los

puntos en + 3 Se. Otra cosa que debemos observar es que el error

estándar de la estimación se mide a lo largo del eje Y, y no

perpendicularmente de la línea de regresión.(Riaño, s.f.)

Intervalos de confianza utilizando desviación estándar

En estadística, la probabilidad que asociamos con una estimación de

intervalo se conoce como el nivel de confianza.

Esta probabilidad nos indica que tanta confianza tenemos en que la

estimación del intervalo incluya al parámetro de la población. Una

probabilidad más alta significa más confianza.

El intervalo de confianza es el alcance de la estimación que estamos

haciendo pero a menudo hacemos el intervalo de confianza en términos de

errores estándar, para esto debemos calcular el error estándar de la media

así:

Donde es el error estándar de la media para una población infinita, es la

desviación estándar de la población.(Riaño, s.f.)

Con frecuencia expresaremos los intervalos de confianza de esta forma: en

la que:

= límite superior del intervalo de confianza

= límite inferior del intervalo de confianza

Relación entre nivel de confianza e intervalo de confianza

Podría pensarse que deberíamos utilizar un alto nivel de confianza, como

99% en todos los problemas sobre estimaciones, pero en algunos casos

altos niveles de confianza producen intervalos de confianza alto por lo tanto

imprecisos.(Riaño, s.f.)

Debe tenerse un intervalo de confianza que vaya de acuerdo al tema que se

esté estimando.

Intervalos de predicción aproximados

Una forma de ver el error estándar de la estimación es concebirla como la

herramienta estadística que podemos usar para hacer un enunciado de

probabilidad sobre el intervalo alrededor del valor estimado de , dentro del

cual cae el valor real de Y.(Riaño, s.f.)

Cuando la muestra es mayor de 30 datos, se calcula los intervalos de

predicción aproximados de la siguiente manera,

Si queremos estar seguros en aproximadamente 65% de que el valor real

de Y caerá dentro de + 1 error estándar. Podemos calcular los límites

superior e inferior de este intervalo de predicción de la siguiente manera:

= Límite superior del intervalo de predicción

= Límite inferior del intervalo de predicción

Si, en lugar decimos que estamos seguros en aproximadamente 95.5% de

que el dato real estará dentro de + 2 errores estándar de la estimación.

Podríamos calcular los límites de este intervalo de la siguiente manera:



y por ultimo decimos que estamos seguros en aproximadamente el 99.7%

cuando usamos + 3 errores estándar de la estimación de Podríamos

calcular los límites de este intervalo de la siguiente manera:



Como ya habíamos mencionado solo se usa para grandes muestras

(mayores de 30 datos) para muestras más pequeñas se usan la distribución

T. (Riaño, s.f.)

Debemos poner énfasis en que los intervalos de predicción son solo

aproximaciones, de hecho los estadísticos pueden calcular el error estándar

exacto para la predicción Sp, usando la fórmula:

en la que:

X0 = valor especifico de x en el que deseamos predecir el valor de Y.

(Riaño, s.f.)

Análisis de correlación

El análisis de correlación es la herramienta estadística que podemos usar

para describir el grado hasta el cual una variable esta linealmente

relacionada con la otra. Con frecuencia el análisis de correlación se utiliza

junto con el análisis de regresión para medir que tan bien la línea de

regresión explica los cambio de la variable dependiente Y. Sin embargo, la

correlación también se puede usar sola para medir el grado de asociación

entre dos variables.(Riaño, s.f.)

Los estadísticos han desarrollado dos medidas para describir la correlación

entre dos variables: el coeficiente de determinación y el coeficiente de

correlación. (Riaño, s.f.)

Coeficiente de determinación

El coeficiente de determinación es la principal forma en que podemos medir

la extensión, o fuerza de asociación que existe entre dos variables, X y Y.

Puesto que hemos desarrollado una muestra de puntos para desarrollar las

líneas de regresión, nos referimos a esta medida como el coeficiente de

determinación de la muestra.(Riaño, s.f.)

El coeficiente de determinación de la muestra se desarrolla de la relación

entre dos tipos de variación: la variación de los valores Y en conjunto de los

datos alrededor de

la línea de regresión ajustada

su propia media

El termino variación en estos dos casos se refiere a “la suma de un grupo

de desviaciones cuadradas”. Al usar esta definición, entonces es razonable

expresar la variación de los valores Y alrededor de la línea de regresión con

esta ecuación:

variación de los valores Y alrededor de la línea de regresión =

La segunda variación, la de los valores de Y con respecto a su propia

media, está determinada por

variación de los valores de Y alrededor de su propia media =

Uno menos la razón entre estas dos variaciones es el coeficiente de

determinación de la muestra que se simboliza r2

Esta ecuación es una medida del grado de asociación lineal entre X y Y

Una correlación perfecta es aquella en que todos los valores de Y caen en

la línea de estimación, por lo tanto el coeficiente de determinación es 1.

Cuando el valor del coeficiente de determinación es 0 quiere decir que no

hay correlación entre las dos variables. (Riaño, s.f.)

En los problemas con que se topa la mayoría de los responsables de la

toma de decisiones, r2 caerá en alguna parte entre estos dos extremos de 1

y 0. Recuerde, no obstante que un r2 cercano a 1 indica una fuerte

correlación entre X y Y, mientras que un r2 cercano a 0 significa que existe

poca correlación entre estas dos variables.

Un punto que debemos subrayar fuertemente es que r2 mide solo la fuerza

de una relación lineal entre dos variables.(Riaño, s.f.)

Otra interpretación de r2

Los estadísticos también interpretan el coeficiente de determinación viendo

la cantidad de variación en Y que es explicada por la línea de

regresión.(Riaño, s.f.)

Método de atajo para calcular el coeficiente de determinación (r2)

Hay una fórmula que nos ahorra muchos cálculos tediosos y esta es:

en la que:

r2= coeficiente de determinación de la muestra


b = pendiente de la línea de estimación de mejor ajuste

n = número de puntos de datos



= media de los valores observados de la variable dependiente(Riaño,

s.f.)

El coeficiente de correlación

Es la segunda medida que podemos usar para describir que también una

variable es explicada por la otra. Cuando tratamos con muestras, el

coeficiente de variación de muestra se denomina como r y es la raíz

cuadrada del coeficiente de determinación de muestra:

Cuando la pendiente de estimación de la muestra es positiva, r es la raíz

cuadrada positiva, pero si b es negativa, r es la raíz cuadrada negativa. Por

lo tanto, el signo de indica la dirección de la relación entre las dos variables

X y Y. Si existe una relación inversa, esto es , si y disminuye

Y

X

Intersección Y

Variable dependiente

Pendiente de la línea

Variable independiente

(Riaño, s.f.)

2. ANÁLISIS DE CORRELACIÓN. COEFICIENTE DE DETERMINACIÓN Y

DE CORRELACIÓN

El término correlación se utiliza generalmente para indicar la

correspondencia o la relación recíproca que se da entre dos o más cosas,

ideas, personas, entre otras.

En tanto, en probabilidad y estadística, la correlación es aquello que

indicará la fuerza y la dirección lineal que se establece entre dos variables

aleatorias.(Astudillo, 2011)

Se considera que dos variables de tipo cuantitativo presentan correlación la

una respecto de la otra cuando los valores de una ellas varíen

sistemáticamente con respecto a los valores homónimos de la otra.

Por ejemplo, si tenemos dos variables que se llaman A y B, existirá el

mencionado fenómeno de correlación si al aumentar los valores de A lo

hacen también los valores correspondientes a B y viceversa.

De todas maneras, vale aclarar que la correlación que pueda darse entre

dos variables no implicará por si misma ningún tipo de relación de

http://www.monografias.com/trabajos54/resumen-estadistica/resumen-estadistica.shtml

http://www.monografias.com/trabajos15/estadistica/estadistica.shtml

http://www.monografias.com/trabajos12/eleynewt/eleynewt.shtml

http://www.monografias.com/trabajos15/direccion/direccion.shtml

http://www.monografias.com/trabajos12/guiainf/guiainf.shtml#HIPOTES



causalidad. Los principales elementos componentes de una correlación de

este tipo serán: la fuerza, el sentido y la forma. (Astudillo, 2011)

Análisis de correlación

El análisis de correlación emplea métodos para medir la significación del

grado o intensidad de asociación entre dos o más variables. Normalmente,

el primer paso es mostrar los datos en un diagrama de dispersión. El

concepto de correlación está estrechamente vinculado al concepto de

regresión, pues, para que una ecuación de regresión sea razonable los

puntos muéstrales deben estar ceñidos a la ecuación de regresión; además

el coeficiente de correlación debe ser:

Grande cuando el grado de asociación es alto (cerca de +1 o -1, y

pequeño cuando

Es bajo, cerca de cero.

Independiente de las unidades en que se miden las

variables.(Astudillo, 2011)

Diagrama de dispersión

Un diagrama de dispersión se emplea cuando existe una variable que

está bajo el control del experimentador. Si existe un parámetro que se

incrementa o disminuye de forma sistemática por el experimentador, se

le denomina parámetro de control o variable independiente = eje de x y

habitualmente se representa a lo largo del eje horizontal. La variable

medida o dependiente = eje de y usualmente se representa a lo largo

del eje vertical. Si no existe una variable dependiente, cualquier variable

se puede representar en cada eje y el diagrama de dispersión mostrará

el grado de correlación (no causalidad) entre las dos variables.(Astudillo,

2011)

Un diagrama de dispersión puede sugerir varios tipos de correlaciones

entre las variables con un intervalo de confianza determinado. La

http://www.monografias.com/trabajos11/metods/metods.shtml#ANALIT

http://www.monografias.com/trabajos11/metods/metods.shtml

http://www.monografias.com/trabajos11/basda/basda.shtml

http://www.monografias.com/trabajos14/flujograma/flujograma.shtml

http://www.monografias.com/trabajos10/teca/teca.shtml

http://www.monografias.com/trabajos14/control/control.shtml

correlación puede ser positiva (aumento), negativa (descenso), o nula

(las variables no están correlacionadas). Se puede dibujar una línea de

ajuste (llamada también "línea de tendencia") con el fin de estudiar la

correlación entre las variables. Una ecuación para la correlación entre

las variables puede ser determinada por procedimientos de ajuste. Para

una correlación lineal, el procedimiento de ajuste es conocido como

regresión lineal y garantiza una solución correcta en un tiempo finito.

Uno de los aspectos más poderosos de un gráfico de dispersión, sin

embargo, es su capacidad para mostrar las relaciones no lineales entre

las variables. Además, si los datos son representados por un modelo de

mezcla de relaciones simples, estas relaciones son visualmente

evidentes como patrones superpuestos.(Astudillo, 2011)

El diagrama de dispersión es una de las herramientas básicas de control

de calidad, que incluyen además el histograma, el diagrama de Pareto,

la hoja de verificación, los gráficos de control, el diagrama de Ishikawa y

el diagrama de flujo.(Astudillo, 2011)

Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson es un índice que mide la

relación lineal entre dos variables aleatorias cuantitativas. A diferencia

de la covarianza, la correlación de Pearson es independiente de la

escala de medida de las variables

El coeficiente de correlación entre dos variables aleatorias X e Y es el

cociente

El valor del índice de correlación varía en el intervalo [-1, +1]:

Si r = 1, existe una correlación positiva perfecta. El índice indica una

dependencia total entre las dos variables denominada relación

http://www.monografias.com/trabajos13/mapro/mapro.shtml

http://www.monografias.com/trabajos13/mapro/mapro.shtml

http://www.monografias.com/trabajos11/contrest/contrest.shtml

http://www.monografias.com/trabajos7/herba/herba.shtml

http://www.monografias.com/trabajos7/herba/herba.shtml

http://www.monografias.com/trabajos11/estadi/estadi.shtml#METODOS

http://www.monografias.com/trabajos12/diflu/diflu.shtml

http://www.monografias.com/trabajos6/dige/dige.shtml#evo


directa: cuando una de ellas aumenta, la otra también lo hace en

proporción constante.

Si 0 < r < 1, existe una correlación positiva.

Si r = 0, no existe relación lineal. Pero esto no necesariamente

implica que las variables son independientes: pueden existir todavía

relaciones no lineales entre las dos variables.

Si -1 < r < 0, existe una correlación negativa.

Si r = -1, existe una correlación negativa perfecta. El índice indica

una dependencia total entre las dos variables llamada relación

inversa: cuando una de ellas aumenta, la otra disminuye en

proporción constante. (Astudillo, 2011)

Coeficiente de determinación

En un modelo de regresión lineal el coeficiente de determinación se

interpreta como el porcentaje de variación de la variable dependiente

El coeficiente de determinación, r2 - la proporción de la variación total en la

variable dependiente Y que está explicada por o se debe a la variación en la

variable independiente X.

El coeficiente de determinación es el cuadrado del coeficiente de

correlación, y toma valores de 0 a 1.

Ejemplo:

Dan Ireland, presidente de la sociedad de alumnos de la Universidad de

Toledo, está preocupado por el costo de los libros. Para tener un panorama

del problema elige una muestra de 8 libros de venta en la librería. Decide

estudiar la relación entre el número de páginas del libro y el costo. Calcule

el coeficiente de correlación.

http://www.monografias.com/trabajos28/nociones-regresion-lineal/nociones-regresion-lineal.shtml

http://www.monografias.com/trabajos35/sociedad/sociedad.shtml

http://www.monografias.com/trabajos13/admuniv/admuniv.shtml

http://www.monografias.com/trabajos7/coad/coad.shtml#costo

http://www.monografias.com/trabajos16/contabilidad-mercantil/contabilidad-mercantil.shtml#libros

http://www.monografias.com/trabajos11/tebas/tebas.shtml

http://www.monografias.com/trabajos12/curclin/curclin.shtml

http://www.monografias.com/trabajos13/librylec/librylec.shtml

r =.614 (verifique)

Pruebe la hipótesis de que no existe correlación en la población. Use .02 de

nivel de significancia.

Paso 1: H0 la correlación en la población es cero. H1 la correlación en la

población es distinta de cero.

Paso 2: H0 se rechaza si t>3.143 o si t 2 es

Dónde:

El coeficiente a representa el grado de disminución de peso, un

factor de suavizado constante entre 0 y 1. Un descuentos a mayor

edad observaciones más rápido. Por otra parte, a se puede expresar

en términos de períodos de tiempo N, donde a = 2 / (N +1). Por

ejemplo, N = 19 es equivalente a a = 0.1. La vida media de los pesos

(el intervalo en el que la disminución de peso por un factor de dos) es

de aproximadamente N / 2,8854 (a menos de 1% si N>5).

Y t es la observación en un período de tiempo t.

S t es el valor de la EMA, en cualquier período de tiempo t.

S 1 es indefinido. S 2 puede ser inicializado en un número de maneras

diferentes, por lo general mediante el establecimiento de S 2 Y 1, aunque

existen otras técnicas, tales como el establecimiento de S 2 a un promedio

de los primeros 4 o 5 observaciones. La importancia de S 2 de inicialización

http://www.monografias.com/trabajos15/hipotesis/hipotesis.shtml

http://www.monografias.com/trabajos/explodemo/explodemo.shtml

http://www.monografias.com/trabajos11/metcien/metcien.shtml#OBSERV

http://www.monografias.com/trabajos6/juti/juti.shtml

de efecto sobre la media móvil resultante depende de a, a valores menores

que la elección de los valores de S 2 relativamente más importante a más

grande que, desde un a descuentos superiores mayores observaciones

más rápido. (Astudillo, 2011)

Esta formulación está de acuerdo con Hunter (1986).

Esta es una suma infinita de términos disminuyendo.

Los períodos de N en un N-día EMA sólo especificar el factor a. N no es un

punto de parada para el cálculo en la forma en que se encuentra en un

SMA o WMA. Para N suficientemente grande, la primera de datos N puntos

en un EMA representan alrededor del 86% del peso total en el cálculo:

La fórmula de energía por encima de da un valor de partida para un día

determinado, después de lo cual los primeros días se muestra la fórmula

puede ser aplicada a los sucesivos. La cuestión de hasta qué punto volver a

http://www.monografias.com/trabajos7/caes/caes.shtml

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Moving_average&rurl=translate.google.co.ve&twu=1&usg=ALkJrhjBGPjebZGrADnbn6Yp0mMv2PKGFQ%20-%20cite_note-6

ir para un valor inicial depende, en el peor de los casos, en los datos. Si hay

grandes valores de los preciosp en los datos de edad, entonces van a tener

un efecto sobre el total, aunque su ponderación es muy pequeña. Si uno

asume los precios no varían demasiado violentamente a continuación, sólo

la ponderación puede ser considerada. El peso se omite por detener

después de los términos k es

(Astudillo, 2011)

http://www.monografias.com/trabajos16/fijacion-precios/fijacion-precios.shtml#ANTECED

3. REGRESIÓN MÚLTIPLE. ECUACIÓN DE PRONÓSTICO. ERROR

ESTÁNDAR DE ESTIMACIÓN. INTERVALOS DE PREDICCIÓN.

Regresión múltiple: Es un cálculo bastante complicado y laborioso, por lo que

se requiere del empleo de programas de computación especializados. Sin

embargo, la interpretación de los coeficientes es similar al caso de la regresión

simple: el coeficiente de cada variable independiente mide el efecto separado

que esta variable tiene sobre la variable dependiente. El coeficiente de

determinación, por otro lado, mide el porcentaje de la variación total en Y que

es explicado por la variación conjunta de las variables

independientes.(Eumed.net, 2015)

Este tipo se presenta cuando dos o más variables independientes influyen

sobre una variable dependiente. Ejemplo: Y = f(x, w, z).

Por ejemplo: Podría ser una regresión de tipo múltiple:

Una Empresa de desarrollo de software establece relacionar sus Ventas en

función del número de pedidos de los tipos de software que desarrolla

(Sistemas, Educativos y Automatizaciones Empresariales), para atender 10

proyectos en el presente año.(Fabián, 2006)

En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W

(Nº de pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de

Automatizaciones empresariales).

Y 440 455 470 510 506 480 460 500 490 450

X 50 40 35 45 51 55 53 48 38 44

W 105 140 110 130 125 115 100 103 118 98

Z 75 68 70 64 67 72 70 73 69 74

Objetivo: Se presentara primero el análisis de regresión múltiple al

desarrollar y explicar el uso de la ecuación de regresión múltiple, así como

el error estándar múltiple de estimación. Después se medirá la fuerza de la

relación entre las variables independientes, utilizando los coeficientes

múltiples de determinación.(Fabián, 2006)

http://www.monografias.com/trabajos11/empre/empre.shtml

http://www.monografias.com/trabajos12/desorgan/desorgan.shtml

http://www.monografias.com/Computacion/Software/

http://www.monografias.com/trabajos12/evintven/evintven.shtml

http://www.monografias.com/trabajos11/teosis/teosis.shtml

http://www.monografias.com/trabajos12/pmbok/pmbok.shtml

http://www.monografias.com/trabajos11/metods/metods.shtml#ANALIT

http://www.monografias.com/trabajos12/eleynewt/eleynewt.shtml

Análisis de Regresión Múltiple

Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Para poder resolver y obtener y en una ecuación de regresión

múltiple el cálculo se presenta muy tediosa porque se tiene atender 3

ecuaciones que se generan por el método de mínimo de cuadrados:

Para poder resolver se puede utilizar programas informáticos como AD+,

SPSS y Minitab y Excel.(Fabián, 2006)

El error estándar de la regresión múltiple

Es una medida de dispersión la estimación se hace más precisa conforme

el grado de dispersión alrededor del plano de regresión se hace mas

pequeño.(Fabián, 2006)

Para medirla se utiliza la fórmula:

http://www.monografias.com/trabajos35/el-poder/el-poder.shtml

http://www.monografias.com/trabajos7/caes/caes.shtml

http://www.monografias.com/Computacion/Programacion/

http://www.monografias.com/trabajos16/sepa-excel/sepa-excel.shtml

Y : Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión

N: Número de datos

M: Número de variables independientes

El coeficiente de determinación múltiple

Mide la tasa porcentual de los cambios de Y que pueden ser explicados por

, y simultáneamente.

APLICACION DE REGRESION MULTIPLE

Mediante el siguiente problema podremos ilustrar la aplicación de

Regresión Múltiple:

En la Facultad de Ingeniería de Sistemas y Computo de la Universidad

"Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje

de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al

azar una muestra de 15 alumnos y ellos registran notas promedios en las

asignaturas de Algoritmos, Base de Datos y Programación como se

muestran en el siguiente cuadro.(Fabián, 2006)

Alumno PHP Algoritmos Base de Datos Programación

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

http://www.monografias.com/trabajos14/historiaingenieria/historiaingenieria.shtml

http://www.monografias.com/trabajos13/admuniv/admuniv.shtml

http://www.monografias.com/trabajos5/teap/teap.shtml

http://www.monografias.com/trabajos11/winnet/winnet.shtml


http://www.monografias.com/trabajos15/algoritmos/algoritmos.shtml

http://www.monografias.com/trabajos34/base-de-datos/base-de-datos.shtml

http://www.monografias.com/Computacion/Programacion/

8 13 16 14 15

9 13 15 14 13

10 13 14 13 10

11 11 12 12 10

12 14 16 11 14

13 15 17 16 15

14 15 19 14 16

15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia

que exista de aprendizaje reflejada en las notas de la asignatura de PHP,

conociendo las notas de las asignaturas Algoritmos, Base de Datos y

Programación.(Fabián, 2006)

Se presentara la siguiente ecuación a resolver:

Utilizando las fórmulas de las ecuaciones normales a los datos

obtendremos los coeficientes de regresión o utilizando Regresión de

Análisis de datos, en la Hoja de Cálculo de Excel podemos calcular también

los coeficientes de regresión:

Por lo tanto podemos construir la ecuación de regresión que buscamos:

http://www.monografias.com/trabajos/adolmodin/adolmodin.shtml

El Error Estándar de Regresión Múltiple

Mediante esta medida de dispersión se hace más preciso el grado de

dispersión alrededor del plano de regresión, se hace más pequeño.

Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error típico y para explicar la relación

del aprendizaje de PHP que se viene desarrollando es de 0.861. (Fabián,

2006)

El coeficiente de determinación múltiple (r2)

Utilizaremos para determinar la tasa porcentual de Y para ser explicados las

variables múltiples, utilizando elsi siguiente formula:

4. SERIES DE TIEMPO

Es un conjunto de datos numéricos que se obtienen en períodos regulares a

través del tiempo. Estos datos pueden ser muy variados, generalmente son

usados para evaluar el comportamiento de las ventas de una empresa, o

para evaluar el comportamiento de los índices de precio de un país o de un

tipo de producto pero en general pueden aplicarse a cualquier negocio y /o

área. Este comportamiento puede tener características de tipo estacional, o

cíclico o siguen alguna tendencia ya sea a la baja, de subida o sin variación.

Las organizaciones en general evalúan periódicamente el comportamiento

de su actividad y/o productos a fin de pronosticar que va a suceder en el

futuro en base a lo que ha venido ocurriendo en el pasado, está sucediendo

en el presente y tiene la tendencia a comportarse de la misma manera en el

futuro.(P., 2006)

El análisis realizado tomó en cuenta dos tipos de clientes o cuentas de

acceso a Internet, dependiendo de la velocidad de acceso hacia la red,

menores a 1 Mbps. (banda angosta) e iguales o mayores a 1 Mbps. (banda

ancha)(P., 2006)

Caso: Clientes que acceden a Internet a través de Banda angosta

Para este primer caso se analizó el comportamiento de clientes con un tipo

de acceso a través de líneas no dedicadas o también conocido como

acceso conmutado o dial-up que son realizados a través de un modem, y

son de banda angosta (velocidades de acceso menores a 1 Mbps).

En la Figura 1 se presenta un gráfico con los valores obtenidos de la serie

de tiempo, de Enero del 2002 a Agosto del 2005. Se puede observar que en

los primeros 18 meses el descenso fue más pronunciado que en los últimos

doce meses de análisis.(P., 2006)

http://www.monografias.com/trabajos11/basda/basda.shtml

http://www.monografias.com/trabajos11/empre/empre.shtml

http://www.monografias.com/trabajos16/fijacion-precios/fijacion-precios.shtml#ANTECED

http://www.monografias.com/trabajos12/elproduc/elproduc.shtml

http://www.monografias.com/trabajos6/napro/napro.shtml

http://www.monografias.com/trabajos12/elproduc/elproduc.shtml

http://www.monografias.com/trabajos5/cuentas/cuentas.shtml

http://www.monografias.com/Computacion/Redes/

http://www.monografias.com/trabajos/todomodem/todomodem.shtml


Luego lo que se obtuvo fue el análisis de tendencia siguiendo el

métodolineal, la ecuación que representa esta tendencia está dada por la

expresión:

Yt = 1801091 - 23085.4*t

Y como se aprecia en la figura 2 se muestra la tendencia el valor

proyectado para los próximos 6 meses. Para los análisis de tendencias

consideraremos el valor para el factor MAD, (Mean Absolute Deviation –

Desviación Absoluta Media que es igual a [la suma del valor absoluto de

(valor actual- valor predicho)] / número de observaciones) Para este caso el

MAD = 1.00E+05.(P., 2006)

El siguiente análisis es usando el modelo de tendencia cuadrática,

obteniéndose como ecuación:

Yt = 2060597 - 56933.9*t + 752.190*t**2

En la figura 3 se aprecia la tendencia y el valor MAD = 34506.

http://www.monografias.com/trabajos11/metods/metods.shtml



http://www.monografias.com/trabajos/adolmodin/adolmodin.shtml

El siguiente análisis es usando el modelo de la curva creciente,


Yt = 1837199 * (0.982902**t)

En la figura 4 se aprecia la tendencia y el valor MAD = 82922.

Finalmente el último análisis es el de tendencia de la Curva-S,


Yt = (10**7) / (11.3571 - 7.60101*(0.954664**t))

En la figura 5 se aprecia la tendencia y el valor MAD = 6.16E+04.

De los 4 análisis hechos observamos:

Modelo de Tendencia Lineal: MAD = 1.00E+05

Modelo de Tendencia Cuadrática: MAD = 34506

Modelo de Curva Creciente: MAD = 82922

Modelo de Tendencia de la Curva-S: MAD = 6.16E+04

De todos ellos se escoge el de menor valor MAD, sería el Modelo de

Tendencia Cuadrático, seguido por el la Curva-S, pero el efecto real as

probable para este tipo de conexión es que siga la tendencia propuesta por

el modelo Curva-S, es decir el número de usuarios conectados a

velocidades menores a 1Mbps seguirá esta tendencia.(P., 2006)

Universidad Mariano Gálvez de Guatemala Centro Universitario de Escuintla Facultad de...

Documents

Transcript of Universidad Mariano Gálvez de Guatemala Centro Universitario de Escuintla Facultad de...