Fundamentos de Estatística Aplicada e probabilidadevalner.brusamarello/inst/aula_02.pdf ·...

Fundamentos de Estatística Aplicada e probabilidade

Aula 03

e probabilidade

Aula 03

Prof. Valner Brusamarello

Variáveis aleatórias contínuasEm medidas, os dados podem ser influenciados por pequenas variações de temperatura, pressão, vibração, entre outras variáveis não controladas.Uma peça tirada da produção, a qual possui uma p ç p ç , q pmedida muito precisa sempre possui dispersão em torno da mesma.É comum modelar a faixa de valores possíveis dentro de um intervalodentro de um intervalo.

Fontes potenciais de Fontes potenciais de variabilidade

Exemplo 1: O consumo de um carro não é d d t d di tâ i i t d D d dependentes da distância registrada apenas. Depende de fatores como tipo de estrada, condições do carro, ti d li ttipo de gasolina, etc.Exemplo 2: Um engenheiro está projetando um conector de náilon para aplicação automotiva. A parede deste conector está condicionada a força de remoção do conector. O primeiro protótipo foi feito e as seguintes forças de remoção são medidas: 12,6; 12,9; 13,4; 12,3 ;13,6; 13,5; 12,6; 13,1 N.

Funções densidade de probabilidadeUtilizada para descrever sistemas físicosUtilizada para descrever sistemas físicosServe para descrever a distribuição de probabilidades de uma variável aleatória contínua x.A probabilidade de x estar entre a e b é determinada pela integral de f(x) de a a b.

Ex.: Considere a função densidade probabilidade abaixo e calcule a

( ) 0f x+∞

≥

probabilidade abaixo e calcule a P(5<X<15).

( ) 1

b

f x dx+∞

−∞

=∫

∫ ( )( )

0 ( ) 1a

P a X b f x dx

P a X b

≤ ≤ =

≤ < < ≤

∫

Funções densidade de probabilidadeç pHistograma é uma aproximação da função densidade probabilidade. O mesmo é geralmente representado por um gráfico de barras.

Função de distribuição cumulativa

( ) ( ) ( )F x P X x f u du∞

−∞

= ≤ = ∫

F(x) é uma função contínua

F(x) representa a probabilidade ( ) p pacumulada.

Observe que os valores variam entre 0 e q1

A função densidade probabilidade de uma ç pvariável aleatória contínua pode ser determinada a partir da diferenciação da

( )( ) dF xf xdx

=

função distribuição cumulativa.

Média e variância de uma variável Média e variância de uma variável aleatória contínuaSe X é uma variável aleatória contínua com uma função densidade

b bilid d f( ) édi l d d X iâ i X é probabilidade f(x) a média ou o valor esperado de X e a variância X é definida pelas equações abaixo.

O des io padrão é a rai uadrada da média O desvio padrão é a raiz quadrada da média.

x

( ) ( )x

x

E X xf x dxµ−

= = ∫

( ) ( ) ( )22 2 2( )V X x f x dx x f x dxσ µ µ+∞ +∞

−∞ −∞

= = − = −∫ ∫

Média e variância de uma Média e variância de uma variável aleatória discreta

A média da amostra utiliza pesos iguais 1/n lti li d d d l did 1 1 1como multiplicador de cada valor medido.

A média ou o valor esperado de X denotados por µ é E(X)

1 21 1 1... nx x x xn n n

= + + +

por µ é E(X)é o ponto de equilíbrio quando um peso

igual for colocado no local de cada medida ao ( ) ( )

xE X xf xµ = = ∑x

igual for colocado no local de cada medida ao longo da linha numérica. Similarmente se f(x) for a função densidade de uma carga de uma viga longa e delgada, E(X) é o ponto no qual a viga se equilibra. E(X) é o centro de distribuiçãodistribuição.

Média e desvios da média em uma Média e desvios da média em uma população e uma amostra np p ç

Média da amostra: valor médio das observações de um conjunto de dados.

xn

i∑um conjunto de dados.

Amostra: conjunto de observações sobre a população. n

x i== 1

p p ç

População: Conjunto muito grande de observações.

No exemplo anterior as 8 medidas constituem uma N

Média da amostra

pamostra da população. A população deveria ser a medida de todos os conectores. x

N

i∑A média da amostra é uma boa estimativa da média da população N

i== 1µ

Média da população

Média e variância de uma variável aleatória discreta

( ) ( ) ( )2 2 221 2

1 1 1...1 1 1 ns x x x x x x

n n n= − + − + + −

− − −

Para dados amostrais X1,X2, ..., Xn, a variância é um sumário da dispersão ou espalhamento dos dados.

usa pesos iguais de 1/(n-1) como multiplicador de cada desvio quadrado Desvios calculados a partir da média da amostra tendem a ser menores que

2s( )2

ix x−Desvios calculados a partir da média da amostra tendem a ser menores que desvios calculados a partir da média da população.A variância V(X) é denotada por: ( ) ( )22 ( )V X f∑

( ) p

E o desvio padrão:

( ) ( )22 ( )x

V X x f xσ µ= = −∑( )2 2 2( )V X x f xσ µ= = −∑p

x1/ 2[ ( )]V Xσ =

Média e desvios da média em uma Média e desvios da média em uma população e uma amostrap p ç

A variabilidade ou dispersão ( )2∑

nppode ser descrita pela variância ou o des io padrão da amostra

( )1

2

2−

=∑

=

xxs i

i

ou o desvio padrão da amostra.Em se tratando da população, a

1−ns

p p ç ,variância e o desvio padrão são

f i d σ( )2

2 1

n

ii

x µσ =

−=

∑referenciados com σ N

σ =

Graus de liberdade

N t di i d iâ i d t é é t h d t Note que o divisor da variância da amostra é é o tamanho da amostra menos 1 (n-1), enquanto para a variância da população, é o tamanho da população n. p p çSe soubéssemos o valor verdadeiro da média populacional µ, então poderíamos encontrar a variância da amostra como a média dos quadrados d d i d b õ d d dos desvios das observações da amostra em torno de µ.Na prática, o valor de µ quase nunca é conhecido, e dessa forma, a soma dos quadrados dos desvios em torno da média X tem que ser usada No dos quadrados dos desvios em torno da média X tem que ser usada. No entanto as observações Xi tendem a estar mais próximas do seu valor médio X, do que a média populacional µ. Para compensar isso, usamos n-1 como divisor ao invés de n. Se usássemos n como divisor na variância da amostra, obteríamos uma medida de variabilidade que seria em média consistentemente menor medida de variabilidade que seria, em média, consistentemente menor que σ2 da população.

Graus de liberdadeGraus de liberdade

Outra maneira de pensar acerca disso é considerar aiâ i 2 d d b d 1variância s2, da amostra como estando baseada em n-1

graus de liberdade.O “ d lib d d ” l d f dO termo “graus de liberdade” resulta do fato de que ndesvios X1 -X, X2 –X, ..., Xn –X sempre somam zero eassim especificar os valores de quaisquer n 1 dessasassim, especificar os valores de quaisquer n-1 dessasquantidades determina automaticamente aquelerestanterestante.Dessa forma, somente n-1 nos n desvios Xi –X, estãolivremente determinadoslivremente determinados.

Representação da média e desvios p çde forma gráfica

Distribuição NormalDistribuição NormalModelo mais utilizadoModelo mais utilizadoTeorema central do limite faz com que a forma seja um sino simétrico.Ponto central (máximo), representa a média Ponto central (máximo), representa a média Em uma medida, quando os desvios são decorrentes de variáveis independentes e podem ser igualmente positivos em relação à média.Exemplo: o desvio no comprimento de uma peça é dependente de variações na temperatura, vibrações, variações de ângulos de corte, desgaste da ferramenta de corte desgaste no mancal variação na desgaste da ferramenta de corte, desgaste no mancal, variação na velocidade, entre outras.Variáveis aleatórias com diferentes médias e variâncias podem ser pmodeladas pelas funções densidade de probabilidade normal com escolhas apropriadas do centro e da largura da curva.

d d f d d d b b l d d 2 E(x)=µ determina o centro da função densidade probabilidade e V(x)=σ2

a sua variabilidade;

Distribuição NormalDistribuição NormalUma variável aleatória X com função densidade de probabilidade

( )2

221( )2

x

F x eµ

σ

πσ

− −

=x−∞ < < ∞para

Tem uma distribuição normal, com parâmetros µ, em que: µ−∞ < < ∞

0σ >

( )E X µ=( )E X µ2( )V X σ=

Distribuição NormalDistribuição NormalDa simetria de f(x):

( ) ( ) 0.5P X P Xµ µ> = < =

A função densidade de probabilidade diminui a medida que x se afasta de µ.Pelo fato de mais de 0.9973 da probabilidade de uma distribuição normal estar dentro do intervalo de (µ-3σ,µ+3σ), 6σ é freqüentemente referida como a largura de uma distribuição normal.

2Uma variável aleatória com µ=0 e σ2=1 é chamada de variável aleatória normal padrão. Uma variável aleatória

l d ã é d t d Z normal padrão é denotada por Z.

Distribuição NormalDistribuição NormalExemplo: Utilize a tabela de probabilidades cumulativas para uma

iá l l tó i d ã t P(Z≤1 5)variável aleatória padrão para encontrar P(Z≤1.5).

A função de distribuição cumulativa de uma variável aleatória normal u ção e st u ção cu u at a e u a a á e a eató a o a padrão é denotada por

( ) ( )z P Z zΦ = ≤

P(Z ≤ -4.6) não pode ser encontrada diretamente utilizando a tabela, no entanto a última entrada na tabela pode ser utilizada para encontrar p pque P(Z ≤ -3.99)=0.000003. Logo P(Z ≤ -4.6) é aproximadamente zero.Encontre o valor z tal que P(Z > z)=0 05 Essa expressão de Encontre o valor z tal que P(Z > z)=0.05. Essa expressão de probabilidade pode ser escrita como P(Z ≤ z) = 0.95. Pela tabela observa-se que o valor mais próximo é 0.95053 correspondente a z=1 65 z=1.65

Tabela de probabilidades cumulativas para uma variável aleatória padrãovariável aleatória padrão

Tabela de probabilidades cumulativas para uma variável aleatória padrão

Distribuição NormalDistribuição NormalTodos os exemplos precedentes mostram como calcular as probabilidades para variáveis aleatórias normais padrões. Para uma variável aleatória genérica é necessário fazer uma aleatórias normais padrões. Para uma variável aleatória genérica é necessário fazer uma pequena transformação para utilizar a tabela.

Se X for uma variável aleatória normal com E(X)=µ e V(X)=σ2, então a variável aleatória aleatória

XZ µσ−

=

será uma variável aleatória normal com E(Z)=0 e V(Z)=1 assim a tabela poderá ser utilizada.

Suponha que as medidas da corrente em um pedaço de fio sigam a distribuição normal com

σ

Suponha que as medidas da corrente em um pedaço de fio sigam a distribuição normal com uma média de 10 mA e uma variância de 4 mA2. Qual é a probabilidade da medida exceder 13 mA? Faça X denotar a corrente em mA, então P(x>13)=?

Z=(X 10)/2 logo P(X>13)= P(Z>1 5) = 1 P(Z≤1 5)=0 06681Z=(X-10)/2, logo P(X>13)= P(Z>1,5) = 1- P(Z≤1,5)=0.06681Qual a probabilidade da medida da corrente estar entre 9 e 11 mA?P(9<X<11) = P((9-10)/2<(11-10)/2))= P(-0.5<Z<0.5) = P(Z<0.5)-P(Z<-0.5)=0,69146 - 0.30854= 0.38292

Inferência estatísticaInferência estatísticaMétodos utilizados para tomar decisões ou tirar conclusões a cerca da

lpopulaçãoExemplo: Um engenheiro está analisando a resistência a tensão de um componente usado em um chassi de automóvel. Uma vez que a p qvariabilidade da resistência a tração está naturalmente presente em componentes individuais, devido a diferenças nas matérias primas, processos, medidas entre outros. Na prática esse engenheiro está processos, medidas entre outros. Na prática esse engenheiro está interessado na resistência média a tração, e para tal fará uma estimativa baseado em uma amostra da populaçãoPopulação consiste na totalidade das obser ações em ue estamos População: consiste na totalidade das observações em que estamos interessadosAmostra: é um subconjunto de observações selecionadas a partir de uma população.As variáveis aleatórias (X1, X2,...Xn) são uma amostra aleatória de tamanho n se os dados Xi forem variáveis aleatórias independentes e cada tamanho n se os dados Xi forem variáveis aleatórias independentes e cada um deles tiver a mesma distribuição de probabilidades.

M lh ti tiMelhor estimativa

Quando um valor numérico é reportado, é geralmente á i d l idéi d i t d ti ã A necessário dar alguma idéia da incerteza da estimação. A

medida da incerteza geralmente empregada é o desvio padrão da média dos dados (ou do estimador que está padrão da média dos dados (ou do estimador que está sendo utilizado).A incerteza padrão de um estimador é o seu desvio θppadrão dado por Se a incerteza padrão envolver parâmetros desconhecidos

ˆˆˆ ( )V

θσ θ=

p pque possam ser estimados então a substituição daqueles valores em produzirá uma incerteza padrão estimada.ˆˆ

θσ

M did d di ãMedida da dispersão

Suponha que estejamos amostrando a partir de uma distribuição normal com média µ e variância σ2. ç µSabemos que: n

ix∑Média da amostra: valor médio das1

iiX

n==∑Média da amostra: valor médio das

observações de um conjunto de dados. Amostra: conjunto de observações sobre

N

∑

j ça população.População: Conjunto muito grande de b õ

N

xi

i∑== 1µ

observações. A média da amostra é uma boa estimativa da média da população N

µestimativa da média da população

Medidas de dispersãop

A variabilidade ou dispersão pode ser descrita pela variância ou o desvio padrão da amostra.

( )2∑npa ão a a ost a.

Em se tratando da população, a iâ i d i d ã ã

( )1

2

2−

=∑

=

xxs i

i

variância e o desvio padrão são referenciados com σ

1−ns

( )2

2 1

n

ii

x µσ =

−=

∑N

σ

Desvio padrão da médiaConsidere um caso genérico com as variáveis aleatórias X1, X2,...Xp e constantes C1, C2,...Cp Se Y for uma combinação linear dessas variáveis 1, 2, p. çtemos:Y= C1X1+C2X2+... +CpXn

Podemos determinar o valor esperado de Y:e sua variância:

1 1 2 2( ) ( ) ( ) ... ( )p pE Y C E X C E X C E X= + + +

Ai d X X X f i d d ã

2 2 21 1 2 2

2( ) ( ) ( ) ... ( ) 2 cov( , )p p i j i j

i jV Y C V X C V X C V X C C X X

< =

= + + + + ∑∑

Ainda, se X1, X2,...Xp forem independentes então

Essa é uma conclusão importante pois podemos concentrarmos na

2 2 21 1 2 2( ) ( ) ( ) ... ( )p pV Y C V X C V X C V X= + + +

Essa é uma conclusão importante, pois podemos concentrarmos na combinação linear particular que representa a média de p variáveis aleatórias, com média e variância idênticas, pois, se X1, X2,...Xp forem pindependentes então:

Desvio padrão da médiaDesvio padrão da médiaSe a média é com para i=1,2,...p 1 2 ... pX X X

X+ + +

= ( )iE X = µ p , ,...pentão .

Se X1, X2 ... X , são independentes com V(Xi)=σ2 para

p( )E X µ=

( )i µ

Se X1, X2. ... Xp, são independentes com V(Xi) σ para i=1,2,...p então

O desvio padrão da média é menor que da população. Este é o

2

( )V Xp

σ=

p q p p çvalor utilizado como incerteza padrão!

X pσσ =

Quando o estimador seguir uma distribuição normal, podemos ficar razoavelmente confiantes de que o valor

p

p qverdadeiro do parâmetro encontra-se no intervalo da incerteza padrão estimada. ˆ Sp ˆ X p

σ =

Standard Deviation of the Mean Standard Deviation of the Mean (Standard Error)( )

Quando reportamos a média de N medidas, a incerteza que devemos associar com esta média é o desvio padrão da média.

O desvio padrão da média é menor que o desvio padrão por um fator 1/√ I fl t f t d ó i t d l 1/√n . Isso reflete o fato de que nós esperamos que a incerteza do valor da média seja menor quando utilizamos um grande número de medidasN.N.

Distribuições amostraisA inferência estatística lida com tomar decisões acerca de uma população baseando se na çA inferência estatística lida com tomar decisões acerca de uma população, baseando-se na informação contida em uma amostra aleatória proveniente daquela população.

Considere o exemplo do volume médio de uma lata de 300 ml. Um engenheiro considera uma amostra aleatória de 25 latas e calcula o volume médio amostral de enchimento com 298 ml O amostra aleatória de 25 latas e calcula o volume médio amostral de enchimento com 298 ml. O engenheiro decidirá provavelmente que a média da população é µ=300 ml, muio embora a média amostral tenha sido 298 ml, porque ele sabe que a média amostral é uma estimativa razoável de µ e que a média amostral de 298 é muito provável de ocorrer, mesmo se a média verdadeira da população seja de µ=300 ml. De fato, se a média verdadeira for de 300 ml, então os testes de 25 latas feitos rapidamente, talvez a cada 5 minutos, produzirão valores de que variarão acima e abaixo de µ=300 ml

A édi l é í i i é é iá l l ó i d d d l d A média amostral é uma estatística, isto é, é uma variável aleatória que depende dos resultados obtidos em cada amostra particular. Uma vez que uma estatística é uma variável aleatória, ela tem uma distribuição de probabilidades

A distribuição de probabilidades de é chamada de distribuição amostral da média

X

A distribuição de probabilidades de é chamada de distribuição amostral da média

X

Distribuições amostraisConsidere que queremos determinar a distribuição amostral da média da amostraConsidere que queremos determinar a distribuição amostral da média da amostra.

Esta amostra é retirada de uma população normal com média µ e variância σ2.A média da amostra:

Tem uma distribuição normal com média e variância:1 2 ... nX X X

Xn

+ + +=

Se estivermos amostrando de uma população que tenha uma distribuição desconhecida de ...

X

µ µ µµ µ+ + += =

2 2 2 22

2

...X

σ σ σ σσ + += =p p ç q ç

probabilidades, a distribuição amostral da média da amostra será aproximadamente normal com média µ e variância σ2/n.

X nµ µ 2X nn

Teorema central do limiteSe X1, X2,...Xn for uma amostra aleatória de tamanho n retirada de uma

l ã f f éd â 2 f população finita ou infinita, com média µ e variância σ2, e se for a média da amostra, então a forma limite da distribuição de X

X µ−

quando n tende a infinito, é a distribuição normal padrão.

XZ

n

µσ

=

A aproximação normal para depende do tamanho n da amostra.X

Teorema central do limiteUma companhia eletrônica fabrica resistores que possuem uma resistência média de 100 Ω e um desvio padrão de 10 Ω A distribuição de resistências é normal Encontre 100 Ω e um desvio padrão de 10 Ω. A distribuição de resistências é normal. Encontre a probabilidade de uma amostra de n=25 resistores ter uma resistência média menor que 95 Ω.

A distribuição amostral da média da amostra é normal com média e desvio padrão:

Padroni ando o ponto temos100µ Ω10 2σσPadronizando o ponto , temos:

E assim:

100Xµ = Ω 225X n

σ = = =

95 100 2 5Z −= = −

95X = : 2,5

2Z = = −

( 95) ( 2,5) 0,0062P X P Z< = < − =( ) ( , ) ,

Teorema central do limiteSuponha que uma variável aleatória X tenha uma distribuição contínua

if 1 4 6⎧ ⎪uniforme:

d b l d éd d l ó d

( )1 , 4 620,

xf x

caso contrário

⎧ ≤ ≤⎪= ⎨ ⎪⎩

Encontre a distribuição amostral da média de uma amostra aleatória de tamanho n=40. A média e a variância de X são

( )26 4 1

O l d li i i di di ib i ã d é

5µ =( )2 6 4 1

12 3σ

−= =

XO teorema central do limite indica que a distribuição de é aproximadamente normal com média e variância

X

2 1 1σ5Xµ = ( )

2 1 13 40 120X n

σσ = = =

Bibliografia

Estatística aplicada e probabilidade para engenheiros, Douglas Montgomery, George Runger, LTC 2º Ed.g y g gDesign and analysis of experiments 2Ed. Douglas Montgomory. John Wiley and Sons.BALBINOT A., BRUSAMARELLO V. J., Instrumentação e Fundamentos de Medidas V 1 e V2 , 2006 e 2007.

Regressão LinearAula opcionalgAula opcional

Valner BrusamarelloValner Brusamarello

Coletando dadosEstudo observacional: Os dados são observados a medida que estão disponíveis. q p

Ex.: Desempenho de componentes de plásticos. Observação de: temperatura, encolhimento, resistência, etc.

Utilização de dados para a construção de um modelo empírico.Ex.: Verificar histórica de pastilhas semicondutoras, onde variáveis amostrais são registradas e podem ser avaliadas ao longo do tempo.Freqüentemente estes estudos envolvem um volume grande de dados e

d d í i d i í i grande domínio de conceitos estatísticos.

Coletando dadosExperimento planejado: O engenheiro provoca variações propositais em p p j g p ç p pvariáveis controladas. Observa a saída e então toma a decisão sobre as principais variáveis responsáveis pelas mudanças.

Ex.: Um conector tem no protótipo inicial uma parede p. A fim de verificar f d ã d d i ifi i d é se a força de remoção do mesmo tem mudança significativa, a parede é

aumentada para p1.Experimentos planejados tendem a ser mais confiáveis são recomendados em estudos os quais possam ser aplicadosestudos os quais possam ser aplicados.

Existem técnicas de análise estatísticas poderosas, assim como ferramentas computacionais disponíveis para avaliar resultados e hipóteses sobre variabilidade de sistemas. Desde testes simples até estudos de variabilidades . pmultivariáveis.

ModelosMecanicista: Construído a partir do mecanismo físico básico que relaciona as variáveis. Ex.:

d d l à fl êPode-se ajustar modelo à influências externas: EIR

=

Onde ε representa as fontes de variabilidade não modeladas.

R

Empírico: Modelo construído pela observação de um fenômeno e pelas influências de variáveis no mesmo. Ex.:

d l d ê l d

EIR

ε= +pModelo de resistência a tração, relacionando comprimento e altura da matriz.

R

Nº ObsResist.

TraçãoComp.

Arame Alt. Molde

1 9,95 2 50

2 24,45 8 110

Exemplo: Modelo de resistência à tração relacionando altura do molde e comprimento

3 31,75 11 120

4 35 10 550

5 25,02 8 295

6 16 86 4 200do arame: 6 16,86 4 200

7 14,38 2 375

8 9,6 2 52

9 24,35 9 100

( ) ( )0 1 2Resistência a tração= .comp alturaβ β β ε+ + +

Denominado10 27,5 8 300

11 17,08 4 412

12 37 11 400

13 41 95 12 500

Denominado modelo de regressão

13 41,95 12 500

14 11,66 2 360

15 21,65 4 205

16 17,89 4 400

17 69 20 600

18 10,3 1 585

19 34,93 10 540

20 46 59 15 25020 46,59 15 250

21 44,88 15 290

22 54,12 16 510

23 56,63 17 590

24 22,13 6 100

25 21,15 5 400

Análise de regressãoNº da

observaçãoNível de

hidrocarbonetoPureza

%

Técnica estatística para investigar relação entre duas ou mais variáveis.

1 0,99 90,01

2 1,02 89,05

3 1,15 91,43

4 1 29 93 74Problema: Tabela onde uma das variáveis é a % da pureza de oxigênio produzido em um processo químico de destilação e a outra

á l é d h d b

4 1,29 93,74

5 1,46 96,73

6 1,36 94,45

7 0,87 87,59variável é a percentagem de hidrocarbonetos presentes no condensador principal da unidade de destilação.Grande as Ní el de hidrocarboneto

8 1,23 91,77

9 1,55 99,42

10 1,4 93,65

11 1 19 93 54Grandezas: x - Nível de hidrocarboneto y -% Pureza do oxigênio

11 1,19 93,54

12 1,15 92,52

13 0,98 90,56

14 1,01 89,54

15 1,11 89,85

16 1,2 90,39

17 1,26 93,25

18 1 32 93 4118 1,32 93,41

19 1,43 94,98

20 0,95 87,33

Diagrama de dispersão T dê i li Dispersão x ajuste

102

Tendência: linear Nenhuma curva passa por todos os pontos

98

100

%

os pontos.Pergunta: Posso descrever o processo com

92

94

96re

za O

2 %processo com

uma reta?Se afirmativo, qual a reta que

88

90

92

Purq q

melhor descreve a relação?

86

88

0,75 0,95 1,15 1,35 1,55 1,75

Nível hidrocarboneto

Regressão linear simplesg pOs pontos repousam em torno de uma reta aleatoriamente, considerando a média de y em relação a x.Pode-se ter, portanto um valor esperado:

( )|E y x xµ β β= = +( ) | 0 1| y xE y x xµ β β= = +β0 e β1 coeficientes da regressão.

0 1y xβ β ε= + +Modelo linear probabilístico:

0 1y β βε termo aleatório com média igual a zero e variança σ2.e variança σ .

Regressão linear simplesPara cada valor de x existe uma distribuição do valor verdadeiro Para cada valor de x existe uma distribuição do valor verdadeiro de y. O valor de σ e σ2 determinam se o ponto cai longe ou perto da reta.Considerando n pares (x1,y1), (x2,y2), ...,(xn,yn) existe uma reta candidata.Karl Gauss (1777 1885) propôs o método dos mínimos Karl Gauss (1777-1885) propôs o método dos mínimos quadrados. Estima-se β0 e β1 de modo a minimizar a soma dos quadrados dos desvios verticais

Mínimos quadradosy xβ β ε= + + 1 2 3i n=q0 1i i iy xβ β ε= + + 1,2,3,...,i n=

( )2

2n n

L y xε β β= = − −∑ ∑( )0 11 1

i i ii i

L y xε β β= =

= = − −∑ ∑^ ^nL∂ ⎛ ⎞ ^ ^ n n

^ ^

0 1

^ ^

0 110 ,

2 0n

i ii

L y xβ β

β ββ =

∂ ⎛ ⎞= − − − =⎜ ⎟∂ ⎝ ⎠∑

^ ^

0 11 1

n n

i ii i

n x yβ β= =

+ =∑ ∑

^ ^

0 1

^ ^

0 111 ,

2 0n

i i ii

L y x xβ β

β ββ =

∂ ⎛ ⎞= − − − =⎜ ⎟∂ ⎝ ⎠∑

^ ^2

0 11 1 1

n n n

i i i ii i i

x x y xβ β= = =

+ =∑ ∑ ∑

Mínimos quadradosqSimplificando:

0 1ˆ ˆ

n n

y xβ β= −

∑ ∑1 1

1ˆ

i ini i

i ii

y xy x

nβ

= =

=

−∑ ∑

∑1

1 2i

n

in

n

xβ ==

⎛ ⎞⎜ ⎟⎝ ⎠∑

12

1

ii

ix

n=

=

⎝ ⎠−∑

1

1 n

ii

y yn

= ∑1

1 n

ii

x xn =

= ∑1in = 1i

Regressão Linear simplesˆ ˆβ β 1 2 3g p

0 1i i iy x eβ β= + + 1, 2,3,...,i n=

ˆresíduo ˆi i ie y y= −

Notações ao denominadorNotações ao denominador2n

x⎛ ⎞⎜ ⎟∑

( )2 12

1

ini

xx i ii

xS x x x

n=

=

⎜ ⎟⎝ ⎠= − = −∑

∑

( )

1

2

in n

i in y x

=

∑ ∑∑( )2 1 1

1

i ii i i i

iSxy y x x y x

n= =

=

= − = −∑

Exemplo anterior: pureza O2p p20n =

20

11843,21i

iy

=

=∑ 92,16y =20 2020

20

123,92i

ix

=

=∑

1,2x =20

2

129,29i

ix

=

=∑20

2

1170044,53i

iy

=

=∑20

12214,66i i

ix y

=

=∑

20 20220

12 0,6820

ii

xx i

xS x =

⎛ ⎞⎜ ⎟⎝ ⎠= − =∑

20 20

201 1

110,18

20

i ii i

i i

y xSxy y x = == − =

∑ ∑∑

20xx i 1 20i=

110,18ˆ 14,97xyS

β = = = ( )0 1ˆ ˆ 92,16 14,97 1,20 74, 20y xβ β= − = − =

1 ,0,68xxS

β ( )

Resultado do ajusteˆ 74, 20 14,97y x= +

Dispersão x ajuste

96

98

100

102

%

90

92

94

96

Pure

za O

2

86

88

0,75 0,95 1,15 1,35 1,55 1,75

Nível hidrocarboneto

Propriedades de variância dos estimadores de mínimos dos estimadores de mínimos quadradosq

é um estimador não tendencioso da inclinação 1β çverdadeira β1

Os resíduos são utilizados no cálculo da

1β

ˆi i ie y y= −estimativa de σ2

A soma dos quadrados dos resíduos ou a soma dos quadrados dos erros é

( )2ˆn

sQ y y= −∑( )1

E i ii

sQ y y=

= ∑

Propriedades de variança dos estimadores de mínimos dos estimadores de mínimos quadradosq

Uma fórmula conveniente para o cálculo de sQE pode d b i i d d l j d

Valor esperado encontrada substituindo o modelo ajustado

Fazendo ainda algumas simplificações chegamos em:0 1ˆi iy xβ β= +para a soma dos quadrados dos erros

2 2 ˆn

Q Sβ∑E ti d ã

( ) ( ) 22EE sQ n σ= −

2 21

1E i xy

isQ y ny Sβ

=

= − −∑n n

Estimador não tendencioso de σ2

( )22 2

1 1

n n

T i ii i

sQ y ny y y= =

= − = −∑ ∑

ˆ2ˆ EsQσ =

1E T xysQ sQ Sβ= −2nσ

−

No exemplo anterior10 18S ˆ 14 97β

p10,18Sxy = 1 14,97β =

220⎛ ⎞( )220 20

12 2 2 1843, 21170044,53 173,37

20 20

ii

T i i

ysQ y ny y =

⎛ ⎞⎜ ⎟⎝ ⎠= − = − = − =∑

∑ ∑1 1 20 20i i= =

( )( )ˆ ( )( )12 14,97 10,18ˆ 173,37 1,17

2 2 20 2T xyE sQ SsQ

n nβ

σ−

= = = − =− − −

Estimadores de variância dos Estimadores de variância dos coeficientes

Por fim pode-se chegar ao erro padrão

( )2ˆˆ σβ

estimado da inclinação

( )1seSxx

β =

E ao erro padrão do estimado da intersecção:

( )2

20

1ˆ ˆ xseS

β σ⎡ ⎤

= −⎢ ⎥⎣ ⎦

( )0 n Sxxβ ⎢ ⎥

⎣ ⎦

Gráfico de resíduosresíduos

Dispersão do resíduo fornece

resíduos

2

3

Dispersão do resíduo fornece indícios sobre a regressão.

-1

0

1

87 89 91 93 95 97 99Res

íduo

s

-3

-2

Pureza de O2 - yR íd u e a de O yResíduos

2

3

0

1

2

0 87 1 07 1 27 1 47 1 67esíd

uos

-3

-2

-10,87 1,07 1,27 1,47 1,67Re

Nível de hidrocarboneto

Abusos e limitaçõesFreqüentemente mal empregadaq p gForte associação entre duas variáveis não implica que existe relação causal entre as mesmasEx.: O número de cegonhas aumentou significativamente após a 2º guerra g g p gmundial. Observou-se que o mesmo aconteceu com nascimento de bebês. Conclusão: O aumento de cegonhas provocou o aumento de bebês!!!??? Planejamento de experimentos é a única maneira de determinar relações causaisAjustes não devem ser extrapolados (apenas dentro da faixa considerada)Testes de significância são normalmente executados

Abusos e limitaçõesE se houverem mais que 2 variáveis? 3 plano mais que 3 E se houverem mais que 2 variáveis? 3 plano, mais que 3 hiperespaço. A continuação deste assunto é regressão linear múltipla e trata de regressão multivariáveis.g

E se a relação não for linear? Cuidado! Lembre-se do estudo do seu processo. Você deve ter conhecimento sobre as variáveis das quais está tratando

Transformação para uma linha reta de funções linha reta de funções intrinsicamente lineares

( ) ( ) ( )10 0 1ln ln lnxY e Y xββ ε β β ε= ⇒ = + +( ) ( ) ( )0 0 1ln ln lnY e Y xβ ε β β ε⇒ + +

0 1 0 11Y Y zβ β ε β β ε⎛ ⎞= + + ⇒ = + +⎜ ⎟

⎝ ⎠0 1 0 1

1x

z

β β β β⎜ ⎟⎝ ⎠

=zx

( )*0 1

1 lnY Y xβ β ε= ⇒ = + +( ) ( ) 0 1

0 1

*

lnexp1

Y Y xx

Y

β β εβ β ε

⇒ + ++ +

YY

=

BibliografiaA área de projeto de experimentos e todas as suas aplicações e particularidades p j p p ç pé muito importante em um trabalho científico. Busque mais informações quando chegar o momento de verificar os seus arquivos de dados. Talvez você tenha mais do que pensa ou ainda faltam muitos dados para conseguir provar o q p p g pque você busca!Assunto Geral: Projetos de ExperimentosEstatística aplicada e probabilidade para engenheiros Douglas Montgomery Estatística aplicada e probabilidade para engenheiros, Douglas Montgomery, George Runger, LTC 2º Ed.Design and analysis of experiments 2Ed. Douglas Montgomory. John Wiley and SSons.

íExercíciosUm estudo para determinar o efeito da RPM impurezasUm estudo para determinar o efeito da velocidade de misturador na quantidade de impurezas de um processo de

RPM impurezas20 8,422 9,5

fabricação de tintas.

Faça o gráfico de dispersão dos dados (x-

22 9,524 11,826 10,4

rpm x y-impurezas).

Determine a reta de ajuste.28 13,330 14,832 13 2Calcule os resíduos para cada ponto

utilizado no ajuste

32 13,234 14,736 16 4Calcule o erro residual quadrático σ2 36 16,438 16,540 18,940 18,942 18,5

Preço de venda /1000 Taxas anuais/100025,9 4,917629,5 5,0208

ExercíciosUm artigo em Technometrics, de S.C.

27,9 4,542925,9 4,557329,9 5,059729 9 3 891

U g , S.C. Narula e J. F. Wellington Vol. 19, 1977) apresenta dados de preços de venda e taxas anuais para 24 casas

29,9 3,89130,9 5,89828,9 5,603935 9 5 8282venda e taxas anuais para 24 casas.

Faça um ajuste de curva por mínimos quadrados.

35,9 5,828231,5 5,300331 6,2712

30 9 5 9592Encontre o preço médio de venda, dado que a taxa paga é x=7,50.

Calcule o alor ajustado de

30,9 5,959230 5,05

36,9 8,246441 9 6 6969Calcule o valor ajustado de y

correspondendo a x=5,8980 e encontre o resíduo correspondente.

41,9 6,696940,5 7,784143,9 9,038437,5 5,989437,5 5,989437,9 7,542244,5 8,795137,9 6,083138,9 8,360736,9 8,1445,8 9,1416

ExercíciosA quantidade de libras de vapor usadas por mês por uma planta química está relacionada à temperatura (ºF) média

b l ê d dambiente para aquele mês. O consumo do ano passado e a temperatura sâo mostrados na seguinte tabela:Considerando um modelo de regressão linear simples, faça o g p , çajuste de curva para o consumo de vapor (y) por temperatura média (x).Qual será a estimativa de consumo esperado de vapor quando Qual será a estimativa de consumo esperado de vapor quando a temp. for 55º F?Que mudança no uso médio de vapor será esperada quando a

édtemp. média variar 1º F?Suponha que a temp. média mensal seja de 47 º F. Calcule o valor ajustado de y e o resíduo correspondente. j y p

exercíciosmês Temp consumo/1000mês Temp. consumo/1000jan 21 185,79fev 24 214,47fev 24 214,47mar 32 288,03abr 47 424,84mai 50 454,58jun 59 539,03j l 68 621 55jul 68 621,55

ago 74 675,06set 62 562 03set 62 562,03out 50 452,93nov 41 369,95dez 30 273,98

exercíciosOs dados relativos ao peso e à pressão sanguínea sistólica de 26 homens selecionados aleatoriamente na faixa etária de 25 a 30 anos, são mostrados na tabela seguinte. Considere que o

ã í d b íd peso e a pressão sanguínea estejam distribuídos normal e conjuntamente.

d lEncontre a reta de regressão linear

indivíduo peso Pressão S.

1 165 130

exercícios2 167 133

3 180 150

4 155 128

5 212 151

6 175 146

7 190 150

8 210 140

9 200 148

10 149 125

11 158 133

12 169 135

13 170 150

14 172 153

15 159 128

16 168 13216 168 132

17 174 149

18 183 158

19 215 150

20 195 163

21 180 156

22 143 124

23 240 17023 240 170

24 235 165

25 192 160

26 187 159

Bibli fiBibliografiaBibliografiaEstatística aplicada e probabilidade para engenheiros, Douglas

Montgomery George Runger LTC 2º EdMontgomery, George Runger, LTC 2 Ed.

Design and analysis of experiments 2Ed. Douglas Montgomory. John Wiley and Sons.John Wiley and Sons.

BALBINOT A., BRUSAMARELLO V. J., Instrumentação e Fundamentos de Medidas V 1 e V2 , 2006 e 2007.,

Fundamentos de Estatística Aplicada e probabilidadevalner.brusamarello/inst/aula_02.pdf ·...

Documents

Transcript of Fundamentos de Estatística Aplicada e probabilidadevalner.brusamarello/inst/aula_02.pdf ·...