Fundamentos de Estatística Aplicada e probabilidadevalner.brusamarello/inst/aula_02.pdf ·...
-
Upload
duongkhuong -
Category
Documents
-
view
245 -
download
2
Transcript of Fundamentos de Estatística Aplicada e probabilidadevalner.brusamarello/inst/aula_02.pdf ·...
Fundamentos de Estatística Aplicada e probabilidade
Aula 03
e probabilidade
Aula 03
Prof. Valner Brusamarello
Variáveis aleatórias contínuasEm medidas, os dados podem ser influenciados por pequenas variações de temperatura, pressão, vibração, entre outras variáveis não controladas.Uma peça tirada da produção, a qual possui uma p ç p ç , q pmedida muito precisa sempre possui dispersão em torno da mesma.É comum modelar a faixa de valores possíveis dentro de um intervalodentro de um intervalo.
Fontes potenciais de Fontes potenciais de variabilidade
Exemplo 1: O consumo de um carro não é d d t d di tâ i i t d D d dependentes da distância registrada apenas. Depende de fatores como tipo de estrada, condições do carro, ti d li ttipo de gasolina, etc.Exemplo 2: Um engenheiro está projetando um conector de náilon para aplicação automotiva. A parede deste conector está condicionada a força de remoção do conector. O primeiro protótipo foi feito e as seguintes forças de remoção são medidas: 12,6; 12,9; 13,4; 12,3 ;13,6; 13,5; 12,6; 13,1 N.
Funções densidade de probabilidadeUtilizada para descrever sistemas físicosUtilizada para descrever sistemas físicosServe para descrever a distribuição de probabilidades de uma variável aleatória contínua x.A probabilidade de x estar entre a e b é determinada pela integral de f(x) de a a b.
Ex.: Considere a função densidade probabilidade abaixo e calcule a
( ) 0f x+∞
≥
probabilidade abaixo e calcule a P(5<X<15).
( ) 1
b
f x dx+∞
−∞
=∫
∫ ( )( )
0 ( ) 1a
P a X b f x dx
P a X b
≤ ≤ =
≤ < < ≤
∫
Funções densidade de probabilidadeç pHistograma é uma aproximação da função densidade probabilidade. O mesmo é geralmente representado por um gráfico de barras.
Função de distribuição cumulativa
( ) ( ) ( )F x P X x f u du∞
−∞
= ≤ = ∫
F(x) é uma função contínua
F(x) representa a probabilidade ( ) p pacumulada.
Observe que os valores variam entre 0 e q1
A função densidade probabilidade de uma ç pvariável aleatória contínua pode ser determinada a partir da diferenciação da
( )( ) dF xf xdx
=
função distribuição cumulativa.
Média e variância de uma variável Média e variância de uma variável aleatória contínuaSe X é uma variável aleatória contínua com uma função densidade
b bilid d f( ) édi l d d X iâ i X é probabilidade f(x) a média ou o valor esperado de X e a variância X é definida pelas equações abaixo.
O des io padrão é a rai uadrada da média O desvio padrão é a raiz quadrada da média.
x
( ) ( )x
x
E X xf x dxµ−
= = ∫
( ) ( ) ( )22 2 2( )V X x f x dx x f x dxσ µ µ+∞ +∞
−∞ −∞
= = − = −∫ ∫
Média e variância de uma Média e variância de uma variável aleatória discreta
A média da amostra utiliza pesos iguais 1/n lti li d d d l did 1 1 1como multiplicador de cada valor medido.
A média ou o valor esperado de X denotados por µ é E(X)
1 21 1 1... nx x x xn n n
= + + +
por µ é E(X)é o ponto de equilíbrio quando um peso
igual for colocado no local de cada medida ao ( ) ( )
xE X xf xµ = = ∑x
igual for colocado no local de cada medida ao longo da linha numérica. Similarmente se f(x) for a função densidade de uma carga de uma viga longa e delgada, E(X) é o ponto no qual a viga se equilibra. E(X) é o centro de distribuiçãodistribuição.
Média e desvios da média em uma Média e desvios da média em uma população e uma amostra np p ç
Média da amostra: valor médio das observações de um conjunto de dados.
xn
i∑um conjunto de dados.
Amostra: conjunto de observações sobre a população. n
x i== 1
p p ç
População: Conjunto muito grande de observações.
No exemplo anterior as 8 medidas constituem uma N
Média da amostra
pamostra da população. A população deveria ser a medida de todos os conectores. x
N
i∑A média da amostra é uma boa estimativa da média da população N
i== 1µ
Média da população
Média e variância de uma variável aleatória discreta
( ) ( ) ( )2 2 221 2
1 1 1...1 1 1 ns x x x x x x
n n n= − + − + + −
− − −
Para dados amostrais X1,X2, ..., Xn, a variância é um sumário da dispersão ou espalhamento dos dados.
usa pesos iguais de 1/(n-1) como multiplicador de cada desvio quadrado Desvios calculados a partir da média da amostra tendem a ser menores que
2s( )2
ix x−Desvios calculados a partir da média da amostra tendem a ser menores que desvios calculados a partir da média da população.A variância V(X) é denotada por: ( ) ( )22 ( )V X f∑
( ) p
E o desvio padrão:
( ) ( )22 ( )x
V X x f xσ µ= = −∑( )2 2 2( )V X x f xσ µ= = −∑p
x1/ 2[ ( )]V Xσ =
Média e desvios da média em uma Média e desvios da média em uma população e uma amostrap p ç
A variabilidade ou dispersão ( )2∑
nppode ser descrita pela variância ou o des io padrão da amostra
( )1
2
2−
=∑
=
xxs i
i
ou o desvio padrão da amostra.Em se tratando da população, a
1−ns
p p ç ,variância e o desvio padrão são
f i d σ( )2
2 1
n
ii
x µσ =
−=
∑referenciados com σ N
σ =
Graus de liberdade
N t di i d iâ i d t é é t h d t Note que o divisor da variância da amostra é é o tamanho da amostra menos 1 (n-1), enquanto para a variância da população, é o tamanho da população n. p p çSe soubéssemos o valor verdadeiro da média populacional µ, então poderíamos encontrar a variância da amostra como a média dos quadrados d d i d b õ d d dos desvios das observações da amostra em torno de µ.Na prática, o valor de µ quase nunca é conhecido, e dessa forma, a soma dos quadrados dos desvios em torno da média X tem que ser usada No dos quadrados dos desvios em torno da média X tem que ser usada. No entanto as observações Xi tendem a estar mais próximas do seu valor médio X, do que a média populacional µ. Para compensar isso, usamos n-1 como divisor ao invés de n. Se usássemos n como divisor na variância da amostra, obteríamos uma medida de variabilidade que seria em média consistentemente menor medida de variabilidade que seria, em média, consistentemente menor que σ2 da população.
Graus de liberdadeGraus de liberdade
Outra maneira de pensar acerca disso é considerar aiâ i 2 d d b d 1variância s2, da amostra como estando baseada em n-1
graus de liberdade.O “ d lib d d ” l d f dO termo “graus de liberdade” resulta do fato de que ndesvios X1 -X, X2 –X, ..., Xn –X sempre somam zero eassim especificar os valores de quaisquer n 1 dessasassim, especificar os valores de quaisquer n-1 dessasquantidades determina automaticamente aquelerestanterestante.Dessa forma, somente n-1 nos n desvios Xi –X, estãolivremente determinadoslivremente determinados.
Representação da média e desvios p çde forma gráfica
Distribuição NormalDistribuição NormalModelo mais utilizadoModelo mais utilizadoTeorema central do limite faz com que a forma seja um sino simétrico.Ponto central (máximo), representa a média Ponto central (máximo), representa a média Em uma medida, quando os desvios são decorrentes de variáveis independentes e podem ser igualmente positivos em relação à média.Exemplo: o desvio no comprimento de uma peça é dependente de variações na temperatura, vibrações, variações de ângulos de corte, desgaste da ferramenta de corte desgaste no mancal variação na desgaste da ferramenta de corte, desgaste no mancal, variação na velocidade, entre outras.Variáveis aleatórias com diferentes médias e variâncias podem ser pmodeladas pelas funções densidade de probabilidade normal com escolhas apropriadas do centro e da largura da curva.
d d f d d d b b l d d 2 E(x)=µ determina o centro da função densidade probabilidade e V(x)=σ2
a sua variabilidade;
Distribuição NormalDistribuição NormalUma variável aleatória X com função densidade de probabilidade
( )2
221( )2
x
F x eµ
σ
πσ
− −
=x−∞ < < ∞para
Tem uma distribuição normal, com parâmetros µ, em que: µ−∞ < < ∞
0σ >
( )E X µ=( )E X µ2( )V X σ=
Distribuição NormalDistribuição NormalDa simetria de f(x):
( ) ( ) 0.5P X P Xµ µ> = < =
A função densidade de probabilidade diminui a medida que x se afasta de µ.Pelo fato de mais de 0.9973 da probabilidade de uma distribuição normal estar dentro do intervalo de (µ-3σ,µ+3σ), 6σ é freqüentemente referida como a largura de uma distribuição normal.
2Uma variável aleatória com µ=0 e σ2=1 é chamada de variável aleatória normal padrão. Uma variável aleatória
l d ã é d t d Z normal padrão é denotada por Z.
Distribuição NormalDistribuição NormalExemplo: Utilize a tabela de probabilidades cumulativas para uma
iá l l tó i d ã t P(Z≤1 5)variável aleatória padrão para encontrar P(Z≤1.5).
A função de distribuição cumulativa de uma variável aleatória normal u ção e st u ção cu u at a e u a a á e a eató a o a padrão é denotada por
( ) ( )z P Z zΦ = ≤
P(Z ≤ -4.6) não pode ser encontrada diretamente utilizando a tabela, no entanto a última entrada na tabela pode ser utilizada para encontrar p pque P(Z ≤ -3.99)=0.000003. Logo P(Z ≤ -4.6) é aproximadamente zero.Encontre o valor z tal que P(Z > z)=0 05 Essa expressão de Encontre o valor z tal que P(Z > z)=0.05. Essa expressão de probabilidade pode ser escrita como P(Z ≤ z) = 0.95. Pela tabela observa-se que o valor mais próximo é 0.95053 correspondente a z=1 65 z=1.65
Tabela de probabilidades cumulativas para uma variável aleatória padrãovariável aleatória padrão
Tabela de probabilidades cumulativas para uma variável aleatória padrão
Distribuição NormalDistribuição NormalTodos os exemplos precedentes mostram como calcular as probabilidades para variáveis aleatórias normais padrões. Para uma variável aleatória genérica é necessário fazer uma aleatórias normais padrões. Para uma variável aleatória genérica é necessário fazer uma pequena transformação para utilizar a tabela.
Se X for uma variável aleatória normal com E(X)=µ e V(X)=σ2, então a variável aleatória aleatória
XZ µσ−
=
será uma variável aleatória normal com E(Z)=0 e V(Z)=1 assim a tabela poderá ser utilizada.
Suponha que as medidas da corrente em um pedaço de fio sigam a distribuição normal com
σ
Suponha que as medidas da corrente em um pedaço de fio sigam a distribuição normal com uma média de 10 mA e uma variância de 4 mA2. Qual é a probabilidade da medida exceder 13 mA? Faça X denotar a corrente em mA, então P(x>13)=?
Z=(X 10)/2 logo P(X>13)= P(Z>1 5) = 1 P(Z≤1 5)=0 06681Z=(X-10)/2, logo P(X>13)= P(Z>1,5) = 1- P(Z≤1,5)=0.06681Qual a probabilidade da medida da corrente estar entre 9 e 11 mA?P(9<X<11) = P((9-10)/2<(11-10)/2))= P(-0.5<Z<0.5) = P(Z<0.5)-P(Z<-0.5)=0,69146 - 0.30854= 0.38292
Inferência estatísticaInferência estatísticaMétodos utilizados para tomar decisões ou tirar conclusões a cerca da
lpopulaçãoExemplo: Um engenheiro está analisando a resistência a tensão de um componente usado em um chassi de automóvel. Uma vez que a p qvariabilidade da resistência a tração está naturalmente presente em componentes individuais, devido a diferenças nas matérias primas, processos, medidas entre outros. Na prática esse engenheiro está processos, medidas entre outros. Na prática esse engenheiro está interessado na resistência média a tração, e para tal fará uma estimativa baseado em uma amostra da populaçãoPopulação consiste na totalidade das obser ações em ue estamos População: consiste na totalidade das observações em que estamos interessadosAmostra: é um subconjunto de observações selecionadas a partir de uma população.As variáveis aleatórias (X1, X2,...Xn) são uma amostra aleatória de tamanho n se os dados Xi forem variáveis aleatórias independentes e cada tamanho n se os dados Xi forem variáveis aleatórias independentes e cada um deles tiver a mesma distribuição de probabilidades.
M lh ti tiMelhor estimativa
Quando um valor numérico é reportado, é geralmente á i d l idéi d i t d ti ã A necessário dar alguma idéia da incerteza da estimação. A
medida da incerteza geralmente empregada é o desvio padrão da média dos dados (ou do estimador que está padrão da média dos dados (ou do estimador que está sendo utilizado).A incerteza padrão de um estimador é o seu desvio θppadrão dado por Se a incerteza padrão envolver parâmetros desconhecidos
ˆˆˆ ( )V
θσ θ=
p pque possam ser estimados então a substituição daqueles valores em produzirá uma incerteza padrão estimada.ˆˆ
θσ
M did d di ãMedida da dispersão
Suponha que estejamos amostrando a partir de uma distribuição normal com média µ e variância σ2. ç µSabemos que: n
ix∑Média da amostra: valor médio das1
iiX
n==∑Média da amostra: valor médio das
observações de um conjunto de dados. Amostra: conjunto de observações sobre
N
∑
j ça população.População: Conjunto muito grande de b õ
N
xi
i∑== 1µ
observações. A média da amostra é uma boa estimativa da média da população N
µestimativa da média da população
Medidas de dispersãop
A variabilidade ou dispersão pode ser descrita pela variância ou o desvio padrão da amostra.
( )2∑npa ão a a ost a.
Em se tratando da população, a iâ i d i d ã ã
( )1
2
2−
=∑
=
xxs i
i
variância e o desvio padrão são referenciados com σ
1−ns
( )2
2 1
n
ii
x µσ =
−=
∑N
σ
Desvio padrão da médiaConsidere um caso genérico com as variáveis aleatórias X1, X2,...Xp e constantes C1, C2,...Cp Se Y for uma combinação linear dessas variáveis 1, 2, p. çtemos:Y= C1X1+C2X2+... +CpXn
Podemos determinar o valor esperado de Y:e sua variância:
1 1 2 2( ) ( ) ( ) ... ( )p pE Y C E X C E X C E X= + + +
Ai d X X X f i d d ã
2 2 21 1 2 2
2( ) ( ) ( ) ... ( ) 2 cov( , )p p i j i j
i jV Y C V X C V X C V X C C X X
< =
= + + + + ∑∑
Ainda, se X1, X2,...Xp forem independentes então
Essa é uma conclusão importante pois podemos concentrarmos na
2 2 21 1 2 2( ) ( ) ( ) ... ( )p pV Y C V X C V X C V X= + + +
Essa é uma conclusão importante, pois podemos concentrarmos na combinação linear particular que representa a média de p variáveis aleatórias, com média e variância idênticas, pois, se X1, X2,...Xp forem pindependentes então:
Desvio padrão da médiaDesvio padrão da médiaSe a média é com para i=1,2,...p 1 2 ... pX X X
X+ + +
= ( )iE X = µ p , ,...pentão .
Se X1, X2 ... X , são independentes com V(Xi)=σ2 para
p( )E X µ=
( )i µ
Se X1, X2. ... Xp, são independentes com V(Xi) σ para i=1,2,...p então
O desvio padrão da média é menor que da população. Este é o
2
( )V Xp
σ=
p q p p çvalor utilizado como incerteza padrão!
X pσσ =
Quando o estimador seguir uma distribuição normal, podemos ficar razoavelmente confiantes de que o valor
p
p qverdadeiro do parâmetro encontra-se no intervalo da incerteza padrão estimada. ˆ Sp ˆ X p
σ =
Standard Deviation of the Mean Standard Deviation of the Mean (Standard Error)( )
Quando reportamos a média de N medidas, a incerteza que devemos associar com esta média é o desvio padrão da média.
O desvio padrão da média é menor que o desvio padrão por um fator 1/√ I fl t f t d ó i t d l 1/√n . Isso reflete o fato de que nós esperamos que a incerteza do valor da média seja menor quando utilizamos um grande número de medidasN.N.
Distribuições amostraisA inferência estatística lida com tomar decisões acerca de uma população baseando se na çA inferência estatística lida com tomar decisões acerca de uma população, baseando-se na informação contida em uma amostra aleatória proveniente daquela população.
Considere o exemplo do volume médio de uma lata de 300 ml. Um engenheiro considera uma amostra aleatória de 25 latas e calcula o volume médio amostral de enchimento com 298 ml O amostra aleatória de 25 latas e calcula o volume médio amostral de enchimento com 298 ml. O engenheiro decidirá provavelmente que a média da população é µ=300 ml, muio embora a média amostral tenha sido 298 ml, porque ele sabe que a média amostral é uma estimativa razoável de µ e que a média amostral de 298 é muito provável de ocorrer, mesmo se a média verdadeira da população seja de µ=300 ml. De fato, se a média verdadeira for de 300 ml, então os testes de 25 latas feitos rapidamente, talvez a cada 5 minutos, produzirão valores de que variarão acima e abaixo de µ=300 ml
A édi l é í i i é é iá l l ó i d d d l d A média amostral é uma estatística, isto é, é uma variável aleatória que depende dos resultados obtidos em cada amostra particular. Uma vez que uma estatística é uma variável aleatória, ela tem uma distribuição de probabilidades
A distribuição de probabilidades de é chamada de distribuição amostral da média
X
A distribuição de probabilidades de é chamada de distribuição amostral da média
X
Distribuições amostraisConsidere que queremos determinar a distribuição amostral da média da amostraConsidere que queremos determinar a distribuição amostral da média da amostra.
Esta amostra é retirada de uma população normal com média µ e variância σ2.A média da amostra:
Tem uma distribuição normal com média e variância:1 2 ... nX X X
Xn
+ + +=
Se estivermos amostrando de uma população que tenha uma distribuição desconhecida de ...
X
µ µ µµ µ+ + += =
2 2 2 22
2
...X
σ σ σ σσ + += =p p ç q ç
probabilidades, a distribuição amostral da média da amostra será aproximadamente normal com média µ e variância σ2/n.
X nµ µ 2X nn
Teorema central do limiteSe X1, X2,...Xn for uma amostra aleatória de tamanho n retirada de uma
l ã f f éd â 2 f população finita ou infinita, com média µ e variância σ2, e se for a média da amostra, então a forma limite da distribuição de X
X µ−
quando n tende a infinito, é a distribuição normal padrão.
XZ
n
µσ
=
A aproximação normal para depende do tamanho n da amostra.X
Teorema central do limiteUma companhia eletrônica fabrica resistores que possuem uma resistência média de 100 Ω e um desvio padrão de 10 Ω A distribuição de resistências é normal Encontre 100 Ω e um desvio padrão de 10 Ω. A distribuição de resistências é normal. Encontre a probabilidade de uma amostra de n=25 resistores ter uma resistência média menor que 95 Ω.
A distribuição amostral da média da amostra é normal com média e desvio padrão:
Padroni ando o ponto temos100µ Ω10 2σσPadronizando o ponto , temos:
E assim:
100Xµ = Ω 225X n
σ = = =
95 100 2 5Z −= = −
95X = : 2,5
2Z = = −
( 95) ( 2,5) 0,0062P X P Z< = < − =( ) ( , ) ,
Teorema central do limiteSuponha que uma variável aleatória X tenha uma distribuição contínua
if 1 4 6⎧ ⎪uniforme:
d b l d éd d l ó d
( )1 , 4 620,
xf x
caso contrário
⎧ ≤ ≤⎪= ⎨ ⎪⎩
Encontre a distribuição amostral da média de uma amostra aleatória de tamanho n=40. A média e a variância de X são
( )26 4 1
O l d li i i di di ib i ã d é
5µ =( )2 6 4 1
12 3σ
−= =
XO teorema central do limite indica que a distribuição de é aproximadamente normal com média e variância
X
2 1 1σ5Xµ = ( )
2 1 13 40 120X n
σσ = = =
Bibliografia
Estatística aplicada e probabilidade para engenheiros, Douglas Montgomery, George Runger, LTC 2º Ed.g y g gDesign and analysis of experiments 2Ed. Douglas Montgomory. John Wiley and Sons.BALBINOT A., BRUSAMARELLO V. J., Instrumentação e Fundamentos de Medidas V 1 e V2 , 2006 e 2007.
Regressão LinearAula opcionalgAula opcional
Valner BrusamarelloValner Brusamarello
Coletando dadosEstudo observacional: Os dados são observados a medida que estão disponíveis. q p
Ex.: Desempenho de componentes de plásticos. Observação de: temperatura, encolhimento, resistência, etc.
Utilização de dados para a construção de um modelo empírico.Ex.: Verificar histórica de pastilhas semicondutoras, onde variáveis amostrais são registradas e podem ser avaliadas ao longo do tempo.Freqüentemente estes estudos envolvem um volume grande de dados e
d d í i d i í i grande domínio de conceitos estatísticos.
Coletando dadosExperimento planejado: O engenheiro provoca variações propositais em p p j g p ç p pvariáveis controladas. Observa a saída e então toma a decisão sobre as principais variáveis responsáveis pelas mudanças.
Ex.: Um conector tem no protótipo inicial uma parede p. A fim de verificar f d ã d d i ifi i d é se a força de remoção do mesmo tem mudança significativa, a parede é
aumentada para p1.Experimentos planejados tendem a ser mais confiáveis são recomendados em estudos os quais possam ser aplicadosestudos os quais possam ser aplicados.
Existem técnicas de análise estatísticas poderosas, assim como ferramentas computacionais disponíveis para avaliar resultados e hipóteses sobre variabilidade de sistemas. Desde testes simples até estudos de variabilidades . pmultivariáveis.
ModelosMecanicista: Construído a partir do mecanismo físico básico que relaciona as variáveis. Ex.:
d d l à fl êPode-se ajustar modelo à influências externas: EIR
=
Onde ε representa as fontes de variabilidade não modeladas.
R
Empírico: Modelo construído pela observação de um fenômeno e pelas influências de variáveis no mesmo. Ex.:
d l d ê l d
EIR
ε= +pModelo de resistência a tração, relacionando comprimento e altura da matriz.
R
Nº ObsResist.
TraçãoComp.
Arame Alt. Molde
1 9,95 2 50
2 24,45 8 110
Exemplo: Modelo de resistência à tração relacionando altura do molde e comprimento
3 31,75 11 120
4 35 10 550
5 25,02 8 295
6 16 86 4 200do arame: 6 16,86 4 200
7 14,38 2 375
8 9,6 2 52
9 24,35 9 100
( ) ( )0 1 2Resistência a tração= .comp alturaβ β β ε+ + +
Denominado10 27,5 8 300
11 17,08 4 412
12 37 11 400
13 41 95 12 500
Denominado modelo de regressão
13 41,95 12 500
14 11,66 2 360
15 21,65 4 205
16 17,89 4 400
17 69 20 600
18 10,3 1 585
19 34,93 10 540
20 46 59 15 25020 46,59 15 250
21 44,88 15 290
22 54,12 16 510
23 56,63 17 590
24 22,13 6 100
25 21,15 5 400
Análise de regressãoNº da
observaçãoNível de
hidrocarbonetoPureza
%
Técnica estatística para investigar relação entre duas ou mais variáveis.
1 0,99 90,01
2 1,02 89,05
3 1,15 91,43
4 1 29 93 74Problema: Tabela onde uma das variáveis é a % da pureza de oxigênio produzido em um processo químico de destilação e a outra
á l é d h d b
4 1,29 93,74
5 1,46 96,73
6 1,36 94,45
7 0,87 87,59variável é a percentagem de hidrocarbonetos presentes no condensador principal da unidade de destilação.Grande as Ní el de hidrocarboneto
8 1,23 91,77
9 1,55 99,42
10 1,4 93,65
11 1 19 93 54Grandezas: x - Nível de hidrocarboneto y -% Pureza do oxigênio
11 1,19 93,54
12 1,15 92,52
13 0,98 90,56
14 1,01 89,54
15 1,11 89,85
16 1,2 90,39
17 1,26 93,25
18 1 32 93 4118 1,32 93,41
19 1,43 94,98
20 0,95 87,33
Diagrama de dispersão T dê i li Dispersão x ajuste
102
Tendência: linear Nenhuma curva passa por todos os pontos
98
100
%
os pontos.Pergunta: Posso descrever o processo com
92
94
96re
za O
2 %processo com
uma reta?Se afirmativo, qual a reta que
88
90
92
Purq q
melhor descreve a relação?
86
88
0,75 0,95 1,15 1,35 1,55 1,75
Nível hidrocarboneto
Regressão linear simplesg pOs pontos repousam em torno de uma reta aleatoriamente, considerando a média de y em relação a x.Pode-se ter, portanto um valor esperado:
( )|E y x xµ β β= = +( ) | 0 1| y xE y x xµ β β= = +β0 e β1 coeficientes da regressão.
0 1y xβ β ε= + +Modelo linear probabilístico:
0 1y β βε termo aleatório com média igual a zero e variança σ2.e variança σ .
Regressão linear simplesPara cada valor de x existe uma distribuição do valor verdadeiro Para cada valor de x existe uma distribuição do valor verdadeiro de y. O valor de σ e σ2 determinam se o ponto cai longe ou perto da reta.Considerando n pares (x1,y1), (x2,y2), ...,(xn,yn) existe uma reta candidata.Karl Gauss (1777 1885) propôs o método dos mínimos Karl Gauss (1777-1885) propôs o método dos mínimos quadrados. Estima-se β0 e β1 de modo a minimizar a soma dos quadrados dos desvios verticais
Mínimos quadradosy xβ β ε= + + 1 2 3i n=q0 1i i iy xβ β ε= + + 1,2,3,...,i n=
( )2
2n n
L y xε β β= = − −∑ ∑( )0 11 1
i i ii i
L y xε β β= =
= = − −∑ ∑^ ^nL∂ ⎛ ⎞ ^ ^ n n
^ ^
0 1
^ ^
0 110 ,
2 0n
i ii
L y xβ β
β ββ =
∂ ⎛ ⎞= − − − =⎜ ⎟∂ ⎝ ⎠∑
^ ^
0 11 1
n n
i ii i
n x yβ β= =
+ =∑ ∑
^ ^
0 1
^ ^
0 111 ,
2 0n
i i ii
L y x xβ β
β ββ =
∂ ⎛ ⎞= − − − =⎜ ⎟∂ ⎝ ⎠∑
^ ^2
0 11 1 1
n n n
i i i ii i i
x x y xβ β= = =
+ =∑ ∑ ∑
Mínimos quadradosqSimplificando:
0 1ˆ ˆ
n n
y xβ β= −
∑ ∑1 1
1ˆ
i ini i
i ii
y xy x
nβ
= =
=
−∑ ∑
∑1
1 2i
n
in
n
xβ ==
⎛ ⎞⎜ ⎟⎝ ⎠∑
12
1
ii
ix
n=
=
⎝ ⎠−∑
1
1 n
ii
y yn
= ∑1
1 n
ii
x xn =
= ∑1in = 1i
Regressão Linear simplesˆ ˆβ β 1 2 3g p
0 1i i iy x eβ β= + + 1, 2,3,...,i n=
ˆresíduo ˆi i ie y y= −
Notações ao denominadorNotações ao denominador2n
x⎛ ⎞⎜ ⎟∑
( )2 12
1
ini
xx i ii
xS x x x
n=
=
⎜ ⎟⎝ ⎠= − = −∑
∑
( )
1
2
in n
i in y x
=
∑ ∑∑( )2 1 1
1
i ii i i i
iSxy y x x y x
n= =
=
= − = −∑
Exemplo anterior: pureza O2p p20n =
20
11843,21i
iy
=
=∑ 92,16y =20 2020
20
123,92i
ix
=
=∑
1,2x =20
2
129,29i
ix
=
=∑20
2
1170044,53i
iy
=
=∑20
12214,66i i
ix y
=
=∑
20 20220
12 0,6820
ii
xx i
xS x =
⎛ ⎞⎜ ⎟⎝ ⎠= − =∑
20 20
201 1
110,18
20
i ii i
i i
y xSxy y x = == − =
∑ ∑∑
20xx i 1 20i=
110,18ˆ 14,97xyS
β = = = ( )0 1ˆ ˆ 92,16 14,97 1,20 74, 20y xβ β= − = − =
1 ,0,68xxS
β ( )
Resultado do ajusteˆ 74, 20 14,97y x= +
Dispersão x ajuste
96
98
100
102
%
90
92
94
96
Pure
za O
2
86
88
0,75 0,95 1,15 1,35 1,55 1,75
Nível hidrocarboneto
Propriedades de variância dos estimadores de mínimos dos estimadores de mínimos quadradosq
é um estimador não tendencioso da inclinação 1β çverdadeira β1
Os resíduos são utilizados no cálculo da
1β
ˆi i ie y y= −estimativa de σ2
A soma dos quadrados dos resíduos ou a soma dos quadrados dos erros é
( )2ˆn
sQ y y= −∑( )1
E i ii
sQ y y=
= ∑
Propriedades de variança dos estimadores de mínimos dos estimadores de mínimos quadradosq
Uma fórmula conveniente para o cálculo de sQE pode d b i i d d l j d
Valor esperado encontrada substituindo o modelo ajustado
Fazendo ainda algumas simplificações chegamos em:0 1ˆi iy xβ β= +para a soma dos quadrados dos erros
2 2 ˆn
Q Sβ∑E ti d ã
( ) ( ) 22EE sQ n σ= −
2 21
1E i xy
isQ y ny Sβ
=
= − −∑n n
Estimador não tendencioso de σ2
( )22 2
1 1
n n
T i ii i
sQ y ny y y= =
= − = −∑ ∑
ˆ2ˆ EsQσ =
1E T xysQ sQ Sβ= −2nσ
−
No exemplo anterior10 18S ˆ 14 97β
p10,18Sxy = 1 14,97β =
220⎛ ⎞( )220 20
12 2 2 1843, 21170044,53 173,37
20 20
ii
T i i
ysQ y ny y =
⎛ ⎞⎜ ⎟⎝ ⎠= − = − = − =∑
∑ ∑1 1 20 20i i= =
( )( )ˆ ( )( )12 14,97 10,18ˆ 173,37 1,17
2 2 20 2T xyE sQ SsQ
n nβ
σ−
= = = − =− − −
Estimadores de variância dos Estimadores de variância dos coeficientes
Por fim pode-se chegar ao erro padrão
( )2ˆˆ σβ
estimado da inclinação
( )1seSxx
β =
E ao erro padrão do estimado da intersecção:
( )2
20
1ˆ ˆ xseS
β σ⎡ ⎤
= −⎢ ⎥⎣ ⎦
( )0 n Sxxβ ⎢ ⎥
⎣ ⎦
Gráfico de resíduosresíduos
Dispersão do resíduo fornece
resíduos
2
3
Dispersão do resíduo fornece indícios sobre a regressão.
-1
0
1
87 89 91 93 95 97 99Res
íduo
s
-3
-2
Pureza de O2 - yR íd u e a de O yResíduos
2
3
0
1
2
0 87 1 07 1 27 1 47 1 67esíd
uos
-3
-2
-10,87 1,07 1,27 1,47 1,67Re
Nível de hidrocarboneto
Abusos e limitaçõesFreqüentemente mal empregadaq p gForte associação entre duas variáveis não implica que existe relação causal entre as mesmasEx.: O número de cegonhas aumentou significativamente após a 2º guerra g g p gmundial. Observou-se que o mesmo aconteceu com nascimento de bebês. Conclusão: O aumento de cegonhas provocou o aumento de bebês!!!??? Planejamento de experimentos é a única maneira de determinar relações causaisAjustes não devem ser extrapolados (apenas dentro da faixa considerada)Testes de significância são normalmente executados
Abusos e limitaçõesE se houverem mais que 2 variáveis? 3 plano mais que 3 E se houverem mais que 2 variáveis? 3 plano, mais que 3 hiperespaço. A continuação deste assunto é regressão linear múltipla e trata de regressão multivariáveis.g
E se a relação não for linear? Cuidado! Lembre-se do estudo do seu processo. Você deve ter conhecimento sobre as variáveis das quais está tratando
Transformação para uma linha reta de funções linha reta de funções intrinsicamente lineares
( ) ( ) ( )10 0 1ln ln lnxY e Y xββ ε β β ε= ⇒ = + +( ) ( ) ( )0 0 1ln ln lnY e Y xβ ε β β ε⇒ + +
0 1 0 11Y Y zβ β ε β β ε⎛ ⎞= + + ⇒ = + +⎜ ⎟
⎝ ⎠0 1 0 1
1x
z
β β β β⎜ ⎟⎝ ⎠
=zx
( )*0 1
1 lnY Y xβ β ε= ⇒ = + +( ) ( ) 0 1
0 1
*
lnexp1
Y Y xx
Y
β β εβ β ε
⇒ + ++ +
YY
=
BibliografiaA área de projeto de experimentos e todas as suas aplicações e particularidades p j p p ç pé muito importante em um trabalho científico. Busque mais informações quando chegar o momento de verificar os seus arquivos de dados. Talvez você tenha mais do que pensa ou ainda faltam muitos dados para conseguir provar o q p p g pque você busca!Assunto Geral: Projetos de ExperimentosEstatística aplicada e probabilidade para engenheiros Douglas Montgomery Estatística aplicada e probabilidade para engenheiros, Douglas Montgomery, George Runger, LTC 2º Ed.Design and analysis of experiments 2Ed. Douglas Montgomory. John Wiley and SSons.
íExercíciosUm estudo para determinar o efeito da RPM impurezasUm estudo para determinar o efeito da velocidade de misturador na quantidade de impurezas de um processo de
RPM impurezas20 8,422 9,5
fabricação de tintas.
Faça o gráfico de dispersão dos dados (x-
22 9,524 11,826 10,4
rpm x y-impurezas).
Determine a reta de ajuste.28 13,330 14,832 13 2Calcule os resíduos para cada ponto
utilizado no ajuste
32 13,234 14,736 16 4Calcule o erro residual quadrático σ2 36 16,438 16,540 18,940 18,942 18,5
Preço de venda /1000 Taxas anuais/100025,9 4,917629,5 5,0208
ExercíciosUm artigo em Technometrics, de S.C.
27,9 4,542925,9 4,557329,9 5,059729 9 3 891
U g , S.C. Narula e J. F. Wellington Vol. 19, 1977) apresenta dados de preços de venda e taxas anuais para 24 casas
29,9 3,89130,9 5,89828,9 5,603935 9 5 8282venda e taxas anuais para 24 casas.
Faça um ajuste de curva por mínimos quadrados.
35,9 5,828231,5 5,300331 6,2712
30 9 5 9592Encontre o preço médio de venda, dado que a taxa paga é x=7,50.
Calcule o alor ajustado de
30,9 5,959230 5,05
36,9 8,246441 9 6 6969Calcule o valor ajustado de y
correspondendo a x=5,8980 e encontre o resíduo correspondente.
41,9 6,696940,5 7,784143,9 9,038437,5 5,989437,5 5,989437,9 7,542244,5 8,795137,9 6,083138,9 8,360736,9 8,1445,8 9,1416
ExercíciosA quantidade de libras de vapor usadas por mês por uma planta química está relacionada à temperatura (ºF) média
b l ê d dambiente para aquele mês. O consumo do ano passado e a temperatura sâo mostrados na seguinte tabela:Considerando um modelo de regressão linear simples, faça o g p , çajuste de curva para o consumo de vapor (y) por temperatura média (x).Qual será a estimativa de consumo esperado de vapor quando Qual será a estimativa de consumo esperado de vapor quando a temp. for 55º F?Que mudança no uso médio de vapor será esperada quando a
édtemp. média variar 1º F?Suponha que a temp. média mensal seja de 47 º F. Calcule o valor ajustado de y e o resíduo correspondente. j y p
exercíciosmês Temp consumo/1000mês Temp. consumo/1000jan 21 185,79fev 24 214,47fev 24 214,47mar 32 288,03abr 47 424,84mai 50 454,58jun 59 539,03j l 68 621 55jul 68 621,55
ago 74 675,06set 62 562 03set 62 562,03out 50 452,93nov 41 369,95dez 30 273,98
exercíciosOs dados relativos ao peso e à pressão sanguínea sistólica de 26 homens selecionados aleatoriamente na faixa etária de 25 a 30 anos, são mostrados na tabela seguinte. Considere que o
ã í d b íd peso e a pressão sanguínea estejam distribuídos normal e conjuntamente.
d lEncontre a reta de regressão linear
indivíduo peso Pressão S.
1 165 130
exercícios2 167 133
3 180 150
4 155 128
5 212 151
6 175 146
7 190 150
8 210 140
9 200 148
10 149 125
11 158 133
12 169 135
13 170 150
14 172 153
15 159 128
16 168 13216 168 132
17 174 149
18 183 158
19 215 150
20 195 163
21 180 156
22 143 124
23 240 17023 240 170
24 235 165
25 192 160
26 187 159
Bibli fiBibliografiaBibliografiaEstatística aplicada e probabilidade para engenheiros, Douglas
Montgomery George Runger LTC 2º EdMontgomery, George Runger, LTC 2 Ed.
Design and analysis of experiments 2Ed. Douglas Montgomory. John Wiley and Sons.John Wiley and Sons.
BALBINOT A., BRUSAMARELLO V. J., Instrumentação e Fundamentos de Medidas V 1 e V2 , 2006 e 2007.,