Pràctiques d’Estadística P2.2 Ajust de corbesfpq/tutor-R/R3-B-ajust-corbes.pdfFrancisco Palacios...

Click here to load reader

  • date post

    22-May-2020
  • Category

    Documents

  • view

    0
  • download

    0

Embed Size (px)

Transcript of Pràctiques d’Estadística P2.2 Ajust de corbesfpq/tutor-R/R3-B-ajust-corbes.pdfFrancisco Palacios...

  • Francisco Palacios 2014

    Pràctiques d’Estadística

    P2.2 Ajust de corbes

    Francisco Palacios EUETIB-UPC

    Curs 2013-2014 Q2 ver1.2

  • Francisco Palacios 2014

    Contingut (I)

    2

    1. Exemple inicial 2. Diagrama de dispersió 3. Coeficient de correlació 4. Recta d’ajust mínim quadràtic 5. Afegir la recta d’ajust a un diagrama de dispersió 6. Càlcul de prediccions 7. Afegir punts al diagrama de dispersió 8. Coeficient de determinació 𝒓𝒓𝒙𝒙𝒙𝒙𝟐𝟐 9. Ajust de models polinomials 10. Afegir corbes a un diagrama de dispersió 11. Ajust exponencial

  • Francisco Palacios 2014 3

    Estem interessat en dissenyar un programa de detecció precoç de fracàs acadèmic. Una determinada assignatura té un sistema d’avaluació amb 3 proves parcials

    Considerem les variables P = Nota del primer parcial F = Nota final de l’assignatura

    Volem veure si podem fer servir la variable P (predictor) per estimar la nota final F (variable resposta)

    1. Exemple inicial

    Per a una mostra de 10 estudiants hem obtingut les següents dades

    P 1.3 2.5 3.2 5.0 6.2 5.0 7.2 6.5 9.0 7.1

    F 2.0 2.0 3.0 4.0 6.5 4.0 8.5 7.0 10.0 8.0

  • Francisco Palacios 2014 4

    Activitat 1 1. Entra les notes parcials en un vector anomenat x (variable predictora) 2. Entra les notes parcials en un vector anomenat y (variable resposta)

    1. Diagrama de dispersió

    P 1.3 2.5 3.2 5.0 6.2 5.0 7.2 6.5 9.0 7.1

    F 2.0 2.0 3.0 4.0 6.5 4.0 8.5 7.0 10.0 8.0

  • Francisco Palacios 2014 5

    2. Diagrama de dispersió

    Activitat 2 Dibuixa un diagrama de dispersió amb l’ordre plot(x,y)

  • Francisco Palacios 2014 6

    2. Diagrama de dispersió

    Les següents opcions de la funció plot( ) permeten millorar l’aspecte del diagrama dispersió • pch = 16 (selecciona el plot character 16) • col = 2 (selecciona el color vermell, també val col = “red”) • cex = 1.2 (estableix un factor 1.2 pel paràmetre character expansion) Pots obtenir més informació sobre les opcions que permeten modificar l’aspecte del punts escrivint ?points a la consola de R

  • Francisco Palacios 2014 7

    2. Diagrama de dispersió

    Activitat 3 Dibuixa un diagrama de dispersió amb l’ordre plot(x, y, pch=16, col=2, cex=1.2)

  • Francisco Palacios 2014 8

    2. Diagrama de dispersió

    Activitat 4 Creus que hi ha una associació lineal entre les variables x i y?

    Sí, tenim associació lineal creixent

  • Francisco Palacios 2014 9

    3. Coeficient de correlació

  • Francisco Palacios 2014 10

    3. Coeficient de correlació

  • Francisco Palacios 2014 11

    3. Coeficient de correlació

  • Francisco Palacios 2014 12

    3. Coeficient de correlació

    Pots calcular el coeficient de correlació amb l’ordre cor(x,y) La covariància (mostral, 𝒔𝒔�𝒙𝒙𝒙𝒙 ) es pot calcular amb cov(x,y) La desviació típica (mostral, 𝒔𝒔�𝒙𝒙) es poden calcular amb sd( )

    (standard deviation)

    Activitat 5 1. Calcula la correlació de les variables x i y 2. Interpreta el valor del coeficient de correlació 3. Verifica que es compleix

    𝒓𝒓 = 𝒔𝒔�𝒙𝒙𝒙𝒙𝒔𝒔�𝒙𝒙 𝒔𝒔�𝒙𝒙

    r=0.97 associació lineal forta i creixent

  • Francisco Palacios 2014

    Recta d’ajust mínim quadràtic (resum teòric)

    13

  • Francisco Palacios 2014

    Recta d’ajust mínim quadràtic: notacions

    14

  • Francisco Palacios 2014

    Recta d’ajust mínim quadràtic: notacions

    15

  • Francisco Palacios 2014

    Recta d’ajust mínim quadràtic

    16

  • Francisco Palacios 2014

    Recta d’ajust mínim quadràtic

    17

  • Francisco Palacios 2014

    Recta d’ajust mínim quadràtic

    18

  • Francisco Palacios 2014

    Càlcul (manual) de la recta d’ajust mínim quadràtic

    19

  • Francisco Palacios 2014 20

    4. Recta d’ajust mínim quadràtic

    • Podem calcular la recta d’ajust mínim quadràtic amb l’ordre lm(y~x) (linear model)

    • L’expressió 𝐲𝐲~𝒙𝒙 és una fórmula que estableix un model lineal de la forma y=a+b*x per modelar la relació entre x i y

    • La funció lm( ) dóna com a resultat el valor òptim dels coeficients a i b

    Activitat 6 1. Calcula la recta d’ajust mínim

    quadràtic per als vectors de dades x i y

    2. Identifica la recta

    La recta òptima 𝒙𝒙 = 𝒂𝒂� + 𝒃𝒃�𝒙𝒙 és 𝒙𝒙 = −𝟎𝟎.𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔 + 𝟏𝟏.𝟏𝟏𝟔𝟔𝟏𝟏𝟏𝟏 𝒙𝒙

  • Francisco Palacios 2014 21

    5. Afegir la recta d’ajust a un diagrama de dispersió

    • L’ordre abline(a,b) dibuixa la recta 𝒙𝒙 = 𝒂𝒂 + 𝒃𝒃𝒙𝒙 al diagrama de dispersió • Pots fer servir les opcions col=“blue”, lwd=3 (line width) per millorar

    l’aspecte de gràfic

    Activitat 7 Afegeix al digrama de dispersió la recta d’ajust obtinguda a l’activitat 6

    Recta òptima: 𝒙𝒙 = −𝟎𝟎.𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔 + 𝟏𝟏.𝟏𝟏𝟔𝟔𝟏𝟏𝟏𝟏 𝒙𝒙

  • Francisco Palacios 2014 22

    6. Càlcul de prediccions

    • Una forma molt efectiva de calcular prediccions és definir una funció en la forma f = function(x) {a+b*x}

    • Les funcions de R poden actuar directament sobre vectors

    Activitat 7 1. Defineix una funció per

    calcular la nota final estimada a partir de la nota parcial

    2. Calcula la nota final corresponent a una nota parcial x=6.8

    3. Calcula les notes finals corresponents a les notes parcials x = 4.5, 6.9, 7.2

    Recta òptima: 𝒙𝒙 = −𝟎𝟎.𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔 + 𝟏𝟏.𝟏𝟏𝟔𝟔𝟏𝟏𝟏𝟏 𝒙𝒙

  • Francisco Palacios 2014 23

    7. Afegir punts al diagrama de dispersió

    • Podem afegir punts al diagrama de dispersió amb l’ordre points(x1,y1), on x1 i y1 són vectors que contenen les coordenades dels nous punts

    • Podem usar les opcions col (color), pch (plot character) i cex (character expansion) per millorar l’aspecte del nous punts

    Activitat 8 Afegeix al diagrama de dispersió els punts definits pels vectors x1 i y1 calculats a l’Activitat 7

  • Francisco Palacios 2014 24

    8. Coeficient de determinació 𝒓𝒓𝟐𝟐

    • El coeficient de determinació 𝒓𝒓𝟐𝟐 permet avaluar la qualitat d’ajust d’un model

    • Valors de 𝒓𝒓𝟐𝟐 ≥ 𝟎𝟎.𝟗𝟗𝟔𝟔 indiquen que el model és adequat • Valors de 𝒓𝒓𝟐𝟐 ≥ 𝟎𝟎.𝟗𝟗𝟔𝟔 indiquen que el model és molt adequat • Per a un model calculat amb lm( ), l’ordre summary( model) proporciona

    informació detallada sobre el model, en particular el valor R-squared • Podem obtenir directament el valor de 𝒓𝒓𝟐𝟐 corresponent a un model amb

    l’ordre summary(model)$r.squared

    Activitat 8 Calcula el valor de 𝒓𝒓𝟐𝟐 corresponent al model lineal ajustat als vectors x i y

  • Francisco Palacios 2014 25

    8. Coeficient de determinació 𝒓𝒓𝟐𝟐

    Activitat 8 Calcula el valor de 𝒓𝒓𝟐𝟐 corresponent al model lineal ajustat als vectors x i y

  • Francisco Palacios 2014 26

    9. Ajust de models polinomials

    Podem ajustar un model de la forma 𝒙𝒙 = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏𝒙𝒙+ 𝒂𝒂𝟐𝟐𝒙𝒙𝟐𝟐 indicant la fórmula 𝐲𝐲~𝒙𝒙 + 𝑰𝑰(𝒙𝒙^𝟐𝟐) a la funció lm( )

    Activitat 9 Ajusta un model quadràtic a les dades dels vectors x i y. Usa el coeficient de determinació per avaluar la qualitat d’ajust

    Polinomi òptim 𝒙𝒙 = 𝟏𝟏.𝟎𝟎𝟎𝟎𝟏𝟏𝟔𝟔 + 𝟎𝟎.𝟎𝟎𝟏𝟏𝟏𝟏𝟔𝟔 𝒙𝒙 + 𝟎𝟎.𝟎𝟎𝟔𝟔𝟎𝟎𝟔𝟔 𝒙𝒙𝟐𝟐

    Bon ajust 𝒓𝒓𝟐𝟐 = 𝟎𝟎.𝟗𝟗𝟔𝟔

  • Francisco Palacios 2014 27

    9. Ajust de models polinomials

    Un model de tercer grau (cúbic) 𝒙𝒙 = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏𝒙𝒙+ 𝒂𝒂𝟐𝟐𝒙𝒙𝟐𝟐 + 𝒂𝒂𝟎𝟎𝒙𝒙𝟎𝟎 es pot ajustar indicant la fórmula 𝐲𝐲~𝒙𝒙 + 𝑰𝑰 𝒙𝒙^𝟐𝟐 + 𝑰𝑰(𝒙𝒙^𝟎𝟎) a la funció lm( )

    Activitat 10 Ajusta un model cúbic a les dades dels vectors x i y. Usa el coeficient de determinació per avaluar la qualitat d’ajust

    Polinomi òptim : 𝒙𝒙 = 𝟎𝟎.𝟏𝟏𝟎𝟎𝟔𝟔𝟏𝟏 − 𝟐𝟐.𝟐𝟐𝟏𝟏𝟔𝟔𝟔𝟔 𝒙𝒙 + 𝟎𝟎.𝟔𝟔𝟎𝟎𝟗𝟗𝟔𝟔 𝒙𝒙𝟐𝟐 − 𝟎𝟎.𝟎𝟎𝟎𝟎𝟔𝟔𝟔𝟔 𝒙𝒙^𝟎𝟎

    Molt bon ajust 𝒓𝒓𝟐𝟐 = 𝟎𝟎.𝟗𝟗𝟔𝟔

  • Francisco Palacios 2014 28

    10. Afegir corbes a un diagrama de dispersió

    • Podem dibuixar una la corba y=f(x) amb l’ordre curve(f(x), add=TRUE ) • Per afegir la corba al diagrama de dispersió generat amb plot(x,y), hem

    d’especificar l’opció add=TRUE • Podem usar les opcions col (color) i lwd (line width) per millorar l’aspecte

    del gràfic • L’expressió a representar s’escriu (per defecte) usant x com a variable

    independent (això no causa cap conflicte amb els noms de vector definits en la sessió de treball)

    Activitat 11 Dibuixa un diagrama de dispersió amb les dades dels vectors x i y. Afegeix al gràfic el polinomi cúbic d’ajust calculat a l’Activitat 10

    Polinomi òptim : 𝒙𝒙 = 𝟎𝟎.𝟏𝟏𝟎𝟎𝟔𝟔𝟏𝟏 − 𝟐𝟐.𝟐𝟐𝟏𝟏𝟔𝟔𝟔𝟔 𝒙𝒙 + 𝟎𝟎.𝟔𝟔𝟎𝟎𝟗𝟗𝟔𝟔 𝒙𝒙𝟐𝟐 − 𝟎𝟎.𝟎𝟎𝟎𝟎𝟔𝟔𝟔𝟔 𝒙𝒙^𝟎𝟎

  • Francisco Palacios 2014 29

    10. Afegir corbes a diagrama de dispersió

    Polinomi òptim : 𝒙𝒙 = 𝟎𝟎.𝟏𝟏𝟎𝟎𝟔𝟔𝟏𝟏 − 𝟐𝟐.𝟐𝟐𝟏𝟏𝟔𝟔𝟔𝟔 𝒙𝒙 + 𝟎𝟎.𝟔𝟔𝟎𝟎𝟗𝟗𝟔𝟔 𝒙𝒙𝟐𝟐 − 𝟎𝟎.𝟎𝟎𝟎𝟎𝟔𝟔𝟔𝟔 𝒙𝒙^𝟎𝟎

    Activitat 11

  • Francisco Palacios 2014 30

    12. Ajust de models exponencials

    La teoria d’ajust lineal s’aplica models matemàtics de la forma 𝒙𝒙 = 𝒂𝒂 + 𝒃𝒃 𝒙𝒙

    Alguns models no lineals poden ser transformar en models lineals mitjançant un canvi de variable adequat

    Per a un model exponencial de la forma 𝒙𝒙 = 𝒂𝒂𝒆𝒆𝒃𝒃𝒙𝒙, 1. Prenem logaritmes: 𝐥𝐥𝐥𝐥 𝒙𝒙 = 𝐥𝐥𝐥𝐥 𝒂𝒂 + 𝒃𝒃𝒙𝒙 2. Fem el canvi de variable 𝒙𝒙𝒕𝒕 = 𝒍𝒍𝒍𝒍(𝒙𝒙) 3. Prenem la constant 𝜶𝜶 = 𝐥𝐥𝐥𝐥 (𝒂𝒂) (que implica 𝒂𝒂 = 𝒆𝒆𝜶𝜶) i obtenim

    𝒙𝒙𝒕𝒕= 𝜶𝜶 + 𝒃𝒃𝒙𝒙 4. Si la llista de dades transformades (𝒙𝒙,𝒙𝒙𝒕𝒕) admeten un bon ajust

    lineal amb la recta 𝒙𝒙𝒕𝒕 = 𝜶𝜶� + 𝒃𝒃� 𝒙𝒙, llavors el model exponencial 𝒙𝒙 = 𝒂𝒂� 𝒆𝒆𝒃𝒃�𝒙𝒙 amb 𝒂𝒂� = 𝒆𝒆𝜶𝜶� s’ajusta bé a les dades originals

  • Francisco Palacios 2014 31

    12. Ajust de models exponencials

    Activitat 12 Considerem la llista de punts

    on la variable x és la variable predictora i la variable y és la variable resposta. 1. Genera dos vectors x i y amb les dades corresponents 2. Dibuixa un diagrama de dispersió 3. Creus que un model de la forma 𝒙𝒙 = 𝒂𝒂 + 𝒃𝒃𝒙𝒙 és adequat per descriure la

    relació entre x i y? 4. Ajusta un model lineal 𝒙𝒙 = 𝒂𝒂 + 𝒃𝒃𝒙𝒙 i valora qualitat de l’ajust

    X 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

    y 8.3 4.9 3.5 2.1 1.2 0.9 0.5 0.2

  • Francisco Palacios 2014 32

    12. Ajust de models exponencials

    Activitat 12

    El model no és massa adequat 𝒓𝒓𝟐𝟐 = 𝟎𝟎.𝟔𝟔𝟎𝟎𝟔𝟔

  • Francisco Palacios 2014 33

    12. Ajust de models exponencials

    Activitat 13 1. Calcula el vector de dades transformades y1=log(y) 2. Dibuixa un diagrama de dispersió de les dades x i y1 3. Creus que un model de la forma 𝐲𝐲𝟏𝟏 = 𝜶𝜶 + 𝒃𝒃𝒙𝒙 és adequat per descriure

    la relació entre x i y1? 4. Ajusta un model lineal 𝐲𝐲𝟏𝟏 = 𝜶𝜶 + 𝒃𝒃𝒙𝒙 i valora qualitat de l’ajust

    El model linealitzat és molt adequat 𝒓𝒓𝟐𝟐 = 𝟎𝟎.𝟗𝟗𝟔𝟔𝟎𝟎𝟎𝟎

  • Francisco Palacios 2014 34

    12. Ajust de models exponencials

    Activitat 14 1. Observa el valor els coeficients òptims del model linealitzat

    𝐲𝐲𝟏𝟏 = 𝜶𝜶� + 𝒃𝒃�𝒙𝒙 amb l’ordre summary(mod2)$coefficients 2. Calcula el valor del coeficient 𝒂𝒂� = 𝒆𝒆𝜶𝜶� model exponencial ajustat

    𝒙𝒙 = 𝒂𝒂� 𝒆𝒆𝒃𝒃�𝒙𝒙 3. Afegeix la corba exponencial ajustada al diagrama de dispersió

  • Francisco Palacios 2014 35

    12. Ajust de models exponencials

    Activitat 14

    Corba exponencial ajustada 𝒙𝒙 = 𝟔𝟔.𝟗𝟗𝟎𝟎𝟏𝟏𝟔𝟔 𝒆𝒆−𝟏𝟏.𝟎𝟎𝟎𝟎𝟎𝟎 𝒙𝒙

    Pràctiques d’Estadística�P2.2 Ajust de corbesContingut (I) 1. Exemple inicial1. Diagrama de dispersió2. Diagrama de dispersió2. Diagrama de dispersió2. Diagrama de dispersió2. Diagrama de dispersió3. Coeficient de correlació3. Coeficient de correlació3. Coeficient de correlació3. Coeficient de correlacióRecta d’ajust mínim quadràtic (resum teòric) Recta d’ajust mínim quadràtic: notacionsRecta d’ajust mínim quadràtic: notacionsRecta d’ajust mínim quadràticRecta d’ajust mínim quadràticRecta d’ajust mínim quadràticCàlcul (manual) de la recta d’ajust mínim quadràtic4. Recta d’ajust mínim quadràtic5. Afegir la recta d’ajust a un diagrama de dispersió6. Càlcul de prediccions7. Afegir punts al diagrama de dispersió8. Coeficient de determinació 𝒓 𝟐 8. Coeficient de determinació 𝒓 𝟐 9. Ajust de models polinomials9. Ajust de models polinomials10. Afegir corbes a un diagrama de dispersió10. Afegir corbes a diagrama de dispersió12. Ajust de models exponencials 12. Ajust de models exponencials12. Ajust de models exponencials12. Ajust de models exponencials12. Ajust de models exponencials12. Ajust de models exponencials