Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en...

52
Statistik f¨or bioteknik sf1911 orel¨ asning 1 TK 30.10.2017 TK Biostatistics 30.10.2017 1 / 52

Transcript of Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en...

Page 1: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Statistik for bioteknik sf1911Forelasning 1

TK

30.10.2017

TK Biostatistics 30.10.2017 1 / 52

Page 2: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Manga tanker pa tabeller 1 nar de hor ordet ”statistik”. Har avses dockmed statistik laran om hur man fran observationer eller analyser underosakerhet drar slutsatser och beskriver dessa slutsatser pa ett korrekt satt.

1Florence Nightingale (i bilden till hoger) var aven en framstaende statistiker,tabellen till vanster har uppfunnits av henne

TK Biostatistics 30.10.2017 2 / 52

Page 3: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Statistics: Data → Knowledge. A quote:

(Statistics) is the problem of turning data into knowledge, whereknowledge often is expressed in terms of entities that are not present in thedata per se but are present in models that one uses to interpret the data.

Committee on the Analysis of Massive Data: Frontiers in Massive DataAnalysis.The National Academies Press, Washington D.C., 2013, p.3.

TK Biostatistics 30.10.2017 3 / 52

Page 4: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Data → Statistics → Information/Knowledge

Statistics is a tool for creating new understanding from a set of numbersby means of probability models.

TK Biostatistics 30.10.2017 4 / 52

Page 5: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Model and Data

If we view the trunk of a cherry tree as a cone with radius r and height h,classical geometry gives the volume v of the cone as

v =π

4· h · r2.

TK Biostatistics 30.10.2017 5 / 52

Page 6: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Model and Data

TK Biostatistics 30.10.2017 6 / 52

Page 7: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Biostatistics

Biostatistics is the development and application of statistical techniques toscientific disciplines relating to life

TK Biostatistics 30.10.2017 7 / 52

Page 8: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Biostatistics

Biostatistics is the development and application of statistical techniques toscientific disciplines relating to life.

TK Biostatistics 30.10.2017 8 / 52

Page 9: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Bioteknik

Foljande text ar en blandning av synpunkter fran webben:

Biotechnology can focus on a whole range of topics, from geneticmodification of plants and animals to gene therapy, medicine and drugmanufacturing, reproductive therapy, and even energy production (throughthe bioengineering of bacteria and algae). In all cases, the work is carriedout by developing something and testing whether or not it has the desiredperformance. Determining performance requires statistical analysis ofresults.

TK Biostatistics 30.10.2017 9 / 52

Page 10: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Bioteknik

In today’s world of high-throughput experiments, biotechnology deals withlaboratory equipment constantly churning out mountains of data. Butwithout an understanding of statistics and a knowledge of the techniquesrequired to analyse, summarize and interpret these data, we are verylimited in what we can learn from our observations, which will in turninhibit our ability to move forward in our activity. Even with experimentsthat generate very little data, there is a need to simulate phenomena bymodelling the behaviour of systems and their parameters, which againoften needs to be done statistically. It is therefore imperative tounderstand the basics of probability, statistical distributions,descriptive statistics, and some simple parametric hypothesis tests.

TK Biostatistics 30.10.2017 10 / 52

Page 11: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Larandemal:

datatyper i statistik

aritmetiskt medelvarde standardavvikelse, median

skewness (=skevhet)

CV= coefficient of variation

relativ frekvens

korrelationskoefficient

linjar regression (inledning)

TK Biostatistics 30.10.2017 11 / 52

Page 12: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Datatyper

Kategoridata

Dikotoma data (binara data, tva kategorier)Kategoridata utan ordningsstruktur (nominaldata)Kategoridata med ordningsstruktur (ordinaldata)

Kvantitativa data

Kvantitativa antalsdata (diskreta data)Kvantitativa kontinuerliga data, indelade i icke-negativa,intervallbegransade eller obegransade. Absolutnollpunkt: kvottyp

TK Biostatistics 30.10.2017 12 / 52

Page 13: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Datatyper

Man talar aven om de mostvarande matnivaerna hos ett datamaterial:nominalskala, ordinalskala, intervallskala och kvotskala. Eller ommostvarande variabler: nominal-, ordinalvariabler o.s.v.

TK Biostatistics 30.10.2017 13 / 52

Page 14: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Datamangd: ogrupperade data

Man undersokte 35 tandsticksaskar och noterade for varje ask hur mangatandstickor den inneholl. Vilken datatyp ? Foljande varden(xi , i = 1, . . . , 35) erholls:

51 52 49 51 52 51 5352 48 52 50 53 49 5051 53 51 52 50 51 5353 55 50 49 53 50 5151 52 48 53 50 49 51

Detta ar ett exempel pa ogrupperade data och VARIATION.

TK Biostatistics 30.10.2017 14 / 52

Page 15: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Hur manga tandstickor tillverkas i Sverige ?

Varje dag tillverkar Swedish Match cirka 5 miljoner tandsticksaskar, vilketmotsvarar omkring 250 miljoner tandstickor.

Staller man askarna pa varandra, racker en minuts produktion till en pelarehogre an Eiffeltornet i Paris. Lagger man askarna pa rad pa E4:an, rackeren dags produktion fran Jonkoping till Stockholm. Stickornassammanlagda langd skulle racka till Australien.

TK Biostatistics 30.10.2017 15 / 52

Page 16: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

En statistika ar ett tal som beskriver/sammanfattar en kvantitivdatamangd (data set, aven kallad ett stickprov av data). Statistikansnumeriska varde ar kant nar datamangden ar analyserad.En statistikas numeriska varde varierar fran stickprov till stickprov fransamma kalla av matdata. Ofta anvands en statistika for att gora enskattning av en okand parameter i en statistisk modell (mer om dettasenare).Exempel pa statistikor som behandlas i dag: medelvarde, median(stickprovs)varians, skevhet, variationskoeffient, korrelationskoefficient.

TK Biostatistics 30.10.2017 16 / 52

Page 17: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Datamangd: {x1, x2, . . . , xn}.

x =x1 + x2 + · · ·+ xn

n

En nyttig beteckning:

x =1

n

n

∑i=1

xi

Medelvardet ger laget for en datamangd. I Matlab mean(x)

TK Biostatistics 30.10.2017 17 / 52

Page 18: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Variansen/Stickprovsvariansen ar

s2 =∑n

i=1(xi − x)2

n− 1.

Variansen ger spridningen i en datamangd kring dess medelvarde.

Variansen kan ocksa beraknas som s2 =∑n

i=1 x2i − nx2

n− 1.

TK Biostatistics 30.10.2017 18 / 52

Page 19: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Standardavvikelsen ar

s =

√∑n

i=1(xi − x)2

n− 1.

x och s har samma enhet (sort). I Matlab std(x).

TK Biostatistics 30.10.2017 19 / 52

Page 20: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Median ar det varde for en kvantitiv datamangd, som ordnats efterstorlek, som delar materialet i tva lika stora delar. Medianen ar ettlagesmatt. Medianen overskrides lika ofta som det underskrides av vardeni den givna datamangden. Medianen kan aven beraknas for data iordinalskala.

Berakning av medianAntag en ordnad datamangd av n matvarden. Medianen ar det mitterstavardet om n ar udda. Om n ar jamnt beraknas medianen som medelvardetav de mittersta vardena. I Matlab median(x).

TK Biostatistics 30.10.2017 20 / 52

Page 21: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Lagesmatt (Variation)

L

x =1

n

n

∑j=1

xj =x1 + x2 + · · ·+ xn

n.

I exemplet (tandstickorna) blir ∑35j=1 xj = 1789 och

x = 1789/35 = 51.1143.

TK Biostatistics 30.10.2017 21 / 52

Page 22: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Spridningsmatt: rakneformel

s2 =1

n− 1

n

∑j=1

(xj − x)2

=1

n− 1

(n

∑j=1

x2j − nx2

)I exemplet blir ∑35

j=1 x2j = 91533 och x2 = 2612.7 och standardavvikelsen

blir s =√

134 (91533− 35 · 2612.67) ≈ 1.62.

TK Biostatistics 30.10.2017 22 / 52

Page 23: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Under under 10 dagar man matt avkastningen (enhet ton) fran tvakemiska processer A och B.

Foljande matvarden erholls:A: 2.11 0.82 7.60 0.09 8.10 8.47 4.52 8.07 4.83 6.13B: 5.27 5.88 5.65 5.49 5.77 5.96 5.99 5.84 5.75 5.04

Man ser genast att A-data ar mer utspridda an B-data. Men det galleruttrycka denna insikt med siffervarden (behandlas pa ovningarna).

TK Biostatistics 30.10.2017 23 / 52

Page 24: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Tjebysjovs teorem

For varje dataset och for varje tal k (k ≥ 1), ligger minst procentdelen(fraction) 1− 1

k2 av data inom intervallet [x − ks, x + ks ].Detta teorem sager, till exempel, att minst 8/9 av vardena i ett datasetligger inom [x − 3s, x + 3s ], och man sager att 8/9 av vardena ligger inomtre standardavvikelser fran dess medelvarde.Tjebysjovs teorem utlovar alltsa att om s ar litet, sa kommer data att liggatatt kring dess medelvarde.

TK Biostatistics 30.10.2017 24 / 52

Page 25: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Tjebysjovs teorem

For varje dataset och for varje tal k (k ≥ 1), ligger minst procentdelen1− 1

22= 0.75 av data inom intervallet [x − 2s, x + 2s ]. Tandstickorna

ovan och k = 2

[x − 2s, x + 2s ] = [51.11− 2 · 1.62, 51.11 + 2 · 1.62] = [47.87, 54.35]

en observation faller utanfor detta intervall och 97 % innanfor.

TK Biostatistics 30.10.2017 25 / 52

Page 26: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

The duration of time from first exposure to HIV infection to AIDSdiagnosis is called the incubation period. The incubation periods of arandom sample of 7 HIV infected individuals is given below (in years):

12.0 9.5 13.5 7.2 10.5 6.3 12.5

a) The sample mean and the sample median. The samplestandard deviation.

b) If the number 6.3 above were changed to 1.5, what wouldhappen to the sample mean, median, and standarddeviation? State whether each would increase, decrease, orremain the same.

10

TK Biostatistics 30.10.2017 26 / 52

Page 27: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

a) x = [12.0 9.5 13.5 7.2 10.5 6.3 12.5], x = 10.21,std(x)= 2.71sort(x)

6.3 7.2 9.5 10.5 12 12.5 13.5median = 10.5

TK Biostatistics 30.10.2017 27 / 52

Page 28: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

b) x = [12.0 9.5 13.5 7.2 10.5 1.5 12.5], x = 9.5std(x)= 4.11sort(x)

1.5 7.2 9.5 10.5 12 12.5 13.5median = 10.5

TK Biostatistics 30.10.2017 28 / 52

Page 29: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Suppose instead of 7 individuals, we had 14 individuals. (We add 7additional randomly selected observations to the original 7)

12.0 9.5 13.5 7.2 8.1 10.5 6.3 12.5 14.97.9 5.2 13.1 10.7 6.5

Make an educated guess of whether the sample mean and samplestandard deviation for the 14 observations would increase, decrease, orremain roughly the same compared to your answers in a) -b) based ononly 7 observations.

TK Biostatistics 30.10.2017 29 / 52

Page 30: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

TK Biostatistics 30.10.2017 30 / 52

Page 31: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Skevhet, Kurtosis

Skevheten av x1, x2, . . . , xn ar definierad som

g1def=

1n ∑n

i=1(xi − x)3[1

n−1 ∑ni=1(xi − x)2

]3/2 .

Den mater hur sned, eller osymmetrisk en datamangd ar. Om g1 < 0,sa lutar datamangden at vanster. Om g1 > 0, sa lutar datamangden athoger. Om g1 = 0, sa ar datamangden symmetrisk.Kurtosis definieras av

g2def=

1n ∑n

i=1(xi − x)4(1n ∑n

i=1(xi − x)2)2 − 3.

Pa engelska talar man om kurtosis som matt pa flatness och peakedness(toppighet).

TK Biostatistics 30.10.2017 31 / 52

Page 32: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Pearson 2 skevhet koefficient

En annan statistika att mata skevhet med ar Sk2, Pearson 2 skevhetkoefficient, som definieras som

Sk2def= 3 · x −median(x)

s.

Det kan visas att −3 ≤ Sk2 ≤ 3. Denna statistika ar ofortjant (?)bortsedd.

TK Biostatistics 30.10.2017 32 / 52

Page 33: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

To find the prevalence (=forekomsten) of the high normal allele in thegeneral population a group of doctors plans to use samples of primarilyParkinson disease (PD) cases. They compare the Huntington HD allelelengths in the PD sample to the non-penetrant length HD alleles in theHD sample. The result is shown below.

Number of Alleles Range Mean MedianBoth Alleles for PD Sample 1276 14-34 20.0 19Non-penetrant length Allele for HD Subjects 2065 6.35 18.7 18

TK Biostatistics 30.10.2017 33 / 52

Page 34: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

They conclude:The similarity further supports the assumption that the length of the HDallele is not associated with the etiology (etiologi studerar orsakssambandbakom sjukdomar) of PD.Hendricks, Audrey E and Latourelle, Jeanne C and Lunetta, Kathryn L andCupples, L Adrienne and Wheeler, Vanessa and MacDonald, Marcy Eet.al.: Estimating the probability of de novo HD cases from transmissionsof expanded penetrant CAG alleles in the Huntington disease gene frommale carriers of high normal alleles (27–35 CAG), American Journal ofMedical Genetics Part A, 149, pp. 1375–1381 , 2009.

How do you draw this conclusion?

TK Biostatistics 30.10.2017 34 / 52

Page 35: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Variationskoefficient

Coefficient of variation (CV)Variationskoefficient ar en statistika, ett matt pa spridning. Om vi t.ex.har data pa vikt (kg) och pa langd (m), ar det omojligt att direkt jamforaspridningen i langd med spridningen i vikt.For det andra, med observationer pa olika skalor ex. 1,2,3,4,5 och1000,2000,3000,4000,5000 kommer standardavvikelserna vara olika (storrevid hogre skalor) aven om de procentuellt sett ar lika.Variationskoefficienten for en datamangd definieras som

CV =s

x× 100[%]

Saledes uttrycker CV standardavvikelsen som procentandel avmedelvardet. For matdata med en viss enhet har x och s samma sort ochdarfor ar CV utan enhet (dimensionless). Variationskoefficienten gor alltsastandardavvikelser pa olika skalor och i olika enheter jamforbara. CVanvands for positiva data.

TK Biostatistics 30.10.2017 35 / 52

Page 36: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Vi hoppar over till en ny statistika: relativ frekvens

TK Biostatistics 30.10.2017 36 / 52

Page 37: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Relativ frekvens

Datamangd X = {x1, x2, . . . , xn} med n datapunkter i nagon skala. x arett varde i skalan. Da ar fX (x), den relativa frekvensen av x (m.a.p. X ),lika med

fX (x) =antalet ganger x forekommer i X

n.

eller

fX (x) =frekvensen av x i X

totalantalet data i X

=frekvensen av x i X

n.

Denna definition galler for alla skalor/datatyper. Observera att fX (x) = 0om x inte aterfinns bland X .

TK Biostatistics 30.10.2017 37 / 52

Page 38: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Frekvenser

En stor ogrupperad datamangd ar svar att overskada. Resultatet itndsticksexemplet ovan kan sammanfattas i en frekvenstabell avgrupperade data.

absoluta frekvenserna n(x) for de olika forekommande vardena

de relativa frekvenserna fX (x) = n(x)/n. (Har avser x = 1 lagstaklassen, x = 2 nasta klass o.s.v..) n = antalet data (=35).

TK Biostatistics 30.10.2017 38 / 52

Page 39: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Frekvenstabell: grupperade data

Table: Frekvenstabell for antal tandstickor i tandsticksaskar.

Klass Absolut Relativfrekvens frekvens (%)

x n(x) 100 fX (x)

48 2 5.749 4 11.450 6 17.151 9 25.752 6 17.153 7 20.054 0 0.055 1 2.9

S:a 35 100.0

TK Biostatistics 30.10.2017 39 / 52

Page 40: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Stolpdiagram

Storre askadlighet far man genom ett stolpdiagram med de relativafrekvenserna fX (x) inritade.

48 49 50 51 52 53 54 55

0.1

0.2

0.3

pi

TK Biostatistics 30.10.2017 40 / 52

Page 41: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Vi hoppar over till en ny statistika

TK Biostatistics 30.10.2017 41 / 52

Page 42: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Sambandsmatt: kovarians och korrelationskoefficient

Med kovariansen mellan x- och y -vardena i en datamangd(x1, y1), (x2, y2) . . . , (xn, yn) menas

cxy =1

n− 1

n

∑i=1

(xi − x)(yi − y)

sx =

√1

n− 1

n

∑j=1

(xj − x)2, sy =

√1

n− 1

n

∑j=1

(yj − y)2

och med korrelationskoefficienten menas

r =cxysxsy

,

dar sx och sy ar stickprovsstandardavvikelserna for x- respektive y -data.Observera att −1 ≤ r ≤ 1.

TK Biostatistics 30.10.2017 42 / 52

Page 43: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

x

y_

_

>0

>0 < 0

< 0(x − x)(y − y)(x − x)(y − y)

(x − x)(y − y)(x − x)(y − y)i i i

iiii

i

____

_ _ __

TK Biostatistics 30.10.2017 43 / 52

Page 44: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

r =∑n

i=1(xi − x)(yi − y)√∑n

j=1(xj − x)2√

∑nj=1(yj − y)2

.

r =n ∑n

i=1 xiyi −∑ni=1 xi ∑n

i=1 yi√n ∑n

i=1 x2i − (∑n

i=1 xi )2√

n ∑nj=1 y

2j − (∑n

i=1 yi )2

,

TK Biostatistics 30.10.2017 44 / 52

Page 45: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

The kinetics of zidovudine in pregnant baboons was investigated in aneffort to determine dosing regimens in pregnant women, with the goal tomaintain AZT levels in the therapeutic range to prevent HIV infection inchildren. As part of the study, n = 25 measurements of AZTconcentration (y) were made at various doses (x). The values of AZTconcentration (µg/ml) and dose (mg/kg/hr) are given in the Table below.

TK Biostatistics 30.10.2017 45 / 52

Page 46: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

TK Biostatistics 30.10.2017 46 / 52

Page 47: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Scatterplot for (Dose, AZT)- data.

0.5 1 1.5 2 2.5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

TK Biostatistics 30.10.2017 47 / 52

Page 48: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Linjar regression

y = α + βx

kallas en regressionslinje.For att bestamma α och β fran data anvander man minstakvadratmetoden som innebar att man skall minimera kvadratsumman(minimal mean square regression)

Q(α, β) =n

∑i=1

(yi − α− βxi )2

TK Biostatistics 30.10.2017 48 / 52

Page 49: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

Geometriskt innebar det att summan av de lodrata kvadratavstandenmellan observationerna yi och regressionslinjen skall minimeras, se figuren.Genom att derivera med avseende pa α och β och satta derivatorna likamed 0, finner man att Q(α, β) minimeras av β och α givna av

1 2 3 4 5 6 7 86

8

10

12

14

16

18

TK Biostatistics 30.10.2017 49 / 52

Page 50: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

β =∑n

i=1(xi − x)yi∑n

i=1(xi − x)2

α = y − βx .

En algebraisk likhet

n

∑i=1

(xi − x)yi =n

∑i=1

(xi − x)(yi − y) =n

∑i=1

xi (yi − y),

varfor uttrycket for β kan skrivas/raknas pa flera satt.

TK Biostatistics 30.10.2017 50 / 52

Page 51: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

(Dose, AZT) scatterplot och regressionslinjen

0.5 1 1.5 2 2.5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

TK Biostatistics 30.10.2017 51 / 52

Page 52: Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en statistisk modell (mer om detta senare). Exempel p a statistikor som behandlas i dag:

TK Biostatistics 30.10.2017 52 / 52