Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en...

Statistik for bioteknik sf1911Forelasning 1

TK

30.10.2017

TK Biostatistics 30.10.2017 1 / 52

Manga tanker pa tabeller 1 nar de hor ordet ”statistik”. Har avses dockmed statistik laran om hur man fran observationer eller analyser underosakerhet drar slutsatser och beskriver dessa slutsatser pa ett korrekt satt.

1Florence Nightingale (i bilden till hoger) var aven en framstaende statistiker,tabellen till vanster har uppfunnits av henne


Statistics: Data → Knowledge. A quote:

(Statistics) is the problem of turning data into knowledge, whereknowledge often is expressed in terms of entities that are not present in thedata per se but are present in models that one uses to interpret the data.

Committee on the Analysis of Massive Data: Frontiers in Massive DataAnalysis.The National Academies Press, Washington D.C., 2013, p.3.


Data → Statistics → Information/Knowledge

Statistics is a tool for creating new understanding from a set of numbersby means of probability models.


Model and Data

If we view the trunk of a cherry tree as a cone with radius r and height h,classical geometry gives the volume v of the cone as

v =π

4· h · r2.


Model and Data


Biostatistics

Biostatistics is the development and application of statistical techniques toscientific disciplines relating to life


Biostatistics

Biostatistics is the development and application of statistical techniques toscientific disciplines relating to life.


Bioteknik

Foljande text ar en blandning av synpunkter fran webben:

Biotechnology can focus on a whole range of topics, from geneticmodification of plants and animals to gene therapy, medicine and drugmanufacturing, reproductive therapy, and even energy production (throughthe bioengineering of bacteria and algae). In all cases, the work is carriedout by developing something and testing whether or not it has the desiredperformance. Determining performance requires statistical analysis ofresults.


Bioteknik

In today’s world of high-throughput experiments, biotechnology deals withlaboratory equipment constantly churning out mountains of data. Butwithout an understanding of statistics and a knowledge of the techniquesrequired to analyse, summarize and interpret these data, we are verylimited in what we can learn from our observations, which will in turninhibit our ability to move forward in our activity. Even with experimentsthat generate very little data, there is a need to simulate phenomena bymodelling the behaviour of systems and their parameters, which againoften needs to be done statistically. It is therefore imperative tounderstand the basics of probability, statistical distributions,descriptive statistics, and some simple parametric hypothesis tests.


Larandemal:

datatyper i statistik

aritmetiskt medelvarde standardavvikelse, median

skewness (=skevhet)

CV= coefficient of variation

relativ frekvens

korrelationskoefficient

linjar regression (inledning)


Datatyper

Kategoridata

Dikotoma data (binara data, tva kategorier)Kategoridata utan ordningsstruktur (nominaldata)Kategoridata med ordningsstruktur (ordinaldata)

Kvantitativa data

Kvantitativa antalsdata (diskreta data)Kvantitativa kontinuerliga data, indelade i icke-negativa,intervallbegransade eller obegransade. Absolutnollpunkt: kvottyp


Datatyper

Man talar aven om de mostvarande matnivaerna hos ett datamaterial:nominalskala, ordinalskala, intervallskala och kvotskala. Eller ommostvarande variabler: nominal-, ordinalvariabler o.s.v.


Datamangd: ogrupperade data

Man undersokte 35 tandsticksaskar och noterade for varje ask hur mangatandstickor den inneholl. Vilken datatyp ? Foljande varden(xi , i = 1, . . . , 35) erholls:

51 52 49 51 52 51 5352 48 52 50 53 49 5051 53 51 52 50 51 5353 55 50 49 53 50 5151 52 48 53 50 49 51

Detta ar ett exempel pa ogrupperade data och VARIATION.


Hur manga tandstickor tillverkas i Sverige ?

Varje dag tillverkar Swedish Match cirka 5 miljoner tandsticksaskar, vilketmotsvarar omkring 250 miljoner tandstickor.

Staller man askarna pa varandra, racker en minuts produktion till en pelarehogre an Eiffeltornet i Paris. Lagger man askarna pa rad pa E4:an, rackeren dags produktion fran Jonkoping till Stockholm. Stickornassammanlagda langd skulle racka till Australien.


En statistika ar ett tal som beskriver/sammanfattar en kvantitivdatamangd (data set, aven kallad ett stickprov av data). Statistikansnumeriska varde ar kant nar datamangden ar analyserad.En statistikas numeriska varde varierar fran stickprov till stickprov fransamma kalla av matdata. Ofta anvands en statistika for att gora enskattning av en okand parameter i en statistisk modell (mer om dettasenare).Exempel pa statistikor som behandlas i dag: medelvarde, median(stickprovs)varians, skevhet, variationskoeffient, korrelationskoefficient.


Datamangd: {x1, x2, . . . , xn}.

x =x1 + x2 + · · ·+ xn

n

En nyttig beteckning:

x =1

n

n

∑i=1

xi

Medelvardet ger laget for en datamangd. I Matlab mean(x)


Variansen/Stickprovsvariansen ar

s2 =∑n

i=1(xi − x)2

n− 1.

Variansen ger spridningen i en datamangd kring dess medelvarde.

Variansen kan ocksa beraknas som s2 =∑n

i=1 x2i − nx2

n− 1.


Standardavvikelsen ar

s =

√∑n

i=1(xi − x)2

n− 1.

x och s har samma enhet (sort). I Matlab std(x).


Median ar det varde for en kvantitiv datamangd, som ordnats efterstorlek, som delar materialet i tva lika stora delar. Medianen ar ettlagesmatt. Medianen overskrides lika ofta som det underskrides av vardeni den givna datamangden. Medianen kan aven beraknas for data iordinalskala.

Berakning av medianAntag en ordnad datamangd av n matvarden. Medianen ar det mitterstavardet om n ar udda. Om n ar jamnt beraknas medianen som medelvardetav de mittersta vardena. I Matlab median(x).


Lagesmatt (Variation)

L

x =1

n

n

∑j=1

xj =x1 + x2 + · · ·+ xn

n.

I exemplet (tandstickorna) blir ∑35j=1 xj = 1789 och

x = 1789/35 = 51.1143.


Spridningsmatt: rakneformel

s2 =1

n− 1

n

∑j=1

(xj − x)2

=1

n− 1

(n

∑j=1

x2j − nx2

)I exemplet blir ∑35

j=1 x2j = 91533 och x2 = 2612.7 och standardavvikelsen

blir s =√

134 (91533− 35 · 2612.67) ≈ 1.62.


Under under 10 dagar man matt avkastningen (enhet ton) fran tvakemiska processer A och B.

Foljande matvarden erholls:A: 2.11 0.82 7.60 0.09 8.10 8.47 4.52 8.07 4.83 6.13B: 5.27 5.88 5.65 5.49 5.77 5.96 5.99 5.84 5.75 5.04

Man ser genast att A-data ar mer utspridda an B-data. Men det galleruttrycka denna insikt med siffervarden (behandlas pa ovningarna).


Tjebysjovs teorem

For varje dataset och for varje tal k (k ≥ 1), ligger minst procentdelen(fraction) 1− 1

k2 av data inom intervallet [x − ks, x + ks ].Detta teorem sager, till exempel, att minst 8/9 av vardena i ett datasetligger inom [x − 3s, x + 3s ], och man sager att 8/9 av vardena ligger inomtre standardavvikelser fran dess medelvarde.Tjebysjovs teorem utlovar alltsa att om s ar litet, sa kommer data att liggatatt kring dess medelvarde.


Tjebysjovs teorem

For varje dataset och for varje tal k (k ≥ 1), ligger minst procentdelen1− 1

22= 0.75 av data inom intervallet [x − 2s, x + 2s ]. Tandstickorna

ovan och k = 2

[x − 2s, x + 2s ] = [51.11− 2 · 1.62, 51.11 + 2 · 1.62] = [47.87, 54.35]

en observation faller utanfor detta intervall och 97 % innanfor.


The duration of time from first exposure to HIV infection to AIDSdiagnosis is called the incubation period. The incubation periods of arandom sample of 7 HIV infected individuals is given below (in years):

12.0 9.5 13.5 7.2 10.5 6.3 12.5

a) The sample mean and the sample median. The samplestandard deviation.

b) If the number 6.3 above were changed to 1.5, what wouldhappen to the sample mean, median, and standarddeviation? State whether each would increase, decrease, orremain the same.

10


a) x = [12.0 9.5 13.5 7.2 10.5 6.3 12.5], x = 10.21,std(x)= 2.71sort(x)

6.3 7.2 9.5 10.5 12 12.5 13.5median = 10.5


b) x = [12.0 9.5 13.5 7.2 10.5 1.5 12.5], x = 9.5std(x)= 4.11sort(x)

1.5 7.2 9.5 10.5 12 12.5 13.5median = 10.5


Suppose instead of 7 individuals, we had 14 individuals. (We add 7additional randomly selected observations to the original 7)

12.0 9.5 13.5 7.2 8.1 10.5 6.3 12.5 14.97.9 5.2 13.1 10.7 6.5

Make an educated guess of whether the sample mean and samplestandard deviation for the 14 observations would increase, decrease, orremain roughly the same compared to your answers in a) -b) based ononly 7 observations.


Skevhet, Kurtosis

Skevheten av x1, x2, . . . , xn ar definierad som

g1def=

1n ∑n

i=1(xi − x)3[1

n−1 ∑ni=1(xi − x)2

]3/2 .

Den mater hur sned, eller osymmetrisk en datamangd ar. Om g1 < 0,sa lutar datamangden at vanster. Om g1 > 0, sa lutar datamangden athoger. Om g1 = 0, sa ar datamangden symmetrisk.Kurtosis definieras av

g2def=

1n ∑n

i=1(xi − x)4(1n ∑n

i=1(xi − x)2)2 − 3.

Pa engelska talar man om kurtosis som matt pa flatness och peakedness(toppighet).


Pearson 2 skevhet koefficient

En annan statistika att mata skevhet med ar Sk2, Pearson 2 skevhetkoefficient, som definieras som

Sk2def= 3 · x −median(x)

s.

Det kan visas att −3 ≤ Sk2 ≤ 3. Denna statistika ar ofortjant (?)bortsedd.


To find the prevalence (=forekomsten) of the high normal allele in thegeneral population a group of doctors plans to use samples of primarilyParkinson disease (PD) cases. They compare the Huntington HD allelelengths in the PD sample to the non-penetrant length HD alleles in theHD sample. The result is shown below.

Number of Alleles Range Mean MedianBoth Alleles for PD Sample 1276 14-34 20.0 19Non-penetrant length Allele for HD Subjects 2065 6.35 18.7 18


They conclude:The similarity further supports the assumption that the length of the HDallele is not associated with the etiology (etiologi studerar orsakssambandbakom sjukdomar) of PD.Hendricks, Audrey E and Latourelle, Jeanne C and Lunetta, Kathryn L andCupples, L Adrienne and Wheeler, Vanessa and MacDonald, Marcy Eet.al.: Estimating the probability of de novo HD cases from transmissionsof expanded penetrant CAG alleles in the Huntington disease gene frommale carriers of high normal alleles (27–35 CAG), American Journal ofMedical Genetics Part A, 149, pp. 1375–1381 , 2009.

How do you draw this conclusion?


Variationskoefficient

Coefficient of variation (CV)Variationskoefficient ar en statistika, ett matt pa spridning. Om vi t.ex.har data pa vikt (kg) och pa langd (m), ar det omojligt att direkt jamforaspridningen i langd med spridningen i vikt.For det andra, med observationer pa olika skalor ex. 1,2,3,4,5 och1000,2000,3000,4000,5000 kommer standardavvikelserna vara olika (storrevid hogre skalor) aven om de procentuellt sett ar lika.Variationskoefficienten for en datamangd definieras som

CV =s

x× 100[%]

Saledes uttrycker CV standardavvikelsen som procentandel avmedelvardet. For matdata med en viss enhet har x och s samma sort ochdarfor ar CV utan enhet (dimensionless). Variationskoefficienten gor alltsastandardavvikelser pa olika skalor och i olika enheter jamforbara. CVanvands for positiva data.


Vi hoppar over till en ny statistika: relativ frekvens


Relativ frekvens

Datamangd X = {x1, x2, . . . , xn} med n datapunkter i nagon skala. x arett varde i skalan. Da ar fX (x), den relativa frekvensen av x (m.a.p. X ),lika med

fX (x) =antalet ganger x forekommer i X

n.

eller

fX (x) =frekvensen av x i X

totalantalet data i X

=frekvensen av x i X

n.

Denna definition galler for alla skalor/datatyper. Observera att fX (x) = 0om x inte aterfinns bland X .


Frekvenser

En stor ogrupperad datamangd ar svar att overskada. Resultatet itndsticksexemplet ovan kan sammanfattas i en frekvenstabell avgrupperade data.

absoluta frekvenserna n(x) for de olika forekommande vardena

de relativa frekvenserna fX (x) = n(x)/n. (Har avser x = 1 lagstaklassen, x = 2 nasta klass o.s.v..) n = antalet data (=35).


Frekvenstabell: grupperade data

Table: Frekvenstabell for antal tandstickor i tandsticksaskar.

Klass Absolut Relativfrekvens frekvens (%)

x n(x) 100 fX (x)

48 2 5.749 4 11.450 6 17.151 9 25.752 6 17.153 7 20.054 0 0.055 1 2.9

S:a 35 100.0


Stolpdiagram

Storre askadlighet far man genom ett stolpdiagram med de relativafrekvenserna fX (x) inritade.

48 49 50 51 52 53 54 55

0.1

0.2

0.3

pi


Vi hoppar over till en ny statistika


Sambandsmatt: kovarians och korrelationskoefficient

Med kovariansen mellan x- och y -vardena i en datamangd(x1, y1), (x2, y2) . . . , (xn, yn) menas

cxy =1

n− 1

n

∑i=1

(xi − x)(yi − y)

sx =

√1

n− 1

n

∑j=1

(xj − x)2, sy =

√1

n− 1

n

∑j=1

(yj − y)2

och med korrelationskoefficienten menas

r =cxysxsy

,

dar sx och sy ar stickprovsstandardavvikelserna for x- respektive y -data.Observera att −1 ≤ r ≤ 1.


x

y_

_

>0

>0 < 0

< 0(x − x)(y − y)(x − x)(y − y)

(x − x)(y − y)(x − x)(y − y)i i i

iiii

i

____

_ _ __


r =∑n

i=1(xi − x)(yi − y)√∑n

j=1(xj − x)2√

∑nj=1(yj − y)2

.

r =n ∑n

i=1 xiyi −∑ni=1 xi ∑n

i=1 yi√n ∑n

i=1 x2i − (∑n

i=1 xi )2√

n ∑nj=1 y

2j − (∑n

i=1 yi )2

,


The kinetics of zidovudine in pregnant baboons was investigated in aneffort to determine dosing regimens in pregnant women, with the goal tomaintain AZT levels in the therapeutic range to prevent HIV infection inchildren. As part of the study, n = 25 measurements of AZTconcentration (y) were made at various doses (x). The values of AZTconcentration (µg/ml) and dose (mg/kg/hr) are given in the Table below.


Scatterplot for (Dose, AZT)- data.

0.5 1 1.5 2 2.5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9


Linjar regression

y = α + βx

kallas en regressionslinje.For att bestamma α och β fran data anvander man minstakvadratmetoden som innebar att man skall minimera kvadratsumman(minimal mean square regression)

Q(α, β) =n

∑i=1

(yi − α− βxi )2


Geometriskt innebar det att summan av de lodrata kvadratavstandenmellan observationerna yi och regressionslinjen skall minimeras, se figuren.Genom att derivera med avseende pa α och β och satta derivatorna likamed 0, finner man att Q(α, β) minimeras av β och α givna av

1 2 3 4 5 6 7 86

8

10

12

14

16

18


β =∑n

i=1(xi − x)yi∑n

i=1(xi − x)2

α = y − βx .

En algebraisk likhet

n

∑i=1

(xi − x)yi =n

∑i=1

(xi − x)(yi − y) =n

∑i=1

xi (yi − y),

varfor uttrycket for β kan skrivas/raknas pa flera satt.


(Dose, AZT) scatterplot och regressionslinjen

0.5 1 1.5 2 2.5

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9


Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en...

Documents

Transcript of Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en...