Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en...
Transcript of Statistik för bioteknik sf1911 Föreläsning 1 - KTH · skattning av en ok and parameter i en...
Statistik for bioteknik sf1911Forelasning 1
TK
30.10.2017
TK Biostatistics 30.10.2017 1 / 52
Manga tanker pa tabeller 1 nar de hor ordet ”statistik”. Har avses dockmed statistik laran om hur man fran observationer eller analyser underosakerhet drar slutsatser och beskriver dessa slutsatser pa ett korrekt satt.
1Florence Nightingale (i bilden till hoger) var aven en framstaende statistiker,tabellen till vanster har uppfunnits av henne
TK Biostatistics 30.10.2017 2 / 52
Statistics: Data → Knowledge. A quote:
(Statistics) is the problem of turning data into knowledge, whereknowledge often is expressed in terms of entities that are not present in thedata per se but are present in models that one uses to interpret the data.
Committee on the Analysis of Massive Data: Frontiers in Massive DataAnalysis.The National Academies Press, Washington D.C., 2013, p.3.
TK Biostatistics 30.10.2017 3 / 52
Data → Statistics → Information/Knowledge
Statistics is a tool for creating new understanding from a set of numbersby means of probability models.
TK Biostatistics 30.10.2017 4 / 52
Model and Data
If we view the trunk of a cherry tree as a cone with radius r and height h,classical geometry gives the volume v of the cone as
v =π
4· h · r2.
TK Biostatistics 30.10.2017 5 / 52
Model and Data
TK Biostatistics 30.10.2017 6 / 52
Biostatistics
Biostatistics is the development and application of statistical techniques toscientific disciplines relating to life
TK Biostatistics 30.10.2017 7 / 52
Biostatistics
Biostatistics is the development and application of statistical techniques toscientific disciplines relating to life.
TK Biostatistics 30.10.2017 8 / 52
Bioteknik
Foljande text ar en blandning av synpunkter fran webben:
Biotechnology can focus on a whole range of topics, from geneticmodification of plants and animals to gene therapy, medicine and drugmanufacturing, reproductive therapy, and even energy production (throughthe bioengineering of bacteria and algae). In all cases, the work is carriedout by developing something and testing whether or not it has the desiredperformance. Determining performance requires statistical analysis ofresults.
TK Biostatistics 30.10.2017 9 / 52
Bioteknik
In today’s world of high-throughput experiments, biotechnology deals withlaboratory equipment constantly churning out mountains of data. Butwithout an understanding of statistics and a knowledge of the techniquesrequired to analyse, summarize and interpret these data, we are verylimited in what we can learn from our observations, which will in turninhibit our ability to move forward in our activity. Even with experimentsthat generate very little data, there is a need to simulate phenomena bymodelling the behaviour of systems and their parameters, which againoften needs to be done statistically. It is therefore imperative tounderstand the basics of probability, statistical distributions,descriptive statistics, and some simple parametric hypothesis tests.
TK Biostatistics 30.10.2017 10 / 52
Larandemal:
datatyper i statistik
aritmetiskt medelvarde standardavvikelse, median
skewness (=skevhet)
CV= coefficient of variation
relativ frekvens
korrelationskoefficient
linjar regression (inledning)
TK Biostatistics 30.10.2017 11 / 52
Datatyper
Kategoridata
Dikotoma data (binara data, tva kategorier)Kategoridata utan ordningsstruktur (nominaldata)Kategoridata med ordningsstruktur (ordinaldata)
Kvantitativa data
Kvantitativa antalsdata (diskreta data)Kvantitativa kontinuerliga data, indelade i icke-negativa,intervallbegransade eller obegransade. Absolutnollpunkt: kvottyp
TK Biostatistics 30.10.2017 12 / 52
Datatyper
Man talar aven om de mostvarande matnivaerna hos ett datamaterial:nominalskala, ordinalskala, intervallskala och kvotskala. Eller ommostvarande variabler: nominal-, ordinalvariabler o.s.v.
TK Biostatistics 30.10.2017 13 / 52
Datamangd: ogrupperade data
Man undersokte 35 tandsticksaskar och noterade for varje ask hur mangatandstickor den inneholl. Vilken datatyp ? Foljande varden(xi , i = 1, . . . , 35) erholls:
51 52 49 51 52 51 5352 48 52 50 53 49 5051 53 51 52 50 51 5353 55 50 49 53 50 5151 52 48 53 50 49 51
Detta ar ett exempel pa ogrupperade data och VARIATION.
TK Biostatistics 30.10.2017 14 / 52
Hur manga tandstickor tillverkas i Sverige ?
Varje dag tillverkar Swedish Match cirka 5 miljoner tandsticksaskar, vilketmotsvarar omkring 250 miljoner tandstickor.
Staller man askarna pa varandra, racker en minuts produktion till en pelarehogre an Eiffeltornet i Paris. Lagger man askarna pa rad pa E4:an, rackeren dags produktion fran Jonkoping till Stockholm. Stickornassammanlagda langd skulle racka till Australien.
TK Biostatistics 30.10.2017 15 / 52
En statistika ar ett tal som beskriver/sammanfattar en kvantitivdatamangd (data set, aven kallad ett stickprov av data). Statistikansnumeriska varde ar kant nar datamangden ar analyserad.En statistikas numeriska varde varierar fran stickprov till stickprov fransamma kalla av matdata. Ofta anvands en statistika for att gora enskattning av en okand parameter i en statistisk modell (mer om dettasenare).Exempel pa statistikor som behandlas i dag: medelvarde, median(stickprovs)varians, skevhet, variationskoeffient, korrelationskoefficient.
TK Biostatistics 30.10.2017 16 / 52
Datamangd: {x1, x2, . . . , xn}.
x =x1 + x2 + · · ·+ xn
n
En nyttig beteckning:
x =1
n
n
∑i=1
xi
Medelvardet ger laget for en datamangd. I Matlab mean(x)
TK Biostatistics 30.10.2017 17 / 52
Variansen/Stickprovsvariansen ar
s2 =∑n
i=1(xi − x)2
n− 1.
Variansen ger spridningen i en datamangd kring dess medelvarde.
Variansen kan ocksa beraknas som s2 =∑n
i=1 x2i − nx2
n− 1.
TK Biostatistics 30.10.2017 18 / 52
Standardavvikelsen ar
s =
√∑n
i=1(xi − x)2
n− 1.
x och s har samma enhet (sort). I Matlab std(x).
TK Biostatistics 30.10.2017 19 / 52
Median ar det varde for en kvantitiv datamangd, som ordnats efterstorlek, som delar materialet i tva lika stora delar. Medianen ar ettlagesmatt. Medianen overskrides lika ofta som det underskrides av vardeni den givna datamangden. Medianen kan aven beraknas for data iordinalskala.
Berakning av medianAntag en ordnad datamangd av n matvarden. Medianen ar det mitterstavardet om n ar udda. Om n ar jamnt beraknas medianen som medelvardetav de mittersta vardena. I Matlab median(x).
TK Biostatistics 30.10.2017 20 / 52
Lagesmatt (Variation)
L
x =1
n
n
∑j=1
xj =x1 + x2 + · · ·+ xn
n.
I exemplet (tandstickorna) blir ∑35j=1 xj = 1789 och
x = 1789/35 = 51.1143.
TK Biostatistics 30.10.2017 21 / 52
Spridningsmatt: rakneformel
s2 =1
n− 1
n
∑j=1
(xj − x)2
=1
n− 1
(n
∑j=1
x2j − nx2
)I exemplet blir ∑35
j=1 x2j = 91533 och x2 = 2612.7 och standardavvikelsen
blir s =√
134 (91533− 35 · 2612.67) ≈ 1.62.
TK Biostatistics 30.10.2017 22 / 52
Under under 10 dagar man matt avkastningen (enhet ton) fran tvakemiska processer A och B.
Foljande matvarden erholls:A: 2.11 0.82 7.60 0.09 8.10 8.47 4.52 8.07 4.83 6.13B: 5.27 5.88 5.65 5.49 5.77 5.96 5.99 5.84 5.75 5.04
Man ser genast att A-data ar mer utspridda an B-data. Men det galleruttrycka denna insikt med siffervarden (behandlas pa ovningarna).
TK Biostatistics 30.10.2017 23 / 52
Tjebysjovs teorem
For varje dataset och for varje tal k (k ≥ 1), ligger minst procentdelen(fraction) 1− 1
k2 av data inom intervallet [x − ks, x + ks ].Detta teorem sager, till exempel, att minst 8/9 av vardena i ett datasetligger inom [x − 3s, x + 3s ], och man sager att 8/9 av vardena ligger inomtre standardavvikelser fran dess medelvarde.Tjebysjovs teorem utlovar alltsa att om s ar litet, sa kommer data att liggatatt kring dess medelvarde.
TK Biostatistics 30.10.2017 24 / 52
Tjebysjovs teorem
For varje dataset och for varje tal k (k ≥ 1), ligger minst procentdelen1− 1
22= 0.75 av data inom intervallet [x − 2s, x + 2s ]. Tandstickorna
ovan och k = 2
[x − 2s, x + 2s ] = [51.11− 2 · 1.62, 51.11 + 2 · 1.62] = [47.87, 54.35]
en observation faller utanfor detta intervall och 97 % innanfor.
TK Biostatistics 30.10.2017 25 / 52
The duration of time from first exposure to HIV infection to AIDSdiagnosis is called the incubation period. The incubation periods of arandom sample of 7 HIV infected individuals is given below (in years):
12.0 9.5 13.5 7.2 10.5 6.3 12.5
a) The sample mean and the sample median. The samplestandard deviation.
b) If the number 6.3 above were changed to 1.5, what wouldhappen to the sample mean, median, and standarddeviation? State whether each would increase, decrease, orremain the same.
10
TK Biostatistics 30.10.2017 26 / 52
a) x = [12.0 9.5 13.5 7.2 10.5 6.3 12.5], x = 10.21,std(x)= 2.71sort(x)
6.3 7.2 9.5 10.5 12 12.5 13.5median = 10.5
TK Biostatistics 30.10.2017 27 / 52
b) x = [12.0 9.5 13.5 7.2 10.5 1.5 12.5], x = 9.5std(x)= 4.11sort(x)
1.5 7.2 9.5 10.5 12 12.5 13.5median = 10.5
TK Biostatistics 30.10.2017 28 / 52
Suppose instead of 7 individuals, we had 14 individuals. (We add 7additional randomly selected observations to the original 7)
12.0 9.5 13.5 7.2 8.1 10.5 6.3 12.5 14.97.9 5.2 13.1 10.7 6.5
Make an educated guess of whether the sample mean and samplestandard deviation for the 14 observations would increase, decrease, orremain roughly the same compared to your answers in a) -b) based ononly 7 observations.
TK Biostatistics 30.10.2017 29 / 52
TK Biostatistics 30.10.2017 30 / 52
Skevhet, Kurtosis
Skevheten av x1, x2, . . . , xn ar definierad som
g1def=
1n ∑n
i=1(xi − x)3[1
n−1 ∑ni=1(xi − x)2
]3/2 .
Den mater hur sned, eller osymmetrisk en datamangd ar. Om g1 < 0,sa lutar datamangden at vanster. Om g1 > 0, sa lutar datamangden athoger. Om g1 = 0, sa ar datamangden symmetrisk.Kurtosis definieras av
g2def=
1n ∑n
i=1(xi − x)4(1n ∑n
i=1(xi − x)2)2 − 3.
Pa engelska talar man om kurtosis som matt pa flatness och peakedness(toppighet).
TK Biostatistics 30.10.2017 31 / 52
Pearson 2 skevhet koefficient
En annan statistika att mata skevhet med ar Sk2, Pearson 2 skevhetkoefficient, som definieras som
Sk2def= 3 · x −median(x)
s.
Det kan visas att −3 ≤ Sk2 ≤ 3. Denna statistika ar ofortjant (?)bortsedd.
TK Biostatistics 30.10.2017 32 / 52
To find the prevalence (=forekomsten) of the high normal allele in thegeneral population a group of doctors plans to use samples of primarilyParkinson disease (PD) cases. They compare the Huntington HD allelelengths in the PD sample to the non-penetrant length HD alleles in theHD sample. The result is shown below.
Number of Alleles Range Mean MedianBoth Alleles for PD Sample 1276 14-34 20.0 19Non-penetrant length Allele for HD Subjects 2065 6.35 18.7 18
TK Biostatistics 30.10.2017 33 / 52
They conclude:The similarity further supports the assumption that the length of the HDallele is not associated with the etiology (etiologi studerar orsakssambandbakom sjukdomar) of PD.Hendricks, Audrey E and Latourelle, Jeanne C and Lunetta, Kathryn L andCupples, L Adrienne and Wheeler, Vanessa and MacDonald, Marcy Eet.al.: Estimating the probability of de novo HD cases from transmissionsof expanded penetrant CAG alleles in the Huntington disease gene frommale carriers of high normal alleles (27–35 CAG), American Journal ofMedical Genetics Part A, 149, pp. 1375–1381 , 2009.
How do you draw this conclusion?
TK Biostatistics 30.10.2017 34 / 52
Variationskoefficient
Coefficient of variation (CV)Variationskoefficient ar en statistika, ett matt pa spridning. Om vi t.ex.har data pa vikt (kg) och pa langd (m), ar det omojligt att direkt jamforaspridningen i langd med spridningen i vikt.For det andra, med observationer pa olika skalor ex. 1,2,3,4,5 och1000,2000,3000,4000,5000 kommer standardavvikelserna vara olika (storrevid hogre skalor) aven om de procentuellt sett ar lika.Variationskoefficienten for en datamangd definieras som
CV =s
x× 100[%]
Saledes uttrycker CV standardavvikelsen som procentandel avmedelvardet. For matdata med en viss enhet har x och s samma sort ochdarfor ar CV utan enhet (dimensionless). Variationskoefficienten gor alltsastandardavvikelser pa olika skalor och i olika enheter jamforbara. CVanvands for positiva data.
TK Biostatistics 30.10.2017 35 / 52
Vi hoppar over till en ny statistika: relativ frekvens
TK Biostatistics 30.10.2017 36 / 52
Relativ frekvens
Datamangd X = {x1, x2, . . . , xn} med n datapunkter i nagon skala. x arett varde i skalan. Da ar fX (x), den relativa frekvensen av x (m.a.p. X ),lika med
fX (x) =antalet ganger x forekommer i X
n.
eller
fX (x) =frekvensen av x i X
totalantalet data i X
=frekvensen av x i X
n.
Denna definition galler for alla skalor/datatyper. Observera att fX (x) = 0om x inte aterfinns bland X .
TK Biostatistics 30.10.2017 37 / 52
Frekvenser
En stor ogrupperad datamangd ar svar att overskada. Resultatet itndsticksexemplet ovan kan sammanfattas i en frekvenstabell avgrupperade data.
absoluta frekvenserna n(x) for de olika forekommande vardena
de relativa frekvenserna fX (x) = n(x)/n. (Har avser x = 1 lagstaklassen, x = 2 nasta klass o.s.v..) n = antalet data (=35).
TK Biostatistics 30.10.2017 38 / 52
Frekvenstabell: grupperade data
Table: Frekvenstabell for antal tandstickor i tandsticksaskar.
Klass Absolut Relativfrekvens frekvens (%)
x n(x) 100 fX (x)
48 2 5.749 4 11.450 6 17.151 9 25.752 6 17.153 7 20.054 0 0.055 1 2.9
S:a 35 100.0
TK Biostatistics 30.10.2017 39 / 52
Stolpdiagram
Storre askadlighet far man genom ett stolpdiagram med de relativafrekvenserna fX (x) inritade.
48 49 50 51 52 53 54 55
0.1
0.2
0.3
pi
TK Biostatistics 30.10.2017 40 / 52
Vi hoppar over till en ny statistika
TK Biostatistics 30.10.2017 41 / 52
Sambandsmatt: kovarians och korrelationskoefficient
Med kovariansen mellan x- och y -vardena i en datamangd(x1, y1), (x2, y2) . . . , (xn, yn) menas
cxy =1
n− 1
n
∑i=1
(xi − x)(yi − y)
sx =
√1
n− 1
n
∑j=1
(xj − x)2, sy =
√1
n− 1
n
∑j=1
(yj − y)2
och med korrelationskoefficienten menas
r =cxysxsy
,
dar sx och sy ar stickprovsstandardavvikelserna for x- respektive y -data.Observera att −1 ≤ r ≤ 1.
TK Biostatistics 30.10.2017 42 / 52
x
y_
_
>0
>0 < 0
< 0(x − x)(y − y)(x − x)(y − y)
(x − x)(y − y)(x − x)(y − y)i i i
iiii
i
____
_ _ __
TK Biostatistics 30.10.2017 43 / 52
r =∑n
i=1(xi − x)(yi − y)√∑n
j=1(xj − x)2√
∑nj=1(yj − y)2
.
r =n ∑n
i=1 xiyi −∑ni=1 xi ∑n
i=1 yi√n ∑n
i=1 x2i − (∑n
i=1 xi )2√
n ∑nj=1 y
2j − (∑n
i=1 yi )2
,
TK Biostatistics 30.10.2017 44 / 52
The kinetics of zidovudine in pregnant baboons was investigated in aneffort to determine dosing regimens in pregnant women, with the goal tomaintain AZT levels in the therapeutic range to prevent HIV infection inchildren. As part of the study, n = 25 measurements of AZTconcentration (y) were made at various doses (x). The values of AZTconcentration (µg/ml) and dose (mg/kg/hr) are given in the Table below.
TK Biostatistics 30.10.2017 45 / 52
TK Biostatistics 30.10.2017 46 / 52
Scatterplot for (Dose, AZT)- data.
0.5 1 1.5 2 2.5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
TK Biostatistics 30.10.2017 47 / 52
Linjar regression
y = α + βx
kallas en regressionslinje.For att bestamma α och β fran data anvander man minstakvadratmetoden som innebar att man skall minimera kvadratsumman(minimal mean square regression)
Q(α, β) =n
∑i=1
(yi − α− βxi )2
TK Biostatistics 30.10.2017 48 / 52
Geometriskt innebar det att summan av de lodrata kvadratavstandenmellan observationerna yi och regressionslinjen skall minimeras, se figuren.Genom att derivera med avseende pa α och β och satta derivatorna likamed 0, finner man att Q(α, β) minimeras av β och α givna av
1 2 3 4 5 6 7 86
8
10
12
14
16
18
TK Biostatistics 30.10.2017 49 / 52
β =∑n
i=1(xi − x)yi∑n
i=1(xi − x)2
α = y − βx .
En algebraisk likhet
n
∑i=1
(xi − x)yi =n
∑i=1
(xi − x)(yi − y) =n
∑i=1
xi (yi − y),
varfor uttrycket for β kan skrivas/raknas pa flera satt.
TK Biostatistics 30.10.2017 50 / 52
(Dose, AZT) scatterplot och regressionslinjen
0.5 1 1.5 2 2.5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
TK Biostatistics 30.10.2017 51 / 52
TK Biostatistics 30.10.2017 52 / 52