Introduction to Probability Theorysutee-lectures.wikispaces.com/file/view/prob-sutee.pdf · 2...

1

Introduction to Probability Theory

2

Probability Theory

● ทฤษฎ�ความน�าจะเป�น เป�นพ��นฐานส�าค�ญส�าหร�บ NLP● ในท��น��จะสอนเฉพาะส�วนส�าค�ญท��จ�าเป�น และเป�นการ

ทบทวนความร$%เท�าน��น (เข%าใจว�าท'กคนเคยเร�ยนมาแล%ว)

ทฤษฎ�ความน�าจะเป�น ค�อ ทฤษฎ�ท��ว�าด%วยเร��องการหาว�าส+�งใดส+�งหน,�งม�โอกาสเก+ดข,�นมากน%อยเพ�ยงใด

3

Probability spaces

Probability spaces ค�อ แบบจ�าลองทางคณ+ตศาสตร1ของกระบวนการ (experiment หร�อ trial) ซ,�งประกอบด%วยเหต'การณ1ท��เก+ดข,�นแบบส'�ม● A sample space● A event space● A probability measure

4

Sample space

A sample space, is the set of all possible outcomes.● outcome: ผลล�พธ1หน,�งท��เป�นไปได%ส�าหร�บกระบวนการหน,�ง

เช�น outcome ของการโยนเหร�ยญสองเหร�ยญ ค�อ เหร�ยญแรกออกห�ว และ เหร�ยญสองออกก%อย เป�นต%น (H,T)

ของการโยนเหร�ยญ 2 เหร�ยญ ค�อ

{(H,H), (H,T), (T,H), (T,T)}

“Sample space สามารถเป�นได%ท��ง discrete และ continuous"

5

Event space

An event space, is a set of all possible events.● event (A) : เซตของผลล�พธ1ท��เป�นไปได%ส�าหร�บกระบวนการ

หน,�ง เช�น การท��เหร�ยญแรกออกห�ว = {(H,H), (H,T)}

: a set of subsets of (¾ -algebra)● is non-empty.● is closed under complements.● is closed under countable unions.

6

Probability measure

A probability measure P is a function returning an event's probability.● Probabilities are numbers between 0 and 1.● P is any function where:

●

●

●

ความน�าจะเป�นของเหต'การณ1 เท�าก�บ ผลบวกของเหต'การณ1ย�อยๆ

Ai∩Ak=∅ for j≠k

7

Probability

● ในทางปฏ+บ�ต+ การหาค�าความน�าจะเป�นของเหต'การณ1 A ท�าได%โดย ท�าการทดลองซ��าๆ หลายๆ รอบ เม��อเหต'การณ1 A เก+ดข,�นให%น�บไว% น�บรอบแรกเป�น c

1

● ทดลองรอบต�อและบ�นท,กค�า ci ไปเร��อยๆ หลายๆ รอบ

● ให%ส�งเกตอ�ตราส�วน (โดยท�� Ti ค�อ จ�านวนคร��งของ

การทดลอง) ถ%าเข%าใกล%ค�าคงท��ค�าหน,�ง● ค�าคงท��น��น ค�อ ความน�าจะเป�นของ A หร�อ P(A)

8

Estimating probability

● ในความเป�นจร+ง เราหาได%แต�ค�าประมาณของ P(A) เท�าน��น

● การประมาณค�าความน�าจะเป�นท�าได%ด�งน��● ในกรณ�ท��เราสามารถท�าการทดลองได%รอบเด�ยว

● ถ%าเราสามารถท�าการทดลองได%มากกว�าหน,�งรอบ ให%หาค�าเฉล��ยของ (หร�ออาจรวมหลายๆ รอบเป�นรอบยาวรอบเด�ยวแทนกYได%)

9

Uniform Distribution

โยนเหร�ยญ (ไม�ถ�วงน��าหน�ก) 3 คร��ง โอกาสท��จะเก+ดห�ว 2 คร��งม�ค�าเท�าไร?● Simple space = {HHH, HHT, HTH, HTT, THH,

THT, TTH, TTT}● Event A = {HHT, HTH, THH}● P(A) = P(HHT) + P(HTH) + P(THH) = 3/8

10

Joint probability

●

หาค�าโดยประมาณได%จาก

11

Conditional probability

The conditional probability of an event A occuring given that event B has already occurred is notated as P(A | B)● Prior probability of A: P(A)● Posterior probability of A (after additional

knowledge B): P(A | B)

P(A | B) is read "the probability of A, given B"

12

Conditional probability

● หาค�าประมาณของ P(A | B) ได%จาก

13

The chain rule

From a restatement of , we have the multiplication rule:

More generally, we have the chain rule,

The chain rule will be used in Markov models.

14

Independence

Independence หมายถ,ง สองเหต'การณ1ไม�ข,�นต�อก�น ค�อ การท��ร$%เหต'การณ1หน,�งก�อนจะไม�ส�งผลกระทบต�อความน�าจะเป�นของอ�กเหต'การณ1หน,�ง● ถ%า A และ B ไม�ข,�นต�อก�น

●

●

ความน�าจะเป�นท�� A และ B เก+ดร�วมก�น ค�อ ผลค$ณระหว�างความน�าจะเป�นท��พ+จารณา A และ B แบบเด�ยวๆ เน��องจาก A และ B ไม�ข,�นต�อก�น

15

Bayes' Theorem

Bayes' Theorem จะถ$กใช%ในกรณ�ท�� ● เราต%องการหาค�า P(B | A)● แต�เราร$%ค�า P(A | B) (หร�อ หาได%ง�ายกว�า)ซ,�งกรณ�ด�งกล�าวพบบ�อยใน NLP จาก Bayes' Theorem ท�าให%เราสามารถหา P(B | A) จาก P(A | B) ได%

16

The Golden Rule (of Classic Statistical NLP)

ถ%าต%องการหา B ท��ท�าให% P(B | A) ม�ค�ามากท��ส'ด โดยท�� A คงท�� ● จาก Bayes' Theorem

● เน��องจาก P(A) เป�นค�าคงท�� จะได%

17

ต�วอย�าง

สมม'ต+ให%● ถ'ง B1 ม�ห+นส�แดง 2 ก%อน ส�ขาว 4 ก%อน

● ถ'ง B2 ม�ห+นส�แดง 1 ก%อน ส�ขาว 2 ก%อน

● ถ'ง B3 ม�ห+นส�แดง 5 ก%อน ส�ขาว 4 ก%อน

ถ%าหล�บตาหย+บได%ห+นแดง ความน�าจะเป�นท��จะหย+บจากถ'ง B1 หร�อ

P(B1 | แดง) เท�าก�บเท�าไร ?

● P(แดง) = (2+1+5) / (2+4+1+2+5+4) = 4/9

● P(แดง | B1) = 2/6 = 1/3

● P(B1) = 1/3

● P(B1 | แดง) = P(แดง | B

1) P(B

1) / P(แดง) = (1/3)(1/3) / (4/9) = 1/4

18

Random variables

● ค�อ function ท��เปล��ยน event เป�นต�วเลขจ�านวนจร+ง● function โดยท�� ส�วนใหญ� n = 1

จะเปล��ยนท�าไม?

● Random variable เป�น discrete ถ%า Q สามารถน�บได% (countable)

● เช�น การโยนล$กเตZา : จ�านวนน�บ [1,6]

19

Probability mass function

Probability mass function (pmf) ส�าหร�บต�วแปรส'�ม X จะบอกถ,งความน�าจะเป�นของแต�ค�าใน Q

เช�น การโยนล$กเตZา

Probability distribution● p(X = x) โดยท�� x เป�นสมาช+กของ Q หร�อเข�ยนอย�าง

ง�ายว�า p(x)

20

Expectation

Expectation ของต�วแปรส'�มค�อ mean หร�อ ค�าเฉล��ยของม�น

ซ,�งกYค�อผลรวมของแต�ละค�าค$ณก�บความน�าจะเป�นของม�น

ต�วอย�าง การโยนล$กเตZา ให% Y เป�นต�วแปรส'�ม

21

Joint and Conditional Distributions

เหม�อนก�บความน�าจะเป�นของ event● Joint distribution

● Conditional distribution

22

Standard distributions

Probability distributions แบบหน,�งอาจเก+ดข,�นในข%อม$ลท��แตกต�างก�น

Distribution เหล�าน��นม� functions ท��เหม�อนก�น แต�จะแตกต�างก�นท��ค�าคงท�� (พาราม+เตอร1) ท��ใช%ในการปร�บเพ��อให% distribution เข%าก�บข%อม$ลน��นได%

ในท��น��เราจะศ,กษา 2 แบบ ค�อ● Binomial distribution – ใช%ก�บข%อม$ล discrete● Normal distribution – ใช%ก�บข%อม$ล continuous

23

Binomial distribution

● Binomial distribution จะเป�นผลล�พธ1ของช'ด (series) ของการทดลอง (trials) ท��ม� outcome สองแบบ เช�น การโยนเหร�ยญ ม� outcome ค�อ ห�วก�บก%อย

● โดยท��สมม'ต+ว�าแต�ละการทดลองไม�ข,�นต�อก�น

ส$ตรค�อ (r = จ�านวนท��ส�าเรYจ n = จ�านวนการทดลอง p = ความน�าจะเป�นของความส�าเรYจ)

การเล�อกของ r อย�าง จากของท��งหมด n อย�าง

24

ต�วอย�าง

ถ%าเราโยนเหร�ยญ n คร��ง (n trails) เราอยากร$%ว�าจะเก+ดห�วก��คร��ง (r successes) โดยท��สมม'ต+ว�าเหร�ยญม�โอกาสออกห�วเป�น p

25

Normal distribution

Normal distribution หร�อ Gaussian distribution

ต�วอย�าง: ใช%ประมาณความส$งของชายไทย

Introduction to Probability Theorysutee-lectures.wikispaces.com/file/view/prob-sutee.pdf · 2...

Documents

Transcript of Introduction to Probability Theorysutee-lectures.wikispaces.com/file/view/prob-sutee.pdf · 2...