Математическая статистика, весна 2013: Байесовский...

Лекция 12.Байесовский подход

Буре В.М., Грауэр Л.В.

ШАД

Санкт-Петербург, 2013

Буре В.М., Грауэр Л.В. (ШАД) Байесовский подход Санкт-Петербург, 2013 1 / 36

Cодержание

Содержание

1 Байесовский подход к статистическому оцениванию

2 Априорные распределения, сопряженные с наблюдаемой генеральнойсовокупностью

3 Байесовский прогноз зависимой переменной, основанный на нормальнойлинейной модели множественной регрессии

4 Проверка статистических гипотез


Байесовский подход к статистическому оцениванию

Общая схема байесовского подхода к статистическомуоцениванию

Пусть в описании закона распределения анализируемой случайнойвеличины, функции регрессии, временного ряда и т.п. участвуетs-мерный параметр θ = (θ1, . . . , θs)T .Задача состоит в построении наилучшей, в определеннном смысле,статистической оценки θ параметра θ по имеющимся наблюдениямX[n] = (X1, . . . ,Xn).Байесовский подход основан на двух положениях

Степень нашей уверенности в справедливости некоторогоутверждения численно выражается в вероятности.При принятиии решения в качестве исходной информациииспользуется одновременно информация двух типов: априорная исодержащаяся в исходных статистических данных.



Априорная информация представлена в виде некоторого априорногораспределения вероятностей анализируемого неизвестного параметра,которое описывает степень его уверенности в том, что этот параметрпримет то или иное значение, еще до начала сбора исходныхстатистических данных.По мере поступления исходных статистических данных этораспределение уточняется, переходя от априорного распределения капостериорному, по формуле Байеса:

P{Ai |B} =P{Ai}P{B|Ai}∑Ki=1 P{Ai}P{B|Ai}

, (1)

A1, . . . ,AK образуют полную группу событий, P{B} > 0.



Общая логическая схема байесовского метода оценивания



Априорные сведения о параметре θ оcнованы на предысториифункционирования анализируемого процесса и на профессиональныхтеоретических соображениях о его сущности, специфике, особенностях.Априорные сведения представлены в виде функции p(θ), задающейаприорное распределение параметра

вероятность принять значение θ в дискретном случае,плотность распределения в непрерывном случае.

При анализе многомерных параметров θ = (θ1, . . . , θs)T припостроении априорного распределения обычно предполагаютстастистическую независимость компонент θ1, . . . , θs

p(θ) = p(θ1) · . . . · p(θs).



Исходные статистические данныеВыборка X1, . . . ,Xn получена из генеральной совокупности с функциейраспределения F (x |θ).Пусть f (x |θ)

плотность распределения наблюдаемой случайной величины ξ,если ξ — непрерывна, иливероятноcть P{ξ = X |θ}, если ξ дискретна,

при условии, что значение неизвестного параметра равно θ.

Функция правдоподобия L(X1, . . . ,Xn|θ) имеющихся данныхопределяется соотношением

L(X1, . . . ,Xn|θ) = f (X1|θ)f (X2|θ) · . . . · f (Xn|θ). (2)



Вычисление апостериорного распределения p(θ|X1, . . . ,Xn)осуществялется с помощью формулы Байеса (1), гдеAi — событие, заключающееся в том, что значение оцениваемогопараметра равно θ,B — событие, заключающееся в том, что значения n наблюдений,зафиксированы на уровнях X1, . . . ,Xn.

p(θ|X1, . . . ,Xn) =p(θ)L(X1, . . . ,Xn|θ)∫L(X1, . . . ,Xn|θ)p(θ)dθ

(3)

Знаменатель (3)∫L(X1, . . . ,Xn|θ)p(θ)dθ играет роль нормирующего

коэффициента и не зависит от неизвестного параметра θ.

p(θ|X1, . . . ,Xn) ∝ p(θ)L(X1, . . . ,Xn|θ). (4)



Построение байесовских точечных и интервальных оценокосновано на использовании знания апостериорного распределенияp(θ|X1, . . . ,Xn) (3).В качестве байесовских точечных оценок θB используют среднее илимодальное значение распределения p:

θBmean = E (θ|X1, . . . ,Xn) =

∫θp(θ|X1, . . . ,Xn)dθ, (5)

θBmod = arg maxθ

p(θ|X1, . . . ,Xn), (6)

Байесовская оценка (5) является наилучшей в смысле доставленияминимума апостериорному байесовскому риску:

RB(X1, . . . ,Xn) = E{(θ(X1, . . . ,Xn)− θ)2|X[n]} =

=

∫(θ(X1, . . . ,Xn)− θ)2p(θ|X[n])dθ (7)



Для построения байесовского доверительного интервала для парметраθ необходимо вычислить по формуле (3) апостериорный законраспределения параметра θ (p(θ|X1, . . . ,Xn)), а затем по заданнойдоверительной вероятности γ определить критические значения p1, p2,которые дают соотвественно левый и правый концы доверительногоинтервала.

Как выбрать параметрическое семейство p(θ,D) априорногораспределения оцениваемого параметра?Как подобрать численные значения D0 параметра D,определяющие конкретный вид априорного распределения?Как вычислять апостериорное распределение p(θ,X1, . . . ,Xn)?


Сопряженные распределения

Априорные распределения, сопряженные с наблюдаемойгенеральной совокупностью

Определение 1

Семейство априорных распределений G{p(θ,D)} называетсясопряженным по отношению к наблюдаемой генеральной совокупностиf (X , θ) (или к функции правдоподобия L(X1, . . . ,Xn|θ)), если иапостериорное рапрседеление p(θ,X1, . . . ,Xn), вычисленное поформуле (3), принадлежит этому же семейcтву G .

Теорема 1 (Условие существования сопряженного семействааприорных распределений)

Если функция правдоподобия L(X1, . . . ,Xn|θ) представима в форме

L(X1, . . . ,Xn|θ) = v(T1(X1, . . . ,Xn), . . . ,Tm(X1, . . . ,Xn); θ)·ψ(X1, . . . ,Xn),(8)

где Tj(X1, . . . ,Xn), j = 1, . . . ,m, и ψ(X1, . . . ,Xn) — некоторые функцииот наблюдений X1, . . . ,Xn, не зависящие от параметров θ, тосущетсвует семейство G = {p(θ;D)} априорных распределений,соспряженное с L(X1, . . . ,Xn|θ).



Теорема 2Если в байесовском подходе стартовать с априорного распределения,не несущего никакой дополнительной по отношению к имеющимсястатистическим данным полезной информации об оцениваемыхпараметрах, то первый же переход от нее по формуле (3) капостериорному распределению приведет к семейству распределений,сопряженному с наблюдаемой генеральной совокупностью.



Распределения, отражающие скудость априорных знаний

В случае отсутствия какой-либо полезной априорной информации означениях оцениваемого параметра рекомендуется следоватьследующим рекомендациям:

если оцениваемый скалярный параметр θ может приниматьзначения на конечном интервале [θmin, θmax ] или на бесконечноминтервале от −∞ до +∞, то априорную функцию плотности p(θ)следует считать постоянной на соотвествующем интервале;если из смысла оцениваемого параметра вытекает, что он можетпринимать любые положительные значения, то следует считатьпостоянной на всей числовой прямой (−∞,+∞) функциюплотности распределения логарифма от значения параметра, т.е.p(ln θ) = const при θ ∈ (0; +∞).

Такие априорные распределения называют распределениями,отражающими скудость априорных знаний или "САЗ-априорнымираспределениями".При этом нарушение условий нормировки функции плотностивероятности не доставляет "технических неудобств".Буре В.М., Грауэр Л.В. (ШАД) Байесовский подход Санкт-Петербург, 2013 13 / 36


Определим вид априорной плотности p(θ) для случая p(ln θ) = const

fθ(y) =δFθ(y)

δy=δFln θ(ln y)

δ ln y

δ ln y

δy= fln θ(ln y)

1

y∝ 1

y.

Так как fln θ(ln y) = p(ln y) = conts,

psaz(θ) ∝ 1

θ.

Для параметров θ с возможными значениями, заполняющимим всючисловую прямую, априорная плоность

psaz(θ) = const



Общий подход к выводу семейства априорныхраспределений, сопряженных с наблюдаемойгенеральной совокупностью

Шаг 1. Проверка условия (8) существования семейства априорныхраспределений, сопряженных с функцией правдоподобия L длянаблюдаемой генеральной совокупности.Шаг 2. Если функция правдоподобия L допускает представление (8),то осуществляется вывод САЗ-апостериорного распределенияpsaz(θ|X1, . . . ,Xn) по формуле

psaz(θ|X1, . . . ,Xn) ∝ psaz(θ)L(X1, . . . ,Xn|θ). (9)



Пересчет значений параметров при переходе отаприорного сопряженного распределения капостериорному

Пусть {p(θ,D)}, D = (d1, . . . , dq)T , — семейство априорныхраспределений, сопряженных с функцией правдоподобияL(x1, . . . , xn|θ) имеющихся наблюдений, и пусть D0 — известныезначения параметров D в анализируемом случае.Тогда с помощью ряда тождественных преобразований правая частьсоотношения

p(θ|X1, . . . ,Xn) ∝ p(θ;D0)L(X1, . . . ,Xn|θ) (10)

приводится, с точностью до множителей, не зависящих от θ, к видуp(θ;D(X1, . . . ,Xn)), где каждая из функций dj(X1, . . . ,Xn), j = 1, . . . , q,вектора D(X1, . . . ,Xn)) является функцией D0 и {X1, . . . ,Xn}.



Пример 1

Пусть ξ ∈ N(θ, σ20) — нормально распределенная случайная величина с

неизвестным математическим ожиданием и известной дисперсией.

L(X1, . . . ,Xn|θ) =n∏

i=1

f (Xi |θ) = e− n

2σ20

(x−θ)2

·(

1√2πσ0

)n

e− 1

2σ20

∑ni=1(xi−x)2

.

v(T1(X1, . . . ,Xn); θ) = e− n

2σ20

(x−θ)2

, T1(X1, . . . ,Xn) = x .

ψ(X1, . . . ,Xn) =

(1√

2πσ0

)n

e− 1

2σ20

∑ni=1(xi−x)2

.

Выполняются условия теоремы 1, следовательно, семействоаприорных, сопряженных с L, существует.Определим psaz(θ) = const, тогда

psaz(θ|X1, . . . ,Xn) = psaz(θ)L(X1, . . . ,Xn|θ) ∝ e− n

2σ20

(x−θ)2

.



Таким образом, семейство

p(θ;D) =1√

2πσ0

e− (θ−θ0)2

2∆20

является сопряженным с L(x1, . . . , xn|θ) ∝ e− n

2σ20

(x−θ)2

.Обозначим d1 = θ0, d2 = ∆2

0

p(θ|x1, . . . , xn) ∝ e− (θ−d1)2

2d2 · e− n

2σ20

(x−θ)2

∝ e− (θ−d1)2

2d2 (11)

где

d1(x1, . . . , xn) =

1σ2

0/nx + 1

∆20θ0

1σ2

0/n+ 1

∆20

, (12)

d2(x1, . . . , xn) =

(1

σ20/n

+1

∆20

)−1

, (13)



Пример 2

Пусть ξ ∈ B(M, θ) биномиально распределенная случайная величина

f (x |θ) = P{ξ = x |θ} = C xMθ

x(1− θ)M−x , x = 0, 1, . . . ,M.

L(X1, . . . ,Xn|θ) =n∏

i=1

C xiMθ

xi (1− θ)M−xi = θ∑n

i=1 xi (1− θ)nM−∑n

i=1 xi

n∏i=1

C xiM .

В данном случае T (X1, . . . ,Xn) =n∑

i=1

xi и семейство априорных

сопряженных распределений существует.Определим psaz(θ) = 1 для θ ∈ (0; 1), тогда

psaz(θ|X1, . . . ,Xn) ∝ θ∑n

i=1 xi (1− θ)nM−∑n

i=1 xi (14)

С точностью до нормирующего множителя, не зависящего от θ,правая часть (14) представляет собой плотность бета-распределения.Буре В.М., Грауэр Л.В. (ШАД) Байесовский подход Санкт-Петербург, 2013 19 / 36


Таким образом, семейство

p(θ;D) ∝ θa−1(1− θ)b−1

является сопряженным с L(x1, . . . , xn|θ) ∝ θ∑n

i=1 xi (1− θ)nM−∑n

i=1 xi

Формула (3) дает

p(θ|x1, . . . , xn) ∝ θa−1(1− θ)b−1 · θ∑n

i=1 xi (1− θ)nM−∑n

i=1 xi =

= θa+∑n

i=1 xi−1(1− θ)b+nM−∑n

i=1 xi−1. (15)

Правая часть (15) определяет с точностью до нормирующегомножителя бета-распределение с параметрами

a = a +n∑

i=1

xi , (16)

b = b + nM −n∑

i=1

xi . (17)


Байесовский прогноз зависимой переменной

Байесовский прогноз зависимой переменной,основанный на нормальной линейной моделимножественной регрессии

Рассмотрим множественную линейную регрессионную модель

Y = Xβ + ε, (18)

где Y = (y1, . . . , yn)T , β = (β0, β1, . . . , βk)T , ε = (ε1, . . . , εn)T ,

X =

1 x11 x12 . . . x1k

1 x21 x22 . . . x2k

. . . . . . . . . . . .1 xn1 xn2 . . . xnk

— матрица порядка n × (k + 1).Случайный вектор εT ∼ N(0, h−1En)



Введем прогнозные (на q тактов времени вперед) значения X и Y

X =

1 x(n+1)1 x(n+1)2 . . . x(n+1)k

1 x(n+2)1 x(n+2)2 . . . x(n+2)k

. . . . . . . . . . . .1 x(n+q)1 x(n+q)2 . . . x(n+q)k

Y = (yn+1, . . . , yn+q)T , а также остатки ε = (εn+1, . . . , εn+q)T . Тогда сучетом исходной модели (18)

Y = Xβ + ε, εq ∼ N(0, h−1Eq) (19)



Для построения точечных и интервальных оценок для Y по заданнымзначениям X , X , Y необходимо располагать прогнозной функциейплотности вероятности p(Y |X , X ,Y ):

p(Y |X , X ,Y ) =

∫β

∫hp(Y , β, h|X , X ,Y )dβdh =

=

∫β

∫hp(Y |β, h,X , X ,Y )p(β, h|X , X ,Y )dβdh (20)

С учетом того, что

p(Y |β, h,X , X ,Y ) = p(Y |β, h, X ) ∝ hq2 e−

h2

(Y−Xβ)T (Y−Xβ) (21)

p(β, h|X , X ,Y ) = p(β, h|X ,Y ) —гамма-нормальное распределение спараметрами β0, Λ0, a и b, определяемыми по параметрам β0, Λ0, a иb априорного гамма-нормального распределения p(β, h) по формулам

θ0 = (Λ0 + XTX )−1(Λ0θ0 + XTY ); Λ0 = Λ0 + XTX

a = a + n/2; b = b + 0.5[(Y − X θ0)TY + (θ0 − θ0)TΛ0θ0]



интегригруя (20), получаем

p(Y |X , X ,Y ) ∝[

1 +1

v(Y − X β0)TB(Y − X β0)

]− v+q2

, (22)

где v = n − k − 1 и B =a

b

[Eq − X (Λ0 + XTX + XT X )−1XT

].

Таким образом условное распределение Y при заданных значенияхX , X , Y описывается обобщенным многомерным t-распределением сn − k − 1 степенями свободы, параметром сдвига X β0 и матрицейточности B .



Точный байесовский прогноз для компонент вектора Y

yn+m = (βB)TXn+m, m = 1, . . . , q. (23)

Интервальный байесовский прогноз для компонент вектора Y сдоверительной вероятностью γ, m = 1, . . . , q,

yn+m ∈(yn+m − t γ

2(n − k − 1)

1√cm

; yn+m + t γ2

(n − k − 1)1√cm

).

(24)


Проверка статистических гипотез


Пусть (x1, . . . , xn) — выборка из генеральной совокупности ξ с закономраспределения f (x , θ) известным с точностью до неизвестногопараметра θ.

(x1, . . . , xn)|θ ∼ L(x1, . . . , xn|θ)

Проверим нулевую гипотезу H0 о принадлежности неизвестногопараметра θ некоторому множеству Θ0 против альтернативнойгипотезы H1 о принадлежности параметра θ множеству Θ1, где

Θ0 ∩Θ1 = � Θ0 ∪Θ1 = Θ.

Предположим, что имеется априорная информация о распределениивероятности параметра θ

π0 = Pr{θ ∈ Θ0}, π1 = Pr{θ ∈ Θ1} (25)

Пусть Pr(H0), Pr(H1) — априорные вероятности справедливостигипотез H0 и H1,соотвественно.Буре В.М., Грауэр Л.В. (ШАД) Байесовский подход Санкт-Петербург, 2013 28 / 36


Пустьp0 = Pr{θ ∈ Θ0|X[n]}, p1 = Pr{θ ∈ Θ1|X[n]} (26)

— апостериорные вероятности по данным наблюдений (x1, . . . , xn)того, что параметр θ принадлежит множествам, соотвествующимнулевой гипотезе: p0, и альтернативной: p1.Априорные шансы H0 против H1 — π0/π1, апостериорные — p0/p1.

Байесовским фактором B01 гипотезы H0 против гипотезы H1

называется отношение апостериорных шансов к априорным шансам

B01 =p0/p1

π0/π1=

p0π1

p1π0. (27)

Так как π1 = 1− π0 и p1 = 1− p0, имеем

B01 =p0(1− π0)

(1− p0)π0. (28)

B10 =1

B01. (29)



В случае двух простых гипотез

Θ0 = θ0, Θ1 = θ1

апостериорные вероятности

pi ∝ πip(x1, . . . , xn|θi ), i = 0, 1. (30)

Тогдаp0

p1=π0p(x1, . . . , xn|θ0)

π1p(x1, . . . , xn|θ1)(31)

и Байесовский фактор принимает вид

B01 =p(x1, . . . , xn|θ0)

p(x1, . . . , xn|θ1), (32)

что есть просто отношение правдоподобия.



Формулу для байесовского фактора можно переписать в виде

Pr(H0|x1, . . . , xn)

Pr(H1|x1, . . . , xn)=

Pr(H0)

Pr(H1)· B01,

откуда получаем соотношение

Pr(H0|x1, . . . , xn) =

[1 +

Pr(H1)

Pr(H0)

1

B01

]−1

. (35)

Выводы из апостериорных вероятностейНулевая гипотеза H0 принимается, если

Pr(H0|x1, . . . , xn) > Pr(H1|x1, . . . , xn).



Выводы из байесовского фактораДжефрис предложил следующую шкалу

B01 Сила доказательств[1, 3] не стоит отмечать(3, 10] существенная(10, 30] сильная(30, 100] очень сильная> 100 решающая



Решающее правило

Выбираем между a0: "принимаем H0"и a1: "принимаем H1"Рассмотрим 0-1 функцию потерь

L(θ, ai ) =

{0, если θ ∈ Θi

1, если θ ∈ Θj , j 6= i(36)

Оптимальное правило минимизирует ожидаемые апостериорныепотери

Eπ(θ|X[n])(L(θ, a1)) =

∫L(θ, a1)π(θ|X[n])dθ = Pr(H0|x1, . . . , xn), (37)

Eπ(θ|X[n])(L(θ, a0)) =

∫L(θ, a0)π(θ|X[n])dθ = Pr(H1|x1, . . . , xn). (38)



Тогда предпочитаем a0 � a1 тогда и только тогда, когда

Eπ(θ|X[n])(L(θ, a0)) < Eπ(θ|X[n])(L(θ, a1)),

что равносильно

Pr(H1|x1, . . . , xn) < Pr(H0|x1, . . . , xn),

т.е. выбираем наиболее вероятную гипотезу.

Рассмотрим 0− Ki функцию потерь

L(θ, ai ) =

{0, если θ ∈ Θi

Ki , если θ ∈ Θj , j 6= i(39)

Оптимальное решение есть a1 (отклоняем H0) тогда и только тогда,когда

Pr(H0|x1, . . . , xn)

Pr(H1|x1, . . . , xn)<

K0

K1



Литература

Chibara L., Hesterberg T.Mathematical statistics with resampling and R.Wiley

Айвазян С.А., Мхитарян В.С.Прикладная статистика. Основыэконометрики. Т.1, 2001

Айвазян С.А.Байесовский подход в эконометрическом анализе //Прикладная эконометрика, 2008, № 1(9), стр. 93–108

Боровков А.А.Математичсекая статистика. Оценка параметров.Проверка гипотез. М.:Наука, 1984

Jean-Michel Marin, Christian P. RobertBayesian Core: A PracticalApproach to Computational Bayesian Statistics. Springer, 2007


Математическая статистика, весна 2013: Байесовский...

Documents

Transcript of Математическая статистика, весна 2013: Байесовский...