7.4. 繰り返しゲーム(Repeated Game · 2017-04-29 · 1 2016年5月19、23日(5月17日)...
Transcript of 7.4. 繰り返しゲーム(Repeated Game · 2017-04-29 · 1 2016年5月19、23日(5月17日)...
1
2016 年 5 月 19、23 日(5 月 17 日)
7.4. 繰り返しゲーム(Repeated Game) 多段階ゲームの特殊ケース 毎期「同じゲーム(ステージゲーム、Component Game)」が繰り返しT 回プレイ 有限回(T )vs 無限回(T )
「History-Dependent Strategy(Stick-and-Carrot)」によって 一回限りのゲームでは説明できない「暗黙の協調(Tacit Collusion)」が説明可能になる
特に、無限回繰り返しゲーム!
ただし、この講義では簡単な解説のみ(時間制約のため)
2
7.4.1. 有限回繰り返しゲーム 例1: 以下のステージゲームが2回繰り返される状況を考えよう
d e f a 5 5 -2 7 0 0 b 7 -2 4 4 0 0 c 0 0 0 0 1 1
ナッシュ均衡が複数存在: ( , )b e ( , )c f ( , )b e は( , )c f に対して「パレート優位(Pareto-Dominant)」であることを確認せよ
3
2回繰り返しゲームにおける部分ゲーム完全均衡はどれ? History-Independence: 履歴に関係なく同じステージゲームのナッシュ均衡がプレイ ステージ1で必ず ( , )b e ステージ2で必ず ( , )b e ステージ1で必ず ( , )b e ステージ2で必ず ( , )c f ステージ1で必ず ( , )c f ステージ2で必ず ( , )b e ステージ1で必ず ( , )c f ステージ2で必ず ( , )c f 他にない?
4
History-Dependence: 履歴によって行動選択を変更 以下の戦略プロファイルを考えよう: 第 1 期にて ( , )a d プレイ 第 2 期にて: 第 1 期に ( , )a d → ( , )b e プレイ 第 1 期に ( , )a d 以外 → ( , )c f プレイ この戦略プロファイルは部分ゲーム完全均衡になっている:Why?
5
・部分ゲーム(第 2 期)でナッシュ均衡(( , )b e あるいは( , )c f )がプレイ(逐次合理性 OK) ・ 第 1 期において、プレーヤー1が a を選択すれば、利得は 5 4 9 b を選択すれば、利得は 7 1 8 c を選択すれば、利得は 0 1 1 9 8 より、a を選択するインセンティブをもつ ・ プレーヤー2のインセンティブについても同様。 ∴ 部分ゲーム完全均衡 OK!
6
第 1 期の( , )a d (暗黙の協調プレイ)は ステージゲームのナッシュ均衡ではないのに
なぜ均衡プレイになる? ( , )a d から unilaterally に Deviate すると: Instantaneous Gain from Deviation: 7 5 2 次期プレイが変更され ( , )b e から ( , )c f へ: Future Loss from Deviation: 4 1 3
Instantaneous Gain 2 Future Loss 3 今日利益があっても明日報復を受けるのでa(d )を選択
7
例2: 有限回(T )繰り返される状況を考えよう 以下の戦略プロファイルは部分ゲーム完全均衡になる: ・ 第 1 期にて ( , )a d プレイ ・ 任意の期 {2, ..., 1}t T および任意の履歴 1 1
1( ( ))t th a において:
( , )a d がプレイされ続けてきた場合( ( ) ( , )a a d for all {1, ..., 1}t ) → t 期にて ( , )a d プレイ: Cooperative Phase ( , )a d 以外が一度でもあった場合( ( ) ( , )a a d for some {1, ..., 1}t ) → t期にて ( , )c f プレイ: Punishment Phase ・ T 期で任意の履歴 1 1
1( ( ))T Th a において:
( , )a d がプレイされ続けてきた場合( ( ) ( , )a a d for all {1, ..., 1}T ) → T 期にて ( , )b e プレイ: Pareto-Dominant NE ( , )a d 以外が一度でもあった場合( ( ) ( , )a a d for some {1, ..., 1}T ) → T 期にて( , )c f プレイ: Pareto-Dominated NE
8
この戦略プロファイルにしたがえば 1T 期まで ( , )a d がプレイされる 問:この戦略プロファイルは部分ゲーム完全均衡であることを証明せよ
9
例3:囚人のジレンマが有限回(T )繰り返される状況を考えよう
c d c 1 1 -1 2 d 2 -1 0 0
唯一の部分ゲーム完全均衡は
「( , )d d を履歴に関係なく繰り返しプレイする」である つまり
有限回繰り返しても新しい均衡は生まれない なぜ?
・ T 期では履歴に関係なく必ずステージゲームのナッシュ均衡 ( , )d d プレイ ・ 1T 期でも履歴に関係なく必ずステージゲームのナッシュ均衡 ( , )d d プレイ
∵ 履歴に関係なく T 期で ( , )d d がプレイされるから ・ 以下同様、どの期 tでも履歴に関係なく ( , )d d プレイ
∵ 履歴に関係なく以降の期で ( , )d d がプレイされるから
10
定理:任意の有限回繰り返しゲームを考える。ステージゲームのナッシュ均衡が一意に存在
すると仮定する。この時、部分ゲーム完全均衡は一意に存在し、それはステージゲームのナ
ッシュ均衡の繰り返しプレイである。
有限回繰り返しゲームでは 「暗黙の協調」を説明できるケースは限られている
(Component Game に複数の性質の異なるナッシュ均衡が存在する場合のみ OK)
無限回繰り返しではどうか? (こちらの方がずっと重要)
11
7.4.2. 無限回繰り返しゲーム(Infinitely Repeated game with Discounting) 仮定: Discounted Sum(割引現在利得和):割引ファクター (0,1) 毎ステージ {1, ..., }t T に利得 ( ( ))iw a t を獲得
1( ) ( (1)) ( (2)) ( ( ))ti i i iu h w a w a w a t
1
1( ( ))t
it
w a t
解釈: Random Termination:
各プレーヤーは「繰り返しゲームは必ず有限回で終了する」と予想している
しかし「何回目で終了するか知らない」:「有限回繰り返し」との違いの本質
12
毎期確率 1 で終了すると予想: t 期目で終了する確率は 1(1 )t 実現される利得は ( (1)) ( (2)) ( ( ))i i iw a w a w a t 完全履歴 h における期待利得は
( )iu h 1
1(1 ){ ( (1)) ( (2)) ( ( ))}t
i i it
w a w a w a t
2 1
1{ ( (1)) ( (2)) ( (3)) }{ (1 )}t
i i it
w a w a w a
2( (1)) ( (2)) ( (3))i i iw a w a w a となる(要確認!)
13
有限回?無限回? 無限回繰り返しゲーム: プレーヤーは、「いずれは有限回で終了する」と予想する一方で どの期においても「(一定)確率 で次期に継続される」と予想 有限回繰り返しゲーム: 「特定の T 期になれば次期には継続されない」と予想
あなたはどっち派?
14
代表的な戦略:トリガー(Trigger, Grim, Grim-Trigger)戦略 1期には c(協力)を選択 任意の 2t 期にて: 過去にずっと ( , )c c がプレイされれば c 選択 一度でも ( , )c c 以外がプレイされれば d 選択
割引ファクターがある程度大きい場合 トリガー戦略プロファイルは部分ゲーム完全均衡になる
∴ ずっと ( , )c c がプレイ
囚人のジレンマの長期的関係においては
トリガー戦略プロファイルによって 「暗黙の協調(Tacit Collusion)」
を逐次合理的に維持できる
15
One-Stage Deviation Principle を使って証明: 任意の期にて: 過去に ( , )c c 以外の履歴がある場合: 以降 ( , )d d の繰り返し(逐次合理性OK) 過去の履歴が ( , )c c の繰り返しの場合: トリガー戦略にしたがえば
2 111
d を選択して以降トリガーにしたがう(( , )d d の繰り返し)ならば 2 0 2 割引ファクターが 1
2 ならば
1 2
1
よって部分ゲーム完全均衡!
16
Instantaneous Gain 2 1 1 Future Loss 01 1
d (非協力)を選択すれば、 今期の利得は1高まるが、次期以降の協力関係が崩壊:
( , )c c の繰り返し(2
1
)から
( , )d d の繰り返し(20 0 0 )にダウン
∴ 将来の協力関係の崩壊を恐れるので c を選択し続ける
Cf. 有限回繰り返しゲーム:「将来協力関係は必然的に崩壊する運命にある」
17
その他の代表的な戦略:しっぺ返し(Tit-For-Tat, TFT)戦略
前の期に相手が選択した行動と同じ行動を選択 0( )i h c 1期目は c でスタート 1( ) ( 1)t
i jh a t 各期 2t では、 1t 期の相手の選択 ( 1)ja t を選択 ∴ TFT戦略プロファイルに従えば、協調関係( , )c c が繰り返される
一般に(Generous TFTに修正しない限り)TFTは部分ゲーム完全均衡にならない ……
18
7.4.3. 無限回繰り返しゲームの応用:カルテル 問:クールノー複占が無限回繰り返される。以下のトリガー戦略プロファイルを考える。一期目、各企業
は 14 ずつ供給し、独占価格 1
2 が成立。以降、独占価格が成立し続けるかぎり、各企業は 14 ず
つ供給し続ける。しかし一度でも独占価格 12 が成立しなければ、以降 1
3 ずつ供給する。この戦略
プロファイルが部分ゲーム完全均衡になる割引ファクター (0,1) の範囲を求めよ。 問:ベルトラン複占が無限回繰り返される。以下のトリガー戦略プロファイルを考える。一期目、各企業
は独占価格 12 を選択する。以降、両企業が独占価格を選択し続けるかぎり、各企業は独占価格 1
2 を
選択し続ける。一度でもどちらかが独占価格を選択しなければ、以降は価格 0 を選択する。この戦略プ
ロファイルが部分ゲーム完全均衡になる割引ファクター (0,1) の範囲を求めよ。
19
7.4.4. フォーク定理(Folk Theorem) 割引ファクターが1に近い(ほとんど割り引かない)無限回繰り返しゲームにおいては
部分ゲーム完全均衡は無数に存在し しかもそれぞれことなる性格をもつ
囚人のジレンマ:赤枠内すべてOK
(いったいどれが実現??)
1
2
-1
20
*繰り返しゲームを考察する際の注意点
一般に、ゲームを繰り返すと相手の戦略を学習する可能性がある: Adaptive Learning (Bayesian Learning) 講義で扱った繰り返しゲームには「学習」はない: 逐次合理的ナッシュ均衡: 「相手の戦略を正しく予想している」
ことを仮定 履歴に応じて行動を変えるのは「学習」の結果ではないことに注意せよ! History-Dependence: 経験や慣習による行動選択パターン どのような経験?どのように慣習形成?: 明示的に考察してない きちんとしたこといえない 無限回繰り返しゲームの無限回繰り返し?
21
宿題 9 問1:7.4.1.の例 2 の問を解答せよ。 問 2:7.4.3.の問ふたつを解答せよ。