7.4. 繰り返しゲーム（Repeated Game · 2017-04-29 · 1 2016年5月19、23日（5月17日）...

1

2016 年 5 月 19、23 日（5 月 17 日）

7.4. 繰り返しゲーム（Repeated Game）多段階ゲームの特殊ケース毎期「同じゲーム（ステージゲーム、Component Game）」が繰り返しT 回プレイ有限回（T ）vs 無限回（T ）

「History-Dependent Strategy（Stick-and-Carrot）」によって一回限りのゲームでは説明できない「暗黙の協調（Tacit Collusion）」が説明可能になる

特に、無限回繰り返しゲーム！

ただし、この講義では簡単な解説のみ（時間制約のため）

2

7.4.1. 有限回繰り返しゲーム例１：以下のステージゲームが２回繰り返される状況を考えよう

d e f a 5 5 -2 7 0 0 b 7 -2 4 4 0 0 c 0 0 0 0 1 1

ナッシュ均衡が複数存在： ( , )b e ( , )c f ( , )b e は( , )c f に対して「パレート優位（Pareto-Dominant）」であることを確認せよ

3

２回繰り返しゲームにおける部分ゲーム完全均衡はどれ？ History-Independence: 履歴に関係なく同じステージゲームのナッシュ均衡がプレイステージ１で必ず ( , )b e ステージ２で必ず ( , )b e ステージ１で必ず ( , )b e ステージ２で必ず ( , )c f ステージ１で必ず ( , )c f ステージ２で必ず ( , )b e ステージ１で必ず ( , )c f ステージ２で必ず ( , )c f 他にない？

4

History-Dependence: 履歴によって行動選択を変更以下の戦略プロファイルを考えよう：第 1 期にて ( , )a d プレイ第 2 期にて：第 1 期に ( , )a d → ( , )b e プレイ第 1 期に ( , )a d 以外 → ( , )c f プレイこの戦略プロファイルは部分ゲーム完全均衡になっている：Why?

5

・部分ゲーム（第 2 期）でナッシュ均衡（( , )b e あるいは( , )c f ）がプレイ（逐次合理性 OK）・第 1 期において、プレーヤー１が a を選択すれば、利得は 5 4 9 b を選択すれば、利得は 7 1 8 c を選択すれば、利得は 0 1 1 9 8 より、a を選択するインセンティブをもつ・プレーヤー２のインセンティブについても同様。 ∴ 部分ゲーム完全均衡 OK！

6

第 1 期の( , )a d （暗黙の協調プレイ）はステージゲームのナッシュ均衡ではないのに

なぜ均衡プレイになる？ ( , )a d から unilaterally に Deviate すると： Instantaneous Gain from Deviation： 7 5 2 次期プレイが変更され ( , )b e から ( , )c f へ： Future Loss from Deviation： 4 1 3

Instantaneous Gain 2 Future Loss 3 今日利益があっても明日報復を受けるのでa（d ）を選択

7

例２：有限回（T ）繰り返される状況を考えよう以下の戦略プロファイルは部分ゲーム完全均衡になる：・第 1 期にて ( , )a d プレイ・任意の期 {2, ..., 1}t T および任意の履歴 1 1

1( ( ))t th a において：

( , )a d がプレイされ続けてきた場合（ ( ) ( , )a a d for all {1, ..., 1}t ） → t 期にて ( , )a d プレイ: Cooperative Phase ( , )a d 以外が一度でもあった場合（ ( ) ( , )a a d for some {1, ..., 1}t ） → t期にて ( , )c f プレイ: Punishment Phase ・ T 期で任意の履歴 1 1

1( ( ))T Th a において：

( , )a d がプレイされ続けてきた場合（ ( ) ( , )a a d for all {1, ..., 1}T ） → T 期にて ( , )b e プレイ: Pareto-Dominant NE ( , )a d 以外が一度でもあった場合（ ( ) ( , )a a d for some {1, ..., 1}T ） → T 期にて( , )c f プレイ: Pareto-Dominated NE

8

この戦略プロファイルにしたがえば 1T 期まで ( , )a d がプレイされる問：この戦略プロファイルは部分ゲーム完全均衡であることを証明せよ

9

例３：囚人のジレンマが有限回（T ）繰り返される状況を考えよう

c d c 1 1 -1 2 d 2 -1 0 0

唯一の部分ゲーム完全均衡は

「( , )d d を履歴に関係なく繰り返しプレイする」であるつまり

有限回繰り返しても新しい均衡は生まれないなぜ？

・ T 期では履歴に関係なく必ずステージゲームのナッシュ均衡 ( , )d d プレイ・ 1T 期でも履歴に関係なく必ずステージゲームのナッシュ均衡 ( , )d d プレイ

∵ 履歴に関係なく T 期で ( , )d d がプレイされるから・以下同様、どの期 tでも履歴に関係なく ( , )d d プレイ

∵ 履歴に関係なく以降の期で ( , )d d がプレイされるから

10

定理：任意の有限回繰り返しゲームを考える。ステージゲームのナッシュ均衡が一意に存在

すると仮定する。この時、部分ゲーム完全均衡は一意に存在し、それはステージゲームのナ

ッシュ均衡の繰り返しプレイである。

有限回繰り返しゲームでは「暗黙の協調」を説明できるケースは限られている

（Component Game に複数の性質の異なるナッシュ均衡が存在する場合のみ OK）

無限回繰り返しではどうか？（こちらの方がずっと重要）

11

7.4.2. 無限回繰り返しゲーム（Infinitely Repeated game with Discounting）仮定： Discounted Sum（割引現在利得和）：割引ファクター (0,1) 毎ステージ {1, ..., }t T に利得 ( ( ))iw a t を獲得

1( ) ( (1)) ( (2)) ( ( ))ti i i iu h w a w a w a t

1

1( ( ))t

it

w a t

解釈： Random Termination:

各プレーヤーは「繰り返しゲームは必ず有限回で終了する」と予想している

しかし「何回目で終了するか知らない」：「有限回繰り返し」との違いの本質

12

毎期確率 1 で終了すると予想： t 期目で終了する確率は 1(1 )t 実現される利得は ( (1)) ( (2)) ( ( ))i i iw a w a w a t 完全履歴 h における期待利得は

( )iu h 1

1(1 ){ ( (1)) ( (2)) ( ( ))}t

i i it

w a w a w a t

2 1

1{ ( (1)) ( (2)) ( (3)) }{ (1 )}t

i i it

w a w a w a

2( (1)) ( (2)) ( (3))i i iw a w a w a となる（要確認！）

13

有限回？無限回？無限回繰り返しゲーム：プレーヤーは、「いずれは有限回で終了する」と予想する一方でどの期においても「（一定）確率で次期に継続される」と予想有限回繰り返しゲーム：「特定の T 期になれば次期には継続されない」と予想

あなたはどっち派？

14

代表的な戦略：トリガー（Trigger, Grim, Grim-Trigger）戦略 1期には c（協力）を選択任意の 2t 期にて：過去にずっと ( , )c c がプレイされれば c 選択一度でも ( , )c c 以外がプレイされれば d 選択

割引ファクターがある程度大きい場合トリガー戦略プロファイルは部分ゲーム完全均衡になる

∴ ずっと ( , )c c がプレイ

囚人のジレンマの長期的関係においては

トリガー戦略プロファイルによって「暗黙の協調（Tacit Collusion）」

を逐次合理的に維持できる

15

One-Stage Deviation Principle を使って証明：任意の期にて：過去に ( , )c c 以外の履歴がある場合：以降 ( , )d d の繰り返し（逐次合理性OK）過去の履歴が ( , )c c の繰り返しの場合：トリガー戦略にしたがえば

2 111

d を選択して以降トリガーにしたがう（( , )d d の繰り返し）ならば 2 0 2 割引ファクターが 1

2 ならば

1 2

1

よって部分ゲーム完全均衡！

16

Instantaneous Gain 2 1 1 Future Loss 01 1

d （非協力）を選択すれば、今期の利得は１高まるが、次期以降の協力関係が崩壊：

( , )c c の繰り返し（2

1

）から

( , )d d の繰り返し（20 0 0 ）にダウン

∴ 将来の協力関係の崩壊を恐れるので c を選択し続ける

Cf. 有限回繰り返しゲーム：「将来協力関係は必然的に崩壊する運命にある」

17

その他の代表的な戦略：しっぺ返し（Tit-For-Tat, TFT）戦略

前の期に相手が選択した行動と同じ行動を選択 0( )i h c １期目は c でスタート 1( ) ( 1)t

i jh a t 各期 2t では、 1t 期の相手の選択 ( 1)ja t を選択 ∴ TFT戦略プロファイルに従えば、協調関係( , )c c が繰り返される

一般に（Generous TFTに修正しない限り）TFTは部分ゲーム完全均衡にならない ……

18

7.4.3. 無限回繰り返しゲームの応用：カルテル問：クールノー複占が無限回繰り返される。以下のトリガー戦略プロファイルを考える。一期目、各企業

は 14 ずつ供給し、独占価格 1

2 が成立。以降、独占価格が成立し続けるかぎり、各企業は 14 ず

つ供給し続ける。しかし一度でも独占価格 12 が成立しなければ、以降 1

3 ずつ供給する。この戦略

プロファイルが部分ゲーム完全均衡になる割引ファクター (0,1) の範囲を求めよ。問：ベルトラン複占が無限回繰り返される。以下のトリガー戦略プロファイルを考える。一期目、各企業

は独占価格 12 を選択する。以降、両企業が独占価格を選択し続けるかぎり、各企業は独占価格 1

2 を

選択し続ける。一度でもどちらかが独占価格を選択しなければ、以降は価格 0 を選択する。この戦略プ

ロファイルが部分ゲーム完全均衡になる割引ファクター (0,1) の範囲を求めよ。

19

7.4.4. フォーク定理（Folk Theorem）割引ファクターが１に近い（ほとんど割り引かない）無限回繰り返しゲームにおいては

部分ゲーム完全均衡は無数に存在ししかもそれぞれことなる性格をもつ

囚人のジレンマ：赤枠内すべてOK

（いったいどれが実現？？）

1

2

-1

20

＊繰り返しゲームを考察する際の注意点

一般に、ゲームを繰り返すと相手の戦略を学習する可能性がある： Adaptive Learning （Bayesian Learning）講義で扱った繰り返しゲームには「学習」はない：逐次合理的ナッシュ均衡：「相手の戦略を正しく予想している」

ことを仮定履歴に応じて行動を変えるのは「学習」の結果ではないことに注意せよ！ History-Dependence：経験や慣習による行動選択パターンどのような経験？どのように慣習形成？：明示的に考察してないきちんとしたこといえない無限回繰り返しゲームの無限回繰り返し？

21

宿題 9 問１：7.4.1.の例 2 の問を解答せよ。問 2：7.4.3.の問ふたつを解答せよ。

7.4. 繰り返しゲーム（Repeated Game · 2017-04-29 · 1 2016年5月19、23日（5月17日）...

Documents

Transcript of 7.4. 繰り返しゲーム（Repeated Game · 2017-04-29 · 1 2016年5月19、23日（5月17日）...