観測エラー付き繰り返し囚人のジレンマゲームにおける利得の線形関係を強いる戦略の数理解析

Strategies that enforce linear payoff relationships under observation errors in Repeated Prisoner’s Dilemma game

間宮 安曇
静岡大学 大学院総合科学技術研究科 工学専攻 数理システム工学コース

本稿の内容は,2019年9月,Journal of Theoretical Biology(理論生物学系の雑誌)で掲載されたものです.以下の文章は査読前の研究ノートや卒論の内容をほぼそのまま載せているだけなので,誤りを含む場合があります.ご容赦ください.詳しい内容や正確な内容は,https://doi.org/10.1016/j.jtbi.2019.06.009をご覧ください.

序論

背景

繰り返しゲームは,相互作用する個体間の長期的関係を探求するための代表的なモデルとして用いられる.繰り返しゲームを研究することによって,利己的個体間でどのように協力や競争が起きるのかを明らかにすることができる.また繰り返しゲームは,経済学,政治学,進化ダイナミクス,マルチエージェントシステムなどを分析するための基本的枠組みも提供できる. これまでの繰り返し囚人のジレンマゲームの文脈において,2人のプレイヤーの間で,一方のプレイヤーが不当にもう一方のプレイヤーの利得をコントロールしたり,相手よりも常に大きい利得を得るような究極的な戦略はないと思われてきた.しかし,2012年にPressとDysonは,そのような究極的戦略を部分集合として含むゼロ行列式戦略(Zero-determinant strategies)と呼ばれる戦略を発見した.ゼロ行列式戦略とは繰り返し囚人のジレンマゲームにおいて,相手の戦略に関わらず,一方的に自分と相手の利得を直線関係にさせることができる戦略である(ゼロ行列式戦略という名前は,後述するように式\eqref{D_liner_err}の右辺分子の行列式を0にすることに由来する).さらに,その戦略の一部は相手の利得を一方的に設定したり,相手の戦略に関わらず,相手よりも常に多くの利得を得るようにできる.このゼロ行列式戦略の発見によって,あらゆる社会で必要となる協力行動が促進,維持される仕組みについて,さらなる理解が深まった,

研究目的

2012年のゼロ行列式戦略の発見以来,その後の研究によって,戦略の性質について多くの事実が明らかとなってきた(, , , , , , , , , , , , , , )が,それらの従来の研究では,他のプレイヤーの行動が完全に観測できるという完全観測(perfect monitoring)の仮定が用いられてきた.しかし現実社会では,他のプレイヤーの行動が完全に観測できない場合(不完全観測:imperfect monitoring)があり,このような状況において相手行動を誤認識してしまうエラー(観測エラー:observation error)を考えることは重要である. Haoらの研究によって,ゼロ行列式戦略に対する観測エラーの影響が明らかとなってきた.彼らは,観測エラー付き繰り返し囚人のジレンマゲームでも,ゼロ行列式戦略が存在することを示した.また,ゼロ行列式戦略の部分戦略であるEqualizer戦略(この戦略と同等の戦略はEqual playとしてPressとDysonの発見よりも先に見つかっているは,観測エラーありでも存在するが,相手の利得のコントロール能力は,エラー率が上がると下がることを明らかにした.さらには,観測エラーが存在する状況では,相手の利得よりも自分の利得が確実に上回るExtortioner戦略(dominant extortion)は存在せず,それより条件が緩いcontingent extortionのみ存在することが分かった.しかし,観測エラーに対する自分と相手の利得を直線関係にする戦略(ゼロ行列式戦略を含む)の一般的性質についてはあまり知られていない.一方で,ゼロ行列式戦略とは別に無条件戦略(unconditional strategy)も自分と相手の利得が線形になることが知られている, .そこで,本研究では,繰り返し囚人のジレンマゲームにおける利得の線形関係を強いる戦略に観測エラーがどのような影響を与えるかを解析によって明らかにする.

観測エラー付き囚人のジレンマゲーム

繰り返し囚人のジレンマゲーム

繰り返し囚人のジレンマゲームの囚人のジレンマとは,個人が合理的な行動をしても,全体としては非合理的な結果となるゲームである.このような囚人のジレンマが生じる状況は,現実社会では多く見られる.たとえば,価格競争,軍備拡張競争,環境問題などが囚人のジレンマの例となる.囚人のジレンマゲームを価格競争を例に説明する.同じ商品を売る店A,Bがあり,それぞれの店は利益を得るために商品の値段を下げるか否かの選択肢があるとする.このとき,各店がすべき合理的な選択は値下げをするという選択である.なぜなら,相手の店が値下げをするか否かに関係なく,自分の店が値下げする方がしないよりも利益を得られるためである().相手が値下げしない場合,自分が値下げをしなければ,少しの儲けしか得られないが,値下げをすると大儲けすることができる.また,相手が値下げした場合,自分が値下げをしなければ大損になるが,値下げをすれば,少しの損で済むことになる.したがって,各店は値下げをし合い各店ともに少しの損をする結果になってしまう.しかし,全体としては,各店が値下げをし合わない方がより多くの利益を得ることができるので,各店の値下げは結果的に非合理的な結果になってしまう.このように,個人にとって合理的な選択をしても,全体としては非合理的な結果になってしまうということが囚人のジレンマである.
 
価格競争の利得表
価格維持 値下げ
価格維持 A,B共に少しの儲け Bだけ大儲け,Aは大損
値下げ Bだけ大儲け,Aは大損 A,B共に少しの損
囚人のジレンマゲームを1回だけではなく,何度も繰り返したものを繰り返し囚人のジレンマゲームという.ゲームを繰り返し行うことによって,同じ場面に何度も直面するプレイヤー間の長期的な関係を分析する.ゲーム1回だと,両者が裏切り合う結果になってしまうが,ゲームを繰り返した場合,裏切り合うという結果以外に協力し合うという可能性が出てくる.これは,両者が裏切り合ってお互いが消耗し合うよりも,協力し合って利益を確保しようとする考えが生まれるためである.現実社会でも親子関係,友人関係,会社の人間関係など同じ人同士の継続的関係の多くでは,相互協力が成立する.

繰り返し囚人のジレンマゲームでの代表的な戦略

繰り返し囚人のジレンマゲームでは以下の戦略がよく知られている.ここで考えるプレイヤーの戦略は,記憶1戦略であるとする.記憶1戦略とは,前回のゲームの結果のみを見て今回のゲームでの行動を確率的に決める戦略である.したがって,記憶1戦略は,${\bm p}=(p_{\rm 1},p_{\rm 2},p_{\rm 3},p_{\rm 4})$で定義される.$p_{\rm 1}$は,前回のゲームで自分が協力(C),相手が協力(C)であったとき,今回のゲームで自分が協力する確率である.$p_{\rm 2}$は,前回のゲームで自分が協力(C),相手が裏切り(D)であったとき,今回のゲームで自分が協力する確率である.$p_{\rm 3}$は,前回のゲームで自分が裏切り(D),相手が協力(C)であったとき,今回のゲームで自分が協力する確率である.$p_{\rm 4}$は,前回のゲームで自分が裏切り(D),相手が裏切り(D)であったとき,今回のゲームで自分が協力する確率である.