MARIA OSにおける
ゲーム理論
複数エージェントが互いの利得を見ながら役割を選ぶとき、なぜ収束するのか。Nash均衡、利得行列、阻止連合、メカニズム設計を、責任ゲートとエスカレーション設計へ落とし込む。
エージェント組織は 結合した効用系 である
MARIA OS の問題は『誰が正しいか』ではなく、『それぞれが自分の効用を追っても組織全体が発散しないか』にある。各エージェントは他者の役割と制約を見ながら最善応答するため、システム全体はゲームとして扱う必要がある。
Planner
速度と探索を最大化
制約を薄く扱うと暴走しやすい
Architect
境界と再現性を最大化
硬すぎると throughput が落ちる
Operator
現場成果と回復可能性を最大化
局所成功が全体最適を壊す
各プレイヤーは役割 r_i を選び、現在の役割配置 ρ_t と統治密度 D_t のもとで効用を最大化する。
要点
ワークフローは順番を定義するだけだが、ゲーム理論は互いの最適化が衝突したとき何が起こるかを説明する。MARIA OS が必要なのは、協調を善意ではなく構造で保証するためである。
ガバナンスは 行動を説得する のではなく 利得地形を変える
MARIA OS の gate は後付けのチェックリストではない。危険な選択肢に penalty を与え、安全な協調を優位にするメカニズム設計である。下の利得行列は、その変化を最小の2人ゲームで示している。
統治前ゲーム
短期利得だけを見た基本ゲーム
速いが不安定。危険な均衡。
Architect は守れるが摩擦が大きい。
Planner は得をするが境界が壊れやすい。
安全だが短期利得で押し負けやすい。
各セルの値は (Planner, Architect) の利得対。重要なのは絶対値ではなく、ゲート設計により均衡セルがどう移動するかである。
統治後ゲーム
Gate penalty λ を加えた後のゲーム
高リスクで利得が削られる。
片側だけ守っても throughput は伸びない。
根拠を集めても緩い gate では制度化されない。
証拠優先の安定均衡。
各セルの値は (Planner, Architect) の利得対。重要なのは絶対値ではなく、ゲート設計により均衡セルがどう移動するかである。
ゲート penalty λ が短期逸脱利得 Δ_short-term を上回ると、根拠優先・厳格ゲートの組が Nash 均衡になる。
Nash (1950): 均衡の存在。
メカニズム設計: 望ましい均衡が出るよう利得を設計する。
MARIA OS: GateScore と escalation がその payoff surgery を担う。
この状態が こう変わる
重要なのは、エージェントの性格を説得することではない。ゲームの吸引点を差し替えることだ。MARIA OS は gate と escalation によって、危険な短期均衡を不利にし、証拠優先の均衡を優位にする。
変更前
短期利得が危険均衡を引き寄せる
最短で進むので両者とも一見得をするが、危険な候補がそのまま均衡になる。
Architect は守れるが、Planner 側に逸脱誘因が残る。
証拠を集めても gate が緩いと、制度上は危険な近道が残る。
安全だが、短期利得では押し切られやすい。
変更後
安全な均衡が吸引点になる
Gate penalty が危険利得を削り、もはや attractive でなくなる。
片側だけの防御では throughput と正当性を両立できない。
根拠優先でも gate が開いている限り、制度的安定は得られない。
証拠優先と厳格ゲートが、望ましい安定均衡に昇格する。
速さの局所利得が勝ち、危険な短期均衡が選ばれる。
GateScore と escalation により、証拠優先の安定均衡が選ばれる。
安定した役割分化は 固定点 として定義できる
Nash 均衡は『誰も単独で役割を変える誘因がない状態』である。MARIA OS ではこれを役割配置ベクトルの固定点として扱い、相互作用行列の強さに対してガバナンス密度を十分高く保つことで、均衡を循環ではなく収束へ変える。
各エージェントが他者の現在状態を見て、自分の最適役割を同時に選び直す写像。
相互作用の強さ λ_max が統治密度 D_t に抑えられると、循環ではなく安定分化に入る。
均衡とは停止した状態ではない。責任境界と報酬設計の下で、役割変更の必要がなくなった動的バランスである。
役割変更量が反復ごとに減れば、チームは均衡へ近づいている。増幅に転じたらガバナンスが不足している。
Best-response を計算
各エージェントは、他者の現在役割を固定した条件で最適役割を選ぶ。
固定点を探す
誰も片側変更で利得を増やせない配置 ρ* が Nash 均衡になる。
収束条件を課す
相互影響のスペクトル半径が統治密度より十分小さいとき、均衡は安定する。
良くない均衡なら ゲーム自体を変える
Nash 均衡は存在しても、それが企業理念や監査要件に適合するとは限らない。だから MARIA OS は、利得の上にゲート・エビデンス・エスカレーション規則をかぶせて、望ましくない均衡を実行不能にする。
同層交渉
局所衝突は同レベルのエージェント間で解く。解けなければ記録したまま上位へ送る。
Universe Gate
利得だけでなく責任境界と GateScore を加え、ゲームそのものの payoff を変える。
人間エスカレーション
均衡が存在しても組織目的に反するなら、人間がメカニズムを変更して再ゲーム化する。
Blocking coalition は『一部プレイヤーにとって有利だが、組織全体では危険』な連携である。MARIA OS は責任ゲートでこの coalition を検出し、個別利得より全体安全を優先する。
ゲーム理論は ランタイム構造 に落ちる
このページの価値は理論用語を増やすことではない。戦略空間・均衡・メカニズム設計を、候補生成・GateScore・責任エスカレーションという実装物へ落とし込めることにある。