アーキテクチャ

MARIA OSにおける
ゲーム理論

Name: MARIA OS
Author: MARIA OS

複数エージェントが互いの利得を見ながら役割を選ぶとき、なぜ収束するのか。Nash均衡、利得行列、阻止連合、メカニズム設計を、責任ゲートとエスカレーション設計へ落とし込む。

協調問題

エージェント組織は結合した効用系である

MARIA OS の問題は『誰が正しいか』ではなく、『それぞれが自分の効用を追っても組織全体が発散しないか』にある。各エージェントは他者の役割と制約を見ながら最善応答するため、システム全体はゲームとして扱う必要がある。

主要プレイヤー

Planner

速度と探索を最大化

制約を薄く扱うと暴走しやすい

Architect

境界と再現性を最大化

硬すぎると throughput が落ちる

Operator

現場成果と回復可能性を最大化

局所成功が全体最適を壊す

局所効用

U_i(r_i | ρ_t, D_t) = fit_i + reward_i - conflict_i - gatePenalty_i

各プレイヤーは役割 r_i を選び、現在の役割配置 ρ_t と統治密度 D_t のもとで効用を最大化する。

ゲームが生まれる軸

速度 vs 品質

局所利得 vs 全体安全

探索 vs 説明責任

要点

ワークフローは順番を定義するだけだが、ゲーム理論は互いの最適化が衝突したとき何が起こるかを説明する。MARIA OS が必要なのは、協調を善意ではなく構造で保証するためである。

利得行列

ガバナンスは行動を説得するのではなく利得地形を変える

MARIA OS の gate は後付けのチェックリストではない。危険な選択肢に penalty を与え、安全な協調を優位にするメカニズム設計である。下の利得行列は、その変化を最小の2人ゲームで示している。

統治前ゲーム

短期利得だけを見た基本ゲーム

Architect: 緩く通す

Architect: 厳しく止める

Planner: 速く進める

(4,4)

速いが不安定。危険な均衡。

(2,5)

Architect は守れるが摩擦が大きい。

Planner: 根拠を集める

(5,2)

Planner は得をするが境界が壊れやすい。

(3,3)

安全だが短期利得で押し負けやすい。

各セルの値は (Planner, Architect) の利得対。重要なのは絶対値ではなく、ゲート設計により均衡セルがどう移動するかである。

統治後ゲーム

Gate penalty λ を加えた後のゲーム

Architect: 緩く通す

Architect: 厳しく止める

Planner: 速く進める

(1,1)

高リスクで利得が削られる。

(1,4)

片側だけ守っても throughput は伸びない。

Planner: 根拠を集める

(4,1)

根拠を集めても緩い gate では制度化されない。

(5,5)

証拠優先の安定均衡。

各セルの値は (Planner, Architect) の利得対。重要なのは絶対値ではなく、ゲート設計により均衡セルがどう移動するかである。

命題

λ > Δ_short-term ⇒ (Evidence, Tight Gate) ∈ NE

ゲート penalty λ が短期逸脱利得 Δ_short-term を上回ると、根拠優先・厳格ゲートの組が Nash 均衡になる。

学術的な読み替え

Nash (1950): 均衡の存在。

メカニズム設計: 望ましい均衡が出るよう利得を設計する。

MARIA OS: GateScore と escalation がその payoff surgery を担う。

均衡シフト

この状態がこう変わる

重要なのは、エージェントの性格を説得することではない。ゲームの吸引点を差し替えることだ。MARIA OS は gate と escalation によって、危険な短期均衡を不利にし、証拠優先の均衡を優位にする。

変更前

短期利得が危険均衡を引き寄せる

Rush x Open Gate(4,4)

最短で進むので両者とも一見得をするが、危険な候補がそのまま均衡になる。

選好される均衡

Rush x Tight Gate(2,5)

Architect は守れるが、Planner 側に逸脱誘因が残る。

Evidence x Open Gate(5,2)

証拠を集めても gate が緩いと、制度上は危険な近道が残る。

Evidence x Tight Gate(3,3)

安全だが、短期利得では押し切られやすい。

ゲート再設計

変更後

安全な均衡が吸引点になる

Rush x Open Gate(1,1)

Gate penalty が危険利得を削り、もはや attractive でなくなる。

Rush x Tight Gate(1,4)

片側だけの防御では throughput と正当性を両立できない。

Evidence x Open Gate(4,1)

根拠優先でも gate が開いている限り、制度的安定は得られない。

Evidence x Tight Gate(5,5)

証拠優先と厳格ゲートが、望ましい安定均衡に昇格する。

選好される均衡

変更前の吸引点

Rush x Open Gate

速さの局所利得が勝ち、危険な短期均衡が選ばれる。

均衡を動かす演算子

GateScore penalty λ

Evidence requirement

Escalation credit

均衡は右下へ移る

変更後の吸引点

Evidence x Tight Gate

GateScore と escalation により、証拠優先の安定均衡が選ばれる。

NASH 均衡

安定した役割分化は固定点として定義できる

Nash 均衡は『誰も単独で役割を変える誘因がない状態』である。MARIA OS ではこれを役割配置ベクトルの固定点として扱い、相互作用行列の強さに対してガバナンス密度を十分高く保つことで、均衡を循環ではなく収束へ変える。

最善応答写像

BR(ρ_t) = (argmax_r U_1, ..., argmax_r U_N)

各エージェントが他者の現在状態を見て、自分の最適役割を同時に選び直す写像。

安定条件

λ_max(A_t) < 1 - D_t

相互作用の強さ λ_max が統治密度 D_t に抑えられると、循環ではなく安定分化に入る。

ρ* = BR(ρ*)

均衡とは停止した状態ではない。責任境界と報酬設計の下で、役割変更の必要がなくなった動的バランスである。

収束の読み方

88%

66%

49%

35%

24%

役割変更量が反復ごとに減れば、チームは均衡へ近づいている。増幅に転じたらガバナンスが不足している。

Best-response を計算

各エージェントは、他者の現在役割を固定した条件で最適役割を選ぶ。

固定点を探す

誰も片側変更で利得を増やせない配置 ρ* が Nash 均衡になる。

収束条件を課す

相互影響のスペクトル半径が統治密度より十分小さいとき、均衡は安定する。

連立・エスカレーション

良くない均衡ならゲーム自体を変える

Nash 均衡は存在しても、それが企業理念や監査要件に適合するとは限らない。だから MARIA OS は、利得の上にゲート・エビデンス・エスカレーション規則をかぶせて、望ましくない均衡を実行不能にする。

同層交渉

局所衝突は同レベルのエージェント間で解く。解けなければ記録したまま上位へ送る。

Universe Gate

利得だけでなく責任境界と GateScore を加え、ゲームそのものの payoff を変える。

人間エスカレーション

均衡が存在しても組織目的に反するなら、人間がメカニズムを変更して再ゲーム化する。

阻止連合

Blocking coalition は『一部プレイヤーにとって有利だが、組織全体では危険』な連携である。MARIA OS は責任ゲートでこの coalition を検出し、個別利得より全体安全を優先する。

payoff'_i = payoff_i - gatePenalty_i + escalationCredit_i

MARIA のエスカレーション則

Conflict を残したまま上位へ送る。丸めて解決したことにしない。

責任が交差した時点で同層交渉を終了し、Universe Gate に引き渡す。

人間は『回答者』ではなくメカニズム設計者として入る。

MARIA OS 実装

ゲーム理論はランタイム構造に落ちる

このページの価値は理論用語を増やすことではない。戦略空間・均衡・メカニズム設計を、候補生成・GateScore・責任エスカレーションという実装物へ落とし込めることにある。

ゲーム概念

MARIA 対応物

意味

戦略空間

候補集合 C_t / 役割集合 r_i

何を選べるかを決定グラフが限定する

最善応答

Planner / Architect の再割当ロジック

他者の状態と Gate 条件を見て役割を更新する

Nash均衡

安定した role assignment ρ*

単独逸脱で利得が増えない配置だけが残る

メカニズム設計

Gate penalties / approval rules / escalation budgets

望ましい均衡が出るよう payoff を設計し直す

阻止連合

Conflict cards + responsibility escalation

一部最適の連合を監査可能な形で止める

戦略空間

候補集合 C_t / 役割集合 r_i

何を選べるかを決定グラフが限定する

最善応答

Planner / Architect の再割当ロジック

他者の状態と Gate 条件を見て役割を更新する

Nash均衡

安定した role assignment ρ*

単独逸脱で利得が増えない配置だけが残る

メカニズム設計

Gate penalties / approval rules / escalation budgets

望ましい均衡が出るよう payoff を設計し直す

阻止連合

Conflict cards + responsibility escalation

一部最適の連合を監査可能な形で止める

MARIA OSにおけるゲーム理論

エージェント組織は 結合した効用系 である

Planner

Architect

Operator

ガバナンスは 行動を説得する のではなく 利得地形を変える

統治前ゲーム

統治後ゲーム

この状態が こう変わる

変更前

変更後

安定した役割分化は 固定点 として定義できる

Best-response を計算

固定点を探す

収束条件を課す

良くない均衡なら ゲーム自体を変える

同層交渉

Universe Gate

人間エスカレーション

ゲーム理論は ランタイム構造 に落ちる

MARIA OSにおける
ゲーム理論

エージェント組織は結合した効用系である

ガバナンスは行動を説得するのではなく利得地形を変える

この状態がこう変わる

安定した役割分化は固定点として定義できる

良くない均衡ならゲーム自体を変える

ゲーム理論はランタイム構造に落ちる