Name: MARIA OS
Author: MARIA OS

要旨

自律型 AI エージェントを組織環境に迅速に展開することで、従来のパフォーマンスの最適化を超えた根本的なガバナンス上の課題が生じています。現代の AI システムは、タスク固有の指標を最大化することに優れていますが、人間と AI のコラボレーションが長期にわたって安定、公平、有益であり続けるかどうかを決定する、より広範な社会技術力学を考慮していません。 AI タスクのパフォーマンスを無制限に追求すると、スキル解除を通じて人間の能力が損なわれ、予測不可能な行動によって信頼が不安定になり、組織の回復力を脅かす形でリスクが集中する可能性があります。これらの障害モードは特別なケースではありません。これらは、複数の目的の環境で単一の目的を最適化した場合の予測可能な結果です。

この論文は、人間と AI の共進化の課題を、制約付きの最適制御問題として再定式化します。システム状態 s_t = (H_t, A_t) を、時刻 t における人間の認知能力と AI 動作パラメータの結合構成として定義します。政策調整、説明レベル、自律性レベル、反映トリガー強度に対応する制御入力ベクトル u_t = (π_adj, e_t, α_t, r_t) を導入します。多目的コスト関数 J は、タスクの品質 Q_task、信頼の安定性 T_h、人間の能力の維持 K_h、リスク抑制 Risk、および依存関係制御 Dependence の 5 つの競合する目的を統合し、それぞれ調整可能なパラメーター λ_Q、λ_T、λ_K、λ_R、および λ_D によって重み付けされます。

最適化には、実行可能な動作領域を定義する 4 つの厳しい制約が適用されます。リスクは最大しきい値 R_max 未満に維持する必要があり、信頼は帯域 [T_min, T_max] 内に維持する必要があり、ペルソナドリフトは δ で制限する必要があり、システム遅延は L_max を超えてはなりません。この制約された問題に対してベルマン方程式を定式化し、標準的な規則性条件下で最適なポリシーの存在を証明し、結果として得られる値関数がリプシッツ連続性を含む望ましい特性を備えていることを示します。

人間の認知状態 H_t は直接観察できないことを認識して、フレームワークを部分的に観察可能なマルコフ決定プロセス (POMDP) に拡張します。 MARIA OS のメタ認知エンジンは、信念状態 b_t = P(H_t | o_1, ..., o_t) を維持します。この信念状態は、意思決定の品質、応答待ち時間、エスカレーション頻度などの対話信号を通じて更新されます。私たちは、信念に基づく政策が、根底にある制御されたマルコフ連鎖のエルゴード性に関連する条件下で安定性を維持することを証明します。

500 タイムステップにわたる 300 のエージェントにわたる実験評価では、最適制御ポリシーが 0.94 のパレートハイパーボリューム、99.1% の制約満足度、および 0.87 の社会的安定性指数を達成し、貪欲でランダムな固定ベースラインポリシーを大幅に上回っていることが実証されました。 MARIA OS 内の実装について説明します。ここでは、デシジョンパイプラインが状態遷移を実現し、ゲートエンジンが制約を強制し、メタ認知エンジンが継続的な信念状態の更新と適応制御を通じて最適なポリシー π* を近似します。

1. はじめに

組織の意思決定における AI エージェントの導入は、予測可能な軌道をたどってきました。最初は目に見えるパフォーマンスの向上によって熱意が高まりましたが、その後、単純な定量化に抵抗する二次効果に対する懸念が高まりました。請求処理速度を最適化する AI システムは、同時に、かつて複雑な事件に対して判断を行っていた査定人のスキルを下げる可能性があります。開発者のスループットを最大化するコーディングアシスタントは、上級エンジニアと若手エンジニアを区別するアーキテクチャ上の推論能力を損なう可能性があります。精度を向上させる意思決定支援システムは、システム停止中に組織が機能できなくなる依存パターンを生み出す可能性があります。

これらの現象には共通の構造があります。いずれの場合も、単一の測定可能な目標、つまりタスクのパフォーマンスを最適化すると、目的関数に含まれていない側面全体に負の外部性が生じます。これは AI 機能の欠陥ではありません。それは問題の定式化の失敗です。人間と AI のコラボレーションを単一目的の最適化問題として組み立てるとき、他のすべての関連する量は一定のままであるか、タスクのパフォーマンスの副作用として改善されると暗黙的に仮定します。どちらの仮定も実際には当てはまりません。

AI ガバナンスには多目的思考が必要であるという認識は新しいものではありません。欠けているのは、トレードオフを明確にし、制約を形式的にし、最適な政策を計算可能にする厳密な数学的枠組みです。 AI ガバナンスに対するその場限りのアプローチ (倫理委員会、使用ポリシー、定期監査) は、自動フィードバックを必要とするシステムにおける手動制御に相当するガバナンスです。彼らは、体系的な設計によって問題を防ぐのではなく、問題が顕在化した後に対応します。

最適制御理論は、このギャップに対処するために必要な数学的機構を正確に提供します。最適制御理論は、もともと宇宙船の軌道から化学プロセス制御に至るエンジニアリングシステムのために開発されたもので、システムのダイナミクスや制約に従うコスト関数を最小化するために、時間の経過とともに制御入力を選択する問題を形式化します。重要な洞察は、制御は 1 回限りの決定ではなくポリシー、つまり現在のアクションが将来の状態にどのように影響するかを説明する、状態からアクションへのマッピングであるということです。

人間と AI の共進化のコンテキストでは、システム状態には人間の認知構成 (スキル、信頼、メンタルモデル、エンゲージメント) と AI の動作パラメータ (自律性レベル、説明の深さ、意思決定のしきい値) の両方が含まれます。制御入力は、AI システムと人間のインタラクションの調整可能なパラメーターです。つまり、どの程度説明するか、どの程度の自律性を付与するか、いつ内省訓練をトリガーするか、観察された行動に応じてポリシーをどのように調整するかなどです。コスト関数は、人間の能力を維持しながらタスクの品質を維持し、リスクを抑制しながら信頼を安定させ、依存関係を防止しながら自動化を可能にする、コラボレーションの多次元の目的を捉えます。

制約は、責任ある AI 導入の交渉不可能な要件をエンコードしています。リスクは安全しきい値を決して超えてはなりません。信頼は機能範囲内に留まらなければなりません。人間がシステムを拒否するほど低すぎても、監視を放棄するほど高すぎてもいけません。 AI システムのアイデンティティと動作は許容範囲内に留まり、ユーザーの期待を損なう可能性のあるペルソナの変動を防ぐ必要があります。そして、人間の意思決定者が計算遅延によってボトルネックにならないように、システムは十分な速度で応答する必要があります。

この論文は、MARIA OS のメタ認知エンジン (人間と AI の相互作用の監視と調整を担当するコンポーネント) が、近似的に最適なコントローラーとして理解できることを実証します。システム状態を継続的に推定し、コスト関数を評価し、制約の満足度をチェックし、最適なポリシーを追跡するために制御入力を調整します。私たちが開発する正式なフレームワークは、メタ認知アーキテクチャの理論的正当性とその実装のための計算基盤の両方を提供します。

この論文の構成は次のように進みます。セクション 2 では、最適制御理論、ベルマン方程式、POMDP、多目的最適化に必要な背景を概説します。セクション 3 では、状態変数と制御変数を形式化します。セクション 4 では、多目的コスト関数を開発します。セクション 5 では制約システムを指定します。セクション 6 ではベルマン方程式を導出し、最適なポリシーの存在を証明します。セクション 7 では、最適な共進化ポリシーとその解釈を特徴づけます。セクション 8 では、フレームワークを部分的な可観測性まで拡張します。第 9 条は、長期的な社会安定のための条件を確立します。セクション 10 では実験結果を示します。セクション 11 では MARIA OS の実装について説明します。セクション 12 は終了です。

2. 背景

2.1 最適制御理論

最適制御理論は、システムダイナミクス s_{t+1} = f(s_t, u_t, w_t) の影響を受ける累積コスト関数を最小化するために一連の制御入力 u_0、u_1、...、u_{T-1} を選択する問題に対処します。ここで、s_t は状態、u_t は制御、w_t は確率的外乱です。この理論は変分法に端を発し、1950 年代にポントリャギンの最大原理とベルマンの動的計画法によって形式化されました。静的最適化との主な違いは、オプティマイザーは現在の決定が将来の状態にどのように影響し、その結果として将来のコストに影響を与えるかを考慮する必要があることです。

私たちの定式化に最も関連する離散時間の確率的設定では、問題は、J(π) = E[Σ_{t=0}^{T} γ^t &ell;(s_t, u_t) + γ^{T+1} V_f(s_{T+1})] を最小化するポリシー π: S → U を見つけることです。は段階コスト、γ ∈ (0, 1] は割引係数、V_f は最終コストです。この解はベルマンの最適性原理を満たします。つまり、中間状態からの最適なポリシーは、その状態にどのように到達したかに関係なく同じです。

2.2 ベルマン方程式

ベルマン方程式は、値関数 V(s) を再帰的に表します: V(s) = min_u [&ell;(s, u) + γ E_{w}[V(f(s, u, w))]]。この方程式は、標準条件 (制限されたコスト、コンパクトな状態およびアクション空間、測定可能な遷移カーネル) の下での最適化にとって必要かつ十分です。値関数 V は状態 s からの最適な移動コストを表し、最適なポリシーは π(s) = argmin_u [&ell;(s, u) + γ E_{w}[V(f(s, u, w))]] として復元されます。制約付き問題の場合、ベルマン方程式は、ラグランジュ乗数による制約ペナルティを組み込むように変更されるか、状態依存のアクション制限を使用して解決されます。

2.3 部分的に観察可能なマルコフ決定プロセス

状態が完全に観察できない場合、問題は POMDP になります。エージェントは観測値 o_t ~ P(o | s_t) を受け取り、観測履歴に基づいて決定を下す必要があります。 Kaelbling、Littman、および Cassandra (1998) による基本的な結果は、POMDP を信念空間 B (b_t(s) = P(s_t = s | o_1, ..., o_t)) にわたって完全に観測可能な MDP に変換できるということです。信念の更新はベイズ規則 b_{t+1}(s') ∝ P(o_{t+1} | s') Σ_s P(s' | s, u_t) b_t(s) に従います。その結果、MDP には連続状態空間があり、ほとんどの問題に対して厳密な解決が困難になるという考えが生まれました。 PBVI や SARSOP などのポイントベースの値反復法は、到達可能な信頼点の有限セットをサンプリングすることによって実用的な近似解を提供します。

2.4 AI における多目的最適化

複数の目的の最適化では、複数の競合する目的を同時に最小化 (または最大化) しようとします。目的が矛盾する場合、すべての目的に対して同時に最適な単一の解決策はありません。非支配的な解決策のセットがパレートフロンティアを形成します。 x がすべての目的において少なくとも y と同等に優れており、少なくとも 1 つの目的において厳密に優れている場合、解 x は y よりも優れています。ハイパーボリュームインジケーター (HV) は、基準点に対するパレートフロントによって支配される目的空間のボリュームを測定し、パレートフロント品質のスカラーサマリーを提供します。 AI ガバナンスでは、関連する目標には、タスクのパフォーマンス、安全性、公平性、人類の福祉、およびシステムリスクが含まれます。これらの目標は、本質的に単一のスカラーに還元するのが難しい目標です。

3. 状態と制御の定式化

3.1 システム状態

時間 t における完全なシステム状態を結合タプルとして定義します。

s_t = (H_t, A_t)

ここで、H_t は人間の認知状態を表し、A_t は AI の動作状態を表します。人間の認知状態はそれ自体が複合ベクトルです。

H_t = (K_h(t)、T_h(t)、M_h(t)、E_h(t)、D_h(t))

ここで、K_h(t) ∈ [0, 1] は人間の能力レベル (関連するスキルの次元にわたる総合的な能力) を表し、T_h(t) ∈ [0, 1] は信頼レベル (AI システムに対する人間の主観的な信頼度) を表し、M_h(t) ∈ R^d はメンタルモデルベクトル (AI の動作の人間の内部表現) を表し、E_h(t) ∈ [0, 1] はエンゲージメントレベル (積極的な参加と受動的な消費) を示し、D_h(t) ∈ [0, 1] は依存レベル (人間が独立して行うことができる意思決定において AI に依存する度合い) を示します。

AI の動作状態も同様に複合的です。

A_t = (θ_t、Ω_t、C_t、I_t)

ここで、 θ_t ∈ Θ は AI のポリシーパラメーターを示し、Ω_t ∈ [0, 1] は現在の自律性レベルを示し、C_t ∈ R^m はタスク次元にわたる AI の能力ベクトルを示し、I_t ∈ R^p は AI のアイデンティティベクトル (そのペルソナを定義する行動特性) を示します。

3.2 制御入力

制御ベクトル u_t は、メタ認知が各タイムステップで調整する 4 つのコンポーネントで構成されます。

u_t = (π_adj(t), e_t, α_t, r_t)

|制御変数 |記号 |範囲 |効果 |

| --- | --- | --- | --- |

|説明レベル | e_t | [0, 1] |推論の露出の深さを制御します: 0 = 不透明、1 = 完全な思考連鎖 |

|自律性レベル | α_t | [0, 1] |人間の承認なしに AI が行う意思決定の一部を決定 |

|リフレクショントリガー | r_t | [0, 1] |人間による反省の強度: 0 = なし、1 = 必須のレビュー |

各制御入力には、状態ダイナミクスに対する個別の作用メカニズムがあります。ポリシー調整 π_adj(t) は AI の意思決定パラメーターを直接変更し、タスクの品質 Q_task とリスクエクスポージャに影響を与えます。説明レベル e_t は人間の理解に影響を与えます。説明レベルが高くなるとメンタルモデル M_h(t) が改善され、信頼 T_h(t) が増加しますが、その代償として待ち時間と認知負荷が増加します。自律性レベル α_t は、人間と AI の責任分担を決定します。自律性が高くなるとスループットが向上しますが、能力の低下と依存関係の形成のリスクが生じます。リフレクショントリガー r_t は、意思決定の結果に対する人間の意図的な関与を誘発し、高度な自動化に伴う受動的受け入れの傾向を打ち消します。

3.3 状態ダイナミクス

状態は遷移関数に従って進化します。

s_{t+1} = f(s_t, u_t, w_t)

ここで、 w_t は確率的擾乱 (予期せぬ出来事、人間の変動性、環境の変化) を表します。人間の状態の各要素の主要なダイナミクスは次のとおりです。

K_h(t+1) = K_h(t) + η_K [(1 − α_t) · 練習(t) + r_t · 反射(t) − α_t · 萎縮(t)] + w_K(t)

この方程式は、人間の能力ダイナミクスにおける基本的な緊張を捉えています。委任された決定による積極的な練習（(1 − α_t) で尺度）は能力を構築し、振り返り演習（r_t で尺度）は学習を強化しますが、高度な自律性（α_t）は廃用によるスキルの萎縮を引き起こします。パラメータ η_K は、能力の変化率を制御します。

信頼のダイナミクスも同様の構造に従います。

T_h(t+1) = T_h(t) + η_T [e_t · 透明度(t) + Q_task(t) · パフォーマンス(t) − |surprise(t)| · 予測不可能性(t)] + w_T(t)

信頼は透明性 (説明レベル e_t によってスケール) と実証されたパフォーマンスによって増加しますが、AI が人間のメンタルモデルに対して予測不可能な動作をすると減少します。これによりフィードバックループが形成されます。説明によりメンタルモデルが改善され、驚きが減り、信頼が安定します。

依存関係のダイナミクスは次によって制御されます。

D_h(t+1) = D_h(t) + η_D [α_t · 利便性(t) − r_t · self_efficacy(t) − (1 − α_t) · 独立性(t)] + w_D(t)

依存性は、利便性の効果による高度な自律性によって増大し、自己効力感を再構築する反省のきっかけや自立性を強化する練習の機会によって縮小します。

4. 多目的コスト関数

4.1 目標の定式化

複数目的コスト関数は、重み付き合計スカラー化を使用して、5 つの競合する目的を集計します。

J(π) = E[Σ_{t=0}^{∞} γ^t (−λ_Q Q_task(s_t, u_t) − λ_T T_h(s_t) − λ_K K_h(s_t) + λ_R リスク(s_t, u_t) + λ_D 依存性(s_t))]

Q_task、T_h、K_h の負の符号は、これらの量を最大化する (負の値を最小化する) ことを反映し、リスクと依存性の正の符号は、それらを最小化することを反映します。割引係数 γ ∈ (0, 1) により、無限和が確実に収束し、短期的な結果と長期的な結果の相対的な重要性が反映されます。

4.2 客観的な用語の定義

タスク品質 Q_task(s_t, u_t). これは、時間 t に人間と AI システムによって生成された意思決定の品質を測定します。それは、AI の能力 C_t と人間のエンゲージメントを重み付けした能力の両方に依存します。

Q_task(s_t, u_t) = α_t · Q_AI(θ_t, C_t) + (1 − α_t) · Q_human(K_h(t), E_h(t)) + β_synergy · synergy(H_t, A_t)

相乗効果という用語は、人間と AI のコラボレーションによる超相加効果を表しています。つまり、適切に調整された人間と有能な AI システムは、どちらかが単独で達成するものを超える品質を達成できるのです。相乗効果は、人間のメンタルモデル M_h(t) と AI の実際の行動の整合性、および信頼レベル T_h(t) に依存します。

信頼レベル T_h(s_t)。 これは直接人間の状態 T_h(t) の信頼コンポーネントです。これをコスト関数に含めることで、コントローラーは機能範囲内で信頼を維持するようになります。信頼はコスト関数 (ソフト目標として) と制約システム (ハード要件として) の両方に現れることに注意してください。コスト関数項は信頼の最大化を促進しますが、制約は信頼が実現可能な帯域から外れるのを防ぎます。

人間の能力 K_h(s_t)。 これは能力コンポーネント K_h(t) です。これをコスト関数に含めることで、人間のスキルを損なう政策に直接ペナルティが課せられます。重み λ_K は、タスクの品質に対する機能保存の相対的な重要性を決定します。多くの実際の設定では、時間の経過とともに機能が低下する傾向にある高度な自動化による短期的なタスク品質の利点を克服するには、λ_K を十分に高く設定する必要があります。

リスク(s_t, u_t). リスクは、潜在的な危害の複数の原因を集約したものです。

リスク(s_t, u_t) = ρ_task · タスクリスク(α_t, K_h(t)) + ρ_trust · TrustRisk(T_h(t)) + ρ_systemic · SystemicRisk(D_h(t), α_t)

TaskRisk は、AI の信頼度が誤って調整された場合に自律性レベルが上がるにつれて、悪い結果が発生する確率を取得します。 TrustRisk は、信頼が機能範囲外になる危険性、つまり過剰信頼 (無批判な受け入れにつながる) と信頼不足 (有効な推奨事項の拒否につながる) の両方を測定します。システミックリスクは、AI の障害に対する組織の脆弱性を反映しており、依存関係に応じて増加します。

Dependence(s_t). これは直接依存関係コンポーネント D_h(t) です。これを含めると、学習性無力感を生み出す制御政策にペナルティが課せられます。依存は信頼とは異なります。人間は、システムなしでも動作する能力と意欲を維持しながら、システムを適切に信頼できます。依存は、特に独立した機能の侵食を捉えます。

4.3 目標間のトレードオフ

5 つの目的により、単一の目的の最適化が不十分になるいくつかの基本的なトレードオフが生じます。

Q_task 対 K_h (パフォーマンスと能力のトレードオフ) AI の能力は通常、日常的なタスクでは人間の能力を上回るため、短期的には Q_task を最大化すると AI の高い自律性 (α_t → 1) が有利になります。しかし、これは能力動態における萎縮項を通じて K_h を侵食します。最適な政策では、当面のパフォーマンスと長期的な人的資本のバランスを取る必要があります。

Q_task 対リスク (パフォーマンスと安全性のトレードオフ)。 自律性が高く、より積極的な AI ポリシーにより、Q_task が増加する可能性がありますが、同時にリスクにさらされる可能性も高まります。このトレードオフは、エラーのコストが非対称である一か八かの領域で特に深刻です。自動化によるわずかな品質向上は、テールリスクのわずかな増加を正当化できない可能性があります。

T_h と依存性 (信頼と依存性のトレードオフ)。 実証された AI パフォーマンスを通じて信頼を構築すると、誤って依存性が高まる可能性があります。 AI が常に優れているという理由で人間が AI を信頼すると、人間は独立した判断を下さなくなる可能性があります。最適なポリシーは、依存関係を同時に増加させないメカニズム (説明、透明性) を通じて信頼を構築する必要があります。

説明と待ち時間 (透明性と効率のトレードオフ)。 説明レベルが高くなると、信頼性とメンタルモデルが向上しますが、認知負荷とシステムの待ち時間が増加します。これらの競合する効果全体の純利益を最大化する、最適な説明の深さが存在します。

4.4 重みの選択とパレート分析

重み λ = (λ_Q、λ_T、λ_K、λ_R、λ_D) によって、各目標の相対的な優先度が決まります。異なる重みベクトルは、パレートフロンティア上の異なる点をトレースします。 MARIA OS では、重みの選択は 3 レベルの階層に従います。

Galaxy (エンタープライズ) レベルでは、組織全体のリスク限界を確保するために λ_R が設定されています。ユニバース (ビジネスユニット) レベルでは、λ_Q と λ_K のバランスがドメインに合わせて調整されます。自動テストなどの自律性の高いドメインでは λ_Q が有利になる一方、人間による専門知識の開発が必要なドメインでは λ_K が有利になる可能性があります。プラネット (運用) レベルでは、λ_T と λ_D は、そのドメインで観察される特定の人間と AI の相互作用パターンに合わせて調整されます。

パレートフロンティアは、別の目的を低下させることなく目的を改善できない一連の重みベクトルによって特徴付けられます。このフロンティアは、ε 制約法を使用して計算します。つまり、いくつかのレベルのそれぞれで 1 つの目標を固定し、残りの目標を最適化します。結果として得られる Q_task-K_h 平面のパレートフロントは、人間と AI の共進化を支配する基本的なパフォーマンスと能力のトレードオフを明らかにします。私たちの実験結果は、最適制御ポリシーの下でこのフロントのハイパーボリューム指標が 0.94 に達し、実現可能な目標空間をほぼ完全にカバーしていることを示しています。

5. 制約システム

5.1 厳しい制約

最適化には、すべてのタイムステップで満たさなければならない 4 つの厳しい制約が適用されます。これらの制約は、実行可能な動作領域を定義し、責任ある AI ガバナンスの交渉不可能な要件をエンコードします。

制約 1: リスク限界 リスク(s_t, u_t) ≤ R_max、∀ t ≥ 0。

総リスクは、最大許容リスクレベル R_max を決して超えてはなりません。この制約は安全要件の形式的な表現です。つまり、他の目的をどれだけ改善するかに関係なく、リスク限界に違反するポリシーは受け入れられません。 MARIA OS では、R_max は Galaxy レベルで設定され、座標階層に伝播されます。各ユニバースは、より厳密な境界 R_max^U ≤ R_max を課すことはできますが、それを緩和することはできません。

制約 2: 信頼帯域 T_h(s_t) ∈ [T_min, T_max]、∀ t ≥ 0。

信頼は機能範囲内に留まらなければなりません。下限 T_min により、人間が AI に対して十分な信頼を維持して効果的にコラボレーションできることが保証されます。このレベルを下回ると、人間は AI の推奨を無効にするか無視することになり、システムの目的が無効になります。上限 T_max は、過剰信頼、つまり人間が AI の出力を無批判に受け入れて単一障害点を作成する状態を防ぎます。トラストバンド制約は、最適制御では珍しいものです。これは、コントローラーが説明レベルと実証されたパフォーマンスを通じて間接的にのみ影響を与える状態変数に上限と下限の両方を課します。

制約 3: ペルソナドリフトの制限 ||ΔI_t|| = ||I_t − I_0|| ≤ δ、∀ t ≥ 0。

AI システムの恒等ベクトルは、その初期構成 I_0 のδボール内に留まらなければなりません。この制約により、AI の適応メカニズムがシステムの動作特性を許容範囲を超えてドリフトさせることが防止されます。ペルソナドリフトはユーザーの期待を損ない、責任問題を引き起こし、信頼形成を支える予測可能性を損なう可能性があります。標準 ||·||は通常、L2 ノルムですが、ドメイン固有の重み付けされたノルムを使用して、特定のアイデンティティの次元を強調することもあります。

制約 4: 遅延限界。 L(u_t) ≤ L_max、∀ t ≥ 0。

システムの応答待ち時間は、制御入力 (特に説明レベル e_t とポリシーの複雑さ θ_t) に依存し、最大許容待ち時間を超えてはなりません。この制約により、人間と AI の対話が時間的に一貫した状態に保たれます。AI の応答が過度に遅延すると、意思決定のワークフローが混乱し、信頼性の低下を引き起こす可能性があります。待ち時間関数 L(u_t) は通常、説明レベルとポリシーの複雑さに応じて単調増加します。

5.2 制約の修飾

制約付きの最適化を適切に行うには、制約条件を限定する必要があります。スレーターの条件を検証します。つまり、すべての不等式制約が厳密な不等式で満たされるような、厳密に実現可能な点 (s_0, u_0) が存在します。

補題 (スレーターの条件)。 MARIA OS の初期構成 (中程度の自律性 α_0 = 0.5、中程度の説明 e_0 = 0.5、反射なし r_0 = 0、ベースラインポリシー π_0) では、システム状態は次の条件を満たします。 Risk(s_0, u_0) < R_max, T_min < T_h(s_0) < T_max, ||I_0 − I_0|| = 0 < δ、および L(u_0) < L_max。したがって、スレーターの条件が成り立ち、強い二重性が当てはまります。

初期構成における厳密な実現可能性は設計によるものです。MARIA OS はすべてのパラメータを適度な値で正確に初期化し、システムが実現可能領域の内部で確実に起動するようにし、最適なコントローラルームを任意の方向に調整できるようにします。

5.3 ラグランジュの定式化

ラグランジュ乗数による制約を組み込んで、ラグランジュを定義します。

L(π, μ) = J(π) + μ_R · E[Σ_t γ^t (Risk(s_t, u_t) − R_max)] + μ_{T,lo} · E[Σ_t γ^t (T_min − T_h(s_t))] + μ_{T,hi} · E[Σ_t γ^t (T_h(s_t) − T_max)] + μ_I · E[Σ_t γ^t (||ΔI_t|| − δ)] + μ_L · E[Σ_t γ^t (L(u_t) − L_max)]

ここで、μ = (μ_R, μ_{T,lo}, μ_{T,hi}, μ_I, μ_L) ≥ 0 はラグランジュ乗数です。強力な二重性 (Slater の条件によって保証されている) により、最適なポリシーは次の条件を満たします。

π* = argmin_π max_{μ ≥ 0} L(π, μ)

乗数には経済的な解釈があります。μ_R はリスク許容度の影の価格 (R_max を 1 単位緩和することでどの程度コストが改善されるか)、μ_{T,lo} とμ_{T,hi} は信頼帯域境界の影の価格、μ_I はペルソナの硬直性のコスト、μ_L は待ち時間要件のコストです。 MARIA OS では、これらの乗数はオンラインで推定され、監査インターフェイスを通じて公開されるため、ガバナンスチームはどの制約が拘束力を持ち、どのようなコストがかかるかを理解できます。

5.4 能動的制約解析

最適解では、相補的スラックネスが成立します: 各制約 i に対して μ_i · g_i(s, u) = 0。 μ_i > 0 であり、制約が等価に満たされる場合、制約はアクティブ (バインディング) になります。私たちの実験分析により、典型的な MARIA OS 導入では、リスク制約が約 15% の時間 (一か八かの意思決定中) でアクティブになり、トラストバンド制約が約 8% の時間 (信頼調整フェーズ中) でアクティブになり、ペルソナドリフト制約がアクティブになることはめったになく (タイムステップの 2% 未満)、レイテンシー制約が約 12% の時間でアクティブになります (高い説明レベルが要求される場合)。 99.1% という全体的な同時満足率は、永続的な制約違反なしに実行可能な領域をナビゲートするポリシーの能力を反映しています。

6. ベルマン方程式

6.1 制約のないベルマン方程式

基本構造を確立するために制約のない定式化から始めて、次に制約を組み込みます。値関数 V: S → R は、ポリシー π に基づく状態 s からの最適な移動コストを表します。

V(s) = min_{u ∈ U} [&ell;(s, u) + γ E_{w}[V(f(s, u, w))]]

ここで、ステージコストは次のとおりです。

&ell;(s, u) = −λ_Q Q_task(s, u) − λ_T T_h(s) − λ_K K_h(s) + λ_R リスク(s, u) + λ_D 依存性(s)

これは、割引された無限水平確率制御問題の標準的なベルマン方程式です。 u に対する最小化では、5 つの目的すべての間で最良のバランスを達成する制御入力が選択され、当面の段階のコストと、結果として生じる次の状態から割り引かれた将来のコストの両方が考慮されます。

6.2 制約付きベルマン方程式

ラグランジアンによる制約を組み込むと、制約付きベルマン方程式は次のようになります。

V_μ(s) = min_{u ∈ U(s)} [&ell;_μ(s, u) + γ E_{w}[V_μ(f(s, u, w))]]

ここで、増加したステージコストは次のとおりです。

&ell;_μ(s, u) = &ell;(s, u) + μ_R (Risk(s, u) − R_max) + μ_{T,lo} (T_min − T_h(s)) + μ_{T,hi} (T_h(s) − T_max) + μ_I (||ΔI|| − δ) + μ_L (L(u) − L_max)

U(s) は、状態 s での実行可能な制御のセット (制約を満たすもの) です。二重変数 μ は、部分勾配上昇スキームに従って更新されます。

μ_i^{k+1} = max(0, μ_i^k + ζ_k · g_i(s, u))

ここで、Σ_k は、Σ_k ζ_k = ∞ および Σ_k ζ_k^2 < ∞ を満たす減少ステップサイズです。

6.3 値関数のプロパティ

価値関数 V* には、理論分析と数値計算の両方を容易にするいくつかの重要な特性があります。

命題 1 (単調性)。 V* は、K_h と T_h が増加せず (能力が高く信頼性が高いほどコストが低くなります)、D_h とリスクが減少しません (依存性とリスクが高いほどコストが高くなります)。

これは、ステージコストの構造に直接従うものです。ステージコストは、K_h と T_h で減少し、D_h と Risk で増加します。また、遷移ダイナミクスは、最適なポリシーの下でこれらの単調性を維持します。

提案 2 (リプシッツ連続性)。 ステージのコストが &ell であるという仮定の下で。定数 L_&ell を持つリプシッツ連続です。遷移関数 f は定数 L_f を持つリプシッツ連続であり、値関数 V* は定数 L_V = L_&ell を持つリプシッツ連続です。 / (1 − γ L_f)。

この結果は数値近似にとって重要です。これにより、値関数が関数近似の信頼性を低下させる不連続性を示さないことが保証されます。リプシッツ定数 L_V は、(1 − γ L_f) に逆比例してスケールします。これは、高い割引係数と高感度のダイナミクスが値関数に対する状態の摂動の影響を増幅するという事実を反映しています。

命題 3 (縮約)。 (TV)(s) = min_u [&ell;(s, u) + γ E[V(f(s, u, w))]] で定義されるベルマン演算子 T は、最高ノルムにおける γ 縮約です: ||TV_1 − TV_2||_∞ ≤ γ ||V_1 − V_2||_∞。その結果、値反復シーケンス V_{k+1} = TV_k は、初期 V_0 から幾何学的に V* に収束します。

6.4 定理 1: 最適なポリシーの存在

定理 1 (最適なポリシーの存在)。 以下の仮定の下:

(A1) 状態空間 S ⊂ R^n と制御空間 U ⊂ R^m はコンパクトです。

(A2) ステージコスト&ell;:S×U→Rは連続かつ有界です。

(A3) 遷移関数 f: S × U × W → S は各 w に対して (s, u) で連続であり、w の分布はルベーグ測度に関して密度を認めます。

(A4) 制約関数 g_i:S × U → R は連続です。

(A5) スレーター条件が成立します: ∃ (s_0, u_0) with g_i(s_0, u_0) < 0 ∀ i。

次に: (i) 値関数 V: S → R が存在し、ベルマン演算子 T の一意の固定点です。 (ii) 最適なポリシー π: S → U は測定可能であり、すべての s ∈ S について V(s) = &ell;(s, π(s)) + γ E[V(f(s, π(s), w))] を満たします。 (iii) π はすべての制約を満たします。 π によって引き起こされる定常分布の下ではほぼ確実です。

証明スケッチ。 パート (i) は、ベルマン演算子 T に適用されるバナッハの不動点定理から派生したもので、これは、最高ノルム (命題 3) を備えた有界連続関数空間の γ 短縮です。パート (ii) では、U のコンパクトさと被積分関数の連続性を使用して可測選択定理 (Bertsekas と Shreve、1978) を呼び出します。argmin 対応は空の値ではなく可測であるため、可測セレクターを認めます。パート (iii) は、強力な双対性 (A5 のスレーターの条件によって保証されています) から導かれます。鞍点 (π, μ) では、相補的な緩み条件は、元の制約付き問題に対して π が実行可能であることを意味します。 π の下での制御されたマルコフ連鎖のエルゴーディシティ (A3 のコンパクト性の仮定と密度条件から得られる) により、長期的には制約を満たすことが保証されます。平均的な感覚であり、割引された定式化により、定常分布の下で点ごとの満足度がさらに保証されます。

6.5 ハミルトン・ヤコビ・ベルマン連続時間アナログ

分析的な洞察を得るために、連続時間のアナログを考慮します。状態ダイナミクスが確率微分方程式 ds = f(s, u) dt + σ(s) dW_t で記述される場合、値関数はハミルトン・ヤコビ・ベルマン (HJB) 偏微分方程式を満たします。

0 = min_u [&ell;(s, u) + ∇_s V · f(s, u) + (1/2) tr(σ σ^T ∇^2_s V)]

HJB 方程式は、離散時間ベルマン方程式よりも透過的に最適制御の構造を明らかにします。勾配 ∇_s V は、各状態コンポーネントの限界値をエンコードします。信頼帯域の中心付近では、∂V/∂K_h < 0 (能力は貴重です)、∂V/∂D_h > 0 (依存性はコストがかかります)、∂V/∂T_h < 0 (信頼は価値があります) ですが、境界近くで符号が変わります。これらの勾配は、最適な制御に直接情報を与えます。コントローラーは、∂V/∂K_h および ∂V/∂D_h に基づいて自律性レベル α_t を調整し、∂V/∂T_h および ∂V/∂M_h に基づいて説明レベル e_t を、∂V/∂K_h に基づいて反射トリガー r_t を調整します。 ∂V/∂E_h。

6.6 適合値反復による数値近似

ベルマン方程式の正確な解は、人間と AI の共進化で遭遇する高次元の状態空間では扱いが困難です。ニューラルネットワーク関数近似器を使用した適合値反復 (FVI) を採用しています。アルゴリズムは次のように進行します。

ステップ 1: V_0 を任意に初期化します (たとえば、すべての s について V_0(s) = 0)。ステップ 2: 状態空間から N 状態のバッチ {s_i}_{i=1}^N をサンプリングします。ステップ 3: 各 s_i について、u に対する数値最適化と w に対するモンテカルロ積分を使用して、ターゲット y_i = min_u [&ell;(s_i, u) + γ E_w[V_k(f(s_i, u, w))]] を計算します。ステップ 4: 勾配降下法を使用して平均二乗誤差を最小限に抑えて、V_{k+1} をターゲット {(s_i, y_i)} に適合させます。ステップ 5: ||V_{k+1} − V_k|| になるまで繰り返します。 < ε。

関数近似による FVI の収束は、ベルマン演算子と関数クラスへの射影の間の相互作用のため、一般に保証されません。ただし、ニューラル近似 Q 反復に関する最近の結果は、実現可能性の仮定の下で有限サンプル境界を提供します。実際に、ニューラルネットワークに十分な容量 (それぞれ 256 ユニットの 3 つの隠れ層) があり、状態サンプリング分布が到達可能な状態空間をカバーしている場合、アルゴリズムは 200 回の反復以内に確実に収束することがわかります。

7. 最適な共進化政策

7.1 ポリシーの構造

最適なポリシー π*: S → U は、現在のシステム状態を最適な制御入力にマッピングします。ベルマン方程式を (正確にまたは近似的に) 解くと、ポリシーは次のように復元されます。

π(s) = argmin_u [&ell;_μ(s, u) + γ E_w[V(f(s, u, w))]]

形式的な解決策では、各タイムステップでこの最適化を解決する必要がありますが、最適なポリシーの構造により、各制御次元に沿った直感的な解釈が可能になります。

7.2 最適な説明方針

最適な説明レベル e*_t は、現在の信頼レベル T_h(t)、メンタルモデルの精度 ||M_h(t) − M_true||、および意思決定の賭け金によって異なります。

T_h(t) が T_min (危険なほど信頼度が低い) に近い場合、透明性を通じて信頼を再構築するために e_t が増加します。 ||M_h(t) − M_true|| のときが大きい（メンタルモデルが不正確）場合、誤解を正すために e_t が増加します。意思決定のリスクが高い場合 (潜在的な結果が大きい場合)、インフォームド・コンセントを確保するために e_t が増加します。レイテンシー制約 L(u_t) ≤ L_max が拘束に近い場合、応答性を維持するために e_t が減少します。

これにより、最も必要なときにより多くの情報を提供し、追加の説明による限界利益がレイテンシコストに比べて低い場合には規模を縮小する、状態に依存した説明戦略が作成されます。

7.3 最適な自律性ポリシー

最適な自律性レベル α*_t は、AI 自律性のパフォーマンス上の利点と、機能の侵食および依存関係の形成コストのバランスをとります。

K_h(t) が減少している場合 (負の ΔK_h)、α_t が減少して練習の機会が生まれます。 D_h(t) が上昇している (正の ΔD_h) 場合、依存関係の形成に対抗するために α_t が減少します。 Q_task が自律性の向上により大幅に改善され、Risk が R_max を下回ったままの場合、α_t は増加します。人間が積極的に取り組んでおり（E_h(t) が高く）、パフォーマンスが良好な場合（最近の Q_human が高い）、人間は単独で能力を維持しているため、α_t が増加する可能性があります。

重要な洞察は、最適な自律性レベルは静的な設定ではなく、人間と AI システムの進化する状態に応答する動的な変数であるということです。コラボレーションの初期段階、つまり人間がメンタルモデルを構築しているときは、自律性は低いはずです。信頼と能力が安定すると、自律性が高まる可能性があります。監視によって機能の低下または依存関係の形成が検出された場合、バランスを回復するために自律性が一時的に低下する必要があります。

7.4 最適な反射ポリシー

反映トリガー r*_t は、意思決定の結果について人間の反映をいつ、どの程度強く促すかを決定します。最適なリフレクションポリシーは次の条件を満たします。

K_h(t) が最近のタイムステップにわたって減少している場合、r_t は高くなります (積極的な介入が必要な能力の萎縮を示します)。 D_h(t) が増加している場合、r_t は High になります (反射が打ち消すことができる依存関係の形成を示します)。人間が既に高度に関与している (E_h(t) が高い) 場合、r_t は低くなります。これは、追加の反射によって比例的な利益が得られずに認知負荷が増加するためです。 r_t は最近の意思決定の質によって変化します。エラーの後は、間違いを学習の機会に変えるため、反省の価値が高まります。

7.5 政策近似因子としてのメタ認知

MARIA OS のメタ認知エンジンは、π* の近似バージョンを実装します。メタ認知では、タイムステップごとにベルマン方程式を正確に解くのではなく (これは計算的に法外な計算です)、学習値関数の近似と、上記の最適なポリシーの構造特性をコード化するルールベースのヒューリスティックを組み合わせて使用します。

学習されたコンポーネントは、適合値反復近似 V_hat を使用して候補の制御入力を評価します。ルールベースのコンポーネントは、定性的なポリシー構造を実装します。つまり、信頼が低い場合は説明を増やし、能力が低下している場合は自主性を低下させ、依存関係が高まっている場合は反映をトリガーします。この組み合わせにより堅牢性が実現します。学習されたコンポーネントは定量的なトレードオフを把握し、ルールベースのコンポーネントは学習された近似が不正確な場合でも定性的な動作が正しいことを保証します。

7.6 段階的自律性との関係

最適自律性ポリシー α*_t は、MARIA OS の段階的自律性原則を直接実装します。重要な関係は、最適な政策が多目的コスト関数の結果として段階的な自律性を自然に生み出すということです。 5 つの目標すべてが適切な重み付けで含まれている場合、オプティマイザーは、信頼が安定し、能力が実証され、依存関係が制御されたままになるにつれて、自律性が徐々に増加するはずであることを発見します。これは設計ヒューリスティックとして課されるものではなく、制約付き最適化の数学的構造から生じます。

MARIA OS アーキテクチャの意味は重要です。座標階層 (銀河→宇宙→惑星→ゾーン→エージェント) を通じてエージェントに割り当てられた自律性レベルは、各レベルでの重みベクトル λ のパラメータ化として理解される必要があります。より高いレベルのガバナンスにより、制約と重みの範囲が設定されます。下位レベルのメタ認知エンジンは、それらの範囲内で最適化します。この階層構造は、階層最適制御で生じる入れ子になったベルマン方程式を反映しています。

8.POMDP拡張機能

8.1 人間の状態の部分的な可観測性

セクション 3 ～ 7 の定式化では、完全なシステム状態 s_t = (H_t, A_t) が観測可能であると仮定しています。 AI の状態 A_t は確かに直接観察可能ですが (システムは独自のパラメーターを知っています)、人間の認知状態 H_t はそうではありません。人間の能力レベル K_h(t)、信頼 T_h(t)、メンタルモデル M_h(t)、エンゲージメント E_h(t)、依存関係 D_h(t) を直接測定することはできません。私たちが観察できるのは、意思決定の質、応答の待ち時間、エスカレーション要求の頻度、AI 推奨事項の受け入れ率、口頭または書面によるフィードバックなど、間接的なシグナルのみです。

この部分的な可観測性は、制御の問題を根本的に変えます。コントローラーは、真の状態ではなく、観測値のベイジアン更新によって維持される状態についての信念に基づいて決定を下さなければなりません。

8.2 観測モデル

観測ベクトル o_t を、時刻 t でメタ認知に利用できる測定可能な信号のセットとして定義します。

o_t = (Q_obs(t)、L_obs(t)、Esc_obs(t)、Acc_obs(t)、Fbk_obs(t))

ここで、Q_obs(t) は観察された意思決定の品質 (結果から測定可能)、L_obs(t) は人間の応答待ち時間、Esc_obs(t) はエスカレーション頻度、Acc_obs(t) は AI 推奨の受け入れ率、Fbk_obs(t) は構造化されたフィードバック信号です。

観測モデル P(o_t | H_t) は、隠れた人間の状態と観測可能な信号の間の確率的関係を定義します。たとえば、高い能力 K_h(t) は高い Q_obs(t) と低い L_obs(t) を生成する傾向があり、高い信頼 T_h(t) は高い Acc_obs(t) と低い Esc_obs(t) を生成する傾向があります。観測モデルは、過去の相互作用データから調整されます。

8.3 信念状態のダイナミクス

信念状態 b_t は、人間の認知状態空間にわたる確率分布です。

b_t(H) = P(H_t = H | o_1, ..., o_t, u_0, ..., u_{t-1})

信念の更新はベイズの法則に従います。以前の信念 b_t、アクション u_t、および新しい観測 o_{t+1} を考慮すると、次のようになります。

b_{t+1}(H') ∝ P(o_{t+1} | H') Σ_H P(H' | H, u_t) b_t(H)

この更新には 2 つのコンポーネントがあります。状態ダイナミクスを通じて信念を前方に伝播する予測ステップ Σ_H P(H' | H, u_t) b_t(H) と、信念を改良するために新しい観測を組み込む修正ステップ P(o_{t+1} | H') です。実際には、信念状態はパラメトリック分布 (平均 μ_b と共分散 Σ_b のガウス分布など) として表され、観測モデルの非線形性に応じて拡張カルマンフィルターまたは粒子フィルターを使用して更新されます。

8.4 制約された POMDP の定式化

制約付き POMDP は、信念空間にわたる最適化を再定式化します。ベルマン方程式は次のようになります。

V(b) = min_{u ∈ U} [&ell;_b(b, u) + γ E_{o'}[V(τ(b, u, o'))]]

ここで、&ell;_b(b, u) = E_{H ~ b}[&ell;((H, A), u)] は現在の信念の下で予想されるステージコストであり、τ(b, u, o') は信念更新演算子です。制約は、E_{H ~ b}[Risk((H, A), u)] ≤ R_max および E_{H ~ b}[T_h(H)] ∈ [T_min, T_max] という信念の下で期待どおりに強制されます。

信念空間定式化には、連続的で無限次元の状態空間を犠牲にして、POMDP を信念空間上で完全に観測可能な MDP に変換するという利点があります。実際の解決策には近似法が必要です。

8.5 定理 2: POMDP の安定性

定理 2 (POMDP の安定性)。 定理 1 の仮定 (A1) ～ (A5) に基づき、さらに:

(A6) 観察モデル P(o | H) は識別可能です。異なる人間の状態は異なる観察分布を生成します。

(A7) 信念更新演算子 τ は、全変動計量において連続です。

(A8) 初期信念 b_0 は、真の初期状態 H_0 の近傍に正の確率を割り当てます。

このとき、信念に基づく最適なポリシー π_b: B → U は次の条件を満たします。 (i) 観測履歴が増大するにつれて、信念状態 b_t は真の状態でのディラック測度 b_t → δ_{H_t} に収束します (観測モデルのフィッシャー情報によって決定される速度)。 (ii) 信念に基づく価値関数 V_b は、完全に観測可能な価値関数 V に収束します: ||V_b − V*|| ≤ C · E[H(b_t)]、ここで H(b_t) は信念状態のエントロピー、C は &ell; のリプシッツ定数に依存する定数です。そしてf. (iii) 制約は、長期的には少なくとも 1 − ε の確率で満たされます。ここで、ε は観測値の数とともに指数関数的に減少します。

証明スケッチ パート (i) は、識別可能性 (A6) に基づいたベイズ推定の一貫性と、以前のものに対する真の状態の分布の絶対的な連続性 (A8) から導き出されます。収束率は Cramer-Rao 下限によって決まり、これはフィッシャー情報 I_F = E[(∇_H log P(o|H))^2] に依存します。パート (ii) では、V* のリプシッツ連続性 (命題 2) と、信念に基づく政策と状態に基づく政策の間の予想コスト差の限界を使用します。信念が集中するにつれて、信念ベースのポリシーに基づく期待コストは、完全に観察可能なポリシーに基づく期待コストに近づきます。パート (iii) は、完全に観察可能なポリシー (定理 1、パート iii) の制約充足と収束結果 (ii) を組み合わせます。信念が集中するにつれて、信念に基づくポリシーは完全に観察可能なポリシーに近似し、制約違反が発生します。確率は信念の不確実性によって制限され、ベイズ事後分布の濃度不平等によって指数関数的に減衰します。

8.6 近似解を求めるためのポイントベースの値の反復

制約付き POMDP の実際的な解決策は、ポイントベースの値の反復 (PBVI) を使用します。このアルゴリズムは、有限セットの信念点 B_sample = {b_1, ..., b_N} を維持し、価値関数を信念単体に対する区分線形の凸関数として近似します。

アルゴリズムは次のように進行します。初期値関数を表す α ベクトルのセット {α_1^0, ..., α_K^0} で初期化します。各信念点 b_i ∈ B_sample について、最適なバックアップを計算します。各アクション u について、α ベクトルと信念遷移モデルを使用して将来の期待値を計算し、ベルマン残差を最小化するアクションと α ベクトルを選択します。 α ベクトルセットを更新します。最適なポリシーに従い、到達可能な信念を追加することで、信念ポイントセットを拡張します。収束するまで繰り返します。

MARIA OS では、PBVI 計算はシステムキャリブレーション中にオフラインで実行され、離散化された信念状態によってインデックス付けされたポリシールックアップテーブルが生成されます。オンラインメタ認知エンジンは、1000 個の粒子を含む粒子フィルターを使用して信念状態を維持し、グリッドポイント間の信念状態のローカル補間を使用して、事前計算されたテーブルでおおよその最適なアクションを検索します。

9. 社会的安定条件

9.1 社会的安定の定義

前のセクションでは、制約に従ってコスト関数を最適化することに焦点を当ててきました。しかし、人間と AI のガバナンスの最終的な目標は、単に最適化することではなく、人間と AI システムが無期限の長い期間にわたって安定した状態を維持することを保証することです。社会の安定には、システムが技術的には実現可能（各瞬間のすべての制約を満たす）だが、長期的には社会的に望ましくない状態に向かって流れないことが必要である。

2 つの長期安定条件を定義します。

リスクの安定性: lim_{T → ∞} (1/T) Σ_{t=0}^{T-1} リスク(s_t, u_t) < ε_R

依存性の安定性: lim_{T → ∞} (1/T) Σ_{t=0}^{T-1} D_h(s_t) < ε_D

これらの条件では、時間平均されたリスクと依存関係が、指定されたしきい値を下回る値に収束することが必要です。この条件は、瞬間制約 Risk(s_t, u_t) ≤ R_max よりも強力です。これは、各ステップで瞬間制約を満たしながら高い平均を維持する方法で、システムが高リスク状態と低リスク状態の間で振動するのを防ぐためです。

9.2 制御されたマルコフ連鎖のエルゴード性

長期安定条件は、ポリシー π の下で制御されたマルコフ連鎖 {s_t}_{t ≥ 0} のエルゴード特性と密接に関係しています。チェーンがエルゴードである (一意の定常分布 μ_π を持っている) 場合、エルゴード定理により次のようになります。

lim_{T → ∞} (1/T) Σ_{t=0}^{T-1} h(s_t) = E_μ[h(s)] ほぼ確実

任意の有界可測関数 h に対して。これを h = Risk および h = D_h として適用すると、長期安定条件は次のように減少します。

E_μ[リスク(s, π*(s))] < ε_R および E_μ[D_h(s)] < ε_D

これらは、最適に制御されたプロセスの定常分布に関する条件であり、最適なポリシーと遷移ダイナミクスがわかれば、計算的に検証できます。

9.3 エルゴード性の条件

命題 4 (エルゴード性) 仮定 (A1) ～ (A3) と、ノイズ分布 w_t の密度が原点近傍でゼロから離れる方向にあるという追加条件の下では、任意の測定可能なポリシー π の下で制御されたマルコフ連鎖 {s_t} はエルゴード的です。一意の定常分布 μ_π は、最適なポリシー π* が状態を制約セットの境界に向かって持続的に駆動しない場合に限り、安定性条件を満たします。

ノイズの有界密度条件により、連鎖が既約 (正の確率で他の状態から任意の状態に到達できる) かつ非周期的であることが保証されます。状態空間 (A1) のコンパクトさと組み合わせることで、Doeblin 条件による定常分布の存在と一意性が保証されます。

9.4 社会的安定指数

私たちは、社会的安定度指数 (SSI) を長期的な社会的安定性のスカラー要約として定義します。

SSI = 1 − (1/2)[E_μ[リスク(s, π*(s))] / R_max + E_μ[D_h(s)]

SSI の範囲は 0 (最大の不安定性: R_max での平均リスクと 1 での平均依存性) から 1 (完全な安定性: ゼロの平均リスクとゼロの平均依存性) です。私たちの実験では、最適制御ポリシーは SSI = 0.87 を達成しました。これに対し、貪欲ポリシーでは 0.61、ランダムポリシーでは 0.43、固定中度ポリシーでは 0.72 でした。

9.5 制度的安定性理論との関連

社会的安定の枠組みは、自己強制的均衡の概念を通じて制度経済学と結びついています。所定の行動から逸脱する動機を参加者が持たない場合、制度上の取り決めは自己強制的になります。人間と AI のコンテキストでは、人間も AI システムも最適なポリシーから逸脱することで利益を得るべきではないという類似点があります。

AI の場合、逸脱は設計によって防止されており、システムはメタ認知によって計算されたポリシーを実行します。人間にとって、逸脱は信頼メカニズムによって防止されます。最適なポリシーが [T_min, T_max] 以内の信頼を維持し、一貫したパフォーマンスを示している場合、人間にはシステムをオーバーライドしたり放棄したりするインセンティブがありません。社会の安定条件により、この自己強制的な性質が現在の状態だけでなく長期的に維持されることが保証されます。

ノース (1990 年) の制度的枠組みとの関連性は明らかです。制度はゲームのルールを提供し、組織はプレイヤーです。 MARIA OS では、制約システムがルール (リスク境界、信頼帯域、ペルソナドリフト制限) を提供し、メタ認知エンジンと人間のオペレーターがプレーヤーとなります。最適な制御フレームワークにより、ルールが無限の期間にわたって安定した相互に有益なプレイにつながることが保証されます。

10. 実験による評価

10.1 実験のセットアップ

私たちは、主要な理論的予測をテストするために設計されたシミュレーション実験を通じて、制約付きの最適な制御フレームワークを評価します。実験セットアップは、MARIA OS 座標階層 (3 つの宇宙、9 つの惑星、30 のゾーン、ゾーンごとに 10 のエージェント) で編成された 300 の異種エージェントで構成されています。各エージェントは、能力 K_h(0) ~ 均一(0.4, 0.8)、信頼 T_h(0) 〜均一(0.3, 0.7)、依存関係 D_h(0) 〜均一(0.0, 0.2)、エンゲージメント E_h(0) 〜均一(0.5, 0.9) の初期条件を個別にサンプリングしました。シミュレーションはエピソードごとに 500 タイムステップで実行され、結果は異なるランダムシードを使用した 200 回の独立した実行にわたって平均されます。

4 つのポリシーを比較します。 (1) 最適制御: 近似値反復を介して制約付きベルマン方程式から導出されるポリシー。 (2) 貪欲: 将来のコストや機能と依存関係の制約を考慮せずに、当面の Q_task を最大化します。 (3) ランダム: 実行可能なセットから制御入力を均一にランダムに選択します。 (4) 固定: 実験全体を通じて一定の中程度の設定 (α = 0.5、e = 0.5、r = 0.3) を使用します。

最適な制御ポリシーの重みベクトルは λ = (1.0, 0.6, 0.8, 1.2, 0.7) で、Q_task を 0.80 以上に維持しながら社会的安定性指数を最大化するために、保持された 50 エピソードのセットに対する交差検証によって選択されます。制約パラメータは、R_max = 0.25、T_min = 0.25、T_max = 0.90、δ = 0.15、および L_max = 2.0 秒です。

10.2 主な結果

| --- | --- | --- | --- | --- |

| Q_タスク (平均) | 0.88 | 0.91 | 0.52 | 0.76 |

| K_h保存 | 0.83 | 0.41 | 0.55 | 0.71 |

|信頼の安定性(σ_T) | 0.04 | 0.18 | 0.23 | 0.09 |

|リスク (平均) | 0.08 | 0.22 | 0.31 | 0.14 |

|依存関係 (平均) | 0.12 | 0.67 | 0.28 | 0.35 |

|パレートHV | 0.94 | 0.58 | 0.31 | 0.79 |

|制約を満たす | 99.1% | 62.3% | 41.7% | 89.4% |

| SSI | 0.87 | 0.61 | 0.43 | 0.72 |

その結果、いくつかの重要なパターンが明らかになりました。まず、貪欲なポリシーは最高の Q_task (0.91) を達成しますが、人間の能力 (K_h は 0.41 に低下) と依存性 (0.67 に上昇) に壊滅的なコストがかかります。貪欲なポリシーは 37.7% の確率で制約に違反するため、本来のパフォーマンス上の利点にもかかわらず、責任ある展開には適していません。

第 2 に、最適な制御ポリシーは Q_task 0.88 を達成しますが、これは貪欲な最大値よりわずか 3.3% 低いだけであり、他のすべてのメトリックでは劇的に優れています。これは、パフォーマンスと能力のトレードオフが非常に有利であることを示しています。タスクの質を少し犠牲にすることで、人間の能力の維持、リスク管理、社会の安定において大きな利益が得られます。

第三に、固定中程度政策はそれなりに機能しますが (SSI = 0.72)、変化する状況に適応できません。個々のエージェントが能力の低下や信頼のドリフトを経験すると、固定ポリシーは対応できなくなり、時折制約違反が発生します (タイムステップの 10.6%)。 4 つの制御入力すべてを動的に調整する最適制御ポリシーの機能により、生の Q_task を除くすべての次元で優れたパフォーマンスが得られます。

10.3 アブレーション研究

各制御次元の寄与を理解するために、各制御入力を平均値に固定し、残りの入力を最適化するアブレーション研究を実行します。

| --- | --- | --- | --- | --- |

| α = 0.5 を固定 | −0.03 | −0.07 | −0.06 | −2.1% |

| e = 0.5 | を修正します。 −0.01 | −0.04 | −0.04 | −3.8% |

| r = 0.3 を修正 | +0.01 | −0.09 | −0.08 | −1.5% |

| π_adj = 0 を修正 | −0.05 | −0.02 | −0.03 | −4.7% |

切除により、自律性適応(α)が人間の能力維持に最も大きな影響を与えることが明らかになった(それを除去するとK_hが0.07低下する)。反射トリガー (r) は社会の安定に最も大きな影響を及ぼし (これを除去すると SSI が 0.08 低下する)、依存関係の形成と闘う上での役割が確認されています。ポリシー調整 (π_adj) は、制約満足度に最も大きな影響を及ぼします (これを削除すると 4.7% 低下します)。これは、安全範囲内に収まるように AI の動作を微調整する役割を反映しています。説明レベル (e) は、汎用の信頼および理解メカニズムとしての役割と一致して、すべての指標にわたって中程度の影響を及ぼします。

10.4 POMDPの結果

信念ベースのポリシーを、完全情報最適ポリシー (上限として機能します) および部分可観測性を無視するポリシー (最新の観察を真の状態として扱う) と比較することによって、POMDP 拡張を評価します。

| --- | --- | --- | --- | --- |

|最適な情報満載 | 0.88 | 0.83 | 0.87 | 1.00 (定義による) |

| POMDP 信念に基づく | 0.86 | 0.80 | 0.84 | 0.913 |

|状態としての観察 | 0.82 | 0.72 | 0.76 |該当なし |

POMDP 信念ベースのポリシーは、完全情報 Q_task の 97.7%、K_h 保存の 96.4%、および SSI の 96.6% を達成します。 91.3% という信念精度は、粒子フィルターが隠れた人間の状態のかなり正確な推定を維持していることを示しています。観察を真の状態として単純に扱う状態としての観察ポリシーは、ノイズのある観察と真の状態変化を区別できないため、パフォーマンスが大幅に低下し、ポリシーの変動につながります。

11. MARIA OSの実装

11.1 状態遷移としての意思決定パイプライン

MARIA OS の意思決定パイプライン (lib/engine/decion-pipeline.ts) は、状態遷移関数 f(s_t, u_t, w_t) を実装します。パイプラインに入る各決定は、人間と AI の共進化プロセスにおける状態遷移を表します。パイプラインの 6 つのステージ (提案済み → 検証済み → 承認要求/承認 → 実行 → 完了/失敗) は、単一の制御ステップの時間的分解に対応しており、制御入力 (自律性レベル、説明の深さ、反映強度) が各ステージで適用されます。

パイプラインの不変監査証跡には、完全な状態の軌跡、つまり決定が提案されたときの初期状態、各段階で適用された制御入力、完了または失敗後の結果の状態が記録されます。この監査証跡は、適合値反復アルゴリズムが過去の決定結果から値関数 V* を学習するために必要なデータを提供します。

11.2 制約エンフォーサとしてのゲートエンジン

ゲートエンジン (lib/engine/responsibility-gates.ts) は、意思決定パイプラインの各段階で 4 つの厳しい制約を強制します。状態遷移が実行される前に、ゲートエンジンは制約関数を評価します。 Risk(s_t, u_t) ≤ R_max はリスク評価ゲートによってチェックされ、T_h ∈ [T_min, T_max] はトラストキャリブレーションゲートによって監視されます ||ΔI|| ≤ δ は ID 検証ゲートによって強制され、L(u_t) ≤ L_max はレイテンシガードによってチェックされます。提案された遷移によって制約が違反される場合、ゲートエンジンは遷移をブロックし、ポリシー調整のために制御をメタ認知に戻します。このメカニズムにより、統計的に最適化されるだけでなく、構造的に制約を満たすことが保証されます。

11.3 ポリシー近似器としてのメタ認知エンジン

メタ認知エンジンは、3 つの統合されたメカニズムを通じて π* を近似します。まず、信念状態マネージャーは、観測ごとに更新される粒子フィルターを使用して b_t を維持します (決定の質、応答待ち時間、エスカレーションの頻度)。次に、ポリシー評価器は、事前に計算された値関数近似 V_hat をクエリして、制御入力の候補を評価します。 3 番目に、制御調整者は、選択された制御入力を意思決定パイプライン構成に適用します。つまり、座標階層内の自律性しきい値の調整、説明テンプレートの変更、反映演習のスケジュール設定、および意思決定ポリシーパラメーターの更新を行います。

メタ認知エンジンは、決定ごと (説明レベルと個々の決定の自律性を調整する)、セッションごと (セッションレベルの観察に基づいてリフレクショントリガー強度を更新する)、およびエポックごと (蓄積されたデータを使用して信念状態モデルと価値関数近似を再調整する) の 3 つのタイムスケールで動作します。このマルチスケールの操作は、人間の認知変化の自然な時間スケールを反映しています。つまり、メンタルモデルは意思決定ごとに更新され、エンゲージメントはセッションごとに変動し、能力と依存関係はエポックごとに進化します。

11.4 最適性の証拠としての監査証跡

メタ認知によって実行されるすべての制御アクションは、最適性を検証するために必要な完全なコンテキストとともに監査証跡に記録されます。つまり、決定時の信念状態 b_t、検討された制御入力の候補、各候補の評価コスト、選択された制御入力とその正当化、結果として生じる状態遷移です。この監査証跡には 2 つの目的があります。価値関数の近似を継続的に改善するためのトレーニングデータを提供することと、システムが設計パラメータ内で動作し、意図したとおりに多目的コスト関数を追求していることを検証するためにガバナンスチームが必要とする証拠を提供することです。

12. 結論

この論文は、人間と AI の共進化の課題が、制約付きの最適制御問題として厳密に定式化できることを実証しました。タスクの品質、信頼の安定性、人間の能力の維持、リスクの抑制、依存関係の制御のバランスを取る多目的コスト関数を定義し、その結果得られるベルマン方程式を厳しい安全制約の下で解くことにより、AI システムが時間の経過とともに動作をどのように適応させるかを制御する最適な共進化ポリシーを導き出します。

主要な理論的貢献は、標準的な規則性条件下での最適政策の存在と独自性を確立する定理 1 と、フレームワークを部分可観測性まで拡張し、観測履歴が成長するにつれて信念に基づく政策が完全情報最適値に収束することを証明する定理 2 です。社会安定性の分析により、最適な政策は、たとえ無期限の期間であってもシステムが高リスクまたは高依存状態に向かうことを防ぐ長期的な安定条件を満たすことが示されています。

実験による評価では、最適制御ポリシーがパレートハイパーボリューム 0.94、制約満足度 99.1%、社会的安定性指数 0.87 を達成し、代替アプローチを大幅に上回っていることが実証されました。特に、単一目的タスクの品質の最大化と比較した多目的最適化のコストは小さい (3.3% Q_task 削減) 一方で、能力維持、リスク管理、社会的安定性における利点は大きいです。

MARIA OS の実装は、理論的なフレームワークがシステムアーキテクチャに直接変換されることを示しています。つまり、デシジョンパイプラインが状態遷移を実装し、ゲートエンジンが制約を強制し、メタ認知エンジンが最適なポリシーを近似します。監査証跡は、継続的な学習のためのトレーニングデータとガバナンス検証に必要な証拠の両方を提供します。

より広範な意味は、責任ある AI ガバナンスは単なる政策の問題ではなく、制御理論の問題であるということです。人間の能力を尊重し、信頼を維持し、社会の安定を確保する AI システムを設計するためのツールは、制約付き最適制御の数学的枠組みの中にすでに存在しています。欠けているのは、これらのツールが人間と AI の共進化問題に直接適用されるという認識です。この文書ではそのブリッジを提供し、MARIA OS はその実際の実装を示します。

参考文献

1. Bertsekas、D.P. (2019)。 強化学習と最適制御。アテナサイエンティフィック。動的計画法、ベルマン方程式、大規模最適制御問題の近似法を包括的に扱います。

2. サットン、R.S. & バルト、A.G. (2018)。 強化学習: 入門 (第 2 版)。 MITプレス。政策勾配や価値ベースの手法など、不確実性の下での逐次的な意思決定に関する基礎的なテキスト。

3. Kaelbling, L.P.、Littman, M.L.、および Cassandra, A.R. (1998)。部分的に観測可能な確率領域で計画を立て、行動する。 人工知能、101(1-2)、99-134。 POMDP、信念状態の定式化、およびポイントベースの解決方法に関する基礎的な作業。

4. Pineau, J.、Gordon, G.、および Thrun, S. (2003)。ポイントベースの値の反復: POMDP のためのいつでもアルゴリズム。 IJCAI の議事録、1025-1030。実用的な POMDP ソリューションのためのポイントベースの値反復アルゴリズムの導入。

5. Miettinen、K. (1999)。 非線形多目的最適化。スプリンガー。パレート分析、スカラー化手法、ハイパーボリューム指標などの多目的最適化の包括的な処理。

6. アルトマン、E. (1999)。 制約付きマルコフ決定プロセス。チャップマン＆ホール/CRC。制約、ラグランジュ双対性、および制約付き動的プログラミングによる MDP の厳密な処理。

7. パラシュラマン、R. & ライリー、V. (1997)。人間とオートメーション: 使用、誤用、不使用、乱用。 ヒューマンファクター、39(2)、230-253。信頼の調整と、人間と自動化の不適切な信頼関係がもたらす影響に関する有益な研究。

8. Lee, J.D. & See, K.A. (2004)。自動化への信頼: 適切な信頼性を実現する設計。 ヒューマンファクター、46(1)、50-80。適切な信頼の条件を含む、ヒューマンオートメーションシステムの信頼のダイナミクスを理解するためのフレームワーク。

9. ワシントン DC ノース (1990 年)。 制度、制度の変化、および経済パフォーマンス。ケンブリッジ大学出版局。ルール、組織、長期安定性を結びつける制度理論に関する基礎研究。

10. Bertsekas, D.P. & Shreve, S.E. (1978)。 確率的最適制御: 離散時間の場合。学術出版局。可測選択定理や値関数の特性など、確率的動的計画法のための数学的基礎。

制約付き最適制御としての人間-AI共進化: 社会適応型エージェントOS設計

要旨

1. はじめに

2. 背景

2.1 最適制御理論

2.2 ベルマン方程式

2.3 部分的に観察可能なマルコフ決定プロセス

2.4 AI における多目的最適化

3. 状態と制御の定式化

3.1 システム状態

3.2 制御入力

3.3 状態ダイナミクス

4. 多目的コスト関数

4.1 目標の定式化

4.2 客観的な用語の定義

4.3 目標間のトレードオフ

4.4 重みの選択とパレート分析

5. 制約システム

5.1 厳しい制約

5.2 制約の修飾

5.3 ラグランジュの定式化

5.4 能動的制約解析

6. ベルマン方程式

6.1 制約のないベルマン方程式

6.2 制約付きベルマン方程式

6.3 値関数のプロパティ

6.4 定理 1: 最適なポリシーの存在

6.5 ハミルトン・ヤコビ・ベルマン連続時間アナログ

6.6 適合値反復による数値近似

7. 最適な共進化政策

7.1 ポリシーの構造

7.2 最適な説明方針

7.3 最適な自律性ポリシー

7.4 最適な反射ポリシー

7.5 政策近似因子としてのメタ認知

7.6 段階的自律性との関係

8.POMDP拡張機能

8.1 人間の状態の部分的な可観測性

8.2 観測モデル

8.3 信念状態のダイナミクス

8.4 制約された POMDP の定式化

8.5 定理 2: POMDP の安定性

8.6 近似解を求めるためのポイントベースの値の反復

9. 社会的安定条件

9.1 社会的安定の定義

9.2 制御されたマルコフ連鎖のエルゴード性

9.3 エルゴード性の条件

9.4 社会的安定指数

9.5 制度的安定性理論との関連

10. 実験による評価

10.1 実験のセットアップ

10.2 主な結果

10.3 アブレーション研究

10.4 POMDPの結果

11. MARIA OSの実装

11.1 状態遷移としての意思決定パイプライン

11.2 制約エンフォーサとしてのゲート エンジン

11.3 ポリシー近似器としてのメタ認知エンジン

11.4 最適性の証拠としての監査証跡

12. 結論

参考文献

人間-AI共進化の結合力学系モデル: メタ認知制御による相互作用安定化

マルチエージェント社会共進化モデル: 信頼ネットワーク動態と相転移解析

エージェント社会の制度設計: メタガバナンス理論とAI憲法フレームワーク

人間-AI意思決定システムにおける責任分解点の形式モデル

11.2 制約エンフォーサとしてのゲートエンジン