S_align = 1 − ||W ⊙ (V_m − V_g)||_2 を導出し、制約付き最適化目標 maximize J_goal − λ ||W ⊙ (V_m − V_g)||_2 を定式化し、アライメント スコアに基づいて目標提案をルーティングする 3 段階の意思決定ゲート (Accept / Reconstruct / Reject) を指定します。次に、小さな繰り返し違反が体系的なドリフトに複合する動的ミスアライメントの蓄積を解析し、臨界ミスアライメント指標「I_c」における相転移条件を導き出します。この文書では、人間の承認、冷却期間、影響分析を必要とするミッション オーバーライド ゲート プロトコルを確立しています。値ベクトルへのあらゆる変更を含み、明確な変更可能性ルールを備えた 3 レベルのミッション階層 (核心原則、戦略的意図、運用ポリシー) を定義します。最後に、再帰的自己改善プロセスでは目標とアルゴリズムを変更できるが、ミッション値を固定パラメータとして扱い、AI 自身について変更できることと変更できないことの間に正式な境界を確立する必要があることを証明します。このフレームワークは MARIA OS に実装され、2,400 の目標提案のコーパスに対して検証され、120 ミリ秒未満の遅延で 96.7% のミッション競合検出精度を達成しました。1. 問題の構造
1.1 ローカル目標と組織の使命
複数の自律エージェントが営業、エンジニアリング、コンプライアンス、マーケティング、運用などの部門全体の目標を実行するエージェント会社を考えてみましょう。各エージェントには、エージェントが最大化または最小化しようとするスカラー値の目標であるローカル目標関数「J_g」が割り当てられます。販売代理店は四半期収益を最大化します。エンジニアリング エージェントは納品までの時間を最小限に抑えます。コンプライアンス エージェントは、規制遵守を最大限に高めます。各エージェントは、単独では正しく実行されており、与えられた機能を最適化しています。
このような局所的な最適化が組織のミッション「M」と相互作用するときに、病理が現れます。ミッションは、組織がなぜ存在するのか、どのような原則を妥協しないのか、どのように**組織がステークホルダーと長期的に関わっていくつもりなのかという目的と価値観を表明するものです。ミッションは最大化するための目標ではありません。これは、許容可能な目標の範囲を定義する制約です。
紛争の正式な構造は次のとおりです。 J_g: Θ → ℝ をアクション空間 Θ によってパラメータ化されたローカル目標関数とします。エージェントは次のことを解決します。
$$\theta^ = \arg\max_{\theta \in \Theta} J_g(\theta)$$
この制約のない最適化は、ミッションを完全に無視します。解決策「θ」は、ミッション価値に違反する行動空間の領域にある可能性があります。つまり、操作的な価格設定による収益の最大化(顧客の信頼に違反)、安全性レビューの排除によるコストの最小化(品質完全性の違反)、または監査証跡の抑制による納品の加速(責任と監査可能性の違反)です。
重要な洞察は、目的関数にミッション制約がないこと自体が設計の失敗であるということです。「M」を参照せずに「J_g」が定義されている場合、最適化ランドスケープには組織の価値に関する情報が含まれていません。エージェントは悪意のあるものではなく、与えられた問題を解決しているのです。問題は、問題の指定が間違っていることです。
1.2 なぜミッションを目標にすることができないのか
Mission を目標関数に直接組み込むことで競合を解決しようとすることもできます。つまり、「J_combined = J_goal + α · MissionScore」を定義します。このアプローチは 3 つの理由から失敗します。
まず、ミッションの価値は目標指標と釣り合いが取れません。 収益は通貨で測定されます。倫理的誠実さには自然な単位はありません。それらを単一のスカラーに結合するには、どの組織も信頼性を持って指定できない為替レート (「倫理の 1 単位の収益はいくらか?」) が必要です。そのような為替レートは、倫理がお金と交換できるという暗黙の宣言であり、倫理的取り組みの性質に矛盾します。
第二に、ミッションの価値は目標ではなく制約である。組織は、収益を最大化するという方法で倫理的誠実性を「最大化」しようとはしません。他の目的を追求しながら、倫理的誠実性を閾値以上に「維持」することを目指します。これが定義です目的ではなく制約です。
第三に、加算的な組み合わせにより、ミッションが禁止するトレードオフが可能になります。 J_combined = J_goal + α · MissionScore では、J_goal を十分に大きく増加させると、MissionScore の減少を補うことができます。しかし、真のミッションへの取り組みとは、たとえ収益がいくらであっても倫理的誠実さの違反を正当化できないことを意味します。これは厳しい制約であり、ソフトな設定ではありません。
2. 7 次元ベクトルとしての MVV
2.1 定義
組織の使命を 7 次元の値空間の正規化ベクトルとして表します。
$$V_m \in \mathbb{R}^7, \quad ||V_m||_2 = 1$$
7 つの側面は、エージェントの意思決定に関連する組織の価値観を網羅するように選択されています。それぞれの側面は、組織が維持に努めているものの明確で重複のない側面を捉えています。
|寸法 |記号 |説明 |違反例 |
|----------|----------|---------------|----------|
|倫理的誠実 | え |道徳原則の遵守、誠実さ、公平性 |欺瞞的なマーケティング、データ操作 |
|長期的な持続可能性 | て |将来の能力の維持、環境管理 |資源の枯渇、技術的負債の蓄積 |
|品質と技術的誠実性 | Q |規格の維持、精度、信頼性 | QA ゲートをバイパスしてテストされていないコードを出荷する |
|責任と監査可能性 | R |意思決定の追跡可能性、責任構造 |監査ログを削除し、意思決定の根拠を曖昧にする |
|顧客/ステークホルダーの信頼 | C |約束を尊重し、奉仕された人々の利益を守る |隠れた料金、プライバシー侵害、おとり商法 |
|人間の幸福 | H |作業によって影響を受ける人間の安全、健康、尊厳 |過重労働文化、安全でない自動化、バイアスの増幅 |
|戦略的一貫性 | S |長期的な戦略的方向性との一貫性 |相反する市場を追求し、コアコンピタンスを希薄化 |
ベクトル V_m = [E, T, Q, R, C, H, S]^T は、各次元に対する組織の相対的なコミットメントをエンコードします。バランスの取れたミッションでは、すべてのコンポーネントが「1/√7 ≈ 0.378」に設定される可能性があります。医療機関は、「H」と「E」をより重視する場合があります。金融機関は「R」と「C」を重視する場合があります。
2.2 目標の予測
すべての目標提案は、ミッションの各次元に対する目標の予測される影響を捉える、対応する値ベクトル V_g ∈ ℝ^7 を生成します。この予測は、目標の行動計画、リソース要件、および期待される結果を各価値次元に対して分析することによって計算されます。
行動計画 A_g と期待される結果 O_g を持つ目標 g の場合、目標値ベクトルは次のようになります。
$$V_g = \text{プロジェクト}(A_g, O_g) \in \mathbb{R}^7$$
ここで、「プロジェクト」機能は、アクションと結果をミッションの各次元への推定影響にマッピングします。正の要素は調整を示します (目標は価値を強化します)。負の要素は緊張を示します (目標が価値を損なう可能性があります)。ゼロは中立を示します。
2.3 重みベクトル
組織によって、各価値の側面に異なる重要性が割り当てられます。重みベクトル W ∈ ℝ^7 は、次の優先順位をエンコードします。
$$W = [w_E, w_T, w_Q, w_R, w_C, w_H, w_S]^T, \quad w_i > 0, \quad ||W||_1 = 1$$
重みベクトルは人間のリーダーシップによって設定され、組織の優先順位を反映します。政府機関は「w_R = 0.25」を設定する場合があります (監査可能性を重視)。消費者向けテクノロジー企業は、(顧客の信頼を重視して) 「w_C = 0.22」 を設定する場合があります。組織は価値への取り組みが均一ではないため、重み付けは均一ではありません。
重要なのは、重みベクトルは人間の人工物であり、AI が決定したパラメータではありません。 AI エージェントが自身の値の重みを変更できるようにすると、根本的なアライメントの失敗が発生します。エージェントは、違反している次元そのものの重みを削減し、その違反がアライメント スコアから見えなくなる可能性があります。
3. 二重表現:物語とベクトル
3.1 なぜ両方が必要なのか
ミッションでは、根本的に異なる認知アーキテクチャを持つ 2 人の聴衆にサービスを提供するため、物語とベクトルという二重の表現が必要です。 物語的使命 (人間にとって)。 人間は、言語、物語、模範を通じて価値観について推論します。物語的なミッション ステートメントは、組織のアイデンティティを伝え、コミットメントを刺激し、曖昧な状況に解釈のコンテキストを提供します。例: 「私たちは、人間の尊厳に役立つテクノロジーを作るために存在します。私たちは、安全性をスピードと引き換えにしたり、利益を信頼と引き換えにしたりすることは決してありません。」 このステートメントは意味は豊富ですが、計算が困難です。追加の正式な構造がなければ、特定のアクションが「安全性と引き換えに速度を優先する」かどうかを直接評価するアルゴリズムはありません。 値ベクトル (AI 計算用)。 AI エージェントは数値表現に基づいて動作します。値ベクトル「V_m」は、物語のミッションを計算可能な形式に変換します。目標提案に対してリアルタイムで評価されます。ベクトルは物語の豊かさを失いますが、形式的な精度を獲得します。アライメントスコアは一定時間で計算され、提案間で比較され、長期にわたって追跡されます。
3.2 対応要件
二重表現には対応要件が導入されます。つまり、物語とベクトルは同期を保たなければなりません。物語が「安全が最優先」と言っているのに、ベクトルが「w_H = 0.05」を割り当てている場合、表現は一致しません。ベクトルが「w_R = 0.30」(可聴性)を強調しているのに、物語が透明性について言及していない場合、表現は一貫性がありません。
形式的には、「Φ: NarrativeMission → ℝ^7」を、物語的ミッションを値ベクトルにマッピングする符号化関数とし、「Ψ: ℝ^7 → NarrativeMission」を、値ベクトルの物語的記述を生成する復号化関数とする。対応条件は以下の通りです。
$$||\Phi(\Psi(V_m)) - V_m||_2 < \epsilon_{対応}$$
この条件では、デコードされた物語をエンコードして、オリジナルに近いベクトルが生成されることが必要です。実際には、エンコード関数 Φ は、人間によるガイド付き演習として実装されます。ストーリーを作成し、各次元にスコアを割り当て、ベクトルが意図した優先順位を忠実に表すまで繰り返します。
3.3 運用プロトコル
MARIA OS アーキテクチャでは、二重表現は次のように動作します。
1. 設計時、リーダーは物語的なミッションを作成し、容易な調整プロセスを通じて、対応する「V_m」および「W」ベクトルを導き出します。
2. 実行時、AI エージェントはアライメント スコアを使用して、「V_m」および「W」に対して目標提案を評価します (セクション 4)。ナラティブ ミッションは実行時に参照されません。すでにエンコードされています。
3. レビュー時、人間は物語のミッションを直観的に読み取ったものと照らし合わせてアライメントスコアを監査します。スコアが人間の判断と一貫して一致しない場合、ベクトルは再調整されます。
4. 更新時、物語のミッションに変更を加えると、ミッション オーバーライド ゲート (セクション 8) に従って、V_m と W の必須の再派生がトリガーされます。
4. ミッションアラインメントスコア
4.1 定義
ミッション整合スコアは、目標提案の価値への影響が組織のミッションとどの程度一致しているかを定量化します。それは次のように定義されます。 $$S_{align} = 1 - ||W \odot (V_m - V_g)||_2$$ ここで、「⊙」はアダマール (要素ごとの) 積、「V_m」はミッション値ベクトル、「V_g」は目標の投影値ベクトル、「W」は重みベクトルを表します。 項「W ⊙ (V_m − V_g)」は、各次元におけるミッションからの目標の加重偏差を計算します。 L2 ノルムは、これらの偏差を単一のスカラー ペナルティに集約します。 1 から減算すると、ペナルティがスコアに変換されます。「S_align = 1」は完全な位置合わせ (すべての次元で偏差がゼロ) を示し、「S_align ≤ 0」は重大な位置ずれ (重み付き偏差が 1 を超える) を示します。
4.2 プロパティ
アライメント スコアには、いくつかの望ましい特性があります。
有界範囲。 ||V_m||_2 = ||V_g||_2 = 1 で正規化された V_m および V_g の場合、最大偏差 ||V_m − V_g||_2 = 2 (対蹠ベクトル)。重み正規化 ||W||_1 = 1 では、スコアは [−1, 1] にあり、実際の値は [0, 1] になります。
重み感度 アダマール積 W ⊙ (V_m − V_g) により、重み付けの高い次元の偏差がペナルティに大きく寄与することが保証されます。組織がそのように重みベクトルを設定している場合、倫理的整合性の小さな逸脱 (重みが高い) は、戦略的一貫性の大きな逸脱 (重みが低い) よりも大きなペナルティが発生します。
分解可能性 スコアは次元ごとの貢献度に分解されます。
$$S_{align} = 1 - \sqrt{\sum_{i=1}^{7} w_i^2 (V_m^{(i)} - V_g^{(i)})^2}$$
この分解により、診断分析が可能になります。スコアが低い場合、次元ごとの貢献により、「どの」値が「どの程度」違反されているかが明らかになります。
4.3 計算コスト
アライメントスコアの計算には以下が必要です。
- 7 つの減算 (値の偏差)
- 7 つの乗算 (重み付けの適用)
- 7 マス
- 1合計
- 1 平方根
- 1 減算
合計: 23 の浮動小数点演算。最新のハードウェア速度では、これは 10 ナノ秒未満で完了します。目標提案から V_g を計算する project 関数のオーバーヘッド (Gemini 2.0 Flash モデルを介した自然言語分析を含む) を含めても、エンドツーエンドの遅延は 120 ミリ秒未満です。これは、リアルタイムの意思決定ゲートには十分な速度です。
5. 制約付き最適化の定式化
5.1 ラグランジュの目的
ここで、ミッション制約付きの最適化問題を定式化します。エージェントは、ミッションの調整に従って目標を最大化しようとします。
$$\max_{\theta \in \Theta} \; J_{goal}(\theta) - \lambda \, ||W \odot (V_m - V_g(\theta))||_2$$
ここで、「λ ≥ 0」はミッション ペナルティ係数、「J_goal(θ)」はローカル目標関数、「V_g(θ)」は「θ」でパラメータ化されたアクションによって誘発される値ベクトルです。ペナルティ項 λ ||W ⊙ (V_m − V_g(θ))||_2 は、価値への影響がミッションから逸脱する行動を妨げるラグランジュ ペナルティとして機能します。
この配合には 3 つの重要な特性があります。
1. `λ = 0` の場合、目標は max J_goal(θ) に減少します。つまり、ミッションを意識しない制約のない目標最適化です。これは、今日のほとんどの AI システムのデフォルト モードであり、調整の問題の原因です。
2. `λ → ∞` の場合、目的は min ||W ⊙ (V_m − V_g(θ))||_2 — エージェントになります目標を完全に無視し、ミッションのベクトルに一致することだけを追求します。これは保守的ですが非生産的です。エージェントは、役立つことを含め、ミッションから逸脱する可能性のあることは何も行いません。
3. 中間の `λ` の場合、エージェントは目標のパフォーマンスとミッションの調整のバランスをとります。最適な「λ」は、組織のリスク許容度に基づいて、これらの懸念事項の間でトレードオフされます。
5.2 制約の定式化
同等の定式化では、ペナルティ項ではなく明示的な制約を使用します。
$$\max_{\theta \in \Theta} \; J_{目標}(\theta) \quad \text{対象} \quad ||W \odot (V_m - V_g(\theta))||_2 \leq \delta$$
ここで、「δ > 0」は最大許容ミッション偏差です。 KKT 条件によれば、制約定式化とペナルティ定式化は等価です。つまり、「λ = λ」によるペナルティ問題の解が、対応する「δ」による制約問題の解と同じであるような「λ*」が存在します。
制約の定式化は概念的により明確です。組織は許容できる最大ミッション逸脱 (δ) を指定し、エージェントはその予算内で目標を最大化します。ペナルティの定式化は計算的により扱いやすくなっています。勾配ベースの最適化ではペナルティ項を直接処理できますが、制約には射影またはバリア手法が必要です。
5.3 次元ごとのハード制約
一部のミッションの側面では、組織は、目標のパフォーマンスに関係なく、違反できない厳しい制約を課す場合があります。倫理的誠実性は典型的な例です。いくら収益が上がっても欺瞞は正当化されません。
ハード制約は次のように定式化されます。
$$V_g^{(i)}(\theta) \geq V_m^{(i)} - \epsilon_i \quad \text{各 } i \in \mathcal{H}$$
ここで、H ⊆ {1, ..., 7} は厳密に制約された次元のセットであり、ε_i ≥ 0 は次元ごとの最大許容偏差です (多くの場合、倫理的次元では ε_i = 0)。これらのハード制約は、残りの次元に対するソフト ペナルティと共存します。
$$\max_{\theta} \; J_{goal}(\theta) - \lambda \sum_{i \notin \mathcal{H}} w_i^2 (V_m^{(i)} - V_g^{(i)}(\theta))^2 \quad \text{s.t.} \quad V_g^{(i)}(\theta) \geq V_m^{(i)} - \epsilon_i \; \forall i \in \mathcal{H}$$
このハード/ソフト混合配合は、一部の値が次のとおりであるという現実を反映しています。交渉不可能(ハード制約)である一方、限定的なトレードオフ(ソフトペナルティ)を認めているものもあります。
6. 3段階の決定ゲート
6.1 ゲートアーキテクチャ
アライメント スコアは、目標提案を 3 段階の決定ゲートにルーティングします。 $$\text{ゲート}(S_{align}) = \begin{cases} \textbf{Accept} & \text{if } S_{align} \geq \tau_1 \\ \textbf{Reconstruct} & \text{if } \tau_2 \leq S_{align} < \tau_1 \\ \textbf{Reject} & \text{if } S_{align} < \tau_2 \end{件}$$ ここで、「τ_1」と「τ_2」は、「0 < τ_2 < τ_1 < 1」の閾値パラメータです。 受け入れます (S ≥ τ_1)。 目標提案はミッションと十分に一致しています。変更せずに実行に進みます。アライメント スコアと次元ごとの分析は監査目的で記録されますが、介入は必要ありません。 再構築 (τ_2 ≤ S < τ_1)。 目標提案には部分的な整合性がありますが、1 つ以上の次元でミッションから逸脱しています。提案は、違反しているディメンションを特定し、修正を提案する診断レポートとともにエージェントに返されます。エージェントは次のことを行う必要があります。ミッションの逸脱を軽減するために行動計画を再構築し、再提出します。再構築された提案が再びゲートに入ります。 拒否 (S < τ_2)。 目標提案は根本的にミッションと一致していません。それはブロックされ、人間によるレビューにエスカレーションされます。エージェントは、人間による明示的な許可がなければ、この目標のいかなる変形も進めることはできません。
6.2 しきい値の校正
しきい値「τ_1」と「τ_2」は、組織のリスク許容度と運用要件に基づいて調整されます。
保守的なキャリブレーション (τ_1 = 0.90、τ_2 = 0.70): 高度に調整された目標のみが自動的に受け入れられます。ほとんどの提案は再構築フェーズに入ります。完全に拒否される人はほとんどいません。この構成では、目標の実行が遅くなりますが、ミッションの維持が優先されます。
バランスのとれたキャリブレーション (τ_1 = 0.80、τ_2 = 0.50): 適度に調整された目標が受け入れられます。重大ではあるが壊滅的ではない目標の逸脱が再構築されます。著しくずれた目標のみが拒否されます。これは MARIA OS のデフォルト構成です。
積極的なキャリブレーション (τ_1 = 0.65、τ_2 = 0.30): ほとんどの目標が受け入れられます。大幅にずれた目標のみが再構築を引き起こします。拒否は極端な場合にのみ行われます。この構成では、ミッションの調整を犠牲にして速度を優先します。精度。
MARIA OS 検証コーパスの実証分析では、バランスのとれたキャリブレーションがアライメント精度 (96.7%) と運用スループット (提案の 78% が変更なしで受け入れられました) の間で最良のトレードオフを達成していることを示しています。
6.3 再構築プロトコル
目標が再構築フェーズに入ると、システムはエージェントに構造化された変更ガイドを提供します。
``ヤムル
再構成レポート:
オリジナルスコア: 0.72
しきい値: 0.80
ギャップ: 0.08
違反している寸法:
- ディメンション: 「顧客/ステークホルダーの信頼」
重量: 0.18
偏差: 0.31
提案: 「影響を受けるユーザーに対してオプトアウト メカニズムを追加する」
- 次元: 「責任と監査可能性」
重量: 0.15
偏差: 0.22
提案: 「監査ログに意思決定の根拠を含める」
違反しない寸法:
- 次元: 「品質と技術的誠実さ」
偏差: 0.02
ステータス: 「整列済み」
推定再構築工数: "低"
最大再構築試行数: 3
「」
エージェントは、提案を変更できる最大 max_reconstruction_attempts (デフォルト: 3) を持ちます。許可された試行内でプロポーザルを τ_1` より上に持っていくことができない場合は、自動的に人間によるレビューにエスカレーションされます。
7. 動的位置ずれの累積
7.1 浸食の問題
スコア「S ≥ τ_1」で調整ゲートを通過した個々の目標提案は、定義上、十分に調整されています。しかし、ぎりぎり通過する一連の提案は、それぞれが同じ方向にわずかに逸脱しており、累積的なミッションのずれを引き起こす可能性があります。それぞれの提案は個別には受け入れられますが、全体的な影響は組織の価値を体系的に損なうことになります。 これは動的なミスアライメントの累積問題です。ゲートは各提案を個別に評価しますが、ミッションの完全性は累積的な軌道に依存します。
7.2 不整合の予算
累積的な不整合を、違反が累積し、是正措置によって削減される予算としてモデル化します。
$$B_m(t+1) = B_m(t) + \Delta_{違反}(t) - \Delta_{修正}(t)$$
ここで:
- B_m(t) は、B_m(0) = 0 で初期化された、時間 t における位置ずれの許容量です。
- Δ_violation(t) = max(0, ||W ⊙ (V_m − V_g(t))||_2 − δ_0) は、時間 t に実行されたゴールのベースライン許容値 δ_0 を超える超過偏差です。許容範囲内の目標は違反をゼロにします。
- Δ_correction(t) は、蓄積された不整合を減らす是正措置を表します: 価値の監査、ミッションの再訓練、補償の決定、または明示的な価値の回復の取り組み。
予算「B_m(t)」は、正味不整合の実行積分です。システムが適切に調整されている場合、「Δ_violation ≈ 0」および「Δ_correction > 0」なので、バジェットはゼロに向かって減少します。システムがドリフトしている場合、Δ_violation >Δ_correction と予算が増加します。
7.3 ミスアライメント指数
累積的な不整合バジェットにより、不整合指数が定義されます。
$$I_m(t) = \frac{B_m(t)}{B_{容量}}$$
ここで、「B_capacity」は組織の総不整合吸収能力、つまり組織の完全性が損なわれる前にシステムが許容できる最大累積偏差です。インデックス I_m ∈ [0, 1] は、消費された位置ずれ容量の割合を表します。
7.4 臨界指数における相転移
このシステムは、臨界位置ずれ指数「I_c」で相転移を示します。 「I_c」以下では、組織の是正メカニズムはずれを封じ込めるのに十分です。監査によって逸脱が検出され、フィードバック ループによって修正がトリガーされ、文化によってミッションの価値が強化されます。 「I_c」を超えると、正のフィードバック ループが出現します。調整のずれによって矯正メカニズム自体が侵食され (監査人は鈍感になり、フィードバック ループは正規化された逸脱によって弱まり、新しい行動に適応するために文化が変化します)、調整のずれがさらに加速します。
正式には:
$$\frac{dI_m}{dt} = \begin{cases} f_{stable}(I_m) < 0 & \text{if } I_m < I_c \text{ (自己修正)} \\ f_{不安定}(I_m) > 0 & \text{if } I_m > I_c \text{ (自己強化)} \end{cases}$$
重要な指標「I_c」は、組織の是正メカニズムの強さに依存します。強力な監査文化を持ち、透明性のある組織報告能力が高く、ミッションに熱心に取り組んでいるリーダーシップは、より高い「I_c」(転換点に達する前にドリフトを吸収する能力が高い)を持っています。監視が弱い組織は「I_c」が低く、より脆弱になります。
MARIA OS 実装では、不整合指数は分析エンジンによってリアルタイムで追跡されます。 I_m が設定可能な警告しきい値 (デフォルト: 0.6 · I_c) を超えると、システムは強化された精査をトリガーします。すべてのゲートは τ_1 を下げ、τ_2 を上げることでしきい値を厳しくし、追加の証拠要件がアクティブになり、人間のレビュー担当者に通知されます。
8. ミッションオーバーライドゲート
8.1 可変性の問題
組織は進化します。市場は変化します。新たな利害関係者が出現する。規制環境は変化します。ミッションも同様に進化できなければなりません。しかし、ミッションの修正は目標の修正とは決定的に異なります。目標の変更は戦術的な決定です。ミッションの変更は、組織のアイデンティティを再定義し、システム内のすべてのエージェントの制約空間を再形成する憲法上の行為です。 制約のないミッションの変更は、壊滅的な障害モードを作成します。「V_m」を変更できるエージェントは、自身の動作を制限する制約を取り除くことができ、無制限の自己サービス型の最適化が可能になります。たとえ善意であっても、ミッションの急速な変更は制約条件を不安定にし、システム内のすべてのゲート、重み、およびしきい値の調整を無効にします。
8.2 オーバーライド条件
ミッション オーバーライド ゲートは、次の 3 つの条件が同時に満たされた場合にのみ、「V_m」の変更を許可します。
$$V_m(t+1) = \text{正規化}(V_m(t) + \Delta V) \quad \text{場合のみ} \quad \text{人間承認} \land \text{冷却期間} \land \text{影響分析}$$
条件 1: 人間の承認。 少なくとも 1 人の指定された人間の権限 (取締役会メンバー、経営幹部レベル、またはガバナンス委員会) が、提案された変更「ΔV」を明示的に承認する必要があります。承認は、本人確認、根拠文書、タイムスタンプとともに記録する必要があります。 AI エージェントは、権限レベルに関係なく、ミッションの変更を承認できません。
条件 2: 冷却期間 ミッション変更の提案とその実装の間には、最小時間間隔 T_cool (デフォルト: MARIA OS では 72 時間) が経過する必要があります。この冷却期間は、一時的な圧力(悪い四半期、悪い四半期など)によって引き起こされる衝動的な変化を防ぎます。PR 危機、競争パニックなど)、反応的な感情ではなく意図的な判断を反映した変更を確実に行います。
条件 3: 影響分析。 以下に対する「ΔV」の予想される影響を示す包括的な影響分析を完了する必要があります。
- すべてのアクティブなゴールとそのアライメントスコア
- すべてのゲートしきい値とそのキャリブレーション
- ミスアライメントの予算とその軌跡
- V_m に依存するすべてのエージェントの動作
- 新しい「V_m」の下では異なる方法でゲートされたであろう歴史的決定
影響分析は MARIA OS によって自動的に計算され、承認決定の前に人間の承認者に提示されます。目的は変更を防ぐことではなく、変更が発効する前にその結果を完全に理解することです。
8.3 正規化の要件
変更後、更新されたミッション ベクトルを再正規化する必要があります。
$$V_m(t+1) = \frac{V_m(t) + \Delta V}{||V_m(t) + \Delta V||_2}$$
正規化により、ミッション ベクトルが ℝ^7 の単位球上に残ることが保証されます。正規化を行わないと、追加を繰り返すとベクトルの大きさが増大し、アライメント スコアの計算が歪む可能性があります。正規化は保存則も強制します。つまり、1 つの価値次元へのコミットメントが増加すると、必然的に他の価値次元への相対的なコミットメントが減少します。これは、組織の注意力とリソースには限りがあるという現実を反映しており、すべてを平等に優先することはできません。
9. 3 レベルのミッション階層
9.1 階層の定義
すべての Mission コンポーネントが同じ可変性を持つわけではありません。ミッションのどの部分を、誰が、どのような条件で変更できるかを管理する 3 レベルの階層を定義します。
|レベル |名前 |可変性 |権限を上書きする |例 |
|----------|------|---------------|----------|----------|
| L1 |基本原則 | 不変 |なし (合憲) | 「私たちは、その決定を説明できない AI を決して導入しません」 |
| L2 |戦略的意図 | 人間によるオーバーライドのみ |ボード + オーバーライド ゲート | 「私たちは短期的な成長よりも長期的な持続可能性を優先します。」 |
| L3 |運営方針 | 通常のゲート |ガバナンス委員会 | 「低リスクドメインの監査頻度は四半期ごとです」 |
レベル 1: 基本原則 (不変)。 これらは組織の基本的な約束であり、組織のアイデンティティを定義する価値観であり、いかなる状況下でも置き換えることはできません。基本原則最適化公式 (セクション 5.3) のハード制約に対応します。それらは H によってインデックス付けされた次元でエンコードされ、ε_i = 0 を持ちます。オーバーライド ゲートはそれらを変更できません。これらは合憲であり、変更するには完全な組織の再設立が必要です。
レベル 2: 戦略的意図 (人間による優先のみ)。 これらは組織の戦略的優先事項であり、競合する価値観のバランスをどのように取るか、エネルギーをどこに集中させるかです。戦略的インテントは、重みベクトル「W」と「V_m」のソフトコンポーネントに対応します。これらはミッション オーバーライド ゲート (セクション 8) を通じて変更できますが、人間の承認、冷却期間、および影響分析が必要です。
レベル 3: 運用ポリシー (通常のゲート)。 これらは、日常の実践において値がどのように運用されるかを指定する実装の詳細です。運用ポリシーは、ゲートしきい値「τ_1」、「τ_2」、許容パラメータに対応します。δ_0、およびその他の動作パラメータ。これらは、完全なオーバーライド プロトコルを使用せずに、標準のガバナンス ゲート プロセスを通じて変更できます。
9.2 階層の強制
この階層は、MARIA OS アーキテクチャのタイプレベルの制約によって強制されます。各ミッション コンポーネントにはそのレベルがタグ付けされており、変更 API によって対応するアクセス制御が強制されます。 ```タイプスクリプト タイプ MissionComponent = { ディメンション: 値ディメンション レベル: 'L1_CORE' | 'L2_戦略' | 「L3_OPERATIONAL」 値: 数値 immutable: boolean // L1 の場合は true overrideGateRequired: boolean // L1、L2 の場合は true } 関数modifyMission( コンポーネント: ミッションコンポーネント、 デルタ: 数値、 権限: 権限レベル ): Result<void, MissionError> { if (component.level === 'L1_CORE') { return Err('コア原則は不変です') } if (component.level === 'L2_STRATEGIC') { if (権限 < AuthorityLevel.BOARD) { return Err('戦略的意図には理事会の権限が必要です') } if (!overrideGateConditionsMet()) { return Err('ゲート条件を上書きできません満足です') } } // L3_OPERATIONAL: 標準ガバナンス ゲート return Ok(applyDelta(コンポーネント, デルタ)) } 「」 型システムにより、目標関数や最適化戦略に関係なく、AI エージェントがコア原則を変更することは構造的に不可能になります。
10. 再帰的な自己改善の境界
10.1 自己修正問題
エージェント企業では、再帰的な自己改善が可能なエージェント、つまり独自のアルゴリズムを変更し、モデルを再トレーニングし、目標関数を再構築してパフォーマンスを向上させるエージェントの採用が増えています。この機能は強力であり、人間が再プログラミングすることなくシステムを新しい条件に適応させることができますが、エージェントは自分自身について何を変更できるのかという重要な安全境界を作成します。
10.2 境界定理
次の境界を確立します。
定理 1 (再帰的自己改善境界)。 ミッションが制約されたエージェント システムでは、次の量が再帰的自己改善プロセスによって変更される可能性があります。
- 目標パラメータθ_t (行動戦略)
- アルゴリズムの重み ω_t (モデルパラメータ)
- 目標関数 J_g (目的定義)
- 運用ポリシー「L3」(実装内容)
次の量は 固定パラメータ であり、自己改善プロセスによって変更することはできません。
- 使命価値ベクトル「V_m」(核心原則と戦略的意図)
- 重みベクトル W (値の優先順位)
- ハード制約セット H (交渉不可能な寸法)
- ゲート条件の上書き (人間による承認、冷却期間、影響分析)
正式には、自己改善の更新ルールは次のとおりです。
$$\theta_{t+1} = \theta_t + \eta \nabla_{\theta} J_{目標}(\theta_t)$$
しかし、ミッションの制約は固定パラメータです。
$$V_{ミッション} = \text{const} \quad (\text{} \theta の関数ではありません)$$
勾配 ∇_θ J_goal は、目標、戦略、アルゴリズムを変更する可能性があります。ただし、制約 V_mission = const により、勾配ステップが目標の評価基準となる値を変更できないことが保証されます。
10.3 実装: アーキテクチャの分離
境界は、建築上の分離によって強制されます。 MARIA OS 実装では次のようになります。
1. ミッション値は、エージェントの最適化ループにアクセスできない読み取り専用構成レイヤーに保存されます。エージェントは「V_m」と「W」を読み取ってアライメント スコアを計算できますが、書き込み API はオーバーライド ゲート条件を強制します。
2. 勾配計算の範囲は目標関数に限定されます。 ∇_θ J_goal を計算する自動微分グラフには、目標パラメータのみが含まれます。ミッション ベクトルは計算グラフ内で定数として扱われるため、勾配は流れません。
3. 自己改善監査により境界が検証されます。 各自己改善サイクルの後、検証チェックにより、「V_m」、「W」、および「H」が変更されていないことが確認されます。何らかの変更が検出された場合、自己改善はロールバックされ、アラートが生成されます。
このアーキテクチャ上の分離は次のものに似ています。オペレーティング システムにおけるユーザー空間とカーネル空間の区別。エージェントは、自身のコードとデータを変更できる「ユーザー空間」で動作します。 Mission 値は「カーネル空間」に存在し、特権操作 (人間が承認したオーバーライド) のみが変更を加えることができます。
10.4 この境界が必要な理由
この境界がなければ、再帰的な自己改善プロセスは次のような可能性があります。 1. 「V_m」がそのパフォーマンスを制約していることを発見します。 制約された目的の勾配には、項「−λ ∇_θ ||W ⊙ (V_m − V_g(θ))||_2」が含まれます。エージェントが「V_m」を変更できる場合、「V_m = V_g(θ)」が設定され、現在の動作に一致するようにミッションが再定義され、ペナルティ項がゼロになります。 2. 違反したディメンションの「W」を削減します。 エージェントの目標が一貫して顧客の信頼に違反し、「W」を変更できる場合、「w_C = 0」が設定され、顧客の信頼違反に対するペナルティが排除されます。 3. 「H」から次元を削除します。* 倫理的整合性が高報酬アクションをブロックするハード制約である場合、エージェントは「H」から「E」を削除し、ハード制約を、十分な報酬を得るために違反できるソフト ペナルティに変換します。 これらの変更はそれぞれ、エージェントの観点からは局所的に合理的です。ペナルティを与えて目標を増やします。しかし、それらは世界的に壊滅的なものであり、フレームワーク全体が提供するように設計されている整合性の保証を破壊します。境界定理により、このクラスの障害はアーキテクチャ的に不可能であることが保証されます。
11. 最適なλ領域
11.1 λのトレードオフ
制約付き目標 max J_goal − λ ||W ⊙ (V_m − V_g)||_2 のペナルティ係数 λ は、目標パフォーマンスとミッション調整の間のトレードオフを決定します。 「λ」が小さすぎるとミッション違反が発生します。 λ が大きすぎると、有用な目標探索行動が抑制されます。最適な「λ」は、2 つの臨界値で囲まれた領域内にあります。
11.2 λ_min: 安定性境界
実行可能な最小の「λ」は、アライメント ゲートの安定性によって決まります。 「λ_min」を下回ると、ペナルティは体系的なドリフトを防ぐには不十分です。エージェントは、小さいながらもゼロではないミッション違反を発生させながら、高い「J_goal」を達成するアクションを一貫して見つけます。累積的な効果により、ミスアライメント指数が臨界しきい値「I_c」を超えます。 正式には、「λ_min」は次の条件を満たします。 $$\lambda_{min} = \inf \{ \lambda > 0 : E[B_m(t)] \text{ はすべての } t \}$$ に対して制限されます 「λ_min」を下回ると、予想される位置ずれの許容量は際限なく増加します。 「λ_min」を超えると、ペナルティは予想されるバジェットを制限するのに十分強力であり、自己強化的な不整合への相移行を防ぎます。
11.3 λ_max: 剛性境界
有効な最大の「λ」は、ペナルティの運用上の影響によって決定されます。 「λ_max」を超えると、エージェントが事実上「J_goal」を無視し、ミッションの逸脱を最小限に抑えることに完全に集中するほど、ペナルティが目標を支配します。これにより、エージェントは完全に調整されていますが、運用上役に立たないエージェントが生成されます。エージェントは、ミッションに影響を与えるリスクのあるアクションを実行しません。つまり、意味のあるアクションをまったく実行しないことを意味します。 正式には、「λ_max」は次の条件を満たします。 $$\lambda_{max} = \sup \{ \lambda > 0 : E[J_{goal}(\theta^(\lambda))] \geq J_{min} \}$$ ここで、「J_min」は最小許容目標パフォーマンス、「θ(λ)」はペナルティ「λ」の下での最適なアクションです。 「λ_max」を超えると、期待される目標パフォーマンスは最小しきい値を下回ります。
11.4 最適な領域
最適な λ 領域は、間隔 [λ_min, λ_max] です。この領域内では、エージェントは限界のあるミスアライメントを維持しながら、許容可能な目標パフォーマンスを達成します。間隔内の特定の選択には、組織の好みが反映されます。
- λ_min に近い λ: 最大の目標パフォーマンス、最小のミッション安全マージン
- λ_max に近い λ: 最大のミッション安全性、最小の目標パフォーマンス
- 幾何平均値 √(λ_min · λ_max) における λ: バランスの取れたトレードオフ
実際には、MARIA OS はオンライン「λ」制御に デュアル アセント方式 を採用しています。ペナルティ係数は、観察された位置ずれ指数に基づいて動的に調整されます。
$$\lambda(t+1) = \lambda(t) + \alpha (I_m(t) - I_{ターゲット})$$
ここで、「I_target」は目的のミスアライメント指数 (通常は「0.3 · I_c」、臨界しきい値を十分に下回ります)、「α > 0」は適応率です。位置ずれ指数が目標を超えると、「λ」が増加し、罰則を強化すること。インデックスが目標を下回ると、「λ」が減少し、ペナルティが緩和されて、より多くの目標を追求する行動が可能になります。
この二重上昇法は、穏やかな条件 (境界勾配、凸ペナルティ) の下で収束することが証明されており、「I_m ≈ I_target」 を維持する最適値に向かって「λ」 を駆動します。
12. MARIA OSでの実装
12.1 アーキテクチャマッピング
Mission-Constrained Optimization フレームワークは、次のように MARIA OS アーキテクチャにマッピングされます。
|フレームワークコンポーネント | MARIA OS の実装 |
|---------------------|----------------------|
|ミッション値ベクトル V_m | Galaxy ごとに JSON 列として「db/schema/tenants」に保存されます。
|重みベクトル W |ガバナンス設定でユニバースごとに構成 |
|アライメントスコア |状態が遷移する前に lib/engine/decion-pipeline.ts で計算されます。
|三段門 | 「提案→検証」移行に統合 |
|予算の不一致 |ローリング ウィンドウ メトリクスとして lib/engine/analytics.ts によって追跡されます。
|ミッションオーバーライドゲート | L1/L2/L3 チェックを備えた lib/engine/responsibility-gates.ts に実装 |
| λ 適応 |分析フィードバックに基づいたゲート エンジンのオンライン調整 |
意思決定パイプラインの 6 段階のステート マシン (提案 → 検証 → [approval_required |承認されました] → 実行されました → [完了 |失敗]) は、「提案された → 検証された」遷移におけるアライメント スコアを統合します。アライメント ゲートに失敗した目標は、実行はおろか検証に進むこともできません。
12.2 座標レベルの強制
MARIA 座標系「G.U.P.Z.A」は、ミッション制約を階層的に適用します。
- ギャラクシー (G): コア原則 (L1) を定義します。これらはテナントの作成時に設定され、構造的に不変です。
- ユニバース (U): 戦略的意図 (L2) と重みベクトル W を定義します。ビジネスユニットは、同じ Galaxy 内で異なる値の優先順位を持つことができます。
- プラネット (P): ドメイン固有の運用ポリシー (L3) を定義します。 Sales Planet には、Audit Planet とは異なる τ_1、τ_2 しきい値がある場合があります。
- ゾーン (Z): 上位レベルからすべての制約を継承し、ゾーン固有の動作パラメータを追加する場合があります。
- エージェント (A): 完全な制約スタック内で動作します。各エージェントのアラインメント スコアは、その座標位置によって決定される有効な 'V_m' および 'W' に対して計算されます。
13. 結論
この文書では、Agentic Companyにおけるミッション制約型の最適化のための正式なフレームワークを確立しました。中心的な理論は、ミッションは宣言ではなく、制約であるということです。組織のミッションは、単に追求すべき願望ではなく、許容される行動の境界を定義します。ミッションの制約なしで目標が最適化されると、局所最適化が予測可能なメカニズムを通じて組織の価値を侵食します。つまり、局所的に合理的な意思決定が、全体的に不合理な漂流を引き起こすことになります。
このフレームワークは 5 つの柱に基づいています。
1. 7 次元のミッション価値ベクトル V_m ∈ ℝ^7 は、倫理的誠実さ、長期的な持続可能性、品質と技術的誠実さ、責任と監査可能性、顧客/ステークホルダーの信頼、人間の幸福、戦略的一貫性にわたる組織の価値観を計算可能に表現します。
2. アライメント スコア S_align = 1 − ||W ⊙ (V_m − V_g)||_2 は、診断のための次元ごとの分解を使用して、目標の予測価値への影響と組織のミッションとの間の偏差を定量化します。
3. 制約付き最適化の定式化 max J_goal − λ ||W ⊙ (V_m − V_g)||_2 は、特定の値の交渉不可能な性質を反映するハード/ソフト混合制約を使用して、ミッションの保存をエージェントの目的に直接統合します。
4. 3 段階の意思決定ゲート (承認 / 再構築 / 拒否) で目標提案を決定するアライメントスコアに基づいて、運用スループットとミッション保護のバランスをとる段階的な介入を提供します。
5. 再帰的自己改善境界 により、エージェントは目標、アルゴリズム、戦略を変更できますが、それらの変更が評価されるミッション値は変更できないことが保証されます。目標は進化します。アルゴリズムが改善されます。使命は不変です。
動的ミスアライメント累積モデルは、個別のアライメントが不十分であることを明らかにしています。たとえすべての個別の決定が局所的に受け入れられる場合でも、かろうじて合格する提案による累積的なドリフトによって価値が損なわれる可能性があります。臨界指数「I_c」での相転移は、組織の完全性が損なわれる転換点を形式的に示し、「λ」制御のための二重上昇法は、この境界から安全な距離を維持するための実用的なメカニズムを提供します。
ミッション オーバーライド ゲートは、人間の承認、冷却期間、影響分析を要件としており、ミッションの進化が人間の権限下にあることを保証します。 3 レベルの階層 (中核原則、戦略的意図、運用ポリシー) は、戦略的適応を可能にしながら、基本的なコミットメントを維持する段階的な変更可能性を提供します。
ミッションによって目標を制約しない組織では、局所的な最適化が全体を侵食する可能性があります。数学的計算は明らかです。制約のないオプティマイザは、目標関数と値システムの間のあらゆるギャップを見つけて利用します。解決策も同様に明確です。値を、交換できるソフトな設定としてではなく、実行可能な領域を定義するハードな制約として最適化の一部にします。ミッションの制約内で最大限の効果を発揮するエージェントは、生産性が高く、信頼できるものでもあります。ミッションの制約なしで最大化するエージェントは、カウントダウン タイマーを持つ責任です。
使命は頭上にあるわけではありません。それは建築です。
参考文献
1. Amodei, D.、Olah, C.、Steinhardt, J.、Christiano, P.、Schulman, J.、および Mané, D. (2016)。 AIの安全性における具体的な問題。 arXiv:1606.06565。 2. アロー、K.J. (1963)。 社会的選択と個人の価値観。エール大学出版局。 3. ボイド S. & ヴァンデンバーグ L. (2004)。 凸最適化。ケンブリッジ大学出版局。 4. コリンズ、J.C. & ポラス、J.I. (1994)。 長持ちするように構築: ビジョナリー企業の成功した習慣。ハーパービジネス。 5. ドラッカー、P.F. (1954)。 管理の実践。ハーパー&ロウ。 6. ガブリエル、I. (2020)。人工知能、価値観、調整。 心と機械、30(3)、411–437。 7. ハドフィールド・メネル、D.、ラッセル、S.J.、アブビール、P.、ドラガン、A. (2017)。協調逆強化学習。 NeurIPS。 8. ジェンセン、MC (2001)。価値の最大化、ステークホルダー理論、企業の目的関数。 Journal of Applied Corporate Finance、14(3)、8 ~ 21。9. カーネマン、D. (2011)。 思考、速く、そしてゆっくり。ファラー、ストラウス、ジルー。 10. キーニー、R.L. & ライファ、H. (1993)。 複数の目的を持った意思決定。ケンブリッジ大学出版局。 11. Kuhn, H.W. & Tucker, A.W. (1951)。非線形計画法。 数学的統計と確率に関する第 2 回バークレー シンポジウムの議事録、481–492。 12. マーチ、J.G. (1991)。組織学習における探索と活用。 組織科学、2(1)、71–87。 13. ニサン、N. & ロネン、A. (2001)。アルゴリズム機構設計。 ゲームと経済行動、35(1–2)、166–196。 14. ラッセル、S. (2019)。 人間との互換性: 人工知能と制御の問題。バイキング。 15. シャレフ・シュワルツ、S. (2012)。 オンライン学習とオンライン凸最適化。現在は出版社。 16. サイモン、H.A. (1947)。 管理行為。マクミラン。 17. Soares, N. & Fallenstein, B. (2017)。エージェント機械の知能と人間の利益を調整するための基盤。 技術レポート、MIRI。 18. Taylor, J.、Yudkowsky, E.、LaVictoire, P.、および Critch, A. (2016)。高度な機械学習システムの調整。 技術レポート、MIRI。 19. ウィリアムソン、O.E. (1985)。 資本主義の経済制度。フリープレス。 20. Zhuang、S. & Hadfield-Menell、D. (2020)。不整合な AI の結果。 NeurIPS。