要旨
AI ガバナンス システムのゲートは、一般に承認チェックポイント、つまり安全でない行為をブロックし、安全な行為を許可する障壁として扱われます。この論文では、ゲートは既存のガバナンス フレームワークが無視する形式的な安定性要件を備えた 制御理論コンポーネントであると主張しています。各ゲートを遅延バイナリ コントローラーとしてモデル化します。これは、証拠の十分性、リスク評価、コンプライアンス ステータスに基づいて許可またはブロックを出力する関数であり、評価の遅延は重要です。複数のゲートが直列に構成されている場合、遅延が累積するため、問われなくなった質問に対して正しい答えが得られることを避けるために、意思決定の関連性ウィンドウ内に留まる必要があります。ゲートが補正フィードバック ループ (証拠の取得、スキルの補充) をトリガーする場合、過剰補正の発振を防ぐためにループ ゲインは「kK < 1」を満たす必要があります。私たちは、ゲートの安全性が単調ではないことを証明します。ゲート数: 臨界点を超えると、ゲートを追加すると、遅延の蓄積とフィードバックの不安定性によってシステムのパフォーマンスが低下しますが、リスクを最小限に抑えることはできません。安全性は、ゲート量からではなく、遅延バジェット、ループ ゲイン、回復サイクル限界という 3 つの直交する設計パラメーターから生まれます。このフレームワークは MARIA OS ゲート アーキテクチャに実装されており、経験的検証により平均回復サイクルが 3 回未満、意思決定の適合性が 99.2%、過剰補正の検出が 100% であることが示されています。
1. はじめに: ゲートは官僚主義ではありません
すべての企業ガバナンス システムには、提案されたアクションが実行前に評価されるチェックポイントであるゲートが含まれています。実際には、ゲートは管理上の障害として扱われます。何か問題が発生した場合はゲートを追加し、動作が遅いと感じた場合はゲートを削除します。このアドホックなアプローチでは 2 つの障害モードが生成されます。アンダーゲートにより、リスクのあるアクションが十分なレビューなしで実行される可能性があります。オーバーゲートにより、際限なく増大する意思決定キューが作成され、エージェントは承認ループに閉じ込められ、意思決定は実行される前に期限切れになります。
どちらの障害モードも根本原因は同じです。ゲートは 制御コンポーネントではなくポリシー構造として設計されています。政策思考では「ここにゲートを追加すべきか?」と考える。制御の考え方では、「このフィードバック構成におけるこのゲートの安定条件は何ですか?」と問います。制御理論は、政策思考に欠けている正式なツール (遅延解析、ループ ゲイン条件、収束証明) を提供するため、この区別は重要です。
この論文では、古典的な制御理論をマルチエージェント ガバナンス システムのゲート設計に適用します。私たちは風変わりな数学を提案しているわけではありません。ここで示した遅延モデル、フィードバック ループ解析、および安定性条件は、制御エンジニアリングの標準ツールであり、これらの用語でこれまで形式化されていない領域に適用されます。貢献するのはマッピングであり、数学ではありません。
中心的な結果は直観に反するものです。ゲート数が多いほど安全性が高まるとは限りません。 遅延バジェット内で動作し、安定したフィードバック ループと制限された回復サイクルを備えた 2 つの適切に調整されたゲートを備えたシステムは、遅延が決定関連性ウィンドウを超え、フィードバック ループが発振する、調整が不十分な 5 つのゲートを備えたシステムよりも安全であることが証明されています。ゲートアーキテクチャは制御工学であり、官僚的な蓄積ではありません。
2. ゲート機能
時間 t で評価される各決定ノード d に対して、ゲート関数 G をバイナリ出力として定義します。
ここで、「P(d, t)」は証拠十分性スコア、「θ(d)」はノード固有の証拠しきい値、「R_risk(d, t)」はリアルタイムの残留リスク推定値、「λ(d)」は最大許容リスク限界、「C(d, t)」はコンプライアンスステータスです。ゲートは、正確に 2 つの値、G = 1 (許可) と G = 0 (ブロック) を出力します。中間状態はありません。
このバイナリ動作は フェイルクローズ公理 の直接の結果です。単一の決定ノードでは責任を部分的に割り当てることができないため、責任ゲートを部分的に通過することは未定義です。システムがアクションを許可する十分な証拠と許容可能なリスクを持っているか、持っていないかのどちらかです。閾値「θ(d)」および「λ(d)」は、責任分解モデルからの責任要求スコア「R(d)」に基づいて決定ノードごとに調整されます。
3. 遅延モデル
実際のゲートは即座に評価されません。総ゲート レイテンシを 3 つの追加要素に分解します。
- `τ_e`: 証拠収集の遅延 — 上流のデータ ソースから証拠を収集、スコア付け、バンドルする時間。通常の範囲: 50 ~ 200 ミリ秒。
- `τ_h`: 人間によるレビューの遅延 — 人間のレビュー担当者がエスカレーションを検査、承認、または拒否するための時間。エスカレーションなしの「G = 1」の場合はゼロ。それ以外の場合は、意思決定の複雑さに応じて 30 秒~48 時間。
- `τ_x`: 外部システムの遅延 — サードパーティのコンプライアンス チェック、サービス間検証、または暗号検証の時間。通常の範囲: 20 ~ 500 ミリ秒。
MARIA OS 導入からの経験的データは、τ_h が優勢であることを確認しています: E[τ_h] ≈ 45s に対して、E[τ_e] ≈ 120ms および E[τ_x] ≈ 80ms。ゲートは遅延バイナリ コントローラーであり、その遅延は人間によるエスカレーションをトリガーするかどうかによってほぼ完全に決まります。
3.1 意思決定の関連性ウィンドウ
ゲートが意思決定に関連するためには、合計遅延が次の条件を満たす必要があります。
ここで、「W(d)」は 意思決定関連ウィンドウ、つまり意思決定が運用上の価値を保持する期間です。 「W = 48h」の調達承認は「τ_h = 45s」を許容できます。 「W = 200ms」の取引コンプライアンス ゲートではできません。 τ_total ≥ W(d) の場合、ゲートは、もう尋ねられていない質問に対する正しい答えを生成します。これはパフォーマンスの問題ではなく、正確性の問題です。
4. 多層シリアルの安定性
企業の意思決定パイプラインに単一のゲートが含まれることはほとんどありません。本番環境の MARIA OS 導入では、複数のレイヤー (セーフティ ゲート、コンプライアンス ゲート、責任ゲート) を順に介して意思決定が行われます。 「n」ゲートが直列に構成されると、遅延が累積します。
この シリアル安定条件は、ゲート数に厳しい上限を課します。具体的な例を考えてみましょう。「W(d) = 500ms」の意思決定ノードは、150ms (安全性)、200ms (コンプライアンス)、および 180ms (責任) の遅延バジェットを持つ 3 つのゲートを通過します。総遅延バジェットは 530ms で、「W(d)」を超えます。 3 番目のゲートの追加は漸進的な改善ではなく、パイプライン全体の決定を無関係にしてしまう 安定性違反 です。
これはアーキテクチャ上の意味があります。ゲート数は累積するのではなく設計する必要があります。各ゲートは、リスク軽減の観点からだけでなく、消費される遅延バジェットの観点からその存在を正当化する必要があります。限界リスクを軽減するものの、遅延バジェットの 40% を消費するゲートは、システムの安全性にとって正味マイナスになります。
5. フィードバックループとループゲインの安定性
ゲートが決定をブロックした場合 (「G = 0」)、システムは単純に停止しません。これにより、証拠の取得、パラメータの修正、範囲の縮小、またはスキルの補充などの修正アクションがトリガーされます。エージェントが再送信し、ゲートが再評価します。これにより負のフィードバック ループが形成されますが、他のフィードバック ループと同様に、安定した場合もあれば不安定な場合もあります。
フィードバックの下で残留リスクのダイナミクスを次のようにモデル化します。
ここで、「k > 0」は証拠有効性係数、「u(t)」は修正制御入力、「ε(t)」は外因性リスク ノイズです。比例フィードバック ポリシーの下では、次のようになります。
実効ループゲインは「kK」です。標準的な制御理論解析により、安定条件が得られます。
「kK < 1」の場合: 各再送信サイクルにより、残留リスクが幾何学的に減少します。フィードバック ループは、予測可能なサイクル数内で「λ」の境界のある近傍に収束します。これが安定した運用体制です。
「kK ≥ 1」 の場合: システムは 過剰補正 に入ります。ある側面でリスクを軽減するために収集された証拠は、別の側面で新たなリスクをもたらします。再び門が閉ざされる。エージェントは再び過剰修正を行います。このループは振動または発散し、無限の証拠収集サイクルを生み出します。エージェントは絶えず再提出し、ゲートは絶えずブロックされます。実際には、これは際限なく増大する決定キューとして現れます。システムは危険なほど障害を起こしていません。完全に障害が発生し、スループットがゼロになっています。
5.1 オーバーゲートの病理
過剰修正は、「ガバナンス システムが重すぎて何も手につかない」という一般的な組織の苦情を数学的に説明したものです。通常、苦情は文化的な抵抗やプロセスのオーバーヘッドが原因であると考えられます。実際には、ループ ゲイン違反であることがよくあります。ゲート拒否と修正アクションの間のフィードバック ループのゲインが 1 以上であるため、重要な決定が行われるたびにシステムが停止します。
6. 3 つのコントロール レバー
前述の分析により、ゲート設計者向けの 3 つの具体的な設計パラメータが得られます。
6.1 遅延予算の割り当て
制約付き最適化を使用してゲート全体に「W(d)」を分配します。各ゲートは、限界リスク削減量を待ち時間コストで割った値に比例する遅延予算を受け取ります。形式的には、「Σ τ_i ≤ W(d)」に従って予想される残留リスクを最小化します。これは、ゲート評価の深さにおいてリスク低減が線形である場合の、閉形式の解を使用したラグランジュ最適化問題です。
6.2 ループゲインの校正
すべてのフィードバック可能なゲートについて「kK < 1」であることを確認してください。これには、「k」(追加の証拠がリスクをどの程度効果的に軽減するか)と「K」(エージェントが拒否後にどの程度積極的に修正するか)の両方を推定する必要があります。どちらのパラメータも運用再送信データから推定できます。 「kK」が 0.8 を超える場合、システムはレビューのためにゲートにフラグを立てる必要があります。これは不安定性の境界に近づいています。
6.3 サイクル制限
決定ノードごとの再送信試行に厳密な上限「N_max」を課します。 「N_max」サイクルが失敗した後、システムはゲートの自動評価に関係なく人間によるレビューにエスカレートします。これにより、潜在的な乖離が決定的なエスカレーションに変換されます。一般的な値: 標準的な決定の場合は「N_max = 3」、複雑な複数の証拠による決定の場合は「N_max = 5」。
これら 3 つのレバーは、ゲート設計の問題を完全に再構成します。より多くのゲートとより強力なゲートが常により安全なシステムを生み出すという素朴な直観は、形式的には誤りです。オーバーゲートは、アンダーゲートと同じ病理を引き起こします。つまり、決定が完了しないということです。障害モードは異なりますが (リスクによる損害ではなく遅延による無関係)、組織コストは同等です。
7. MARIA OSへの実装
MARIA OS ゲート アーキテクチャは、次の制御理論原理を直接実装します。
- ゲート レイヤー は、意思決定パイプライン (
lib/engine/decion-pipeline.ts) のステージにマップされます。ゲート評価は、「検証済み→承認済み」または「検証済み→承認_必須」の遷移時に発生します。 - 遅延バジェットは、ゾーン ゲート構成のゲート層ごとに構成されます。各レイヤーは
delay_budget_msとmax_recovery_cyclesを指定します。 - ループ ゲイン モニタリング は、再送信パターンをリアルタイムで追跡します。決定ノードが「N_max」を超える再送信を示した場合、システムは潜在的な「kK ≥ 1」条件にフラグを立てます。
- ゲート構成はバージョン管理された JSON オブジェクトとして保存され、gitops スタイルの管理が可能になります。すべての構成変更は、それ自体が意思決定パイプラインを通じて監査されます。つまり、ゲート構成の変更はゲートを通過します。
ダッシュボードはリアルタイムの可視性を提供します。色分けされた結果でライブ評価を表示するゲート アクティビティ パネル、リスク層ごとのゲート評価時間のレイテンシ分布ヒストグラム、傾向線のある安全性スコア ゲージが表示されます。これらの監視機能は、ゲート ガバナンスを静的なポリシーの強制から動的な監視可能な制御システムに変換します。
8. 実験計画
MARIA OS 内で実行可能な 3 つの実験を提案します。
実験 A: ゲート カウント スイープ。 'n' を 1 ~ 5 ゲート層まで変化させます。構成ごとに、4 つのリスク層にわたる 1,000 の意思決定ノードを処理します。測定: 期限違反率 (τ_total ≥ W(d))、完了率、および平均決定待ち時間。仮説: 期限違反はゲート数に応じて超線形に増加し、それを超えると全体の安全性 (「完了率 × (1 - リスク暴露)」として測定) が低下する最適な「n*」が存在します。
実験 B: ループ ゲイン スイープ。 「n = 2」ゲートを固定し、「kK」を 0.1 から 1.5 まで 0.1 ずつスイープします。各「kK」値について、初期「R_risk > λ」で 500 件の決定を処理します (フィードバック補正が必要)。測定: 平均収束サイクル、キューの深さ、およびストールする (「N_max」を超える) 決定の割合。仮説: 収束サイクルは、「kK < 0.8」の場合は滑らかに増加し、「kK ≈ 1.0」で急激に発散し、「kK ≥ 1.2」の場合は 100% で停止します。
実験 C: 調整済みと未調整。 2 つの構成を比較します: (i) 最適化された遅延バジェットと「kK = 0.48」を持つ 2 つのゲート、および (ii) 等しい遅延バジェットと未校正のループ ゲインを持つ 5 つのゲート。同一のワークロードを処理します。測定: 完了率、リスクエクスポージャ、平均待ち時間、安全スコア。仮説: 2 ゲートの調整された構成は、すべてのメトリクスで 5 ゲートの調整されていない構成よりも優れています。
9. ディスカッション
9.1 PID 制御の類似性
ゲート強度とシステムの安定性の関係は、PID 制御におけるコントローラーのゲインとプラントの安定性の関係を反映しています。 PID コントローラーのゲインが低すぎると、外乱 (ゲート不足) を補正できません。 PID コントローラーのゲインが高すぎると、振動オーバーシュートが発生し、プラントが不安定になる可能性があります (オーバーゲート)。最適なゲインにより、補正速度と安定性マージンのバランスがとれます。ゲート設計は、物理的なプラントではなく組織の意思決定システムに適用されるのと同じ最適化問題です。
9.2 既存のアプローチとの比較
NeMo Guardrails (NVIDIA) は、プログラム可能なレールを介して入出力フィルタリングを実装します。これらはデフォルトでフェールオープンです。検出できるものをフィルタリングし、それ以外はすべて通過させます。 MARIA OS ゲートは フェールクローズ されており、安全であることが確認できないものはすべてブロックされます。この違いは程度によるものではなく、種類によるものです。フェールオープン システムの偽陰性率は無制限ですが、フェール クローズド システムの偽陽性率は無制限です。ループ ゲイン解析は、フェールクローズ保証 (安全性) を維持しながら誤検知率 (失速) を制限する方法を示します。
10. 結論
この論文では、AI ガバナンス システムのゲートは制御コンポーネントであり、管理上のチェックポイントではないことを証明しました。主な貢献は次のとおりです: (1) 明示的な遅延分解を使用して遅延バイナリ コントローラーとして形式化されたゲート関数、(2) ゲート カウントにハード シーリングを課すシリアル安定条件 Σ τ_i < W(d)、(3) 安定した収束と過剰補正発振を分離するフィードバック ループ ゲイン条件 kK < 1、および (4) 遅延バジェット、ループ ゲイン、サイクル制限の 3 つの制御レバー —原則に基づいた設計フレームワークを備えた単純な「ゲートが多い = 安全性が高い」ヒューリスティック。
設計原則は簡潔です。よりスマートな AI には、より多くの停止ではなく、よりスマートな停止が必要です。 ゲート インテリジェンスは、エージェントのインテリジェンスに合わせて拡張し、正確に調整された遅延バジェット、収束フィードバック ループ、および制限された回復サイクルでエージェントの増加した能力と一致させる必要があります。チェックポイントの総当りの乗算ではありません。
今後の作業には、オンライン凸最適化 (ストリーミング リスク信号に基づいて「θ」と「λ」を継続的に調整) による適応ゲート強度、マルチエージェント ゲート調整 (協力するエージェント間の相関リスク プロファイルのモデル化)、およびヘビーテール人間によるレビュー時間分布の下での正式な遅延分析が含まれます。