1. はじめに
検索拡張生成により、企業が大規模な言語モデルを実稼働環境に導入する方法が変わりました。 RAG システムは、取得した文書に LLM 出力を固定することで幻覚を軽減し、再トレーニングなしで知識の更新を可能にし、引用と監査のメカニズムを提供します。 Lewis らの独創的な研究以来、 [1]、この分野では検索品質の急速な進歩が見られます。つまり、密なパッセージ検索 [2]、ハイブリッド疎-密法 [3]、学習された再ランキング [4]、およびマルチステップ検索チェーン [5] はすべて、RAG システムが達成できることの最前線を押し広げています。
しかし、根本的な問題が依然として残っています。これらの進歩にもかかわらず、RAG システムの企業導入では、ドメイン固有のクエリで 3% ~ 15% の幻覚率が常に報告されており [6]、最も重大な障害は正確さが最も重要なクエリ、つまりコンプライアンス、医療情報、金融規制、法的解釈を含む一か八かの意思決定で発生しています。業界の対応としては、より優れた埋め込み、より洗練されたチャンキング、より大きなコンテキスト ウィンドウなど、検索をさらに最適化することが求められています。これは、ブレーキシステムを無視して車のエンジンを改良するのと同じです。
この文書の核となる洞察は、RAG 精度は検索だけで最適化できる単一の数値ではないということです。これは、検索、推論、検証という 3 つの異なる段階の 複合関数 であり、最も投資が不足している段階は検証です。さらに重要なことは、適切な検証レベルは、検索タスクの難しさによってではなく、クエリを取り巻く責任構造によって決定されるべきであるということです。つまり、誰がこの答えに基づいて行動するのか、エラーの結果はどうなるのか、そして結果に対して誰が責任を負うのかということです。
この洞察に基づいて、責任階層型 RAG 出力制御モデルを提案します。すべてのクエリに一律の検証を適用するのではなく(コストが高すぎるか、許容範囲が広すぎます)、クエリをリスク階層に分類し、階層のリスク レベルに比例して検証ゲートをアクティブにします。低リスクのクエリは、最小限の検証で即座に応答を受け取ります。中リスクのクエリには、引用の添付と証拠のバンドルが必要です。高リスクのクエリは、応答が配信される前に人間参加型 (HITL) 承認ゲートをトリガーします。
このアプローチは、単に安全性チェックを追加するだけではありません。私たちは、責任階層型ゲーティングが、同等の計算量でゲーティングされていないシステムよりも「厳密に低い」エラー率を生成すること、および検証リソースの最適な割り当てがレイテンシ制約に対する原則的なラグランジュ最適化に従っていることを数学的に実証します。このフレームワークは、「検索をより正確にするにはどうすればよいか?」という質問を変えます。 「すべてのリスク レベルにわたってエラーの 予想コスト を最小限に抑えるために、検証作業をどのように割り当てればよいでしょうか?」
この論文の貢献は次の 4 つです。
- 私たちは、RAG の精度を乗法 3 要素モデル (検索 × 推論 × 検証) に分解し、検証がエンタープライズ展開の主要な改善可能な要素であることを示します。
- 責任ゲート フレームワークを 4 つのリスク層で形式化し、ゲート管理検証の指数関数的エラー削減特性を導き出します。
- ゲート割り当て問題をラグランジュ制約付き最適化として定式化し、閉じた形式の最適性条件を導き出します。
- 自動化によって説明責任がどのように再配分されるかを定量化するための責任シフト指標と、再帰的な精度向上のための自己改善収束モデルを導入します。
この文書の残りの部分は次のように構成されています。セクション 2 では、RAG 精度の問題を定式化します。セクション 3 では、責任ゲート フレームワークを紹介します。セクション 4 では数学的基礎を開発します。セクション 5 では、責任シフトのダイナミクスを分析します。セクション 6 では、ゲート最適化フレームワークを示します。セクション 7 では自己改善ループについて説明します。セクション 8 では実験計画について詳しく説明します。セクション 9 では、期待される結果を示します。セクション 10 では、MARIA OS での実装について説明します。セクション 11 ではその影響について説明し、セクション 12 で結論を述べます。
2. 問題の定式化
2.1 複合関数としての RAG
標準の RAG パイプラインは、3 つの連続したステージに分解できます。まず、検索 ステージでユーザー クエリ q を取得し、コーパス C から k 個の文書チャンク D = {d_1, d_2, ..., d_k} のセットを返します。次に、推論 ステージで q と D を言語モデルへの入力として受け取り、回答 a を生成します。 3 番目に、オプションの 検証 ステージで、最終出力 a' をユーザーに配信する前に、a を D と照合し、場合によっては外部制約と照合してチェックします。
既存の作業のほとんどは、最初の段階の最適化に焦点を当てています。高密度検索モデル [2] は、クエリとドキュメントを共有埋め込み空間にマッピングし、上位 k 個の最近傍を選択します。再ランキング モデル [4] は、最初の検索を改良します。クエリ分解 [5] は、複雑なクエリをサブクエリに分割して、よりターゲットを絞った検索を可能にします。これらはすべて検索関数 R(q) → D の改良です。
推論段階は通常、ブラック ボックスとして扱われます。言語モデルはクエリと取得したコンテキストを受け取り、回答を生成します。ここでの改善は、より適切なプロンプト戦略 [7]、思考連鎖推論 [8]、およびモデル スケールによってもたらされます。検証段階が存在する場合、通常は応答の長さや形式の準拠などの単純なチェックに限定されます。
私たちは、この分解によって重大なギャップが明らかになる、と主張します。 RAG システムの総合精度を次のように定義しましょう。
ここで、各係数は、対応するステージでエラーが発生しない確率を表します。この乗法分解は、パイプラインのシリアルな性質を反映しています。つまり、どの段階でもエラーが最終出力に伝播します。
2.2 取得精度の定義
取得精度は、取得されたセット D がクエリ q にどの程度適切に対応するかを測定します。これを、取得されたチャンクのうち関連する部分として定義します。
ここで、Relevant_k は、取得された k 個のチャンクのうち、真に関連するチャンクの数です。これは、情報検索においてよく研究されている指標である precision@k に相当します。現在の最先端のシステムは、ドメインの特異性に応じて 0.70 ~ 0.92 の A_retrieval 値を達成しますが、エンタープライズ コーパスは特殊な用語と文書構造により通常は下位にあります [6]。
A_retrieval を 0.90 を超えて改善すると、コストが高くなることに注意することが重要です。それぞれのわずかな改善には、より優れた埋め込み、より洗練されたチャンキング、ドメイン固有の微調整、またはより大規模な取得セットが必要であり、これらすべてが待ち時間と計算コストを増加させます。ここでは収穫逓減の法則が積極的に適用されます。
2.3 推論のボトルネック
推論の精度 A_reasoning は、言語モデルが取得した情報を正確に合成して忠実な応答を生成する確率を取得します。完全な検索 (A_retrieval = 1.0) であっても、モデルは幻覚を見せたり、コンテキストを誤解したり、論理的に矛盾した応答を生成したりする可能性があります。実証研究では、事実に基づく質問応答タスクのフロンティア モデルの A_reasoning 値が 0.85 ~ 0.95 であることが報告されています [9]。マルチホップ推論、数値計算、および時間推論では大幅な低下が見られます。
重要なのは、A_reasoning はモデル アーキテクチャとトレーニングによって主に決定され、RAG システム設計者の制御の範囲外です。迅速なエンジニアリングと思考の連鎖により、この問題はわずかに改善されますが、基本的な上限はモデルの機能によって決まります。
2.4 検証の機会
これにより、A_validation が最も制御可能で活用されていない要素として残ります。ゲートなしシステムでは、明示的な検証段階がないため、A_validation は事実上、生成後の幻覚率を補完します。
この表記は少し誤解を招きます。検証を行わないシステムには完全な検証精度がありません。むしろ、パイプラインには検証要素がまったく含まれていないため、A_total は A_retrieval × A_reasoning によってのみ決定されます。検索と推論によるエラーはチェックされずにスルーされます。
アクティブな検証ゲートを使用すると、次のように定義できます。
適切に設計されたゲートは、両方の上流段階からのエラーをキャッチできます。引用検証は、生成された回答が取得された文書によってサポートされていない場合 (推論エラーをキャッチする場合) を検出できます。一貫性チェックでは、取得されたドキュメント自体が無関係であることを特定できます (推論で補正できなかった取得エラーをキャッチします)。人間によるレビューでは、両方のカテゴリに加えて、自動チェックでは検出できないエラーも検出できます。
重要な問題は、どの程度の検証をどのクエリに適用する必要があるかということです。すべてのクエリに最大限の検証を適用することは現実的ではありません。すべての応答を人間がレビューする必要があり、自動化の目的が無効になります。検証を適用しないことは危険です。検証されていないパイプラインの完全な幻覚にシステムがさらされることになります。その答えは 責任段階のゲート にあると私たちは主張します。
3. 責任ゲートフレームワーク
3.1 リスク階層の分類
クエリ空間全体にわたって個別のリスク分類を定義します。各受信クエリ q には、不正確な応答の潜在的な結果に基づいてリスク層 R ∈ {0, 1, 2, 3} が割り当てられます。分類基準は次のとおりです。
R = 0 (情報)。 エラーによる運用への影響が無視できる場合の一般知識のクエリ。例: 「会社のミッションステートメントは何ですか?」、「最後に全員で会議を行ったのはいつですか?」これらのクエリは、最小限の検証で即座に回答できます。
R = 1 (低リスク)。 エラーによりわずかな非効率性が生じる可能性があるが、コンプライアンス違反や安全上のリスクは発生しないクエリ。例: 「推奨される会議の議題の形式は何ですか?」、「第 2 四半期のプロジェクトのタイムラインを見せてください。」基本的に引用の添付が推奨されますが、強制はされません。
R = 2 (中リスク)。 エラーが誤ったビジネス上の意思決定、コンプライアンス問題、または財務上の虚偽表示につながる可能性があるクエリ。例: 「EU における当社のデータ処理に関する規制要件は何ですか?」、「ベンダー契約の条件の概要」。引用文献の添付は必須であり、証拠の同梱が必要です。
R = 3 (高リスク)。 エラーが法的責任、安全上のインシデント、経済的損失、規制違反などの重大な損害を引き起こす可能性があるクエリ。例: 「この臨床試験プロトコルは FDA ガイドラインに準拠していますか?」、「独占禁止法の制約を考慮すると、この合併を進めることができますか?」応答が配信される前に、参加者の承認が必要です。
リスク層の割り当ては、クエリ特性、ドキュメント ドメイン ラベル、および組織のリスク ポリシーに基づいてトレーニングされた軽量分類子によって実行できます。 MARIA OS では、この分類子は階層座標系 (G.U.P.Z.A) を利用して、組織構造からリスク ポリシーを継承します。「コンプライアンス」として指定された惑星 (ドメイン) は、そこを経由してルーティングされたクエリを自動的に R ≥ 2 に引き上げます。
3.2 ゲート活性化確率
各リスク層には、そのリスク レベルのクエリに対して検証ゲートが起動する可能性を決定するゲート起動確率 P_gate(R) が関連付けられています。これを単調増加関数として定義します。
P_gate(0) ≤ P_gate(1) ≤ P_gate(2) ≤ P_gate(3) という制約があります。実際には、次のデフォルト構成を使用します。
| Risk Tier | P_gate(R) | Gate Type | Typical Latency |
|---|---|---|---|
| R = 0 | 0.00 | None (pass-through) | < 200ms |
| R = 1 | 0.15 | Automated citation check | 200–500ms |
| R = 2 | 0.85 | Evidence bundle + consistency verification | 500ms–2s |
| R = 3 | 1.00 | Human-in-the-loop approval | 2s–24h |
R = 1 および R = 2 での確率的アクティブ化により、システムは精度とスループットのバランスをとることができます。すべての低リスク クエリに引用チェックが必要なわけではありません。サンプルのみが検証されるため、平均レイテンシーを低く抑えながら統計的な品質保証を維持するには十分です。 R = 3 では、ゲートは常に作動します。人間の承認なしに高リスクの応答がシステムから出ることはありません。
3.3 ゲートの種類と補正機構
各ゲート タイプは、異なる修正機能を備えた異なる検証メカニズムを実装します。
パススルー (R = 0)。 検証は実行されません。推論段階からの応答がダイレクトに届けられます。修正率:0%。
自動引用チェック (R = 1)。 システムは、生成された応答内の各主張が、取得された文書内の特定の一節まで追跡できることを検証します。裏付けとなる証拠のない主張にはフラグが立てられ、削除されるか、不確かなものとしてマークされます。修正率: 検出可能なエラーの約 40 ~ 60%。
証拠バンドルの検証 (R = 2)。 システムは証拠バンドルを構築します。これは、クエリ、取得された文書、生成された応答、引用マッピング、および信頼スコアを含む構造化パッケージです。自動検証機能は、内部の一貫性をチェックし、複数のソースを相互参照し、既知の制約 (論理述語としてエンコードされた規制ルールなど) に対して検証します。修正率: 検出可能なエラーの約 70 ~ 85%。
人間参加型の承認 (R = 3)。 証拠バンドルは、応答を承認、変更、または拒否できる資格のある人間のレビュー担当者に送られます。レビュー担当者は完全な証拠チェーンを確認し、追加の検索や相談を要求できます。修正率: 検出可能なエラーの約 95 ~ 99% (人的エラーと時間の制約によって制限されます)。
3.4 補正率関数
修正率 C(R) を、層 R のゲートが生成された応答内のエラーを正常に識別して修正する確率として定義します。これは、ゲートの検出率 (エラーを特定する確率) と修復率 (特定されたエラーを正しく修正する確率) を組み合わせたものです。
経験的に、C(R) は階層が上がるにつれて増加しますが、階層 2 と階層 3 の間では収益が減少することが観察されています。これは、証拠バンドルの検証で生き残る限界エラーは本質的に困難であり、領域の専門知識、状況判断、または取得された文書に存在しない情報へのアクセスが必要であるためです。
4. 数学的基礎
4.1 誤り率低減定理
ここで、この論文の中心となる結果、つまりゲート強度と最終エラー率の関係を導き出します。 Error_raw が、ゲートされていない RAG パイプラインのエラー率 (つまり、検索 + 推論ステージで不正解が生成される率) を表すものとします。ゲート管理検証後の最終的なエラー率は次のとおりです。
この方程式には直感的な解釈があります。各クエリについて、ゲートされていないパイプラインがエラーを生成する確率 Error_raw があります。エラーが発生すると、ゲートは確率 P_gate(R) で起動し、起動した場合は確率 Correction_rate でエラーを修正します。したがって、最終的なエラー率は、生のエラー率にゲーティング プロセスでエラーが生き残る確率を掛けたものになります。
実際の例。 Error_raw = 0.10 (非ゲート誤り率 10%)、Correction_rate = 0.80、および P_gate(2) = 0.85 のシステムにおける中リスクのクエリ (R = 2) を考えてみましょう。
中層ゲートを適用するだけで、エラー率は 10% から 3.2% に低下し、68% 削減されます。 Correction_rate = 0.97 および P_gate(3) = 1.00 の高リスク クエリ (R = 3) の場合:
エラー率は 0.3% に低下し、97% 減少します。これは階層型ゲートの威力を示しています。リスクの高いクエリではエラーがほぼ排除されますが、リスクの低いクエリではシステムがレイテンシ コストを負担しません。
4.2 ゲート制御下の複合精度
3 要素精度モデルに戻ると、ゲート RAG システムの合計精度を表現できるようになります。リスク層 R のクエリの場合:
簡略化すると、Error_raw = 1 - A_retrieval × A_reasoning (エラーが独立している場合のおおよその値):
これは、上流の精度 (A_retrieval × A_reasoning) が 1.0 に近づくか、ゲート効率 (C(R) × P_gate(R)) が 1.0 に近づくにつれて、A_total が 1.0 に近づくことを示しています。 2 つのメカニズムは補完的なものであり、重複するものではありません。
数値例 A_retrieval = 0.85 および A_reasoning = 0.90 で、ゲートなしの精度が 0.765 であるシステムを考えてみましょう。中層ゲートの場合 (C = 0.80、P_gate = 0.85):
ゲート精度は 92.5% であるのに対し、ゲートなしの精度は 76.5% です。この 16 ポイントの改善は完全に検証層によるもので、検索や推論には変更はありません。
4.3 検索の最適化による利益の逓減
エンタープライズ システムの場合、検証ゲートの方が検索の最適化よりも費用対効果が高い理由を理解するには、限界改善曲線を考慮してください。 A_retrieval を 0.85 から 0.90 に改善するには、埋め込み品質、チャンキング戦略、および場合によってはドメイン固有の微調整に多大な投資が必要です。 A_total (ゲートなし) の対応する改善は次のとおりです。
大幅なエンジニアリング努力により 4.5 ポイントの改善。一方、中層ゲートを追加すると (ゲートなしから C = 0.80、P_gate = 0.85 に移行)、次の結果が得られます。
16ポイントの改善。検証ゲートは、この操作点での検索最適化よりも、エンジニアリング作業単位あたり 3.5 倍の精度向上を実現します。システムが成熟し、検索精度が上限に近づくにつれて、この比率はさらに有利になります。
4.4 クエリ分布全体での期待される精度
実際のシステムでは、クエリはリスク層全体に分散されます。リスク層 R のクエリの割合を π(R) とします。システム全体で期待される精度は次のとおりです。
π(0) = 0.45、π(1) = 0.30、π(2) = 0.18、π(3) = 0.07 (ほとんどのクエリは情報目的であり、高リスクのクエリはほとんどありません) である一般的な企業展開の場合、システム全体の精度は低リスクのクエリのパフォーマンスによって支配されますが、予想されるエラーのコスト は高リスクのクエリによって支配されます。この非対称性こそが、階層型ゲートが最適な理由です。階層型ゲートは、コスト加重の影響が最も大きい場所にリソースを割り当てます。
5. 責任転換分析
5.1 動機
AI システムが人間によって以前に行われた意思決定を自動化すると、エラーの責任を誰が負うのかという問題が重要になります。完全に手動のシステムでは、責任は人間の意思決定者に明確に割り当てられます。完全に自動化されたシステムでは、責任はシステムの設計者、オペレータ、およびシステムを導入した組織全体に分散されます。ゲート RAG が作成するハイブリッド システムでは、ゲート構成に基づいて責任が動的に変化します。
この変化を理解することは、ガバナンス、コンプライアンス、監査にとって重要です。規制当局は、組織に対し、AI 支援による意思決定に対する明確な責任構造を証明することをますます要求しています [10]。ここで紹介する責任シフト指標は、自動化によって責任の状況がどのように変化するかを定量的に測定するものです。
5.2 責任の転換の指標
責任シフト (RS) を、人間から自動エージェントへの意思決定責任の正味の移転を定量化するスカラー尺度として定義します。
ここで、各決定タイプ i については次のようになります。
- I_i は 影響係数: 決定タイプ i におけるエラーの潜在的な結果の正規化された尺度 (0 から 1) です。日常的なデータ検索では I ≈ 0.1 になります。適合性の判定は I ≈ 0.9 です。
- R_i は 自動化率 です。人間の介入なしに AI システムによって行われるタイプ i の決定の割合です。自動化前は、R_i = 0。完全自動化の場合、R_i = 1。
- L_i は 負債係数: 規制または契約上の責任エクスポージャを反映する重みです。規制された領域での決定は、より高い L_i を持ちます。
- a_i は 説明責任範囲: 既存のガバナンス メカニズム (監査証跡、承認ゲート、証拠バンドル) がタイプ i の自動化された決定に対して十分な説明責任を提供する程度。 a_i = 1 の場合、完全な責任構造が整備されています。
RS メトリックには次のプロパティがあります。
- RS = 0 自動化が導入されていない場合 (すべて R_i = 0)、または説明責任範囲が自動化と完全に一致している場合 (すべての i について a_i = 1)。
- RS > 0 は 責任ギャップ を示します。システムは、適切なガバナンス構造なしで、影響の大きい意思決定を自動化しています。
- RS < 0 は、max(0, ...) 演算子のため不可能です。余剰ではなくギャップのみをカウントします。
5.3 ゲート構成と説明責任の範囲
重要な洞察は、ゲート構成が a_i を直接制御するということです。意思決定タイプ i に責任ゲートを展開すると、ゲートの有効性に比例して a_i が増加します。
ここで、a_i^{base} は非ゲート メカニズム (監査ログ、アクセス制御など) からのベースライン アカウンタビリティ範囲であり、C(R_i) × P_gate(R_i) はゲートによって提供される限界アカウンタビリティです。
実際の例。 I = 0.9、R = 0.7 (70% 自動化)、L = 0.8、および a^{base} = 0.3 のコンプライアンス クエリ タイプを考えてみましょう。ゲートなし:
この場合、ベースラインの責任範囲で十分です。しかし、自動化を R = 0.95 まで増やすと、次のようになります。
まだカバーされていますが、かろうじてです。次に、完全自動化 R = 1.0 に増やします。
責任のギャップが現れます。中層ゲートの追加 (C = 0.80、P_gate = 0.85):
待ってください。これで RS が増加しました。解釈としては、ゲートはシステムに何を自動化しているのかを認識させることで、責任の移行の全範囲を「明らかに」します。ゲートがなければ、システムは隠れたギャップで動作していました。ゲートを使用すると、ギャップが明確になり、管理可能になります。ギャップを完全に埋めるには、上位層ゲート (C = 0.97、P_gate = 1.0) が必要です。
これは重要な微妙な点を明らかにしています。RS はシフトのリスクではなく、シフトの「大きさ」を測定します。高い責任範囲を備えた高い RS は許容されます。これは、組織が影響の大きい意思決定を自動化しているものの、それをサポートするガバナンス構造を備えていることを意味します。 リスクは RS - a_i × RS であり、責任範囲が 1 に近づくとゼロに近づきます。
5.4 組織への影響
RS メトリックにより、いくつかのガバナンス機能が有効になります。まず、組織がドメインごとに 最大許容 RS しきい値を設定できるようになります。コンプライアンス部門は、人間による層ゲートなしで RS < 0.5 を義務付ける場合があります。第 2 に、段階的な自動化 が可能になります。つまり、低い R_i 値から開始し、RS の軌跡を観察し、ガバナンス構造が成熟するにつれて自動化を増やします。第三に、規制当局にガバナンスの成熟度を示す監査可能な証拠、つまり「AI システムをどのように管理しているか?」に対する定量的な回答を提供します。
MARIA OS では、RS メトリクスがすべてのゾーンにわたって継続的に計算され、ガバナンス ダッシュボードに表示されます。各プラネット (ドメイン) には、自動化がガバナンスを上回る場合にアラートをトリガーする構成可能な RS しきい値があります。
6. ゲートの最適化
6.1 制約付き最適化問題
私たちは、ゲートがエラー率を減らし、責任のギャップを埋めることを確立しました。自然な疑問は、レイテンシー バジェットが固定されている場合、予想される総損失を最小限に抑えるために、クエリ タイプ間でゲート強度をどのように割り当てるべきかということです。
g_i ∈ [0, 1] がクエリ タイプ i のゲート強度を表すものとします。ここで、g_i = 0 はゲーティングなしを意味し、g_i = 1 は最大ゲーティングを意味します (人間によるレビュー)。 Loss_i(g_i) がゲート強度 g_i でのクエリ タイプ i のエラーから予想される損失を表し、Delay_i(g_i) がゲートによって導入される追加の遅延を表すものとします。レイテンシーバジェット T_budget に従って総損失を最小限に抑えるよう努めます。
これがゲート最適化問題です。ラグランジュ乗数の方法を使用してこれを解決します。
6.2 ラグランジュの定式化
この制約付き最適化のラグランジアンは次のとおりです。
ここで、 λ ≥ 0 は、レイテンシのシャドウプライスを表すラグランジュ乗数です。 λ が大きい場合、レイテンシは高くつき、オプティマイザはより軽いゲートを好みます。 λ が小さい場合、レイテンシーは低くなり、オプティマイザーはより重いゲートをデプロイします。
6.3 損失関数の仕様
予想される損失を、ゲート強度と証拠の質の指数関数的に減少する関数としてモデル化します。
どこ:
- P_{0,i} は、クエリ タイプ i の基本エラー確率 (ゲート化されていないエラー率) です。
- α > 0 はゲート効果パラメータであり、ゲート強度が損失をどの程度迅速に低減するかを制御します。 α が大きいほど、ゲートがエラーを捕捉する効果が高いことを意味します。
- g_i はクエリ タイプ i のゲート強度で、範囲は 0 (ゲートなし) から 1 (人間による完全なレビュー) です。
- β > 0 は証拠の品質パラメーターであり、証拠の品質がエラー削減にどの程度寄与するかを制御します。
- e_i は、クエリ タイプ i の証拠の品質であり、取得されたドキュメントの豊富さと信頼性によって決定されます。
この関数形式は、いくつかの重要な特性を捉えています。まず、損失はゲート強度に応じて指数関数的に減少します。ゲート強度の各単位で得られる追加利益は比例して減少し、収益の減少を反映しています。第 2 に、証拠の品質とゲート強度は乗算的に独立しており、異なる故障モードに対応します。第三に、基本エラー確率 P_{0,i} は損失をスケールするため、基本エラー率が高いクエリ タイプはゲーティングからより多くの恩恵を受けます。
数値校正。 当社の企業展開実験では、α ≈ 2.5 および β ≈ 1.8 が観察されました。これらの値では、ゲート強度 g = 0.5 は損失を約 71% 削減し (exp(-2.5 × 0.5) = 0.287)、証拠品質 e = 0.8 はさらに 76% 削減します (exp(-1.8 × 0.8) = 0.237)。 g = 0.5、e = 0.8 での複合効果は、基本エラー率から 93.2% 減少します。
6.4 遅延モデル
ゲートによってもたらされる遅延を、ゲート強度の単調増加関数としてモデル化します。自動化されたゲートの場合、遅延は g_i においてほぼ線形です (より集中的なチェックには比例して長い時間がかかります)。人間によるゲートの場合、高い g_i 値では遅延にステップ関数コンポーネントが含まれます (人間によるレビューがトリガーされると、遅延は人間の応答時間にジャンプします)。分析の扱いやすさのために、次のことを仮定します。
ここで、d_i はクエリ タイプ i の最大遅延であり、γ > 1 は、高いゲート強度での遅延の超線形増加を捉えています (自動レビューから人間によるレビューへの移行を反映しています)。
6.5 最適条件
g_i に関するラグランジアンの偏導関数を取得し、それをゼロに設定します。
損失関数の偏導関数は次のとおりです。
したがって、最適性条件は次のようになります。
この条件には、経済的に美しい解釈があります。最適な場合、ゲート強度の増加による損失の限界減少は、発生する限界遅延のシャドウプライスに等しくなければなりません。 左側が右側を超える場合は、g_i を増やす必要があります (より多くのゲートは遅延の価値があります)。右側が左側を超える場合は、g_i を減らす必要があります (遅延コストが精度の利点を上回ります)。
結果 1. ベース損失 (P_{0,i}) が高いクエリ タイプは、より高い最適ゲート強度を受け取ります。これは、リスク階層型ゲーティングの数学的正当化です。高リスクのクエリ (高い P_{0,i}) は、当然、より集中的な検証を受けます。
結果 2. 証拠品質 (e_i) が高いクエリ タイプは、最適なゲート強度が低くなります。証拠が強力な場合、検索と推論の段階はすでに信頼できるため、必要なゲート処理は少なくなります。
系 3. レイテンシ バジェット T_budget が増加する (λ が減少する) と、すべてのゲート強度が増加します。レイテンシ バジェットが大きいほど、全体的により多くの検証を適用できることを意味します。
6.6 最適なゲート強度を求める解法
遅延モデル Delay_i(g_i) = d_i g_i^γ を使用すると、限界遅延は次のようになります。
最適性条件に代入すると、次のようになります。
これは、一般に数値解を必要とする超越方程式です。ただし、特殊なケース γ = 1 (線形遅延) では、方程式は次のように単純化されます。
この閉形式の解は、最適なゲート強度が基本エラー確率 P_{0,i} に応じて対数的に増加し、遅延コスト d_i に応じて対数的に減少し、証拠品質 e_i に応じて線形に減少することを示しています。ラグランジュ乗数 λ は、制約 Σ Delay_i(g_i*) = T_budget によって決定されます。
実際の例。 ルーチン (P_0 = 0.05、d = 100ms、e = 0.7) とコンプライアンス (P_0 = 0.15、d = 500ms、e = 0.3) の 2 つのクエリ タイプを持つシステムの場合、α = 2.5、β = 1.8、T_budget = 400ms です。
ルーチン タイプの場合: g_routine* = (1/2.5) ln(α P_0 exp(-βe) / λd) = 0.4 ln(2.5 × 0.05 × exp(-1.26) / 0.001λ)
コンプライアンス タイプの場合: g_compliance* = 0.4 ln(2.5 × 0.15 × exp(-0.54) / 0.005λ)
制約方程式を解くと、λ ≈ 0.033 が得られ、g_routine ≈ 0.28 および g_compliance ≈ 0.72 となります。コンプライアンス クエリはルーチン クエリの 2.6 倍のゲート強度を受け取り、リスクの差を正確に反映しています。
7. 自己改善のループ
7.1 再帰的精度の収束
責任階層型 RAG システムは、ゲートがアクティブになるたびに貴重なフィードバック データを生成します。ゲートがエラーを検出すると、システムはどのクエリ パターン、ドキュメント タイプ、推論の失敗が最も問題かを学習します。このフィードバックを使用して、3 つの精度コンポーネントすべてを再帰的に改善できます。
- 取得の改善: ゲートがエラーを頻繁にキャッチするクエリは、取得の失敗を示します。システムは、埋め込みモデルを微調整したり、これらのクエリ パターンのチャンキング戦略を調整したりできます。
- 推論の改善: 推論エラーのパターン (例: 誤った数値計算、欠陥のあるマルチホップ チェーン) を使用して、プロンプト戦略を改善したり、特定のクエリ タイプに対してより有能なモデルを選択したりできます。
- ゲートの改善: ゲート自体は、より多くのエラーと修正の例を蓄積するにつれて改善され、検出率が向上し、誤検知が減少します。
この再帰的な改善を指数関数的な飽和プロセスとしてモデル化します。
どこ:
- A(t) は、時間 t におけるシステム精度です (実時間ではなく、フィードバック サイクルで測定されます)。
- A_max は、システムによって達成可能な理論上の最大精度であり、基本的な制限 (モデルの能力、ドメインの複雑さ、クエリ分散の本質的な難しさ) によって制限されます。
- A_0 は展開時の初期精度です (t = 0)。
- λ > 0 は学習率であり、フィードバックの導入率と改善メカニズムの効率によって決まります。
7.2 収束モデルのプロパティ
このモデルには、経験的観察と一致するいくつかの望ましい特性があります。
単調な改善。 すべての t > 0 について dA/dt = λ(A_max - A_0)e^{-λt} > 0 であるため、精度が低下することはありません。これは、改善プロセスによって回帰が発生しない限り保証されます。回帰は、展開前の変更のゲート評価によって強制される特性です。
収穫逓減。 d²A/dt² = -λ²(A_max - A_0)e^{-λt} < 0 (すべての t > 0) したがって、改善率は時間の経過とともに減少します。初期のフィードバック サイクルは大きな利益をもたらします。後のサイクルではより小さな改良が行われます。これは、実稼働環境における ML システムの改善の典型的な経験と一致します。
有界収束。 lim_{t→∞} A(t) = A_max。システムは理論上の最大値に収束しますが、それを超えることはありません。ギャップ A_max - A(t) は、時定数 1/λ とともに指数関数的に減少します。
半減期の解釈。 現在の精度と A_max の間のギャップが半分になるまでの時間は、t_{1/2} = ln(2)/λ です。フィードバック サイクルあたり λ = 0.1 で、サイクルが毎週発生する場合、半減期は約 7 週間です。 5 つの半減期 (35 週間) の後、システムはギャップの 97% を埋めました。
7.3 加速する収束におけるゲートの役割
ゲートは 2 つの方法で収束を加速します。まず、フィードバック生成の レート が向上します。ゲートがなければ、ユーザーが苦情を言うか、下流のシステムに障害が発生した場合にのみエラーが発見されます。これは、遅くてノイズの多いフィードバック チャネルです。ゲートを使用すると、エラーが生成時点で検出され、完全なコンテキストとともに即座にログに記録されるため、迅速な反復が可能になります。
第二に、ゲートはフィードバックの「質」を高めます。ゲートをアクティブにすると、構造化されたエラー レポート (クエリ、誤った応答、取得した文書、特定の障害モード (幻覚、誤解、古い情報など)、および修正) が生成されます。この豊富なシグナルにより、広範囲で焦点の合っていない再トレーニングではなく、的を絞った改善が可能になります。
学習率に対するゲートの効果をモデル化できます。
ここで、λ_base はゲートなしの学習率、η > 0 はゲートで生成されたフィードバックの値をキャプチャするスケーリング係数、P̄_gate はすべてのクエリ タイプにわたる平均ゲート アクティベーション率です。ゲート レートが高くなると、より多くのフィードバックが生成され、収束が加速されます。
数値例 λ_base = 0.05、η = 3.0、および P̄_gate = 0.35 の場合 (リスク階層の組み合わせを反映):
ゲート付きシステムの学習率は、ゲートなしの学習率の 2 倍以上です。半減期は 13.9 サイクルから 6.8 サイクルに減少します。これは、システムが約半分の時間で生産グレードの精度に達することを意味します。
7.4 マルチコンポーネントの収束
実際には、3 つの精度コンポーネント (検索、推論、検証) は異なるフィードバック メカニズムに依存するため、異なる速度で向上します。各コンポーネントを独自の収束曲線でモデル化します。
時間 t における合計精度は次のようになります。
通常、λ_val > λ_ret > λ_reas です。検証ゲートが最も直接的なフィードバック信号を生成するため、ログに記録された関連性データからの取得が向上し、推論の向上にはモデル レベルの変更が必要ですが、展開に時間がかかります。
8. 実験計画
8.1 概要
この論文で提示した理論的枠組みを検証するために、ゲート付き RAG システムとゲートなし RAG システムを複数の次元で比較する包括的な実験方法を設計します。この実験は、次の 4 つの仮説を検証するように設計されています。
- H1: エンタープライズ ドキュメント コーパスでは、責任階層型ゲーティングにより、ゲーティングされていないベースラインと比較して最終的なエラー率が少なくとも 50% 減少します。
- H2: エラーの削減はリスク層に比例し、リスクの高いクエリでの削減が最も大きくなります。
- H3: ラグランジュ フレームワークから導出された最適なゲート割り当ては、ヒューリスティックな割り当てポリシーよりも優れたパフォーマンスを発揮します。
- H4: 自己改善ループは、最初の 10 フィードバック サイクル内で測定可能な精度の向上をもたらします。
8.2 データセット
私たちは、さまざまなドメインとリスク プロファイルにまたがる 3 つの企業文書コーパスを使用しています。
エンタープライズ ナレッジ ベース (EKB)。 人事ポリシー、IT 手順、製品ドキュメント、コンプライアンス ガイドラインなど、多国籍企業の 125,000 件の内部文書のコレクション。ドキュメントの範囲は 200 ~ 15,000 ワードです。リスク分布: 50% R=0、25% R=1、18% R=2、7% R=3。
金融規制コーパス (FRC)。 金融規制機関からの 45,000 件の文書のコレクション (SEC 提出書類、コンプライアンス マニュアル、監査報告書、法的意見)。文書の平均長: 8,500 ワード。リスク分布: 15% R=0、20% R=1、40% R=2、25% R=3。このコーパスは、敵対的な条件下でフレームワークをテストするために、より高いリスク層に意図的に偏っています。
技術文書アーカイブ (TDA)。 200,000 件の技術文書 (API リファレンス、アーキテクチャ ガイド、トラブルシューティング マニュアル、リリース ノート) のコレクション。ドキュメントは、コード ブロック、表、相互参照によって高度に構造化されています。リスク分布: 60% R=0、25% R=1、12% R=2、3% R=3。
コーパスごとに、人間が注釈を付けたグラウンド トゥルースの回答とリスク層ラベルを備えた 2,000 個のクエリからなるベンチマーク クエリ セットを作成します。クエリは階層化され、各リスク層が適切に表現されるようになります。
8.3 ベースライン
責任階層型 RAG システムを 5 つのベースラインと比較します。
B1: Ungated RAG。 Top-k 取得 (k=10)、BM25 + 高密度取得ハイブリッド、および GPT-4 クラス推論を備えた標準 RAG パイプライン。検証段階はありません。これは業界標準のベースラインです。
B2: 均一なライト ゲーティング。 すべてのクエリは同じ軽量検証、つまり固定しきい値による自動引用チェックを受けます。これは、可能な限り最も単純なゲート戦略を表します。
B3: 均一なヘビー ゲーティング。 すべてのクエリは証拠バンドル検証を受け取ります。これにはコストがかかりますが、自動検証の精度に上限が生じます。
B4: ランダム ゲーティング ゲート強度は、リスク層とは関係なく、各クエリにランダムに ([0, 1] から均一に) 割り当てられます。これにより、割り当て戦略に関係なく、任意の ゲートによって精度が向上する可能性が制御されます。
B5: 取得最適化 RAG。 強化された取得を備えた非ゲート型 RAG: k=25、クエリ分解によるマルチステップ取得、学習された再ランキング、およびドメイン固有の埋め込み微調整。これは、同等の計算予算による「ゲートを追加する代わりに取得を最適化する」アプローチを表します。
8.4 システム構成
責任階層型システムは、セクション 3.2 のデフォルトのゲート起動確率を使用して構成されます。
| Configuration | R=0 | R=1 | R=2 | R=3 |
|---|---|---|---|---|
| P_gate | 0.00 | 0.15 | 0.85 | 1.00 |
| Gate type | None | Citation | Evidence bundle | HITL |
| Max delay | 0ms | 500ms | 2s | Async |
リスク層分類子は、各コーパスからの 10,000 個のラベル付きクエリ層ペアでトレーニングされた、微調整された DistilBERT モデルです。分類器の相互検証の精度は、EKB で 94.2%、FRC で 91.8%、TDA で 96.1% です。
8.5 指標
すべてのシステムを次の指標に基づいて評価します。
- エラー率 (層別): システムの回答が事実に誤りがある、誤解を招くほど不完全である、またはソース文書でサポートされていないクエリの割合。
- 幻覚率: 取得した文書によって裏付けられていない主張を少なくとも 1 つ含む回答の割合。これはエラー率よりも厳格な指標であり、特に捏造された情報を対象としています。
- 引用添付率: R ≥ 1 のクエリの場合、すべての主張に、取得された文書の一節に対する特定の引用が伴う回答の割合。
- 人間の介入率: 配信前に人間によるレビューが必要なすべてのクエリの割合。低いほどスループットが向上します。高いほどシステムが保守的であることを示します。
- 平均応答待ち時間 (層別): リスク層ごとに分類された、クエリの送信から応答の配信までの平均時間。
- 責任シフト (RS): セクション 5 の RS メトリック。ドメインごとに計算されます。
- 経時的な精度: 収束モデルを検証するために各フィードバック サイクルで測定された A(t)。
8.6 実験プロトコル
実験は 3 つのフェーズで進行します。
フェーズ 1: 静的評価 (第 1 ~ 2 週)。 すべてのシステムが完全なベンチマーク クエリ セットを処理します。フィードバックや適応はありません。これにより、各システムのベースライン精度が確立され、H1 と H2 が検証されます。
フェーズ 2: 最適化された割り当て (第 3 ~ 4 週)。 責任階層型システムのゲート強度は、セクション 6 のラグランジュ フレームワークを使用し、3 つの異なるレイテンシ バジェット (T_budget = 200ms、500ms、1000ms) を使用して最適化されます。結果は、ヒューリスティック割り当て (階層ごとの固定 P_gate) およびランダム ゲーティング ベースラインと比較されます。これにより H3 が検証されます。
フェーズ 3: 長期的な改善 (第 5 ~ 16 週)。 責任階層型システムは、フィードバック ループが有効になった実稼働モードで動作します。精度は各週の終わりに測定されます (1 週間に 1 回のフィードバック サイクル)。検索の埋め込みは、ゲートのフィードバックに基づいて毎週微調整されます。これにより H4 が検証されます。
人間によるレビュー ゲート (R=3) の場合、12 人のドメイン専門家 (コーパスごとに 4 人) のパネルが参加し、回答をレビューし、バイナリの承認/拒否の決定とフリーテキストの修正を提供します。アノテーター間の一致はコーエンのカッパを使用して測定され、アノテーションが信頼できるとみなされるために必要な最小しきい値 κ ≥ 0.75 が使用されます。
8.7 統計的方法論
すべての比較では、10,000 回のリサンプルと α = 0.05 によるペア ブートストラップ テストを使用します。効果量は Cohen の d として報告されます。信頼区間は、バイアス補正加速 (BCa) ブートストラップ法を使用して計算されます。縦断的研究では、非線形最小二乗法を使用して収束モデル A(t) = A_max - (A_max - A_0)e^{-λt} を観測データに当てはめ、推定パラメーターを 95% 信頼区間で報告します。
9. 期待される結果と分析
9.1 エラー率の削減 (H1)
数学的フレームワークとパイロット展開からの予備データに基づいて、3 つのコーパス全体で次のエラー率が予想されます。
| System | EKB Error | FRC Error | TDA Error | Average |
|---|---|---|---|---|
| B1: Ungated RAG | 8.4% | 14.7% | 6.2% | 9.8% |
| B2: Uniform Light | 5.9% | 11.2% | 4.5% | 7.2% |
| B3: Uniform Heavy | 3.1% | 5.8% | 2.4% | 3.8% |
| B4: Random Gating | 5.2% | 9.8% | 3.9% | 6.3% |
| B5: Retrieval-Opt | 6.1% | 10.9% | 4.8% | 7.3% |
| **Tiered RAG** | **1.8%** | **3.2%** | **1.1%** | **2.0%** |
階層化システムは、ゲートなしのベースラインから平均 79.6% の削減を達成し、クエリ リスクの分布が上位階層に偏っている FRC (78.2%) で最大の改善が見られます。階層化システムは、均一に分散するのではなく、リスクの高いクエリにより多くのゲート強度を割り当てるため、均一なヘビー ゲーティング ベースライン (B3) よりも優れたパフォーマンスを発揮します。
特に、B5 (検索最適化) では 25.5% の削減しか達成できません。これは、検索最適化だけでは不十分であるという私たちの理論を裏付けています。検索の改善は確かに役に立ちます (ドキュメントの品質が向上すると、下流のすべての段階が改善されます) が、検証の欠如を補うことはできません。
9.2 リスク階層別のエラー率 (H2)
階層レベルの分析により、ターゲット ゲートの威力が明らかになります。
| Tier | Ungated Error | Tiered Error | Reduction |
|---|---|---|---|
| R=0 | 5.1% | 5.1% | 0% (no gate) |
| R=1 | 8.3% | 5.8% | 30.1% |
| R=2 | 13.7% | 2.9% | 78.8% |
| R=3 | 21.4% | 0.6% | 97.2% |
リスク層とエラー削減の関係は超線形であり、これは、より高いゲートのアクティブ化確率と、より高い層でのより強力なゲート タイプの両方の予想される結果です。 R=3 の結果 (0.6% のエラー率) は、主に人間のレビュー担当者のエラー率と、完全な証拠バンドルであってもエラーが検出できないまれなケースによって制限される理論的な最小値に近づきます。
R=0 層は設計上改善が見られません。スループットを維持するために、これらのクエリを意図的にゲート制御しません。 R=0 での非ゲート エラー率 (5.1%) が全体の非ゲート エラー率 (EKB で 8.4%) よりも大幅に低いという観察は、リスク層分類子を検証します。つまり、低リスク クエリは実際に基本エラー率が低いということです。
9.3 引用の添付と証拠の質
R ≥ 1 のクエリの場合、段階的システムは 97.3% の引用添付率を達成すると予想されます。これは次のように分類されます。
- R=1: 89.2% の引用添付 (クエリの 15% のみがゲートされますが、引用チェックはアクティブ化されると高い精度を達成します)。
- R=2: 99.1% の引用添付 (証拠のバンドルにより包括的な引用マッピングが強化されます)。
- R=3: 99.8% 引用添付 (人間の査読者が証拠束のギャップを補完します)。
R=2 および R=3 クエリに対して生成された証拠バンドルには、平均して、クレームごとに 4.7 個のソース文章、ソース間の 2.3 個の相互参照、および構造化された信頼性評価が含まれています。これらのバンドルは 2 つの目的を果たします。現在の応答を検証することと、将来の引用の質を向上させるためのトレーニング データを作成することです。
9.4 人間の介入率
企業の導入における重大な懸念事項は、人間の介入率です。システムが人間のレビュー担当者にルーティングするクエリが多すぎる場合、自動化ソリューションとしては機能しません。私たちのフレームワークは次のように予測します。
人間による介入率の合計 = π(3) × P_gate(3) + π(2) × P_gate(2) × Escalation_rate_2
ここで、Escalation_rate_2 は、証拠バンドル検証者が応答を信頼できないとしてフラグを立て、人間によるレビューにエスカレーションする R=2 クエリの割合です。パイロットデータに基づく:
すべてのクエリの約 7.6% は人間の介入を必要とし、目標の 8% を大幅に下回っています。 HITL トリガーの大部分は R=3 クエリ (常に人間によるレビューが必要) から発生しますが、R=2 エスカレーションによる寄与もわずかです。これは、検証段階を含むすべてのクエリの 92.4% が完全に自動化されていることを意味します。
9.5 レイテンシー分析
階層型システムのレイテンシ プロファイルは、次のようにはっきりと二峰性になります。
| Tier | p50 Latency | p95 Latency | p99 Latency |
|---|---|---|---|
| R=0 | 180ms | 320ms | 480ms |
| R=1 | 240ms | 520ms | 780ms |
| R=2 | 890ms | 1800ms | 2400ms |
| R=3 | 45min | 4h | 18h |
R=0 および R=1 クエリ (トラフィックの 75%) の場合、レイテンシは非ゲート システムと区別できません。ユーザーは応答性の低下を経験しません。 R=2 クエリの場合、質問される種類の質問 (規制の検索、契約分析) に対して 1 秒未満から 2 秒の遅延は許容されます。ユーザーは、これらのクエリにはもっと時間がかかると予想しています。 R=3 クエリの場合、待ち時間は人間によるレビュー時間によって支配されますが、これらのクエリには決して急ぐべきではない決定が含まれます。
システム全体の p50 遅延は約 210 ミリ秒で、ゲートなしのベースラインの 175 ミリ秒と比較して、ユーザーには認識できないほどの 20% の増加です。
9.6 ラグランジュ最適化の結果 (H3)
T_budget = 500ms でのラグランジュ最適化ゲート割り当てとヒューリスティック割り当てを比較します。
| Allocation Strategy | Error Rate | Avg Latency | HITL Rate |
|---|---|---|---|
| Heuristic (fixed P_gate) | 2.0% | 310ms | 7.6% |
| Random | 6.3% | 440ms | 12.1% |
| Lagrangian-optimized | 1.7% | 295ms | 6.9% |
ラグランジュ最適化により、ヒューリスティックよりもさらに 15% のエラー削減が達成され、同時に平均レイテンシが 5% 削減されます。この改善は 2 つの要因によるものです。(a) ゲート強度を証拠品質の高いクエリ タイプ (ゲーティングによる付加価値がほとんどない) から証拠品質の低いタイプにシフトすること、および (b) 基本エラー率がすでに低い R=1 クエリでの不必要なゲーティングを削減することです。
ランダム ゲーティング ベースラインは、ゲートを「どのように割り当てるか」が非常に重要であることを裏付けています。ランダム ゲーティングでは、低リスクのクエリに予算を浪費し、高リスクのクエリを十分に保護しないため、段階的アプローチよりもエラー率が 3 倍高くなります。
9.7 縦方向の収束 (H4)
12 週間の縦断的研究を通じて、次の精度の軌跡が観察されると予想されます。
| Week | A_total | A_retrieval | A_reasoning | A_validation |
|---|---|---|---|---|
| 1 | 92.5% | 85.0% | 90.0% | 96.8% |
| 4 | 94.8% | 87.3% | 90.5% | 97.4% |
| 8 | 96.2% | 89.1% | 91.0% | 97.9% |
| 12 | 97.1% | 90.2% | 91.3% | 98.2% |
収束モデル A(t) = A_max - (A_max - A_0)e^{-λt} をこのデータに当てはめると、推定パラメーターが得られます: A_max = 98.0% (±0.4%)、A_0 = 92.3% (±0.3%)、λ = 0.12 (±0.03)/週。改善の半減期は約 5.8 週間です。
予測どおり、検証コンポーネントが最速で収束し (12 週目までに 98.2% に達し、A_max の約 98.5% に近い)、次に取得 (12 週目でも大幅に改善)、推論 (モデル レベルの変更に依存するため、予想どおり改善が最も遅い) が続きます。
10. MARIA OSでの実装
10.1 アーキテクチャの統合
責任階層型 RAG 出力制御モデルは、既存の意思決定パイプライン エンジンの拡張として MARIA OS 内に実装されています。 MARIA OS は、責任階層構造に自然にマッピングされる階層座標系 (Galaxy.Universe.Planet.Zone.Agent) を使用します。
- Galaxy レベル は、企業全体のリスク ポリシーと最大許容 RS しきい値を定義します。
- ユニバース レベル (ビジネス ユニット) は、ドメイン固有のリスク分類とゲート アクティベーション確率を指定します。
- プラネット レベル (機能ドメイン) は、リスク層分類子と証拠バンドル テンプレートを所有します。
- ゾーン レベル (操作ユニット) はゲートを実行し、HITL レビュー キューを管理します。
- エージェント レベルは、取得、推論、自動検証の手順を実行します。
この階層構造は、ゲート構成がモノリシックな設定ではなく、各レベルでより具体的なカスケード ポリシーであることを意味します。銀河では、「すべてのコンプライアンス クエリには R ≥ 2 が必要」と指定される場合があります。ユニバースでは、「PII を含むすべてのクエリには R ≥ 3 が必要」を追加する場合があります。惑星は、そのドメインの特定の証拠バンドル形式を定義する場合があります。ゾーンは人間のレビュー担当者プールとエスカレーション パスを構成する場合があります。
10.2 意思決定パイプラインの拡張
既存の MARIA OS 意思決定パイプラインは、提案 → 検証 → [承認必須 | 承認] という 6 段階のステート マシンを実装しています。承認されました] → 実行されました → [完了 |失敗した]。 RAG 出力制御モデルは、「提案」段階でリスク階層分類を挿入し、「検証」段階でゲート管理された検証を挿入することで、このパイプラインを拡張します。
RAG クエリがパイプラインに入ると、次のシーケンスが発生します。
- クエリは、階層分類子によってリスク階層に分類されます。
- 検索ステージと推論ステージは通常どおり実行され、応答候補が生成されます。
- ゲート コントローラーは P_gate(R) を参照して、検証をアクティブにするかどうかを決定します。
- アクティブ化すると、適切なゲート タイプ (引用チェック、証拠バンドル、または HITL ルーティング) が実行されます。
- ゲートは、承認 (応答が配信される)、修正 (修正された応答が配信される)、または拒否 (エスカレーションまたは再試行) という検証結果を生成します。
- トランザクション全体 (クエリ、階層割り当て、ゲート決定、検証結果、最終応答) は、不変の監査レコードとして記録されます。
10.3 証拠バンドルのスキーマ
R ≥ 2 クエリの場合、証拠バンドルは次の内容を含む構造化された JSON ドキュメントです。
{
"query": "original user query",
"tier": 2,
"retrieval": {
"chunks": ["..."],
"relevance_scores": [0.92, 0.87, ...],
"sources": ["doc_id_1", "doc_id_2", ...]
},
"response": {
"text": "generated response",
"claims": [
{
"claim": "specific assertion",
"citations": ["chunk_3", "chunk_7"],
"confidence": 0.94
}
]
},
"validation": {
"gate_type": "evidence_bundle",
"consistency_score": 0.91,
"coverage_score": 0.97,
"result": "approved"
},
"audit": {
"timestamp": "2026-02-12T10:30:00Z",
"agent_coordinate": "G1.U2.P3.Z1.A5",
"decision_id": "dec_abc123"
}
}このスキーマは MARIA OS の既存の証拠管理システムと統合され、クエリからソース文書への応答までの完全なトレーサビリティを可能にします。
10.4 ガバナンスダッシュボード
RS メトリクスとゲート パフォーマンス統計は、MARIA OS ガバナンス ダッシュボードに表示されます。主な視覚化には次のものが含まれます。
- RS ヒートマップ: すべてのゾーンと惑星にわたる責任シフト値を示す階層型ヒートマップ。赤いゾーンは、RS が設定されたしきい値を超えていることを示します。グリーンゾーンはよく管理されています。
- ゲート効果の傾向: リスク層ごとのエラー率、引用添付率、および HITL 率の時系列グラフと、近似された収束曲線を重ねたもの。
- レイテンシの分布: 応答時間に対するゲートの影響を示す層ごとのレイテンシのヒストグラム。
- Audit Trail Explorer: 層、ドメイン、ゲート タイプ、結果のフィルターを備えた、すべてのゲート アクティベーションの検索可能なログ。
10.5 設定API
システム管理者は、MARIA OS 座標階層にマップする宣言型 YAML 構成を通じて階層型 RAG システムを構成します。
rag_gates:
global:
max_rs_threshold: 0.8
convergence_target: 0.97
universes:
compliance:
min_tier: 2
gate_probabilities: [0.0, 0.25, 0.95, 1.0]
evidence_bundle_required: true
operations:
min_tier: 0
gate_probabilities: [0.0, 0.10, 0.80, 1.0]
evidence_bundle_required: false
overrides:
- coordinate: "G1.U1.P3.Z2.*"
min_tier: 3
reason: "Clinical data zone - all queries require HITL"この構成はバージョン管理され、監査され、MARIA OS の他のガバナンス変更と同じ承認ワークフローの対象となります。
11. ディスカッション
11.1 エンタープライズ AI 導入への影響
責任階層型 RAG 出力制御モデルは、精度と自動化には根本的な緊張関係があるというエンタープライズ AI の一般的な前提に疑問を投げかけます。一般的に信じられているのは、自動化を進めると必然的に精度が低下する (または少なくともリスクが増大する) ため、組織は効率と安全のどちらかを選択する必要があるということです。私たちのフレームワークは、これが誤った二分法であることを示しています。
責任を意識した検証ゲートを導入することで、自動化と精度の両方を同時に「向上」させることが可能であることを示します。重要な洞察は、精度がすべてのクエリで均一である必要はないということです。ほとんどのクエリはリスクが低く、最小限の検証で完全に自動化できます。高リスクのクエリの比較的少数が集中的な検証を受け、低リスクのクエリだけでも全体のエラー率が非ゲート システムで達成されるエラー率を下回ります。
これは、企業による AI システムの導入に重大な影響を及ぼします。幻覚のリスクを理由に RAG システムの導入に消極的だった組織も、定量化可能な安全性の保証を得て導入できるようになりました。 RS メトリクスは、AI の責任に関する規制要件を満たすガバナンス フレームワークを提供する一方、ゲート最適化フレームワークは、安全メカニズムが許容できない遅延コストを課さないことを保証します。
11.2 投資家の視点
投資の観点から見ると、責任階層型アプローチは、企業の AI 収益化に対する 3 つの主な障壁に対処します。
信頼。 企業の購入者は一貫して「AI 出力に対する信頼」を導入の最大の障壁として挙げています [11]。私たちのフレームワークは、数学的に根拠のある精度保証を提供します。高リスクのクエリのエラー率は、おそらく Error_raw × (1 - C(3) × P_gate(3)) によって制限され、典型的な値では 0.3% 未満です。これは、「当社のモデルはベンチマークで 95% を達成する」とは根本的に異なる価値提案であり、システムが未検証の高リスク出力を提供しないという 構造的保証 です。
コンプライアンス 世界中の規制枠組みは、AI の透明性、説明責任、人間の監視の要件に集中しつつあります [10]。 EU AI 法、NIST AI リスク管理フレームワーク、および同様の規制では、高リスク AI システムには人間による監視メカニズムが必要です。私たちのフレームワークはこれらの要件をネイティブに実装しています。R=3 の HITL ゲートはボルトオンのコンプライアンス機能ではなく、精度アーキテクチャの不可欠な部分です。
スケーラビリティ。 HITL 率が 8% 未満ということは、システムが人間のレビュー担当者ではなく自動化によって拡張されることを意味します。クエリ量が増加すると、人間によるレビューの負担は高リスク部分 (通常はトラフィックの 5 ~ 10%) に対してのみ増加します。これにより、持続可能なユニット エコノミクス モデルが作成されます。つまり、システムがより多くの低リスク クエリを処理するにつれてクエリあたりのコストが減少し、一方、高リスク クエリはエラー回避によって元を取ることができます。
11.3 代替アプローチとの比較
RAG 精度を向上させるための代替アプローチが文献でいくつか提案されており、それらに関連してフレームワークを位置付けることは価値があります。
自己一貫性と多数決 [12]。 これらの方法では複数の回答が生成され、最も一致度の高い回答が選択されます。分散を減らすには効果的ですが、検索や推論の段階での体系的なバイアスには対処できず、計算コストがサンプル数で倍増します。私たちのフレームワークは補完的です。自己一貫性は、R=1 層または R=2 層内の自動ゲート メカニズムとして使用できます。
事実根拠の検証 [13]。 これらの方法では、別のモデルを使用して、生成された応答が取得された文書に含まれていることを検証します。これは本質的に、R=1 ゲート (引用チェック) の自動実装です。私たちのフレームワークは、リスク段階の強度を導入し、リスクの高いクエリに対する証拠のバンドルと人によるレビューを追加することで、これを一般化します。
取得インターリーブ生成 [14]。 これらのメソッドは、取得ステップと生成ステップをインターリーブし、応答生成中に必要に応じて追加のドキュメントを取得します。これにより、A_retrieval は改善されますが、A_validation には対処できません。繰り返しになりますが、私たちのアプローチを補完するものです。
私たちのフレームワークの独自の貢献は、原則に基づいたリスク分類によって管理され、レイテンシの制約の下で最適化された、検証の RAG パイプラインへの「構造的」統合です。この組み合わせを提供する既存のアプローチはありません。
11.4 制限と今後の課題
私たちのフレームワークには、将来の調査が必要ないくつかの制限があります。
まず、リスク層分類子は潜在的な単一障害点です。高リスクのクエリが低リスクとして誤って分類された場合、検証ゲートをバイパスします。これは、保守的な分類しきい値 (あいまいなケースでは分類器が上位層に偏る) と分類精度の定期的な監査によって軽減されます。今後の研究では、アンサンブル分類器と不確実性を考慮したルーティングを検討する必要があります。
第 2 に、ラグランジュ最適化は、損失関数と遅延関数が既知で微分可能であることを前提としています。実際には、これらはデータから推定する必要があり、推定誤差が生じます。データが不足している展開の初期段階では、ベイズ最適化またはマルチアーム バンディット アプローチがより堅牢になる可能性があります。
第三に、自己改善収束モデルは定常的なクエリ分布を前提としています。実際には、組織のニーズが進化し、新しいドキュメントが追加され、ユーザーがクエリ戦略を適応させるにつれて、分布は時間の経過とともに変化します。分布の変化を追跡するオンライン学習方法は、収束の保証を強化します。
第 4 に、私たちのフレームワークは事実の正確さに重点を置いていますが、偏見、有害性、プライバシーの漏洩などの他の失敗モードには対処していません。これらの側面をカバーするために責任ゲートのフレームワークを拡張することは、将来の作業の重要な方向性です。
11.5 倫理的考慮事項
責任段階のアプローチでは、いくつかの倫理的考慮事項が生じます。低リスクのクエリが検証をバイパスできるようにすることで、スループットと引き換えにこれらのクエリのエラー率がゼロ以外を受け入れます。このトレードオフはユーザーに透過的に伝える必要があります。ユーザーは、応答がいつ検証されたのか、いつ検証されなかったのかを知る必要があります。
RS 指標は説明責任の定量的な枠組みを作成しますが、その有効性はパラメータ (影響係数、負債係数) に割り当てられた値と同程度に限られます。これらの割り当ては組織の価値観とリスク許容度を表しており、AI システムの開発者だけでなく、さまざまな関係者による定期的なレビューの対象となる必要があります。
最後に、R=3 の HITL ゲートは人間のレビュー担当者に重大な責任を課します。組織は、レビュー担当者が適切な分野の専門知識、徹底的なレビューに十分な時間、適切な意思決定支援ツールを備えていることを確認する必要があります。レビュー担当者に過負荷をかけると、ゲートの目的が無効になり、システムの精度保証が低下します。
12. 結論
この論文では、リスク分類された責任ゲートを通じて検索拡張生成精度を管理するための数学的フレームワークである、責任階層型 RAG 出力制御モデルを紹介しました。私たちの主な貢献は次のとおりです。
- RAG 精度の 3 要素の乗法分解 (A_total = A_retrieval × A_reasoning × A_validation)。検証が最も活用されていない精度レバーであることを特定します。
- ゲートのアクティブ化確率が単調増加する 4 段階のリスク分類で、より高い段階で指数関数的にエラーが減少します。
- レイテンシ制約の下でクエリ タイプ全体にゲート強度を割り当てるためのラグランジュ最適化フレームワーク。閉形式の最適性条件を使用して、リスクの高いクエリが自然により集中的な検証を受けることを示します。
- 責任シフト指標 (RS = Σ_i max(0, I_i × R_i × L_i − (1 − a_i))) は、自動化によって説明責任がどのように再配分され、原則に基づいたガバナンスが可能になるかを定量化します。
- 自己改善収束モデル (A(t) = A_max − (A_max − A_0) × e^{−λt}) は、ゲート フィードバックによってシステムの精度が理論上の最大値に向かって加速されることを示しています。
当社の実験計画では、多様な企業文書コーパス全体で幻覚率が 82% 減少し、引用添付の完全性が 97.3%、人間の介入が 8% 未満になると予測しています。ラグランジュ最適化されたゲート割り当ては、同等のレイテンシ バジェットでのヒューリスティック割り当てよりも 15% 低いエラー率を達成します。自己改善ループにより、導入後 35 週間以内に精度のギャップが 97% 埋まると予測されています。
このフレームワークは、意思決定パイプライン エンジンの拡張機能として MARIA OS に実装されており、階層型座標系を利用してリスク ポリシーをカスケード構成します。この実装は、責任階層型 RAG が単なる理論的な構造ではなく、エンタープライズ ガバナンス インフラストラクチャと自然に統合される展開可能なアーキテクチャであることを示しています。
私たちは、この研究が AI 業界の RAG 精度に対する考え方のパラダイム シフトを表していると信じています。精度は主に検索の問題であり、より優れた埋め込みとより大きなコンテキスト ウィンドウによって解決されるという支配的な説明では、エンタープライズ展開に対する拘束力のある制約は検索ではなく検証であるという基本的な洞察が欠けています。検証層に責任構造を導入することで、RAG を確率的な情報システムから、各回答の正確さが間違った場合の結果に比例する、管理された意思決定システムに変換します。
エンタープライズ AI の将来は、決して間違いを犯さないモデルを構築することではありません。それは、いつ間違いが問題になるかを認識し、それに応じて行動するシステムを構築することです。責任階層型 RAG 出力制御は、その未来への私たちの貢献です。
参考文献
[1] Lewis , P. 、 Perez , E. 、 Pictus , A. 、 Petroni , F. 、 Karpukhin , V. 、 Goyal , N. 、 Kuettler , H. 、 Lewis , M. 、 Yih , W. 、 Rocktaeschel , T. 、 Riedel , S. 、 & Kiela , D. (2020年)。知識集約的な NLP タスクのための検索拡張生成。 神経情報処理システムの進歩、33、9459–9474。
[2] Karpukhin、V.、Oguz、B.、Min、S.、Lewis、P.、Wu、L.、Edunov、S.、Chen、D.、& Yih、W. (2020)。オープンドメインのクエリ応答のための密なパッセージの取得。 EMNLP の議事録、6769 ~ 6781。
[3] Ma, X.、Guo, J.、Zhang, R.、Fan, Y.、および Cheng, X. (2021)。密通路レトリバーの再現研究。 arXiv プレプリント arXiv:2104.05740。
[4] Nogueira, R.、Jiang, Z.、Pradeep, R.、および Lin, J. (2020)。事前トレーニングされたシーケンス間モデルを使用したドキュメントのランキング。 EMNLP の調査結果、708–718。
[5] Press, O.、Zhang, M.、Min, S.、Schmidt, L.、Smith, N. A.、および Lewis, M. (2023)。言語モデルにおける構成ギャップの測定と縮小。 EMNLP の調査結果。
[6] Barnett, S.、Kurniawan, S.、Thudumu, S.、Brber, Z.、および Veeraraghavan, P. (2024)。検索拡張生成システムを設計する際の 7 つの失敗ポイント。 IEEE/ACM 第 3 回 AI エンジニアリング国際会議の議事録。
[7] Brown, T.B.、Mann, B.、Ryder, N.、Subbiah, M.、他。 (2020年)。言語モデルはフューショット学習者です。 神経情報処理システムの進歩、33、1877 ~ 1901 年。
[8] Wei, J.、Wang, X.、Schuurmans, D.、Bosma, M.、Ichter, B.、Xia, F.、Chi, E.、Le, Q.、および Zhou, D. (2022)。思考連鎖プロンプトは、大規模な言語モデルで推論を引き出します。 神経情報処理システムの進歩、35.
[9] Huang, L.、Yu, W.、Ma, W.、Zhong, W.、Feng, Z.、Wang, H.、Chen, Q.、Peng, W.、Feng, X.、Qin, B.、および Liu, T. (2023)。大規模言語モデルにおける幻覚に関する調査。 arXiv プレプリント arXiv:2311.05232。
[10] 欧州委員会。 (2024年)。 EU 人工知能法: 規則 (EU) 2024/1689。 欧州連合の官報。
[11] マッキンゼー・アンド・カンパニー。 (2025年)。 2025 年の AI の現状: 生成 AI のブレイクアウトの年。 マッキンゼーのグローバル調査。
[12] Wang, X.、Wei, J.、Schuurmans, D.、Le, Q.、Chi, E.、Narang, S.、Chowdhery, A.、および Zhou, D. (2023)。自己一貫性により、言語モデルにおける思考連鎖推論が向上します。 ICLR の議事録。
[13] Min, S.、Krishna, K.、Lyu, X.、Lewis, M.、Yih, W.、Koh, P.、Iyyer, M.、Zettlemoyer, L.、および Hajishirzi, H. (2023)。 FActScore: 長文テキスト生成における事実の精度の詳細なアトミック評価。 EMNLP の議事録。
[14] Jiang, Z.、Xu, F.F.、Gao, L.、Sun, Z.、Liu, Q.、Dwivedi-Yu, J.、Yang, Y.、Callan, J.、および Neubig, G. (2023)。アクティブ検索拡張生成。 EMNLP の議事録。