Why Evidence Bundles Stabilize RAG Accuracy: A Variance Reduction Framework

要旨

検索拡張生成 (RAG) システムの地上言語モデルは、検索された証拠に出力されます。標準的なアプローチでは、クエリとの関連性によってランク付けされたパッセージのフラットリストを取得し、それらをコンテキストウィンドウに連結して、モデルに回答を生成するよう促します。このアプローチでは、すべての文章を独立した証拠単位として扱い、内部の一貫性を無視します。検索された文章が一貫した物語を形成せずにクエリのさまざまな側面を扱っている場合、言語モデルは捏造された接続でギャップを埋め、もっともらしいが裏付けのない主張を生み出します。これが RAG の幻覚障害モードです。

この文書では、証拠バンドルのフレームワークを紹介します。個々のパッセージを取得する代わりに、システムは構造化されたバンドル、つまり内部一貫性を持ってクエリの特定の側面に集合的に対処するパッセージのグループを取得します。幻覚率をバンドル内の証拠密度の関数としてモデル化します: H(e) = H_base exp(-lambda density(e))。ここで、密度は証拠の意味論的な一貫性と完全性を測定します。私たちは、バンドルされた証拠により、バンドルの凝集スコアに比例する係数で回答の分散が減少することを証明し、それを下回ると拒否の方が回答よりも信頼性が高くなる凝集しきい値を導き出し、MARIA OS デプロイメントにおける 8,400 のガバナンスクエリにわたってフレームワークを検証します。

1. 問題提起: コヒーレンスギャップ

標準 RAG は、クエリとの意味的類似性によって上位 k 個のパッセージを取得します。「調達パイプラインにおけるベンダー X の承認履歴は何ですか?」などのガバナンスクエリの場合、システムは、(1) ベンダー X の登録日に関する文章、(2) 調達パイプライン構成に関する文章、(3) 別のベンダーの承認に関する文章、および (4) ベンダー X の契約条件に関する文章を取得する可能性があります。それぞれの文章は個別に関連していますが、全体としては質問の答えにはなりません。実際の承認履歴については触れられていない。

この一貫性のギャップに直面した場合、言語モデルには 2 つの選択肢があります。回答を拒否する (証拠が不十分であると述べる) か、もっともらしい推論でギャップを埋めるかです。実際には、モデルは圧倒的に 2 番目のオプションを選択します。取得した証拠にそのような情報が存在しない場合、「ベンダー X は標準的な審査を経て 1 月 15 日に承認されました」のような記述が生成されます。生成された回答は権威あるもののように聞こえ、文脈から現実の実体を引用しており、完全に捏造されています。

根本原因は、従来の意味での取得失敗ではありません。取得された各パッセージには関連性があります。失敗には一貫性があります。各文章は、尋ねられた特定の質問に対する完全な証拠の連鎖を形成していません。証拠バンドルは、個々の関連性ではなく一貫性を中心に検索を構造化することで、この問題に対処します。

2. 証拠バンドルの定義

証拠バンドルは、測定可能な内部一貫性を備えた単一の証拠主張を集合的に取り上げる、構造化された文章のグループです。

Definition 1 (Evidence Bundle):
  B = (P, c, t, d) where:
    P = {p_1, p_2, ..., p_m}  -- set of passages
    c = claim(P)               -- the evidential claim P supports
    t = type(B)                -- bundle type (temporal, causal, comparative, etc.)
    d = density(B)             -- evidence density score in [0, 1]

Definition 2 (Evidence Density):
  density(B) = (1/3) * [coverage(B) + consistency(B) + completeness(B)]

  coverage(B)     = fraction of claim facets addressed by at least one passage
  consistency(B)  = 1 - max pairwise contradiction score among passages
  completeness(B) = 1 - fraction of claim facets with only indirect support

Definition 3 (Bundle Cohesion Score):
  cohesion(B) = mean pairwise semantic similarity among passages in B
              = (2 / m(m-1)) * sum_{i<j} sim(p_i, p_j)

  where sim(p_i, p_j) is the cosine similarity of passage embeddings.

Relationship: density >= cohesion * completeness
  (density requires both topical focus AND factual coverage)

凝集性と密度の区別は重要です。凝集度は、文章が同じトピックに関するものであるかどうかを測定します。密度は、質問に集合的に回答するかどうかを測定します。ベンダー X の財務健全性についてすべて議論している 5 つの文章の束は、凝集度は高いですが、承認履歴に関する質問の場合は密度が低くなります。密度には、バンドルのコンテンツとバンドルがサポートする特定の主張の間の調整が必要です。

3. 幻覚率モデル

幻覚率を証拠密度の指数関数的に減少する関数としてモデル化します。

Theorem 1 (Hallucination Rate Model):
  H(e) = H_base * exp(-lambda * density(e))

where:
  H(e)    = probability of hallucination given evidence bundle e
  H_base  = hallucination rate with zero evidence (density = 0)
  lambda  = decay constant (evidence effectiveness parameter)

Empirical calibration (8,400 governance queries):
  H_base  = 0.47   (47% hallucination rate with empty context)
  lambda  = 4.12   (strong exponential decay)

Model predictions vs observed:
  density | H(predicted) | H(observed) | Error
  --------|-------------|-------------|------
  0.00    | 0.470       | 0.463       | 0.007
  0.20    | 0.207       | 0.214       | 0.007
  0.40    | 0.091       | 0.088       | 0.003
  0.60    | 0.040       | 0.037       | 0.003
  0.80    | 0.018       | 0.021       | 0.003
  1.00    | 0.008       | 0.009       | 0.001

  R-squared = 0.967

指数関数的減衰は、自然な情報理論の議論から生じます。証拠密度の各単位により、主張に関する残りの不確実性の一定部分が排除されます。これは、通信理論における信号強度の増加に伴うエラー確率の指数関数的な減少に似ています。このモデルは、証拠密度の最初の増分が幻覚の最大の減少をもたらし、追加密度の利益は逓減することを示唆しています。密度を 0.0 から 0.2 に変更すると、幻覚が 26 パーセントポイント減少します。 0.8 から 1.0 に変更しても、わずか 1 パーセントポイント減少します。

4. バンドルによる差異の削減

平均幻覚率を減らすだけでなく、証拠バンドルは回答の質のばらつきを減らします。これを分散低減定理として定式化します。

Theorem 2 (Variance Reduction):
  Let X_unbundled be the answer quality score for unbundled retrieval
  and X_bundled be the answer quality score for bundled retrieval
  with cohesion c.

  Var(X_bundled) <= Var(X_unbundled) / (1 + (m-1) * c^2)

  where m = number of passages and c = cohesion score.

Proof:
  Model each passage as providing an independent quality signal:
    q_i = mu + epsilon_i   where E[epsilon_i] = 0, Var(epsilon_i) = sigma^2

  For unbundled retrieval (independent passages):
    X_unbundled = (1/m) * sum_i q_i
    Var(X_unbundled) = sigma^2 / m

  For bundled retrieval (correlated passages with correlation c^2):
    Cov(epsilon_i, epsilon_j) = c^2 * sigma^2   for i != j
    The bundle answer leverages shared information:
    X_bundled = f(q_1, ..., q_m)  where f exploits cross-passage consistency

    The effective number of independent signals is:
    m_eff = m / (1 + (m-1) * c^2)    (for high cohesion, c -> 1: m_eff -> 1)

    But the signal quality per effective signal is amplified:
    sigma_eff^2 = sigma^2 / (1 + (m-1) * c^2)

    Var(X_bundled) = sigma_eff^2 / m_eff
                   = sigma^2 / (m * (1 + (m-1) * c^2))

  Variance reduction factor:
    VRF = Var(X_unbundled) / Var(X_bundled) = 1 + (m-1) * c^2

  For m=5, c=0.8: VRF = 1 + 4 * 0.64 = 3.56
  For m=5, c=0.9: VRF = 1 + 4 * 0.81 = 4.24
  For m=7, c=0.85: VRF = 1 + 6 * 0.72 = 5.33  QED.

分散削減係数は、束ねられた証拠がより一貫した答えを生み出す理由を説明します。凝集性が高いとは、文章が互いの情報を強化し、誤解を招く単一の文章が解答を支配する可能性が減少することを意味します。削減係数はバンドルのサイズに応じて直線的に、凝集度に応じて二次的に増加し、より大きなバンドルとより緊密な話題の焦点の両方に強力なインセンティブを提供します。

5. 一貫性に基づく回答の拒否

すべてのクエリに確実に回答できるわけではありません。証拠の束の凝集性が低い場合、システムは信頼性の低い応答を生成するのではなく、応答を拒否する必要があります。決定理論の枠組みから拒否の閾値を導き出します。

Definition 4 (Answer Utility):
  U(answer | B) = V_correct * (1 - H(B)) - V_wrong * H(B)
  U(refuse)      = V_refuse

  where:
    V_correct = value of a correct answer (positive)
    V_wrong   = cost of a hallucinated answer (positive)
    V_refuse  = value of a transparent refusal (typically small positive)

Refusal Condition:
  Refuse when U(answer | B) < U(refuse):
    V_correct * (1 - H(B)) - V_wrong * H(B) < V_refuse
    V_correct - H(B) * (V_correct + V_wrong) < V_refuse
    H(B) > (V_correct - V_refuse) / (V_correct + V_wrong)

Let H_threshold = (V_correct - V_refuse) / (V_correct + V_wrong)

Substituting H(B) = H_base * exp(-lambda * density(B)):
  density_threshold = (1/lambda) * ln(H_base / H_threshold)

Using cohesion as a proxy for density (density >= alpha * cohesion):
  cohesion_threshold = density_threshold / alpha

Calibrated values (MARIA OS governance queries):
  V_correct = 10, V_wrong = 50, V_refuse = 1
  H_threshold = (10 - 1) / (10 + 50) = 0.15
  density_threshold = (1/4.12) * ln(0.47 / 0.15) = 0.278
  alpha = 0.43 (empirical density-cohesion ratio)
  cohesion_threshold = 0.278 / 0.43 = 0.647

  Rounded: refuse when cohesion < 0.65

拒否しきい値 0.65 は、取得された証拠バンドルの凝集スコアが 0.65 未満の場合、システムが応答を拒否することを意味します。これはヒューリスティックではなく原理的なしきい値です。凝集度と幻覚率の間の測定された関係を考慮すると、応答の期待される有用性と拒否の有用性が同等になります。 MARIA OS ガバナンスのコンテキストでは、幻覚的な回答が誤った意思決定を引き起こす可能性があり、コストの非対称性 (V_wrong = 5 * V_correct) により、証拠の質が不確実な場合は常に拒否が合理的な選択となります。

6. バンドル構築アルゴリズム

クエリ q とパッセージのコーパスが与えられると、バンドル構築アルゴリズムは、クエリの異なる側面にそれぞれ対応する一連の証拠バンドルを生成します。

Algorithm: ConstructEvidenceBundles
Input:  query q, passage corpus C, parameters (k, m_max, c_min)
Output: list of EvidenceBundles

1. RETRIEVE top-K passages by semantic similarity to q
   K = 5 * k (over-retrieve to allow filtering)

2. CLUSTER retrieved passages using agglomerative clustering
   with cosine similarity and Ward linkage
   Cut threshold: minimum cohesion c_min = 0.65

3. For each cluster C_j:
   a. Compute claim(C_j) = summarize what C_j collectively asserts
   b. Compute density(C_j) using coverage, consistency, completeness
   c. Compute cohesion(C_j) = mean pairwise similarity
   d. If cohesion(C_j) < c_min: discard cluster (insufficient coherence)
   e. If |C_j| > m_max: prune to top m_max by relevance to claim
   f. Assign bundle type based on passage metadata:
      - temporal: passages span a time range
      - causal: passages describe cause-effect chains
      - comparative: passages contrast alternatives
      - evidential: passages provide supporting facts

4. RANK bundles by density * relevance(claim, q)
5. RETURN top bundles (typically 2-4 per query)

Complexity: O(K^2) for clustering + O(K) for scoring
Latency: 45-120ms for K=50, dominated by embedding computation

アルゴリズムの重要な設計上の選択は、スコアリング前のクラスタリングです。最初にパッセージを一貫したクラスターにグループ化することで、システムは各バンドルが内部一貫性を持ってクエリの 1 つの側面に対処することを保証します。これにより、関連性は高いが矛盾した文章によって取得されたコンテキストの一貫性が損なわれるという、標準 RAG によくある失敗モードが防止されます。

7. 実験結果

私たちは、3 つの MARIA OS 導入環境にわたる証拠バンドルフレームワークを評価し、バンドルされていない RAG、単純なバンドリング (K 平均法クラスタリング)、および完全な証拠バンドルフレームワークを比較しました。

Experimental Results (8,400 governance queries, 3 deployments):

  Metric                  | Unbundled | Naive Bundle | Evidence Bundle
  ------------------------|-----------|--------------|----------------
  Hallucination Rate      | 12.3%     | 6.8%         | 2.1%
  Answer Accuracy         | 74.2%     | 82.1%        | 91.4%
  Answer Variance (sigma) | 0.182     | 0.104        | 0.039
  Refusal Rate            | 0%        | 0%           | 8.7%
  Refusal Precision       | N/A       | N/A          | 94.2%
  Latency (median)        | 210ms     | 340ms        | 380ms
  Reviewer Trust Score    | 3.1/5     | 3.8/5        | 4.5/5

  Hallucination by density quartile (evidence bundle method):
    Q1 (density 0.0-0.25): H = 18.4%  -> REFUSED (below threshold)
    Q2 (density 0.25-0.50): H = 7.2%  -> REFUSED (below threshold)
    Q3 (density 0.50-0.75): H = 2.8%  -> Answered with caveat
    Q4 (density 0.75-1.00): H = 0.4%  -> Answered with confidence

幻覚率の 82.9% の減少 (12.3% から 2.1% へ) が主要な結果です。同様に重要なのは、8.7% の拒否率です。システムは、クエリの 8.7% が利用可能な証拠によって十分に裏付けられていないと正確に識別し、幻覚の可能性がある回答の生成を拒否します。これらの拒否のうち、94.2% はバンドルされていない検索下では実際に不正確な回答を生成しており、凝集閾値が適切に調整されていることを確認しています。

8. 密度-幻覚曲線: 経験的検証

密度と幻覚の関係を完全にプロットして、密度範囲全体にわたる指数関数的減衰モデルを検証します。

Density-Hallucination Curve (8,400 queries, 20 density bins):

  Density | N queries | H (observed) | H (model)   | Residual
  --------|-----------|-------------|-------------|----------
  0.00-05 | 187       | 0.449       | 0.470       | -0.021
  0.05-10 | 214       | 0.381       | 0.381       | +0.000
  0.10-15 | 298       | 0.312       | 0.309       | +0.003
  0.15-20 | 341       | 0.241       | 0.251       | -0.010
  0.20-25 | 412       | 0.213       | 0.203       | +0.010
  0.25-30 | 478       | 0.158       | 0.165       | -0.007
  0.30-35 | 521       | 0.138       | 0.134       | +0.004
  0.35-40 | 587       | 0.102       | 0.108       | -0.006
  0.40-45 | 634       | 0.089       | 0.088       | +0.001
  ...     | ...       | ...         | ...         | ...
  0.90-95 | 489       | 0.012       | 0.011       | +0.001
  0.95-1.0| 312       | 0.009       | 0.008       | +0.001

  Goodness of fit:
    R-squared = 0.967
    RMSE = 0.0072
    Max absolute residual = 0.021 (at density = 0.0, sparse data)

  The exponential model is an excellent fit across the full range.
  No systematic bias is observed in the residuals.

9. ディスカッション: バンドルが機能する理由

証拠バンドルの有効性は 3 つのメカニズムから生じます。まず、凝集した通路は冗長な信号を提供します。 3 つの文章が同じ主張を独立してサポートしている場合、言語モデルは外挿ではなく三角測量を行うことができます。これは、分散低減定理によって捉えられる統計的メカニズムです。第二に、まとまりのあるパッセージはギャップを明示します。バンドルの凝集性は高いが完全性が低い場合、モデルはギャップを黙って埋めるのではなく、どの情報が欠落しているかを具体的に特定できます。これは、確実な拒否を可能にする透明性のメカニズムです。第三に、凝集した通路は生成を抑制します。ベンダー X の承認履歴に関するバンドルは、モデルの生成スペースをベンダー X の承認履歴に関するステートメントに制限し、接線的に関連しているがサポートされていない主張への移行を防ぎます。

10. 意思決定OSへの影響

MARIA OS では、証拠バンドルは、ガバナンスの決定を事実の証拠に基づいて行うための主要なメカニズムです。決定がパイプラインに入り、人間によるレビューが必要になると、システムはその決定を支持または異議を唱える証拠の束を構築します。レビュー担当者は、検索されたパッセージのフラットなリストではなく、それぞれに密度スコアと凝集性インジケーターを備えた構造化されたバンドルを確認します。拒否メカニズムは、ガバナンスの文脈において特に重要です。コンプライアンス審査における幻覚証拠の引用は、単に不正確であるだけではありません。偽の監査証跡が作成され、組織が規制上のリスクにさらされる可能性があります。 MARIA OS は、一貫性のしきい値を下回る回答の生成を拒否することで、ガバナンスの決定が本物の証拠によって裏付けられるか、または不十分な裏付けとして明示的にフラグが付けられるようにします。

証拠バンドルフレームワークは、Graph RAG に関する関連論文で説明されているスペクトルホップカウントの導出と統合されています。ホップ数によって、システムがナレッジグラフをどの程度深く横断するかが決まります。バンドルの構築により、取得されたノードが一貫した証拠グループにどのように編成されるかが決まります。これらは一緒になって、最適な深さ (スペクトル h*) とそれに続く最適な構造 (証拠バンドル) という完全な検索パイプラインを形成します。

結論

証拠バンドルは、RAG を検索問題から証拠キュレーション問題に変換します。幻覚率モデル H(e) = H_base exp(-lambda density(e)) は、束ねられた証拠がなぜ機能するのか、そしてどれだけの証拠があれば十分なのかを理解するための原則的なフレームワークを提供します。分散低減定理は一貫性の向上を説明します。結束ベースの拒否しきい値により、証拠が不十分な場合にシステムが安全に失敗することが保証されます。 MARIA OS の場合、これは、AI によって生成されたすべてのガバナンスに関する洞察が、構造化された証拠によって十分に裏付けられているか、不確実であるとして透過的にフラグが付けられていることを意味します。幻覚による主張が証拠を装う妥協点はありません。

Evidence BundleによるRAG安定化: 分散低減と回答拒否閾値の理論

要旨

1. 問題提起: コヒーレンスギャップ

2. 証拠バンドルの定義

3. 幻覚率モデル

4. バンドルによる差異の削減

5. 一貫性に基づく回答の拒否

6. バンドル構築アルゴリズム

7. 実験結果

8. 密度-幻覚曲線: 経験的検証

9. ディスカッション: バンドルが機能する理由

10. 意思決定OSへの影響

結論

研究開発のベンチマーク

Evidence Bundle強制型RAG: 引用必須・回答拒否を含む信頼応答設計

Conflict Card生成アルゴリズム: 数理検知を説明可能な意思決定成果物へ変換する

衝突可視化 vs 統合解消: 意思決定後悔と修正率の比較実験

因果構造抽出のためのGraph RAG: 多段検索と証拠結束の行列モデル