Name: MARIA OS
Author: MARIA OS

要旨

検索拡張生成 (RAG) は、エンタープライズナレッジベースに大規模言語モデル (LLM) を基礎付けるための主要なアーキテクチャになっています。しかし、RAG システムが幻覚を起こすという根本的な問題は依然として残ります。彼らは引用を捏造し、統計をでっち上げ、自信を持って誤った情報を事実として提示します。根本的な原因はアーキテクチャにあります。従来の RAG パイプラインは、証拠を必須の構造ではなくオプションのコンテキストとして扱います。このペーパーでは、あらゆる対応を検証可能な証拠に構造的に依存させるフレームワークである Evidence Bundle-Enforced RAG を紹介します。各回答には、一連の引用ソース、段落レベルの出典、およびソースごとの信頼スコアなど、完全な証拠の束が含まれている必要があります。集計された証拠が数学的に定義された十分性のしきい値を下回ると、システムは幻覚の危険を冒すのではなく、回答を拒否します。このアプローチを形式化します証拠十分性スコアリング、バンドル完全性メトリクス、幻覚率モデリング、ユーザー信頼ダイナミクス、再クエリ確率分析、グラフベースの検索からの証拠の凝集、自己改善フィードバックループをカバーする包括的な数学的フレームワークを通じて。管理された企業展開では、証拠バンドル適用 RAG は幻覚率を 23.7% から 3.2% に減少させます。これは桁違いの改善です。同時に、受け入れられた回答に関して 94.1% の証拠完全性を維持し、ベースライン RAG の 2.8 と比較してユーザー信頼スコア 5 点中 4.6 を達成します。規制遵守、投資家の信頼、および証拠執行の MARIA OS ガバナンスプラットフォームへの統合への影響について説明します。

1. はじめに — Enterprise RAG における幻覚危機

大規模な言語モデルにより、組織が知識ベースと対話する方法が変わりました。その約束は並外れたものです。自然言語で質問すると、自分の文書に基づいた正確な回答が得られます。検索拡張生成は、ほとんどの場合、この約束を果たします。問題は、残りの時間に何が起こるかです。

RAG システムが幻覚を起こしても、それは不確実性を示すものではありません。それはその答えを修飾するものではありません。捏造された情報を、検証された事実と同じ自信に満ちた口調で提示します。企業の状況（規制当局への申請、医療記録、法的契約、財務監査）では、たった 1 つの幻覚が壊滅的な結果を引き起こす可能性があります。コンプライアンスに関する捏造された引用は、規制上の罰則につながる可能性があります。考え出された医学的推奨用量は患者を危険にさらす可能性があります。契約上の誤った解釈は、組織を訴訟にさらす可能性があります。

問題の規模は驚くべきものです。エンタープライズ RAG 導入全体にわたる最近のベンチマークでは、ドメインの複雑さと取得の品質に応じて、実稼働システムにおける幻覚率が 15% ～ 30% であることが明らかになりました。これらは特殊なケースではありません。 1 日あたり 10,000 件のクエリに回答するシステムでは、幻覚率が 20% ということは、毎日 2,000 件の回答に捏造または誤解を招く情報が含まれていることを意味します。

この危機に対する従来の対応は、検索品質を向上させたり、生成モデルを微調整したり、事後的なファクトチェック層を追加したりすることでした。これらのアプローチは段階的な改善をもたらしますが、アーキテクチャ上の根本原因には対処できません。RAG システムは構造的に主張の証拠を提供する必要がありません。生成モデルは、取得されたコンテキストを制約ではなく提案として受け取ります。取得した証拠を超える、矛盾する、または完全に無視するテキストを生成する可能性があり、定期的に生成されます。

この文書では、根本的に異なるアプローチを提案します。証拠を応答に反映されるかどうかの任意のコンテキストとして扱うのではなく、証拠を 構造要件 とします。すべての回答には、明示的な証拠バンドル、つまり引用元、特定の段落参照、各主張を正当化する信頼度スコアを含む正式なデータ構造が含まれている必要があります。システムが十分な証拠の束を組み立てることができない場合、システムは応答を拒否します。

これはアーキテクチャ上の小さな調整ではありません。「答える」から「証拠を持って答える」へのパラダイムシフトを表しています。システムの主な出力はもはやテキストではなく、自然言語による要約がたまたま含まれている証拠の束です。この優先順位の逆転により、すべての応答が検証可能な情報源に基づいた構造となることが保証されます。

拒否メカニズムは重要な革新です。従来の RAG では、応答すべきでない場合でも、システムは常に応答します。証拠バンドル強制 RAG では、原則に基づいた意思決定の境界線が導入されます。つまり、証拠が十分な場合は回答し、不十分な場合は拒否されます。これにより、障害モードが「自信に満ちた幻覚」から「明らかな拒否」に変換され、エンタープライズアプリケーションにとっては劇的に安全な結果となります。

以下のセクションでは、証拠バンドルの概念を形式化し、証拠の十分性と幻覚の減少のための完全な数学的フレームワークを開発し、ユーザーの信頼と再クエリ行動への影響を分析し、幻覚率の桁違いの減少を実証する企業展開からの実験結果を示します。

1.1 問題の範囲

幻覚危機の深刻さを理解するには、エンタープライズ RAG 導入における失敗の分類を検討してください。私たちは、金融サービス、ヘルスケア、法律、製造部門にわたる 4 つの企業展開にわたる 12,000 件の RAG 回答の体系的な分析を実施しました。調査結果は厳粛なものだ。

少なくとも 1 つの幻覚を含むすべての回答のうち、47% に 引用捏造、つまり存在しない文書、セクション、または規制への参照がシステムによって生成されました。これらは微妙なエラーではありません。これらは、実際の引用の形式と信頼性を備えて提示された完全な発明です。偽造された規制に関する通知を受け取ったコンプライアンス担当者は、手動で規制データベースを検索することなく、それを本物と区別する簡単な方法はありません。

さらに 31% には 数値の歪み が含まれていました。システムは正しいソース文書を取得しましたが、誤った数値を報告しました。日付は月単位または年単位で変化し、パーセンテージは逆転し、得られた金額または損失された金額は桁違いでした。これらのエラーは、周囲のコンテキストが正しく、捏造された数値が正確な応答にシームレスに溶け込むため、特に危険です。

残りの 22% には 論理的外挿 が含まれており、システムは証拠の裏付けを超えた結論を導き出しました。従業員はリモートワークを「する権利がある」として、従業員がリモートワークを「要求することができる」と述べた方針文書が報告された。収益が「第 3 四半期に増加した」と述べた財務報告書は、収益が「年間を通じて一貫して増加した」と主張するために推定されました。これらの誤りには実際の情報源とほぼ正しい事実が含まれていますが、推論の飛躍により重大な不正確さが生じます。

1.2 既存の緩和策では不十分な理由

AI 業界はさまざまな緩和戦略で幻覚に対応してきましたが、そのどれも構造的な根本原因に対処するものではありませんでした。

プロンプトエンジニアリング: 「提供されたコンテキストに基づいてのみ回答する」などの指示は、ソフトな制約です。これらはほとんどの場合機能しますが、最も重要な場合、つまりモデルがパラメトリックな知識でギャップを埋めようとするあいまいなクエリで正確に失敗します。
温度の低下: 生成温度を下げるとランダム性が低下しますが、系統的エラーは防止されません。誤差はサンプリングの分散ではなくモデルの解釈にあるため、モデルは温度 0.0 で同じ幻覚を一貫して生成する可能性があります。
事後事実確認: 最初のモデルの主張を検証するために 2 番目のモデルを実行すると、待ち時間とコストが追加されます。より根本的には、検証者モデルには生成者と同じ盲点がある可能性があります。どちらのモデルも同様のトレーニング分布から抽出されており、同様の故障モードを共有しています。
人間によるレビュー: すべての回答の手動レビューは正確ですが、スケールが異なります。 1 日あたり 10,000 クエリの場合、人間による完全なレビューには 50 人以上のレビュー担当者のチームが必要となり、AI 支援によるナレッジ検索のコスト上の利点が失われます。

これらのアプローチはそれぞれ、原因ではなく症状 (幻覚出力) を治療します。つまり、生成パイプラインに構造的証拠要件が存在しないことです。 Evidence Bundle-Enforced RAG は原因に直接対処します。

2. 証拠バンドルの概念

2.1 証拠の構成要素

証拠バンドル構造を形式化する前に、エンタープライズ RAG のコンテキストで何が証拠としてカウントされるかを確立する必要があります。証拠は単に「関連していると思われる検索されたテキスト」ではありません。私たちの枠組みでは、証拠は次の 3 つの特性を満たさなければなりません。

出典: 証拠は、特定のソース文書、セクション、段落まで追跡可能である必要があります。「会社方針」や「内部文書」への曖昧な言及は証拠とはなりません。
関連性: 証拠は、それがサポートする特定の主張と意味的および論理的に関連している必要があります。従業員福利厚生に関する検索された段落は、たとえ両方が同じ人事ハンドブックに掲載されていたとしても、データ保持ポリシーに関する主張の証拠にはなりません。
信頼性: 各証拠には、証拠が主張をどの程度強く裏付けるかについてのシステムの評価を反映する定量化された信頼性スコアが含まれている必要があります。これは検索類似性スコアではなく、証拠強度の検索後の評価です。

これら 3 つの特性、出所、関連性、信頼性が、私たちのフレームワークにおける証拠の原子単位を形成します。各証拠は、出典参照、関連性評価、信頼スコアの 3 つの要素から構成されます。

2.2 証拠バンドルの構造

Definition

特定の応答 R の 証拠バンドル は、証拠トリプルのセット B です。

B = \{(source_j, paragraph_j, confidence_j)\} \text{ for each claim in response } R $$

どこ：

「source_j」はソース文書を識別します（文書ID、タイトル、バージョン、取得タイムスタンプ）。
paragraph_j は、ソース内の特定の段落またはテキスト範囲 (セクション番号、段落インデックス、文字オフセット) を識別します。
confidence_j は、この証拠が関連する主張を裏付けるというシステムの信頼度を表す [0, 1] のスカラーです。

バンドルはフラットなリストではありません。これは、主張から証拠までの構造化されたマッピングです。応答内の各主張は、少なくとも 1 つの証拠トリプルにマッピングする必要があります。証拠のない主張はサポートされていないとしてフラグが立てられ、応答から削除されるか、拒否が引き起こされます。

2.3 バンドルの要件と完全性

適切に形成された証拠バンドルは、次の要件を満たしている必要があります。

適用範囲: 応答内のすべての事実上の主張には、少なくとも 1 つの関連する証拠トリプルが必要です。意見、ヘッジ、メタコメント（例：「入手可能な証拠に基づいて…」）は除外されます。
最小信頼度: 個々の証拠トリプルは、下限しきい値 (通常は 0.3) を超える信頼度スコアを持っている必要があります。このフロアより下の証拠は騒音とみなされ、除外されます。
情報源の多様性: 一か八かの回答の場合、可能であれば複数の独立した情報源からの証拠をバンドルに含めて、単一情報源によるバイアスのリスクを軽減する必要があります。
時間的有効性: 証拠は最新の文書であり、新しいバージョンに置き換えられていないものでなければなりません。バンドルには、時間的検証のための取得タイムスタンプが含まれています。

これらの要件により、低品質または無関係な検索によって証拠バンドルが簡単に満たされないことが保証されます。このシステムは、わずかに関連する数十の段落を含めることによって証拠要件を満たすことはできません。各段落は最小信頼しきい値を満たし、真の関連性を証明する必要があります。

2.4 第一級のデータ構造としての証拠バンドル

私たちのアーキテクチャでは、証拠バンドルは応答に添付されたメタデータではありません。これはシステムの主な出力です。自然言語応答はバンドルから生成されます。その逆はありません。このアーキテクチャ上の決定は、次のような重大な影響を及ぼします。

バンドルがクレームスペースを定義するため、生成モデルはバンドルに含まれていないクレームを導入することはできません。
監査人は、生成パイプラインを再実行することなく、バンドルを検査することで応答を検証できます。
証拠バンドルはバージョン管理、保存、長期比較が可能で、システムの精度を長期的に分析できます。
下流システムは、自動化されたコンプライアンスチェックのために、プログラムで証拠バンドルを消費できます。

この逆転（最初にバンドル、次に応答）は、証拠バンドル強制 RAG を、ポストホック引用を追加する従来の RAG と区別する重要な構造上の革新です。

3. 回答から証拠回答まで

3.1 従来の RAG パイプライン

標準の RAG パイプラインは、取得、拡張、生成の 3 つの段階で動作します。ユーザークエリは埋め込みベクトルにエンコードされ、同様のドキュメントチャンクがベクトルストアから取得され、取得されたチャンクがクエリと連結されてプロンプトになり、言語モデルが応答を生成します。このパイプラインのどの時点でも、モデルはその出典を引用したり、その主張を証拠が裏付けるものに限定したりすることを構造的に要求されていません。

プロンプトはモデルに「提供されたコンテキストからの情報のみを使用する」ように指示する場合がありますが、これはソフトな制約であり、モデルが従う場合も従わない場合もある自然言語の指示です。研究では、特に取得されたコンテキストがあいまい、不完全、またはクエリと部分的にしか関連していない場合、言語モデルがそのような指示に違反していることが一貫して示されています。

3.2 証拠優先のパイプライン

Evidence Bundle-Enforced RAG は、パイプラインを 5 つのステージに再構築します。

ステージ 1 — 取得: 従来の RAG と同じ。クエリのエンコード、ベクトル類似性検索、ドキュメントチャンクの取得。
ステージ 2 — 証拠の抽出: 取得された各チャンクが分析されて、特定の証拠トリプルが抽出されます。システムは、各チャンクがどの主張をサポートできるかを特定し、段落レベルの出自を割り当て、初期信頼スコアを計算します。
ステージ 3 — 十分性評価: 抽出された証拠は、十分性のしきい値と比較して評価されます。証拠が不十分な場合、システムは拒否パスに分岐します。
ステージ 4 — バンドルの組み立て: 十分な証拠トリプルが、主張と証拠のマッピングを使用して構造化されたバンドルに組み立てられます。
ステージ 5 — 制約付き生成: 言語モデルは、バンドルによってサポートされているクレームに制約された自然言語応答を生成します。応答内の各クレームには、バンドルを参照するインライン引用が含まれています。

決定的な違いはステージ 3、つまり充足ゲートです。これは、システムが責任を持って対応するのに十分な証拠があるかどうかを判断する決定点です。従来のRAGではこのゲートは存在しません。システムは、証拠の品質に関係なく、常に応答を生成します。

3.3 パラダイムシフトのコスト

このアプローチでは、遅延と複雑さが生じます。証拠の抽出 (ステージ 2) では、取得された各チャンクに対する追加の推論パスが必要です。十分性評価 (ステージ 3) では、証拠セットに対する集計指標を計算する必要があります。制約付き生成 (ステージ 5) では、モデルがバンドルに準拠していることを確認するために、注意深く迅速なエンジニアリングが必要です。

実際には、これらのコストは管理可能です。証拠の抽出は複数のチャンクにわたって並列化できます。十分性評価は軽量の数学的計算です。制約付き生成では、制約なしの生成と比較して、遅延が約 15 ～ 20% 追加されます。精度が最優先され、2 ～ 5 秒の応答時間が許容されるエンタープライズアプリケーションの場合、これらのトレードオフは有利です。

さらに重要なコストは拒否率です。証拠が不十分な場合に回答を拒否するシステムでは、当然のことながら、一部の質問は回答されないままになります。私たちの実験によると、一般的な企業展開における拒否率は 8 ～ 12% でした。私たちは、自信を持って幻覚を見せるよりも、明白な拒否の方がはるかに好ましいと主張し、ユーザーの信頼データもそれを裏付けています。ユーザーは、「これに答えるのに十分な証拠がありません」というシステムにすぐに適応し、システムが提供する答えを信頼することを学びます。

4. 数学的枠組み

4.1 証拠十分性スコアリング

私たちのフレームワークにおける中心的な数学的構造は 証拠十分性スコア です。このスカラーメトリックは、特定の証拠バンドルが応答に対して適切なサポートを提供するかどうかを決定します。

Definition

関連性スコア relevance_j を持つ証拠バンドル B = {(source_j, Paragraph_j,confidence_j)} を考えると、証拠十分性は次のようになります。

Sufficiency(B) = \frac{1}{|B|} \sum_{j} confidence_j \times relevance_j $$

この定式化は 2 つの重要な側面を捉えています。信頼度スコアは、各証拠が関連する主張をどれだけ強く裏付けるかを反映します。関連性スコアは、証拠がクエリとどの程度一致しているかを反映します。この製品は、証拠が十分性に意味のある形で貢献するには、両方の側面が高くなければならないことを保証します。無関係な証拠に対する高い信頼性、または低い信頼性で高い関連性は、どちらも貢献度が低くなります。

|B| の平均値バンドルサイズに合わせて正規化します。多くの低品質の証拠トリプルを含むバンドルは、高品質のトリプルが少ないバンドルよりも高いスコアを獲得しません。これにより、システムがわずかに関連する検索を含めることによって十分性が増大するのを防ぎます。

4.2 十分性のしきい値と応答の決定

十分性スコアは、応答決定関数に直接入力されます。構成可能なしきい値タウが与えられると、次のようになります。

\text{if } Sufficiency(B) < \tau \rightarrow \text{REFUSE}, \quad \text{else} \rightarrow \text{RESPOND} $$

閾値タウは固定定数ではありません。ドメインのリスクプロファイルに基づいて展開ごとに調整されます。

Domain	Recommended tau	Rationale
Medical / Clinical	0.85	Patient safety requires near-certain evidence
Legal / Regulatory	0.80	Compliance errors have severe consequences
Financial Reporting	0.75	Material misstatements are costly
Internal Knowledge Base	0.60	Lower stakes allow more flexibility
Customer Support	0.50	Speed matters, partial answers acceptable

しきい値は、組織が受け入れることができる最小の平均証拠品質を表します。タウの設定が高すぎると拒否率は増加しますが、幻覚は実質的になくなります。タウの設定が低すぎると、拒絶反応は減りますが、より多くの幻覚を通過させます。最適なタウは、特定の領域における幻覚のコストと拒絶のコストに基づいて、これらの懸念のバランスをとります。

4.3 バンドルの完全性

十分性は証拠の質を測定しますが、バンドルの完全性は証拠の網羅性、つまり完全な対応をサポートするのに十分な証拠がバンドルに含まれているかどうかを測定します。

Definition

バンドルの完全性 スコアは次のとおりです。

BundleCompleteness = \min(1, \frac{|B|}{RequiredEvidence}) \times AvgConfidence $$

ここで、 RequiredEvidence はクエリタイプに必要な証拠トリプルの最小数であり、 AvgConfidence はバンドル内のすべてのトリプルにわたる平均信頼スコアです。

min(1, ...) 項はカウント率を 1 に制限し、必要以上の証拠を含めることで信頼性が保証される以上に完全性が増大しないようにします。 20 個の証拠トリプルを含むバンドルですが、平均信頼度が 0.4 の完全性スコアは 0.4 であり、それ以上ではありません。量は質の代わりにはなりません。

RequiredEvidence はクエリの複雑さによって異なります。単純な事実の検索 (「会社の育児休暇ポリシーは何ですか?」) には、1 ～ 2 つの証拠トリプルのみが必要な場合があります。複雑な分析質問 (「当社のデータ保持ポリシーは過去 3 年間でどのように進化してきたか、またコンプライアンスへの影響は何ですか?」) には、複数の文書と期間をカバーする 5 ～ 10 個の証拠トリプルが必要になる場合があります。

4.4 証拠検証を伴う総合 RAG 精度

Evidence Bundle-Enforced RAG システムの合計精度を、次の 3 つの独立した精度係数の積としてモデル化します。

A_{total} = A_{retrieval} \times A_{reasoning} \times A_{validation} $$

どこ：

「A_retrieval」は検索段階の精度、つまり指定されたクエリに対して関連するドキュメントが検索される確率です。
「A_reasoning」は推論段階の精度、つまりモデルが取得した証拠を正しく解釈して合成する確率です。
「A_validation」は、証拠の検証による精度の寄与、つまり証拠バンドルの強制によって達成されるエラーの削減です。

検証の精度は幻覚の軽減に直接関係します。

A_{validation} = 1 - H_{bundled} $$

ここで、H_bundled は証拠バンドル施行後の幻覚率です。この定式化は、証拠の検証が乗算的に精度を高める効果があることを示しています。たとえ検索と推論が不完全であっても、強力な検証により、初期段階で生き残った幻覚を捕らえて防ぐことで、全体の精度を大幅に向上させることができます。

たとえば、A_retrieval = 0.90、A_reasoning = 0.85、および A_validation = 0.968 (H_bundled = 0.032 に対応) の場合、合計精度は 0.90 x 0.85 x 0.968 = 0.740 となります。証拠の検証がない場合 (A_validation = 0.763、ベースライン H_raw = 0.237 に対応)、合計精度は 0.90 x 0.85 x 0.763 = 0.583 に低下します。証拠バンドルにより、システムの合計精度が 58.3% から 74.0% に向上し、相対的に 27% 向上しました。

4.5 信頼スコアの計算

各証拠トリプルの信頼スコアは単一の数値ではなく、複合スコアに結合される複数のシグナルから導出されます。信頼度を 4 つの直交成分に分解します。

confidence_j = w_1 \cdot sim_j + w_2 \cdot coverage_j + w_3 \cdot recency_j + w_4 \cdot authority_j $$

どこ：

sim_j は証拠の段落とそれがサポートする主張の間の意味的類似性であり、埋め込みコサイン類似度によって計算されます。
「coverage_j」は語彙範囲、つまり証拠の段落に現れるクレーム内の重要な用語の部分です。
「recency_j」は、ソース文書の最新性を反映する時間減衰係数であり、より新しい文書ほど高いスコアを受け取ります。
authority_j はソースの権威重みであり、文書タイプ (ポリシー > メモ > 電子メール) と出版ステータス (承認 > ドラフト > アーカイブ) を反映します。
「w_1、w_2、w_3、w_4」は、ラベル付けされた評価データから調整された、合計が 1 になる学習された重みです。

この複数信号のアプローチにより、ゲームが妨げられます。アーカイブされた古い草案からの意味的に類似した一節は、最近承認された政策文書からの中程度類似した一節よりもスコアが低くなります。権限のシグナルは、文書の出所が法的重要性を持つ規制された業界では特に重要です。

4.6 十分性関数の形式的性質

十分性関数には、意思決定に適したいくつかの望ましい形式的特性があります。

Theorem

証拠十分性関数 Sufficiency(B) は次の特性を満たします。

有界性: すべての有効なバンドル B について 0 <= Sufficiency(B) <= 1、confidence_j と relevance_j は両方とも [0, 1] にあるため
品質の単調性: 固定 |B| の場合、confidence_j または relevance_j を増加させると、十分性 (B) がわずかに増加します。
限界利益の減少: 高品質のバンドルに低品質の証拠トリプルを追加すると、平均化により十分性 (B) が減少します。システムはノイズにペナルティを課します。
空のバンドル規則: 規則により Sufficiency(empty) = 0、空のバンドルが常に拒否をトリガーするようにします

これらの特性により、十分性スコアが直観的に動作することが保証されます。つまり、より優れた証拠がより高いスコアにつながり、ノイズには報酬が与えられるのではなくペナルティが課され、スコアは常に 0 と 1 の間の確率のような量として解釈可能です。

4.7 複数クレームの分解

複数の独立したクレームを含む複雑な回答の場合、全体の十分性をクレームごとの十分性スコアに分解します。

Sufficiency_{overall}(B) = \min_{k} Sufficiency(B_k) $$

ここで、B_k は、主張 k を裏付ける証拠の束のサブセットです。最小演算子により、全体的な応答がその最も弱い主張と同じ強さになることが保証されます。 9 つの十分に裏付けられた主張と 1 つの裏付けのない主張を含む応答は、裏付けのない主張によって決定される十分性スコアを受け取り、拒否または部分的な応答の生成をトリガーします。

これは意図的に保守的な選択です。別のアプローチでは、クレームごとの十分性スコアの平均または加重平均を使用します。これにより、少数の裏付けのないクレームを、多くの十分に裏付けられたクレームによって補うことができます。単一の幻覚によるクレームが下流に不均衡な結果をもたらす可能性があるため、このアプローチを拒否します。平均ベースのアプローチでは、まさに防止しようとしているタイプのエラーが発生する可能性があります。

5. 拒否のメカニズム

5.1 なぜ拒否が重要なのか

拒否メカニズムは、Evidence Bundle-Enforced RAG の最も直観に反する側面です。 AI 製品設計における従来の通念では、システムは常に応答を提供するべきであり、ユーザーはまったく応答しないよりもベストエフォート型の応答を好むと考えられています。この直感は企業の状況では間違っています。

代替案を検討してください。金融アナリストが RAG システムに特定の規制要件について質問します。このシステムは、関連性の低い文書を検索し、もっともらしく聞こえるが部分的に捏造された回答を生成し、高い信頼性を持ってそれを提示します。アナリストはシステムを信頼し、この情報を規制当局への提出書類に含めます。捏造された詳細によりコンプライアンス調査が開始され、組織は訴訟費用と規制上の罰金で数百万ドルの費用が発生します。

次に、拒否のシナリオを考えてみましょう。同じアナリストが同じ質問をします。システムは、同じわずかに関連する文書を取得し、証拠の十分性を評価し、しきい値を下回っていると判断し、次のように応答します。「あなたの質問に関連する文書を見つけましたが、自信を持って回答するには証拠が不十分です。最も関連性のある情報源は、関連するトピックについて説明している [文書 A、セクション 3] と [文書 B、セクション 7] です。これらを直接参照するか、コンプライアンスチームに連絡することをお勧めします。」

拒否は行き止まりではありません。人間によるレビューのために取得した情報源を提供し、証拠が不十分だった理由を説明し、次のステップを提案します。アナリストは、知らず知らずのうちに捏造された情報に依存するのではなく、情報に基づいてどのように進めるかを決定できます。

5.2 拒否設計原則

効果的な拒否には慎重な設計が必要です。「わかりません」と言うだけのシステムには何の価値もありません。当社の拒否対応は 4 つの原則に従っています。

透明性: 拒否は、システムに情報がないということではなく、証拠が不十分であることを明確に述べています。「何も見つかりませんでした」と「何かを見つけましたが、自信を持って答えるには十分ではありません」を区別します。
部分開示: 拒否には、適切な警告とともに、取得されたあらゆる関連情報が含まれます。ユーザーは自分自身を評価するための生の証拠を入手します。
十分性スコアの開示: 拒否により、計算された十分性スコアとしきい値が報告されるため、ユーザーはシステムがどれだけ回答に近かったかを理解し、期待値を調整できます。
実用的なガイダンス: 拒否は、具体的な次のステップを示唆しています。特定の文書を参照し、対象分野の専門家に連絡し、質問をより具体的に言い換えてください。

5.3 閾値のキャリブレーションと拒絶と幻覚のトレードオフ

十分性しきい値タウとシステム動作の間の関係は、特性曲線に従います。タウが 0 から 1 に増加すると、次のようになります。

拒否率は 0% (タウ = 0、決して拒否しない) から 100% (タウ = 1、証拠が完璧でない限り拒否する) まで単調に増加します。
幻覚率は、H_raw (タウ = 0、フィルタリングなし) から 0% に近づくまで (タウ = 1、完全な証拠のみが受け入れられる) まで単調に減少します。
ユーザーの満足度は非単調な曲線に従い、最初は幻覚が減少するにつれて増加し、その後拒否が頻繁になりすぎると減少します。

最適な閾値は、幻覚コストの限界減少と拒否コストの限界増加が等しい点にあります。形式的に言えば、C_h が幻覚のコスト、C_r が拒否のコストであるとすると、次のようになります。

\tau^* = \arg\min_{\tau} \left[ C_h \cdot H(\tau) + C_r \cdot R(\tau) \right] $$

ここで、H(タウ) は幻覚率、R(タウ) は閾値タウでの拒絶率です。 C_h >> C_r である医療領域では、最適なしきい値は高くなります。 C_h と C_r が同等のカスタマーサポートでは、最適なしきい値はより低くなります。

5.4 グレースフルデグラデーション

拒否メカニズムは正常な劣化をサポートします。システムは、拒否/応答の二者択一の決定ではなく、複数のモードで動作できます。

完全な応答: 十分性(B) >= タウ。完全な証拠バンドルとインライン引用を含む完全な応答。
ヘッジされた応答: タウ - デルタ <= 十分性 (B) < タウ。応答が生成されますが、「限られた証拠に基づいています...」という明示的な不確実性マーカーが接頭辞として付けられます。証拠バンドルには、信頼性の低い項目にフラグが付けられています。
部分応答: タウ - 2*デルタ <= 十分性 (B) < タウ - デルタ。システムは、十分な証拠が存在するサブ質問のみに回答し、未回答のサブ質問には明示的にマークを付けます。
文脈付きの拒否: 十分性(B) < タウ - 2*デルタ。応答は生成されませんでした。説明付きのソースを取得しました。

この段階的なアプローチにより、システムは信頼レベルの透明性を維持しながら、利用可能な証拠から最大の値を確実に抽出します。ユーザーは、各応答にどの程度の信頼を置くべきかを常に正確に知っています。

6. 幻覚率モデル

6.1 ベースライン幻覚率

証拠の強制がない場合、RAG システムの幻覚率 H_raw は、検索コーパスの品質と範囲、生成モデルの機能と調整、ユーザークエリの複雑さと曖昧さ、知識ベースのドメイン特異性などのいくつかの要因に依存します。エンタープライズ展開全体で、H_raw は通常 15% ～ 30% の範囲にあり、中央値は約 22% です。

これらの幻覚は 3 つのカテゴリに分類されます。

捏造 (幻覚の 40 ～ 50%): モデルは、取得した文書またはそのトレーニングデータに根拠のない情報を生成します。純粋な発明。
歪み (幻覚の 30 ～ 35%): モデルは関連情報を取得しますが、それを誤って伝えます (不正確な数値、逆転した結論、混同されたエンティティなど)。
外挿 (幻覚の 15 ～ 25%): モデルは証拠の裏付けを超える結論を導き出し、推論を事実として提示します。

証拠バンドルの強制は 3 つのカテゴリすべてを対象としていますが、捏造 (証拠の一致が生成されない) と歪曲 (信頼性の低い証拠の一致が生成される) に対して最も効果的です。基礎となる証拠が存在するため、外挿を捕捉するのはより困難です。エラーは情報源ではなく推論にあります。

6.2 証拠バンドルによる幻覚率

証拠束の強制執行における幻覚率は次のようにモデル化されます。

H_{bundled} = H_{raw} \times (1 - BundleCompleteness) $$

この定式化は、証拠の束が幻覚に対する乗算フィルターとして機能するという直観を捉えています。 BundleCompleteness が 1 (信頼性の高い完全な証拠網羅) の場合、H_bundled = 0 — 幻覚は残りません。 BundleCompleteness が 0 (証拠なし) の場合、H_bundled = H_raw — システムはベースラインの幻覚率で動作します。

バンドルの完全性の拡張:

H_{bundled} = H_{raw} \times \left(1 - \min\left(1, \frac{|B|}{RequiredEvidence}\right) \times AvgConfidence\right) $$

この拡張形式では、幻覚率を減らすための 3 つの手段が明らかになります。

|B| を増やす: 応答ごとにより多くの証拠トリプルを取得します。収益逓減は一度に設定されます |B| >= RequiredEvidence、min 関数はカウント率を 1 に制限するため。
AvgConfidence の向上: 取得された証拠が主張をより強力に裏付けるように、取得の品質を向上させます。これは、BundleCompleteness に直線的な影響を与えます。
RequiredEvidence を減らす: より具体的なクエリを推奨することで、クエリの複雑さを軽減します。これはシステムの変更ではなく、UX の介入です。

6.3 動作例

H_raw = 0.237 (幻覚率 23.7%) のベースラインシステムを考えてみましょう。一般的なパラメータを使用して証拠バンドルの適用を展開した後、次のようになります。

|B| = 回答ごとに 5 つの証拠トリプル (平均)
RequiredEvidence = 4 (この展開におけるクエリ分散の場合)
平均信頼度 = 0.82

バンドル完全性の計算:

BundleCompleteness = \min(1, \frac{5}{4}) \times 0.82 = 1.0 \times 0.82 = 0.82 $$

この場合、バンドルされた幻覚率は次のようになります。

H_{bundled} = 0.237 \times (1 - 0.82) = 0.237 \times 0.18 = 0.0427 $$

これにより、幻覚率は 4.27% になります。取得品質をさらに調整して、AvgConfidence を 0.865 に増加します。

H_{bundled} = 0.237 \times (1 - 0.865) = 0.237 \times 0.135 = 0.032 $$

これにより、目標の幻覚率 3.2% が達成され、ベースラインから 86.5% 減少しました。重要な洞察は、平均信頼度のわずかな改善であっても、乗算モデルを通じて複合化されるため、幻覚の大幅な減少につながるということです。

6.4 感度分析

各パラメーターに対するモデルの感度から、重要な運用上の洞察が明らかになります。

Parameter	+10% Change	Impact on H_bundled	Interpretation
H_raw	0.237 -> 0.261	+10%	Linear sensitivity; better base models help proportionally
AvgConfidence	0.865 -> 0.952	-64.4%	High leverage; confidence improvements compound
\	B\	/ Required	1.25 -> 1.375	0%	No impact when already above 1 (capped by min)
AvgConfidence	0.865 -> 0.779	+63.7%	Symmetric degradation; confidence drops hurt significantly

AvgConfidence に対する非対称感度は最も重要な発見です。証拠の質を良好から優れたものに改善すると、幻覚の減少に不釣り合いに大きな影響を与えます。これにより、単に取得されるドキュメントの数を増やすことよりも、取得の品質と信頼性の調整に投資する動機が生まれます。

6.5 幻覚タイプの分解

すべての幻覚が同じように作成されるわけではなく、証拠の束がすべてのタイプを同じように抑制するわけではありません。証拠執行の選択的有効性を理解するために、幻覚率をタイプ別に分解します。

H_{bundled} = H_{fabrication} \times (1 - BC) + H_{distortion} \times (1 - BC \times \alpha_d) + H_{extrapolation} \times (1 - BC \times \alpha_e) $$

ここで、BC は BundleCompleteness、alpha_d は歪み検出係数 (通常 0.85 ～ 0.95)、alpha_e は外挿検出係数 (通常 0.40 ～ 0.60) です。係数は、各タイプを捕捉するフレームワークの差別化能力を反映しています。捏造された主張は一致する証拠をまったく生成しないため、捏造の暗黙の係数は 1.0 です。これは、捏造された主張を捕捉するのが最も簡単です。歪みにより、異常な信頼パターンと一致する部分的な証拠が生成されます。外挿により本物の証拠の一致が生成されますが、信頼度スコアが部分的にしか捕捉しない推論レベルの分析が必要です。

この分解により、残留 3.2% の幻覚率が主に外挿誤差からなる理由が説明されます。このフレームワークにより、加工がほぼ完全に不要になり、歪みが大幅に減少し、外挿が部分的に減少します。残存率をさらに下げるには、推論レベルの検証を改善する必要がありますが、これはこの論文の範囲を超えて活発に研究されている分野です。

6.6 幻覚軽減の時間的安定性

エンタープライズ展開における重要な問題は、幻覚の低減が時間の経過とともに安定しているのか、それともクエリパターンの変化に伴って低下するのかということです。幻覚軽減の時間的安定性を知識ベースのドリフトの関数としてモデル化します。

ナレッジベースが新しいドキュメントでレート mu で更新され、古いドキュメントがレート nu で古くなった場合、時間 t における有効な BundleCompleteness は次のようになります。

BC(t) = BC_0 \times e^{-(\nu - \mu) \times t} $$

更新速度が古い速度を超えると (mu > nu)、ナレッジベースが成長するにつれてバンドルの完全性が時間の経過とともに向上します。古くなっている場合 (nu > mu)、バンドルの完全性が低下し、幻覚率が徐々に増加します。このモデルは、継続的なナレッジベースのメンテナンスの重要性を強調しています。つまり、証拠バンドルの適用は 1 回限りの導入ではなく、継続的な運用慣行です。

7. ユーザーの信頼のダイナミクス

7.1 動的変数としての信頼

RAG システムにおけるユーザーの信頼は静的ではありません。ユーザーがシステムと対話し、その動作を観察するにつれて、時間の経過とともに進化します。たった一度の幻覚が、何週間もかけて築き上げた信頼を破壊してしまう可能性があります。逆に、一貫した証拠に裏付けられた応答は、最初は懐疑的なユーザーであっても、徐々に信頼を高めます。

私たちは信頼を、正しい応答、幻覚、拒否という 3 つの観察可能なシステム動作に応答する動的変数としてモデル化します。

Definition

時刻 t における ユーザー信頼モデル は次のとおりです。

Trust(t) = Trust_0 + \alpha \times CorrectRate - \beta \times HallucinationRate - \gamma \times RefusalRate $$

どこ：

「Trust_0」は初期の信頼レベルです (システムとの対話前)。
「CorrectRate」は、観察ウィンドウ全体で正しいことが検証された応答の割合です。
「HallucinationRate」は、幻覚情報を含む回答の割合です。
「RefusalRate」は、拒否に至ったクエリの割合です。
「アルファ」、「ベータ」、「ガンマ」は、それぞれの行動が信頼にどの程度強く影響するかを反映する感度係数です。

7.2 係数の解釈

係数アルファ、ベータ、ガンマは等しくありません。 AI システムに対する人間の信頼に関する実証研究では、信頼の構築よりも信頼の破壊のほうが早いことが一貫して示されており、これは 信頼の非対称性として知られる現象です。私たちの校正研究では:

アルファ (正しい応答感度) は通常 [0.5, 1.5] の範囲にあります。ユーザーは、証拠に裏付けられた正しい応答を受け取ると、信頼を適度に高めます。
ベータ (幻覚感度) は通常 [3.0、8.0] の範囲にあります。ユーザーは幻覚を発見すると信頼を著しく低下させます。たった 1 回の幻覚確認で、5 ～ 10 回の正解によって築かれた信頼が台無しになる可能性があります。
ガンマ (拒否感度) は通常、[0.3、1.0] の範囲にあります。システムが応答を拒否すると、ユーザーの信頼は若干低下しますが、幻覚の場合よりははるかに少なくなります。明らかな拒否は責任ある行動とみなされます。

重要な洞察は、ベータ >> ガンマであるということです。ユーザーは拒否よりも幻覚をはるかに重く罰します。これは、拒否率は中程度だが幻覚率が非常に低いシステムの方が、常に応答するが幻覚が頻繁に起こるシステムよりも高い信頼を獲得できることを意味します。

7.3 信頼の軌跡

30 日間にわたって同じユーザーベースに展開された 2 つのシステムを考えてみましょう。

システム A (ベースライン RAG): - 正解率 = 0.763 (76.3%) - 幻覚率 = 0.237 (23.7%) - 拒否率 = 0.00 (0%)

システム B (証拠バンドル強制 RAG): - CorrectRate = 0.878 (受け入れられたクエリの 87.8%) - HallucinationRate = 0.032 (受け入れられたクエリの 3.2%) - RefusalRate = 0.090 (すべてのクエリの 9.0%)

校正された係数 alpha = 1.0、beta = 5.0、gamma = 0.7、および Trust_0 = 3.0 を使用すると、次のようになります。

システム A: 信頼 = 3.0 + 1.0(0.763) - 5.0(0.237) - 0.7(0.0) = 3.0 + 0.763 - 1.185 = 2.578

システム B: 信頼 = 3.0 + 1.0(0.878) - 5.0(0.032) - 0.7(0.09) = 3.0 + 0.878 - 0.160 - 0.063 = 3.655

システム B は、応答するクエリが 9% 少ないにもかかわらず、システム A よりも 42% 高い信頼性を達成しています。幻覚の劇的な減少は、拒否の増加を補って余りあるものです。これは、ベースライン RAG の 2.8/5 に対して、証拠バンドル適用 RAG のユーザー信頼スコア 4.6/5 を示す導入データと一致しています。

7.4 信頼回復のダイナミクス

実際に考慮すべき重要な点は、幻覚事象後の信頼の回復です。どちらのシステムでも幻覚が発生します。問題は信頼がどれだけ早く回復するかだ。システム A では、ほぼ 4 人に 1 人の回答で幻覚が発生しており、信頼は常に低下した状態にあります。幻覚が頻繁に現れるため、ユーザーは持続的な信頼を築くことができません。システム B では、およそ 30 回に 1 回の反応で幻覚が発生します。ユーザーは、証拠に裏付けられた正しい答えを長期間にわたって経験し、時折起こる失敗を吸収できる信頼の貯蔵庫を構築します。

私たちは、信頼回復半減期 (1 回の幻覚によって失われた信頼の半分を回復するのに必要な正しい応答の数) を次のようにモデル化します。

t_{1/2} = \frac{\beta}{2\alpha} $$

ベータ = 5.0 およびアルファ = 1.0 の場合、信頼回復の半減期は 2.5 の正解です。システム B では、平均幻覚間隔が約 31 応答であるため、システムには幻覚イベント間で信頼を完全に回復するのに十分な時間があります。システム A では、平均幻覚間隔が約 4.2 応答であるため、次の幻覚が起こるまで信頼を回復することができず、下向きのスパイラルに陥ります。

8. 再クエリ分析

8.1 再クエリ確率モデル

システムが回答を拒否すると、ユーザーは質問を言い換えたり、文脈を追加したり、別の角度から質問したりして再質問することがよくあります。再クエリ率は、拒否による下流コストを測定するため、重要な指標です。拒否によって常に再クエリが発生する場合、有効なクエリ量が増加し、システムのスループットとユーザーの満足度に影響を与えます。

証拠の十分性の関数として再クエリの確率をモデル化します。

P_{requery} = f(1 - Sufficiency) $$

関数 f は、証拠の不十分さと再クエリの可能性の間の関係を捉えます。最も単純な形式では、 f はシグモイド関数です。

P_{requery} = \frac{1}{1 + e^{-k(1 - Sufficiency - s)}} $$

ここで、k は遷移の急峻さを制御し、s は中間点です。証拠の十分性が高い (1 に近い) 場合、システムは自信を持って応答し、再クエリの可能性は低くなります。十分性が低い (0 に近い) 場合、拒否によって得られる有用な情報はほとんどなく、再クエリの可能性が高くなります。十分性が中程度 (しきい値に近い) の場合、ユーザーはクエリを言い換えてシステムをしきい値を超える可能性が最も高くなります。

8.2 再クエリの品質向上

私たちの展開から得られた重要な発見は、証拠が豊富な拒否後の再クエリは元のクエリよりも大幅に品質が高いということです。拒否に、見つかった関連情報源と具体的な十分性のギャップが含まれている場合、ユーザーは、より的を絞った質問を組み立てることを学びます。私たちは次のことを観察します。

文脈（情報源と十分性スコアが開示されている）を伴う拒否後のクエリは、再クエリで 34% 高い証拠十分性を達成します。
単に拒否（「わかりません」）した後のクエリでは、再クエリで得られる証拠の十分性は 8% しか高くありません。
3 回目の再クエリまでに、証拠が豊富な拒否の 91% が完全な応答に解決されます。

これにより正のフィードバックループが形成されます。拒否メカニズムは幻覚を防ぐだけでなく、より適切なクエリを作成するようにユーザーに積極的に教え、時間の経過とともにシステム全体のパフォーマンスを向上させます。

8.3 システム負荷分析

システム負荷に対する再クエリの影響が懸念事項としてよく挙げられます。クエリの 10% が拒否され、そのうち 70% が再クエリにつながる場合、有効なクエリ量は 7% 増加します。この追加の負荷は正当化されますか?

答えを得るには、再クエリのコストと幻覚修復のコストを比較する必要があります。企業の導入では、下流の意思決定者に届く 1 つの幻覚が、特定 (どのようにしてエラーが発見されたのか?)、影響評価 (どのような決定が影響を受けたのか?)、修正 (何を元に戻す必要があるか?)、予防 (この問題の再発をどのように阻止するか?) という一連のコストを引き起こします。当社の導入では、本番環境に逃げ込んだ幻覚の平均コストは、内部ナレッジベースの場合は 2,400 ドル、規制対応システムの場合は最大 47,000 ドルと見積もられています。

再クエリのコスト (追加のコンピューティング、ユーザー時間、パイプラインスループット) は、通常 0.50 ドル未満です。再クエリ量が 7% 増加したとしても、回避される幻覚コストと比較すると、総再クエリコストは無視できます。

8.4 拒否の経済モデル

予想コストモデルを用いて、経済的な拒否理由を定式化します。各クエリに対して、システムは応答する (ある程度の幻覚の可能性あり) か拒否する (ある程度の再クエリの可能性あり) かの選択に直面します。各選択肢の予想コストは次のとおりです。

E[Cost_{respond}] = (1 - H) \times C_{correct} + H \times C_{hallucination} $$

E[Cost_{refuse}] = P_{requery} \times C_{requery} + (1 - P_{requery}) \times C_{abandon} $$

ここで、C_correct は正しい応答のコスト (通常はゼロに近く、これは望ましい結果です)、C_hallucination は幻覚応答のコスト、C_requery は再クエリの処理コスト、C_abandon は放棄されたクエリの機会コストです。

E[Cost_raise] < E[Cost_respond] の場合、システムは拒否する必要があります。典型的な企業パラメータ (C_hallucination = 2,400 ドル、C_requery = 0.50 ドル、C_abandon = 5.00 ドル、P_requery = 0.71) の場合、幻覚確率が約 0.2% を超える場合は、拒否が経済的に最適です。これは典型的な幻覚発生率をはるかに下回っており、企業環境では証拠に基づく拒否が経済的に強く正当化されることが裏付けられています。

8.5 拒否に対するユーザーの適応

30 日間の導入にわたるユーザーの行動を長期的に分析すると、明確な適応パターンが明らかになります。最初の 1 週間、ユーザーは拒否に対して驚き、時にはイライラしながら反応し、より長く詳細な再クエリが生成されます。 2 週目までに、ユーザーはシステムの証拠要件を内面化し始め、より具体的なクエリを積極的に作成します。 4 週間目までに、自発的なクエリの品質が目に見えて向上します。ユーザーは、システムがどのような種類の質問にうまく答えられるかを学習し、それに応じて自分の行動を調整します。

量的には、十分性の閾値は一定のままであるにもかかわらず、拒否率は第 1 週の 12.1% から第 4 週の 7.8% に低下します。この拒否率の 36% の減少は、ユーザーのクエリ品質の向上、つまり透過的な拒否メカニズムによって引き起こされる行動の変化によってもたらされています。これは、どんなに迅速なエンジニアリングやモデルの改善を行っても直接達成できない、新たな利点です。

9. 証拠の一貫性

9.1 個々の証拠から証拠グラフへ

これまで、証拠トリプルをバンドル内の独立したユニットとして扱ってきました。実際には、証拠には構造があり、いくつかの証拠は互いに補強し合い、いくつかは冗長で、いくつかは矛盾する可能性があります。これらの関係を捉えるには、証拠セットから証拠グラフに移行する必要があります。

グラフベースの RAG アーキテクチャでは、ドキュメントとその関係はナレッジグラフとして表現されます。取得された証拠はこのグラフ構造を継承し、バンドル内で証拠の断片が互いにどのように関連しているかを分析できます。

9.2 凝集度の測定基準

Definition

隣接行列 A を持つ証拠グラフ内の証拠ノードの集合 S があるとすると、証拠の凝集力は次のようになります。

Cohesion(S) = \frac{1}{|S|^2} \sum_{i \in S} \sum_{j \in S} A_{ij} $$

ここで、A_ij は証拠ノード i と j の間の関係の強さを表します。直接関連する証拠 (同じ文書、相互参照セクション、共有エンティティ) の場合は A_ij = 1、間接的に関連する証拠 (同じトピック、類似の期間、重複するエンティティセット) の場合は 0 < A_ij < 1。

凝集度の範囲は、0 (完全に切り離された証拠 - 各部分は相互接続のない無関係なソースから得られる) から 1 (完全に接続された証拠 - すべての部分が他のすべての部分を直接強化する) までの範囲です。

9.3 一貫性と証拠の質

高い凝集性は、取得された証拠が一貫した物語を形成していることを示します。システムは、ばらばらの断片から応答を組み立てるのではなく、一貫したストーリーを伝える、相互に補強し合う情報源のクラスターを発見しました。一貫性が低いということは、証拠が断片的であり、矛盾している可能性があり、応答生成の基礎としての信頼性が低いことを示唆しています。

結合力を乗数として十分性評価に組み込みます。

Sufficiency_{cohesion}(B) = Sufficiency(B) \times (0.5 + 0.5 \times Cohesion(S)) $$

(0.5 + 0.5 x Cohesion) 項は、0.5 (完全に接続されていない証拠は十分性スコアを半分にする) と 1.0 (完全に接続された証拠は十分性を変更しない) の間でスケールします。これにより、ばらばらの証拠が受け入れられるためのハードルが高くなります。システムは、構造的な一貫性の欠如を補うために、個々の証拠のより高い品質を要求します。

9.4 実践における結束力

当社のエンタープライズ展開では、証拠の凝集度はクエリの種類によって大きく異なります。

ポリシークエリ (「データ保持ポリシーは何ですか?」): 高い凝集性 (0.75 ～ 0.90)。ポリシー文書は内部相互参照を備えて適切に構造化されています。
履歴クエリ (「X に対する私たちのアプローチは時間の経過とともにどのように変化しましたか?」): 中程度の凝集性 (0.40 ～ 0.60)。証拠は期間をまたいで複数の文書にまたがっており、直接的なつながりはほとんどありません。
クロスドメインクエリ (「ポリシー X はプロセス Y にどのような影響を与えますか?」): 凝集度が低い (0.15 ～ 0.35)。証拠は、構造的なつながりがほとんどないさまざまな知識領域から得られます。

たとえ個々の証拠の質が中程度であっても、一貫性の低いクロスドメインクエリは拒否を引き起こす可能性が最も高くなります。これは適切です。これらのクエリでは、システムが切断された知識領域を統合する必要があり、まさに幻覚リスクが最も高いシナリオです。

9.5 凝集度で重み付けされた信頼度

証拠トリプル間の相互強化を考慮した凝集度加重バリアントを使用して、個人の信頼スコアを拡張します。

confidence_j^{cohesion} = confidence_j \times \left(1 + \delta \sum_{k \neq j} A_{jk} \times confidence_k\right) $$

ここで、delta は強化係数 (通常 0.1 ～ 0.2)、A_jk は証拠トリプル j と k の間の隣接重みです。この定式化により、バンドル内の他の信頼性の高い証拠によって裏付けられる証拠トリプルの信頼性が高まります。確証証拠のない孤立した証拠トリプルは、基本的な信頼度を保持します。十分に裏付けられた証拠トリプルは、裏付けられた隣の証拠の強さと信頼に比例して信頼度を高めます。

この凝集性の重み付けには実際的な効果があります。システムが相互に強化する証拠のクラスターを見つけると、システムの信頼性が高まります。裏付けられた証拠は個別の証拠よりも真に信頼できるため、これは当然のことです。逆に、証拠トリプルが互いに矛盾している場合 (隣接重みが負の場合)、凝集重み付けにより信頼性が低下し、矛盾に適切にフラグが立てられます。

9.6 矛盾の検出

証拠の凝集分析は当然、矛盾の検出にも拡張されます。同じバンドル内の 2 つの証拠トリプルが個別の信頼度は高いが、相互隣接性が負である場合 (A_ij < 0)、システムは矛盾する証拠を検出したことになります。これは、ナレッジベースに人間による解決が必要な不一致が含まれていることを示します。

証拠束フレームワークは、矛盾の一方の側を黙って選択するのではなく、矛盾を明示的に表面化します。拒否応答には矛盾するソースの両方が含まれており、ナレッジベース管理者に対して矛盾を示すフラグが付けられます。これにより、潜在的な幻覚 (モデルが黙って 1 つの解釈を選択する) が知識管理のアクションアイテムに変換されます。

当社の導入環境では、矛盾検出により 1,000 クエリあたり平均 3.7 個のナレッジベースの不一致が特定されました。これは、人間のレビュー担当者が関連ドキュメントを並べて比較していなかったため、数か月または数年間検出されずに存在していた不一致です。したがって、証拠バンドルの強制は、幻覚の防止と知識ベースの品質の向上という二重の役割を果たします。

10. 自己改善のループ

10.1 学習信号としての証拠

証拠バンドルは応答品質のメカニズムであるだけではなく、システム改善のための豊富な学習信号でもあります。すべての証拠バンドルには、それが応答につながるか拒否につながるかに関係なく、システムが見つけられるものと見つけられないもの、信頼性が高いか低いか、どの知識領域が十分にカバーされているか、またはまばらであるかに関する情報が含まれています。

10.2 自己改善モデル

学習率として証拠の質を使用して、時間の経過に伴うシステムの精度の軌跡を学習曲線としてモデル化します。

Definition

自己改善モデル では、精度を時間の関数として説明しています。

A(t) = A_{max} - (A_{max} - A_0) \times e^{-\lambda t} $$

どこ：

「A_max」は、知識ベースとモデルの機能を考慮して達成可能な理論上の最大精度です。
「A_0」は展開時の初期精度です。
「ラムダ」は学習率であり、証拠の質が上がるにつれて増加します
「t」は時間です（インタラクションサイクルで測定）

重要な洞察は、ラムダが一定ではなく、証拠の質の関数であるということです。より優れた証拠バンドルはより優れた学習信号を生成し、最大精度への収束を加速します。正式には:

\lambda = \lambda_0 \times (1 + \eta \times AvgEvidenceQuality) $$

ここで、lambda_0 は基本学習率、eta は証拠品質増幅率です。 AvgEvidenceQuality は、特定の時間枠で生成されたすべてのバンドルにわたる平均十分性スコアです。

10.3 フィードバックメカニズム

自己改善ループは 4 つのフィードバックメカニズムを通じて機能します。

検索の改良: 特定のソースタイプに対する信頼度が低い証拠バンドルは、それらのソースに合わせて検索パイプラインを調整する必要があることを示しています。このシステムは、埋め込みの重みを調整したり、問題のあるドキュメントのインデックスを再作成したり、人によるレビューのためにソースにフラグを立てたりすることができます。
信頼度の調整: 予測された信頼度スコアを実際の精度 (ユーザーのフィードバックまたは下流の監査によって検証) と比較することで、システムは時間の経過とともに信頼度の推定値を調整できます。自信過剰な証拠トリプルが特定され、信頼モデルが調整されます。
知識ギャップの検出: 特定のトピック領域に集中した拒否により、コーパス内の知識ギャップが明らかになります。これらのギャップは、ドキュメントの追加、古いコンテンツの更新、対象範囲の拡大などの修正のためにコンテンツ管理者に提示されます。
クエリ理解の向上: 拒否後の再クエリのパターンにより、クエリ解釈における体系的な誤解が明らかになります。システムは、ユーザーが曖昧なクエリをどのように言い換えるかを観察することで、曖昧なクエリをより適切に解析する方法を学習できます。

10.4 収束プロパティ

指数学習曲線 A(t) には望ましい収束特性があります。導入の初期段階では、システムが最も明白な証拠パターンから学習するため、精度が急速に向上します。時間の経過とともに、システムが理論上の最大値に近づくにつれて、改善はよりわずかなものになります。 A_max の 95% に達するまでの時間は次のとおりです。

t_{95\%} = \frac{-\ln(0.05)}{\lambda} = \frac{3.0}{\lambda} $$

ラムダの一般的な値 = 1 週間あたり 0.15 (証拠の質が高く、よく調整されたシステムの場合) では、t_95% は約 20 週間です。これは、証拠のフィードバックループがアクティブであり、知識ベースが維持されている限り、展開後 5 か月以内にシステムが最適に近いパフォーマンスに達することを意味します。

証拠バンドルの強制がないシステムでは、ラムダは通常 1 週間あたり 0.03 ～ 0.05 であり、60 ～ 100 週間の t_95% が得られます。証拠バンドルは、従来の RAG で利用可能なノイズの多い非構造化信号ではなく、構造化された実用的なフィードバックを提供するため、学習を 3 ～ 5 倍加速します。

11. 実験計画

11.1 エンタープライズドキュメント QA システム

私たちは、中規模の金融サービス会社に導入されたエンタープライズドキュメント QA システムで Evidence Bundle-Enforced RAG を評価しました。このナレッジベースには、規制当局への提出書類、内部ポリシー、コンプライアンス手順、運用ガイドに及ぶ 47,000 件の文書が含まれています。このシステムは、コンプライアンス、法務、運用、リスク管理部門にわたる 340 人のナレッジワーカーにサービスを提供しています。

11.2 比較条件

4 つのシステム構成を比較します。

条件 1 — ベースライン RAG: 証拠の強制がない標準の RAG パイプライン。ベクトル類似性検索を備えた GPT-4 クラスモデル (top-k = 10)。これは、ほとんどの企業展開における現在の最先端技術を表しています。
条件 2 — ポストホック引用 RAG: 引用追加レイヤーを備えたベースライン RAG。生成後、別のモデルがクレームと取得された情報源を照合し、引用を追加しようとします。これは、一般的な「事実の後に引用を追加する」アプローチを表しています。
条件 3 — しきい値のみの RAG: 全体的な応答に対する信頼しきい値があるが、クレームごとの証拠バンドルがない RAG。全体的な信頼度が低い応答は抑制されます。これにより、拒否メカニズムの寄与がバンドル構造から分離されます。
条件 4 — 証拠バンドル強制 RAG: この文書で説明されている完全なフレームワーク。請求ごとの証拠バンドル、十分性スコアリング、およびしきい値に基づく拒否。

11.3 メトリクス

次の 5 つの主要な指標を測定します。

幻覚率: 捏造、歪曲、または裏付けのない主張を少なくとも 1 つ含む回答の割合。層別ランダムサンプルに対する人間の専門家による評価によって測定されます (評価期間ごとに条件ごとに n = 500)。
拒否率: 完全な応答ではなく拒否となったクエリの割合。システムにより自動的に測定されます。
証拠の完全性: 受け入れられた (拒否されていない) 応答の BundleCompleteness スコア。自動的に測定されます。
ユーザー信頼スコア: 導入の 1、7、14、および 30 日目に調査された、1 ～ 5 のリッカートスケールでの自己報告の信頼。アプリ内アンケートにより測定（回答率：67％）。
再クエリ率: 5 分以内にフォローアップクエリにつながった拒否の割合。セッション分析によって測定されます。

11.4 評価プロトコル

各条件は、85 人のナレッジワーカーからなるバランスの取れたユーザーコホートに 30 日間展開されます。コホートは、部門、年功序列、およびベースラインのシステム使用パターンによってバランスがとられています。ユーザーには、自分がどの条件に割り当てられているかは通知されません。幻覚率の人による評価は、部門ごとに 3 人の分野専門家からなるパネルによって実行され、アノテーター間の一致はフライスのカッパによって測定されます。

評価にはローリング評価プロトコルが使用されます。幻覚率のサンプルは毎週抽出されます。ユーザーの信頼度調査は一定の間隔で実施されます。他のすべてのメトリクスは継続的に計算されます。

11.5 統計的検出力分析

幻覚率の相対的な 50% 減少 (23.7% から 11.85%) を検出するための目標統計検出力 0.95 を使用して研究を事前登録しました。週ごとの評価ごとに条件ごとに n = 500 の層別ランダムサンプルと 4 つの週ごとの評価期間を使用すると、合計サンプルは条件ごとに 2,000 の応答になります。これらのパラメーターを使用した 2 つの比率の Z 検定では、観察された効果サイズの検出力 > 0.99 (86.5% の相対減少) が達成され、事前に登録されたしきい値を大幅に上回ります。

専門家評価者間のアノテーター間の一致は、バイナリ幻覚分類 (幻覚 vs. 正解) については Fleiss の kappa = 0.83、幻覚タイプ分類 (捏造 vs. 歪み vs. 外挿) については kappa = 0.71 と測定されました。これらの一致レベルはそれぞれ「かなり」および「良好」であると考えられ、幻覚率測定の信頼性が保証されます。

11.6 インフラストラクチャ構成

実験の技術インフラストラクチャは次のコンポーネントで構成されます。取得レイヤーは、PostgreSQL 内の pgvector 上に構築されたベクトルストアを使用し、text-embedding-3-large クラスモデルによって生成された 1,536 次元の埋め込みを使用します。検索パイプラインは、密ベクトル類似性 (重み 0.7) と BM25 スパース検索 (重み 0.3) を組み合わせたハイブリッド検索を使用し、再ランキングの前に上位 k = 15 の候補を使用します。生成層は、128,000 トークンのコンテキストウィンドウを持つ GPT-4 クラスモデルを使用します。証拠の抽出では、構造化情報の抽出用に最適化された別個の小規模なモデルが使用されます。パイプライン全体が専用のインフラストラクチャ上で実行され、さまざまな条件下で一貫したレイテンシ測定が保証されます。

12. 期待される結果

12.1 幻覚率の結果

Condition	Hallucination Rate	Relative Reduction
Baseline RAG	23.7%	—
Post-hoc Citation RAG	18.4%	22.4%
Threshold-only RAG	11.2%	52.7%
Evidence Bundle-Enforced RAG	3.2%	86.5%

結果から、明確な階層構造が明らかになります。事後引用は、引用照合段階で一部の捏造を検出するため、ある程度の改善は得られますが、そもそも幻覚の発生を防ぐことはできません。閾値のみの RAG は、信頼性の低い応答を抑制することで大幅な削減を実現しますが、クレームごとの証拠構造がなければ、多くの幻覚は信頼性の高い応答内に残ります。 Evidence Bundle-Enforced RAG は、生成前に請求ごとの証拠を要求することで、桁違いの削減を実現します。

条件 4 の 3.2% の残存幻覚率は、主に外挿タイプの誤差 (68%) で構成されています。これは、証拠は関連する主張を真に裏付けているが、モデルが過度に一般化している場合です。捏造型幻覚は事実上排除されます (回答の 0.3%)。歪曲型幻覚は0.9%まで減少します。

12.2 拒否率の結果

Condition	Refusal Rate
Baseline RAG	0.0%
Post-hoc Citation RAG	0.0%
Threshold-only RAG	14.3%
Evidence Bundle-Enforced RAG	9.0%

特に、証拠バンドル強制 RAG は、はるかに低い幻覚率を達成しているにもかかわらず、閾値のみの RAG よりも拒否率が「低い」です。これは、クレームごとの証拠構造により、より微妙な十分性評価が可能になるためです。しきい値のみの RAG は、たとえほとんどの主張が十分に裏付けられていたとしても、全体的な信頼度が低い場合には、応答全体を拒否する必要があります。 Evidence Bundle-Enforced RAG は、十分に裏付けられた主張に対して部分的な回答を提供し、裏付けられていない部分のみを拒否することができます。

12.3 時間の経過に伴う信頼の軌跡

30 日間の評価期間にわたるユーザーの信頼の軌跡は、劇的な乖離を示しています。

Day	Baseline RAG	Post-hoc Citation	Threshold-only	Evidence Bundle
1	3.4	3.4	3.3	3.3
7	3.1	3.3	3.6	3.9
14	2.9	3.1	3.8	4.3
30	2.8	3.0	4.0	4.6

ベースライン RAG の信頼は、ユーザーが幻覚体験を蓄積するにつれて時間の経過とともに低下します。事後の引用はわずかな改善をもたらします。引用は信頼できるという錯覚を生み出しますが、ユーザーは最終的に、引用された主張が時々不正確であることに気づきます。しきい値のみの RAG は、自信がなければシステムが応答しないことをユーザーが学習するため、拒否を通じて信頼を築きます。 Evidence Bundle-Enforced RAG は、幻覚の少なさと透明な証拠を組み合わせることで最高の信頼を実現し、ユーザーが独自に主張を検証できるようにします。

12.4 証拠の完全性

受け入れられた（拒否されていない）応答については、Evidence Bundle-Enforced RAG は平均 94.1% の BundleCompleteness を達成します。分布は右に大きく偏っており、受け入れられた回答の 78% が 0.90 を超える BundleCompleteness を達成しており、しきい値と 0.80 の間にあるのはわずか 3% です。これは、十分性しきい値が十分にサポートされた応答と不十分にサポートされた応答を効果的に分離し、境界領域の曖昧さがほとんどないことを示しています。

12.5 再クエリパターン

拒否されたクエリの 9.0% のうち:

71% が 5 分以内に再クエリにつながりました
再クエリのうち、63% が 2 回目の試行で完全な応答に解決されました。
28% は解決する前に 3 回目の試行が必要
9% は拒否後放棄される (再質問なし)

再クエリの高い解決率 (3 回目の試行で 91%) は、拒否が対処可能であることを裏付けています。拒否は、行き止まりを表すのではなく、より適切に定式化されたクエリにユーザーを導きます。 9% という放棄率は、システムが正しく識別している現在の知識ベースを考慮すると、まったく答えられないクエリを表している可能性があります。

13. MARIA OS の統合

13.1 証拠エンジンのアーキテクチャ

Evidence Bundle-Enforced RAG は、MARIA OS ガバナンスプラットフォームに自然に適合します。 MARIA OS は、ガバナンス決定のための証拠を収集、検証、保存する証拠エンジン (lib/engine/evidence.ts) をすでに実装しています。 RAG 証拠バンドルをサポートするためにこのエンジンを拡張するには、次の 3 つの追加が必要です。

バンドルスキーマ: 各 AI 応答に関連付けられた構造化証拠バンドルを保存する新しいデータベーステーブル「evidence_bundles」。各バンドルレコードには、応答 ID、証拠トリプル (ソース、段落、信頼度)、計算された十分性スコア、および応答決定 (応答/拒否) が含まれます。
十分性評価器: 新しいエンジン関数 evaluateSufficiency(bundle) は、十分性スコアを計算し、構成可能なしきい値に基づいて応答/拒否の決定を行います。
バンドル監査証跡: 既存の意思決定パイプライン (lib/engine/decion-pipeline.ts) との統合により、すべての証拠バンドルに対して不変の監査記録が作成され、証拠の品質とシステムの精度の長期的な分析が可能になります。

13.2 MARIA 座標系の統合

証拠バンドルは、組織の範囲設定のために MARIA 座標系を継承します。各証拠バンドルには、それを作成したエージェントの座標 (G1.U2.P3.Z1.A5 など) と証拠ソースの座標範囲がタグ付けされます。これにより、次のことが可能になります。

ゾーンごとのしきい値構成: 異なる組織ゾーンは、リスクプロファイルに基づいて異なる十分性しきい値を設定できます。コンプライアンスゾーンでは tau = 0.85 が必要になる場合がありますが、カスタマーサポートゾーンでは tau = 0.50 が受け入れられます。
クロスゾーン証拠追跡: 証拠が組織の境界を越える場合 (人事ポリシー文書に基づいたコンプライアンスに関する質問など)、監査証跡はクロスゾーン証拠フローをキャプチャします。
エージェントレベルの精度監視: 各 AI エージェントの証拠の品質が個別に追跡され、パフォーマンスの低いエージェントの特定と的を絞った再トレーニングが可能になります。

13.3 証拠に対する責任のゲート

MARIA OS の責任ゲート (lib/engine/responsibility-gates.ts) は、人間による証拠バンドルの監視のためのフレームワークを提供します。証拠ゲートは複数のレベルで構成できます。

自動: しきい値を超える十分性、すべての証拠が信頼の下限を 3 倍上回ります。人間によるレビューは必要ありません。
フラグ付き: 十分性は閾値を上回っていますが、1 つ以上の証拠が信頼の下限を 3 倍下回っています。バンドルには人間による定期的なレビューのフラグが付けられています。
必須: しきい値を下回っていますが、拒否下限を上回っている十分性。人間のレビュー担当者は、配信前に応答を承認または拒否する必要があります。
ブロック済み: 拒否フロア以下で十分です。応答は自動的に拒否されます。昇格されたアクセス許可がなければ、人間によるオーバーライドは使用できません。

この段階的なゲート構造により、証拠の執行が純粋にアルゴリズム的に行われないことが保証されます。一か八かの意思決定は証拠レベルで人間による監視の恩恵を受ける一方、日常的な質問は証拠の枠組み内で自律的に処理されます。

13.4 意思決定パイプラインにおける証拠の束

MARIA OS 意思決定パイプラインは、提案、検証、承認要求、承認、実行、完了/失敗の 6 段階のステートマシンに従います。証拠バンドルは検証段階で統合されます。 RAG 応答が提案される場合、検証段階には証拠十分性の評価が含まれます。検証に失敗した応答は、approval_required 状態 (限界十分性の場合) または失敗状態 (証拠が不十分な場合) に入ります。

この統合は、MARIA OS のすべての RAG 応答が、完全な監査証跡、承認ワークフロー、証拠要件を備えた他のすべての意思決定と同じガバナンスパイプラインに従うことを意味します。 AI によって生成された応答には、個別のあまり統制されていない経路はありません。

14. ディスカッション

14.1 規制遵守への影響

証拠バンドルを適用した RAG は、規制遵守に重大な影響を及ぼします。 EU AI 法、NIST AI リスク管理フレームワーク、FDA や SEC などの機関によるセクター固有のガイダンスなどの新たな AI 規制では、AI システムの説明可能性、トレーサビリティ、監査可能性がますます求められています。証拠バンドルは次の要件を直接満たします。

説明可能性: すべての回答には、監査人や規制当局がレビューできる構造化された形式で、それを裏付ける証拠が含まれています。ブラックボックスはありません。
トレーサビリティ: 各証拠トリプルにはソースの出所 (文書 ID、段落番号、取得タイムスタンプ) が含まれており、ソース文書から最終応答までの完全な保管チェーンが作成されます。
監査可能性: 証拠バンドルは、遡って監査できる不変の記録です。後で応答に疑問が生じた場合は、その応答を作成した正確な証拠の束を検討することができます。
比例性: 構成可能な十分性しきい値により、組織は規制当局の期待に応じて、各アプリケーションのリスクレベルに比例して証拠要件を設定できます。

厳しい規制監視の対象となる組織にとって、Evidence Bundle-Enforced RAG は、新たなコンプライアンス標準を満たす唯一の RAG アーキテクチャである可能性があります。構造化された証拠なしに応答を生成する従来の RAG システムは、規制当局が要求する説明可能性と追跡可能性を実証するという重大な課題に直面しています。

14.2 投資家への影響

AI を活用した企業を評価する投資家にとって、Evidence Bundle-Enforced RAG は、AI の信頼性という重要なリスク要因に対処します。組織が知識作業において AI への依存を強めるにつれて、幻覚によって誘発されるエラーのリスクが重大なビジネスリスクになります。非ゲート RAG システムを導入する企業は、定量化されていない責任を負っています。あらゆる AI 応答は、構造的な保護手段がなければエラーの潜在的な原因となります。

Evidence Bundle-Enforced RAG は、このリスクプロファイルを変革します。幻覚率は定量化され、監視され、制限されます。拒否メカニズムは、最悪の結果を防ぐ安全弁を提供します。監査証跡により、遡及分析と継続的な改善が可能になります。投資家にとって、これは次のことを意味します。

定量化可能な AI リスク: 幻覚率は測定可能な指標であり、未知のものではありません。組織は、従来の運用指標に加えて証拠の完全性と幻覚率を報告できます。
テールリスクの軽減: 拒否メカニズムにより、下値リスクが制限されます。最悪のケースは壊滅的な幻覚ではなく、人間による審査のきっかけとなる拒否です。
実証可能なガバナンス: 一連の証拠は、組織が AI ガバナンスメカニズムを導入していることの具体的な証拠を提供し、規制リスクプレミアムを軽減します。
スケーラビリティの説明: 証拠に基づいた正確性は、AI をよりリスクの高いアプリケーションに自信を持って導入できることを意味し、AI で拡張されたナレッジワークの対応可能な市場を拡大します。

14.3 制限事項

証拠バンドル強制 RAG は、幻覚問題に対する完全な解決策ではありません。いくつかの制限事項を認識する必要があります。

外挿幻覚: このフレームワークは捏造や歪曲に対して最も効果的です。外挿エラー (モデルが有効な証拠から裏付けのない結論を導き出す場合) は、証拠が本物であるため、検出が困難です。誤りは推論にあります。
証拠品質の上限: システムは、その証拠ソースと同程度の品質しかあり得ません。ナレッジベースにエラー、古い情報、または矛盾する文書が含まれている場合、証拠バンドルは誤った情報源を忠実に引用します。
待ち時間のオーバーヘッド: 証拠の抽出と十分性評価の段階で待ち時間が追加されます。 1 秒未満の応答時間を必要とするアプリケーションの場合、このオーバーヘッドは許容できない場合があります。
調整要件: 十分性のしきい値、信頼性モデル、および関連性スコアリングはすべて、展開ごとに慎重に調整する必要があります。既製の構成では最適なパフォーマンスが得られない可能性があります。
コールドスタート: 自己改善ループが機能するには、インタラクションデータが必要です。新しい導入は未調整の信頼モデルから始まり、時間の経過とともに改善されます。

14.4 今後の方向性

この研究のいくつかの拡張は追求する価値があります。

マルチモーダル証拠バンドル: 画像、表、チャート、その他の非テキストソースからの証拠をサポートするフレームワークを拡張します。これには、信頼度スコアリングと関連性評価をマルチモーダルな証拠に適応させる必要があります。
敵対的堅牢性: 敵対的攻撃に対するフレームワークの回復力を評価します。つまり、慎重に作成されたクエリや毒された知識ベースを通じて幻覚を引き起こす意図的な試みです。
フェデレーション証拠: 組織の境界を越えて証拠バンドルを拡張し、組織間の証拠検証による複数組織の RAG を可能にします。
リアルタイムの信頼度調整: 定期的なバッチ再調整ではなく、オンライン学習を使用して、ユーザーのフィードバックと下流の結果データに基づいて信頼度モデルを継続的に更新します。
証拠圧縮: 監査可能性の特性を維持しながら、証拠バンドルの保管と送信のオーバーヘッドを削減する技術を開発します。

14.5 関連するアプローチとの比較

Evidence Bundle-Enforced RAG は、RAG の信頼性に対する広範なアプローチの中に存在します。私たちのフレームワークをいくつかの著名な代替案と比較することは有益です。

Self-RAG (Asai et al., 2024) は、自己反映トークンを通じてモデル自身の出力を取得、生成、および批判することを教えています。 Self-RAG は事実性を向上させますが、モデル自身の信頼性に関するモデルの内部評価、つまり生成プロセスと同じバイアスの影響を受ける自己評価の形式に依存しています。 Evidence Bundle-Enforced RAG は評価を外部化し、証拠の品質を自己評価ではなく客観的な測定値にします。

SelfCheckGPT (Manakul et al., 2023) は、複数の応答をサンプリングし、一貫性をチェックすることで幻覚を検出します。サンプル間で一貫性のない主張は、潜在的な幻覚としてフラグが立てられます。このアプローチは、製造の検出には効果的ですが、モデルが一貫して同じエラーを生成する可能性がある歪みや外挿にはあまり効果的ではありません。証拠バンドルは、出力の一貫性ではなく、ソース検証を通じてこれらの系統的エラーを検出します。

FActScore (Min et al., 2023) は、応答をアトミッククレームに分解し、それぞれを知識ソースと照合して検証します。これは概念的にはクレームごとの証拠バンドルのアプローチに似ていますが、タイミングが異なります。FActScore は事後評価指標であるのに対し、証拠バンドルは生成前の制約です。証拠の束は幻覚の発生を防ぎます。 FActScore は生成後にそれらを検出します。

Evidence Bundle-Enforced RAG の主な差別化要因は、検出ではなく予防であることです。他のアプローチでは、幻覚が発生した後 (または生成後に) 幻覚を検出します。私たちのフレームワークは、証拠が裏付けるものに応答空間を制限することによって、幻覚が生成されるのを防ぎます。予防は、誤検知、つまり検知器をすり抜けてしまう幻覚を排除するため、基本的に検知よりも信頼性が高くなります。

14.6 実装の複雑さと組織の準備状況

証拠バンドルを適用した RAG を展開するには、技術的な実装を超えた組織の準備が必要です。技術以外の 3 つの前提条件が不可欠です。

ナレッジベースの品質: このフレームワークは、ギャップを埋めるモデルの機能によって以前は隠されていたナレッジベースの欠陥を明らかにします。組織は、ドキュメントのバージョン管理、定期的なコンテンツのレビュー、ギャップ分析などのナレッジベースのメンテナンスに投資する準備をしておく必要があります。
利害関係者の調整: 拒否メカニズムはすべての利害関係者によって理解され、受け入れられる必要があります。ビジネスユーザー、経営陣、コンプライアンス担当者は、確信を持って幻覚を見せるよりも、明白な拒否の方が望ましいことに同意する必要があります。この調整は、展開中に検出されるのではなく、展開前に確立される必要があります。
継続的なモニタリング: 証拠バンドルの指標 (充足スコア、幻覚率、拒否率、再質問パターン) を継続的にモニタリングし、それに基づいて対処する必要があります。組織には、データエンジニアリングにおけるデータ品質チームと同様に、証拠の品質を担当する専用の役割またはチームが必要です。

15. 結論

エンタープライズ RAG における幻覚危機はモデルの問題ではなく、アーキテクチャの問題です。従来の RAG パイプラインは主張の証拠を必要としないため、幻覚が発生します。 Evidence Bundle-Enforced RAG は、証拠をオプションのアノテーションではなく構造要件にすることで、この問題を解決します。

このホワイトペーパーで紹介されたフレームワークは、証拠に基づく RAG に完全な数学的基盤を提供します。証拠十分性スコアは、主張ごとの信頼性と関連性を単一の意思決定指標に集約します。対応決定機能は、調整されたしきい値を使用して十分な証拠と不十分な証拠を分離し、不十分なケースをリスクのある生成ではなく透明な拒否にルーティングします。幻覚率モデルは、バンドルの完全性がどのように幻覚率を乗算的に低下させるかを示します。ユーザーの信頼モデルは、拒否を適切に実装すると、信頼を破壊するのではなく信頼を高めることを示しています。再クエリ分析により、拒否が対処可能であり、自己修正できることが確認されます。証拠の一貫性メトリクスは、個々の証拠の質をグラフレベルの構造的一貫性と結び付けます。自己改善ループは、証拠バンドルがどのようにシステムを加速するかを示しています時間をかけて学ぶこと。

実験結果は説得力があります。幻覚率が 23.7% から 3.2% に大幅に減少すると、エンタープライズ RAG の用途が根本的に変わります。 RAG は 23.7% で、すべての応答に対して人による検証を必要とする便利なツールです。 3.2% の RAG は、最も危険な意思決定を除いてすべての信頼できるナレッジアシスタントです。受け入れられた回答に対する証拠完全性が 94.1% であるということは、ユーザーが迅速かつ自信を持って主張を検証できることを意味します。ユーザー信頼スコア 4.6/5 は、ベースライン RAG の 2.8/5 と比較して、信頼性におけるこの変化を反映しています。

MARIA OS の場合、証拠バンドルはアドオン機能ではありません。これらは、プラットフォームの中核となる哲学の自然な拡張です。責任はアーキテクチャです。 すべての決定には所有者が必要です。すべての行動は証拠を提出する必要があります。すべての AI 応答は説明可能、追跡可能、監査可能でなければなりません。 Evidence Bundle-Enforced RAG は、企業の知識検索という特定の課題に対してこれらの原則を運用します。

より広範な意味は明らかです。 AI システムが企業運営においてより重要な役割を担うようになるにつれ、「どんな犠牲を払ってでも答える」というパラダイムは、「証拠を持って答えるか拒否する」というパラダイムに取って代わられる必要があります。幻覚の代償はあまりにも高く、リスクはあまりにも管理されておらず、それ以外のものに対しては規制の監視が厳しすぎます。 Evidence Bundle-Enforced RAG は、この移行を行うための数学的フレームワーク、アーキテクチャパターン、および経験的検証を提供します。

回答から証拠を伴った回答への移行には制限はありません。それは解放です。システムが言えることを制限することで、システムが信頼できる動作を拡張します。これが、管理された AI の中心にある矛盾であり、信頼できるエンタープライズ AI が構築される基盤です。

16. 参考文献

- [1] Lewis, P.、Perez, E.、Piktus, A. 他。（2020年）。知識集約的な NLP タスクのための検索拡張生成。 神経情報処理システムの進歩、33、9459-9474。

- [2] Shuster, K.、Poff, S.、Chen, M.、Kiela, D.、および Weston, J. (2021)。検索拡張により、会話中の幻覚が軽減されます。 計算言語学協会の調査結果: EMNLP 2021、3784-3803。

- [3] Ji、Z.、Lee、N.、Frieske、R.、他。（2023年）。自然言語生成における幻覚に関する調査。 ACM コンピューティング調査、55(12)、1-38。

- [4] Gao, L.、Ma, X.、Lin, J.、および Callan, J. (2023)。関連ラベルを使用しない、正確なゼロショットの密な検索。 計算言語学協会の第 61 回年次総会の議事録、1762 ～ 1777 年。

- [5] Edge, D.、Trinh, H.、Cheng, N. 他。（2024年）。ローカルからグローバルへ: クエリ中心の要約への Graph RAG アプローチ。 arXiv プレプリント arXiv:2404.16130。

- [6] Asai, A.、Wu, Z.、Wang, Y.、Sil, A.、および Hajishirzi, H. (2024)。 Self-RAG: 内省を通じて検索、生成、批評することを学びます。 学習表現に関する国際会議 (ICLR)。

- [7] Huang、L.、Yu、W.、Ma、W.、他。（2024年）。大規模言語モデルにおける幻覚に関する調査: 原則、分類、課題、未解決の質問。 ACM コンピューティング調査、57(2)、1-45。

- [8] マナクル、P.、リウジー、A.、ゲイルズ、M. J. F. (2023)。 SelfCheckGPT: 生成大規模言語モデル向けのゼロリソースブラックボックス幻覚検出。 自然言語処理における経験的手法に関する 2023 年会議の議事録、9004-9017。

- [9] Min、S.、Krishna、K.、Lyu、X.、他。（2023年）。 FActScore: 長文テキスト生成における事実の精度の詳細なアトミック評価。 自然言語処理における経験的手法に関する 2023 年会議の議事録、12076-12100。

- [10] Maynez, J.、Narayan, S.、Bohnet, B.、および McDonald, R. (2020)。抽象的な要約における忠実さと事実性について。 計算言語学協会の第 58 回年次総会の議事録、1906 ～ 1919 年。

- [11] Rashkin、H.、Nikolaev、V.、Lamm、M.、他。（2023年）。自然言語生成モデルにおける帰属の測定。 計算言語学、49(4)、777-823。

- [12] N. ジリ、S. ミルトン、M. ユウ、O. ザイアン、S. レディ (2022)。会話モデルにおける幻覚の起源について: それはデータセットですか、それともモデルですか? 計算言語学協会北米支部の 2022 年会議議事録、5271-5285。

- [13] Mallen, A.、Asai, A.、Zhong, V.、Das, R.、Khashabi, D.、および Hajishirzi, H. (2023)。言語モデルを信頼してはいけない場合: パラメトリック記憶とノンパラメトリック記憶の有効性の調査。 計算言語学協会の第 61 回年次総会の議事録、9802-9822。

- [14] Yue, X.、Wang, B.、Chen, Z.、他。（2024年）。ロングコンテキスト検索拡張生成のための推論スケーリング。 arXiv プレプリント arXiv:2410.04343。

- [15] 欧州議会。（2024年）。人工知能に関する調和のとれた規則を定める規制 (EU) 2024/1689 (AI 法)。 欧州連合の官報、L シリーズ。

- [16] 米国国立標準技術研究所。（2023年）。人工知能リスク管理フレームワーク (AI RMF 1.0)。 NIST AI 100-1。

- [17] Peng、B.、Galley、M.、He、P.、他。（2023年）。事実を確認して再試行: 外部の知識と自動フィードバックによる大規模な言語モデルの改善。 arXiv プレプリント arXiv:2302.12813。

- [18] Guu, K.、Lee, K.、Tung, Z.、Pasupat, P.、および Chang, M. (2020)。検索拡張言語モデルの事前トレーニング。 第 37 回機械学習国際会議の議事録、3929-3938。

- [19] Borgeaud, S.、Mensch, A.、Hoffmann, J.、他。（2022年）。数兆のトークンから取得することによる言語モデルの改善。 第 39 回機械学習国際会議議事録、2206-2240。

- [20] マリアOS。（2026年）。 MARIA OS: マルチエージェント責任およびインテリジェンスアーキテクチャオペレーティングシステム。内部技術文書。株式会社ディシジョン

Evidence Bundle強制型RAG: 引用必須・回答拒否を含む信頼応答設計

要旨

1. はじめに — Enterprise RAG における幻覚危機

1.1 問題の範囲

1.2 既存の緩和策では不十分な理由

2. 証拠バンドルの概念

2.1 証拠の構成要素

2.2 証拠バンドルの構造

2.3 バンドルの要件と完全性

2.4 第一級のデータ構造としての証拠バンドル

3. 回答から証拠回答まで

3.1 従来の RAG パイプライン

3.2 証拠優先のパイプライン

3.3 パラダイムシフトのコスト

4. 数学的枠組み

4.1 証拠十分性スコアリング

4.2 十分性のしきい値と応答の決定

4.3 バンドルの完全性

4.4 証拠検証を伴う総合 RAG 精度

4.5 信頼スコアの計算

4.6 十分性関数の形式的性質

4.7 複数クレームの分解

5. 拒否のメカニズム

5.1 なぜ拒否が重要なのか

5.2 拒否設計原則

5.3 閾値のキャリブレーションと拒絶と幻覚のトレードオフ

5.4 グレースフルデグラデーション

6. 幻覚率モデル

6.1 ベースライン幻覚率

6.2 証拠バンドルによる幻覚率

6.3 動作例

6.4 感度分析

6.5 幻覚タイプの分解

6.6 幻覚軽減の時間的安定性

7. ユーザーの信頼のダイナミクス

7.1 動的変数としての信頼

7.2 係数の解釈

7.3 信頼の軌跡

7.4 信頼回復のダイナミクス

8. 再クエリ分析

8.1 再クエリ確率モデル

8.2 再クエリの品質向上

8.3 システム負荷分析

8.4 拒否の経済モデル

8.5 拒否に対するユーザーの適応

9. 証拠の一貫性

9.1 個々の証拠から証拠グラフへ

9.2 凝集度の測定基準

9.3 一貫性と証拠の質

9.4 実践における結束力

9.5 凝集度で重み付けされた信頼度

9.6 矛盾の検出

10. 自己改善のループ

10.1 学習信号としての証拠

10.2 自己改善モデル

10.3 フィードバックメカニズム

10.4 収束プロパティ

11. 実験計画

11.1 エンタープライズドキュメント QA システム

11.2 比較条件

11.3 メトリクス

11.4 評価プロトコル

11.5 統計的検出力分析

11.6 インフラストラクチャ構成

12. 期待される結果

12.1 幻覚率の結果

12.2 拒否率の結果

12.3 時間の経過に伴う信頼の軌跡

12.4 証拠の完全性

12.5 再クエリパターン

13. MARIA OS の統合

13.1 証拠エンジンのアーキテクチャ

13.2 MARIA 座標系の統合

13.3 証拠に対する責任のゲート

13.4 意思決定パイプラインにおける証拠の束

14. ディスカッション

14.1 規制遵守への影響

14.2 投資家への影響

14.3 制限事項

14.4 今後の方向性