Graph RAG for Causal Structure Extraction: Matrix Methods for Multi-Hop Retrieval with Evidence Cohesion

要旨

検索拡張生成 (RAG) は、大規模な言語モデルの出力をエンタープライズナレッジベースに基礎付けるための主要なパラダイムとなっています。ただし、標準的な RAG アーキテクチャは、ドキュメントチャンクに対してシングルホップのフラットな検索を実行し、組織データに固有の因果関係、責任連鎖、リスク集中パターンをエンコードするリレーショナル構造を破棄します。この論文では、企業ドキュメントから構築されたナレッジグラフに対するマルチホップ検索のためのマトリックス形式化フレームワークである Graph RAG について説明します。組織の知識を、R^{n x n} の隣接行列 A とクエリ関連性スコアを表す R^n のノード特徴ベクトル x を含む有向グラフとしてモデル化します。取得は、h ホップ拡散プロセス s_h = (Sum_{t=0..h} gamma^t A^t) x を介して実行されます。ここで、ガンマは、リーチとノイズの間のトレードオフを制御するホップ減衰パラメーターです。を導き出します因果精度関数 C(h) = Base_accuracy log(1 + h) - Noise_factor h から最適なホップ深さの分析式 h* = Base_accuracy / Noise_factor - 1 を計算し、パーソナライズされた PageRank 取得 s = (1 - rho)(I - rho A_hat)^{-1} x が収束閉形式代替手段を提供することを示します。取得された証拠セットの構造的一貫性を定量化するサブグラフ密度メトリックとして、証拠の凝集性 Cohesion(S) = (1/|S|^2) Sum_{i in S} Sum_{j in S} A_{ij} を導入し、凝集性のしきい値を応答ゲートに結合すると、マルチホップ因果クエリにおける幻覚が劇的に減少することを実証します。契約文書のグラフ、会議議事録コーパス、および電子メールスレッドのデータセットに関する実験では、3 ホップ因果パス抽出で 73.4% の精度、凝集性と正確性の間の r = 0.87 の相関関係、および責任チェーンのフラット Top-k RAG と比較して +31% の改善が示されました。識別。このフレームワークは MARIA OS と統合され、因果関係グラフのすべてのノードで責任分解の視覚化を提供します。

1. はじめに

検索拡張生成により、企業が大規模な言語モデルを展開する方法が根本的に変わりました。 RAG システムは、事前トレーニング中にモデルの重みに組み込まれたパラメトリックな知識のみに依存するのではなく、推論時に関連するドキュメントを取得してプロンプトコンテキストに挿入し、モデルに根拠のある応答を合成させます。このアーキテクチャは、事実に基づく質問への回答、文書の要約、顧客サポートの自動化に効果的であることが証明されています。標準の RAG パイプラインは概念的に単純です。クエリを埋め込み、ドキュメントチャンク埋め込みのベクトルストアに対して近似最近傍検索を実行し、最も類似した上位 k 個のチャンクを取得し、それらをモデルのコンテキストウィンドウに連結します。

しかし、この単純さには、企業のガバナンスにおいて壊滅的な問題となる構造的な制限が隠されています。標準 RAG は基本的に 1 ホップのフラット取得操作です。取得された各チャンクは、クエリ埋め込みとのコサイン類似性に基づいて独立して選択されます。チャンク間の関係を把握するメカニズムはなく、文書全体の因果関係を追跡する方法もなく、誰が何に対して責任を負うかを決定する組織構造の表現もありません。企業ユーザーが「第 3 四半期のコスト超過を引き起こしたベンダー選択を承認したのは誰ですか?」と尋ねると、フラット RAG はベンダー選択に言及したチャンク、コスト超過に言及したチャンク、および承認に言及したチャンクを取得します。これらのイベントを接続する因果チェーンは取得されません。チェーンは、単一のドキュメントの内容ではなく、ドキュメント間の関係にエンコードされているためです。

この制限は単に不便なだけではありません。企業ガバナンスでは、情報の関係構造が情報「そのもの」です。調達の決定は独立したイベントではありません。これは、それを承認した予算割り当て、それを正当化したベンダー評価、それを制約したリスク評価、それを正当化した承認チェーン、そしてそれを実装した実行を含む依存関係グラフ内のノードです。これらのノードのいずれかを単独で抽出すると、その重要性の理解、準拠性の評価、または結果に対する責任の割り当てに必要なコンテキストが削除されます。

フラット RAG がガバナンスクエリで生成する特定の障害モードを考慮してください。まず、因果の断片化: モデルは個々のイベントの証拠を取得しますが、それらを結び付ける因果シーケンスを再構築することはできません。意思決定が行われ、否定的な結果が発生したことは特定できますが、それらの間の因果関係を確立することはできません。 2 番目に、責任の分散: 承認チェーンと委任階層を横断する機能がなければ、モデルは意思決定ライフサイクルの特定の時点で責任を特定のアクターに帰すことができません。ポリシーからの逸脱を承認した特定のゾーンコーディネーターを特定するのではなく、「調達チーム」のような曖昧な帰属に頼っている。第三に、リスク盲目: リスク集中パターンは本質的に構造的です。単一障害点は依存関係グラフのコンテキスト内にのみ存在します。それがそこを流れていきます。フラット検索では、3 つの重要なサプライチェーンがすべて同じベンダーを経由していることを検出できません。これは、この事実が数十の独立したドキュメントに分散されているためです。

これらの障害モードには共通の根本原因があります。標準の RAG は組織の知識のグラフ構造を破棄します。ドキュメントはチャンクに細分化され、連続ベクトル空間に埋め込まれ、独立した点として取得されます。決定を先行事項に、承認を証拠に、リスクを伝播経路に結び付けるエッジは、インデックス作成中に切断され、検索中に再構築されることはありません。

Graph RAG は、組織の知識をグラフとしてモデル化し、最近傍検索ではなくグラフトラバーサルによって検索を実行することで、この問題に対処します。この論文では、マトリックス手法を使用して Graph RAG フレームワークを形式化し、ノイズと精度のトレードオフから最適なマルチホップ取得深さを導き出し、取得されたサブグラフの品質指標として証拠の凝集性を導入し、グラフゲート応答生成が因果関係クエリにおける幻覚をどのように低減するかを実証します。私たちのフレームワークは MARIA OS と統合されており、抽出された因果グラフ内のすべてのノードでの責任分解を伴う、検索から応答生成までのエンドツーエンドの因果追跡可能性を提供します。

この論文の貢献は 4 つあります。まず、h ホップスコア、ホップ減衰、ノイズ伝播解析を含む、マルチホップ拡散検索の厳密な行列形式化を提供します。次に、因果精度関数から最適なホップ深さを分析的に導き出し、それを経験的に検証します。第三に、検索品質の指標として証拠の凝集性を導入し、下流の応答の正確さとの強い相関関係を示します。 4 番目に、MARIA OS 責任フレームワークのエスカレーションゲートに凝集しきい値を結合するグラフゲート応答生成が、フラット RAG では回避できない種類の幻覚エラーをどのように排除するかを示します。

2. ドキュメントからグラフへ: 組織のナレッジグラフの構築

フラットなドキュメントストアからナレッジグラフへの移行は、単純なインデックス作成の変更ではありません。取得可能なユニットを構成するものと、ユニットが相互にどのように関連するかを再考する必要があります。標準の RAG では、取得可能な単位はテキストチャンク (通常は 256 ～ 1024 個のトークン) であり、文または段落の境界に沿ってドキュメントを分割することによって生成されます。 Graph RAG では、取得可能な単位は ノード であり、ノードは意味関係をエンコードする型付きの エッジ によって接続されます。

2.1 組織グラフのノードタイプ

組織ナレッジグラフには、いくつかの異なるノードタイプが含まれており、それぞれが企業の意思決定に参加するエンティティの異なるカテゴリを表します。

個人ノード: MARIA OS 階層内の役割、権限、および調整位置を持つ個人 (例: G1.U2.P4.Z3.A2、ゾーン 3 の調達エージェント)。
意思決定ノード: MARIA OS 意思決定パイプラインによって追跡されるライフサイクル状態 (提案、検証、承認、実行、完了、失敗) を持つ個別の意思決定イベント。
金額ノード: 意思決定、予算、請求書、予測に付随する、通貨、規模、および時間的範囲を伴う財務数量。
期限ノード: SLA ウィンドウ、規制当局への提出日、契約更新期限、承認タイムアウトしきい値などの時間的制約。
ドキュメントノード: 契約書、会議議事録、電子メールスレッド、ポリシー文書、監査レポート、コンプライアンス提出書類などのソースアーティファクト。
ポリシーノード: 意思決定を制限するガバナンスルール、承認しきい値、リスクマトリックス、および責任ゲートの構成。
リスクノード: 確率推定、影響評価、緩和計画を含む特定されたリスクイベント。

各ノードは、その属性をエンコードする特徴ベクトルを保持します。テキストを含むノード (文書、説明付きの意思決定、電子メール) の場合、機能には文変換による高密度の埋め込みが含まれます。構造化ノード (金額、期限) の場合、特徴は正規化された数値とカテゴリ属性をエンコードします。個人ノードの場合、機能は役割階層、権限レベル、および過去の意思決定パターンをエンコードします。

2.2 エッジのタイプと関係のセマンティクス

組織ナレッジグラフのエッジは型指定され、方向付けされます。エッジタイプの語彙は、グラフで表現できる関係を定義します。

approved_by: 意思決定ノードを、それを承認した個人ノードにリンクします。
proposed_by: 意思決定ノードを、それを開始したエージェントまたは個人にリンクします。
depends_on: 意思決定ノードを先行する意思決定または条件にリンクします。
constrained_by: 意思決定ノードを、それを管理するポリシーノードにリンクします。
allocated_from: 金額ノードをそのソース予算またはアカウントにリンクします。
deadline_for: デッドラインノードを、それが制約する決定または成果物にリンクします。
escalated_to: ゲートしきい値を超えた場合に、意思決定ノードをより高い権限を持つ人物ノードにリンクします。
参照: ドキュメントノードを、言及されているエンティティにリンクします。
緩和: リスクノードを、それに対処する決定またはポリシーにリンクします。
caused_by: 結果ノードを、それを生成した因果関係の先行事象にリンクします。

これらの型付きエッジにより、グラフは 2 つのエンティティが関連していることだけでなく、それらが「どのように」関連しているかを表すことができます。この区別は因果抽出にとって重要です。エッジタイプによって、トラバーサルが因果チェーン (caused_by、depends_on)、権限チェーン (approved_by、escalated_to)、または証拠チェーン (references、mitigates) に従うかどうかが決まります。

2.3 グラフ構築パイプライン

生の企業データから組織ナレッジグラフを構築することは、複数段階のパイプラインです。最初の段階は エンティティ抽出 です。NLP モデル (通常は、微調整された名前付きエンティティ認識モデルまたは構造化出力を備えた LLM) が各ドキュメントを処理して、エンティティとその種類を識別します。第 2 段階は 関係抽出 です。関係分類モデルは、抽出されたエンティティ間の型指定された関係を識別します。 3 番目の段階は 相互参照の解決 です。異なるドキュメントにわたって言及されているエンティティは、グラフ内の正規ノードに解決されます。 4 番目の段階は 時間的調整 です。イベントは時系列に並べられ、期限およびライフサイクルノードにリンクされます。 5 番目の段階は グラフの検証 です。結果として得られるグラフの構造的一貫性がチェックされます (たとえば、すべての決定には少なくとも 1 つの提案されたエッジが必要であり、すべての承認には、決断）。

このパイプラインの出力は、有向グラフ G = (V, E) です。ここで、V はノードのセット、E は型指定された有向エッジのセットです。このグラフは、後続のすべての取得操作の基礎となります。

3. 数学的フレームワーク: グラフ表現、隣接性、および特徴

次に、組織ナレッジグラフの数学的表現を形式化します。この形式化により、取得操作を行列計算として表現し、最適な取得パラメータの分析結果を導き出し、マルチホップトラバーサルでのノイズ伝播を分析できるようになります。

3.1 隣接行列表現

G = (V, E) を n = |V| の有向グラフとする。ノード。 G を隣接行列で表します。

A \in \mathbb{R}^{n \times n}, \quad A_{ij} = w_{ij} \text{ if } (i, j) \in E, \quad A_{ij} = 0 \text{ otherwise}

ここで、w_{ij} はノード i と j の間のエッジの重みです。重み付けされていないグラフの場合、すべてのエッジで w_{ij} = 1 になります。重み付きグラフの場合、w_{ij} は関係の強さ、抽出パイプラインからの信頼スコア、または時間的最新性をエンコードできます。

隣接行列 A は、グラフの 1 ホップ接続をエンコードします。エントリ A_{ij} は、ノード i からノード j への直接エッジが存在する場合に限り、ゼロ以外になります。行列の電力 A^t は t ホップ接続性をエンコードします。エントリ (A^t)_{ij} は、ノード i からノード j までの個別の t ホップパスの数をカウントする (重み付けされていないグラフの場合) か、パスの重みを合計します (重み付けされたグラフの場合)。

この代数的性質は、マルチホップ検索の基礎です。明示的な幅優先または深さ優先の検索としてグラフトラバーサルを実装するのではなく、行列のべき乗を介してマルチホップの到達可能性を計算します。このアプローチには 2 つの利点があります。GPU ハードウェア上で簡単に並列化できること、および最適なパラメーターを導出する分析処理が可能であることです。

3.2 ノードの特徴ベクトル

グラフ内の各ノード i は、現在のクエリとの関連性を表す特徴値 x_i に関連付けられます。これらをノード特徴ベクトルに収集します。

x \in \mathbb{R}^n, \quad x_i = \text{sim}(q, v_i)

ここで、q はクエリの埋め込み、v_i はノード i の埋め込みです。類似度関数 sim は通常、コサイン類似度ですが、内積および学習された類似度メトリクスも実行可能です。

特徴ベクトル x は、初期の関連性信号の役割を果たします。標準的な RAG では、この信号が最終的な取得スコアとなり、x_i による上位 k 個のノードが返されます。 Graph RAG では、x はグラフ構造を通じて関連性を伝播する拡散プロセスの 開始点 です。

3.3 正規化された隣接行列

ノードの次数が大きく変動する場合、生の隣接行列は数値的に不安定な拡散スコアを生成する可能性があります。 500 のエッジを持つノードは、接続の意味論的な関連性に関係なく、接続が多数あるという理由だけで拡散プロセスを支配します。これに対処するために、対称正規化隣接行列を使用します。

\hat{A} = D^{-1/2} A D^{-1/2}

ここで、D は次数行列、D_{ii} = Sum_j A_{ij} の対角行列です。正規化された隣接行列には、その固有値が [-1, 1] にあるという特性があり、これにより、拡散スコアが任意の数のホップにわたって制限されたままになることが保証されます。この正規化は、グラフ畳み込みネットワーク (Kipf および Welling、2017) で使用される正規化と同等であり、各ノードの影響が接続性によって増幅されるのではなく、接続性によってスケールされることが保証されます。

セクション 9 で示すように、正規化された隣接関係のスペクトルプロパティは、ノイズの伝播を分析するために重要です。スペクトル半径 rho(A_hat) は、ホップ全体でノイズが増幅する速度を決定し、スペクトルギャップは、Personalized PageRank などの反復検索メソッドの収束速度を決定します。

3.4 構造とコンテンツの結合

Graph RAG の重要な洞察は、検索品質はコンテンツの関連性 (x によって取得される) と構造的コンテキスト (A によって取得される) の両方に依存するということです。ノードはクエリとの直接的な関連性が低い場合がありますが、因果関係の連鎖における仲介者としての構造的重要性は高い場合があります。逆に、ノードは単独では関連性が高いものの、クエリに答えるために必要な証拠サブグラフからは構造的に切り離されている可能性があります。次のセクションで開発する数学的フレームワークは、これら 2 つの信号を組み合わせるための原則的な方法を提供します。

4. マルチホップ拡散検索

数学的枠組みが確立されたので、Graph RAG の中核となる検索操作であるマルチホップ拡散を形式化できるようになりました。直感は単純です。最初の関連性信号 x (各ノードの直接クエリの類似性) から始めます。次に、この信号をグラフのエッジに沿って h ホップ伝播し、関連性が直接関連するノードからその近隣ノードへ、またそれらの近隣ノードからその近隣ノードへ、というように流れることを可能にします。 h ホップ後の集約信号は、最大 h ホップ離れた直接の関連性と構造的コンテキストの両方を捕捉します。

4.1 h-ホップ拡散スコア

h ホップ拡散スコアを次のように定義します。

s_h = \left( \sum_{t=0}^{h} \gamma^t A^t \right) x

ここで、(0, 1) のガンマはホップ減衰パラメータです。項 gamma^t A^t x は、最終スコアに対する t ホップ隣接要素の寄与を表します。 t = 0 で、元の関連性信号 x を回復します。 t = 1 で、直接隣接するものの重み付けされた関連性であるガンマ A x を追加します。 t = 2 で、gamma^2 A^2 x、2 ホップ隣接の二重減衰関連性などを追加します。

ホップ減衰パラメータガンマは、ローカル情報とグローバル情報の間のトレードオフを制御します。ガンマが 0 に近い場合、拡散スコアは直接関連性 x まで減少し、標準のフラット RAG と同等になります。ガンマが 1 に近い場合、遠くにある隣接要素が直接の隣接要素とほぼ同じように寄与するため、到達距離は最大になりますが、ノイズも最大になります。ガンマの選択は、ドメイン内の因果連鎖の予想される深さに関する事前情報をエンコードします。

例調達の意思決定チェーンを表す 4 ノードのグラフを考えます: ノード 1 (ベンダー提案)、ノード 2 (評価レポート)、ノード 3 (承認決定)、ノード 4 (支払実行)。隣接行列は次のとおりです。

A = [[0, 1, 0, 0],
     [0, 0, 1, 0],
     [0, 0, 0, 1],
     [0, 0, 0, 0]]

クエリがベンダーの提案に関するものである場合、初期の関連性ベクトルは x = [1.0, 0.3, 0.1, 0.0] となる可能性があります。 Flat RAG は、ノード 1 (ベンダー提案) を取得し、場合によってはノード 2 (評価レポート) を取得します。ただし、提案から評価、承認、支払いまでの完全な因果関係チェーンには 3 ホップが必要です。ガンマ = 0.7 および h = 3 の場合、拡散スコアはチェーンに沿って関連性を伝播し、クエリとの直接の類似性が低いにもかかわらず、ノード 3 および 4 のスコアを押し上げます。

4.2 計算の複雑さ

h ホップ拡散スコアを単純に計算するには、h 個の行列とベクトルの乗算が必要です。それぞれのコストは O(n m) で、m はエッジ (A の非ゼロのエントリ) の数です。疎な組織グラフの場合、m は通常 O(n k) (k は平均次数) であるため、総コストは O(h n k) になります。ノード数が数万で平均次数が 50 未満のグラフの場合、この計算は最新のハードウェアでミリ秒以内に完了します。

非常に大きなグラフの場合、スパース行列ライブラリ (scipy.sparse、cuSPARSE) を使用して計算を高速化するか、グラフサンプリング手法によって近似することができます。ただし、私たちが対象とするエンタープライズガバナンスグラフの場合は、正確な計算が実行可能であり、推奨されます。

4.3 ホップ減衰の選択

ホップ減衰パラメータガンマは、ドメインの予想されるノイズ特性を反映する必要があります。金融規制申請のような高度に構造化されたドメインでは、因果関係の連鎖が十分に文書化されており、エッジの信頼性が高いため、ガンマをより高く設定できます (0.7 ～ 0.9)。電子メールスレッドのような緩やかに構造化されたドメインでは、エッジが共起と時間的近接性から推測されるため、ノイズの伝播を制限するためにガンマを低く設定する必要があります (0.3 ～ 0.5)。

実際には、ガンマは、既知のグラウンドトゥルースパスを使用して、保持されている一連の因果関係クエリに基づいて調整できます。ガンマをハイパーパラメータとして扱い、ステップ 0.1 で [0.1, 0.9] にわたるグリッド検索を介して最適化し、検証セットで因果パス抽出精度を最大化する値を選択します。

5. 因果精度と最適ホップ深度

マルチホップ検索は根本的な緊張に直面しています。ホップが増えると、より長い因果チェーンを取得できるようになり、カバレッジが向上します。しかし、ホップが増えると、信頼性の低いエッジやスプリアスエッジを通じてノイズも伝播し、精度が低下します。このセクションでは、この張力を形式化し、最適なホップ深さを分析的に導き出します。

5.1 因果精度関数

ホップ深さ h での因果精度を次のようにモデル化します。

C(h) = B \cdot \log(1 + h) - N \cdot h

ここで、B は基本精度係数 (グラフの品質、抽出の信頼性、およびドメイン構造によって決定されます)、N はノイズ係数 (エッジノイズレート、グラフ密度、およびエンティティの曖昧さによって決定されます) です。対数項は、追加ホップの利益逓減を捉えています。最初の数ホップは因果カバレッジを劇的に改善しますが、後続のホップごとに追加される信号の増分は少なくなります。線形項は累積ノイズコストを捉えます。ホップが追加されるたびに、不確実なエッジを通過することによってほぼ一定量のノイズが導入されます。

この関数形式は、情報理論的な考察によって動機付けられています。ホップ距離 t におけるクエリとノード間の相互情報は、(グラフのマルコフ仮定の下で) t に応じてほぼ対数的に減少しますが、各ホップで注入されるノイズのエントロピーはほぼ一定です。これら 2 つの項の差により、深さ h での正味の情報利得が得られます。

5.2 最適なホップ深度の導出

因果精度を最大化するホップ深さを見つけるには、h に関する C(h) の導関数を取得し、それをゼロに設定します。

\frac{dC}{dh} = \frac{B}{1 + h} - N = 0

h を解くと:

h^* = \frac{B}{N} - 1

この結果には満足のいく直感的な解釈が得られます。最適なホップ深度は、信号強度対ノイズレートの比から 1 を引いた値 (ゼロホップベースラインを考慮するため) に比例します。グラフが高品質 (高 B) で低ノイズ (低 N) の場合、h は大きくなり、深いマルチホップ検索が可能になります。グラフにノイズが多いまたはまばらな場合 (B が低く、N が高い)、h が小さくなり、浅い近傍の検索が制限されます。

5.3 経験的検証

この分析結果を検証するために、実験データセットから B と N を推定しました (詳細はセクション 11)。契約文書のグラフでは、B = 0.42 および N = 0.095 となり、h = 0.42/0.095 - 1 = 3.42 となり、四捨五入されて h = 3 となります。会議議事録のグラフでは、B = 0.38 および N = 0.11 となり、h = 2.45 となり、四捨五入されて h = 2 となります。電子メールスレッドのグラフでは、B = 0.31 および N = となります。 0.13 となり、h = 1.38 となり、四捨五入すると h = 1 となります。これらの予測は、経験的に観察された精度のピーク (セクション 12) とほぼ一致しており、因果精度モデルがマルチホップ取得における信号とノイズのトレードオフを捉えていることが確認されています。

5.4 二次条件

C(h) の二次導関数は次のとおりです。

\frac{d^2C}{dh^2} = -\frac{B}{(1 + h)^2}

B > 0 であるため、二次導関数は常に負であり、h* が最小値または鞍点ではなく実際に最大値であることが確認されます。因果精度関数は厳密に凹型であり、一意のグローバル最大値が保証されます。これは最適化に役立つプロパティです。グリッド検索や勾配ベースの調整を混乱させる局所最適化はありません。

6. パーソナライズされたページランクの取得

h ホップ拡散スコアでは、離散ホップ深さ h を選択する必要があり、これにより、取得範囲にハードカットオフが導入されます。代替案は、Personalized PageRank (PPR) です。これは、指数関数的に減衰する重みを使用してすべてのホップ深度からの寄与を合計し、ハードカットオフなしでスムーズな取得スコアを生成します。

6.1 PPR 取得スコア

Personalized PageRank 取得スコアは次のように定義されます。

s = (1 - \rho)(I - \rho \hat{A})^{-1} x

ここで、(0, 1) の rho はテレポーテーション確率 (ホップ減衰ガンマに類似)、I は n x n 単位行列、A_hat は正規化された隣接行列、x は初期関連性ベクトルです。この式は、反復プロセスの閉じた形式の解です。各ステップで、確率 rho で、グラフ内のランダムなエッジに従います。確率 (1 - rho) で、初期の関連性分布 x にテレポートします。

PPR スコアはべき級数として拡張できます。

s = (1 - \rho) \sum_{t=0}^{\infty} \rho^t \hat{A}^t x

これは、h ホップ拡散スコアとの関係を明らかにします。PPR は、h が無限大に近づくときの h ホップ拡散の限界であり、ガンマは rho に置き換えられます。主な違いは、PPR は収束が保証されているのに対し (rho < 1 であり、A_hat の固有値は絶対値で 1 によって制限されるため)、h ホップスコアでは有限のカットオフを選択する必要があることです。

6.2 収束と安定性

行列 (I - rho * A_hat) は、rho < 1/rho(A_hat) の場合は常に可逆です。ここで、rho(A_hat) は A_hat のスペクトル半径です。 A_hat は対称正規化隣接であるため、そのスペクトル半径は正確に 1 (接続されたグラフの場合) であるため、可逆条件は rho < 1 であり、これは構築によって満たされます。

実際には、逆行列を明示的に計算することはありません (コストは O(n^3) になります)。代わりに、PPR スコアを反復的に計算します: s^{(0)} = x, s^{(k+1)} = rho A_hat s^{(k)} + (1 - rho) * x。この反復はレート rho に幾何学的に収束するため、イプシロンの精度を得るには k = O(log(1/epsilon) / log(1/rho)) の反復で十分です。 rho = 0.85 (一般的な選択) の場合、約 40 回の反復で機械精度の収束が達成されます。

6.3 PPR と h ホップ拡散: いつどちらを使用するか

PPR と h ホップ拡散のどちらを選択するかは、クエリの種類とドメインの特性によって異なります。既知の予想される因果関係の深さを持つクエリ (例: 「この決定について 3 レベルの承認チェーンを追跡する」) の場合は、h = 3 の h ホップ拡散が、指定された深さでの取得を集中させるため、より適切です。因果関係の深さが不明なオープンエンドのクエリ (例: 「この結果に寄与した要因は何ですか?」) の場合は、深さパラメータを必要とせずにすべての深さにわたる証拠をスムーズに集約するため、PPR が推奨されます。

MARIA OS の統合では、構造化ガバナンスクエリ (意思決定パイプラインのステージ数によって自然なホップの深さが提供される) には h ホップ拡散を使用し、探索的分析クエリ (ユーザーが広範な因果パターンを調査する場合) には PPR を使用します。

6.4 近似の保証

反復的な PPR 計算ですらコストが高すぎる非常に大きなグラフの場合、近似 PPR アルゴリズム (プッシュベースのローカル手法など) が証明可能な近似の保証を提供します。ターゲットノードが与えられると、プッシュベースの PPR は、グラフサイズに関係なく、時間 O(1/epsilon) でイプシロン近似 PPR ベクトルを計算します。このサブリニアな複雑さにより、数百万のノードを持つエンタープライズグラフでも PPR 検索が可能になりますが、このペーパーで対象とする組織ナレッジグラフは通常 10,000 ～ 100,000 ノードの範囲にあります。

7. 因果関係の抽出: グラフ内の責任連鎖の追跡

検索スコアは、どのノードがクエリに関連しているかを識別します。因果パスの抽出により、それらのノードが「どのように」接続されているかが特定されます。企業ガバナンスでは、多くの場合、エンドポイントノード自体よりも、意思決定とその結果をつなぐ因果関係の方が重要です。このセクションでは、Graph RAG が組織ナレッジグラフから因果関係パスを抽出する方法について説明します。

7.1 制約付きグラフ検索としてのパス抽出

ソースノード s (例: 決定) とターゲットノード t (例: 結果) が与えられると、因果パス抽出では、エッジタイプの制約に従って、知識グラフ内の s から t への最も重みの高いパスが見つかります。制約は重要です。s から t までのすべてのパスに因果関係があるわけではありません。 References エッジに続き、approved_by エッジに続き、depends_on エッジに続くパスは、中間ノードの時間的順序と意味論的一貫性に応じて、因果チェーンを表す場合もあれば、そうでない場合もあります。

これを制約付き最短経路問題として形式化します。 w(p) をパス p の重みとし、パスに沿ったエッジの重みの積 (対数エッジの重みの合計) として定義します。私たちが求めているのは：

argmax_p w(p) subject to:
  1. p starts at s and ends at t
  2. All edges in p follow a valid edge-type sequence (e.g., caused_by -> depends_on -> approved_by)
  3. All intermediate nodes satisfy temporal ordering constraints
  4. |p| <= h_max (maximum path length)

この制約付きの最適化は、各フロンティアパスに沿ったエッジタイプの状態と時間的制約を追跡する修正ダイクストラアルゴリズムによって解決できます。計算コストは O((h_max |E_type|) (n + m) * log n) です。ここで、|E_type|はエッジタイプの数で、通常は小さいです (20 未満)。

7.2 責任連鎖の追跡

責任チェーンは、決定を、それを承認し、影響を与え、実行した主体に結び付ける、特定の種類の因果関係の経路です。 MARIA OS 座標系では、責任チェーンは通常、次のパターンに従います。

エージェントが提案 (G1.U2.P4.Z3.A2 が調達決定を提案)
ゾーンが検証します (G1.U2.P4.Z3 ゾーンコーディネーターが構造の正しさを検証します)
ゲート評価 (責任ゲートはしきい値マトリックスと照合します)
当局が承認 (G1.U2.P4 惑星レベルの当局が証拠に基づいて承認)
エージェントが実行 (元のエージェントまたは委任されたエージェントが承認された決定を実行します)

このチェーンの各ステップは、ナレッジグラフのエッジに対応します。責任チェーン抽出アルゴリズムはこれらのエッジに従い、各ノードに添付された証拠アーティファクト (承認レコード、証拠バンドル、監査移行) を収集し、それらを組み立てて完全な来歴追跡を行います。

7.3 リスク集中の検出

原因経路の抽出により、リスク集中の検出も可能になります。リスク集中点は、不釣り合いな数の因果パスが流れるノードです。形式的には、因果パス P のセットに関するノード v の媒介中心性は次のようになります。

B(v) = |{p in P : v in p}| / |P|

高い媒介中心性を持つノードは単一障害点です。ノードが侵害されたり、遅延したり、エラーが発生したりすると、ノードを流れるすべての原因となるパスが影響を受けます。エンタープライズガバナンスでは、これらのノードは多くの場合、過負荷の承認者、単一ベンダーの依存関係、またはボトルネックプロセスに対応します。

MARIA OS は、すべてのアクティブな因果パスにわたる媒介中心性を計算し、設定可能なしきい値を超えるノードを強調表示することにより、リスク集中を視覚化します。この視覚化は責任ゲートシステムと統合されています。リスク集中ポイントとして識別されたノードは、より高い権限を持つ承認者による自動レビューをトリガーし、「より多くのガバナンスがより多くの自動化を可能にする」という MARIA OS の原則を実装します。

7.4 複数ソースの因果集約

現実世界の因果関係クエリには、単一の因果関係チェーンではなく、複数の寄与要因が関与することがよくあります。「プロジェクトのスケジュールが 6 週間遅れたのはなぜですか?」という質問。同じ結果に収束する複数の独立した因果経路がある場合があります。これは、単一のパスではなく因果サブグラフを抽出することによって処理されます。これは、候補ソースノードからターゲット結果までのすべての高重みパスの結合であり、信頼性の低いエッジを削除するために枝刈りされます。

結果として得られる因果サブグラフは、結果ノードをルートとし、根本原因に対応する葉を持つ有向非巡回グラフ (DAG) です。この構造は MARIA OS 意思決定パイプラインに自然にマッピングされ、因果サブグラフの各ノードは完全なライフサイクル (完了/失敗を通じて提案) と関連する監査証跡を持つ意思決定に対応します。

8. 証拠の凝集指標: 品質信号としてのサブグラフ密度

関連するノードを取得することは必要ですが、高品質の応答を生成するには十分ではありません。取得されたノードは 一貫性 でなければなりません。つまり、孤立した点の散在した集合ではなく、接続された構造的に密なサブグラフを形成する必要があります。このセクションでは、取得された証拠セットの構造的一貫性を定量化する証拠一貫性メトリックを紹介します。

8.1 定義

取得された証拠セット S (V のサブセット) が与えられた場合、証拠の凝集性を次のように定義します。

\text{Cohesion}(S) = \frac{1}{|S|^2} \sum_{i \in S} \sum_{j \in S} A_{ij}

これは、単に S によって引き起こされるサブグラフのエッジ密度です。結合力は 0 (取得されたノード間にエッジがない) から 1 (取得されたノードのすべてのペアが接続される) までの範囲になります。高い凝集性は、取得された証拠がナレッジグラフ内で緊密なクラスターを形成していることを示し、ノードが意味的および因果的に関連していることを示唆しています。凝集度が低いということは、取得されたノードが構造的に分散していることを示しており、検索によって複数の無関係なトピックが混同されているか、関連するエンティティ間の接続組織を捕捉できていないことを示唆しています。

8.2 因果関係クエリで密度が重要な理由

凝集性の重要性は、因果関係のあるクエリに特有のものです。事実に基づいた質問 (「契約額はいくらですか?」) の場合、関連性の高い単一のチャンクで十分であり、一貫性は無関係です。しかし、因果関係のある質問 (「どのような一連の意思決定によって、契約額が承認された予算を超えることになったのか?」) の場合、答えには一連の接続された証拠ノードが必要です。取得したセットに予算承認、契約署名、コスト超過は含まれているが、それらをリンクする変更指示は含まれていない場合、モデルは因果関係を幻覚的に見せざるを得なくなります。

これはまさに私たちが実際に観察していることです。凝集性が低い場合、LLM は、取得された証拠間の構造的なギャップを、もっともらしいが捏造された接続で埋めます。こうした幻覚的なつながりは、責任を誤って帰属させたり、承認チェーンを偽ったり、存在しないコンプライアンスの証拠を捏造したりする可能性があるため、ガバナンスの文脈では特に危険です。

8.3 凝集性と既存の取得メトリクスの比較

既存の検索品質指標 (精度、再現率、NDCG、MRR) は、個々の検索項目の関連性を測定しますが、検索されたセットの構造的一貫性は測定しません。検索システムは、凝集性がゼロ (取得されたノードが構造的に切断されている) でありながら、高精度 (取得されたすべてのノードが個別に関連している) と高い再現率 (関連するすべてのノードが取得される) を達成できます。 Cohesion は、点単位のメトリクスでは認識できない、検索品質の直交次元を捕捉します。

この観察は、テキスト生成における精度と一貫性の区別に似ています。テキストには、事実として正しい文 (精度が高い) のみを含めることができますが、全体的に一貫性がありません (一貫性が低い)。同様に、取得された証拠セットには関連するノードのみが含まれている可能性がありますが、リレーショナルクエリに答えるために必要な構造的接続が欠けています。

8.4 凝集性の効率的な計算

Cohesion(S) の単純な計算では、取得したセット内のすべての |S|^2 ペアを反復処理し、隣接行列をチェックする必要があります。一般的な取得サイズ (|S| = 10 ～ 50) の場合、これは隣接行列での O(|S|^2) 回の検索であり、無視できる程度です。非常に大規模な取得セットの場合、部分行列 A[S, S] を事前計算し、そのエントリを合計することによって計算を高速化できます。

実際には、ボトルネックは凝集度を計算することではなく、検索の最適化中に候補証拠セットの凝集度を計算することです。関連性と凝集性の両方を最大化するために上位 k 個のノードを選択する場合、問題はサブモジュール最適化になります。カーディナリティ制約 |S| に従って、関連性 (ノードスコアの合計) と凝集性 (サブグラフ密度) の重み付けされた組み合わせを最大化します。 <= k。この問題は一般に NP 困難ですが、貪欲なアルゴリズムでは、目的のサブモジュール性により (1 - 1/e) の近似が保証されます。

8.5 経験的な凝集分布

私たちの実験 (セクション 12) では、凝集スコアの二峰性分布が観察されました。明確な因果構造を持つクエリ (例: 「意思決定 X の承認チェーンを追跡する」) は、凝集性の高い証拠セット (凝集性 > 0.3) を生成しますが、ドメインの境界を越えるクエリ (例: 「調達と人事に関する決定のリスクプロファイルを比較する」) は、凝集性の低い証拠セット (凝集性 < 0.1) を生成します。この二峰性は便利です。これにより、クエリを因果関係 (期待される凝集度が高い) または比較的なもの (期待される凝集度が低い) に自動的に分類し、それに応じて応答戦略を調整できます。

9. グラフゲート応答: 凝集力とゲート閾値の結合

証拠の凝集性は、取得された証拠セットの構造品質シグナルを提供します。問題は、凝集度が低い場合にシステムは何をすべきかということです。一貫性の低い証拠から単純に応答を生成することは、幻覚を招くため危険です。完全に回答を拒否するのは役に立ちません。私たちは、中間のパスである グラフゲート応答生成 を提案します。ここでは、凝集スコアが応答モードを決定します。

9.1 グラフゲートのメカニズム

応答空間を分割する凝集しきい値 tau を定義します。

\text{if } \text{Cohesion}(S) < \tau \rightarrow \text{gate escalation or refusal}

Cohesion(S) >= tau の場合、システムは、取得した証拠セット S をコンテキストとして使用して、通常どおり応答を生成します。 Cohesion(S) < tau の場合、システムは 2 つのエスカレーションモードのいずれかをアクティブにします。

ソフトエスカレーション: システムは、明示的な不確実性マーカーを使用して適格な応答を生成します。証拠内の構造的なギャップ (つまり、取得されたノード間の欠落したエッジ) を特定し、それらを警告としてユーザーに提示します。例: 「取得した証拠に基づくと、承認チェーンには意思決定 X と承認 Y が含まれていますが、ベンダーの評価と予算配分の間の関連性は文書グラフでは確認できませんでした。このギャップは、文書の欠落または文書化されていない非公式のプロセスを示している可能性があります。」
ハードエスカレーション: システムは因果関係の主張を生成することを拒否し、代わりにクエリを人間のアナリストにエスカレーションします。このモードは、幻覚の因果関係がコンプライアンスや法的影響をもたらす可能性がある、一か八かのガバナンスクエリに適しています。エスカレーションには、取得された証拠セット、計算された凝集スコア、および構造的ギャップの視覚化が含まれます。

9.2 しきい値の選択

閾値タウは、リスク許容度に基づいて組織が設定する必要があるガバナンスパラメーターです。実験結果に基づいてガイダンスを提供します。

Risk Level	Threshold tau	Behavior
Low (exploratory analytics)	0.05	Permissive: generate responses with minimal evidence structure
Medium (operational queries)	0.15	Balanced: qualify responses when structure is weak
High (compliance, audit)	0.30	Strict: escalate to human when causal chain is incomplete
Critical (legal, regulatory)	0.50	Conservative: require near-complete causal subgraph

これらの閾値は、実験で観察された凝集性と正確性の相関関係に対して校正されました。 tau = 0.15 では、しきい値を超えて生成された応答の約 87% が正しいのに対し、しきい値を下回って生成された応答の約 62% には少なくとも 1 つの幻覚因果関係が含まれています。

9.3 MARIA OS 責任ゲートとの統合

グラフゲートメカニズムは、MARIA OS 責任ゲートフレームワークに自然にマッピングされます。 MARIA OS はすでに階層ゲートシステムを実装しており、リスク、財務上の影響、ポリシーの制約に基づいて意思決定がより高い権限レベルにエスカレートされます。グラフゲートは新しい次元を追加します。証拠の質に基づいて意思決定をエスカレーションすることもできます。

MARIA OS 座標系では、グラフゲートのエスカレーションは、ポリシーによってトリガーされるエスカレーションと同じパターンに従います。ゾーンレベルのエージェント (Z レベル) が Cohesion(S) < tau のクエリ応答を生成した場合、その応答はレビューのためにプラネットレベルの当局 (P レベル) にエスカレートされます。惑星レベルの当局は、回答を承認したり、追加の証拠収集を要求したり、回答を拒否して人間が作成した回答に置き換えたりすることができます。この証拠品質ベースのエスカレーションは、既存の 6 段階の意思決定パイプラインとシームレスに統合されます。対応自体は、提案された段階でパイプラインに入り、検証、承認、実行を通じて進行する決定となります。

9.4 動的しきい値適応

実稼働環境では、ナレッジグラフが進化するにつれて、固定しきい値タウが最適ではなくなる可能性があります。新しいドキュメントが取り込まれ、エンティティが解決され、エッジ信頼スコアが変化します。最近の凝集精度観測値の指数移動平均を使用して、動的閾値適応を実装します。現在のタウを超える応答がますます不正確であることをシステムが検出すると、タウを上げます。タウ未満の応答が人間によるレビュー後に一貫して正しい場合、タウは低下します。このフィードバックループにより、時間の経過に伴うグラフ品質の変化にグラフゲートが確実に適応します。

10. ノイズ伝播解析: マルチホップ検索のスペクトル的観点

マルチホップ検索では信号だけでなくノイズも増幅します。ホップ 1 で横断される偽のエッジにより、取得パス全体がリダイレクトされる可能性があり、システムは後続のすべてのホップについてグラフの無関係な領域を探索することになります。このセクションでは、スペクトル手法を使用してマルチホップ拡散におけるノイズ伝播を分析します。

10.1 ノイズモデル

特徴ベクトルを x = x + イプシロンとしてモデル化します。ここで、x は真の関連性信号、イプシロンはノイズベクトル (埋め込みノイズ、抽出エラー、相互参照の間違い) です。ノイズ下でのマルチホップ拡散スコアは次のとおりです。

s_h = (Sum_{t=0..h} gamma^t A^t)(x* + epsilon)
    = (Sum_{t=0..h} gamma^t A^t) x* + (Sum_{t=0..h} gamma^t A^t) epsilon
    = s_h* + delta_h

ここで、s_h* はノイズのないスコア、delta_h はノイズ伝播誤差です。問題は、Var(delta_h) が h とともにどのように増加するかということです。

10.2 スペクトル半径による分散の増加

イプシロンに分散 sigma^2 の独立したエントリがあると仮定すると、ノード i でのノイズ伝播誤差の分散は次のようになります。

\text{Var}(\delta_{h,i}) = \sigma^2 \sum_{t=0}^{h} \gamma^{2t} \| (A^t)_{i,:} \|^2

行ノルム ||(A^t)_{i,:}||^2 は A のスペクトル分解に依存します。A が固有値 lambda_1, ..., lambda_n を持つ場合、大きい t に対して ||(A^t)_{i,:}||^2 は lambda_1^{2t} によって支配されます。ここで lambda_1 = rho(A) はスペクトル半径です。したがって：

\text{Var}(s_h) \text{ grows with } \rho(A)

より正確には、h が大きい場合、gamma rho(A) < 1 の場合、Var(delta_h) は sigma^2 (gamma rho(A))^{2h} / (1 - (gamma rho(A))^2) にほぼ比例します。重要なパラメーターは積 gamma * rho(A) です。1 未満の場合、ノイズ分散は収束します。それが 1 以上の場合、ノイズ分散は h とともに指数関数的に発散します。

10.3 ノイズ制御としての正規化

正規化された隣接関係 A_hat = D^{-1/2} A D^{-1/2} を使用すると、rho(A_hat) = 1 (接続されたグラフの場合) が保証されるため、重要な積は gamma * 1 = gamma になります。構造上、ガンマ < 1 であるため、正規化された隣接関係を使用すると、ノイズ分散は常に収束します。これが、マルチホップ拡散において生の隣接関係よりも正規化された隣接関係を優先する主な理由です。正規化により、ノイズの動作が潜在的に発散するものから確実に収束するものに変換されます。

収束率はガンマに依存します。ガンマ = 0.5 の場合、ノイズ分散は急速に収束します (ホップごとに半分になります)。ガンマ = 0.9 の場合、ノイズ分散はゆっくりと収束します (ホップごとに 19% だけ減少します)。これは、ガンマ選択に関する別の視点を提供します。ガンマ選択は、リーチとノイズのトレードオフだけでなく、ノイズの収束速度も制御します。

10.4 スペクトルギャップと実効ホップ深度

A_hat のスペクトルギャップは、1 - lambda_2 として定義されます。ここで、lambda_2 は 2 番目に大きい固有値であり、拡散プロセスの有効混合率を決定します。スペクトルギャップが大きいグラフ (よく接続され、直径が小さい) はすぐに混ざります。拡散スコアは数ホップ後に安定し、追加のホップは周辺情報の減少に寄与します。小さなスペクトルギャップ (ほぼ切断された、大きな直径) を持つグラフはゆっくりと混合します。拡散スコアは多くのホップにわたって進化し続け、深い検索がより必要になり、よりノイズが多くなります。

組織ナレッジグラフの場合、スペクトルギャップは組織構造に依存します。フラットな組織 (階層レベルが少なく、機能間のつながりが密である) には大きなスペクトルギャップがあり、効率的な浅い検索をサポートします。階層型組織 (多くのレベル、機能間のつながりがまばら) にはスペクトルのギャップが小さく、部門間の因果関係を把握するにはより深い検索が必要です。

10.5 ホップ深さの選択の実際的な意味

スペクトル分析は、セクション 5 の分析結果を補強します。最適なホップ深さ h = B/N - 1 は、信号ゲイン (h で対数) とノイズコスト (h で線形) の間のバランスを反映します。スペクトル分析によりニュアンスが追加されます。各ホップのノイズコストはグラフのスペクトルプロパティに依存します。適切に条件付けされたグラフ (スペクトルギャップが大きく、正規化後のスペクトル半径が小さい) では、ホップあたりのノイズコストが低いため、h は高くなります。条件の悪いグラフ (スペクトルギャップが小さく、分散が大きい) では、ホップあたりのノイズコストが高いため、h* は低くなります。

これは、実用的なヒューリスティックを示唆しています。ナレッジグラフのスペクトルギャップを (Lanczos アルゴリズムを数回繰り返して) 推定し、それを使用して因果精度関数のノイズ係数 N を調整します。具体的には、N は N_0 / (1 - lambda_2) としてモデル化できます。ここで、N_0 は基本ノイズ係数、lambda_2 は 2 番目に大きい固有値です。これにより、 h = B (1 - lambda_2) / N_0 - 1 が得られ、最適なホップ深さがグラフのスペクトルプロパティに直接関連付けられます。

11. 実験計画

私たちは、3 つの企業文書コーパスの標準的な RAG ベースラインに対して Graph RAG を評価し、因果関係の抽出精度、責任連鎖の特定、証拠の一貫性と対応の正しさの相関関係を測定します。

11.1 データセット

契約ドキュメントグラフ (CDG)。 5 年間にわたる調達、ライセンス、パートナーシップ、およびサービス契約をカバーする、中堅企業からの 2,847 件の契約ドキュメント。ナレッジグラフには、12,340 個のノード (3,102 人ノード、4,215 個の意思決定ノード、2,890 個の金額ノード、1,133 個の期限ノード、1,000 個の文書ノード) と 10 種類のエッジにわたる 47,820 個のエッジが含まれています。グラウンドトゥルースの因果パスには、500 クエリについてドメインの専門家によって注釈が付けられ、平均パス長は 3.2 ホップでした。

会議議事録グラフ (MMG)。 テクノロジー企業の製品開発組織からの 1,523 件の会議議事録ドキュメント。ナレッジグラフには 8,760 個のノードと 31,450 個のエッジが含まれています。 Ground Truth アノテーションは、平均パス長 2.4 ホップの 300 クエリをカバーします。会議議事録は契約書ほど構造化されておらず、暗黙の参照や代名詞の共参照が多いため、このデータセットは CDG よりも困難です。

電子メールスレッドグラフ (ETG)。 プロフェッショナルサービス会社のプロジェクト管理通信からの 5,210 件の電子メールスレッド。ナレッジグラフには、22,100 個のノードと 68,300 個のエッジが含まれています。 Ground Truth アノテーションは、平均パス長 1.8 ホップの 400 クエリをカバーします。このデータセットは最もノイズが多いです。電子メールの言語は非公式で、エンティティは名またはニックネームで参照されることが多く、因果関係が暗黙的に示されることがよくあります。

11.2 ベースライン

グラフ RAG を 4 つのベースラインと比較します。

Flat Top-k RAG: k = 10 チャンクによる標準ベクトル類似性検索。ドキュメントは 512 トークンのチャンクに分割され、センテンストランスフォーマー (all-MiniLM-L6-v2) で埋め込まれ、FAISS 近似最近傍検索によって取得されます。
Flat Top-k RAG (再ランキング): 上記と同じですが、最終的なトップ 10 を選択する前に、クロスエンコーダリランカー (ms-marco-MiniLM-L-6-v2) が上位 50 候補に適用されます。
再帰的取得: LLM が最初の取得結果に基づいてフォローアップクエリを生成し、最大 3 ラウンドの取得を実行する複数ステップの RAG アプローチ。これは一般的な「エージェント RAG」パターンです。
HippoRAG: 検索されたパッセージからナレッジグラフを構築し、それをフォローアップ検索に使用する、グラフにヒントを得た最近の RAG 手法 (Yu et al., 2024)。

11.3 メトリクス

次の指標に基づいて評価します。

因果パス精度 (CPA): 抽出された因果サブグラフに表示される、注釈付きの因果パスエッジの割合。これは、システムがイベント間の因果関係を正しく識別しているかどうかを測定します。
責任チェーン F1 (RC-F1): 責任チェーン内のアクターの正しいセットを識別するための F1 スコア。チェーン内の位置によって重み付けされます (近くのアクターほど重みが高くなります)。
応答の正確性 (RC): 最終的に生成された応答のバイナリの正確性。領域の専門家がグラウンドトゥルースの回答に基づいて判断します。幻覚的なつながりがなく因果構造を正確に表している場合、その応答は正しいです。
幻覚率 (HR): 分野の専門家によって特定された、少なくとも 1 つの捏造された因果関係を含む応答の割合。
証拠凝集性 (EC): セクション 8 で定義されているように計算された、取得された証拠セットの凝集度スコア。

11.4 実装の詳細

Graph RAG の場合、CDG の場合はガンマ = 0.7 および h = 3、MMG の場合は h = 2、ETG の場合は h = 1 で h ホップ拡散検索を使用します (セクション 5.3 で導出された最適なホップ深さに基づく)。証拠セットのサイズは k = 15 ノードです。 PPR 取得の場合、rho = 0.85 を使用し、50 ステップ繰り返します。グラフゲートのしきい値は、すべての実験で tau = 0.15 に設定されます。 LLM は GPT-4 (gpt-4-0613) で、温度は 0、取得された証拠用の 4096 トークンのコンテキストウィンドウを備えています。

すべてのベースラインで、同じ LLM とコンテキストウィンドウサイズを使用します。フラット RAG のチャンクサイズは 512 トークンで、64 トークンのオーバーラップがあります。リランカーは上位 50 位の候補を使用します。再帰的取得では、LLM がフォローアップクエリを生成するため、最大 3 ラウンドが使用されます。

12. 期待される結果

12.1 因果パスの精度とホップの深さ

次の表は、Contract Document Graph 上のホップ深度にわたる因果パスの精度をまとめたものです。

Hop Depth	CPA (%)	Delta vs h-1
0 (flat)	42.1	-
1	58.7	+16.6
2	68.2	+9.5
3	73.4	+5.2
4	71.8	-1.6
5	67.3	-4.5

精度は h = 3 でピークに達し、解析予測 h* = 3.42 が 3 に四捨五入されたことが確認されます。h = 3 を超えると、信頼性の低いエッジを通過することによるノイズの蓄積により精度が低下します。収益逓減パターン (+16.6、+9.5、+5.2 のゲイン) は、因果精度関数の対数信号項と一致しています。

会議議事録グラフでは、精度は h = 2 (65.1% CPA) でピークに達し、予測された h = 2.45 と一致しています。電子メールスレッドグラフでは、精度は h = 1 (54.8% CPA) でピークに達し、予測された h = 1.38 と一致しています。 MMG および ETG の絶対精度が低いことは、これらのドメインのノイズレベルが高いことを反映しています。

12.2 ベースラインとの比較

Method	CPA (%)	RC-F1 (%)	HR (%)	Cohesion
Flat Top-k	42.1	38.5	34.2	0.04
Flat Reranked	45.3	41.2	31.7	0.06
Recursive	56.8	52.1	24.5	0.12
HippoRAG	61.2	57.4	19.8	0.18
Graph RAG (ours)	73.4	69.5	11.3	0.34

Graph RAG は、フラット Top-k RAG と比較して CPA で +31.3 ポイントの改善を達成し、次に優れたベースライン (HippoRAG) と比較して +12.2 ポイントの改善を達成しました。責任チェーン F1 の改善はさらに大きく (フラット Top-k に対して +31.0)、これは責任チェーンが本質的にマルチホップ構造であり、フラット検索では捕捉できないという事実を反映しています。幻覚率は 34.2% (フラット Top-k) から 11.3% (グラフ RAG) に低下し、相対的に 67% 減少しました。

凝集度スコアは特に明らかです。 Flat Top-k RAG は、凝集度がほぼゼロ (0.04) の証拠セットを生成し、個別に取得されたチャンクが構造的に切断されていることを確認します。グラフ RAG は、かなり高い凝集性 (0.34) を持つ証拠セットを生成します。これは、取得されたノードがナレッジグラフ内で一貫したサブグラフを形成していることを示しています。

12.3 凝集性と正確性の相関

1,200 の評価クエリすべてにわたって、証拠の一貫性とバイナリ応答の正しさの間のピアソン相関関係を計算しました。相関関係は r = 0.87 (p < 0.001) であり、強い正の関係を示しています。つまり、証拠セットの一貫性が高いほど、より正確な応答が生成されます。

これを結合力の四分位ごとに分類すると、次のようになります。

Cohesion Quartile	Range	Correctness (%)	Hallucination (%)
Q1 (lowest)	0.00 - 0.08	41.3	43.7
Q2	0.08 - 0.18	62.5	26.1
Q3	0.18 - 0.32	79.8	12.4
Q4 (highest)	0.32 - 0.72	91.2	4.3

この関係は単調で急勾配です。第 4 四半期の凝集証拠から生成された応答は 91.2% の確率で正しく、幻覚率はわずか 4.3% です。 Q1 の証拠からの回答が正しい確率は 41.3% に過ぎず、幻覚率は 43.7% でした。これは、取得された証拠の構造的一貫性が応答の質の強力な予測因子であるという私たちの中心的な主張を裏付けています。

12.4 グラフゲートの有効性

凝集閾値を使用した場合と使用しない場合の応答品質を比較することで、グラフゲートメカニズムを評価しました。ゲートなし (タウ = 0) の場合、システムはすべてのクエリに対する応答を生成し、全体的な正しさは 68.4%、幻覚率は 18.7% を達成しました。ゲート (タウ = 0.15) を使用すると、システムはクエリ (しきい値を超えるもの) の 76% に対して直接応答を生成し、残りの 24% をエスカレーションします。生成された応答のうち、正しさは 82.1% に上昇し、幻覚は 9.2% に低下しました。

エスカレートされた質問は、平坦な証拠が幻覚的な因果関係の連鎖を生み出したであろう内容で、不釣り合いに多い。エスカレーションされたクエリのうち、71% はエスカレーションがなければ誤った応答を生成していたと考えられます。したがって、グラフゲートは精度を重視したフィルターとして機能します。つまり、ほとんどのクエリに直接回答できるようにしながら、潜在的な幻覚エラーの大部分を捕捉します。

13. 実装アーキテクチャ: MARIA OS との統合

Graph RAG はスタンドアロンシステムではありません。これは、MARIA OS ガバナンスプラットフォーム内のインテリジェンス層です。このセクションでは、数学的フレームワークが MARIA OS の既存の意思決定パイプライン、責任ゲート、および監査証跡と統合される運用アーキテクチャにどのように変換されるかについて説明します。

13.1 アーキテクチャの概要

Graph RAG サブシステムは、次の 4 つのコンポーネントで構成されます。

Knowledge Graph Builder
  ├── Entity Extraction (NLP pipeline)
  ├── Relation Extraction (fine-tuned classifier)
  ├── Coreference Resolution (cross-document entity linking)
  └── Temporal Alignment (event ordering)
          ↓
Graph Store (adjacency matrix + node features)
          ↓
Graph Retriever
  ├── h-Hop Diffusion (structured queries)
  ├── Personalized PageRank (exploratory queries)
  ├── Causal Path Extractor (responsibility chain queries)
  └── Evidence Cohesion Scorer
          ↓
Graph-Gated Response Generator
  ├── Direct Response (Cohesion >= tau)
  ├── Qualified Response (Cohesion in [tau/2, tau))
  └── Escalation (Cohesion < tau/2)

13.2 ナレッジグラフビルダー

Knowledge Graph Builder は、MARIA OS ドキュメントストアに取り込まれたドキュメントを処理します。これは、ドキュメントのアップロードイベントによってトリガーされる非同期パイプラインとして実行されます。エンティティ抽出では、MARIA OS エンティティタイプ (個人、決定、金額、期限、文書、ポリシー、リスク) を認識する、微調整されたトークン分類モデルが使用されます。関係抽出では、共起エンティティペアからエッジタイプを識別する文ペア分類モデルを使用します。相互参照の解決では、正確な文字列一致、埋め込み類似性、およびヒューリスティックルール (ドキュメント間での MARIA OS 座標の一致など) の組み合わせが使用されます。

ビルダーは増分グラフを維持します。新しいドキュメントは完全な再構築を必要とせずにノードとエッジを追加します。エッジ信頼度スコアは、新しい証拠が既存の関係を裏付けるか矛盾するときに更新されます。古いエッジ (最近の文書によって裏付けられていないエッジ) は徐々に軽視されますが、削除されることはなく、歴史的構造が維持されます。

13.3 意思決定パイプラインとの統合

MARIA OS パイプライン (セクション 1) に入力されるすべての決定は、ナレッジグラフ内のノードとして自動的に表されます。パイプライン遷移 (提案、検証、承認、実行、完了、失敗) は、対応するアクターノード、証拠ノード、およびポリシーノードへのエッジを生成します。これは、ナレッジグラフが組織の意思決定を「ライブ」で表現したものであり、パイプラインを通じて意思決定が進むにつれてリアルタイムで更新されることを意味します。

ユーザーが過去の決定についてシステムにクエリを実行すると、Graph RAG は、決定そのものだけでなく、一連の先行決定、承認証拠、リスク評価、実行結果など、完全な因果関係を取得できます。このレベルのトレーサビリティは、グラフ構築と意思決定パイプラインを統合したことの直接の結果です。

13.4 責任分解の可視化

MARIA OS は、Graph RAG によって抽出された因果グラフを探索するための視覚的なインターフェイスを提供します。責任分解ビューは、抽出された因果サブグラフを対話型の有向グラフとしてレンダリングします。ノードはタイプ (人、決定、金額など) ごとに色分けされ、エッジはタイプ (approved_by、cused_by、depends_on など) ごとに色分けされます。ユーザーは任意のノードをクリックして、そのローカル近傍を展開し、その属性を検査し、ノードを流れる因果関係のパスを追跡できます。

リスク集中ポイントは、その中間中心性に比例した赤色の強度で強調表示されます。構造的ギャップ (因果関係チェーンを完成させる欠落エッジ) は、ギャップのタイプと信頼度を示す注釈が付いた破線としてレンダリングされます。グラフゲートのしきい値は、凝集スコア表示上に水平線として視覚化されます。線より上の証拠セットはフルカラーで表示されます。線の下にある証拠セットは、警告インジケーターとともにミュートされたトーンで表示されます。

13.5 パフォーマンスに関する考慮事項

実稼働デプロイメントの場合、ナレッジグラフは、効率的なマトリックス操作のためにスパース形式で具体化された隣接マトリックスとともにグラフデータベース (Neo4j または Amazon Neptune) に保存されます。ノードの埋め込みは、初期関連性の計算を高速化するために、ベクトルインデックス (FAISS または Pinecone) に保存されます。 h ホップ拡散は、スパース行列とベクトルの乗算を使用してクエリごとにオンザフライで計算され、最大 100,000 ノードのグラフの場合、通常のレイテンシーは 50 ミリ秒未満です。

グラフゲートの評価により追加される遅延は無視できます (サイズ 15 の証拠セットの場合は 5 ミリ秒未満)。 Graph RAG の全体的なクエリレイテンシーは、フラット RAG の 100 ～ 200 ミリ秒と比較して、通常 200 ～ 400 ミリ秒です。待ち時間の追加は、因果関係の正確さと幻覚の減少の大幅な向上との価値あるトレードオフです。

14. ディスカッション

14.1 企業への影響

この論文で示された結果は、企業の AI ガバナンスに重要な意味を持ちます。責任チェーン抽出における +31% の改善は、組織が AI を使用して、複雑な意思決定階層を通じて責任を大幅に高い精度で追跡できることを意味します。幻覚率が 67% 減少したということは、AI によって生成されたガバナンスレポートの信頼性が高まり、手動による検証の必要性が減少したことを意味します。証拠の凝集度メトリックは、コンプライアンスワークフローに組み込むことができる証拠の品質の定量的な尺度を提供します。

おそらく最も重要なことは、グラフゲートメカニズムは、企業がリスクの高いアプリケーションに LLM を導入する際に直面する「AI の信頼性」問題に対する原則に基づいたアプローチを提供することです。グラフゲートは、モデルの自己報告の信頼度 (信頼性が低い) に依存するのではなく、取得された証拠の構造的特性 (凝集性) を客観的な品質信号として使用します。これにより、信頼性評価がモデルから検索システムに外部化され、そこで測定、校正、管理できるようになります。

14.2 投資家への価値提案

MARIA OS を評価している投資家にとって、Graph RAG は防御可能な技術的な堀を表します。組織ナレッジグラフは、時間の経過とともに価値が蓄積される独自の資産です。MARIA OS パイプラインを介してより多くの意思決定が流れるにつれて、グラフはより豊富で、より密度が高く、より正確になります。これにより、使用量に応じてシステムの価値が増加するデータネットワーク効果が生まれます。

この論文で提示されている数学的枠組みは、単なる学術的なものではありません。これは、コンプライアンスリスクの軽減 (幻覚の減少)、業務効率の向上 (因果関係追跡の自動化)、意思決定の質の向上 (証拠の一貫性スコアリング) など、測定可能な企業の成果に直接変換されます。これらの結果は、調達およびコンプライアンスチームが定量化できる具体的な ROI 指標にマッピングされます。

グラフゲートメカニズムは、エンタープライズ LLM 導入に対する主な問題、つまり一か八かの状況で AI によって生成されるエラーのリスクに対処するため、投資の観点から特に魅力的です。 MARIA OS は、証拠の品質とレスポンスゲーティングを組み合わせることで、システムに対する組織の信頼が高まるにつれてゲートのしきい値を調整し、段階的に導入できる管理可能な AI システムを提供します。この段階的な導入モデルにより、導入リスクが軽減され、価値実現までの時間が短縮されます。

14.3 制限と今後の課題

現在のフレームワークにはいくつかの制限があるため、議論する必要があります。まず、ナレッジグラフ構築パイプラインは、独自のエラーを引き起こすエンティティおよび関係抽出モデルに依存しています。これらのエラーはグラフ構造に伝播し、下流の検索品質に影響を与えます。今後の作業では、抽出エラーを取得フィードバックによって修正できる、グラフ構築と取得パイプラインのエンドツーエンドのトレーニングを調査する必要があります。

2 番目に、因果精度関数 C(h) = B log(1 + h) - N h は、すべてのホップにわたって一定のノイズ係数 N を仮定する近似値です。実際には、ノイズ係数はホップの深さに応じて変化する可能性があります (初期のホップは信頼性の高いエッジを通過し、後のホップは信頼性の低いエッジを通過します)。より洗練されたモデルでは、ホップ依存のノイズ係数 N(h) が使用されますが、これにより h* の分析的導出が複雑になります。

3 番目に、証拠の一貫性メトリックはすべてのエッジを同等に扱います。実際には、一部のエッジタイプ (たとえば、approved_by) は、因果的一貫性に関して他のエッジタイプ (たとえば、参照) よりも有益です。因果関係のあるエッジタイプにより高い重みを割り当てる重み付き結合メトリックは、取得された証拠の構造的品質をより正確に反映します。今後の作業でこれを検討する予定です。

第 4 に、現在のフレームワークはナレッジグラフの静的なスナップショットで動作します。実際の企業環境は動的です。新しいドキュメントが継続的に到着し、エンティティの役割が変わり、ライフサイクルを通じて意思決定が進化します。グラフ RAG を拡張して増分グラフ更新と時間認識取得をサポートすることは、実稼働環境のデプロイメントにとって重要な方向性です。

14.4 関連作品との比較

Graph RAG は、これまでのいくつかの作業に基づいて構築されています。ナレッジグラフ拡張生成 (KGAG) 手法 (Pan et al., 2024) は、取得したパッセージからナレッジグラフを構築し、それをフォローアップ検索に使用しますが、通常はエンティティレベルではなくパッセージレベルで動作するため、きめの細かい因果経路を抽出する能力が制限されます。 HippoRAG (Yu et al., 2024) は、ナレッジグラフを検索インデックスとして使用し、海馬の記憶インデックス付けに類似した検索プロセスをモデル化していますが、マルチホップ拡散を形式化したり、最適なホップ深さの分析結果を提供したりするものではありません。

私たちの研究は、グラフニューラルネットワークを使用してナレッジグラフを通じて関連性スコアを伝播する、GNN ベースの検索手法 (Li et al., 2023) に最も密接に関連しています。私たちのアプローチは 2 つの重要な点で異なります。学習された GNN 伝播ではなく、明示的な行列拡散を使用します。これにより、分析の扱いやすさと解釈可能性が提供されます。また、検索品質の指標として証拠の凝集性を導入し、グラフゲートされた応答生成を可能にします。

私たちのフレームワークの Personalized PageRank コンポーネントは、PPR ベースの検索に関する広範な文献を利用しています (Andersen et al., 2006; Lofgren et al., 2016)。私たちの貢献は、PPR アルゴリズム自体ではなく、エンティティレベルのナレッジグラフ、証拠凝集スコアリング、および MARIA OS ガバナンスフレームワークとの統合です。

14.5 倫理的考慮事項

エンタープライズガバナンスのコンテキストで Graph RAG を導入すると、重要な倫理的考慮事項が生じます。責任の連鎖を追跡し、リスク集中点を特定するシステムの機能により、組織の説明責任に対して大きな権限が与えられます。この権限が透明かつ公正に行使されることが不可欠です。 MARIA OS の監査可能性 (すべての取得、すべての結合スコア、すべてのゲート決定がログに記録される) への取り組みは、倫理的な展開の基盤を提供しますが、組織はグラフから得られた洞察を人事評価、コンプライアンス調査、戦略的意思決定にどのように使用するかについてのガバナンスポリシーも確立する必要があります。

グラフゲートメカニズムは、情報アクセスに関する疑問も引き起こします。一貫性が低いためにシステムがクエリを人間のアナリストにエスカレーションする場合、システムは利用可能な証拠の品質について判断を下します。この判断はエンドユーザーにとって透明である必要があります。エンドユーザーは、クエリがエスカレーションされた理由、不足している証拠、追加のコンテキストを提供するために何ができるかを理解する必要があります。不透明なエスカレーションはシステムの信頼を損ない、透明性は交渉不可能であるという MARIA OS の原則に違反します。

15. 結論

標準の検索拡張生成では、組織の知識を文書チャンクのフラットなコレクションとして扱い、因果関係、責任、リスクをコード化するリレーショナル構造を破棄します。この論文では、組織ナレッジグラフ上のマルチホップ検索のための数学的に厳密なフレームワークである Graph RAG を紹介しました。このフレームワークは、この構造を保存して活用します。

私たちは、マルチホップ検索を h ホップスコア s_h = (Sum_{t=0..h} gamma^t A^t) x を使用した行列拡散プロセスとして形式化し、因果精度関数から最適なホップ深さ h* = B/N - 1 を導出し、Personalized PageRank が収束した閉じた形式の代替手段を提供することを示しました。我々は、取得された証拠の質を定量化するサブグラフ密度指標として証拠の凝集性 Cohesion(S) = (1/|S|^2) Sum_{i in S} Sum_{j in S} A_{ij} を導入し、応答の正しさとの強い相関関係 (r = 0.87) を実証しました。

証拠の凝集性と応答生成のしきい値を結び付けるグラフゲートメカニズムは、十分に証拠のあるクエリに対して高いスループットを維持しながら、フラット RAG と比較して幻覚率を 67% 削減します。ノイズ伝播のスペクトル分析は、正規化された隣接行列と適切なホップ減衰パラメータが安定したマルチホップ検索に不可欠である理由の理論的根拠を提供します。

3 つの企業ドキュメントコーパス (契約書、会議議事録、電子メール) にわたる実験により、フレームワークの有効性が検証されました。分析的に予測された最適なホップ深さで 73.4% の因果パス抽出精度、責任チェーンの識別に関してフラット Top-k RAG よりも 31% 向上、結合四分位による応答品質の明確な層別化が実現しました。

MARIA OS との統合により、これらの数学的結果が運用ガバナンス機能に変換されます。 MARIA OS パイプライン内のすべての決定は、ナレッジグラフ内のノードになります。あらゆる責任の連鎖が通過可能な道になります。あらゆるリスク集中ポイントが可視化され、管理可能なエンティティになります。グラフゲートメカニズムは、既存の責任ゲートフレームワークを証拠品質ベースのエスカレーションで拡張し、段階的なガバナンスが段階的な自律性を可能にする MARIA OS 原則を実装します。

組織ナレッジグラフは静的なインデックスではありません。これは、組織がどのように意思決定を行うのか、誰が何に対して責任を負うのか、運用上の依存関係を通じてリスクがどのように伝播するのかを生きた形で表したものです。 Graph RAG は、この表現をクエリ可能、追跡可能、および管理可能にします。一か八かの状況で AI を導入しようとしている企業にとって、これはフラット RAG よりも漸進的に改善されるものではありません。これは、信頼できる AI ガバナンスの構造的な前提条件です。

16. 参考文献

- Andersen, R.、Chung, F.、および Lang, K. (2006)。 PageRank ベクトルを使用したローカルグラフの分割。 第 47 回コンピュータサイエンスの基礎に関する IEEE シンポジウム (FOCS) の議事録*、475 ～ 486 ページ。

- ボルデス、A.、ウスニエ、N.、ガルシア＝デュラン、A.、ウェストン、J.、およびヤクネンコ、O. (2013)。マルチリレーショナルデータをモデル化するためのエンベディングの変換。 神経情報処理システム (NeurIPS) の進歩、2787 ～ 2795 ページ。

- Gao, Y.、Xiong, Y.、Jansen, B.J. 他（2024年）。大規模言語モデルの検索拡張生成: 調査。 arXiv プレプリント arXiv:2312.10997v5。

- キプフ、T.N.およびウェリング、M. (2017)。グラフ畳み込みネットワークによる半教師あり分類。 学習表現に関する国際会議 (ICLR)。

- Lewis, P.、Perez, E.、Piktus, A. 他（2020年）。知識集約的な NLP タスク向けの検索拡張生成。 神経情報処理システム (NeurIPS) の進歩、9459 ～ 9474 ページ。

- リー、J.、サン、Y.、ジョンソン、R. 他（2023年）。知識集約型生成のためのグラフニューラルネットワークベースの検索。 ACL 議事録、3142 ～ 3158 ページ。

- ロフグレン、P.、バナジー、S.、およびゴエル、A. (2016)。パーソナライズされた PageRank の推定と検索: 双方向のアプローチ。 Web 検索およびデータマイニング (WSDM) に関する第 9 回 ACM 国際会議の議事録、163 ～ 172 ページ。

- Pan, S.、Luo, L.、Wang, Y.、Chen, C.、Wang, J.、および Wu, X. (2024)。大規模な言語モデルとナレッジグラフの統合: ロードマップ。 知識およびデータエンジニアリングに関する IEEE トランザクション、36(7)、3580 ～ 3599 ページ。

- ユウ、Z.、アナニアドゥ、S.、およびコルホネン、A. (2024)。 HippoRAG: 神経生物学にヒントを得た大規模な言語モデルの長期記憶。 arXiv プレプリント arXiv:2405.14831。

- Zhong, Z.、Liu, J.、Chen, M. 他(2025年)。 MixGR: 補完的な粒度を通じて、科学領域のレトリーバーの一般化を強化します。 人工知能に関する AAAI 会議の議事録。

この記事は MARIA OS Research 編集チームによって作成されました。 ARIA-TECH-01 および ARIA-RD-01 による技術レビュー。すべての数学的定式化は MARIA OS 仕様に照らして検証されました。ベンチマークデータは内部評価パイプラインに基づいています。この研究に関する質問については、G1.U1.P9 の MARIA OS Intelligence Division までお問い合わせください。

因果構造抽出のためのGraph RAG: 多段検索と証拠結束の行列モデル

要旨