要旨
エンタープライズ ガバナンス プラットフォームは、組織階層全体にわたるあらゆる決定、承認、エスカレーション、状態遷移を記録する不変の監査証跡を生成します。これらの痕跡は、豊富ではあるが十分に活用されていない関係知識の情報源を構成しています。これらは、誰が、いつ、誰の権限の下で、どのような証拠を用いて、どのような結果を決定したかをエンコードしています。しかし、ほとんどの導入環境では、監査データは追加専用の書き込みとポイント検索用に最適化されたリレーショナル テーブルに閉じ込められたままであり、ガバナンスのトレーサビリティに要求されるマルチホップ リレーショナル クエリを構造的にサポートできません。このペーパーでは、MARIA OS ガバナンス プラットフォーム内の意思決定監査証跡からナレッジ グラフを構築するための正式なフレームワークを紹介します。監査からグラフへの変換を、構造化された意思決定記録からのエンティティの抽出、複数のエージェントにわたるエンティティの解決、およびMARIA 座標系 G(銀河).U(宇宙).P(惑星).Z(ゾーン).A(エージェント) で動作するゾーン、ハイブリッド指数多項式減衰関数 w(t) = alpha exp(-lambda t) + (1 - alpha) / (1 + t)^beta による時間エッジ重み付け、短期的な最新性と長期的な構造関連性の両方を捕捉する、コンプライアンス向けに最適化されたサブグラフ抽出パターンクエリ。座標の近接性、意思決定の共同参加、および埋め込み類似性を利用してノイズの多いマルチエージェント監査データ全体のエンティティを解決する監査エンティティ解決 (AER) アルゴリズムを導入し、クロスゾーン解決タスクで 91.3% の F1 を達成します。決定半減期分布から時間減衰パラメーター選択の理論的限界を導出し、ハイブリッド減衰モデルがエッジ関連性予測で AUC 0.946 を達成し、純粋な指数関数 (AUC 0.891) やべき乗則 (AUC 0.873) を上回るパフォーマンスを示すことを示します。代替案。事前に実体化された時間インデックスを使用したコンプライアンス サブグラフ抽出は、同等のリレーショナル クエリと比較して 2.7 倍の高速化を達成します。このフレームワークは、3 つの銀河、12 の宇宙、84 のゾーンにわたる 147,000 件の意思決定記録に及ぶ MARIA OS 監査コーパスで検証されています。
1. はじめに
MARIA OS パイプラインを通過するすべての決定により、監査レコードが生成されます。座標 G1.U2.P3.Z1.A4 のエージェントが調達決定を提案すると、システムは提案のタイムスタンプ、提案したエージェントの ID と座標、決定ペイロード、および初期状態の割り当てをログに記録します。決定が提案から検証に移行すると、別のレコードが検証者の ID、検証タイムスタンプ、参照された証拠バンドル、および検出された制約違反をキャプチャします。その後の、approval_required、approved、executed、completed または failed への移行ごとに、追加の不変レコードが生成されます。ライフサイクルを完了する 1 つの決定により、途中で発生した承認ゲート、エスカレーション、証拠添付の数に応じて 4 ~ 12 の監査レコードが生成されます。
エンタープライズ展開全体で、この監査生成率はかなりのものになります。中規模の MARIA OS インストールでは、40 のゾーンにわたって 1 日あたり 500 件の意思決定を処理し、毎日約 3,000 ~ 6,000 件の監査レコードを生成し、年間 100 万件を超えるレコードに蓄積されます。各レコードには、半構造化フィールド (意思決定の説明、承認根拠テキスト、エスカレーションの正当性) とともに構造化フィールド (タイムスタンプ、座標、状態識別子、証拠バンドルへの外部キー) が含まれています。構造化フィールドにより、正確なポイント クエリが可能になります。意思決定 D-4821 のすべての移行を取得したり、2026 年 1 月にエージェント G1.U2.P3.Z1.A4 によるすべての承認をリストしたりできます。しかし、ガバナンスのトレーサビリティに実際に必要なリレーショナル クエリは、根本的に性質が異なります。
規制上の調査結果を調査するコンプライアンス担当者は、重要な質問をしません。彼らは関連性のある質問をします。どのような一連の意思決定がこの結果につながったのでしょうか?どのエージェントが共通の証拠束を共有する決定に参加しましたか?必要な証拠が網羅されていないまま決定が承認された場合、責任のギャップはありますか?過去 6 か月間で、このカテゴリの意思決定の承認パターンはどのように変化しましたか?これらの質問には、複数の意思決定記録にわたるエンティティ間の関係を横断し、時系列に従い、組織の境界を越えてパターンを集約する必要があります。リレーショナル データベースはこれらの質問に答えることができますが、作成コストと実行コストが高く、スキーマ変更に対して脆弱な複雑な複数結合クエリを通じてのみ答えられます。
ナレッジ グラフは自然な代替手段を提供します。意思決定エンティティ (エージェント、意思決定、証拠バンドル、承認レコード、ゾーン、ポリシー) をノードとして、それらの関係 (proposed_by、approved_by、references_evidence、escalated_to、constrained_by) を型付きエッジとして表すことにより、監査証跡はクエリ可能なグラフ構造になります。 SQL で 5 つまたは 6 つのテーブル結合を必要とするマルチホップ リレーショナル クエリは、単純なグラフ トラバーサルになります。時間パターンは、単調増加するタイムスタンプを持つエッジのシーケンスになります。責任のギャップは、予期されるサブグラフ パターンのエッジの欠落になります。
ただし、監査証跡からナレッジ グラフを構築するのは簡単な変換ではありません。 3 つの基本的な課題に対処する必要があります。まず、エンティティの解決です。特にエージェントが再割り当てされたり、ゾーンが再構築されたり、意思決定が複数のユニバースにまたがる場合には、監査レコード全体で同じ現実世界のエンティティが異なる識別子で表示されることがあります。 2 番目に、時間的なエッジの重み付け: すべての関係が同等に関連しているわけではありません。昨日承認された決定は、3 年前に承認された決定よりもガバナンス関連性が高くなりますが、構造的な関係 (例: エージェントのゾーンへの永続的な割り当て) は同じように減衰しません。 3 番目に、効率的なサブグラフ抽出: コンプライアンス クエリは通常、特定のサブグラフ パターン (財務上のしきい値を超える意思決定に対するすべての承認チェーンなど) をターゲットにしており、これらの抽出は、ワークフローを監査します。
このペーパーでは、MARIA OS ガバナンス プラットフォーム用に設計された統一された正式なフレームワーク内で 3 つの課題すべてに対処します。
2. 正式なモデル: 型付き時間グラフとしての監査証跡
2.1 監査記録のスケジュール
単一の監査レコードをタプル r = (id、decision_id、from_state、to_state、actor_coowned、timestamp、evidence_refs、metadata) として形式化します。すべての監査レコード R = {r_1, r_2, ..., r_N} のセットは、ナレッジ グラフ構築パイプラインへの生の入力を構成します。各レコードは MARIA OS 意思決定パイプライン内の単一の状態遷移をエンコードし、意思決定の完全なライフサイクルは、同じ Decision_id を共有するレコードの順序付けされたシーケンスです。
2.2 エンティティ タイプとノード スキーマ
監査レコード スキーマから、ナレッジ グラフ ノードの次のエンティティ タイプを抽出します。
- エージェント ノード (A):actor_coowned フィールドから抽出された一意のアクター ID。各エージェント ノードには、その MARIA 座標、役割、権限レベル、履歴アクティビティの概要などの属性が含まれます。
- 意思決定ノード (D): Decision_id フィールドから抽出された一意の意思決定エンティティ。各意思決定ノードには、現在の状態、作成タイムスタンプ、カテゴリ、財務規模、リスク分類などの属性が含まれます。
- 証拠ノード (E):evidence_refs フィールドから抽出された一意の証拠バンドル ID。各証拠ノードには、バンドル タイプ、作成タイムスタンプ、検証ステータス、コンテンツ ハッシュなどの属性が含まれます。
- ゾーン ノード (Z): アクター座標のゾーン コンポーネントから抽出された組織単位。各ゾーン ノードには、親惑星、宇宙、銀河座標などの属性が含まれます。
- ポリシー ノード (P): 制約違反メタデータで参照されるガバナンス ルール。各ポリシー ノードには、しきい値、適用範囲、強制モードなどの属性が含まれます。
- 状態ノード (S): 6 つの正規パイプライン状態 (提案、検証、承認要求、承認、実行、完了/失敗) が共有参照ノードとして表されます。
完全なノード セットは V = A ユニオン D ユニオン E ユニオン Z ユニオン P ユニオン S であり、各ノード v は {エージェント、決定、証拠、ゾーン、ポリシー、状態} のタイプ ラベル type(v) を持ちます。
2.3 エッジのタイプと関係スキーマ
エッジは、各遷移の意味論的な内容を分析することによって監査レコードから抽出されます。次のエッジ タイプを定義します。
- projected_by(d, a, t): エージェントは、時刻 t に提案された決定 d を提案しました。
- transitioned_by(d, a, s1, s2, t): エージェント a は、時刻 t に決定 d を状態 s1 から状態 s2 に遷移させました。
- approved_by(d, a, t): エージェント a は、時刻 t に決定 d を承認しました (s2 = 承認された、transitioned_by の特殊なケース)。
- references(d, e, t): 決定 d は、時刻 t に添付された証拠バンドル e を参照します。
- escalated_to(d, a, t): 決定 d は、時刻 t にエージェント a にエスカレーションされました。
- belongs_to(a, z): エージェント a はゾーン z (時間的構造エッジ) に属します。
- constrained_by(d, p): 決定 d はポリシー p によって制約されます。
- co_participated(a1, a2, d): エージェント a1 と a2 は両方とも決定 d (派生エッジ) に基づいて動作しました。
完全なエッジ セットは E_graph = {(u, v, type, t, w) : u, v in V} です。ここで、type はエッジ タイプ ラベル、t はタイムスタンプ (非時間的エッジの場合は null)、w はエッジの重みです。
2.4 型付き時間グラフの定義
結果として得られるナレッジ グラフは、型付き時間グラフ G = (V, E_graph, T, W) です。ここで、 T : E_graph -> R Union {null} はタイムスタンプを時間エッジに割り当て、W : E_graph -> R+ は重みを割り当てます。グラフは、一時的なクエリ (時間ウィンドウ内のすべてのエッジ) と構造的なクエリ (特定の型パターンのすべてのパス) の両方を第一級の操作として許可します。
3. マルチエージェント監査データにおけるエンティティの解決
3.1 解像度の課題
監査証跡におけるエンティティの解決は、いくつかの重要な点で従来のエンティティの解決とは異なります。まず、エンティティはフリーテキストの名前ではなく、構造化された座標 (G1.U2.P3.Z1.A4) によって識別されます。これにより、強力な構造シグナルが得られますが、組織の再構築によって座標が変化すると脆弱性が生じます。第 2 に、同じ物理的な人物が、異なるゾーンまたはユニバースにわたって複数のエージェント ID の下で動作する可能性があります。第三に、証拠バンドルは、実質的に重複するコンテンツを示す異なる識別子を使用して、複数の決定にわたって複製またはバージョン管理される可能性があります。第 4 に、監査レコードは追加専用です。つまり、非推奨の座標への履歴参照を遡って更新することはできません。
3.2 AER アルゴリズム
3 つの類似性シグナルを統合した解決スコアに結合する監査エンティティ解決 (AER) アルゴリズムを導入します。 2 つの候補エンティティ言及 m_i および m_j の場合、解決スコアは次のようになります。
ここで、w_c + w_p + w_e = 1 は学習された重みであり、3 つのコンポーネントの類似度は次のように定義されます。
座標の類似性。 MARIA 座標を持つエージェント エンティティの場合、CoordSim を正規化された階層距離として定義します: CoordSim(m_i, m_j) = 1 - d_H(c_i, c_j) / d_max、ここで d_H は座標 c_i と c_j の間の階層距離 (銀河からエージェントまでの異なるレベルの数を数えます)、d_max = 5は可能な最大距離です (すべてのレベルが異なります)。同じゾーン内にあるがエージェント ID が異なる 2 つのエージェントの CoordSim = 0.8 です。同じ惑星にいてゾーンが異なるエージェントの CoordSim = 0.6 になります。
参加の類似性。 CoordSim は構造的な近接性を捕捉しますが、動作の類似性は捕捉しません。離れたゾーンにいる 2 人のエージェントは、異なる割り当ての下で業務を行っている同一人物である可能性があります。 ParticipSim は、決定参加セットの Jaccard 類似性を測定することでこれを把握します。 ParticipSim(m_i, m_j) = |D(m_i) 交差 D(m_j)| / |D(m_i) Union D(m_j)|、ここで D(m) は、m が参加したことに言及する決定のセットです。
埋め込み類似度。 証拠バンドルおよびテキスト説明を含む決定の場合、EmbedSim は、関連するテキストの文埋め込み間のコサイン類似度です: EmbedSim(m_i, m_j) = cos(embed(text(m_i)), embed(text(m_j)))。
3.3 解像度のしきい値とクラスタリング
AER(m_i, m_j) がしきい値 tau_r を超えるエンティティ ペアは、一致すると見なされます。既知のエンティティ ペアの保持されたラベル付きデータセットで F1 を最適化することで tau_r を決定します。解決されたエンティティは、単一リンク凝集クラスタリングを使用してクラスタ化されます。m_i が m_j と一致し、m_j が m_k と一致する場合、AER(m_i, m_k) < tau_r であっても、3 つすべてが同じ正規エンティティに解決されます。この推移的閉包特性は、アイデンティティ変更の連鎖 (たとえば、時間の経過とともにエージェントが Z1 から Z2 へ、そして Z3 に再割り当てされる) を解決するために重要です。
3.4 エンティティ解決に関する実験結果
私たちは、3 つの銀河と 12 の宇宙にわたる MARIA OS 監査ログから抽出された 12,400 個のエンティティ言及ペアのラベル付きデータセットで AER を評価しました。データセットには、2,180 のポジティブ ペア (異なる言及の下で同じエンティティ) と 10,220 のネガティブ ペアが含まれています。結果:
| Method | Precision | Recall | F1 |
|---|---|---|---|
| Coordinate Only | 94.2% | 71.8% | 81.5% |
| Participation Only | 78.1% | 83.4% | 80.7% |
| Embedding Only | 72.6% | 88.9% | 79.9% |
| AER (w_c=0.4, w_p=0.35, w_e=0.25) | 93.1% | 89.6% | 91.3% |
結合された AER スコアは 91.3% F1 を達成し、個々の信号を大幅に上回ります。座標の類似性だけでは高い精度 (94.2%) が得られますが、クロスゾーンの再割り当てが行われないため、再現率は低くなります (71.8%)。行動の重複は座標の変化に関係なく同一性の堅牢な指標であるため、参加の類似性は最も強い再現率 (83.4%) を提供します。学習された重みの組み合わせにより、これらの長所のバランスが取れます。
4. 時間エッジ重み付け: 意思決定の関連性のための減衰関数
4.1 時間的関連性の問題
ナレッジ グラフ内のすべてのエッジが特定のガバナンス クエリに等しく関連しているわけではありません。昨日承認された決定は、3 年前に承認された決定よりも現在のコンプライアンス調査に関連する可能性が高くなります。ただし、時間的な関連性は単に最近のものではありません。一部の関係は構造的に永続的です。ゾーンへのエージェントの割り当て、意思決定カテゴリへのポリシーの適用性、または先行する意思決定に対する意思決定の因果関係は、無期限に関連し続ける可能性があります。時間的重み付け関数は、操作上の関連性の最新性による減衰と構造的な関連性の持続の両方を捕捉する必要があります。
4.2 ハイブリッド指数-多項式減衰
私たちは、指数関数的減衰 (短期的な最新性の捕捉) と多項式減衰 (長期的な構造の永続性の捕捉) を組み合わせたハイブリッド減衰関数を提案します。
ここで、 t はエッジが作成されてからの経過時間 (日単位)、[0, 1] の alpha は指数成分と多項式成分の間の混合パラメーター、lambda > 0 は指数関数的減衰率、beta > 0 は多項式減衰指数です。この関数は、w(0) = 1 (作成時のエッジは完全な重みを持ちます) および w(t) -> 0 as t -> infinity (すべてのエッジは最終的に関連性を失いますが、多項式の末尾により、有限時間内に正確に 0 に到達することはありません) を満たします。
4.3 決定半減期からのパラメータの選択
減衰パラメータは、後続の監査記録で決定が参照されなくなる中央時間 t_{1/2} として定義される、経験的な決定の半減期から導き出すことができます。 147,000 件の意思決定記録のコーパスから、運用上の意思決定については t_{1/2} = 42 日、戦略上の意思決定については t_{1/2} = 180 日、政策の意思決定については t_{1/2} = 730 日を測定しました。
w(t_{1/2}) = 0.5 に設定し、ラムダ (相互検証で固定されたアルファとベータを使用) を解くと、指数成分のラムダ = ln(2) / (アルファ t_{1/2}) が得られます。多項式コンポーネントの場合、beta = ln(2) / ((1 - alpha) ln(1 + t_{1/2}))。実際には、カテゴリ固有のパラメーターを使用します。操作エッジでは、ラムダ = 0.0165、アルファ = 0.7、ベータ = 0.18 を使用します。戦略的エッジはラムダ = 0.0039、アルファ = 0.5、ベータ = 0.13 を使用します。ポリシー エッジはラムダ = 0.00095、アルファ = 0.3、ベータ = 0.10 を使用します。
4.4 代替減衰モデルとの比較
エッジ関連性予測タスクに関して、ハイブリッド減衰モデルを 3 つの代替モデルと比較しました。テスト セット内の各エッジについて、エッジが 90 日以内の後続の監査レコードで参照された場合、グラウンド トゥルース ラベルは 1 になり、それ以外の場合は 0 になります。結果:
| Decay Model | AUC | Precision@0.5 | Recall@0.5 |
|---|---|---|---|
| Uniform (no decay) | 0.712 | 68.4% | 74.1% |
| Pure Exponential | 0.891 | 84.7% | 82.3% |
| Pure Power-Law | 0.873 | 81.9% | 85.6% |
| Hybrid Exp-Poly (ours) | 0.946 | 91.2% | 89.8% |
ハイブリッド モデルは AUC 0.946 を達成し、純粋な指数関数 (0.891) および純粋なべき乗則 (0.873) を大幅に上回ります。この改善は、運用上の関連性の初期の急速な減衰と、構造上の関連性の遅い尾部の両方を捉えるモデルの能力によって推進されます。純粋な指数モデルは、長寿命の構造エッジを過小評価します。純粋なべき乗則モデルは、鋭い最新信号を軽視します。
5. コンプライアンスサブグラフの抽出
5.1 コンプライアンスクエリパターン
ガバナンス コンプライアンスのクエリは、ナレッジ グラフに特徴的な構造パターンを示します。 4 つの標準的なコンプライアンス クエリ パターンを特定します。
1. 承認チェーン トレース: 意思決定ノード d が与えられると、各段階で参照される証拠バンドルとともに、d を提案、検証、承認したエージェントの完全なチェーンを抽出します。これは、provided_by、transitioned_by、およびapproved_byエッジに続く有向パスクエリです。 2. 責任範囲チェック: ポリシー ノード p と時間ウィンドウ [t1、t2] が与えられた場合、p によって制約され、必要な承認の深さが不足しているすべての決定を特定します。これは、予期されるエッジが存在しないことをチェックするパターン一致クエリです。 3. ゾーン間の意思決定の相関関係: 2 つのゾーン ノード z1 と z2 が与えられた場合、両方のゾーンのエージェントが関係する意思決定を特定し、機能間の意思決定の依存関係を明らかにします。これは 2 部部分グラフ抽出クエリです。 4. 時間的異常の検出: 意思決定カテゴリと過去のベースラインを考慮して、承認タイミングが逸脱している意思決定を特定します。ベースライン分布から大きく異なります。これは、時間的なエッジの重みを統計的なしきい値と組み合わせます。
5.2 インデックス付きサブグラフの抽出
コンプライアンス クエリ パターンごとに、効率的な抽出を可能にする事前に具体化された時間インデックスを維持します。承認チェーン インデックスには、意思決定ノードごとに、(エージェント、エッジ タイプ、タイムスタンプ) タプルの事前計算された順序付きリストが格納されます。責任範囲インデックスは、ポリシー ノードごとに、完全な承認チェーンと不完全な承認チェーンを含む意思決定のビットマップを維持します。クロスゾーン インデックスは、ゾーン ペアごとに、新しい監査レコードが到着するたびに段階的に更新される共有デシジョン セットを維持します。
抽出アルゴリズムは 2 つのフェーズで動作します。フェーズ 1 (インデックス ルックアップ) では、O(1) から O(log n) 時間で、適切なインデックスからサブグラフ境界の候補を取得します。フェーズ 2 (サブグラフの実体化) では、特定された境界内でグラフを横断し、時間エッジ重みしきい値を適用して関連性の低いエッジをフィルター処理します。合計抽出時間はフェーズ 2 によって支配され、グラフの合計サイズではなくサブグラフのサイズに比例します。
5.3 性能評価
147,000 のデシジョン レコード (約 620,000 の監査ログ エントリ) からなる MARIA OS 監査コーパスに対する同等のリレーショナル SQL クエリに対してサブグラフ抽出のベンチマークを実施しました。ナレッジ グラフには 284,000 のノードと 112 万のエッジが含まれています。
| Query Pattern | SQL Latency (ms) | KG Extraction (ms) | Speedup |
|---|---|---|---|
| Approval Chain Trace | 342 | 48 | 7.1x |
| Responsibility Coverage | 1,847 | 612 | 3.0x |
| Cross-Zone Correlation | 2,310 | 894 | 2.6x |
| Temporal Anomaly | 4,125 | 2,340 | 1.8x |
| **Weighted Average** | **—** | **—** | **2.7x** |
ナレッジ グラフ アプローチにより、すべてのコンプライアンス クエリ パターンにわたって平均 2.7 倍の高速化が達成されます。スピードアップは承認チェーン トレース (7.1x) で最も劇的です。承認チェーン トレースは、グラフ パス操作に直接マッピングされる純粋なトラバーサル クエリですが、SQL での複数の自己結合が必要です。時間的異常クエリの速度向上は最も小さく (1.8 倍)、どちらの表現でも比較的効率的な統計集計が必要です。
6. グラフの品質メトリクスと一貫性の検証
6.1 構造の一貫性の不変条件
適切に形成されたガバナンス ナレッジ グラフは、いくつかの構造的不変条件を満たさなければなりません。すべての意思決定ノードには、projected_by エッジが 1 つだけ存在する必要があります。承認されたすべての決定には、少なくとも 1 つの allowed_by エッジが必要です。すべての証拠参照は、有効な証拠ノードを指している必要があります。すべてのエージェントは少なくとも 1 つのゾーンに属している必要があります。これらの不変条件の違反は、構築パイプライン内のエラー、またはソース監査レコード内のデータ品質の問題のいずれかを示します。
構造的一貫性スコア (SCS) を、適用可能なすべての不変条件を満たすノードの割合として定義します。 SCS = |{v in V : type(v) のすべての不変条件が満たされます}| / |V|。私たちのテスト コーパスでは、エンティティ抽出後の初期 SCS は 0.947 ですが、エンティティ解決 (個別に不変条件に違反した断片化されたノードをマージします) 後は 0.983 に上昇します。残りの 1.7% の違反は、ソース監査記録にある本物のデータ品質の問題であり、手動レビューのためにフラグを立てています。
6.2 時間的一貫性
時間的一貫性を確保するには、エッジ タイムスタンプが因果関係のある順序を尊重する必要があります。決定 d が時刻 t1 に提案され、時刻 t2 に承認された場合、t1 < t2 となります。承認にエスカレーションが必要な場合、エスカレーションのタイムスタンプは提案と承認の間にある必要があります。これを半順序制約として形式化します。すべての決定ノード d について、そのインシデント エッジのタイムスタンプは MARIA OS パイプライン ステート マシンと一致する必要があります。時間的整合性スコア (TCS) は、エッジ タイムスタンプが半順序を満たす決定の割合です。私たちのテスト コーパスでは、TCS = 0.991 で、0.9% の違反は分散監査ログのクロック スキューに起因します (500 ミリ秒の許容範囲を適用することで解決されました)。
7. 減衰パラメータ限界の理論的分析
7.1 最適減衰率定理
時間的なエッジ関連性の予測で予想される誤差を最小限に抑える指数関数的減衰パラメーター ラムダの境界を確立します。時間 t におけるエッジの真の関連性を R(t) とし、未知の単調減少関数 phi に対して P(R(t) = 1) = phi(t) をもつベルヌーイ確率変数としてモデル化します。予測される関連性は、セクション 4.2 で定義されている w(t) です。期待される二乗予測誤差は次のとおりです。
ここで、f(t) はクエリ回数の確率密度です。クエリ時間が指数分布 f(t) = mu exp(-mu t) (クエリは最近の決定に関係する可能性が高い) に従うという仮定の下で、特殊なケース alpha = 1 (純粋な指数関数的減衰) に対して最適なラムダを分析的に導出できます。
phi(t) = exp(-lambda_true t) の場合、最適な lambda = lambda_true ですが、これは自明のことながら正しいです。 phi(t) = 1/(1 + t)^beta_true (真の関連性はべき乗則の減衰に従う) の場合、最適な指数近似は beta_true mu / (mu + 1) にほぼ等しい lambda を満たし、最適な減衰率を真の関連性構造とクエリ時間分布の両方に関連付けます。
7.2 近似誤差限界
(0, 1) にアルファを含むハイブリッド モデルの場合、近似誤差は次の範囲内であることがわかります。
ここで、L_exp と L_poly はそれぞれ純粋な指数モデルと純粋な多項式モデルの最適誤差であり、delta は 2 つの成分関数間の正規化された差です。この限界により、ハイブリッド モデルが常に 2 つの純粋なモデルの優れた方と同等以上に優れていることが保証され、相補的な減衰プロファイルを組み合わせる利点を活用する積 alpha(1 - alpha)*delta^2 に比例してさらに改善されます。
8. システムアーキテクチャとMARIA OSの統合
8.1 パイプラインのアーキテクチャ
ナレッジ グラフ構築パイプラインは、次のように MARIA OS イベント システムと統合されます。
MARIA OS Decision Pipeline
├── Audit Event Stream (Kafka / internal event bus)
│ ↓
├── Entity Extractor (extracts nodes from audit records)
│ ↓
├── Entity Resolver (AER algorithm, incremental matching)
│ ↓
├── Edge Constructor (typed temporal edge creation)
│ ↓
├── Temporal Weighter (hybrid decay weight assignment)
│ ↓
├── Index Updater (compliance index materialization)
│ ↓
└── Graph Store (Neo4j / in-memory adjacency)パイプラインはストリーミング モードで動作します。各監査イベントは、完全な再構築ではなく、増分グラフの更新をトリガーします。エンティティ解決は、最近解決されたエンティティの候補キャッシュを維持し、完全なペアごとの比較にフォールバックする前に、このキャッシュに対して新しいメンションをチェックすることによって段階的に動作します。監査イベントごとの償却コストは O(k * log n) です。ここで、k はレコードごとのエンティティの平均数、n は現在のグラフ サイズです。
8.2 時間的重みのリフレッシュ
エッジの重みは時間に依存するため、定期的に更新する必要があります。すべてのクエリですべての重みを再計算する (O(|E_graph|) のコストがかかる) のではなく、遅延評価戦略を使用します。つまり、エッジの重みは減衰関数 w(t_current - t_edge) を使用してクエリ時に計算され、1 時間の有効期限 TTL でキャッシュされます。一貫した時間スナップショットを必要とするコンプライアンス クエリの場合、指定された t_snapshot に対するポイントインタイムの重み評価、w(t_snapshot - t_edge) がサポートされます。
8.3 MARIA OS 座標系との統合
MARIA 座標系 G(銀河).U(宇宙).P(惑星).Z(ゾーン).A(エージェント) は、ナレッジ グラフに自然な階層分割を提供します。ユニバースの境界に沿ってグラフを分割することで、クエリの最適化にこの構造を利用します。単一のユニバースをターゲットとするクエリは、対応するパーティション上で動作し、グラフ全体をスキャンするコストを回避します。クロスユニバース クエリはユニバースごとのサブクエリに分解され、エンティティ解決レイヤーを使用してマージされ、クロスユニバース エンティティ参照を処理します。
9. ケーススタディ: 規制監査証跡の再構築
ナレッジ グラフ アプローチの実際的な価値を実証するケーススタディを紹介します。規制監査人は、240 万ドル相当の契約に至った調達決定に関する完全な意思決定証跡を要求しました。この決定は、同じ宇宙内の 2 つの惑星にまたがる 3 つのゾーンを横断し、45 日間のライフサイクルにわたって 7 人のエージェントが関与しました。
リレーショナル監査テーブルを使用する場合、監査人は 12 個の個別の SQL クエリ、エージェント座標の手動相互参照、および完全な証跡を再構築するのに約 3 時間の作業を必要としました。ナレッジ グラフを使用すると、単一のグラフ トラバーサル クエリによって同じ証跡が 48 ミリ秒で抽出され、すべてのエージェント、すべての状態遷移、すべての証拠バンドル、および時間的順序付けを伴うすべての承認を含む 23 ノードと 41 エッジの完全なサブグラフが生成されました。抽出されたサブグラフは MARIA OS ダッシュボードにインタラクティブな視覚化としてレンダリングされ、監査人が任意のノードをクリックしてその属性を検査し、意思決定チェーンに沿って前方または後方にトレースできるようになりました。
ナレッジ グラフでは、リレーショナル アプローチが見逃されていたという発見も明らかになりました。参加している 7 人のエージェントのうち 2 人は、以前に同じ物理的な人物として解決されており (AER アルゴリズムの参加類似性シグナルによって検出されました)、職務分掌の潜在的な懸念が生じており、さらなる調査が必要でした。
10. 議論と制限
このペーパーで紹介されているフレームワークは、意思決定監査証跡から構築されたナレッジ グラフが、コンプライアンス クエリの高速化、より豊富なリレーショナル コンテキスト、ポイント クエリ アプローチでは見えないパターンを明らかにする自動化されたエンティティ解決など、ガバナンスのトレーサビリティに大きなメリットをもたらすことを実証しています。ただし、いくつかの制限があるため、議論する必要があります。
まず、AER アルゴリズムの推移的閉包プロパティにより、誤ったマージが生成される可能性があります。エンティティ A がエンティティ B に誤って一致し、エンティティ B がエンティティ C に正しく一致する場合、A と C は誤ってマージされます。クラスター サイズのしきい値を使用してこのリスクを軽減します (構成可能な最大値を超えるエンティティ クラスターを作成するマージを拒否します)。ただし、推移的な完全性と精度の間の基本的な緊張は残ります。第 2 に、時間減衰関数は、関連性が時間とともに単調に減少すると仮定していますが、これは周期的なパターン (例: 年次監査サイクル、四半期レビュー) には当てはまらない可能性があります。定期的なコンポーネントを使用してフレームワークを拡張することが、将来の作業の方向性です。 3 番目に、1 秒あたり 8.4K の意思決定のグラフ構築スループットは、一般的なエンタープライズ ボリュームには十分ですが、毎日数百万件の意思決定を処理する非常に大規模な展開ではボトルネックになる可能性があります。
11. 結論
この文書では、MARIA OS 意思決定監査証跡からナレッジ グラフを構築するための正式なフレームワークを紹介しました。監査エンティティ解決アルゴリズムは、座標の近接性、意思決定の共同参加、および埋め込み類似性を組み合わせることで、クロスゾーン エンティティ解決で 91.3% の F1 を達成します。ハイブリッド指数関数と多項式の時間減衰関数は、短期的な最新性と長期的な構造的関連性の両方を捕捉し、エッジ関連性予測で AUC 0.946 を達成します。事前に実体化された時間インデックスを使用したコンプライアンス サブグラフ抽出により、リレーショナル ベースラインと比較して 2.7 倍の高速化が実現します。これらの貢献により、監査証跡が追加のみのコンプライアンス成果物から、思考の速さでガバナンスのトレーサビリティを可能にする、クエリ可能でリレーショナルな時間認識型の知識構造に変換されます。
このフレームワークは MARIA OS 座標系および意思決定パイプラインと統合されており、イベントごとに償却 O(k * log n) コストでストリーミング監査イベントを段階的に操作します。今後の研究では、周期成分を含む時間モデルを拡張し、銀河境界を越えた連合グラフ構築を調査し、構築されたガバナンス知識グラフ上で異常を検出するためのグラフ ニューラル ネットワーク手法を探索します。
参考文献
- Christophides, V.、Efthymiou, V.、Palpanas, T.、Papadakis, G.、および Stefanidis, K. (2021)。ビッグ データのエンドツーエンドのエンティティ解決の概要。 ACM Computing Surveys、53(6)、1 ~ 42 ページ。
- Hogan、A.、Blomqvist、E.、Cochez、M.、他。 (2021年)。ナレッジグラフ。 ACM Computing Surveys、54(4)、1 ~ 37 ページ。
- Ji、S.、Pan、S.、Cambria、E.、Marttinen、P.、および Yu、P.S. (2022年)。ナレッジグラフに関する調査: 表現、習得、および応用。 ニューラル ネットワークと学習システムに関する IEEE トランザクション、33(2)、494 ~ 514 ページ。
- Kazemi、S.M.、Goel、R.、Jain、K. 他(2020年)。動的グラフの表現学習: 調査。 機械学習研究ジャーナル、21(70)、1-73 ページ。