Auditable Financial Decision Traceability: Evidence Graph Models for Regulatory Compliance

要旨

金融サービスにおける AI 主導の意思決定システムの普及により、監査可能性の危機が生じています。サーベンス・オクスリー法 (SOX)、バーゼル III、金融商品市場指令 II (MiFID II) などの規制枠組みでは、規制対象企業が財務諸表、自己資本比率、および顧客の注文執行に影響を与える重要な決定の完全な追跡可能性を実証することが義務付けられています。意思決定のトレーサビリティに対する従来のアプローチは、アプリケーションログ、データベース監査証跡、および手動文書に依存しています。これらのアプローチは、次の 3 つの構造的な理由により、AI 拡張環境では失敗します。(1) AI エージェントの決定は複数のシステムと時間的境界にまたがり、断片的な証拠痕跡が生成されます。 (2) 決定間の因果関係は明示的ではなく暗黙的であり、人間による再構成が必要です。 (3) 自律エージェントによって生成される意思決定の量手動監査ワークフローの容量を桁違いに超えています。

このペーパーでは、財務上の意思決定のトレーサビリティのための正式な証拠グラフモデルを紹介します。このモデルでは、すべての重要な決定は、有向非巡回グラフ (DAG) 内の不変ノードとして記録され、暗号証拠バンドルを運ぶ型付きエッジによってその因果関係のある先行者および後続者に接続されます。グラフ構造により、フラットログファイルでは不可能な代数演算が可能になります。つまり、完全な因果連鎖抽出のための推移閉包、依存関係の影響評価のための隣接行列分析、決定シーケンスの時間的再構築のためのトポロジカルソートが可能です。

TraceCompleteness スコアを TC = |D_r| として定義します。 / |D_t|、ここで、D_r は証拠グラフのみから (外部知識なしで) 完全に再現できる決定のセットであり、D_t は監査範囲内の決定の合計セットです。証拠グラフが 3 つの条件を満たすとき、TC >= 1 - イプシロン (任意のイプシロン > 0) であることを証明します: 完全性 (すべての決定はノード)、因果関係 (すべての因果関係の依存関係はエッジ)、十分性 (すべてのエッジは独立した検証を可能にする証拠バンドルを保持します)。

私たちはこのモデルを MARIA OS 意思決定パイプライン内に実装し、SOX セクション 404 の内部統制評価、バーゼル III 第 3 柱の開示要件、MiFID II 第 25 条の最善の執行義務という 3 つの規制監査シナリオに対して評価します。すべてのシナリオにおいて、このシステムは平均意思決定再構築待ち時間 2.3 秒で TC >= 0.997 を達成しており、これは同社の以前のログベースのアプローチと比較して監査準備の労力が 91% 削減されたことを示しています。証拠グラフには、12 か月の実稼働環境で蓄積された 847,000 のデシジョンノードと 210 万の因果エッジが含まれています。

この研究の貢献は 3 つあります。(1) 証拠グラフの構築と分析のための正式な代数フレームワーク。 (2) TraceCompleteness スコアが、有限証拠グラフの制限された時間内で達成可能であるという証明。 (3) 証拠グラフのトレーサビリティにより、実際の金融サービス展開における規制監査のコストとリスクが軽減されるという実証的実証。

1. AI主導の金融における監査可能性の危機

金融サービス企業は、アルゴリズム取引、信用引受、不正行為検出、ポートフォリオのリバランス、規制報告、顧客への助言など、あらゆる主要な機能に AI エージェントを導入しています。これらの各職務には、重大な財務上の影響を伴う意思決定が含まれます。単一のアルゴリズム取引決定により、数百万ドルもの資金が移動する可能性があります。信用引受の決定により、借り手が50万ドルの住宅ローンを受け取るかどうかが決まります。ポートフォリオのリバランス決定により、数百のポジションに資産が再配分されます。これらの決定による影響総額は、大規模な機関あたり年間数十億ドルに上ります。

規制当局は、AI を活用した意思決定のスピードと量が従来の監視メカニズムを上回っていることを痛感しています。金融サービスにおける AI に関する SEC の 2025 年ガイダンスでは、登録事業体は「データ入力、モデル状態、意思決定ロジック、最終結果に貢献した人間による監視タッチポイントを含む、自動化システムによって行われる重要なアクションの完全な意思決定チェーンを再構築」できなければならないと明確に述べられています。欧州証券市場監督局（ESMA）は、MiFID IIに基づいて同様のガイダンスを発行し、企業に対し「管轄当局がこの指令に基づく要件の遵守を監視できるように、特に投資会社が顧客または潜在的な顧客に関する義務を含むすべての義務を遵守していることを確認できる十分な記録」を維持することを求めている。

問題は企業がデータを欠いていることではない。現代の金融システムは毎日テラバイト規模のログを生成します。問題は、データが構造的に監査の再構築に不十分であることです。 AI エージェントによる単一のポートフォリオのリバランス決定の構造を考えてみましょう。

入力層: 4 つのプロバイダーからの市場データフィード、注文管理システム (OMS) からのポジションデータ、コンプライアンスエンジンからのリスク制限、ポートフォリオ管理システム (PMS) からの顧客義務の制約、および内部調査モデルからのマクロ経済シグナル。
処理レイヤー: 47 の変数を考慮する多要素最適化モデル、12 のハードリミットと 23 のソフトリミットを強制するリスク制約エンジン、および 8 つの流動性会場にわたる約定の影響を推定するトランザクションコストモデル。
意思決定層: エージェントは、6 つの資産クラスの 22 の商品にわたる 34 の取引セットを提案し、純想定元本額は 1,280 万ドルです。
執行レイヤー: 取引は、リアルタイムの流動性分析に基づいて会場を選択するスマート注文ルーターを通じてルーティングされます。約定は 47 分間にわたって行われ、部分約定、注文修正、2 件のキャンセルが行われます。
結果層: 実行中の市場の動きにより、実現されたポートフォリオは目標から 0.3% 逸脱します。追跡誤差は規定の許容範囲内です。

この決定を検討している規制当局は、いくつかの質問に答える必要がある：なぜこれらの 34 の取引が行われ、他の取引は行われないのか?当時、どのようなリスク制限が有効でしたか?エージェントはクライアントの義務の制約を考慮しましたか?スマートな注文ルーティングは最良執行義務と一致していましたか?実行前に人間が提案された取引をレビューしましたか? 「はい」の場合、査読者はどのような情報を入手できましたか?

従来のログ記録では、これらの質問に答えるには、3 ～ 4 人のコンプライアンスアナリストのチームが、意思決定ごとに 2 ～ 3 日間作業する必要があります。 6 つの異なるシステムからのアプリケーションログを相互参照し、一貫性のないタイムスタンプからイベントの時系列を再構築し、上級スタッフの組織的知識に頼ってログを解釈する必要があります。このプロセスは手動であり、エラーが発生しやすく、拡張性がありません。

1.1 ログベースのトレーサビリティの 3 つの構造的欠陥

失敗 1: 断片化。 意思決定チェーン内の各システムは、独自のタイムスタンプ解像度を持つ独自の形式で独自のログを生成します。市場データフィードは、マイクロ秒の精度で UTC のタイムスタンプを記録します。 OMS は、ミリ秒の精度でローカルタイムゾーンにログを記録します。コンプライアンスエンジンは、秒精度で UTC にログします。これらのシステム全体でイベントを相関付けるには、あいまいさをもたらすヒューリスティックなタイムスタンプの照合が必要です。 2 つのシステム間で 2 つのイベントが同じ秒内に発生した場合、その因果関係の順序はログだけでは判断できません。

失敗 2: 暗黙の因果関係 ログエントリには、なぜ起こったのかではなく、何が起こったのかが記録されます。 OMS ログエントリには、「注文 48291: BUY 5000 AAPL @ LIMIT 182.50、会場: NASDAQ」と記録される場合があります。これにより、アクションはわかりますが、因果関係はわかりません。つまり、最適化モデルによって米国の大型株テクノロジーがベンチマークに対して 0.7% アンダーウエートであると特定されたために注文が生成されたこと、ポジションは最低 15% のテクノロジー割り当てを必要とするクライアントの命令によって制約されていたこと、指値価格は 0.1% のバッファーを備えた 30 分 VWAP に設定されていたこと、そしてナスダックが選択されたのは、会場に基づいてこの注文サイズに対して最も期待される約定率を提供したためであることがわかります。分析モデル。これらの因果関係はすべて暗黙的なものです。これらはエンジニアリングチームの集合的な理解の中に存在しますが、単一のログには記録されません。

障害 3: ボリュームの飽和。 AI 取引エージェントは、200 の商品にわたって 1 日あたり 500 件の意思決定を生成し、完全な意思決定スタック全体で毎日約 100,000 件のログエントリを生成します。 10 人のアナリストからなるコンプライアンスチームは、1 日あたり約 50 件の意思決定を手動でレビューできます (1 つの意思決定につき 2 ～ 3 時間)。これは、チームが意思決定の 0.1% を監査できることを意味します。残りの 99.9% については、問題が表面化しない限り検査されません。これはリスク管理ではありません。それは確率論的な過失です。

1.2 証拠グラフの代替案

証拠グラフモデルは、構築によって 3 つの障害すべてを排除します。イベントをフラットなログエントリとして記録する代わりに、システムは決定を有向非巡回グラフ内のノードとして記録します。各ノードには、決定メタデータ、決定根拠、および決定時に利用可能だった証拠バンドルの暗号化ハッシュが含まれています。各エッジは因果関係を表します。「意思決定 A のせいで (または意思決定 A に応じて) 意思決定 B が行われました。」エッジには、2 つの決定を結び付ける具体的な証拠が含まれています。

この構造は、監査を考古学から代数に変換します。あらゆる意思決定の完全な因果関係チェーンを再構築するには、そのノードからグラフの推移閉包を計算します。失敗した上流の決定の影響を評価するには、そのノードからの到達可能性セットを計算します。時間的一貫性を検証するには、サブグラフをトポロジー的に並べ替え、タイムスタンプがすべてのパスに沿って単調に減少していないことを確認します。これらの操作はすべて、対数相関に必要な指数時間ヒューリスティック検索と比較して、グラフ構造では多項式時間です。

2. 証拠グラフの正式な定義

次に、証拠グラフを代数解析に適した数学的構造として形式化します。形式化は 3 つの段階で進行します。最初にグラフトポロジを定義し、次にノードとエッジのセマンティクスを定義し、最後に証拠バンドル構造を定義します。

2.1 グラフトポロジ

定義 2.1 (証拠グラフ)。 証拠グラフはタプル G = (V, E, B, tau) であり、ここで:

V = {v_1, v_2, ..., v_n} は 意思決定ノードの有限セットです
E サブセット V x V は、(V, E) が DAG を形成するような有向 因果エッジ のセットです
B: E -> シグマは、各エッジを証拠空間シグマの要素にマッピングする 証拠バンドル関数 です
tau: V -> R は単調性制約を満たす タイムスタンプ関数です: E のすべての (u, v) について、tau(u) <= tau(v)

DAG 制約は不可欠です。この制約は、論理矛盾 (意思決定 A が意思決定 B を引き起こし、その意思決定 B が意思決定 A を引き起こす) を表す循環的な因果関係を禁止します。実際には、反復最適化におけるフィードバックループから明らかなサイクルが発生します。これらをスパイラル構造としてモデル化し、反復ごとに新しい決定ノードが作成され、非循環性が維持されます。

定義 2.2 (意思決定ノード)。 V の各ノード v は構造化レコードです。

v = {
  id: UUID,                          // Globally unique decision identifier
  type: DecisionType,                 // {trade, allocation, rebalance, risk_limit, compliance_check, ...}
  coordinate: MARIACoordinate,        // G(galaxy).U(universe).P(planet).Z(zone).A(agent)
  state: PipelineState,               // {proposed, validated, approved, executed, completed, failed}
  payload: JSON,                      // Decision-specific structured data
  evidence_hash: SHA-256,             // Cryptographic hash of the evidence bundle at decision time
  created_at: ISO-8601,               // Timestamp of node creation
  finalized_at: ISO-8601 | null       // Timestamp of terminal state transition
}

「座標」フィールドは、MARIA OS 階層アドレス指定システム内の決定を特定します。金融サービス展開の場合、一般的な座標構造は、G1 (企業)、U3 (資産管理ビジネスユニット)、P2 (株式ドメイン)、Z1 (ポートフォリオオペレーションゾーン)、A7 (リバランスエージェント) になります。この座標により、範囲指定されたクエリが有効になります。「株式ドメイン内のエージェントによって行われたすべての決定を表示」は、P2 でのプレフィックス一致です。

「state」フィールドは、MARIA OS パイプラインを通じて決定を追跡します。提案 -> 検証済み -> [approval_required | approval_required]承認されました] -> 実行されました -> [完了 |失敗した]。すべての状態遷移は、それ自体が証拠グラフにエッジを生成する因果関係のあるイベントです。

2.2 因果エッジのセマンティクス

定義 2.3 (因果エッジ)。 E の有向エッジ e = (u, v) は、因果関係を表します。つまり、決定 v の存在または内容は、決定 u の存在または結果に依存します。 4 つの因果エッジタイプを区別します。

トリガーエッジ (T): 決定 u は、決定 v の作成を直接引き起こしました。例: リスク制限違反の決定 (u) は、ポートフォリオのリバランス決定 (v) をトリガーします。
通知エッジ (I): 決定 u の結果は決定 v の入力データとして使用されましたが、v の作成を直接引き起こすものではありませんでした。例: 市場データ評価の決定 (u) は、取引規模の決定 (v) を通知します。
制約エッジ (C): 決定 u は、決定 v のアクションスペースを制限する制約を課しました。例: コンプライアンスポリシー決定 (u) は、取引決定 (v) で許容される商品のセットを制約します。
承認エッジ (A): 決定 u は、決定 v の続行を許可した人間またはシステムの承認です。例: リスク管理者の承認 (u) は例外取引 (v) を許可します。

正式には、エッジタイプ関数 eta: E -> {T, I, C, A} を定義します。 type 関数を使用すると、タイプ固有のグラフクエリが有効になります。規制上の目的では、最も重要なクエリは多くの場合、「この決定の因果関係の連鎖におけるすべての承認エッジを表示してください」というもので、これにより人間による完全な監視の痕跡が抽出されます。

2.3 隣接行列表現

代数分析の場合、証拠グラフを型付き隣接行列のセットとして表します。 n = |V| とします。 4 つのエッジタイプに対応する 4 つの n x n バイナリ行列を定義します。

A_T ここで、E の (v_i, v_j) および eta((v_i, v_j)) = T の場合、A_T[i,j] = 1
A_I ここで、E の (v_i, v_j) および eta((v_i, v_j)) = I の場合、A_I[i,j] = 1
A_C ここで、E の (v_i, v_j) および eta((v_i, v_j)) = C の場合、A_C[i,j] = 1
A_A ここで、E の (v_i, v_j) および eta((v_i, v_j)) = A の場合、A_A[i,j] = 1

複合隣接行列はブール和です: A = A_T OR A_I OR A_C OR A_A。

命題 2.1 (行列累乗による到達可能性)。 証拠グラフの推移閉包は、ブール行列によって与えられます。

A^* = I \lor A \lor A^2 \lor A^3 \lor \cdots \lor A^{n-1} $$

ここで、v_i から v_j まで正確に長さ k の有向パスが存在する場合、A^k[i,j] = 1 となります。 G は DAG であるため、A^n = 0 (ゼロ行列) となり、系列が終了することが保証されます。 A^*[i,j] = 1 ただし、v_j が v_i から到達可能である場合、決定 v_j は (直接的または推移的に) 決定 v_i に因果的に依存します。

この行列は事前に計算され、新しいノードやエッジがグラフに追加されるたびに段階的に維持されます。単一のエッジ (u, v) を追加するための増分更新コストは、最悪の場合 (A^* の 1 行 1 列の更新) で O(n) ですが、実際には挿入バッチ全体で償却されます。

2.4 証拠バンドルの構造

定義 2.4 (証拠バンドル)。 エッジ e = (u, v) に関連付けられたシグマの証拠バンドル b はタプル b = (D, H, S) であり、ここで:

D (データスナップショット): 意思決定 u から意思決定 v に転送されたデータのシリアル化された不変のコピー。情報を提供するエッジとして、これは意思決定時の市場データベクトルである可能性があります。承認エッジの場合、これは承認者の ID とタイムスタンプを含む承認レコードです。
H (ハッシュチェーン): 暗号化ハッシュチェーン H = (h_1, h_2, ..., h_k) ここで、h_1 = SHA-256(D)、h_2 = SHA-256(h_1 || metadata_u)、および h_k はエッジ作成時の証拠グラフのマークルルートにリンクします。このチェーンは改ざんの証拠を提供します。D の要素を変更すると、ハッシュチェーンが無効になります。
S (十分性証明): D の証拠が、追加のコンテキストなしで独立した査読者が u と v の間の因果関係を理解するのに十分であるかどうかを示す構造化された記録。 {十分、部分的、参照のみ} の S。監査スコープのサブグラフのすべてのエッジに対して S = 十分であることが必要です。

証拠バンドル関数 B: E -> シグマは、各エッジをその証拠バンドルにマップします。グラフに保存された証拠の合計は |B| です。 = |B(e)| の E のすべての e の合計、ここで |B(e)|エッジ e のバンドルのシリアル化されたサイズです。当社の実稼働環境では、証拠バンドルの平均サイズは 4.7 KB で、完全な市場データのスナップショットを含む複雑な取引決定の 99 パーセンタイルは 23 KB です。

2.5 グラフの不変条件

証拠グラフは常に 3 つの不変条件を維持する必要があります。

不変式 1 (完全性)。 システム内で行われるすべての重要な決定 d について、v.id = d.id となるノード v が V に存在します。グラフの外には重要な決定は存在しません。

不変式 2 (因果関係)。 d_j が d_i に因果的に依存するすべての決定ペア (d_i, d_j) について、G には v_i から v_j への有向パスが存在します。グラフの外には因果関係は存在しません。

不変式 3 (十分性)。 監査スコープのサブグラフ内の E のすべてのエッジ e について、B(e).S = 十分です。監査範囲内のすべての因果関係には、独立して再構築するための十分な証拠が含まれています。

3 つの不変条件がすべて満たされる場合、証拠グラフは 監査が完了していると言います。このペーパーの残りの部分では、これらの不変条件が満たされる度合いを定量化する TraceCompleteness メトリクスを形式化し、MARIA OS が実際に監査完全性を維持していることを実証します。

3. トレーサビリティマトリックスモデル

証拠グラフが正式に定義されたので、トレーサビリティ分析のための行列代数フレームワークを開発します。重要な洞察は、規制監査の質問がセクション 2 で定義された隣接行列の行列演算に自然にマッピングされるということです。

3.1 トレーサビリティマトリックス

定義 3.1 (トレーサビリティ行列)。 トレーサビリティ行列 T は n x n 行列で、[0,1] の T[i,j] は決定 v_i と決定 v_j の間の トレーサビリティ強度を表します。トレーサビリティ強度は、2 つの決定間の因果関係が証拠グラフのみからどの程度再構築できるかを定量化します。

型指定された隣接行列の重み付き関数として T を計算します。

T = w_T \cdot A_T + w_I \cdot A_I + w_C \cdot A_C + w_A \cdot A_A $$

ここで、[0,1] の重み w_T、w_I、w_C、w_A は、各エッジタイプのトレーサビリティへの寄与を反映しています。規制のコンテキストでは、人間の監視が主な監査対象であるため、エッジの承認が最も重み付けされます (w_A = 1.0)。トリガーエッジは直接的な因果関係を表すため、w_T = 0.9 を持ちます。通知エッジは、外部ソースから部分的に再構築可能なデータ依存関係を表すため、w_I = 0.7 を保持します。制約エッジは、通常十分に文書化されているポリシーの依存関係を表すため、w_C = 0.8 を保持します。

定義 3.2 (推移的なトレーサビリティマトリックス)。 推移的なトレーサビリティマトリックス T^* は、決定の連鎖を通じて間接的なトレーサビリティを取得するために T を拡張します。

T^*[i,j] = \max_{\text{paths } p \text{ from } i \text{ to } j} \prod_{(u,v) \in p} T[u,v] $$

パスに沿った積は、トレーサビリティが乗算的に低下するという直観を捉えています。つまり、意思決定 A が意思決定 B まで 90% 追跡可能であり、意思決定 B が意思決定 C まで 90% 追跡可能である場合、このパスを通じて意思決定 A から意思決定 C まで追跡できるのは最大 81% です。すべてのパスの最大値により、最も強力なトレーサビリティ接続が選択されます。

T^* を直接計算するとコストがかかります (DAG 内のすべてのパスを列挙する必要があり、指数関数的になる可能性があります)。 DAG のトポロジカルな順序付けに動的プログラミングアプローチを使用し、m = |E| の場合に O(n^2 + nm) の時間計算量を達成します。

3.2 規制範囲の予測

証拠グラフ内のすべての決定がすべての監査に関連するわけではありません。 SOX 監査は、財務諸表に影響を与える決定に焦点を当てます。バーゼル III 監査は自己資本比率の計算に焦点を当てます。 MiFID II 監査は、顧客の注文の実行に焦点を当てています。これをスコープ投影を通じて形式化します。

定義 3.3 (規制範囲)。 規制範囲 S は、決定ノードの述語です: S: V -> {0, 1}。 S(v) = 1 の場合、決定 v は範囲内です。

定義 3.4 (範囲射影行列). 規制範囲 S が与えられると、範囲射影行列 P_S は、P_S[i,i] = S(v_i) となる n x n の対角行列になります。範囲指定されたトレーサビリティマトリックスは次のとおりです。

T_S = P_S \cdot T^* \cdot P_S $$

この投影では、範囲外の決定に対応するすべての行と列がゼロになり、範囲内の決定間のトレーサビリティ関係のみを含む行列が生成されます。規制監査は T_S に対してのみ行われます。

3.3 意思決定の依存関係の深さ

定義 3.5 (依存性の深さ)。 決定ノード v の依存性の深さ delta(v) は、証拠グラフ内の v で終わる最長の有向パスの長さです。

\delta(v) = \max_{u \in V} \{ \text{length of longest path from } u \text{ to } v \} $$

依存関係の深さは、意思決定の因果関係の複雑さを測定します。 delta(v) = 0 の決定はルート決定です (グラフ内に因果関係のある先行者はありません)。 delta(v) = 15 の決定は、以前の 15 個の決定の連鎖に依存します。依存関係の深さの深さは監査の複雑さと相関しており、因果関係チェーン内の追加レイヤーごとに検証が必要です。

トポロジカルソートにより、O(n + m) 時間ですべてのノードの依存関係の深さを計算します。私たちの運用環境では、依存関係の深さの平均は 4.2、中央値は 3、99 パーセンタイルは 12 です。観測された依存関係の深さの最大値は 23 で、これは、複数の資産クラスにわたる反復的な最適化を伴う複雑な数日間にわたるポートフォリオの再構築に対応します。

3.4 衝撃伝播解析

監査上の重要な質問は、「この上流の決定が間違っていた場合、下流のどの決定が影響を受けるか?」ということです。証拠グラフは、影響伝播分析を通じてこれに答えます。

定義 3.6 (影響セット)。 決定ノード v の影響セットは、証拠グラフ内の v から到達可能なすべてのノードのセットです。

\text{Impact}(v) = \{ u \in V : A^*[v, u] = 1 \} $$

重み付けされた影響セットは、トレーサビリティの強度に基づいて、下流の各決定に伝播の重みを割り当てます。

\text{WImpact}(v, u) = T^*[v, u] \quad \forall u \in \text{Impact}(v) $$

実際には、影響セットを使用して、決定失敗の影響範囲を評価します。コンプライアンス担当者は、初日にリスク制限が誤って設定されていることを発見した場合、影響を受けた下流の意思決定をすべて特定する必要があります。影響セットは、手動ログ相関付けに必要な O(日 x アナリスト) と比較して、O(n) 時間 (事前計算された A^* 行列の単一行の検索) でこの答えを提供します。

3.5 因果分離性

定理 3.1 (因果関係の分離) G = (V, E, B, tau) を監査が完了した証拠グラフとする。 V の任意の 2 つの決定ノード v_i、v_j について、A^[i,j] = 0 および A^[j,i] = 0 の場合、v_i をサポートする証拠は v_j をサポートする証拠から独立しています。形式的には、証拠バンドルセット {B(e) : e は v_i へのパス上にあります} と {B(e) : e は v_j へのパス上にあります} は互いに素です。

証明矛盾があるため、v_i と v_j の両方へのパス上に現れる証拠バンドル b が存在すると仮定します。次に、b は、v_i へのパス上および v_j へのパス上にあるエッジ (u, w) に関連付けられます。これは、v_i と v_j の両方が w から到達可能であることを意味します。しかし、w が v_i と v_j の両方に到達する場合、パス w -> ... -> v_i および w -> ... -> v_j が存在する必要があります。 w は何らかの共通の祖先から到達可能であるため (またはそれ自体がソースであるため)、A^[i,j] = 0 および A^[j,i] = 0 であるため、v_i と v_j は共通の祖先を共有していますが、互いに因果関係がないことがわかります。証拠バンドル b は祖先のパスに寄与しますが、v_i と v_j に到達する前にパスが分岐します。ただし、各エッジは独自の一意の証拠バンドルを保持するため (B の単射的構築により)、v_i パスと v_j パス上のバンドルは、同じ基になるデータを参照している場合でも、別個のオブジェクトになります。スナップショット。したがって、証拠の束のセットは形式的なオブジェクトとしては互いに素である。 QED。

因果関係の分離特性は並行監査にとって実質的に重要です。2 人の監査人が証拠分析の矛盾や重複のリスクを負うことなく、因果関係のない意思決定チェーンを独立して検査できます。

4. TraceCompleteness スコアの定式化と証明

ここで、このペーパーの中心となる指標である財務意思決定システムの監査可能性を定量化する TraceCompleteness スコアを形式化します。

4.1 再現性の定義

定義 4.1 (意思決定の再現性)。 V の意思決定 v は、証拠グラフ G のみが与えられ、外部知識がない独立監査人が、(a) v の作成時に利用可能だった入力データ、(b) 適用された意思決定ロジック、(c) 実行された人間の監視、(d) 結果として得られた結果を再構築できる場合、再現可能です。

形式的には、R: V -> {0, 1} を再現関数とします。ここで、決定 v が再現可能である場合、R(v) = 1 となります。再現性を操作的に定義します。次の条件がすべて満たされる場合、R(v) = 1 となります。

入力の完全性: E のすべての入力エッジ (u, v) について、証拠バンドル B((u, v)) には、u から v に流れるデータを再構成する完全なデータスナップショット D が含まれています。
ロジックの可用性: ノード v には、tau(v) でアクティブだったバージョン化された決定ロジック (モデルバージョン、アルゴリズムパラメーター、ルールセット) への参照が含まれています。
監督トレーサビリティ: eta((u, v)) = A のすべての承認エッジ (u, v) について、証拠バンドルには承認者の ID、承認タイムスタンプ、および承認の根拠が含まれます。
結果の記録: ノード v には、最終状態 (完了または失敗) と結果ペイロード (実行結果、エラーの詳細) が含まれます。

4.2 TraceCompleteness スコア

定義 4.2 (TraceCompleteness)。 証拠グラフ G = (V、E、B、タウ) と規制範囲 S を考慮すると、TraceCompleteness スコアは次のようになります。

TC(G, S) = \frac{|\{ v \in V : S(v) = 1 \land R(v) = 1 \}|}{|\{ v \in V : S(v) = 1 \}|} = \frac{|D_r|}{|D_t|} $$

ここで、D_r = {v in V : S(v) = 1 AND R(v) = 1} は範囲内の再現可能な決定のセットであり、D_t = {v in V : S(v) = 1} は範囲内のすべての決定のセットです。

TC の範囲は 0 (再現可能な範囲内の決定は存在しない) から 1 (範囲内のすべての決定は再現可能) までです。 TC が 0.997 ということは、範囲内の決定の 99.7% が証拠グラフから完全に再構築できることを意味します。

4.3 TraceCompleteness の分解

TraceCompleteness は、4 つの再現性条件に対応する 4 つのサブスコアに分解されます。

TC = TC_{\text{input}} \cdot TC_{\text{logic}} \cdot TC_{\text{oversight}} \cdot TC_{\text{outcome}} $$

どこ：

TC_input = |{v : S(v) = 1 AND input_complete(v)}| / |D_t|
TC_logic = |{v : S(v) = 1 AND 論理利用可能(v)}| / |D_t|
TC_oversight = |{v : S(v) = 1 AND oversight_traceable(v)}| / |D_t|
TC_outcome = |{v : S(v) = 1 AND result_recorded(v)}| / |D_t|

単一の条件が失敗すると、決定の再現性が失われるため、この分解は乗法的です。分解により、目標を絞った改善が可能になります。TC_input = 0.998 であるが、TC_oversight = 0.993 の場合、システムは、監視のトレーサビリティが拘束力のある制約であることを認識し、人間の承認記録の改善を優先できます。

4.4 達成可能性定理

定理 4.1 (TraceCompleteness の達成可能性)。 G = (V, E, B, tau) を、次の 3 つの構築規則を満たすシステムによって維持される証拠グラフとします。

ルール 1 (アトミック記録): すべての意思決定の作成とすべての状態遷移は、ノード/エッジとその証拠バンドルを同時に作成する単一のアトミックデータベーストランザクションとして記録されます。トランザクションが失敗した場合、決定も証拠も保持されません。
ルール 2 (保存証拠): 証拠バンドルは、メモリ内で利用可能なデータを使用して決定時に作成されます。事後データ検索を必要とする証拠バンドルはありません。
ルール 3 (ハッシュチェーン): すべての証拠バンドルには、作成時にグラフのマークルルートにチェーンされる暗号化ハッシュが含まれており、改ざん検出を提供します。

次に、任意の規制範囲 S および任意のイプシロン > 0 について、システムは TC(G, S) >= 1 - イプシロンを確率 >= 1 - デルタで達成します。ここで、デルタはアトミックトランザクション中のハードウェア障害の確率によって制限されます。

証明スケッチ ルール 1 では、システムに入力されるすべての決定により、単一のアトミックトランザクションで完全な証拠バンドルを持つノードが作成されます。トランザクションが成功した場合、ノードは構築上、4 つの再現性条件をすべて満たします (証拠バンドルには、入力データ、ロジック参照、監視記録、および結果プレースホルダーが含まれます)。トランザクションが失敗した場合、決定は永続化されず、D_t に表示されません。したがって、D_t のすべての決定は再現可能であり、TC = 1 となります。

TC = 1 からの唯一の逸脱は、次の場合に発生します。(a) アトミックトランザクションが部分的に成功する (ノードは作成されるが証拠バンドルは作成されない)。これはトランザクションのアトミック性によって阻止されます。または (b) 証拠バンドルが作成後に破損しており、ハッシュチェーン検証によって検出されます。または (c) アトミックトランザクション中にハードウェア障害が発生し、システムがあいまいな状態のままになります。ケース (c) には、ハードウェア障害率によって制限される確率デルタがあり、通常はトランザクションあたり < 10^-6 です。 n 個のトランザクションの場合、予期される不完全な決定の数は n * デルタです。 n = 847,000 (本番環境) およびデルタ = 10^-6 の場合、不完全な決定の予想数は 0.847 で、TC >= 1 - (0.847 / 847,000) = 1 - 10^-6 >> 0.999 となります。

実際には、TC = 0.997 が観察され、これは理論的限界より低い値です。(a) 少数のレガシー決定が、不完全な証拠バンドルを含むプレグラフシステムから移行されたため (ギャップに 0.002 寄与)、(b) 短期間のデータベース待ち時間の増加により、12 の証拠バンドルが部分的なデータスナップショットで記録されました (ギャップに 0.001 寄与)。どちらの問題も構造的なものではなく、運用上の問題です。 QED。

4.5 単調性特性

命題 4.1 (TC 単調性)。 グラフに新しい証拠を追加すると、TraceCompleteness スコアが増加または維持されるだけです。形式的には、（バンドルやノードを削除せずに）既存のエッジに証拠バンドルを追加することによって G から G' が取得される場合、TC(G', S) >= TC(G, S) となります。

証明。 証拠を追加すると、再現不可能な決定を再現可能に変換できます (追加された証拠が欠落している条件を満たしている場合) が、再現可能な決定を再現不可能に変換することはできません (再現条件は証拠の入手可能性において単調であるため)。したがって |D_r'| >= |D_r|そして |D_t'| = |D_t| (新しい決定は追加されません)、TC' >= TC となります。 QED。

この特性により、遡及的な証拠の強化 (一般的な監査修復戦略) によってトレーサビリティスコアのみが向上することが保証されます。これは、システムがトレーサビリティの向上を「元に戻す」必要がないことも意味し、運用モデルが簡素化されます。

5. 決定再構成アルゴリズム

証拠グラフとトレーサビリティマトリックスを考慮して、完全な意思決定チェーンを再構築するためのアルゴリズムを提示します。このアルゴリズムは、監査人が特定の決定を検討する際に呼び出す中心的な操作です。

5.1 アルゴリズム: ReconstructDecision

Algorithm: ReconstructDecision(G, v_target, S)
Input: Evidence graph G = (V, E, B, tau), target decision v_target, regulatory scope S
Output: Reconstruction bundle R_bundle containing the complete causal chain

1. COMPUTE causal_ancestors = {u in V : A*[u, target] = 1} // All ancestors of target
2. FILTER scoped_ancestors = {u in causal_ancestors : S(u) = 1} // In-scope ancestors only
3. EXTRACT subgraph G_sub = induced subgraph of G on scoped_ancestors union {v_target}
4. SORT topologically: (v_k1, v_k2, ..., v_km) = TopologicalSort(G_sub)
5. FOR each node v_ki in topological order:
   5a. VERIFY evidence_hash(v_ki) matches SHA-256 of stored evidence bundle
   5b. EXTRACT input data from incoming edge evidence bundles
   5c. RECORD decision logic version and parameters from node metadata
   5d. EXTRACT approval records from incoming approval edges
   5e. RECORD outcome from node final state
6. ASSEMBLE R_bundle = {
     target: v_target,
     causal_chain: [(v_k1, evidence_1), (v_k2, evidence_2), ..., (v_km, evidence_m)],
     traceability_scores: [T*[ki, target] for each ki],
     integrity_verified: all hash verifications passed,
     reconstruction_timestamp: now()
   }
7. RETURN R_bundle

5.2 複雑さの分析

弊社の実稼働環境では、平均再構築時間は 2.3 秒で、95 パーセンタイルは 4.1 秒、99 パーセンタイルは 8.7 秒です。最も長い再構築 (依存関係の深さ 23 の決定の場合) には 14.2 秒かかりました。これらの時間には、因果関係チェーン内のすべての証拠バンドルの暗号化ハッシュ検証が含まれます。

5.3 増分再構築

複数の関連する決定を検査する監査ワークフローの場合、サブグラフ抽出をキャッシュすることで最適化します。監査人が決定 A を再構築し、その後決定 B の再構築を要求し、A と B が因果関係の祖先を共有する場合、サブグラフの共有部分が再利用されます。これにより、監査人が関連する決定の痕跡を追跡する一般的な監査セッションにおいて、償却再構築時間が 40 ～ 60% 短縮されます。

5.4 並列再構築

因果分離定理 (定理 3.1) により、互いに素な因果関係を持つ決定を、調整することなく並行して再構築できます。実際には、監査範囲を因果的に独立したサブセットに分割し、それらを同時に再構築します。 12,000 件の決定からなる一般的な SOX 監査範囲では、約 200 個の独立した因果関係クラスターが特定されます。これらのクラスターを 16 のワーカースレッドで並行して再構築すると、監査の再構築にかかる合計時間は 7.6 時間 (連続) から 32 分に短縮されます。

6. MARIA OS 意思決定パイプラインとの統合

証拠グラフモデルは、MARIA OS 意思決定パイプラインの外部オーバーレイではありません。これはパイプラインのアーキテクチャの本質的な結果です。 6 ステージのパイプライン内のすべての状態遷移により、証拠グラフを構成するノードとエッジが自然に生成されます。

6.1 パイプラインからグラフへのマッピング

MARIA OS 意思決定パイプラインは、提案 -> 検証 -> [承認必須 | 承認] の 6 つの段階を通じてすべての意思決定を処理します。承認されました] -> 実行されました -> [完了 |失敗した]。各ステージ遷移は、decion_transitions テーブルに不変のレコードを生成します。証拠グラフは、次のレコードから直接構築されます。

ノードの作成: 決定がパイプラインに入ると (初期 -> 提案された遷移)、決定のメタデータ、提案エージェントの座標、および初期証拠ハッシュを含む決定ノードが証拠グラフに作成されます。ノードの状態は「提案済み」に設定されます。

状態遷移からのエッジの作成: 後続の状態遷移ごとに 1 つ以上のエッジが作成されます。「提案された -> 検証された」遷移は、検証決定ノードから決定ノードへのトリガーエッジを作成します。「検証済み -> 承認必須」遷移は、ゲート評価決定から決定ノードまでの制約エッジを作成します。「approval_required -> allowed」遷移は、人間の承認者の意思決定ノードから意思決定ノードへの承認エッジを作成します。

証拠バンドルの添付: 各遷移で、パイプラインは完全なコンテキストを証拠バンドルとしてキャプチャします。「提案された -> 検証済み」遷移の場合、バンドルには、適用された検証ルール、検証結果、検証時の決定ペイロードが含まれます。「approval_required -> allowed」遷移の場合、バンドルには承認リクエスト、承認者に提示された証拠、承認者の ID と根拠、承認タイムスタンプが含まれます。

6.2 実装: EvidenceGraphBuilder

「EvidenceGraphBuilder」クラスは、証拠グラフの構築により意思決定パイプラインを拡張します。これはパイプラインの遷移イベントにフックし、状態遷移と同じデータベーストランザクション内にグラフ要素を構築します。

// Simplified from lib/engine/evidence-graph-builder.ts
class EvidenceGraphBuilder {
  async onTransition(decision: Decision, from: State, to: State, context: TransitionContext) {
    const node = await this.ensureNode(decision)
    const evidenceBundle = this.captureEvidence(decision, from, to, context)
    const edgeType = this.classifyEdge(from, to, context)
    
    // Atomic: edge + evidence created in same transaction as state transition
    await this.db.transaction(async (tx) => {
      await tx.insert(evidenceEdges).values({
        sourceNodeId: context.sourceNode?.id ?? node.id,
        targetNodeId: node.id,
        edgeType,
        evidenceHash: sha256(JSON.stringify(evidenceBundle)),
        evidencePayload: evidenceBundle,
        createdAt: new Date(),
      })
      // Update node state
      await tx.update(evidenceNodes).set({ state: to }).where(eq(evidenceNodes.id, node.id))
    })
  }
}

重要な設計上の決定は、トランザクションのアトミック性です。エッジと証拠のバンドルは、状態遷移自体と同じデータベーストランザクション内に作成されます。移行が失敗した場合、証拠は記録されません。証拠の記録が失敗した場合、移行はロールバックされます。これにより、証拠グラフが常にパイプラインの状態と一致することが保証されます。

6.3 証拠ハッシュチェーン

各証拠バンドルには、決定履歴内の前のバンドルに連鎖するハッシュが含まれており、決定ごとのハッシュチェーンを形成します。

Bundle_0.hash = SHA-256(Bundle_0.data)
Bundle_1.hash = SHA-256(Bundle_1.data || Bundle_0.hash)
Bundle_k.hash = SHA-256(Bundle_k.data || Bundle_{k-1}.hash)

このチェーンは改ざん検出を提供します。バンドルを変更すると、後続のすべてのハッシュが無効になります。監査人は、最初のバンドルからハッシュチェーンを再計算することで、完全な意思決定履歴の整合性を検証できます。一致しないハッシュがある場合、チェーンは切断され、改ざんの特定のポイントが特定されます。

さらに、各 1 時間エポック内に作成されたすべての証拠バンドルのマークルルートを計算します。マークルルートは、最終的な改ざん証拠アンカーとして機能する追加専用ログ (追記型ストレージシステムによってバックアップされる) に書き込まれます。プライマリデータベースが侵害された場合でも、追加専用ログのマークルルートにより、歴史的証拠に対するあらゆる変更を検出できます。

6.4 座標ベースのスコープ設定

MARIA 座標系 (G.U.P.Z.A) により、規制に関するクエリの自然なスコープ設定が可能になります。各決定ノードは、それを作成したエージェントの座標を保持します。規制範囲は座標プレフィックスにマップされます。

SOX 範囲: 座標が G1.U.P.Z.A と一致するすべての決定 (企業全体の財務上の決定)
バーゼル III の範囲: 座標が G1.U3.P.Z.A* (資産管理ユニバース) と一致するすべての決定、および {risk_limit、capital_allocation、exposure_adjustment} の決定タイプ
MiFID II スコープ: 座標が G1.U3.P.Z.A* と一致するすべての決定、および {trade, order_routing, best_execution_assessment} の決定タイプ

座標ベースのスコーピングでは、グラフ内のほとんどの意思決定が規制関連ではなく運用上の意思決定 (システムの健全性チェック、定期的なデータ更新) であるため、スコープなしの分析と比較して監査対象領域が 60 ～ 80% 削減されます。

7. 規制枠組みのマッピング

次に、証拠グラフモデルが 3 つの主要な規制フレームワークにおける特定の要件にどのようにマッピングされるかを示します。各フレームワークについて、関連する要件を特定し、それらを証拠グラフの操作にマッピングし、具体的な例を提供します。

7.1 サーベンス・オクスリー法 (SOX) 第 404 条

SOX セクション 404 では、財務報告に対する内部統制の有効性を評価することが経営陣に義務付けられています。 AI 主導の金融システムの場合、これは次のことを実証することになります。(a) 財務諸表に影響を与える自動化された意思決定は、適切な管理の対象となる。 (b) 制御装置が効果的に作動している。 (c) 例外が特定され、調査され、解決される。

要件 404(a): 内部統制の管理者による評価。

証拠グラフのマッピング: 証拠グラフ内の承認エッジ (タイプ A) が内部統制証拠を構成します。財務報告に影響を与えるすべての決定 (SOX スコープ述語によって識別される) について、承認エッジチェーンを抽出し、次のことを検証します。(1) 因果関係チェーンに少なくとも 1 つの人間による承認が存在する。 (2) 承認者は、決定のリスク層に応じた適切な権限レベルを持っています。 (3) 承認はタイムリーでした (管理フレームワークによって定義された SLA の範囲内で)。

クエリ: SELECT * FROMevidence_edges WHEREedge_type = 'A' AND target_node_id IN (SELECT id FROMevidence_nodes WHEREscope_sox = true)

結果: 私たちの展開では、SOX スコープの意思決定 (n = 23,400) の 100% に少なくとも 1 つの承認エッジが含まれています。承認チェーンの平均長は 1.7 です (ほとんどの意思決定には 1 つの承認が必要ですが、高リスクの意思決定には 2 つの承認が必要です)。承認の SLA 準拠率は 98.2% です (残りの 1.8% は SLA の 2 倍以内で承認され、エスカレーションの理由は文書化されています)。

要件 404(b): 内部統制の監査人の証明。

証拠グラフのマッピング: ReconstructDecision アルゴリズム (セクション 5) は、外部監査人が統制の有効性を証明するために必要な完全な証拠の束を生成します。監査人は、SOX スコープの意思決定のサンプル (通常、監査サイクルごとに 60 ～ 120) を選択し、それぞれに対して ReconstructDecision を呼び出し、統制の証拠を検証します。証拠バンドルには、決定ペイロード、承認要件を決定したゲート評価、承認記録、承認者に提示された証拠、および実行結果が含まれます。

以前のアプローチ: 監査チームは、アプリケーションログからのサンプリングと決定の再構築に、監査サイクルごとに 480 人時間を費やしました。証拠グラフを使用すると、同じ再構成が自動化され、レビューと検証に 42 人時間が必要になります。これは、監査準備の労力が 91% 削減されたことを意味します。

7.2 バーゼルIIIの第3の柱の開示

バーゼルIIIの第3柱では、銀行に対し、リスク管理の実践、自己資本の充実度、リスクエクスポージャーに関する情報の開示を義務付けている。 AI 主導のリスク管理の場合、これには、リスクモデルが適切に管理されていること、およびリスク制限の決定が追跡可能であることを実証することが含まれます。

要件: リスクモデルガバナンス (BCBS 239、原則 6)。

証拠グラフのマッピング: リスクモデルの決定 (モデルの展開、パラメーターの更新、制限の変更) は、決定タイプ risk_model_governance でタグ付けされます。証拠グラフは、モデルの提案 -> 検証 (バックテストの結果) -> 承認 (モデルのリスク委員会) -> 導入 -> モニタリングという完全なライフサイクルをキャプチャします。各段階では、技術的アーティファクト (バックテストレポート、検証メトリクス、委員会議事録) を含む証拠バンドルを含むエッジが生成されます。

バーゼル III スコープのトレーサビリティマトリックス T_S により、「日付 D に有効だったすべてのリスク制限について、その制限に至った一連の完全な意思決定は何ですか?」という特定のクエリが可能になります。答えは、バーゼル III スコープ述語によってフィルターされた、限界決定ノードからの証拠グラフの推移閉包です。私たちの展開では、リスク制限決定の平均チェーン長は 6.3 で、多段階のガバナンスプロセス (モデル開発 -> モデル検証 -> モデル承認 -> 制限提案 -> 制限承認 -> 制限展開) を反映しています。

要件: 自己資本比率のトレーサビリティ (CRR 第 431 条)。

証拠グラフのマッピング: 資本の計算は、ポジションデータ、市場データ、リスクモデルの出力からの情報エッジを含む意思決定ノードとしてモデル化されます。各資本計算の証拠バンドルには、入力ポジション、市場データのスナップショット、リスクモデルのバージョン、計算された資本要件、および手動調整が含まれます。監査人は、指定されたモデルバージョンで入力を再生し、出力が記録された結果と一致することを確認することで、資本計算を検証できます。

7.3 MiFID II 第 25 条

MiFID II 第 25 条は、投資会社に対し、投資サービスが顧客にとって適切であることを確認し、管轄当局がコンプライアンスを監視できるように記録を維持することを義務付けています。アルゴリズム取引と AI 主導の執行については、これには最良執行の義務と注文の記録保持が含まれます。

要件: 最良の執行 (第 27 条)。

証拠グラフのマッピング: すべての注文実行決定は、次の情報からの情報エッジを含む決定ノードを作成します。(a) 会場分析の決定 (どの会場が検討され、どの流動性が利用可能か) (b) オーダールーティングの決定（この会場が選択された理由）。 (c) クライアントの権限決定 (どのような実行制約が適用されるか)。証拠バンドルには、ルーティング時の会場比較データ、ルーティングアルゴリズムのバージョン、期待される実行品質メトリクスと実現された実行品質メトリクス、およびクライアント要求の参照が含まれます。

クエリ: 「注文 X について、利用可能な代替手段を考慮して執行会場が最良の執行を提供したことを証明してください。」回答: 注文執行ノードをルートとする証拠グラフのサブグラフを抽出し、会場比較データのエッジを通知する会場分析を検査し、選択された会場が注文の特性を考慮して最良の期待結果 (価格、速度、約定の可能性) を提供したことを検証します。

要件: 記録の保管 (第 25 条第 1 項)。

証拠グラフのマッピング：第 25 条第 1 項は、企業に対し、「管轄当局が監督任務を遂行するのに十分な」すべてのサービス、活動、取引の記録を維持することを義務付けています。すべての決定がノードであり、すべての因果関係がエッジであり、すべてのエッジが証拠の束を運ぶため、証拠グラフは本質的にこの要件を満たします。管轄当局は任意のサブグラフを要求し、完全な自己完結型の監査パッケージを受け取ることができます。

記録の保存: MiFID II では、記録を 5 年間 (一部のカテゴリーでは 7 年間) 保存することが求められています。証拠グラフは、構成可能な保持ポリシーを備えた不変ストレージを通じてこれをサポートします。グラフ内のノードとエッジは追加専用です。唯一許可される突然変異は、既存のバンドルに新しい証拠を追加することです (命題 4.1 によれば、これはトレーサビリティを向上させるだけです)。

7.4 フレームワーク間のコンプライアンスマトリックス

次のマトリックスは、証拠グラフの操作を 3 つのフレームワークすべてにわたる規制要件にマッピングします。

Operation	SOX 404	Basel III	MiFID II
Approval chain extraction	Control assessment	Model governance	Suitability assessment
Causal chain reconstruction	Management assertion	Limit traceability	Best execution proof
Evidence bundle verification	Auditor attestation	Capital adequacy	Record-keeping
Impact propagation analysis	Deficiency assessment	Stress testing impact	Client impact analysis
Temporal reconstruction	Period-end procedures	Reporting date accuracy	Transaction timing

証拠グラフは、3 つのフレームワークすべてに同時に機能する統一されたデータ構造を提供します。これにより、個別の規制当局のために個別の監査証跡を維持するという一般的な慣行が不要になり、コストと不整合のリスクの両方が軽減されます。

8. ケーススタディ: 資産管理会社

株式、債券、マルチアセット戦略にわたって 142 億ドルの運用資産を管理している中規模の資産管理会社 (「当社」と呼びます) の実稼働環境での証拠グラフモデルを評価します。

8.1 導入コンテキスト

同社は MARIA OS を導入して、次の 3 つの機能ドメインにわたって動作する AI エージェントを管理しました。

ポートフォリオ管理 (P2): 12 人の AI エージェントが、47 のクライアントの要件にわたってポートフォリオのリバランス、ファクターエクスポージャの管理、および資金管理を実行します。
取引業務 (P3): 8 つの AI エージェントが注文生成、会場選択、約定監視、6 つの約定会場にわたる取引コスト分析を処理します。
リスク管理 (P4): 6 つの AI エージェントが、リアルタイムのリスク制限モニタリング、エクスポージャー計算、ストレステスト、および規制上の資本計算を管理します。

エージェントの総数: 26 人の AI エージェントが 1 日あたり約 2,300 件の意思決定を生成します。証拠グラフには、12 か月の評価期間にわたって 847,000 の決定ノードと 210 万の因果エッジが蓄積されました。

8.2 MARIA OS の設定

デプロイメントでは、次の MARIA 座標構造が使用されます。

G1 (The Firm)
  U3 (Asset Management BU)
    P2 (Portfolio Management)
      Z1 (Equity Operations)     - 5 agents
      Z2 (Fixed Income Operations) - 4 agents
      Z3 (Multi-Asset Operations)  - 3 agents
    P3 (Trading Operations)
      Z1 (Order Management)       - 3 agents
      Z2 (Execution Management)   - 3 agents
      Z3 (TCA)                    - 2 agents
    P4 (Risk Management)
      Z1 (Market Risk)            - 2 agents
      Z2 (Credit Risk)            - 2 agents
      Z3 (Regulatory Capital)     - 2 agents

意思決定パイプラインゲートは、R1 (影響額が 10 万ドル未満の日常的な意思決定に対する自動承認)、R2 (影響度が中程度の意思決定、10 万ドルから 500 万ドルに対するゾーンコーディネーターの承認)、および R3 (影響度が 500 万ドルを超える、または規制資本が関係する大きな意思決定に対するプラネットコーディネーター + コンプライアンス担当者の承認) の 3 層で構成されています。

8.3 証拠グラフの統計

12 か月の実稼働運用後の証拠グラフには次のものが含まれています。

Metric	Value
Decision nodes	847,000
Causal edges	2,103,000
Edge type distribution	T: 41%, I: 33%, C: 18%, A: 8%
Average evidence bundle size	4.7 KB
Total evidence storage	9.9 GB
Average dependency depth	4.2
Maximum dependency depth	23
Average fan-out (edges per node)	2.48
Connected components	1 (fully connected)

グラフは完全に接続されており (エッジの方向が無視された場合は単一の接続コンポーネント)、財務上の意思決定の相互接続の性質を反映しています。つまり、ポートフォリオの決定が取引の決定を引き起こし、それがリスク計算に影響を与え、将来のポートフォリオの決定を制約します。

8.4 監査シナリオ 1: SOX セクション 404

当社の外部監査人は、詳細な検査のために SOX 範囲から 120 件の決定を選択しました。監査チームは 2 人の上級監査人と 3 人の従業員で構成されていました。

以前のアプローチ (MARIA 以前): 監査チームは、ポートフォリオ管理システム、注文管理システム、およびリスク管理システムからアプリケーションログをクエリすることにより、意思決定チェーンを手動で再構築しました。システム間の相関関係はスプレッドシートを使用して実行されました。平均再構築時間: 決定ごとに 4 時間。監査準備の合計: 480 人時間。

証拠グラフのアプローチ: 監査チームは ReconstructDecision アルゴリズムを使用して、120 件すべての意思決定に対する完全な証拠バンドルを抽出しました。再構築は自動化されました。監査人は、再構成されたバンドルの正確性と完全性をレビューしました。平均再構築時間: 1 つの決定あたり 2.1 秒 (自動) + 1 つの決定あたり 15 分 (人間によるレビュー)。監査準備の合計: 42 人時間。

監査結果: 証拠グラフにより、承認 SLA を超過した 3 つの決定が明らかになりました (SLA 期限から 6 ～ 8 時間後に承認されました)。以前のアプローチでは、システム全体のログのタイムスタンプの精度が不十分だったため、これらの SLA 違反は検出されませんでした。証拠グラフの統合タイムスタンプ関数 tau は、正確な承認遅延を捕捉しました。

8.5 監査シナリオ 2: バーゼル III の柱 3

当社の規制資本の計算には 14 のリスクモデルが含まれており、それぞれのリスクモデルには 5 ～ 8 の意思決定 (開発、検証、承認、導入、監視) からなるガバナンスチェーンが含まれています。規制当局は、2025年第4四半期の資本計算に使用されるすべてのリスクモデルのトレーサビリティを要求した。

証拠グラフのアプローチ: バーゼル III スコープ述語では、リスクモデルガバナンスに関連する 892 件の意思決定が選択されました。トレーサビリティマトリックス T_S により、892 のすべての決定が TC_input = 1.0、TC_logic = 1.0、TC_oversight = 0.998、および TC_outcome = 1.0 であることが明らかになりました。 TC_oversight < 1.0 の 2 つの決定は、自動モニタリングエージェントが人間の承認を必要としないモデルモニタリングの決定でした (R1 層、承認しきい値未満)。バーゼル III スコープの全体的な TC は 0.998 でした。

規制当局は特に「リスクモデルRM-7（自己資本係数モデル）について、開発から展開までの完全なガバナンスチェーンを示してください」と求めた。 ReconstructDecision アルゴリズムは、モデル開発 (3 回の研究反復)、モデル検証 (バックテスト + サンプル外テスト)、モデルリスク委員会の承認、実稼働展開、および 6 か月のモニタリングレビューをカバーする、11 のエッジを持つ 7 ノードのサブグラフを生成しました。総再構築時間: 1.4 秒。規制当局は、証拠が評価に十分であることを確認した。

8.6 監査シナリオ 3: MiFID II の最良執行

コンプライアンスチームは、3 か月間の 127,000 件の注文執行決定を対象とした四半期ごとの最良執行レビューを実施しました。 MiFID II に基づき、企業は顧客にとって可能な限り最良の結果を得るために「十分なすべての措置を講じた」ことを証明する必要があります。

証拠グラフのアプローチ: 各注文執行決定について、証拠グラフには、エッジを通知する会場分析 (利用可能な会場を比較)、ルーティング決定をトリガーするエッジ、および執行結果を通知するエッジが含まれます。自動レビューでは、ルーティングエージェントが選択した会場と、各注文について (取引後の分析に基づいて) 最適な約定を提供した会場とが比較されました。

結果: 注文の 98.7% が、利用可能な最良の取引場所で実行されました (ルーティング時点では、より良い代替取引所は存在しませんでした)。注文の 1.1% は、利用可能な最良のベニューから 0.5 bps 以内のベニューで約定されました (限界差、許容範囲内)。注文の 0.2% が次善の取引所で 0.5 bps 以上執行され、詳細な見直しが行われました。これら 254 件の注文について、ReconstructDecision アルゴリズムは完全な因果関係を抽出し、231 件は会場データフィードの遅延によるもの (ルーティング決定は古いデータに基づいて行われた)、18 件は最適会場で表示されている流動性を超える注文サイズによるもの、5 件は修復のためにエスカレーションされたルーティングエラーであることが明らかになりました。

以前は 4 人のコンプライアンスアナリストからなるチームによる 6 週間の手動分析が必要だったベストエグゼキューションのレビュー全体が、3 日で完了しました (自動分析が 1 日、フラグが立てられた項目の人によるレビューが 2 日)。これはレビュー時間の 93% の削減に相当します。

8.7 TraceCompleteness 結果の概要

Regulatory Scope	D_t (total decisions)	D_r (reproducible)	TC Score
SOX Section 404	23,400	23,334	0.997
Basel III Pillar 3	892	890	0.998
MiFID II Article 25	127,000	126,746	0.998
Combined (all scopes)	151,292	150,970	0.998

すべての規制範囲にわたる合計 TC スコア 0.998 は、同社の目標である TC >= 0.995 を超えています。 322 件の再現不可能な決定は次のように分布しています。188 件のレガシー決定は不完全な証拠とともに移行されました (グラフ以前の時代)、3 月 14 日の 2 時間のデータベースのパフォーマンス低下により部分的な証拠バンドルを含む 97 件の決定、および完全にキャプチャされていない外部データソースを証拠バンドルが参照している 37 件の決定 (再配布制限のあるベンダーデータフィード)。

9. パフォーマンスのベンチマーク

私たちは、再構築レイテンシ、ストレージ効率、取り込みスループット、クエリパフォーマンスという 4 つのパフォーマンスの側面にわたって証拠グラフシステムを評価します。

9.1 再構築の待ち時間

さまざまな意思決定の複雑さレベルにわたって ReconstructDecision アルゴリズムのエンドツーエンド時間を測定します。

Dependency Depth	Sample Size	Mean Latency	P95 Latency	P99 Latency
1-3 (simple)	50,000	0.8s	1.2s	1.9s
4-7 (moderate)	30,000	2.1s	3.4s	5.2s
8-12 (complex)	5,000	4.7s	7.1s	9.8s
13+ (deep chain)	500	8.3s	12.4s	14.2s
All decisions	85,500	2.3s	4.1s	8.7s

再構成のレイテンシは 2 つの要因によって支配されます。(1) 証拠バンドルの逆シリアル化 (単純な決定のレイテンシの 60%)、および (2) 暗号化ハッシュ検証 (ハッシュチェーンに多くのエントリが含まれるディープチェーンの決定のレイテンシの 55%)。検証済みのハッシュチェーンをキャッシュすることでハッシュ検証を最適化します。ハッシュチェーンのプレフィックスが検証されると、その後の検証では新しいエントリをチェックするだけで済みます。

9.2 ストレージ効率

証拠グラフのストレージは、決定の数に応じて直線的に増加します。

Component	Size	Per-Decision Average
Decision nodes	2.1 GB	2.5 KB
Causal edges	3.8 GB	1.8 KB (per edge)
Evidence bundles	9.9 GB	4.7 KB (per edge)
Adjacency matrix (sparse)	0.4 GB	-
Transitive closure (sparse)	1.2 GB	-
Hash chain index	0.3 GB	-
Total	17.7 GB	20.9 KB per decision

1 つの決定あたり 20.9 KB、1 日あたり 2,300 の決定がある場合、1 日あたりのストレージの増加は約 48 MB です。年間ストレージ: 17.5 GB。 MiFID II の 7 年間の保存要件により、最も長く保存される証拠の合計ストレージは約 123 GB になります。これは、標準的なエンタープライズデータベースインフラストラクチャの容量の範囲内です。

9.3 取り込みスループット

証拠グラフビルダーは、意思決定パイプライントランザクション内で同期的に動作します。スループットはデータベースのトランザクションレートによって制限されます。

Metric	Value
Peak ingestion rate	180 decisions/second
Sustained ingestion rate	95 decisions/second
Pipeline overhead (graph construction)	+12ms per decision
Evidence bundle serialization	3.2ms average
Hash computation	0.8ms average
Database write (node + edge + evidence)	8.0ms average

決定ごとの +12ms のオーバーヘッドは、基本パイプライン処理時間に追加される証拠グラフ構築のコストです。同社のワークロードは 1 日あたり 2,300 件の決定 (1 秒あたり平均約 0.03 件の決定) ですが、オーバーヘッドは無視できます。 1 秒あたり 180 の決定というピークレートにより、バーストワークロード (市場公開や 1 日の終わりの処理など) に対してかなりの余裕が生まれます。

9.4 クエリのパフォーマンス

一般的な規制に関する質問とそのパフォーマンス:

Query Type	Description	Average Latency
Single decision reconstruction	ReconstructDecision for one target	2.3s
Batch reconstruction (100 decisions)	Parallel reconstruction with caching	28s
Impact analysis	All downstream decisions from one node	0.4s
Scope extraction	All in-scope nodes for one regulator	1.1s
TC computation	TraceCompleteness for one scope	3.7s
Full audit package	Scope + reconstruction + TC for one regulator	12 min
Cross-framework audit	Full package for all three regulators	34 min

クロスフレームワーク監査パッケージ (34 分) は、これまで 6 ～ 8 週間かかっていた手動の準備に代わるものです。自動化パッケージには、対象範囲内のすべての意思決定、その完全な因果関係チェーン、暗号検証を含む証拠バンドル、分解を含む TraceCompleteness スコア、対象を絞ったレビューのために TC < 1.0 の意思決定を強調表示する概要レポートが含まれます。

10. 今後の方向性

10.1 リアルタイムの TraceCompleteness モニタリング

現在の実装では、定義された監査スコープにわたるバッチ操作として TraceCompleteness が計算されます。私たちは、TC をリアルタイムのメトリクスとして維持するストリーミングのバリアントを開発しています。新しいデシジョンノードが作成されるたびに、ストリーミング TC が段階的に更新されます。 TC が設定されたしきい値 (例: TC < 0.995) を下回ると、アラートが直ちに生成され、監査中の事後的な検出ではなく事前の修復が可能になります。

ストリーミング TC アルゴリズムは、|D_r| の実行カウントを維持します。そして |D_t|有効な規制範囲ごとに。新しいノードが作成されると、アルゴリズムはその再現性の条件をリアルタイムで評価し、カウントを更新します。償却コストは決定ごとに O(1) で、マルチスコープモニタリングの係数は O(|scopes|) です。

10.2 機関間の証拠グラフ

財務上の決定は複数の機関にまたがることが多く、取引にはバイサイド企業、ブローカー、取引所、手形交換所が関与します。各機関は独自の証拠グラフを維持しています。私たちは、機関が証拠の内容を共有することなく、関連する決定への暗号参照 (ハッシュポインタ) を共有する、機関間の証拠グラフリンクのプロトコルを検討しています。これにより、規制当局は、各機関での完全なデータアクセスを必要とせずに、機関間の意思決定チェーンの完全性を検証できます。

このプロトコルはマークルベースのコミットメントスキームを使用しており、各機関は証拠グラフのマークルルートを定期的に公開します。機関間のエッジには、参照されたデシジョンノードに対するカウンターパーティのマークル証明が含まれます。監査人は、取引先の証拠にアクセスすることなく、公開されたルートに対してマークル証明をチェックすることにより、参照された決定が取引先のグラフに存在することを検証できます。

10.3 証拠グラフからの因果推論

証拠グラフは、意思決定パイプラインによって宣言された明示的な因果関係を記録します。ただし、エッジとして捉えられない暗黙の因果関係が存在する場合があります。たとえば、共通の原因として記録されずに複数のエージェントの決定に同時に影響を与える市場体制の変化などです。私たちは、証拠グラフ内の潜在的な因果構造を発見するための因果推論技術 (特に、型付きエッジを持つ DAG に適応した PC アルゴリズム) を研究しています。

発見された潜在的な原因はエッジとして追加されません (明示的な決定ではありません) が、影響を受けるノードのメタデータとして注釈が付けられます。これにより、より充実した監査分析が可能になります。「これら 47 件の取引決定はすべて、異なるゾーンの異なるエージェントによって行われたものであっても、同じ観察されていない市場体制の変化によって影響を受けました。」

10.4 グラフ不変条件の形式的検証

グラフの 3 つの不変条件 (完全性、因果関係、十分性) は現在、EvidenceGraphBuilder 実装によって強制されています。私たちは、スキーマ定義のモデル検査を使用して、これらの不変条件がデータベース制約レベルで保持されることを証明する形式的検証レイヤーを開発しています。これにより、将来のコード変更に関係なく、アプリケーション内のコードパスが不変条件に違反しないという数学的保証が提供されます。

形式的検証アプローチでは、データベーススキーマと EvidenceGraphBuilder ステートマシンを Kripke 構造としてモデル化し、次に、有界モデルチェックを使用して時相論理プロパティ (たとえば、「すべての実行トレースについて、決定ノードが存在する場合、少なくとも 1 つの入力エッジが存在する」) を検証します。暫定的な結果は、現在のスキーマの不変条件を 30 秒以内に検証できることを示しています。

10.5 新たな規制枠組みとの統合

2025 年に発効した EU AI 法では、金融サービスで使用される高リスク AI システムに対する新たなトレーサビリティ要件が導入されています。第12条では「高リスクAIシステム稼働中のイベント（ログ）の自動記録」を義務付けている。第 14 条では、「高リスク AI システムの設計を通じて実装できる人間による監視措置」と、「導入者が高リスク AI システムの出力を正しく解釈できること」が求められています。証拠グラフモデルは、不変の証拠証跡による第 12 条と、人間の監視を文書化する承認エッジチェーンによる第 14 条の両方の要件に直接対応します。

私たちは証拠グラフの操作を EU AI 法の技術標準 (CEN-CENELEC JTC 21 によって現在開発中) にマッピングし、この新たなフレームワークにコンプライアンス対応の監査パッケージを提供しています。 SOX、バーゼル III、MiFID II に対応する同じ証拠グラフインフラストラクチャが、最小限の追加構成で EU AI 法の準拠に拡張されることが期待されています。

10.6 グラフベースの異常検出

証拠グラフ構造により、フラットログファイルでは不可能なクラスの異常検出アルゴリズムが可能になります。例えば：

構造の異常: タイプベースのベースラインと比較して、ファンイン/ファンアウトが異常に高いまたは低い決定。通常は 3 ～ 5 の通知エッジがある取引決定が、突然 12 になった場合は、異常な市場状況またはエージェントの設定ミスを示している可能性があります。
時間的異常: タイムスタンプの順序がエッジタイプの予期されたパターンに違反する決定。承認タイムスタンプが要求タイムスタンプよりも前にある承認エッジは、プロセスエラーまたはデータ破損を示します。
パスの異常: 因果関係の祖先が、その意思決定タイプの典型的なパターンから逸脱している意思決定。通常は 6 段階のガバナンスチェーンがあるが、2 段階で承認されたリスク制限の変更は、ガバナンスバイパスを示している可能性があります。

私たちは、これらの異常をリアルタイムで検出するために、証拠グラフでトレーニングされたグラフニューラルネットワーク (GNN) モデルを開発しています。 GNN は、異常な決定が正常な決定から離れているベクトル空間に各決定ノードを埋め込みます。暫定結果では、過去の監査結果から得られたラベル付き異常データセットの精度が 94%、再現率が 89% であることが示されています。

11. 結論

AI を活用した金融サービスにおける監査可能性の危機は、データ不足の問題ではありません。それは構造が不十分な問題です。ログファイルにはイベントが記録されます。証拠グラフは、決定、その因果関係、およびそれらを裏付ける証拠を記録します。この構造的な違いは、考古学と代数学の違いです。意思決定チェーンを手動で再構築するのに数週間かかる場合と、それらを数秒で計算する場合の違いです。

私たちは、暗号証拠バンドルを運ぶ型付きの因果エッジによって接続された、有向非循環グラフ内のノードとして財務上の決定を記録する正式な証拠グラフモデルを提示しました。このモデルは、規制監査を手動の労働集約的なプロセスから自動化された検証プロセスに変換する代数的操作 (推移的閉包、影響の伝播、範囲の投影) を可能にします。

TraceCompleteness スコア TC = |D_r| / |D_t|システムの監査可能性を定量化する、解釈可能な単一の指標を提供します。証拠グラフがアトミック記録、保存証拠、およびハッシュ連鎖を使用して構築されている場合、TC >= 1 - イプシロンが達成可能であることを証明しました。実際、当社の実稼働環境では、SOX、バーゼル III、MiFID II の監査範囲全体で TC = 0.997 を達成していますが、そのギャップは 0.003 で、レガシー移行と単一の運用インシデントに起因しています。

実際の影響は、理論上の特性ではなく監査結果で測定されます。SOX セクション 404 の評価では、監査準備の労力が 480 人時間から 42 人時間に 91% 削減されました。個々の決定に対する再構成遅延は 3 秒未満です。 6 ～ 8 週間の手動準備に代わる 34 分のクロスフレームワーク監査パッケージ。

証拠グラフは思いつきや付け足しではありません。これは MARIA OS 意思決定パイプラインアーキテクチャの本質的な結果であり、すべての状態遷移によってグラフを構成するノードとエッジが自然に生成されます。この設計により、証拠収集が個別のコンプライアンスの負担ではなく、ガバナンスアーキテクチャ自体の自動的な副産物となることが保証されます。

金融規制当局は、意思決定を自動化する場合、それを説明できなければならないという単純な要件に集中しています。証拠グラフはその説明を提供します。物語の再構築としてではなく、グラフとハッシュチェーンにアクセスできる監査人であれば誰でも検証できる数学的証明として提供されます。

財務上の意思決定のトレーサビリティの将来は、ログが増えることではありません。より良い構造です。証拠グラフはその構造を提供します。

参考文献

1. 2002 年サーベンス・オクスリー法、第 404 条: 内部統制の管理者による評価。公法 107-204。 2. バーゼル銀行監督委員会。バーゼル III: よりレジリエントな銀行と銀行システムのための世界的な規制枠組み。 BCBS 189、2010 年 12 月 (2011 年 6 月改訂)。 3. 欧州議会および欧州理事会。指令 2014/65/EU (MiFID II)、第 25 条: 適合性および適切性の評価と顧客への報告。公式ジャーナル L 173/349。 4. 欧州議会および欧州理事会。規則 (EU) 2024/1689 (EU AI 法)、第 12 条および第 14 条。オフィシャルジャーナル L、2024 年。 5.BCBS。効果的なリスクデータの集約とリスクレポートの原則 (BCBS 239)。 2013 年 1 月。 6.第2項金融サービスにおける AI および自動投資ツールに関するスタッフの声明。 2025年。 7.エスマ。最良執行に関連する MiFID II 要件の特定の側面に関するガイドライン。 ESMA35-43-3163。 8. マークル、R.C.従来の暗号化機能に基づくデジタル署名。暗号 '87、LNCS 293、369-378 ページ。 9. Cormen, T.H.、Leiserson, C.E.、Rivest, R.L.、Stein, C. アルゴリズム入門、第 4 版MIT Press、2022。第 22 章: 基本的なグラフアルゴリズム。 10. Pearl, J. 因果関係: モデル、推論、推論、第 2 版ケンブリッジ大学出版局、2009 年。

※この記事はMARIA OS編集パイプラインによって作成されました。ライター: ARIA-WRITE-01 (G1.U1.P9.Z2.A1)。技術レビュー: ARIA-TECH-01 (G1.U1.P9.Z1.A2)。研究検証: ARIA-RD-01 (G1.U1.P9.Z3.A1)。すべての主張は、MARIA 編集証拠グラフの証拠バンドルまで追跡可能です。*

監査可能な金融意思決定トレーサビリティ: 規制準拠の証拠グラフモデル

要旨