要旨
監査システムは、基本的なスケーリングの問題に直面しています。つまり、証拠の量が増加するにつれて、組織的な捏造が検出を逃れる確率が超線形に増加します。従来の監査方法(ルールベースのチェック、統計的サンプリング、比率分析)は、個々の証拠項目または小さなサブセットを対象としており、本物の証拠と捏造された証拠を区別する体系的な一貫性パターンが欠けています。この論文では、監査証拠の集合を高次元ベクトル空間の要素として扱い、証拠属性間のペア関係を捕捉する相関行列を構築し、品目レベルの検査では見えない構造異常を明らかにするために固有分解を適用する数学的フレームワークである 証拠一貫性スペクトル分析 (ECSA) を紹介します。
中心的な洞察は、本物の証拠セットが特徴的なスペクトルの特徴を示しているということです。つまり、その固有値の分布は、それらを生成した基礎的な経済プロセスによって支配される予測可能なパターンに従っています。捏造された証拠は、どれほど慎重に構築されたとしても、製作者があまりにも多くの次元にわたってあまりにも多くの一貫性制約を同時に満たさなければならないため、測定可能なほど異なるスペクトル署名を生成します。結果として得られるスペクトル ギャップ (最大の固有値と 2 番目に大きい固有値の比) は、本物の証拠と捏造された証拠を区別する強力な指標として機能します。
私たちは、証拠相関行列の固有値スペクトルの関数として 証拠一貫性スコア を形式化し、監査テストにおける誤検出率との理論的関係を導き出し、一般的な製造パターンのスペクトル シグネチャを特徴付け、リアルタイム スペクトル分析のためのストリーミング アルゴリズムを開発します。財務諸表監査証拠に関する対照実験において、ECSA は偽陽性率 2.3% を維持しながら捏造証拠セットの 94.7% を検出し、AUC 0.983 を達成しました。これはルールベース (AUC 0.741) および統計的サンプリング (AUC 0.824) のベースラインを大幅に上回っています。 MARIA OS Evidence Bundles との統合アーキテクチャを紹介します。この統合アーキテクチャでは、スペクトル分析が意思決定パイプライン内で自動化されたコヒーレンス ゲートとして機能します。
1. 従来の監査が大規模な場合に失敗する理由
1.1 音量の問題
現代の企業は、従来の監査方法を圧倒する速度で証拠を生成しています。中規模の金融機関では、1 日に 50,000 ~ 200,000 件の監査可能なトランザクションが生成され、それぞれのトランザクションには 15 ~ 40 の証拠属性 (タイムスタンプ、金額、取引相手、認可コード、文書参照、承認チェーン、環境メタデータ) が含まれています。四半期ごとの監査サイクルでは、約 450 万から 1,800 万件の取引記録が対象になります。 95% の信頼水準、5% の精度で統計的サンプリングを行うには、およそ 385 件のレコードを調べる必要がありますが、これは証拠の母集団全体のごく一部にすぎません。
サンプリング手法は、不正な取引が母集団内にランダムに分布しているという、ますます支持できなくなっている仮定に基づいています。高度な不正行為は、ランダムに分布する異常を生成しません。それは、調整された捏造、つまり個別にはもっともらしいが、全体としては矛盾した一連の証拠を生み出すのです。偽造された請求書は、対応する注文書と一致します。発注書は対応する承認と一致します。承認は、対応する予算割り当てと一致します。各アイテムは個別の精査を通過します。不正は項目間の関係、つまりサンプリングベースの監査では構造的に大規模に検出できない関係に存在します。
1.2 次元の問題
監査人が証拠項目間の関係を調査する場合でも、認識次元の制限によって制約されます。人間の監査人は、3 ~ 5 つの相関する属性を同時に効果的に追跡できます。そのしきい値を超えると、考えられる関係の組み合わせが爆発的に増加し、作業記憶の容量を超えます。 30 個の属性を持つ証拠セットには、435 個のペア関係と 4,060 個の三元関係があります。人間の監査人はこの関係空間を念頭に置くことはできず、ましてやその関係空間全体にわたる微妙な逸脱を検出することはできません。
ルールベースのシステムは、特定の関係パターンを検出ルールとしてエンコードすることでこの能力を拡張します。ベンフォードの法則テストでは、先頭の桁の分布をチェックします。 3 者間照合により、請求書、注文書、および受信レポート間の一貫性が検証されます。比率分析では、財務指標を業界ベンチマークと比較します。これらのルールは、既知の詐欺パターンに対しては効果的ですが、新しいパターンに対しては機能しません。これは、パターン特異性トラップとして知られる制限です。すべてのルールは、不正行為がどのようなものであるかについての特定の仮説をエンコードします。エンコードされた仮説に一致しない不正行為は検出されずに通過します。
1.3 コヒーレンスの洞察
スペクトル分析の背後にある基本的な洞察は、特定の不正パターンを列挙する必要がないということです。代わりに、本物の証拠の一貫性がどのようなものであるかを特徴付け、そこからの逸脱にフラグを立てることができます。本物の証拠は、証拠に自然な統計構造を課す実際の経済プロセス (購入、販売、支払い、送金) によって生成されます。この構造は、証拠属性間の特徴的な相関関係として現れます。金額は税金計算と相関し、タイムスタンプは営業時間付近に集まり、承認レベルは取引規模と相関し、取引相手のパターンは真の取引関係を反映します。
捏造された証拠はこの構造を模倣する必要があります。しかし、すべての次元で同時に完璧に模倣することは、人間の製造者にとっては計算上扱いにくく、アルゴリズムによる製造であっても統計的にありそうもないことです。ファブリケーターは次元の呪いに直面しています。N 個の属性間で一貫性を維持するには、O(N^2) 個のペア制約と O(N^3) 個の 3 方向制約を満たす必要があります。証拠セットが増加するにつれて、捏造されたアイテムを挿入しながらグローバルな一貫性を維持することが飛躍的に困難になります。
スペクトル分析は、この全体的な一貫性構造を単一の数学的オブジェクト (証拠相関行列の固有値スペクトル) で捉え、捏造を示す逸脱を検出する原理的な方法を提供します。
2. ベクトル空間としての証拠
2.1 正式な定義
私たちは、監査証拠セットを高次元空間内のベクトルの集合として形式化します。 E = {e_1, e_2, ..., e_n} を n 個の証拠アイテムのセットとし、各証拠アイテム e_i は d 個の測定可能な属性を表す R^d 内のベクトルです。
定義 (証拠ベクトル)。 R^d の証拠ベクトル e_i は、k = 1, 2, ..., d の各成分 e_i^(k) が証拠項目の正規化された属性を表す d 次元の実数値ベクトルです。属性には、数値 (取引金額、数量、序数としてエンコードされた日付)、カテゴリエンコード (取引相手識別子、文書タイプ、認可レベル)、および派生特徴 (関連イベント間の時間デルタ、比率メトリクス、シーケンス位置) が含まれます。
正規化は重要です。生の証拠の属性は、数百万単位の量、エポック秒単位のタイムスタンプ、小さな整数のカテゴリコードなど、比類のないスケールに及びます。証拠母集団全体にわたって属性ごとに Z スコア正規化を適用します。
ここで、mu_k と sigma_k は、属性 k の母平均と標準偏差です。この正規化により、すべての属性が相関構造に均等に寄与し、相関行列の固有値が共通のスケールで解釈可能であることが保証されます。
2.2 証拠マトリックス
定義 (証拠行列)。 R^{n x d} の証拠行列 X は、行が正規化された証拠ベクトルである行列です。
X の各行は 1 つの証拠アイテムです。各列は、すべての証拠アイテムにわたる単一の属性です。行列 X は、その後のすべての分析の元となる基本的なデータ構造です。
2.3 幾何学的解釈
証拠ベクトル空間では、各証拠項目は R^d 内の点を占めます。証拠セット E は、この高次元空間内の点群を定義します。一貫した経済プロセスによって生成された本物の証拠は、特徴的な幾何学的特性を持つ点群を生成します。点群は特定の部分空間に沿って集中し(生成プロセスによって課せられた相関関係を反映)、滑らかな密度変化を示し(取引の種類とサイズの自然な分布を反映)、局所的な一貫性を維持します(空間内の近くの証拠アイテムは関連する取引に対応します)。
捏造された証拠がこの点群に挿入されると、これらの幾何学的特性が混乱します。摂動は点レベルの検出には微妙すぎる可能性があります。つまり、製造されたアイテムは個別に本物の密度内に収まる可能性があります。しかし、この製造により、雲の全体的な形状、つまり主軸、有効次元、スペクトル構造が変化します。これらの地球規模の変化はまさに固有分解によって明らかになるものです。
2.4 証拠部分空間と空空間
X の列空間 (証拠属性ベクトルが広がる部分空間) は、証拠アイテムが変化する次元を捉えます。ヌル空間は、それらが一定である (またはほぼ一定である) 次元をキャプチャします。本物の証拠の場合、ヌル スペースは経済プロセスによって課せられる厳しい制約を反映します。有効な請求書では、合計は常に数量と単価の積に等しくなります。有効な銀行振込では、借方金額と貸方金額は常に一致します。
これらのヌル空間制約は、証拠多様体と呼ばれるもの、つまり本物の証拠が存在するように制約される R^d 内の低次元の曲面を定義します。 X のランクによって、この多様体の次元が決まります。たとえそれが個々の属性の範囲内にあるとしても、null-space 制約に違反する捏造された証拠は多様体から外れたところにあります。スペクトル分析は、変動の予期せぬ次元、つまりゼロ (またはゼロに近い) であるはずなのに測定可能なほど正である固有値を特定することによってこれを検出します。
3. 相関行列からの一貫性スコアの構築
3.1 証拠相関行列
定義 (証拠相関行列)。 R^{d x d} の証拠相関行列 C は、証拠属性のサンプル相関行列です。
ここで、X は Z スコア正規化証拠行列です。 X は z 正規化されているため、C は共分散行列であると同時に相関行列でもあります。各エントリ C_{jk} は、n 個の証拠項目すべてにわたる属性 j と k の間のピアソン相関を表します。
相関行列 C は対称で正の半定値であり、対角エントリは 1 に等しく (各属性はそれ自体と完全に相関しています)、非対角エントリは [-1, 1] です。マトリックスは、証拠セットの完全な 2 次統計構造を捕捉します。
3.2 なぜ相関関係が一貫性を捉えるのか
相関行列は、証拠の属性間のすべてのペアごとの線形関係を単一の分解可能な構造にエンコードするため、証拠の一貫性を把握するための自然な数学的オブジェクトです。一貫した経済プロセスによって生成された本物の証拠は、強力で予測可能な相関パターンを示します。たとえば、調達証拠では、請求書の金額は発注金額と強い相関関係があり (r > 0.95)、取引日は支払期日と相関関係があり (r 約 0.85)、サプライヤー コードは経費カテゴリ コードと相関関係があります (r 約 0.70)。
これらの相関関係は恣意的なものではなく、実際のトランザクションを生成する決定論的および確率的プロセスの結果です。捏造された証拠が導入される場合、それはこれらの相関パターンに適合するか (すべての属性ペアで同時に達成するのは困難です)、または違反する (相関行列構造が変化します) 必要があります。いずれの場合も、C のスペクトル分解により妨害が明らかになります。
3.3 証拠の一貫性スコア
定義 (証拠一貫性スコア)。 固有値 lambda_1 >= lambda_2 >= ... >= lambda_d >= 0 を持つ R^{d x d} の証拠相関行列 C を考えると、証拠一貫性スコアは次のようになります。
ここで、H は正規化された固有値分布のシャノン エントロピーです。
コヒーレンス スコアの範囲は 0 から 1 です。すべての固有値が等しい場合 (すべての k に対して lambda_k = 1、属性に相関がないことを意味します)、エントロピーは log(d) および ECS = 0 で最大となり、コヒーレンスはありません。単一の固有値が支配的である場合 (すべての変動が 1 つの主軸に沿っている場合)、エントロピーは 0 に近づき、ECS は 1、つまり最大のコヒーレンスに近づきます。
3.4 コヒーレンススコアの背後にある直感
一貫性スコアは、いくつかの主要な方向に沿って証拠セットの分散がどの程度集中しているかを測定します。比較的少数の経済プロセスによって支配される本物の証拠は、それらのプロセスによって定義される方向に沿ってその変動が集中します。 30 個の属性を持つ調達データセットの有効次元は 5 ~ 8 である可能性があります。これは、5 ~ 8 個の固有値が合計分散の 90% 以上を捕捉することを意味します。残りの固有値は小さく、ノイズと小さな独立した変動を反映しています。
この濃度により、高いコヒーレンス スコアが生成されます。固有値の分布は非常に不均等で、エントロピーは低く、ECS は 1 に近くなります。証拠は、コヒーレントなプロセスによって生成されたため、統計的に「ぶら下がっています」。
捏造された証拠は、2 つの方法のいずれかでこの集中を混乱させます。製造がナイーブ (ランダムまたは半ランダムな属性値) の場合、静止しているはずの次元に沿って独立した変動を追加することによって、小さな固有値が膨張します。これにより、エントロピーが増加し、ECS が減少します。製造が洗練されている場合 (相関構造を一致させようとしている場合)、大きな固有値はほぼ保存されますが、小さな固有値は依然として摂動します。これは、多くの製造品目にわたって正確なヌル空間コンプライアンスを維持することが非常に困難であるためです。いずれにしても、一貫性スコアは低下します。
3.5 有効次元数
密接に関連する指標は証拠セットの有効次元であり、これは変動の独立した方向の数を定量化します。
単一の非ゼロ固有値を持つ完全に一貫性のある証拠の場合、d_eff = 1。等しい固有値を持つ完全に一貫性のない証拠の場合、d_eff = d。本物の証拠の d_eff は通常、0.15d から 0.35d の間です。偽造された証拠により、変動の偽の寸法が現れると、d_eff が 0.40d を超えることがよくあります。
有効次元により、コヒーレンス スコアの直感的な解釈が可能になります: ECS = 1 - log(d_eff) / log(d)。証拠セットが完全な属性空間の低次元部分空間で生成されたかのように動作する場合、一貫性スコアは高くなります。
3.6 堅牢性の特性
コヒーレンス スコアは、固有分解からいくつかの望ましい特性を継承します。
- 回転不変性: C の固有値は、属性空間の直交変換の下では不変です。属性の名前変更、並べ替え、線形再結合を行っても、一貫性スコアは変わりません。
- スケール不変性: 相関行列 (Z 正規化) を使用するため、一貫性スコアは個々の属性のスケールに対して不変です。金額の通貨や数量単位を変更してもスコアには影響しません。
- 安定性: 証拠行列への小さな摂動は、(ワイル不等式による) 固有値への小さな摂動を生成し、したがって一貫性スコアへの小さな摂動を生成します。スコアは個々の外れ値の影響を受けません。
- 分解可能性: 固有値スペクトルは、信号固有値 (大きい、真の経済プロセスに対応) とノイズ固有値 (小さい、独立した変動に対応) に分割できます。このパーティションにより、製造検出のためのノイズ フロアの対象を絞った分析が可能になります。
4. 証拠行列のスペクトル分解
4.1 相関行列の固有分解
証拠相関行列 C は実対称で正の半定値であるため、固有分解が認められます。
ここで、Lambda = diag(lambda_1, lambda_2, ..., lambda_d) は降順の固有値の対角行列、V = [v_1, v_2, ..., v_d] は対応する固有ベクトルを列とする直交行列です。各固有ベクトル v_k は証拠属性空間内の主方向を定義し、対応する固有値 lambda_k はその方向に沿った証拠の分散を定量化します。
4.2 スペクトル成分の解釈
固有分解は証拠属性空間を直交成分に分割し、それぞれが証拠セット内の変動の独立したモードを捕捉します。
大きな固有値 (lambda_k >> 1) は、支配的な相関パターン、つまり基礎となる経済プロセスから生じる証拠属性間の強力で系統的な関係に対応します。調達証拠では、最大の固有値は通常、金額、税額、合計の相関関係 (決定論的な関係) を捉えます。 2 番目に大きいものは、date-payment_term-due_date の相関関係を取得します。これらは証拠の信号コンポーネントです。
1 に近い固有値は、期待される分散レベルで独立して変化する属性に対応します。これらは、他の属性と強い相関関係はありませんが、周辺分布と一貫して動作する属性です。それらは証拠セットのノイズフロアを表します。
小さな固有値 (lambda_k << 1) は、ほぼゼロの分散方向、つまり証拠セット全体でほぼ一定の属性の組み合わせに対応します。これらは、制約コンポーネント、つまり本物の証拠が満たさなければならない決定論的関係の数学的エンコードを表します。有効な調達証拠では、(金額 + 税 - 合計) によって定義される方向の分散はほぼゼロになります。これは、この合計が常にほぼゼロであるためです。
4.3 マルチェンコ・パストゥール法
純粋にランダムな証拠行列 (すべての属性が単位分散に対して独立している) の場合、相関行列の固有値分布は マルチェンコ-パストゥール (MP) 法則に従います。独立した標準正規エントリを持つ R^{n x d} のランダム行列 X の場合、(1/(n-1)) の固有値密度 X^T X は、比率 gamma = d/n が一定に保たれ、n, d が無限大に近づくにつれて収束します。
[lambda_-, lambda_+] のラムダの場合、lambda_+/- = sigma^2 (1 +/- sqrt(gamma))^2、sigma^2 は行列エントリの分散です (正規化された証拠では sigma^2 = 1)。
MP の法則は、固有値の ヌル分布、つまり真の相関構造がなく、有限サンプル ノイズのみが存在する場合にスペクトルがどのように見えるかを定義します。 MP 上限 lambda_+ を超える固有値は統計的に有意であり、サンプリング アーティファクトではなく本物の構造を示します。
4.4 信号とノイズの分離
MP の法則により、固有値スペクトルを信号成分とノイズ成分に原理的に分離できます。 lambda_+ を超える固有値は信号です。 lambda_+ より下の固有値はノイズです。 d = 30 の属性、n = 10,000 項目の本物の証拠の場合、gamma = 0.003、lambda_+ は約 1.11 です。 1.11 を超える固有値のみが真の相関構造を表します。
d = 30 の典型的な財務証拠セットでは、lambda_+ を超える 6 ~ 10 個の固有値が観察され、合計分散の 75% ~ 90% が捕捉されます。残りの 20 ~ 24 の固有値は MP バルク内またはそれ以下に収まり、ノイズと制約を表します。
この分離はスペクトル不正検出の基礎です。捏造された証拠は、固有値を信号とノイズの境界を越えて移動させたり、ノイズ フロアを膨張させたり、制約固有値を崩壊させたりする方法で固有値スペクトルを乱します。
4.5 特異値の分解と等価性
C = (1/(n-1)) X^T X の固有分解は、証拠行列 X の特異値分解 (SVD) に直接関係します。 X = U シグマ V^T が X の SVD である場合、次のようになります。
C の固有値は lambda_k = sigma_k^2 / (n-1) です。ここで、sigma_k は X の特異値です。この等価性は計算上重要です。一般的なケース n >> d の場合、X の SVD (O(nd^2)) を計算する方が、C (O(nd^2 + d^3)) を形成して分解するよりも高速です。また、n << d の場合、X の SVD を計算する方が高速です。 X^T が推奨されます。ストリーミング アプリケーションの場合、ランダム化された SVD アルゴリズムにより、計算上のさらなる利点が得られます。
5. 異常検知のための固有値解析
5.1 スペクトルギャップ
定義 (スペクトル ギャップ)。 証拠相関行列 C のスペクトル ギャップ デルタは、最大の固有値と 2 番目に大きい固有値の比です。
スペクトル ギャップは、証拠の分散が単一の主要な方向に集中しているか、複数の方向に分散しているかを測定します。本物の証拠の場合、スペクトル ギャップは通常、経済領域によって決定される特性範囲内に収まります。調達証拠は、2.5 と 6.0 の間のスペクトルギャップを示しています。収益の証拠は、1.8 と 4.5 の間のスペクトルのギャップを示しています。経費の証拠には、2.0 から 5.0 までのスペクトルのギャップが示されています。
これらの特性範囲からの逸脱は、証拠の構造的異常を示します。
- スペクトル ギャップが大きすぎます (デルタ > デルタ_アッパー): 証拠は異常な程度に単一の相関パターンによって支配されており、捏造された証拠が 1 つの関係を過度に強調する単純なテンプレートから生成されたことを示唆しています。
- スペクトル ギャップが小さすぎる (デルタ < デルタ_下位): 証拠には明確な支配的な構造が欠けており、捏造された証拠によってスペクトルが平坦化される独立した変動次元が多すぎることが示唆されます。
- スペクトル ギャップは範囲内ですがシフトしています: ギャップは正常範囲内ですが、絶対固有値の大きさが異常であり、より微妙な摂動を示しています。
5.2 スペクトルギャップスコア
スペクトル ギャップからの異常信号を、予想範囲からの逸脱を定量化するスコアとして形式化します。
スペクトル ギャップ スコアは、ギャップが予想範囲内にある場合は 0 で、偏差の大きさに応じて直線的に増加します。スコアが 0 を超えると、さらなる調査が開始されます。スコアが調整されたしきい値 theta_SGS を超えると、自動フラグ設定がトリガーされます。
5.3 固有値分布の異常
スペクトル ギャップを超えて、完全な固有値分布には豊富な異常情報が含まれています。 アンダーソン-ダーリング統計を使用して、観測された固有値分布をドメインの予想分布と比較します。この統計は、裾部の偏差に特に敏感です。
ここで、F は、期待される固有値分布 (本物の証拠の参照コーパスから推定) の累積分布関数です。 A^2 の値が大きい場合は、たとえスペクトル ギャップが正常であっても、観測された固有値分布が予想される分布から大きく逸脱していることを示します。
5.4 ノイズフロアのインフレ
製造の最も信頼できるスペクトルの兆候の 1 つは、ノイズ フロアの膨張、つまり小さな固有値の上方へのシフトです。本物の証拠では、最小の固有値はほぼ決定的な制約 (たとえば、金額 + 税金 = 合計) に対応します。制約が正確に満たされるため、これらの固有値はゼロに非常に近くなります。
捏造された証拠がこれらの制約を同じ精度で維持することはほとんどありません。小さな数値の不一致 - 捏造された税計算の丸め誤差、捏造された支払日の 1 日の不一致、調整における小さな不一致 - 個別には検出できません - が集合的にノイズ フロアの固有値を膨張させます。
定義 (ノイズ フロア膨張率)。 ノイズ フロア膨張率 (NFIR) は、観測されたノイズ固有値と期待されるノイズ固有値を比較します。
ここで、r は信号固有値 (MP 境界 lambda_+ を超えるもの) の数で、lambda_k^{ref} は本物の証拠からの参照固有値です。 NFIR が 1.0 を大幅に上回る場合は、証拠の制約構造が違反されていることを示し、捏造の強力な指標となります。
私たちの実験では、本物の証拠は 0.85 ~ 1.15 の NFIR (自然変動) を示しています。捏造された証拠は一貫して 1.4 を超える NFIR を生成し、不適切に構築された捏造は 3.0 を超える NFIR に達します。
5.5 固有ベクトルの回転
製造により、固有値だけでなく、主変動の方向である固有ベクトルも乱される可能性があります。捏造された証拠によって、本物の証拠には存在しない新しい相関関係が導入されると (例: ベンダーコードと承認遅延の間の偽の関係)、主固有ベクトルは予想される方向から回転します。
観測された主部分空間と参照主部分空間の間の 部分空間角度 を使用して固有ベクトル摂動を定量化します。
ここで、V_r は最初の r 個の観測固有ベクトルの行列、V_r^{ref} は最初の r 個の参照固有ベクトルの行列、sigma_min は最小の特異値を示します。角度 0 は完全な位置合わせを示します。角度が pi/2 に近づくと、観測された主部分空間が予想される主部分空間に直交していることを示します。
15 度 (0.26 ラジアン) を超える部分空間角度は、当社の財務証拠データセットでは異常です。 30 度 (0.52 ラジアン) を超える角度は、ほぼ確実に証拠の構造操作を示します。
5.6 複合異常スコア
スペクトル ギャップ スコア、固有値分布テスト、ノイズ フロア膨張率、および固有ベクトルの回転を組み合わせて、複合スペクトル異常スコアを作成します。
ここで、w_1、w_2、w_3、w_4 は、合計が 1 になる校正済みの重みです (通常の値: w_1 = 0.25、w_2 = 0.20、w_3 = 0.30、w_4 = 0.25)。複合スコアは、スペクトル異常に関する 4 つの直交する観点を組み合わせて、個々の信号が弱い場合でも確実な検出を提供します。 CSAS がしきい値 theta_CSAS を超えると、監査エスカレーションがトリガーされます。
6. スペクトルギャップと誤検出率の相関
6.1 監査コンテキストにおける誤検出率の定義
監査テストでは、誤検出率 (FDR) は、すべてのフラグ付き項目のうち、実際に本物である (誤検知) フラグ付き証拠項目の割合です。監査で 100 個の証拠アイテムに不審なフラグが付けられた場合、FDR が 10% であるということは、それらのアイテムのうち 10 個が実際に正当であることを意味します。これは、不必要な調査作業と通常の業務への潜在的な混乱によって発生するコストです。
FDR は、誤ってフラグが立てられた本物のアイテムの割合を測定する誤検知率 (FPR) とは異なります。詐欺などのまれなイベント (通常、基本レートは証拠アイテムの 1% ~ 5%) の場合、FDR が FPR より大幅に高くなる可能性があります。不正蔓延率 2% の母集団に 2% の FPR を適用したテストでは、約 50% の FDR が生成されます。つまり、すべてのフラグの半分が誤報です。
6.2 スペクトルギャップと FDR の関係
スペクトルギャップとスペクトル異常検出の誤発見率の間の理論的な関係を導き出します。重要な洞察は、スペクトル ギャップの識別力が本物の固有値分布と捏造された固有値分布の間の分離に依存するということです。
定理 (スペクトル ギャップ-FDR 境界)。 Delta_A と Delta_F を、それぞれ本物の証拠相関行列と捏造された証拠の相関行列のスペクトル ギャップとする。 sigma_A と sigma_F を各分布のスペクトル ギャップの標準偏差とします。スペクトル ギャップしきい値 theta が theta = Delta_A - z_alpha * sigma_A (z_alpha は有意水準 alpha の標準正規分位数) に設定されている場合、誤検出率は次の条件を満たします。
ここで、pi_F は捏造された証拠セットの蔓延率、α は有意水準、(1 - β) は検定の検出力 (捏造を正しく検出する確率) です。
証明スケッチ。 正規分布におけるスペクトル ギャップは、順序固有値の比に適用される中心極限定理 (n が大きい場合に有効) によって、Delta_A ~ N(mu_A, sigma_A^2) に従います。捏造された分布では、Delta_F ~ N(mu_F, sigma_F^2) であり、mu_F は mu_A に等しくありません。 FDR は、総陽性数に対する偽陽性の比率です: FDR = FP / (FP + TP) = alpha(1 - pi_F) / (alpha(1 - pi_F) + (1 - beta) pi_F)。パワー (1 - ベータ) は分離 |mu_A - mu_F| に依存します。 / sqrt(sigma_A^2 + sigma_F^2)。これは、製造によって引き起こされるスペクトル ギャップ歪みによって決まります。
6.3 実践的な FDR キャリブレーション
実際には、理論上の限界のみに依存するのではなく、経験的に FDR を調整します。校正手順は次のように進みます。
1. 検証された本物の証拠セットの参照コーパスを収集します (通常、クリーンな結果が確認された以前の監査からの 100 ~ 500 セット)。 2. 本物のモデルに基づいてスペクトル ギャップ分布を計算します。mu_A と sigma_A を推定します。 3. 合成製造モデル (セクション 8) を使用して、製造された証拠セットを生成し、製造中のスペクトル ギャップ分布を計算します。mu_F と sigma_F を推定します。 4. 候補しきい値シータごとに、保持された検証セットで経験的な FDR を計算します。 5. ターゲット FDR を達成するためのシータを選択します (通常、スクリーニングの場合は 5%、エスカレーションの場合は 1%)。
6.4 ECS-FDR 曲線
証拠一貫性スコア (ECS) は、FDR を制御するための継続的なメトリックを提供します。 ECS しきい値を 0 から 1 まで変化させることで、ROC 曲線に類似した FDR 感度曲線を描きます。
ここで、分子の合計は、誤ってフラグが付けられた本物の証拠セットをカウントし (ECS がしきい値を下回っている場合は、異常を意味します)、分母の合計は、フラグが付けられたすべての証拠セットをカウントします。
財務諸表監査の実験では、ECS しきい値を tau_ECS = 0.72 に設定すると、89.3% の捏造検出率 (感度) で 5% の FDR が達成されました。しきい値を tau_ECS = 0.65 に下げると、検出率 94.7% で FDR 2.3% が達成されます。 tau_ECS 約 0.68 の変曲点は、ほとんどの監査アプリケーションにとって最適な動作点を表します。
6.5 従来の監査 FDR との比較
従来の監査方法 (サンプリング、比率分析、ベンフォードの法則) では、同等の検出率で大幅に高い FDR が生成されます。
| Method | Detection Rate | FDR | AUC |
|---|---|---|---|
| Statistical Sampling | 42.1% | 18.7% | 0.624 |
| Benford's Law | 55.8% | 14.2% | 0.741 |
| Three-way Matching | 63.4% | 11.8% | 0.779 |
| Ratio Analysis | 58.2% | 12.9% | 0.756 |
| Combined Rule-Based | 71.3% | 9.6% | 0.824 |
| Spectral Analysis (ECSA) | 94.7% | 2.3% | 0.983 |
スペクトルアプローチは、ルールベースのベースラインを最適に組み合わせたものと比べて、検出率が 33% 高く、FDR が 76% 低くなります。この改善は、スペクトル手法の基本的な利点に由来しています。スペクトル手法は、特定のルールに照らして個々のアイテムをテストするのではなく、全体的な相関パターンの構造異常を検出します。
7. 製造パターンの検出: 合成証拠署名
7.1 製造方法の分類
証拠の捏造は一枚岩ではありません。製造方法が異なれば、スペクトル特性も異なります。この分類法を理解することは、単一の製造タイプにオーバーフィットしない堅牢な検出システムを構築するために不可欠です。
タイプ 1: ランダム製造。 製造者は、各属性の周辺統計 (平均、分散、歪度) に一致する独立したランダム分布から証拠属性を生成します。これは最も大雑把な方法です。単変量チェックには合格しますが、相関構造が存在しないため、多変量一貫性には失敗するという証拠が生成されます。スペクトル シグネチャ: 劇的に平坦化された固有値スペクトル (すべての固有値が 1.0 に向かってシフト)、高いノイズ フロアの膨張 (NFIR > 3.0)、ほぼゼロのコヒーレンス スコア。
タイプ 2: テンプレートの作成 作成者は、本物の証拠アイテムの少数のセットをテンプレートとして使用し、特定の属性 (金額、日付、取引相手) を変更しながら、その他の属性を保持します。これにより、テンプレート属性の相関構造とほぼ一致する証拠が得られますが、属性の組み合わせの繰り返し、過度に規則的な間隔、変更された属性の疑わしいほど低い分散など、体系的なパターンが導入されます。スペクトル シグネチャ: スペクトル ギャップが大きすぎます (テンプレートの繰り返しによって支配的な固有値が大きくなります)、ノイズ フロアがわずかに上昇し、固有ベクトルの回転が最小限になります。
タイプ 3: 相関を意識した製造。 製造者は、本物の証拠から相関行列を推定し、この相関構造を使用した多変量正規分布から合成証拠を生成します。これは最も洗練された一般的な方法です。これは、本物の分布の最初の 2 つのモーメント (平均と共分散) をほぼ保存します。スペクトル シグネチャ: 固有値の大きさはほぼ正しいですが、高次の統計 (尖度、尾部の動作) が間違っており、ノイズ固有値に微妙な偏差が生じます。 NFIR はわずかに上昇しています (1.2 ~ 1.5)。最も信頼できる検出信号は、正確なヌル空間制約が存在しないことです。製造者が決定論的な会計アイデンティティを強制していないため、最小の固有値が大きすぎます。
タイプ 4: プロセスを意識した製造。 製造者は、決定論的な制約を含む、基礎となる経済プロセスを理解し、再現します。これはスペクトル的に検出するのが最も困難です。スペクトルの特徴は最小限であり、捏造は本物の証拠に非常に近似しています。検出は高次スペクトル分析 (セクション 7.5) と外部整合性チェックに依存します。スペクトル分析のみでは、タイプ 1 および 2 の検出率が 99% 以上であるのに対し、タイプ 4 の製造では約 65% の検出率が達成されます。
7.2 スペクトル指紋
各製造タイプは、特徴的な スペクトル フィンガープリント、つまり分類に使用できる固有値スペクトルのパターンを生成します。スペクトル フィンガープリントを、固有値スペクトルから導出された特徴ベクトルとして表します。
ここで、Delta はスペクトル ギャップ、NFIR はノイズ フロアの膨張率、d_eff は有効次元、theta は主部分空間角度、kappa_4 は固有値分布の尖度、lambda_d/lambda_1 は条件数、最後の項はノイズ固有値の累積重みです。
これら 7 つのスペクトル特徴に基づいてトレーニングされた単純なロジスティック回帰分類器は、4 つの製造タイプ全体で 91.2% の分類精度を達成します。勾配ブーストされたアンサンブルは 96.8% を達成します。最も識別的な特徴は、NFIR (タイプ 1 およびタイプ 3 の場合)、スペクトル ギャップ デルタ (タイプ 2 の場合)、および条件数 (タイプ 4 の場合) です。
7.3 部分的な製造の検出
実際には、捏造によって証拠セット全体が汚染されることはほとんどありません。詐欺師は通常、本物のアイテムの大部分の中に捏造したアイテムを埋め込みます。これを部分捏造と呼びます。課題は、大規模な本物の集団の中から少数の捏造アイテム (通常はセットの 5% ~ 20%) を検出することです。
部分的な製造のスペクトルへの影響は、汚染率に比例します。 p を証拠セット内の捏造されたアイテムの割合とします。摂動相関行列はおよそ次のようになります。
C_mixed の固有値は、C_auth の固有値から約 p * (C_fab の固有値 - C_auth の固有値) だけ一次的にずれています。スペクトル ギャップが検出可能なほど乱れるためには、汚染率が最小しきい値を超える必要があります。
ここで、sigma_Delta は、本物の分布におけるスペクトル ギャップの標準偏差です。タイプ 1 の製造では、p_min は約 0.02 (2% 汚染) です。タイプ 3 の製造では、p_min は約 0.08 (8% 汚染) です。タイプ 4 の製造では、p_min は約 0.15 (15% の汚染) です。
これらのしきい値を下回ると、スペクトル分析だけでは製造を確実に検出できません。これらのしきい値を超えると、検出率は汚染率とともに急速に増加し、2 * p_min でほぼ確実に達します。
7.4 加工品のローカリゼーション
(複合スペクトル異常スコアによって) 証拠セットに捏造が含まれていることを検出した後、次のステップは捏造アイテムの位置特定、つまりどの特定の証拠アイテムが捏造されている可能性があるかを特定することです。
各証拠アイテムのてこ比スコアを使用して、スペクトル異常への寄与を推定します。証拠アイテム i の活用スコアは次のとおりです。
高いてこ比スコアを持つ項目は、スペクトル構造に不釣り合いな影響を与えます。本物と捏造の混合セットでは、捏造されたアイテムは、本物の相関構造によって十分に表現されない証拠空間の領域に位置するため、レバレッジ スコアが高くなる傾向があります。
レバレッジスコアによって証拠アイテムをランク付けし、上位パーセンタイルを調査することにより、監査人は最も捏造された可能性の高いアイテムに調査を集中させることができます。私たちの実験では、汚染率が 10% の場合、レバレッジ スコアの上位 10% には、加工品の 78% が含まれています。
7.5 高次スペクトル解析
タイプ 4 (プロセス認識) 製造を検出するには、製造者が構造によって 2 次統計と一致するため、2 次スペクトル分析 (相関行列の固有分解) では不十分です。検出には、証拠分布の 4 次統計を調べる 高次スペクトル分析 が必要です。
R^{d x d x d x d} の スペクトル尖度 テンソル K は、証拠属性の 4 次キュムラントを捕捉します。
多変量正規証拠 (相関を意識した捏造が生成するもの) の場合、K は同様にゼロです。非ガウス経済プロセス (取引額は対数正規分布またはパレート分布に従い、タイムスタンプは混合分布に従います) によって生成された本物の証拠の場合、K は特徴的な非ゼロ パターンを持ちます。
K のテンソル固有値は、高次 SVD またはテンソル分解によって取得され、4 次構造のスペクトル フィンガープリントを提供します。相関構造と一致するが、ガウス モデルから生成された捏造された証拠は、異常に小さいテンソル固有値を生成します。この高次のスペクトル ギャップは、高度な製造を検出するための最も信頼できる信号です。
実際には、完全な尖度テンソルの計算には空間で O(d^4)、時間で O(nd^4) が必要であり、d が大きい場合は法外です。 ランダム投影を使用して、高次の統計を計算する前に次元を削減します。ランダムなガウス投影を使用して証拠を k 次元部分空間 (k 約 10) に投影し、投影された空間 (現在は O(k^4) のみ) の尖度テンソルを計算し、投影された参照尖度と比較します。
8. MARIA OS 証拠層との統合
8.1 スペクトル入力としての証拠バンドル
MARIA OS は、ガバナンス パイプライン内のあらゆる意思決定に対して、不変の SHA-256 完全性で保護された証拠バンドルを作成する証拠エンジン (「lib/engine/evidence.ts」) を実装します。各証拠バンドルには、入力パラメーター、環境状態、トリガーとなるイベント、適用されるポリシー、実行ログ、結果ステータス、結果アーティファクト、下流効果などの構造化フィールドが含まれます。これらのフィールドは、スペクトル分析の証拠ベクトル属性に直接マッピングされます。
MARIA OS 証拠バンドル フィールドから証拠ベクトル コンポーネントへのマッピングは次のとおりです。
| Bundle Field | Vector Components | Encoding |
|---|---|---|
| inputParameters | Numerical parameters as-is; categorical parameters one-hot encoded | d_input dimensions |
| environmentalState | System metrics normalized to [0,1]; temporal features as cyclic encodings | d_env dimensions |
| policiesApplied | Policy ID embeddings; count of policies; constraint stringency score | d_policy dimensions |
| executionLog | Step count; duration; error rate; resource utilization | d_exec dimensions |
| outcomeStatus | One-hot encoding of {success, fail, pending} | 3 dimensions |
| outcomeArtifacts | Artifact count; size distribution statistics | d_artifact dimensions |
一般的な MARIA OS 証拠バンドルは、エンコード後に d = 25 ~ 45 次元のベクトルを生成します。正確な次元は、意思決定のタイプと、組織ゾーンに設定された証拠スキーマによって異なります。
8.2 コヒーレンス・ゲートのアーキテクチャ
スペクトル分析は、MARIA OS 意思決定パイプライン内で自動化された コヒーレンス ゲートとして機能します。ゲートは証拠収集段階と決定実行段階の間にあります。
Evidence Collection -> Spectral Analysis Gate -> Execution
|
[CSAS < theta] -> Pass (proceed to execution)
[CSAS >= theta] -> Fail (escalate to human review)コヒーレンス ゲートは、蓄積された証拠バンドルのスペクトル特性を、意思決定タイプと組織ゾーンの参照プロファイルに対して評価します。複合スペクトル異常スコア (CSAS) が設定されたしきい値シータを超える場合、決定は「approval_required」状態に移行し、実行前に人間によるレビューが強制されます。
このゲートは、既存の MARIA OS 意思決定パイプライン ステート マシン (lib/engine/decion-pipeline.ts) と統合されます: 「提案 -> 検証済み -> [spectral_coherence_check] -> 承認/承認要求 -> 実行 -> 完了/失敗」。スペクトル チェックは、「requiresCoherenceCheck: true」でタグ付けされたデシジョン タイプに対して自動的に実行される検証サブステップです。
8.3 MARIA 座標系のスコープ設定
証拠の一貫性プロファイルの範囲は、MARIA 座標系階層に限定されます。各組織単位は、独自の基準スペクトル プロファイルを維持します。
- 銀河レベル (G): 企業全体のベースライン固有値分布。ゾーン固有のプロファイルが不十分な場合のフォールバックとして使用されます。
- ユニバース レベル (U): セクター固有の相関パターンを捉えたビジネス ユニット プロファイル (例: 金融ユニバースには、業務ユニバースとは異なる予想される相関関係があります)。
- プラネット レベル (P): 予想される最も詳細なスペクトル シグネチャを含むドメイン固有のプロファイル (調達、コンプライアンス、HR)。
- ゾーン レベル (Z): ローカル プロセスの変動を考慮した運用単位プロファイル。東京の調達ゾーンでは、ニューヨークの調達ゾーンとは異なるベンダー パターンが存在する場合があります。
証拠の一貫性を評価する場合、システムは利用可能な最も具体的なプロファイルを使用します。ゾーンレベルのプロファイルが調整されている場合 (少なくとも 50 の本物の証拠セットが必要)、それが使用されます。それ以外の場合、システムは Planet、Universe、または Galaxy プロファイルに戻ります。この階層フォールバックにより、十分なローカル キャリブレーション データが不足している新しく作成された組織単位でもスペクトル分析を利用できるようになります。
8.4 リアルタイムのコヒーレンス監視
MARIA OS は、決定ごとのゲーティングを超えて、証拠ストリームの継続的なスペクトル監視をサポートします。証拠ストリームは、ゾーンまたはエージェントによって生成された証拠バンドルの時系列シーケンスです。継続的なモニタリングにより、証拠ストリームのスペクトル特性が時間の経過とともにどのように変化するかを追跡します。
は、最新の w 証拠セット (通常は w = 50 ~ 200) に対して計算されたスライディング ウィンドウ相関行列です。 ECS(t) の時間的軌跡は、段階的なコヒーレンス ドリフトを明らかにします。これは、静的なしきい値検出を回避するように適応して製造が進化していることを示す可能性のあるゆっくりとした劣化です。
コヒーレンス ドリフト アラートは、継続期間にわたって d(ECS)/dt < -epsilon (イプシロンは感度パラメータ) の場合にトリガーされます。 30 日間で 0.05 を超えて低下したコヒーレンス スコアは、絶対スコアが異常しきい値を超えたままであっても、調査対象としてフラグが立てられます。
8.5 証拠ハッシュチェーンの整合性
MARIA OS 証拠バンドルは、SHA-256 ハッシュ (「lib/engine/evidence.ts」の「computeAuditHash」) で整合性が保護されています。スペクトル分析により、補完的な整合性の次元が追加されます。個々のバンドル ハッシュが有効であっても (各バンドルが改ざんされていない)、バンドル セットのスペクトル コヒーレンスによって、ハッシュ レベルの整合性では検出できない不整合が明らかになる可能性があります。
悪意のある攻撃者が、集合的に一貫性のないセットを形成する 50 個の個別に有効な証拠バンドルを作成するシナリオを考えてみましょう。各バンドルはハッシュ検証に合格します。しかし、50 バンドル セットのスペクトル分析では、異常な固有値分布、ノイズ フロアの上昇、およびコヒーレンス スコアの低さが明らかになりました。ハッシュ チェーンは項目ごとの整合性を保証します。スペクトル分析により、セットレベルの一貫性が保証されます。これらを組み合わせることで、アイテムレベルの改ざんとセットレベルの捏造の両方に対する多層防御が提供されます。
9. ケーススタディ:財務諸表監査
9.1 セットアップ
私たちは、SaaS 企業の四半期決算プロセスからの 12,400 の収益認識証拠セットのデータセットを使用して、財務諸表監査シナリオに基づいて ECSA を評価します。各証拠セットには、契約金額、認識された収益金額、繰延収益金額、契約開始日、契約期間、顧客セグメント コード、製品ライン コード、支払条件、請求頻度、割引率、営業担当者 ID、承認レベル、予約日、認識日、現金受領日、現金化までの日数、ASC 606 履行義務数、独立販売価格配分、変動対価推定、使用指標 (該当する場合)、更新確率、契約変更数、クレジット メモ数、収益取消の 32 の属性が含まれています。カウント、会社間フラグ、関連当事者フラグ、地域コード、通貨コード、適用される為替レート、税務管轄区域、および監査証跡の長さ。
9.2 汚染プロトコル
制御された汚染率 (0%、2%、5%、10%、20%) で捏造された証拠を注入します。製造モデルは、セクション 7.1 の 4 つのタイプすべてをカバーしています。汚染率と製造タイプごとに、100 個の汚染証拠セットを生成し、2,000 の実験条件 (5 レート x 4 種類 x 100 回の反復) を生成します。
捏造された収益認識の証拠は、もっともらしいものになるように設計されています。つまり、捏造された契約書は会社の通常の範囲内の現実的な値を持ち、顧客セグメント コードは製品ライン コードと確率的に一致し、日付は典型的な四半期の予約パターンに従います。さらに、タイプ 3 とタイプ 4 の製造は、それぞれ推定された相関構造と決定論的な会計制約と一致します。
9.3 検出結果
| Contamination Rate | Type 1 Detection | Type 2 Detection | Type 3 Detection | Type 4 Detection | Overall Detection |
|---|---|---|---|---|---|
| 2% | 97.0% | 88.0% | 34.0% | 12.0% | 57.8% |
| 5% | 100.0% | 96.0% | 72.0% | 38.0% | 76.5% |
| 10% | 100.0% | 99.0% | 93.0% | 62.0% | 88.5% |
| 20% | 100.0% | 100.0% | 99.0% | 80.0% | 94.7% |
運用上関連する汚染率が 10% ~ 20% (製造が重大な経済的影響を与える範囲) の場合、全体の検出率は 88.5% ~ 94.7% になります。タイプ 1 およびタイプ 2 の製造は、すべての汚染率でほぼ確実に検出されます。タイプ 3 の検出は、10% の汚染で 90% を超えます。タイプ 4 は依然として最も困難であり、信頼性の高い検出には 10% 以上の汚染と高次スペクトル法が必要です。
9.4 コンポーネントの寄与分析
どのスペクトル成分が検出に最も寄与しているかを理解するために、各成分を個別に、または組み合わせて評価します。
| Component | AUC (10% contamination) |
|---|---|
| Spectral Gap Score only | 0.871 |
| NFIR only | 0.912 |
| Eigenvector Rotation only | 0.843 |
| Anderson-Darling only | 0.856 |
| Composite (all four) | 0.983 |
ノイズ フロア膨張率 (NFIR) は、単一の最も識別力の高いコンポーネントであり、ノイズ固有値の制約違反が最も信頼できる製造信号であるという理論的予測が裏付けられます。複合スコアは個々のコンポーネントを大幅に上回っており、4 つのスペクトルの視点が冗長ではなく補完的であることを示しています。
9.5 誤検知分析
12,400 の本物の証拠セット (汚染率 0%) のうち、ECSA は 285 (2.3%) に異常としてフラグを立てます。これらの誤検出を手作業で調査したところ、67% (285 件中 191 件) に、大規模な契約変更、複数年にわたる遡及調整、非標準条件の会社間取引など、本物ではあるが異常なビジネス シナリオが含まれていることが明らかになりました。これらは、本物ではありますが、基礎となるビジネス取引自体が異常であったため、異常なスペクトル特性を示す証拠セットです。
この発見は、スペクトル異常フラグ付けには不正行為の検出を超えた価値があることを示唆しています。これにより、不正であるかどうかに関係なく、レビューに値する異常なトランザクションが表面化します。誤検知の残りの 33% (285 件中 94 件) は、通常の統計的変動によるアーチファクトであり、異常なビジネス イベントには対応しません。
9.6 既存の監査ツールとの比較
ECSA を、2 つの商用監査分析プラットフォーム (プラットフォーム A およびプラットフォーム B として匿名化) および会社の内部監査チームが使用するカスタム ルールベースのシステムと比較します。
| System | Detection Rate (10% cont.) | FDR | Avg. Review Time per Flag |
|---|---|---|---|
| Platform A (rule-based) | 61.2% | 12.4% | 45 min |
| Platform B (ML-based) | 73.8% | 8.7% | 35 min |
| Internal Rules | 58.4% | 15.1% | 55 min |
| ECSA | 88.5% | 2.3% | 20 min |
ECSA は最高の検出率と最低の FDR を実現します。 FDR が低いと、レビューの負担が軽減されます。誤検知が少なくなるので、監査人が正当な取引の調査に費やす時間が短縮されます。また、スペクトル分析により構造化された診断情報 (どの固有値が異常か、どの固有ベクトルが回転したか、どの証拠項目が高い影響力を持つか) が提供されるため、監査人は手作業での探索を必要とせずに、異常を直接発見することができるため、フラグごとの平均レビュー時間も短縮されます。
10. 計算の複雑さとストリーミングアルゴリズム
10.1 バッチの複雑さ
単一の証拠セットに対する完全な ECSA パイプラインの計算の複雑さは、相関行列の構築とその固有分解の計算という 2 つの操作によって支配されます。
相関行列の構築: C = (1/(n-1)) X^T X の計算には O(n * d^2) 個の浮動小数点演算が必要です。ここで、n は証拠項目の数、d は属性の数です。一般的な値 (n = 10,000、d = 30) の場合、これは約 900 万回の操作に相当し、最新のハードウェアではわずかです。
固有分解: d x d 相関行列の完全な固有分解を計算するには、O(d^3) の演算が必要です。 d = 30 の場合、これは 27,000 回の操作に相当します。 d = 100 の大規模な証拠スキーマであっても、固有分解は 100 万回の操作であり、それでも無視できます。
バッチの合計複雑さは O(n * d^2 + d^3) で、n >> d の行列構築 (典型的な場合) または d >> n の固有分解 (通常ではありませんが、項目が少ない幅広い証拠スキーマでは可能です) によって支配されます。
n = 10,000、d = 30 の単一の証拠セットの場合、ECSA パイプライン全体は単一の CPU コアで 50 ミリ秒未満で完了します。これは、知覚できる遅延を引き起こすことなく、MARIA OS 意思決定パイプラインでの同期インライン評価にとって十分な速度です。
10.2 ストリーミング固有値更新
証拠ストリームをリアルタイムで監視する場合、新しい証拠アイテムごとに完全な固有分解を再計算するのは無駄です。新しい証拠が到着するとスペクトル分解を更新する インクリメンタル SVD アルゴリズムを使用します。
新しい証拠アイテム e_{n+1} が証拠行列 X に追加されると、更新された相関行列は次のようになります。
これは C に対するランク 1 の更新です。 C_{n+1} の固有分解は、固有値インターレース定理 と 永年方程式 を使用して、C_n の固有分解から計算できます。
ここで、 z_k = v_k^T * e_tilde_{n+1} は既存の固有ベクトルへの新しい証拠の投影であり、mu は新しい固有値です。永年方程式を解くには、完全な再計算の場合は O(d^3) ですが、更新ごとに O(d^2) の操作 (有理関数の d 乗根を求める) が必要です。 d = 30 の場合、これは更新ごとに 30 倍の高速化になります。
10.3 大規模な証拠セットのランダム化 SVD
n または d が非常に大きい (n > 100,000 または d > 1,000) 証拠セットの場合、相関行列を形成するコストが O(n d^2) であっても重要になります。 ランダム化 SVD は、O(n d k + k^2 d) 演算で近似の固有分解を提供します。ここで、k は計算する固有値の数です (通常、スペクトル異常検出には k = 10 ~ 20 で十分です)。
ランダム化 SVD アルゴリズムは次のように処理されます。
1. R^{d x k} でランダムなガウス行列 Omega を生成します。 2. Y = X オメガを形成します (コスト: O(n d k))。 3. QR 分解 Y = Q R (コスト: O(n k^2)) を計算します。 4. 形式 B = Q^T X (コスト: O(n d k))。 5. B の SVD (k x d 行列) を計算します: B = U_B Sigma_B V_B^T (コスト: O(k^2 * d))。 6. 近似固有ベクトルは V_B、固有値は Sigma_B^2 / (n-1) です。
近似誤差は (k+1) 番目の特異値によって制限されます。上位 k 個の固有値の相対誤差は最大でも O(sigma_{k+1} / sigma_k) です。明らかな信号とノイズのギャップがある証拠行列の場合、この誤差は無視できます。
当社のストリーミング実装では、ランダム化 SVD が 1 つの GPU ノードで 1 秒あたり 12,000 の証拠バンドルを処理し、高スループットの証拠ストリームのリアルタイム スペクトル モニタリングを可能にします。
10.4 メモリ効率
ストリーミング アプリケーションの場合、n x d の完全な証拠行列 X をメモリ内に維持することは、n が大きい場合には非現実的です。私たちは スケッチ アンド ソルブ アプローチを使用します。つまり、スペクトル構造を保存する証拠マトリックスの圧縮されたスケッチを維持します。
Frequent Directions アルゴリズムは、X の列空間を近似するスケッチ S を R^{l x d} (l = 2k) に維持します。新しい証拠ベクトルが到着するたびに、それが S に追加されます。 S がフル (l 行) の場合、SVD が計算され、最小の特異ベクトルが削除されます。結果のスケッチは次の条件を満たします。
l = 40 および k = 10 の場合、処理される証拠アイテムの数に関係なく、スケッチには 40 * d 浮動小数点のメモリのみが必要です (d = 30 の場合は約 5 KB)。これにより、一定のメモリを備えた無制限の長さの証拠ストリームのスペクトル分析が可能になります。
10.5 ゾーン間の並列化
MARIA OS アーキテクチャでは、証拠分析は組織のゾーン全体で自然に並列化できます。各ゾーンは、独自の証拠ストリームとスペクトル プロファイルを維持します。ゾーン Z1 のスペクトル分析はゾーン Z2 のスペクトル分析から独立しているため、ゾーン階層全体で驚くほど並列実行が可能になります。
クロスゾーンスペクトル分析(複数のゾーンにわたる証拠の集合体におけるコヒーレンス異常を検出)には、ゾーンごとの相関行列を組み合わせる必要があります。結合された相関行列は重み付けされた合計です。
ここで、n_z はゾーン z 内の証拠アイテムの数、N = sum(n_z) は合計です。この組み合わせは、ゾーンごとのマトリックスが更新されるにつれて段階的に計算できるため、すべての証拠データを一元管理する必要がなくなります。
11. ベンチマーク
11.1 ドメイン全体の検出精度
ECSA を 4 つの監査ドメイン (収益認識、調達、経費報告、企業間取引) にわたって評価し、一般化可能性を評価します。
| Domain | Evidence Items (n) | Attributes (d) | AUC | Detection Rate (10% cont.) | FDR |
|---|---|---|---|---|---|
| Revenue Recognition | 12,400 | 32 | 0.983 | 88.5% | 2.3% |
| Procurement | 28,600 | 28 | 0.971 | 86.2% | 3.1% |
| Expense Reporting | 45,200 | 22 | 0.956 | 82.7% | 4.0% |
| Intercompany | 8,100 | 38 | 0.978 | 87.9% | 2.6% |
パフォーマンスはどのドメインでも一貫して好調です。収益認識と会社間取引は最も高い AUC を示します。これは、これらのドメインが最も強力な固有の相関構造 (多くの決定的な会計上の制約) を持っているためです。経費レポートの AUC が最も低いのは、個々の経費項目に必須の属性間制約が少なく、制約違反によるスペクトル シグナルが減少するためです。
11.2 スケーリングパフォーマンス
計算複雑性分析を検証するために、証拠セットのサイズと属性の次元の関数としてスループットを測定します。
| n (evidence items) | d (attributes) | Batch Time (ms) | Throughput (sets/sec) | Memory (MB) |
|---|---|---|---|---|
| 1,000 | 30 | 8 | 125 | 0.5 |
| 10,000 | 30 | 47 | 21 | 4.8 |
| 100,000 | 30 | 420 | 2.4 | 48 |
| 10,000 | 100 | 310 | 3.2 | 16 |
| 10,000 | 300 | 2,800 | 0.36 | 48 |
バッチ処理は、n (O(nd^2) の複雑さによって予測される) に応じて線形にスケールし、d (O(d^3) 固有分解によって予測されるように) に応じて 3 次的にスケールします。一般的な動作体制 (n 約 10,000、d 約 30) では、処理は 50 ミリ秒未満で完了します。これは、同期意思決定パイプライン評価の待ち時間バジェットの範囲内に十分収まります。
GPU でランダム化された SVD を使用するストリーミングの場合:
| Evidence Stream Rate | Latency per Bundle | Throughput | GPU Utilization |
|---|---|---|---|
| 1,000 bundles/sec | 0.08 ms | 12,500 bundles/sec | 8% |
| 5,000 bundles/sec | 0.08 ms | 12,500 bundles/sec | 40% |
| 10,000 bundles/sec | 0.09 ms | 11,100 bundles/sec | 80% |
| 15,000 bundles/sec | 0.12 ms | 8,300 bundles/sec | 95% |
ストリーミング実装は、GPU 使用率が最大 80% になるまで、ミリ秒未満の遅延で 1 秒あたり 12,000 以上のバンドルを維持します。さらに、キューイングの影響によりレイテンシーが増加しますが、スループットは飽和状態でも 1 秒あたり 8,000 バンドルを超えています。
11.3 ベースライン手法との比較
私たちは、4 つの監査ドメインすべてにわたって 5 つのベースライン手法に対して ECSA をベンチマークします。この表は、ドメイン全体の平均 AUC を報告します。
| Method | Mean AUC | Mean Detection Rate | Mean FDR | Compute Time (ms) |
|---|---|---|---|---|
| Benford's Law | 0.689 | 48.3% | 16.8% | 2 |
| Ratio Analysis | 0.712 | 53.1% | 14.2% | 5 |
| Three-way Matching | 0.741 | 58.9% | 11.3% | 12 |
| Isolation Forest | 0.798 | 67.4% | 8.9% | 85 |
| Autoencoder Anomaly | 0.847 | 74.2% | 6.1% | 210 |
| **ECSA (ours)** | **0.972** | **86.3%** | **3.0%** | 47 |
ECSA は、競争力のある計算コストを維持しながら、最高の AUC、検出率、最低の FDR を実現します。オートエンコーダーのベースラインは妥当な検出を実現しますが、4 倍の計算時間が必要となり、2 倍の FDR が生成されます。古典的な方法 (ベンフォード、比率分析、3 方向マッチング) は高速ですが、精度は大幅に劣ります。
11.4 ハイパーパラメータに対する感度
ECSA の主要なハイパーパラメータ、つまり複合スコアの重み (w_1 ~ w_4)、異常しきい値 theta_CSAS、およびストリーミング分析のスライディング ウィンドウ サイズ w に対する感度を評価します。
| Hyperparameter | Default | Range Tested | AUC Range | Sensitivity |
|---|---|---|---|---|
| w_1 (SGS weight) | 0.25 | [0.10, 0.40] | [0.968, 0.983] | Low |
| w_2 (A-D weight) | 0.20 | [0.10, 0.35] | [0.970, 0.983] | Low |
| w_3 (NFIR weight) | 0.30 | [0.15, 0.45] | [0.961, 0.985] | Moderate |
| w_4 (rotation weight) | 0.25 | [0.10, 0.40] | [0.965, 0.983] | Low |
| theta_CSAS | 0.35 | [0.20, 0.50] | N/A | Affects FDR/sensitivity tradeoff |
| Window size w | 100 | [30, 500] | [0.959, 0.981] | Low |
この方法は、ハイパーパラメータの変動に対して堅牢です。 AUC は、テストされたすべての構成にわたって 0.96 を超えています。最も敏感なパラメータは NFIR 重み w_3 です。これは、NFIR が最も識別力の高い単一のコンポーネントであることを考慮すると当然のことです。異常しきい値 theta_CSAS は、(予想どおり) FDR に対する感度をトレードオフしますが、基礎となる AUC には影響しません。
12. 今後の方向性
12.1 時間スペクトル分析
現在のフレームワークは、各証拠セットを静的なスナップショットとして扱います。自然な拡張は 時間スペクトル分析 です。これは、単一の組織ゾーン内で固有値スペクトルが時間の経過とともにどのように変化するかを追跡します。本物の証拠ストリームは、スペクトルのゆっくりとした進化を示します (ビジネス プロセスが徐々に変化するため)。突然のスペクトルの変化 (コヒーレンス スコアの急速な変化、ノイズ フロアの不連続なジャンプ、主固有ベクトルの急激な回転) は、本物の証拠から捏造された証拠への移行を示している可能性があります。
数学的枠組みは自然に拡張され、時変固有値スペクトル Lambda(t) を計算し、スペクトル速度を定義します。
異常なスペクトル速度 (ドメインの予想されるドリフト レートよりも速く変化する固有値) は、調査を正当化する証拠生成プロセスの構造変化を示しています。
12.2 クロスゾーンスペクトル相関
大企業では、不正は組織の境界を越えて現れることがよくあります。あるゾーンでの調達不正が、調達ゾーンと買掛金ゾーンの両方でスペクトル異常を引き起こす可能性があります。 クロスゾーンスペクトル相関は、ゾーン間のスペクトル異常スコア間の相関を計算することでこれを検出します。
ゾーン間のスペクトル相関が高い場合は、調整された異常を示しています。これは、単一ゾーン分析では見逃してしまう機能横断的な不正行為の強力なシグナルです。
12.3 敵対的な堅牢性
スペクトル分析を理解する高度な攻撃者は、固有値スペクトルを保存する捏造された証拠の構築を試みる可能性があります。これは、敵対的機械学習のスペクトルの類似物です。今後の研究では、スペクトル回避空間 (区別できない固有値スペクトルを生成する捏造された証拠セットのセット) を特徴づけ、(追加のスペクトル特徴を組み込むことで) この空間を縮小するか、回避を計算上実行不可能にする防御手段を開発する必要があります。
予備分析では、固有値スペクトル、固有ベクトルの向き、てこ比スコア分布、および 4 次の尖度テンソルを同時に照合することは計算的に困難であることが示唆されています。製造者は O(d^4) 個の非線形制約系に直面しており、これを正確に満たすのは NP 困難である可能性があります。これにより、ある程度の固有の堅牢性が提供されますが、形式的な硬度の結果は未解決の問題です。
12.4 因果スペクトル分析
現在のフレームワークは、相関構造の統計的異常を検出しますが、異常の背後にある因果メカニズムは特定しません。 因果スペクトル分析は、因果グラフ構造、つまり証拠属性間の因果関係の有向非巡回グラフ (DAG) を組み込むことによってフレームワークを拡張します (例: 注文書が請求書を引き起こし、それが支払いを引き起こします)。
相関行列を(FCI アルゴリズムや PC アルゴリズムなどの因果推論の手法を使用して)因果成分と非因果成分に分解することにより、因果関係の違反によって引き起こされるスペクトル異常(強力な製造信号)と、異常ではあるが因果関係が有効な証拠によって引き起こされる異常(真のビジネス変動)を区別できます。この改良により、検出力を維持しながら偽陽性率がさらに低減されます。
12.5 大規模言語モデルとの統合
有望な方向性は、LLM を使用してスペクトル異常の自然言語説明を生成することです。異常な証拠セットのスペクトル フィンガープリントを考慮すると、LLM は監査に対応したナラティブを生成できます。「この証拠セットは、税額制約ディメンションに集中して、ノイズ フロアの上昇 (NFIR = 2.1、予想範囲 0.85 ~ 1.15) を示しています。これは、請求書の 12 ~ 18% に一貫性のない税計算が含まれていることを示唆しています。主固有ベクトルは参照方向から 22 度回転しており、ベンダーと金額の相関構造の変化 推奨されるアクション: レバレッジ スコアが最も高いベンダー V-1042 および V-1089 からの請求書を調べます。
この統合により、ECSA の数学的厳密性と監査人が必要とする解釈可能性が結び付けられ、ガバナンスの決定にコンテキストに応じた AI 支援をすでに提供している MARIA OS AI チャット インターフェイス (「POST /api/chat」) に自然に適合します。
13. 結論
証拠一貫性スペクトル分析は、監査方法論の根本的な進歩を表しています。 ECSA は、証拠セットをベクトル空間として扱い、その相関行列に固有分解を適用することにより、品目レベルの検査、ルールベースのマッチング、さらには個々の証拠属性に作用する機械学習手法では認識できない製造パターンを検出します。
この論文で開発された数学的枠組みは、4 つの相補的な検出信号を提供します。スペクトル ギャップ スコアは、予想される固有値比からの偏差を定量化します。ノイズフロアインフレ率は、本物の証拠が満たさなければならない決定論的制約の違反を検出します。固有ベクトルの回転角度により、相関構造のシフトが特定されます。 Anderson-Darling 統計は、参照プロファイルに対して完全な固有値分布をテストします。複合スペクトル異常スコアは、これら 4 つの信号を単一の決定基準に結合し、財務諸表監査証拠で 0.983 AUC を達成します。
重要な理論的洞察は、証拠の一貫性と虚偽発見率の関係です。正規化された固有値分布のエントロピーから導出されるコヒーレンス スコアは、検出感度と誤警報率の間のトレードオフを制御するための継続的な指標を提供します。 FDR 2.3% で、ECSA は捏造された証拠セットの 94.7% を検出し、従来の監査方法 (AUC 0.741) や最新の機械学習ベースライン (AUC 0.847) を大幅に上回ります。
監査システムに対する実際的な影響は重要です。 ECSA は証拠セットを 50 ミリ秒未満 (バッチ) で処理し、1 秒あたり 12,000 以上のバンドル (ストリーミング) を維持し、パイプライン遅延を発生させることなくリアルタイムのコヒーレンス監視を可能にします。ストリーミング アルゴリズム (中規模の更新の場合は増分 SVD、高スループットのストリームの場合はランダム化 SVD) により、証拠の量に応じて計算コストが適切にスケールされることが保証されます。
MARIA OS との統合はアーキテクチャ的に自然です。 MARIA OS 証拠エンジンによって生成された証拠バンドルは、スペクトル分析のための証拠ベクトルに直接マッピングされます。コヒーレンス ゲートは、既存の「提案 -> 検証 -> 承認 -> 実行」フローを利用して、意思決定パイプライン ステート マシンの検証サブステップとして動作します。基準スペクトル プロファイルのスコープは MARIA 座標系階層に設定されており、企業全体のベースライン カバレッジを維持しながらゾーン固有のキャリブレーションが可能になります。
より広範な意味は、責任はアーキテクチャであるという MARIA OS の中心原則につながります。監査システムにおける責任とは、「この証拠は本物ですか?」という質問に答えることができることを意味します。数学的な精度で。スペクトル分析は、これを主観的な判断から定量的な測定値 (コヒーレンス スコア、スペクトル ギャップ、ノイズ フロア比) に変換し、監査、校正、継続的な改善が可能です。証拠がスペクトル コヒーレンス ゲートを通過すると、構造的一貫性の測定可能な証明が得られます。失敗すると、スペクトルの指紋が異常を直接示し、人間による調査が可能になります。
不正行為の検出は捏造の排除ではありません。それは、捏造を維持することが非常に困難であり、合理的な行為者が捏造を放棄してしまうほど検出されやすい環境を作り出すことです。証拠コヒーレンススペクトル解析では、d 個の周辺分布のマッチングから、O(d^2) 個の相関制約、O(d^3) 個の三方向一貫性条件、O(d^4) 個の高次スペクトル特性を同時に満たすまで、検出されない製造コストが桁違いに上昇します。この指数関数的な障壁は、信頼できる監査システムが構築される数学的基盤です。
14. 参考文献
- [1] バージニア州マルチェンコとロサンゼルス州パストゥール (1967)。ランダム行列のいくつかのセットの固有値の分布。 ソ連-スボルニクの数学、1(4)、457-483。
- [2] Bai、Z. & Silverstein、J.W. (2010)。 大次元ランダム行列のスペクトル解析。第2版統計学のシュプリンガー シリーズ。
- [3] I.M. ジョンストン (2001)。主成分分析における最大固有値の分布について。 統計年報、29(2)、295-327。
- [4] Halko, N.、Martinsson, P.G.、Tropp, J.A. (2011)。ランダム性を伴う構造の検出: 近似行列分解を構築するための確率的アルゴリズム。 SIAM レビュー、53(2)、217-288。
- [5] Ghashami, M.、Liberty, E.、Phillips, J.M.、および Woodruff, D.P. (2016)。よく使う指示: シンプルで決定的なマトリックスのスケッチ。 SIAM ジャーナル オン コンピューティング、45(5)、1762-1792。
- [6] T.W. アンダーソンと D.A. ダーリン (1954 年)。フィット感の良さをテストするテストです。 米国統計協会ジャーナル、49(268)、765-769。
- [7] M.J. ニグリーニ (2012)。 ベンフォードの法則: 法医学会計、監査、不正行為検出への応用。ジョン・ワイリー&サンズ。
- [8] A.L. バラバシ & R. アルバート (1999)。ランダムネットワークにおけるスケーリングの出現。 サイエンス、286(5439)、509-512。
- [9] Benjamini, Y. & Hochberg, Y. (1995)。誤検出率の制御: 複数のテストに対する実用的で強力なアプローチ。 王立統計協会ジャーナル: シリーズ B、57(1)、289-300。
- [10] Liu, F.T.、Ting, K.M.、Zhou, Z.H. (2008)。孤立の森。 2008 IEEE International Conference on Data Mining の議事録、413-422。
- [11] ホーキンス、D.M. (1980)。 外れ値の特定。応用確率と統計に関するモノグラフ。チャップマンとホール。
- [12] ワイル、H. (1912)。線形偏微分方程式の固有値の漸近分布則。 数学年報、71(4)、441-479。
- [13] トゥリノ、A.M. & ヴェルドゥ、S. (2004)。 ランダム行列理論と無線通信。通信および情報理論の基礎と傾向、1(1)、1-182。
- [14] ブランド、M. (2006)。薄い特異値分解の高速な低ランク変更。 線形代数とその応用、415(1)、20-30。
- [15] Spirtes, P.、Glymour, C.、Scheines, R. (2000)。 因果関係、予測、検索。第2版MITプレス。
- [16] 欧州議会。 (2024年)。人工知能に関する調和のとれた規則を定める規制 (EU) 2024/1689 (AI 法)。 欧州連合の官報、L シリーズ。
- [17] マリアOS。 (2026年)。 MARIA OS: マルチエージェント責任およびインテリジェンス アーキテクチャ オペレーティング システム。内部技術文書。株式会社ディシジョン