What is 監査停止基準の数理設計: いつ十分かを判定する最適停止理論?

監査停止基準の数理設計: いつ十分かを判定する最適停止理論. 監査を早く止める損失と遅く止める損失を同時に扱い、停止判定を制約最適化として定式化する。逐次確率比検定とfail-closedゲート統合により、実務運用可能な停止規則を提示する。 Key topics: audit, stopping-criteria, false-allow-rate, probability-threshold, max-constraint, governance, mathematics. すべての監査手続きは、蓄積された証拠がいつ審査を終了するのに十分なのかという、同じ解決の余地のない質問に直面します。答えは専門家の判断だけの問題ではありません。正確な定式化、証明可能な最適性条件、および測定可能なエラー率を伴う数学的問題です。しかし、監査の専門家は歴史的にヒューリスティックなサンプルサイズ表と定性的な重要性評価に依存しており、停止の決定は経験によって調整された実務者の直感に委ねられてきました。

How does this article apply to Industry Applications in MARIA OS?

監査停止基準の数理設計: いつ十分かを判定する最適停止理論. 監査を早く止める損失と遅く止める損失を同時に扱い、停止判定を制約最適化として定式化する。逐次確率比検定とfail-closedゲート統合により、実務運用可能な停止規則を提示する。 Key topics: audit, stopping-criteria, false-allow-rate, probability-threshold, max-constraint, governance, mathematics. すべての監査手続きは、蓄積された証拠がいつ審査を終了するのに十分なのかという、同じ解決の余地のない質問に直面します。答えは専門家の判断だけの問題ではありません。正確な定式化、証明可能な最適性条件、および測定可能なエラー率を伴う数学的問題です。しかし、監査の専門家は歴史的にヒューリスティックなサンプルサイズ表と定性的な重要性評価に依存しており、停止の決定は経験によって調整された実務者の直感に委ねられてきました。

How is this article related to dynamic harnesses, SEO, LLMO, and agent governance?

監査停止基準の数理設計: いつ十分かを判定する最適停止理論. 監査を早く止める損失と遅く止める損失を同時に扱い、停止判定を制約最適化として定式化する。逐次確率比検定とfail-closedゲート統合により、実務運用可能な停止規則を提示する。 Key topics: audit, stopping-criteria, false-allow-rate, probability-threshold, max-constraint, governance, mathematics. すべての監査手続きは、蓄積された証拠がいつ審査を終了するのに十分なのかという、同じ解決の余地のない質問に直面します。答えは専門家の判断だけの問題ではありません。正確な定式化、証明可能な最適性条件、および測定可能なエラー率を伴う数学的問題です。しかし、監査の専門家は歴史的にヒューリスティックなサンプルサイズ表と定性的な重要性評価に依存しており、停止の決定は経験によって調整された実務者の直感に委ねられてきました。

What are the implementation and operating implications of audit-stopping-criteria-mathematical-design?

監査停止基準の数理設計: いつ十分かを判定する最適停止理論. 監査を早く止める損失と遅く止める損失を同時に扱い、停止判定を制約最適化として定式化する。逐次確率比検定とfail-closedゲート統合により、実務運用可能な停止規則を提示する。 Key topics: audit, stopping-criteria, false-allow-rate, probability-threshold, max-constraint, governance, mathematics. すべての監査手続きは、蓄積された証拠がいつ審査を終了するのに十分なのかという、同じ解決の余地のない質問に直面します。答えは専門家の判断だけの問題ではありません。正確な定式化、証明可能な最適性条件、および測定可能なエラー率を伴う数学的問題です。しかし、監査の専門家は歴史的にヒューリスティックなサンプルサイズ表と定性的な重要性評価に依存しており、停止の決定は経験によって調整された実務者の直感に委ねられてきました。

Audit Stopping Criteria: Mathematical Foundations for Knowing When Enough Is Enough

要旨

すべての監査手続きは、蓄積された証拠がいつ審査を終了するのに十分なのかという、同じ解決の余地のない質問に直面します。答えは専門家の判断だけの問題ではありません。正確な定式化、証明可能な最適性条件、および測定可能なエラー率を伴う数学的問題です。しかし、監査の専門家は歴史的にヒューリスティックなサンプルサイズ表と定性的な重要性評価に依存しており、停止の決定は経験によって調整された実務者の直感に委ねられてきました。

このペーパーでは、監査の終了を制約付きの最適化問題として再構成します。 誤認率 (FAR) を、欠陥のある母集団が監査に合格する確率として定義します。これは、不適合が存在する場合に監査が適合を宣言する、ガバナンスにとってクリティカルなエラーモードです。次に、MAX 制約 (許容可能な欠陥数の厳密な上限)、逐次確率比テスト (SPRT) (尤度比に基づく逐次決定手順)、ベイジアン事後しきい値 (信念状態の終了条件) という 3 つの数学的基礎から停止ルールを導き出します。各フレームワークは、サンプル効率、エラー制御、および計算の扱いやすさの間で異なるトレードオフをもたらします。

これらの一変量停止ルールを 多次元ケース に拡張します。この場合、監査では複数のリスク要因 (財務上の正確さ、プロセスのコンプライアンス、管理の有効性) を同時に評価し、ファミリーごとの FAR を制御する共同停止曲面を導出する必要があります。ラグランジュ緩和を介して予算制約の下での最適なサンプルサイズを解き、二重変数が監査労力の限界値として自然に解釈できることを示します。

この作業の実際的な貢献は、これらの停止基準を MARIA OS ゲートエンジンと統合したことです。 MARIA OS アーキテクチャでは、すべての監査決定はゲート評価です。システムは、蓄積された証拠が監査ゲートを通過するのに十分であるか (監査対象エンティティの続行を許可する)、または追加の証拠が必要か (サンプリングを継続する) かを判断する必要があります。 MARIA OS のフェイルクローズ公理は、停止基準があいまいな場合、つまり適合または不適合を高い信頼性で宣言するのに十分な証拠がない場合、ゲートは閉じられたままになることを示しています。監査は継続されます。この論文は、その公理を計算的に正確にする数学的機構を提供します。

シミュレートされた SOX コンプライアンス監査全体の実験結果では、SPRT ベースの停止により、固定サンプル計画と比較して必要なサンプルサイズが 38% 削減されながら、0.3% 未満の FAR が達成されることが実証されました。共役事前分布を使用したベイジアン停止により、よりスムーズな収束特性を備えた同等の FAR が達成されます。多次元拡張により、5 つの同時リスク次元にわたって家族全体の FAR が 1% に制御されます。 MARIA OS ゲートエンジンとの統合により、監査決定評価あたりの p99 遅延が 12 ミリ秒未満になります。

1. 監査終了問題

監査は、一連の証拠収集プロセスです。各ステップで、監査人はレビュー対象の母集団から 1 つ以上の項目を検査し、それらが監査基準に適合しているか不適合であるかを観察し、母集団の全体的な遵守状態についての信念を更新します。終了の決定、つまり証拠の収集をいつ中止して所見を発表するかによって、監査の結論の信頼性とプロセスで消費されるリソースの両方が決まります。

1.1 逐次観測モデル

監査母集団が N 個の項目で構成されているとします。母集団の欠陥率をシータ、つまり不適合品目の真の割合として定義します。監査人はシータを知りません。それは彼らが推定しようとしている量です。各ステップ t = 1、2、... で、監査人は項目を (置換の有無にかかわらず) 描画し、バイナリの結果を観察します。

X_t = \begin{cases} 1 & \text{if item } t \text{ is defective (nonconforming)} \\ 0 & \text{if item } t \text{ is conforming} \end{cases} $$

n 回の観察の後、監査人はシーケンス X_1、X_2、...、X_n と、累積欠陥数 D_n = 1 から n までの t に対する X_t の合計を取得します。サンプルの欠陥率は p-hat_n = D_n / n です。

監査人は 停止時間 タウ、つまりこれまでに収集された観測 (X_1, ..., X_tau) のみに依存し、将来の未観測項目には依存しない確率変数を選択する必要があります。形式的には、タウは自然濾過 F_n = sigma(X_1, ..., X_n) に対する停止時間です。時点 tau で、監査人は次の 2 つの評決のうちの 1 つを発行します。

承認 (許可): 母集団は適合していると宣言されます。監査対象エンティティは監査ゲートを通過して続行します。
拒否 (拒否): 母集団は不適合であると宣言されます。監査されたエンティティには、修復、エスカレーション、またはさらなる調査のフラグが付けられます。

1.2 2 つのエラーモード

停止ルールにより、次の 2 種類のエラーが発生する可能性があります。

偽許可 (監査のタイプ II エラー)。 真の欠陥率 theta が最大許容欠陥率 theta_max を超える場合、監査人は母集団が適合していると宣言します。これはガバナンスにとって重大な誤りです。誤った許可は、監査がその主な目的、つまり不適合者を適合者として認定したことが失敗したことを意味します。財務監査においては、これは重大な虚偽記載の財務諸表に対して潔白な意見を発表することに相当します。コンプライアンス監査では、これは規制要件に違反するプロセスを認定することを意味します。

偽否認 (監査のタイプ I エラー)。 真の欠陥率 theta が許容品質レベル theta_0 を下回る場合、監査人は母集団が不適合であると宣言します。これが効率誤差です。誤った拒否は、不必要な修復にリソースを浪費し、操作を遅らせ、監査機能の信頼を損ないます。それは費用がかかりますが、壊滅的なものではありません。根底にある人々は実際に順応していました。

これらの誤差間の非対称性は基本的なものです。誤った許可は、規制上の罰則、財務上の再計算、安全上のインシデントなど、取り返しのつかない結果を招く可能性があります。誤った拒否は元に戻すことができます。つまり、エンティティを再検査して、結果を覆すことができます。この非対称性が MARIA OS のフェイルクローズ設計の動機となっており、疑わしい場合は否定します。過少監査よりも過大監査のほうが良いのです。

1.3 無関心ゾーン

theta_0 (許容可能な品質レベル) と theta_max (許容可能な最大欠陥率) の間には、無差別ゾーン [theta_0, theta_max] があります。真の欠陥率がこのゾーンにある場合、誤った許可も誤った拒否も明らかに不正ではありません。監査設計では、このゾーンでの動作を指定する必要があります。ほとんどのフレームワークでは、両方のエラー確率をここで緩和することができ、明らかに適合している (theta < theta_0) 集団と明らかに不適合である (theta > theta_max) 集団を区別することに統計力を集中させています。

Definition

監査停止問題は、次の条件に従って、予想されるサンプルサイズ E [tau] を最小化する、{Accept, Reject} の停止時間 tau と最終決定ルール delta_tau を設計することです。

P(\delta_\tau = \text{Accept} \mid \theta \geq \theta_{max}) \leq \beta \quad \text{(FAR constraint)} $$

P(\delta_\tau = \text{Reject} \mid \theta \leq \theta_0) \leq \alpha \quad \text{(False Deny constraint)} $$

ここで、alpha と beta は指定された誤差許容値です。 FAR 制約 (ベータ) は、ガバナンスアプリケーションにおけるバインディング制約です。通常、非対称のコスト構造を反映して、ベータ << アルファ (たとえば、ベータ = 0.005 およびアルファ = 0.05) を設定します。

1.4 固定サンプル計画が最適ではない理由

従来の監査サンプリング基準 (ISA 530、AICPA AU-C 530、PCAOB AS 2315) は、信頼水準と許容偏差率から計算される固定サンプルサイズを規定しています。監査人は監査を開始する前に n を決定し、正確に n 個の項目を検査し、観察された欠陥数に基づいて評決を出します。

固定サンプル計画は 2 つの理由から最適とは言えません。まず、初期の証拠を組み込むことができません。計画された 150 品目サンプルの最初の 20 品目で 15 個の欠陥が見つかった場合、結論は明らかですが、計画では 150 品目すべてを検査する必要があります。第二に、監査の難しさに適応できない。母集団が明らかに適合している場合、または明らかに不適合である場合は、より少ないサンプルで十分です。母集団が無関心ゾーンにある場合、より多くのサンプルが必要になります。固定プランでは、難易度に関係なく同じリソースが割り当てられます。

順次停止ルールは両方の欠点に対処します。一度に 1 つの項目を (またはバッチで) 検査し、証拠の状態を更新し、確信のある評決に十分な証拠が得られるとすぐに終了します。逐次ルールの下で期待されるサンプルサイズは、パラメーター空間のすべての点で固定サンプルサイズよりも厳密に小さくなり、母集団が無差別ゾーンから遠く離れた場合に節約効果が最も顕著になります。

2. 誤認率: 正式な定義

不正許可率は、監査停止基準が制御する必要がある中心的な数量です。私たちは厳密な定義を提供し、その特性を調べます。

2.1 点ごとの FAR

Definition

停止ルール (tau、delta_tau) が与えられた場合、欠陥率シータでの 点ごとの誤許容率は次のようになります。

FAR(\theta) = P(\delta_\tau = \text{Accept} \mid \theta) $$

これは、母集団の真の欠陥率がシータの場合に、監査で合格判定が下される確率です。適切に設計された監査では、シータが小さい場合 (適合する母集団を受け入れたい)、FAR(シータ) は 1 に近く、シータが大きい場合 (不適合母集団を拒否したい) は 0 に近づく必要があります。

2.2 動作特性曲線

関数 theta -> FAR(theta) は、監査計画の 動作特性 (OC) 曲線 です。 OC 曲線は、停止ルールの識別力を完全に特徴づけます。主要なプロパティ:

FAR(0) = 1 -- 完全に適合する母集団が常に受け入れられます。
FAR(1) = 0 -- 完全に欠陥のある母集団は常に拒否されます (n >= 1 と仮定)。
FAR はシータ方向で単調減少します。つまり、欠陥率が高くなると、合格確率が低くなります。
OC 曲線の急峻さによって、監査の解決力が決まります。急な曲線は、監査が適合集団と不適合集団を明確に区別できることを意味します。

2.3 最大 FAR とガバナンスの制約

ガバナンス制約は、不適合領域にわたる最大 FAR の境界として表されます。

FAR_{max} = \sup_{\theta \geq \theta_{max}} FAR(\theta) \leq \beta $$

これは、不適合集団が監査に合格する最悪の確率です。 MARIA OS のコンテキストでは、これはブロックされるべきエンティティに対して監査ゲートが開く確率です。フェイルクローズの公理では、ベータ値を小さくする必要があります。通常、重要度の高い監査ゲートの場合は 0.005 以下です。

命題 2.1. 固定サンプルサイズ n と許容数 c (D_n <= c の場合に許容) を持つ二項サンプリングモデルの場合、最大 FAR は次のとおりです。

FAR_{max} = \sum_{k=0}^{c} \binom{n}{k} \theta_{max}^k (1 - \theta_{max})^{n-k} $$

これは、パラメーター n と theta_max を使用して c で評価された二項分布の CDF です。 FAR_max <= beta を制御するには、この合計が制限されるように n と c を選択する必要があります。

2.4 以前の平均FAR

欠陥率に対する事前分布 pi(θ) が (過去の監査データ、業界ベンチマーク、または専門家の抽出から) 利用可能な場合、平均 FAR は次のようになります。

\overline{FAR} = \int_{\theta_{max}}^{1} FAR(\theta) \pi(\theta) d\theta $$

平均 FAR は、最大 FAR のベイジアンアナログです。これはそれほど保守的ではありません (最悪のケースを考慮するのではなく、不適合率の平均をとります) が、防御可能な事前条件が必要です。 MARIA OS では、事前情報は証拠台帳に保存されているエンティティの監査履歴から構築されます。

2.5 リスク階層ごとの FAR の分解

実際には、監査対象者はリスク層ごとに階層化されます。母集団を、母集団サイズ N_1、...、N_K、不良率 theta_1、...、theta_K を持つ K リスク層に分割するとします。全体的な FAR は次のように分解されます。

FAR_{total} = 1 - \prod_{k=1}^{K} (1 - FAR_k) $$

ここで、FAR_k は、ストラタム固有の不正許可率です。この分解は、FAR の合計が最も高い FAR を持つ階層によって支配されていることを示しています。単一の弱い監査階層が監査全体を損なう可能性があります。 MARIA OS の多層ゲートアーキテクチャは、階層固有の FAR 制約を強制することでこの問題に対処し、単一のリスク層がシステム全体の FAR を増大させることがないようにします。

3. MAX 制約の停止ルール

正式な FAR 保証を備えた最も単純な停止ルールは MAX 制約です。つまり、観察される欠陥の数に絶対的な上限を指定し、その上限に達したらすぐに監査を終了します。

3.1 定義

Definition

MAX(c, n_max) 停止ルールは、最大許容欠陥数 c (許容数) と最大サンプルサイズ n_max の 2 つのパラメーターによって定義されます。ルールは次のように動作します。

各ステップ t で X_t を観察し、D_t = D_{t-1} + X_t を更新します。
D_t > c の場合、停止して拒否。欠陥数が最大許容値を超えました。
t = n_max かつ D_t <= c の場合、停止して受け入れます。欠陥限界を超えることなく、最大サンプルサイズに到達しました。
それ以外の場合は、サンプリングを続行します。

停車時間は以下の通りです。

\tau_{MAX} = \min(n_{max}, \inf\{t : D_t > c\}) $$

3.2 FAR分析

MAX(c, n_max) ルールでは、theta >= theta_max にもかかわらず、D_{n_max} <= c の場合にのみ誤った許可が発生します。シータでの FAR は次のとおりです。

FAR(\theta) = P(D_{n_{max}} \leq c \mid \theta) = \sum_{k=0}^{c} \binom{n_{max}}{k} \theta^k (1-\theta)^{n_{max}-k} $$

FAR(theta_max) <= beta を満たすには、不完全ベータ関数 I_{1-theta_max}(n_max - c, c + 1) >= 1 - beta となるように (c, n_max) を選択する必要があります。この関係は、サンプルサイズ、合格数、および FAR を結び付ける基本的な制約を提供します。

定理 3.1 (MAX 制約 FAR 境界)。 母集団欠陥率 theta >= theta_max の MAX(c, n_max) 停止ルールの場合:

FAR(\theta) \leq \exp\left(-n_{max} \cdot D_{KL}(c/n_{max} \| \theta)\right) $$

ここで、D_KL(p || q) = p ln(p/q) + (1-p) ln((1-p)/(1-q)) はカルバック・ライブラー発散です。この指数関数的限界は、FAR が経験的欠陥率と真の欠陥率の間の KL 乖離によって決定される割合でサンプルサイズとともに指数関数的に減少することを示しています。

系 3.2 (最小サンプルサイズ)。 許容値 c の theta_max で FAR <= ベータを達成するには、必要な最小サンプルサイズは次のとおりです。

n_{max} \geq \frac{\ln(1/\beta)}{D_{KL}(c/n_{max} \| \theta_{max})} $$

この暗黙的な方程式は反復的に解かれます。 c = 0 (欠陥ゼロ許容) の場合、次のように単純化されます。

n_{max} \geq \frac{\ln(1/\beta)}{-\ln(1 - \theta_{max})} $$

たとえば、theta_max = 0.05 および beta = 0.005 の場合、n_max >= ln(200) / -ln(0.95) = 5.298 / 0.0513 = 103.3、つまり n_max = 104 アイテムです。

3.3 最適な受付番号の選択

受け入れ番号 c の選択にはトレードオフが関係します。 c = 0 (欠陥ゼロ計画) に設定すると、不適合を検出する能力が最大化されますが、少数の欠陥が許容できる場合でも、大量のサンプルが必要になります。 c > 0 に設定すると、一部の欠陥が許容され、適合母集団に必要なサンプルサイズが減少しますが、誤った許容が発生するリスクが増加します。

命題 3.3. FAR(theta_max) <= beta および FDR(theta_0) <= alpha を条件として Eτ を最小化する最適な許容数 c * は、次のような最大の整数 c です。

\sum_{k=0}^{c} \binom{n^*(c)}{k} \theta_{max}^k (1-\theta_{max})^{n^*(c)-k} \leq \beta $$

ここで、n*(c) は、許容番号 c で両方の誤差制約を満たす最小サンプルサイズです。最適化は、候補ｃ値をスキャンし、θについて想定される事前条件の下で最小のＥ τ をもたらす値を選択する。

3.4 早期停止による切り捨てられた MAX ルール

基本的な MAX ルールでは、早期拒否 (D_t > c になったらすぐに停止) は許可されますが、早期受け入れは許可されません。下限を定義することで、早期受け入れ条件を追加できます。

Definition

Truncated MAX(c, n_max, a_t) ルール は、次のような時変許容境界 a_t を追加します。

D_t > c の場合、停止して拒否します。
D_t <= a_t かつ t >= n_min の場合、停止して受け入れます。
t = n_max かつ D_t <= c の場合、停止して受け入れます。
それ以外の場合は続行します。

許容境界 a_t は、FAR 制約を維持するために選択されます。一般的な選択はポアソン近似です: a_t = Floor(t theta_0 - z_alpha sqrt(t theta_0 (1 - theta_0)))、ここで z_alpha は標準正規分位数です。これにより、観察された欠陥率が許容品質レベルを大幅に下回っている場合に、早期に合格することが可能になります。

切り捨てられた MAX ルールは、母集団が明らかに適合している場合 (theta << theta_0)、基本 MAX ルールよりも 20 ～ 40% 低い予想サンプルサイズを達成しますが、母集団が不適合である場合、FAR への影響は無視できます。

4. 監査のための逐次確率比テスト

1945 年にエイブラハムウォルドによって導入された逐次確率比テスト (SPRT) は、2 つの単純な仮説のどちらかを決定するための最適な逐次テストです。監査停止に適用すると、指定されたエラー確率を持つすべてのテストの中で予想される最小サンプルサイズが提供されます。

4.1 配合

SPRT は、帰無仮説 H_0: theta = theta_0 (母集団が許容品質レベルで適合している) を、代替仮説 H_1: theta = theta_max (母集団が最大許容品質レベルで不適合である) に対して検定します。

n 回の観測後の尤度比は次のようになります。

\Lambda_n = \prod_{t=1}^{n} \frac{P(X_t \mid \theta_{max})}{P(X_t \mid \theta_0)} = \left(\frac{\theta_{max}}{\theta_0}\right)^{D_n} \left(\frac{1-\theta_{max}}{1-\theta_0}\right)^{n-D_n} $$

対数尤度比は次のとおりです。

\lambda_n = \ln \Lambda_n = D_n \ln\frac{\theta_{max}}{\theta_0} + (n - D_n) \ln\frac{1-\theta_{max}}{1-\theta_0} $$

4.2 意思決定の境界線

SPRT は 2 つの境界 A と B (A < 0 < B) を定義し、次のように動作します。

lambda_n >= B の場合、停止して拒否 (証拠は不適合を支持します)。
lambda_n <= A の場合、停止して受け入れ (適合性を示す証拠がある)。
A < lambda_n < B の場合、サンプリングを継続します。

Wald の基本的なアイデンティティによって境界値が決まります。

A = \ln\frac{\beta}{1 - \alpha}, \quad B = \ln\frac{1 - \beta}{\alpha} $$

ここで、alpha は誤って拒否される確率、beta は誤って許可される確率 (FAR) です。アルファ = 0.05 およびベータ = 0.005 の場合:

A = \ln\frac{0.005}{0.95} = \ln(0.005263) = -5.247 $$

B = \ln\frac{0.995}{0.05} = \ln(19.9) = 2.990 $$

4.3 SPRTの最適性

定理 4.1 (Wald-Wolfowitz) エラー確率が最大でアルファ (theta_0 での偽拒否) および最大でベータ (theta_max での偽許可) であるすべての逐次テストの中で、SPRT は予想されるサンプルサイズ E τ | を最小化します。 theta] は、theta = theta_0 と theta = theta_max の両方で同時に発生します。

これは非常に強力な結果です。これは、SPRT が単に優れた逐次テストではなく、2 点監査停止問題に対して考えられる最良の逐次テストであることを意味します。他の逐次手順では、より小さい予想サンプルサイズで同じエラー保証を達成することはできません。

4.4 予想されるサンプルサイズ

SPRT の予想されるサンプルサイズは、Wald の方程式で求められます。

E[\tau \mid \theta] = \frac{E[\lambda_1 \mid \theta] \cdot E[\tau \mid \theta]}{E[\lambda_1 \mid \theta]} $$

より正確には、操作特性関数に Wald ID を使用すると、2 つの仮説で予想されるサンプルサイズは次のようになります。

E[\tau \mid \theta_0] \approx \frac{(1-\alpha) \ln\frac{\beta}{1-\alpha} + \alpha \ln\frac{1-\beta}{\alpha}}{\theta_0 \ln\frac{\theta_{max}}{\theta_0} + (1-\theta_0) \ln\frac{1-\theta_{max}}{1-\theta_0}} $$

E[\tau \mid \theta_{max}] \approx \frac{\beta \ln\frac{\beta}{1-\alpha} + (1-\beta) \ln\frac{1-\beta}{\alpha}}{\theta_{max} \ln\frac{\theta_{max}}{\theta_0} + (1-\theta_{max}) \ln\frac{1-\theta_{max}}{1-\theta_0}} $$

両方の式の分母は、それぞれ KL 発散 D_KL(theta_0 || theta_max) または D_KL(theta_max || theta_0) です。 KL 発散が大きい (仮説がより分離している) と、予想されるサンプルサイズは小さくなります。2 つの仮説が区別しやすい場合、テストはより早く終了します。

数値例 theta_0 = 0.02、theta_max = 0.05、alpha = 0.05、beta = 0.005の場合:

D_KL(theta_0 || theta_max) = 0.02 ln(0.02/0.05) + 0.98 ln(0.98/0.95) = 0.02(-0.916) + 0.98(0.0311) = -0.01832 + 0.03048 = 0.01216

イータウ | theta_0] = ((0.95)(-5.247) + (0.05)(2.990)) / 0.01216 = (-4.985 + 0.1495) / 0.01216 = -4.835 / 0.01216。絶対値を取得します (Wald 近似では、分母が符号に一致するという規則が使用されます)。 theta_0] は約 398 項目に相当します。

これを、同じ誤差制約の下での固定サンプルサイズ (約 642 個の項目が必要) と比較します。 SPRT は、帰無仮説の下で予想されるサンプルサイズの 38% の削減を達成します。

4.5 予算遵守のための短縮された SPRT

純粋な SPRT には無制限の最大サンプルサイズがあります。理論的には、真のシータが theta_0 と theta_max の間に正確に収まる場合、テストは無期限に継続できます。実際の監査アプリケーションでは、SPRT を最大サンプルサイズ n_max で切り捨てます。

Definition

Truncated SPRT(A, B, n_max) は、t < n_max の標準 SPRT として動作します。 t = n_max でテストが終了していない場合、現在の対数尤度比に基づいて判定が行われます。

lambda_{n_max} >= 0 の場合、拒否します。
lambda_{n_max} < 0 の場合、受け入れます。

命題 4.2. n_max >= 2 * Eτ | の切り捨てられた SPRT theta_max] は、不適合領域のシータの公称ベータの 10% 以内に FAR を維持します。より厳密な FAR 制御の場合、調整された境界 A' および B' は、モンテカルロシミュレーションまたは Armitage (1957) の方法によって計算できます。

切り捨て点 n_max は、監査の予算上限として機能します。 MARIA OS フレームワークでは、これは監査ゲートのリソース割り当てパラメーターに直接マッピングされます。ゲートは、必要な信頼レベルだけでなく、証拠収集の最大予算も指定します。

4.6 複合仮説を使用した SPRT

基本的な SPRT は 2 つの単純な仮説をテストします。監査の実務では、適合または不適合の正確な欠陥率を知ることはほとんどありません。ポイントではなく領域を指定します。 一般化 SPRT (GSPRT) は、一般化尤度比を使用して複合仮説を処理します。

\Lambda_n^G = \frac{\sup_{\theta \geq \theta_{max}} L(\theta; X_1, ..., X_n)}{\sup_{\theta \leq \theta_0} L(\theta; X_1, ..., X_n)} $$

ここで、L(θ; X_1, ..., X_n) は尤度関数です。二項モデルでは、theta = max(p-hat_n, theta_max) および theta = min(p-hat_n, theta_0) で最高値が達成され、計算上扱いやすい検定統計量が得られます。

GSPRT は、単純な SPRT の正確な最適性を達成しません (Wald-Wolfowitz は複合仮説には拡張されません)。しかし、シミュレーション研究では、GSPRT がパラメーター空間全体で予想される最適なサンプルサイズの 5 ～ 15% 以内を達成し、監査アプリケーションにとって実用的な選択肢となることが示されています。

5. ベイジアン停止基準

監査停止に対するベイジアンアプローチは、頻度主義的なエラー制約を意思決定理論のフレームワークに置き換えます。ベイジアン監査は、パラメーター空間全体で最悪の場合のエラー率を制御するのではなく、欠陥率の事後分布を維持し、事後分布が判定に十分な信頼性を提供したときに終了します。

5.1 事前仕様

二項欠陥モデルの自然共役事前分布はベータ分布です。

\theta \sim \text{Beta}(\alpha_0, \beta_0) $$

ここで、alpha_0 と beta_0 は前のハイパーパラメータです。事前平均は alpha_0 / (alpha_0 + beta_0) で、事前分散は alpha_0 beta_0 / ((alpha_0 + beta_0)^2 (alpha_0 + beta_0 + 1)) です。一般的な選択肢:

非参考事前: alpha_0 = beta_0 = 1 ([0,1] で均一)。これは、欠陥率に関する事前知識をエンコードしません。
ジェフリーの前例: alpha_0 = beta_0 = 0.5。これは再パラメータ化の下では不変であり、多くの場合、「最も有益でない」適切な事前分布であると考えられます。
過去の以前: alpha_0 と beta_0 は、過去の監査データと一致するように選択されています。同様の母集団に対する以前の監査で、m 個の項目に d 個の欠陥が見つかった場合、alpha_0 = d + 1 および beta_0 = m - d + 1 を設定します。MARIA OS では、これらのパラメーターはエンティティの証拠台帳から自動的に計算されます。
懐疑的な事前確信: alpha_0 >> beta_0、欠陥率が高いという事前信念をエンコードします。これは、デフォルトの前提条件が不適合であるフェイルクローズ監査ゲートに適しています。

5.2 事後更新

n 個の項目で D_n 個の欠陥を観察した後の事後分布は次のようになります。

\theta \mid D_n \sim \text{Beta}(\alpha_0 + D_n, \beta_0 + n - D_n) $$

事後平均は (alpha_0 + D_n) / (alpha_0 + beta_0 + n) で、事後分散は O(1/n) に応じて減少します。結合更新は計算上簡単であり、2 つのカウンターをインクリメントするだけで済み、MARIA OS パイプラインでのリアルタイム監査ゲート評価に適しています。

5.3 ベイジアン停止規則

Definition

ベイジアン事後しきい値停止ルール は、次のように初回 tau_B で監査を終了します。

\tau_B = \inf\{n : P(\theta > \theta_{max} \mid D_n) \geq 1 - \epsilon \text{ or } P(\theta \leq \theta_{max} \mid D_n) \geq 1 - \epsilon\} $$

ここで、イプシロンは事後不確実性許容値です。最初の条件は拒否を引き起こします (不適合の強力な証拠)。 2 番目のトリガーは受け入れをトリガーします (適合の強力な証拠)。

事後超過確率は次のとおりです。

P(\theta > \theta_{max} \mid D_n) = 1 - I_{\theta_{max}}(\alpha_0 + D_n, \beta_0 + n - D_n) $$

ここで、I_x(a, b) は正規化された不完全ベータ関数です。これは、標準ライブラリ関数を使用して O(1) 時間で数値的に計算できます。

5.4 損失ベースの停止

より原則的なベイジアン停止基準により、予想される事後損失が最小限に抑えられます。損失関数を定義します。

L(\text{Accept}, \theta) = \begin{cases} 0 & \text{if } \theta \leq \theta_{max} \\ c_{FA} \cdot (\theta - \theta_{max}) & \text{if } \theta > \theta_{max} \end{cases} $$

L(\text{Reject}, \theta) = \begin{cases} c_{FD} \cdot (\theta_{max} - \theta) & \text{if } \theta \leq \theta_{max} \\ 0 & \text{if } \theta > \theta_{max} \end{cases} $$

ここで、c_FA は誤った許可のコスト、c_FD は誤った拒否のコストです。受け入れの予想される事後損失は次のとおりです。

R_A(n) = c_{FA} \cdot E[(\theta - \theta_{max})^+ \mid D_n] = c_{FA} \int_{\theta_{max}}^{1} (\theta - \theta_{max}) f(\theta \mid D_n) d\theta $$

拒絶反応の予想される事後損失は次のとおりです。

R_R(n) = c_{FD} \cdot E[(\theta_{max} - \theta)^+ \mid D_n] = c_{FD} \int_{0}^{\theta_{max}} (\theta_{max} - \theta) f(\theta \mid D_n) d\theta $$

継続する (もう 1 つのアイテムをサンプリングする) コストは、サンプルごとの監査コスト c_s です。最適な停止ルールは次のとおりです。

\tau^* = \inf\{n : \min(R_A(n), R_R(n)) \leq c_s + E[\min(R_A(n+1), R_R(n+1)) \mid D_n]\} $$

R_A(tau) < R_R(tau) の場合は停止して受け入れます。それ以外の場合は停止して拒否します。この動的プログラミングの定式化は、離散化された状態空間 (n, D_n) に対する逆帰納法によって解くことができ、実用的なサイズの監査母集団に対して計算的に実行可能になります。

5.5 ベイジアン vs. 頻度主義 FAR 制御

当然の懸念は、ベイジアン停止規則が有効な頻度主義 FAR 制御を提供するかどうかです。答えは事前の内容によって異なります。

命題 5.1. 事前の pi(theta) が [theta_max, 1] のすべてのシータについて pi(theta) > 0 を満たす場合、許容差イプシロンを持つベイジアン事後しきい値停止規則は、イプシロンとして点方向の FAR(theta) -> 0 -> すべてのシータ > theta_max について 0 を達成します。

ただし、収束率は事前分布に依存します。 theta_max 付近にほとんど質量を配置しない事前分布では、事後分布が十分に集中する前に多くの観測が必要になる場合があります。実際には、シミュレーションによってターゲット FAR_max を達成するようにイプシロンを調整します。[theta_max, 1] のシータ値のグリッドについて、ベイジアン停止規則をシミュレートし、経験的な FAR を計算します。最大経験的 FAR がベータ値を下回るまでイプシロンを調整します。

このキャリブレーションは、MARIA OS 監査ゲートを構成するときにオフラインで実行され、ゲートパラメーターとして保存されます。実行時、ゲートは計算上瞬時に行われる事後しきい値条件のみを評価します。

5.6 反復監査のための経験的ベイズ

企業設定では、同じエンティティが長期間にわたって繰り返し監査されます。経験的ベイズアプローチでは、以前の監査の結果を使用して、現在の監査の事前結果を構築します。

\alpha_0^{(t)} = \alpha_0^{(t-1)} + \gamma \cdot D_{\tau}^{(t-1)}, \quad \beta_0^{(t)} = \beta_0^{(t-1)} + \gamma \cdot (\tau^{(t-1)} - D_{\tau}^{(t-1)}) $$

ここで、(0, 1] のガンマは、履歴監査にどの程度の重みを与えるかを制御する割引係数です。ガンマ = 1 に設定すると、すべての履歴データに完全な重みが与えられ、ガンマ < 1 では、古い監査の重みが低くなります。これにより、システムが監査履歴を蓄積するにつれて、時間の経過とともにより効率的になる適応停止ルールが作成されます。

MARIA OS では、ガンマは監査ゲートごとに構成可能なパラメータです。安定したコンプライアンス履歴を持つ企業は、より厳格な事前審査と迅速な監査終了を取得します。不安定な履歴を持つエンティティには、より広範な事前調査とより徹底した監査が行われます。これは監査機能自体に適用される段階的な自律性であり、信頼できるエンティティはより迅速な監査を獲得します。

6. 多次元的な停止: 複数のリスク要因

実際の監査では、単一の側面を評価することはほとんどありません。 SOX コンプライアンス監査では、財務上の正確性、内部統制の有効性、プロセスの順守、データの完全性、開示の完全性が同時に評価されます。各次元には、独自の不良率、許容差、コスト構造があります。停止基準は、すべての次元を合わせて考慮する必要があります。

6.1 問題の定式化

監査で、k = 1, ..., K でインデックス付けされた K 個のリスクディメンションを評価します。ディメンション k ごとに、次を定義します。

theta_k: 次元 k における真の欠陥率
theta_{max,k}: 次元 k の最大許容欠陥率
D_{n,k}: n 項目後の次元 k の累積欠陥数
beta_k: 寸法 k の FAR 許容差

1 つの商品に複数の側面で同時に欠陥がある可能性があります。 X_{t,k} を、品目 t が次元 k で欠陥があることを示す指標とします。ステップ t での観測値はベクトル X_t = (X_{t,1}, ..., X_{t,K}) です。

6.2 ファミリー単位の FAR 制御

ファミリーごとの FAR は、不適合なディメンションが監査に合格する確率です。

FAR_{FW} = P(\exists k : \delta_{\tau,k} = \text{Accept and } \theta_k \geq \theta_{max,k}) $$

結合結合によって次のようになります。

FAR_{FW} \leq \sum_{k=1}^{K} FAR_k $$

ここで、FAR_k はディメンション固有の FAR です。 FAR_FW <= beta を制御するために、Bonferroni 補正は beta_k = beta / K を各次元に割り当てます。これは保守的ですがシンプルです。

6.3 ホルム・ボンフェローニの改善

Holm-Bonferroni 手順は、順序付けされた p 値を使用することで、ストレートボンフェローニを改善します。各ステップで、各次元の現在の証拠の p 値を計算します。

p_k(n) = P(D_{n,k} \leq d_{n,k} \mid \theta_k = \theta_{max,k}) $$

p 値の順序は、p_{(1)} <= p_{(2)} <= ... <= p_{(K)} です。最小の p 値を持つ次元には、しきい値 beta / K を適用します。2 番目に小さい次元には、beta / (K-1) を適用します。等々。このステップダウン手順は、ベータ版でファミリーごとの FAR を制御しますが、厳密にはボンフェローニよりも強力です。

6.4 ジョイント停止面

多次元停止規則は、K 次元証拠空間内の 停止面 を定義します。ステップ n での証拠の状態を、次元固有のサンプル欠陥率のベクトル s_n = (D_{n,1}/n, ..., D_{n,K}/n) とする。停止面は、証拠空間を 3 つの領域に分割します。

領域 A を受け入れる: すべての寸法には適合性の十分な証拠があります。監査は、すべての次元で承認の判定が得られて終了します。
拒否領域 R: 少なくとも 1 つの寸法に不適合の十分な証拠があります。監査は拒否の判定で終了します。
領域 C を続行: 少なくとも 1 つの次元に十分な証拠がありません。監査は継続されます。

停止面の形状は、寸法固有のしきい値と欠陥指標間の相関構造によって決まります。欠陥がさまざまな側面にわたって正の相関関係にある場合 (実際の一般的なパターンです。財務上の正確さで失敗する企業は、プロセスの順守でも失敗することがよくあります)、停止面はよりコンパクトになり、監査はより迅速に終了します。

6.5 正式なジョイント停止基準

FAR_FW <= beta を制御するジョイント停止基準は次のとおりです。

\tau_{joint} = \inf\left\{n : \forall k, \left(P(\theta_k \leq \theta_{max,k} \mid D_{n,k}) \geq 1 - \frac{\beta}{K}\right) \text{ or } \exists k, \left(P(\theta_k > \theta_{max,k} \mid D_{n,k}) \geq 1 - \frac{\beta}{K}\right)\right\} $$

言い換えると、ボンフェローニ調整レベルですべての次元が個別に適合していると確信できる場合は停止して受け入れ、いずれかの次元が個別に不適合であると確信できる場合は停止して拒否します。

定理 6.1 (ファミリーワイズ FAR 保証)。 上記のジョイント停止基準は、K 次元間のあらゆる相関構造について FAR_FW <= beta を満たします。

証明は和集合境界と次元固有の事後しきい値保証から直接続きます。ボンフェローニ補正の保守的な性質は、特に K が中程度 (ほとんどの監査アプリケーションでは K <= 10) の場合、実際の FAR_FW が通常ベータよりかなり下になることを意味します。

6.6 次元の優先順位付け

実際には、すべてのリスク側面が同じように重要であるわけではありません。財務上の正確さは、プロセス文書の完全性の 10 倍の影響をもたらす可能性があります。次元の重み w_k > 0 (合計が 1) で停止基準を拡張します。

FAR_{FW,weighted} = \sum_{k=1}^{K} w_k \cdot FAR_k $$

重み付けされたファミリーごとの FAR では、より低い結果のディメンションにはより多くの FAR 予算が割り当てられ、より高い結果のディメンションにはより少ない FAR 予算が割り当てられます。これは、beta_k = beta * w_k / w_{max} (w_{max} = max_k w_k) を設定することで実現され、最も重要な次元が最も厳密な FAR 制御を受けるようになります。

MARIA OS では、次元の重みは監査ゲートごとに設定され、ゲートの証拠要件仕様に保存されます。ゲートエンジンはすべてのディメンションを並行して評価し、証拠が更新されるたびに重み付けされた停止基準を適用します。

7. 予算制約の下での最適なサンプルサイズ

すべての監査は、時間、人員、予算、監査対象者へのアクセスなどのリソースの制約の下で行われます。最適化の問題は、限られた監査リソースをリスク階層およびリスク次元全体に割り当てて、予算上限の影響を受ける FAR の合計を最小限に抑えることです。

7.1 監査予算モデル

監査予算の合計を B (コスト単位で測定) とします。階層 k の項目 j を調べるコストは c_{j,k} です。簡単にするために、各層内でコストが均一であると仮定します: すべての j に対して c_{j,k} = c_k。予算の制約は次のとおりです。

\sum_{k=1}^{K} n_k \cdot c_k \leq B $$

ここで、n_k は、層 k からサンプリングされたアイテムの数です。合計 FAR は、サンプル割り当て (n_1, ..., n_K) の関数です。

FAR_{total}(n_1, ..., n_K) = 1 - \prod_{k=1}^{K}(1 - FAR_k(n_k)) $$

7.2 ラグランジュ緩和

最適化問題は次のとおりです。

\min_{n_1, ..., n_K} FAR_{total}(n_1, ..., n_K) \quad \text{subject to} \quad \sum_{k=1}^{K} n_k c_k \leq B, \quad n_k \geq 0 $$

ラグランジアンは次のとおりです。

\mathcal{L}(n_1, ..., n_K, \mu) = FAR_{total}(n_1, ..., n_K) + \mu \left(\sum_{k=1}^{K} n_k c_k - B\right) $$

n_k に関する導関数を取得し、それをゼロに設定します。

\frac{\partial FAR_{total}}{\partial n_k} + \mu c_k = 0 $$

FAR_total の積形式に連鎖ルールを使用すると、次のようになります。

\frac{\partial FAR_{total}}{\partial n_k} = \prod_{j \neq k}(1 - FAR_j(n_j)) \cdot \left(-\frac{\partial FAR_k}{\partial n_k}\right) $$

一次条件は次のようになります。

\prod_{j \neq k}(1 - FAR_j(n_j)) \cdot \frac{\partial FAR_k}{\partial n_k} = \mu c_k $$

7.3 双対変数の解釈

ラグランジュ乗数 mu には、監査予算の限界値という自然な解釈があります。具体的には、最適値では mu = -dFAR_total/dB となります。 mu が大きい場合、監査予算を追加すると FAR が大幅に減少し、監査が予算に制約されていることを示します。 mu が小さい場合、追加予算の影響はほとんどなく、監査の利益が逓減していることを示しています。

提案 7.1. 最適な割り当てでは、単位コストあたりの限界 FAR 削減はすべての層で均等になります。

\frac{1}{c_k} \cdot \frac{\partial FAR_k}{\partial n_k} \bigg|_{n_k = n_k^*} \propto \text{constant for all } k $$

これは、経済学における等限界原理の監査に似たものです。つまり、どの層に費やされた最後のドルでも同じ限界 FAR 削減が得られるように、リソースが割り当てられる必要があります。項目ごとの FAR 感度が高い層 (追加サンプルごとに不確実性が大幅に減少する高リスク層) は、より多くのサンプルを受け取ります。感度の低い層 (集団が明らかに適合している低リスク層) は、受信するサンプルの数が少なくなります。

7.4 指数関数的 FAR モデルにおける閉じた形式の解

層固有の FAR が、あるレートパラメーター r_k > 0 に対して指数関数的減衰モデル FAR_k(n_k) = exp(-r_k * n_k) に従う場合、最適化は閉じた形式の解になります。

一次条件は次のようになります。

r_k \cdot \exp(-r_k n_k) \cdot \prod_{j \neq k}(1 - \exp(-r_j n_j)) = \mu c_k $$

FAR_k << 1 (大きな n_k) である十分に分離された層の場合、積項は約 1 となり、条件は次のように単純化されます。

r_k \cdot \exp(-r_k n_k) \approx \mu c_k $$

n_k を解く：

n_k^* = \frac{1}{r_k} \ln\frac{r_k}{\mu c_k} $$

予算制約 sum_k n_k* c_k = B を代入して mu を解くと、最適な割り当てが得られます。このソリューションは、予想どおり、FAR 感度が高く (r_k が大きい)、アイテムあたりのコストが低い (c_k が小さい) 層により多くのサンプルを割り当てます。

7.5 動的な予算の再配分

逐次監査では、証拠が蓄積されるにつれて予算割り当てを動的に更新できます。各ステップで、残りのバジェット B_remaining = B - sum_k n_k c_k が、現在の事後不確実性に基づいて層全体に再割り当てされます。

n_{k,remaining}^* \propto \frac{\sqrt{\text{Var}(\theta_k \mid D_{n,k})}}{c_k} $$

事後分散が高い（残留不確実性が高い）層は、残りの予算のより大きなシェアを受け取ります。後部がすでに集中している層（明らかに適合しているか、明らかに不適合であるかのいずれか）は、受信量が少なくなります。この適応的割り当ては、層化サンプリングにおけるネイマン割り当てのベイジアンアナログです。

MARIA OS では、証拠更新イベントごとにゲートエンジンによって動的な予算の再割り当てが実行されます。ゲートのリソースアロケーターは、残りの監査予算をオープンディメンション全体に再配分し、証拠収集の取り組みが停止の決定に最も影響を与える場所に集中するようにします。

8. MARIA OSゲートエンジンとの統合

前のセクションで導出された数学的な停止基準は、MARIA OS ゲートエンジン内に監査タイプのゲートとして実装されます。このセクションでは、アーキテクチャ、監査決定のためのゲート評価パイプライン、およびフェールクローズ公理への接続について説明します。

8.1 ゲート評価者としてのゲートの監査

MARIA OS アーキテクチャでは、監査検証が必要なすべての決定がゲート評価器を通過します。監査決定のゲート評価者は、次のように停止基準を実装します。

ゲートは、アクティブな監査ごとに次のような 監査状態 を維持します。

K リスク次元にわたる蓄積された証拠ベクトル (D_{n,1}, ..., D_{n,K})
サンプル数 n
各ディメンションの前のハイパーパラメータ (alpha_{0,k}、beta_{0,k})
各次元の事後パラメータ (alpha_{0,k} + D_{n,k}、beta_{0,k} + n - D_{n,k})
停止基準の設定: 各次元の (theta_{max,k}、beta_k、epsilon_k)
残りの予算 B_残り
選択した停止方法 (MAX、SPRT、ベイジアン、またはハイブリッド)

8.2 ゲート評価パイプライン

新しい証拠アイテムが監査ゲートに到着すると、評価パイプラインが次のように進みます。

ステップ 1: 証拠の取り込み。 証拠アイテムが受信され、検証されます。各項目は、各リスク次元での適合または不適合を示す K 次元のバイナリベクトル (X_{t,1}, ..., X_{t,K}) を生成します。累積欠陥数が更新されます: D_{n+1,k} = D_{n,k} + X_{t+1,k}。

ステップ 2: 事後更新。 ベイジアン停止の場合、事後パラメーターが更新されます: alpha_k <- alpha_k + X_{t+1,k}、beta_k <- beta_k + (1 - X_{t+1,k})。 SPRT の場合、対数尤度比が更新されます: lambda_{n+1,k} = lambda_{n,k} + X_{t+1,k} ln(theta_{max,k}/theta_{0,k}) + (1 - X_{t+1,k}) ln((1-theta_{max,k})/(1-theta_{0,k}))。

ステップ 3: 停止基準の評価。 選択した停止基準が、更新された証拠の状態に対して評価されます。基準が満たされると (承認または拒否のいずれか)、ゲートは終了状態に移行します。そうでない場合、ゲートは開いたままになります。

ステップ 4: 予算チェック 残りの予算がなくなり (B_remaining <= 0)、停止基準が満たされていない場合、ゲートはフェールクローズルールを呼び出します。つまり、監査結果は拒否になります。これにより、予算が使い果たされても誤った許可が得られることは決してありません。十分な証拠を収集する余裕がない場合は、保守的な評決に従うことになります。

ステップ 5: リソースの再割り当て。 ゲートが開いたままの場合、リソースアロケーターは、現在の事後分散構造に基づいて、残りのバジェットをディメンション全体に再配分します。

8.3 監査コンテキストにおけるフェイルクローズの公理

MARIA OS のフェイルクローズ公理には、監査コンテキストで 3 つの具体的な表現があります。

公理 1: 証拠が不十分な場合はデフォルトで拒否。 停止基準が満たされておらず、これ以上証拠を収集できない場合 (予算不足、時間制限、アクセス制限)、ゲートは拒否判定を出します。監査対象のエンティティは合格しません。これは、一般的なフェールクローズ原則の監査固有のインスタンス化です。つまり、ゲートがアクションが安全であると判断できない場合、アクションは拒否されます。

公理 2: 基準の曖昧さに関するデフォルトの拒否 停止基準があいまいな結果を生成する場合 (証拠が受理も拒否も明確でない無差別ゾーンにある場合)、ゲートは拒否の評決を発行します。 SPRT フレームワークでは、これは次のことを意味します。lambda_n が継続領域 (A < lambda_n < B) にあり、監査を終了する必要がある場合、判定は拒否になります。ベイジアンフレームワークでは、P(theta <= theta_max | D_n) も P(theta > theta_max | D_n) も 1 - イプシロンを超えない場合、判定は拒否になります。

公理 3: システム障害時のデフォルトの拒否 ゲートエンジンが停止基準の評価中にランタイムエラー (数値オーバーフロー、データベースの利用不能、証拠の破損状態) に遭遇した場合、ゲートは拒否判定を発行します。評価機構が失敗した場合、デフォルトでは監査は合格しません。これはインフラストラクチャレベルのフェールクローズ保証です。

8.4 監査ゲート構成スキーマ

MARIA OS の各監査ゲートは、「gate_configurations」テーブルに保存されている次のパラメータで構成されます。

{
  gate_id: "audit-sox-financial-accuracy",
  gate_type: "audit",
  stopping_method: "bayesian_posterior_threshold",
  dimensions: [
    {
      name: "financial_accuracy",
      theta_max: 0.05,
      weight: 0.35,
      prior_alpha: 1.0,
      prior_beta: 19.0
    },
    {
      name: "control_effectiveness",
      theta_max: 0.03,
      weight: 0.30,
      prior_alpha: 1.0,
      prior_beta: 32.0
    },
    {
      name: "process_adherence",
      theta_max: 0.08,
      weight: 0.20,
      prior_alpha: 1.0,
      prior_beta: 11.5
    },
    {
      name: "data_integrity",
      theta_max: 0.02,
      weight: 0.10,
      prior_alpha: 1.0,
      prior_beta: 49.0
    },
    {
      name: "disclosure_completeness",
      theta_max: 0.10,
      weight: 0.05,
      prior_alpha: 1.0,
      prior_beta: 9.0
    }
  ],
  far_target: 0.005,
  budget_max: 500,
  n_max: 300,
  empirical_bayes_discount: 0.85,
  fail_closed: true
}

監査ゲートには「fail_closed: true」フラグが必須です。 MARIA OS ゲートエンジンは、監査タイプのゲートに対して「fail_closed」が「false」に設定されているゲート構成を拒否し、構成レベルでフェイルクローズの公理を強制します。

8.5 リアルタイム停止基準ダッシュボード

MARIA OS ダッシュボードは、監査停止状態をリアルタイムで公開します。アクティブな監査ゲートごとに、ダッシュボードには以下が表示されます。

現在の証拠の状態: サンプル数 n、次元ごとの欠陥数 D_{n,k}、サンプル欠陥率 p-hat_{n,k}
事後分布: 密度曲線として視覚化された Beta(alpha_k + D_{n,k}, beta_k + n - D_{n,k})
停止境界: SPRT 境界 (A、B) またはベイジアンしきい値 (1 - イプシロン) を証拠の軌跡に重ね合わせます。
残りの予算と予想される終了時点
監査が今すぐ強制終了された場合の現在の判定 (フェールクローズのデフォルト)

この透明性により、人間の監査人が自動停止基準を監視し、必要に応じて介入できることが保証されます。システムはブラックボックスで最終決定を行いません。すべての中間状態が表示され、すべてのしきい値が明示的に示され、フェールクローズのデフォルトが常に表示されます。

9. ケーススタディ: SOX コンプライアンス監査

数学的な停止基準をシミュレートされた SOX (サーベンスオクスリー) コンプライアンス監査に適用して、実際のパフォーマンスを実証します。 SOX セクション 404 では、財務報告に対する内部統制の有効性を評価し、報告することが経営陣に義務付けられています。外部監査人は、これらの統制を独立して評価し、その有効性について意見を発表する必要があります。

9.1 シナリオのセットアップ

この監査は、次の特徴を持つ中規模の金融サービス会社を対象としています。

人口: 2025 年第 4 四半期に処理された金融取引は 12,400 件
リスクの側面: 5 (財務上の正確性、管理の有効性、プロセスの順守、データの完全性、開示の完全性)
重要性の基準値: 50 万ドル (この基準値を超える取引は 100% 検査を受けます)
許容偏差率: 5 つの次元にわたる theta_max = (0.05、0.03、0.08、0.02、0.10)
許容可能な品質レベル: 5 つの次元にわたる theta_0 = (0.01、0.005、0.02、0.005、0.03)
ターゲット FAR_FW: 0.01 (ファミリー単位の不正許可率 1%)
監査予算: 500 項目 (監査チームがエンゲージメントタイムライン内で調査できるトランザクションの最大数)
項目ごとのコスト: c_k = (1.0、1.5、0.8、1.2、0.6) 次元全体のコスト単位 (各次元の評価のさまざまな複雑さを反映)

9.2 停止メソッドの設定

3 つの停止方法を設定し、そのパフォーマンスを比較します。

方法 A: 固定サンプル計画。 PCAOB AS 2315 に基づく従来の監査サンプリング。AICPA サンプルサイズテーブルを使用して計算されたサンプルサイズ: 財務精度の場合は n = 156 (theta_max = 0.05、信頼性 = 95%)、管理の有効性の場合は n = 195 (theta_max = 0.03) など。固定サンプルの合計: 156 + 195 + 93 + 240 + 65 = 749 項目。これは 500 アイテムの予算を超えているため、固定プランでは信頼性を下げるか、テストするディメンションの数を制限する必要があります。

方法 B: SPRT ベースの停止。 alpha_k = 0.05 および beta_k = 0.01/5 = 0.002 (ボンフェローニ補正) から計算された境界を持つ各次元の切り捨てられた SPRT。 H_0 で予想されるサンプルサイズ: E[tau_1] = 98、E[tau_2] = 145、E[tau_3] = 62、E[tau_4] = 178、E[tau_5] = 45。予想される合計: 528 アイテム。これは予算をわずかに上回りますが、順次的な性質を考慮すると実現可能です (多くのディメンションは早期に終了します)。

方法 C: ベイジアン事後停止。 過去の監査データ (過去 3 年) からのベータ事前分布。事後しきい値 epsilon_k は、次元ごとの FAR_k <= 0.002 を達成するためにモンテカルロによって校正されました。ディメンション間での動的な予算の再割り当て。

9.3 シミュレーション結果

次の 3 つのシナリオの下で、各手法について 10,000 件の監査業務をシミュレートします。

シナリオ 1: 完全に適合する母集団 (すべての k に対して theta_k = theta_{0,k})。

Method	Avg. Sample Size	FAR	False Deny Rate
Fixed-Sample (A)	500 (budget-capped)	0.8%	4.2%
SPRT (B)	312	0.18%	4.8%
Bayesian (C)	287	0.22%	3.9%

適合シナリオの下では、両方の逐次メソッドは、予算に上限のある固定プランと比較して、約 38 ～ 43% のサンプル削減を達成します。 SPRT は最低の FAR (0.18%) を達成し、ベイジアン法は最低の本人拒否率 (3.9%) を達成します。

シナリオ 2: 1 つの不適合な次元 (theta_3 = 0.12、他のすべては theta_{0,k})。

Method	Avg. Sample Size	FAR	Correct Rejection Rate
Fixed-Sample (A)	500 (budget-capped)	0.3%	94.1%
SPRT (B)	198	0.09%	99.2%
Bayesian (C)	215	0.12%	98.7%

1 つの次元が不適合の場合、逐次メソッドはさらに速く終了し (不適合な次元が早期の拒否をトリガーします)、より高い正確な拒否率を達成します。ここでは SPRT が特に効率的で、平均 198 項目のみを使用して、99.2% の正確な拒否率で不適合ディメンションを特定します。

シナリオ 3: 境界線の人口 (theta_k はすべての k について theta_{max,k} にほぼ等しい)。

Method	Avg. Sample Size	FAR	False Deny Rate
Fixed-Sample (A)	500 (budget-capped)	12.3%	8.7%
SPRT (B)	478	0.28%	14.1%
Bayesian (C)	461	0.31%	12.8%

境界線のシナリオは最も困難です。固定サンプル計画では、12.3% という驚くほど高い FAR が生成され、不適合母集団の 8 人に 1 人が監査に合格することになります。どちらの逐次メソッドも、ほぼすべての予算を使用しながら適応的に適用することで、FAR を 1% 未満に維持します。トレードオフとして、本人拒否率が高くなります (12 ～ 14%) が、非対称のコスト構造を考慮すると許容範囲内です。

9.4 主要な調査結果

このケーススタディでは、次の 3 つの重要な結果が示されています。

調査結果 1: FAR 制御ではシーケンシャル手法の方が厳密に優れています。 すべてのシナリオにおいて、SPRT とベイジアン停止の両方で、使用するサンプルが 30 ～ 60% 少ない一方で、固定サンプル計画よりも少なくとも 5 倍低い FAR を達成しています。改善は境界線のシナリオで最も劇的であり、固定プランの FAR (12.3%) がガバナンス目的で受け入れられない場合です。

調査結果 2: 予算の制約により、固定計画は危険になります。 監査予算が完全な固定サンプル計画に対して不十分な場合、固定計画は信頼性または範囲に関して妥協する必要があります。私たちのシミュレーションでは、予算に上限のある固定計画では、必要な信頼レベルですべての要素を調査できず、境界線のシナリオで高い FAR が発生しました。シーケンシャル方式はリソースを動的に割り当てるため、予算の制約に自然に適応します。

調査結果 3: フェイルクローズの公理により、壊滅的な FAR が防止されます。 停止基準が満たされる前にバジェットが使い果たされた SPRT シミュレーション実行の 2.1% とベイジアン実行の 2.8% では、フェイルクローズのデフォルト (拒否) により、潜在的な誤許可がすべて防止されました。フェイルクローズ公理がなければ、これらの予算枯渇のケースは強制承認によって解決され、FAR が推定 1.5 ～ 2.0 パーセントポイント増加したでしょう。

10. 従来の監査サンプリング基準との比較

この文書で提示されている数学的な停止基準は、従来の監査サンプリング基準で規定されているヒューリスティックな手法とは大きく異なります。このセクションでは、いくつかの側面にわたって 2 つのアプローチを比較します。

10.1 ISA 530 および AICPA AU-C 530

監査に関する国際基準 530 (ISA 530) および米国における同等の基準 (AU-C 530) は、財務監査における監査サンプリングの枠組みを確立しています。従来のアプローチの主な特徴:

固定サンプルサイズは、信頼水準、許容偏差率、および期待偏差率に基づいて表から決定されます。監査人は専門的な判断に基づいてこれらのパラメータを選択します。
逐次的な更新はありません。 サンプルサイズは監査の開始前に決定され、中間結果に基づいて調整されません (監査人が専門的な判断を下してサンプリングを延長するまれなケースを除く)。
定性的な許容逸脱率。 この規格では、正確な数値閾値ではなく、「低」、「中」、「高」などの用語で許容逸脱率を説明しています。
停止については専門的な判断。 この基準では、監査人は「サンプルの結果が結論の合理的な根拠を提供するかどうかを検討」する必要があると規定されており、これは数学的形式化を伴わない主観的な評価です。

10.2 PCAOB AS 2315

PCAOB の監査基準 2315 (監査サンプリング) は、米国の公開会社監査に関するより具体的なガイダンスを提供しますが、基本的な制限は維持されています。

サンプルサイズは、固定の信頼水準 (通常は 90% または 95%) を想定した表に基づいています。
この基準は、「監査人は虚偽表示の定性的側面を考慮すべきである」ことを認めているが、これらの考慮事項が停止の決定にどのような影響を与えるかについて正式には定めていない。
明示的な FAR 計算はありません。規格のサンプルサイズ表は、暗黙的に特定の FAR を対象としていますが、このパラメータは監査人には公開されていません。

10.3 比較分析

Criterion	Traditional (ISA 530 / AS 2315)	Mathematical Stopping (This Paper)
Sample size	Fixed, pre-determined	Sequential, adaptive
FAR control	Implicit, not exposed	Explicit, configurable
Multi-dimensional	Separate plans per dimension	Joint stopping surface
Budget optimization	Not addressed	Lagrangian optimal allocation
Prior information	Informal professional judgment	Formal Bayesian updating
Fail-safe behavior	Auditor's discretion	Axiomatic Fail-Closed
Real-time monitoring	Not applicable	Continuous posterior display
Reproducibility	Depends on auditor judgment	Fully deterministic given configuration

10.4 再現性に関する議論

おそらく最も重要な違いは再現性です。従来の基準では、停止基準が専門家の判断に依存するため、同じ集団を同じリスク評価で検査する 2 人の監査人が異なる停止決定に達する可能性があります。数学的枠組みの下では、同じ構成を持つ 2 つの監査システムが、同じ証拠シーケンスに対して同一の停止決定を下します。この再現性はガバナンスにとって不可欠です。これにより、監査の品質が個々の監査員の調整に依存しないことが保証されます。

MARIA OS の実装では、設計により再現性が確保されています。停止基準は、証拠の状態とゲート構成の決定論的な関数です。ゲート構成はバージョン管理されており、監査可能です。証拠の状態は不変の台帳に維持されます。これらのプロパティを組み合わせることで、記録された入力から監査上の決定を正確に再現できることが保証されます。

10.5 下位互換性

数学的枠組みは従来の監査基準を無効にするものではなく、それらを包含するものです。固定サンプルプランは、停止基準が tau = n_max (常に n_max 個の項目を正確にサンプリングする) であるシーケンシャルフレームワークの特殊なケースです。従来のサンプルサイズテーブルは、beta を暗黙的信頼水準に設定し、n_max を解くことによって FAR 制約から導出できます。 ISA 530 または AS 2315 への準拠が必要な組織は、フェイルクローズの公理と多次元追跡の恩恵を受けながら、従来の固定サンプル動作をエミュレートするように MARIA OS 監査ゲートを構成できます。

11. ベンチマーク

シミュレーション研究と MARIA OS ゲートエンジン統合テストからの定量的なベンチマークを報告します。

11.1 停止方法別の FAR パフォーマンス

混合分布から得られたシータを使用した 50,000 件の監査母集団のシミュレーション (theta_0 で 70% 適合、theta_max で境界線 20%、2*theta_max で明らかに不適合 10%):

Method	Mean FAR	Max FAR	Mean Sample Size	p99 Sample Size
MAX(0, 104)	0.41%	0.50%	104.0 (fixed)	104
MAX(2, 150)	0.38%	0.49%	112.3	150
SPRT(A, B, 300)	0.18%	0.29%	187.4	298
Bayesian(eps=0.003)	0.22%	0.31%	172.8	285
Hybrid SPRT+Bayesian	0.15%	0.24%	165.2	278

ハイブリッド法 (拒否には SPRT、受け入れにはベイジアンを使用) は、最高の全体的なパフォーマンスを達成します。平均 FAR が最低 (0.15%)、平均サンプルサイズが最低 (165.2 項目) です。

11.2 サンプルの効率向上

固定サンプル計画 (ベースラインとして MAX(0, 104)) と比較すると、次のようになります。

SPRTはH_0(適合母集団)の下で予想されるサンプルサイズの38%の削減を達成する
ベイジアンは H_0 の下で予想サンプルサイズの 42% 削減を達成
H_1 (不適合集団) では、SPRT は 67% の削減、ベイジアンでは 61% の削減を達成します。
理論によって予測されるように、効率の向上は、人口が無関心ゾーンから遠く離れている場合に最大になります。

11.3 多次元のパフォーマンス

FAR_FW ターゲットが 1% の 5 次元 SOX 監査構成の場合:

Method	Actual FAR_FW	Mean Total Samples	Budget Utilization
Bonferroni-adjusted SPRT	0.31%	412	82.4%
Holm-Bonferroni SPRT	0.38%	387	77.4%
Bayesian with dynamic reallocation	0.28%	371	94.2%

動的な予算の再割り当てを伴うベイズ手法は、最も不確実性が残っているディメンションに残りの監査作業を集中させることにより、最高の予算使用率 (94.2%) を達成します。 Holm-Bonferroni SPRT は使用するサンプルの合計が最も少ないですが、サンプルを適応的にではなく均一に割り当てるため、より低い予算使用率を実現します。

11.4 ゲートエンジンの遅延

MARIA OS ゲートエンジン処理監査証拠の更新で測定:

Operation	p50 Latency	p95 Latency	p99 Latency
Evidence ingestion + posterior update	2.1ms	4.8ms	7.3ms
SPRT stopping criterion evaluation	0.3ms	0.8ms	1.2ms
Bayesian stopping criterion evaluation	0.4ms	1.1ms	1.8ms
Multi-dimensional joint evaluation (K=5)	1.2ms	3.4ms	5.1ms
Budget reallocation	0.8ms	2.1ms	3.4ms
Total pipeline (end-to-end)	4.8ms	8.2ms	12.1ms

p99 でのエンドツーエンドの合計レイテンシ 12.1 ミリ秒は、MARIA OS ゲートエンジンのゲート評価あたり 50 ミリ秒の SLA の範囲内に十分収まります。停止基準の評価は計算が軽量です。レイテンシーの大部分は、証拠の取り込み (データベースの書き込み) と予算の再割り当て (最適化の計算) にあります。

12. 今後の方向性

この論文で提示された数学的枠組みは、将来の研究および工学開発にいくつかの道を開きます。

12.1 非定常欠陥率

現在のフレームワークでは、欠陥率シータが監査全体を通じて一定であると想定されています。実際には、欠陥率は時間の経過とともに変化する可能性があります。たとえば、監査期間の開始時に不適合だったシステムが途中で修正されたり、適合したシステムが劣化したりする可能性があります。停止基準を拡張して非定常欠陥率を処理するには、変化点検出 (シータがいつシフトするかを特定する) または時間加重モデル (古い観測値を割り引く) のいずれかが必要です。 CUSUM (累積合計) 管理図は、逐次監査フレームワーク内での変化点検出の自然な開始点を提供します。

12.2 相関する欠陥

現在の多次元停止基準は、欠陥率が与えられた場合のリスク次元全体にわたる条件付き独立性を前提としています。欠陥が相関している場合（たとえば、財務上の正確さの欠陥がある取引には、管理有効性の欠陥もある可能性が高くなります）、ジョイント停止面はこの相関構造を考慮する必要があります。コピュラモデルまたは共役事前確率 (ディリクレ多項式) を使用した多変量ベイジアン更新では、これらの依存関係を把握し、次元を越えた情報を活用することで必要なサンプルサイズを削減できる可能性があります。

12.3 敵対的な集団

標準的な監査モデルでは、母集団が固定されており、監査人がランダムにサンプリングすることを前提としています。敵対的な設定 (不正検出など) では、被監査者は、たとえば、めったにサンプリングされない階層に欠陥を集中させるなどして、検出を回避するために母集団を操作する可能性があります。戦略的敵対者を考慮したゲーム理論的な停止基準は、フレームワークをフォレンジックおよび不正監査アプリケーションに拡張するでしょう。 Minimax 停止ルールは、最悪の場合の敵対行為に対して FAR を保証しますが、日常的なコンプライアンス監査には過度に保守的になる可能性があります。

12.4 継続的監視の統合

企業が定期的な監査から継続的な監視に移行するにつれて、監査停止の問題はバッチ決定 (N 個の項目を検査し、評決を発行する) からストリーミング決定 (証拠を継続的に取り込み、実行中の評決を維持する) に変わります。ベイジアンフレームワークは当然この拡張に適しています。事後分布は継続的に更新され、停止基準はリアルタイムで評価されます。 MARIA OS ゲートエンジンはすでにストリーミング証拠の取り込みをサポートしており、継続的な監査モニタリングが短期的なエンジニアリング目標となっています。

12.5 因果関係による停止基準

現在の停止基準は相関関係にあり、欠陥を生成する因果メカニズムをモデル化することなく、観察されたデータから欠陥率を推定します。因果関係の停止基準には、欠陥生成の構造モデルが組み込まれており、因果関係モデルが十分な信頼性を持って特定された場合に監査を終了します。これにより、合否判定だけでなく、根本原因の特定も可能になります。欠陥がいくつあるかだけでなく、なぜ発生するかを説明するのに十分な証拠が集まった時点で監査は終了します。

12.6 人間参加型の停止

フレームワークは現在、停止の決定を完全に自動化されたものとして扱います (基準はゲートエンジンによって評価されます)。ハイブリッドアプローチにより、人間の監査人が停止の決定に影響を与えることができるようになります。たとえば、事後結果を更新するが正式なサンプルとしてカウントされないソフト証拠（専門家の意見、文脈上の知識）を提供することによって行われます。これには、信頼性が異なる異種の証拠タイプに対応できるようにベイジアンモデルを拡張する必要があります。

12.7 規制上の採用パス

規制された監査環境で数学的停止基準を採用するには、既存の標準化団体の要件に照らして検証する必要があります。私たちは 3 段階の導入パスを想定しています: (1) 従来のサンプリングと並行して補助的な意思決定補助として数学的基準を使用する、(2) 対照比較研究で同等性または優位性を実証する、(3) 順次およびベイズ停止法を正式に許可する ISA 530 / AS 2315 への修正案を提案する。 MARIA OS 監査ゲートの実装は段階 (1) のリファレンスアーキテクチャとして機能し、このペーパーのシミュレーション結果は段階 (2) の証拠を提供します。

13. 結論

監査停止問題は数学的な問題です。これは何十年もの間、判断の問題として扱われてきました。監査人は、経験、直観、および監査基準の定性的なガイドラインに基づいて、「十分に検討した」かどうかを判断します。この論文は、停止の決定が正確に形式化され、厳密に最適化され、透明性をもって実装できることを示しています。

MAX 制約、SPRT、およびベイジアン事後しきい値という 3 つの数学的フレームワークは、それぞれ異なるトレードオフを提供します。 MAX 制約は単純さと解釈可能性を提供しますが、明らかに適合する母集団または不適合な母集団のサンプルを無駄にします。 SPRT は 2 点仮説検定に最適なサンプル効率を提供しますが、正確なヌル欠陥率と代替欠陥率の仕様が必要です。ベイジアン停止はスムーズな収束と事前情報の自然な取り込みを提供しますが、事前の注意深い仕様と調整が必要です。

複数のリスク要因を同時に評価する実際の監査には、多次元の拡張が不可欠です。 Bonferroni が調整したジョイント停止基準により、実装の複雑さを最小限に抑えながらファミリーごとの FAR 制御が実現します。加重拡張により、組織はさまざまなリスク側面の相対的な重要性を停止基準にエンコードできます。

予算に制約のある最適化により、基本的な洞察が明らかになります。監査リソースは、リスク層全体に均一に配分するのではなく、最も限界の FAR 削減をもたらす場所に配分する必要があります。ラグランジュ双変数は監査予算の限界値を定量化し、監査リソース割り当ての意思決定支援指標を提供します。

MARIA OS ゲートエンジンとの統合により、これらの停止基準を運用環境に導入するためのアーキテクチャ基盤が提供されます。フェイルクローズの原則 (疑わしい場合は否定する) は、監査停止の問題がスループット最適化の問題に悪化するのを防ぐための重要な設計上の選択です。フェイルクローズがなければ、コストと遅延を削減するために監査を早期に終了するというプレッシャーが常にかかります。フェールクローズでは、証拠が不十分な場合にシステムがデフォルトで監査を継続し、ガバナンス目標 (FAR の制御) が効率目標 (サンプルサイズの最小化) よりも優先されるようにします。

ケーススタディの結果は有望です。逐次手法は FAR を 0.3% 未満に維持しながらサンプルサイズを 38 ～ 42% 削減し、フェイルクローズの原理により、予算枯渇シナリオにおけるあらゆる潜在的な誤許可を防止します。これらはわずかな改善ではなく、監査の信頼性と効率における質的な変化を表しています。

「いつ監査を止めるべきか?」という質問。数学的に厳密な停止基準を通じて評価された蓄積された証拠が、ガバナンスの制約が満たされるという十分な確信を提供するとき、という正確な答えが得られました。以前はありませんでした。判断によるものではありません。証拠により。

参考文献

1. ウォルド、A. (1945)。統計的仮説の逐次検定。 数学統計年報、16(2)、117-186。 2. Wald, A. & Wolfowitz, J. (1948)。逐次確率比検定の最適特性。 数学統計年報、19(3)、326-339。 3. アーミテージ、P. (1957)。制限された連続手順。 バイオメトリカ、44(1-2)、9-26。 4. AICPA (2019)。 AU-C セクション 530: 監査サンプリング。 プロフェッショナル基準。 5. IAASB (2009)。 ISA 530: 監査サンプリング。 監査に関する国際基準。 6. PCAOB (2017)。 AS 2315: 監査サンプリング。 監査基準。 7. J.O. バーガー (1985)。 統計的意思決定理論とベイズ分析。スプリンガー・フェルラーク。 8. デグルート、M.H. (1970)。 最適な統計的決定。マグロウヒル。 9. ゴーシュ、BK、セン、P.K. (1991)。 逐次解析のハンドブック。マルセル・デッカー。 10. タルタコフスキー、A.、ニキフォロフ、I.、バスヴィル、M. (2014)。逐次分析: 仮説のテストと変化点の検出。チャップマン＆ホール/CRC。 11. MARIA OS アーキテクチャのドキュメント (2026)。 エージェントガバナンスのためのフェールクローズゲート設計。 Decision Inc. の内部技術レポート。

監査停止基準の数理設計: いつ十分かを判定する最適停止理論

要旨

1. 監査終了問題

1.1 逐次観測モデル

1.2 2 つのエラー モード

1.3 無関心ゾーン

1.4 固定サンプル計画が最適ではない理由

2. 誤認率: 正式な定義

2.1 点ごとの FAR

2.2 動作特性曲線

2.3 最大 FAR とガバナンスの制約

2.4 以前の平均FAR

2.5 リスク階層ごとの FAR の分解

3. MAX 制約の停止ルール

3.1 定義

3.2 FAR分析

3.3 最適な受付番号の選択

3.4 早期停止による切り捨てられた MAX ルール

4. 監査のための逐次確率比テスト

4.1 配合

4.2 意思決定の境界線

4.3 SPRTの最適性

4.4 予想されるサンプルサイズ

4.5 予算遵守のための短縮された SPRT

4.6 複合仮説を使用した SPRT

5. ベイジアン停止基準

5.1 事前仕様

5.2 事後更新

5.3 ベイジアン停止規則

5.4 損失ベースの停止

5.5 ベイジアン vs. 頻度主義 FAR 制御

5.6 反復監査のための経験的ベイズ

6. 多次元的な停止: 複数のリスク要因

6.1 問題の定式化

6.2 ファミリー単位の FAR 制御

6.3 ホルム・ボンフェローニの改善

6.4 ジョイント停止面

6.5 正式なジョイント停止基準

6.6 次元の優先順位付け

7. 予算制約の下での最適なサンプルサイズ

7.1 監査予算モデル

7.2 ラグランジュ緩和

7.3 双対変数の解釈

7.4 指数関数的 FAR モデルにおける閉じた形式の解

7.5 動的な予算の再配分

8. MARIA OSゲートエンジンとの統合

8.1 ゲート評価者としてのゲートの監査

8.2 ゲート評価パイプライン

8.3 監査コンテキストにおけるフェイルクローズの公理

8.4 監査ゲート構成スキーマ

8.5 リアルタイム停止基準ダッシュボード

9. ケーススタディ: SOX コンプライアンス監査

9.1 シナリオのセットアップ

9.2 停止メソッドの設定

9.3 シミュレーション結果

9.4 主要な調査結果

10. 従来の監査サンプリング基準との比較

10.1 ISA 530 および AICPA AU-C 530

10.2 PCAOB AS 2315

10.3 比較分析

10.4 再現性に関する議論

10.5 下位互換性

11. ベンチマーク

11.1 停止方法別の FAR パフォーマンス

11.2 サンプルの効率向上

11.3 多次元のパフォーマンス

11.4 ゲート エンジンの遅延

12. 今後の方向性

12.1 非定常欠陥率

12.2 相関する欠陥

12.3 敵対的な集団

12.4 継続的監視の統合

12.5 因果関係による停止基準

12.6 人間参加型の停止

12.7 規制上の採用パス

13. 結論

参考文献

証拠整合性スペクトル解析: 監査証拠の固有分解による不正兆候検出

監査可能な金融意思決定トレーサビリティ: 規制準拠の証拠グラフモデル

マルチユニバース戦略最適化: CEO意思決定に対するMinimax理論

1.2 2 つのエラーモード

11.4 ゲートエンジンの遅延