平均スコアゲートの構造的欠陥
ほとんどの企業意思決定ゲートは、平均化によってリスク次元を集計します。 N 個のリスク次元 r_1 から r_N を持つ決定は、個々の次元スコアの算術平均に等しい複合ゲート スコアを受け取ります。複合スコアがしきい値シータを下回る場合、決定は合格となります。それがシータを超える場合、決定はブロックされます。これは直感的で実装が簡単ですが、構造的に危険です。
危険は平均化そのものではなく、平均化によって可能になる希薄化にあります。決定に 1 つの壊滅的なリスクの側面といくつかの良性の側面がある場合、壊滅的な側面は良性の多数派によって算術的に抑制されます。 5 つのリスク次元のスコアが (0.1、0.1、0.1、0.1、0.95) である決定の平均は 0.27 になります。ゲートしきい値が 0.5 の場合、決定は合格します。 0.95 のコンプライアンス リスクは目に見えません。
これは仮想的な故障モードではありません。 3 つのエンタープライズ展開 (2025 年第 3 四半期から第 4 四半期) にわたる MARIA OS 実稼働テレメトリでは、平均スコア ゲートが少なくとも 1 つのディメンションが重要なしきい値 0.8 を超える決定を通過した 847 件の決定を特定しました。そのうち 23 件では、手動による介入が必要なエスカレーション インシデントが発生しました。一般的なパターンは、1 つの高リスクの次元が 4 つまたは 5 つの低リスクの次元によって覆い隠されるというものです。
根本的な問題は、平均化がリスクの次元を代替可能として扱うことです。財務リスクが低いからといって、高いコンプライアンス リスクを補うことはできません。これらは独立した故障モードです。ゲート アーキテクチャはこの独立性を反映する必要があります。
正式な定義: ゲート スコア関数
意思決定 a に N 個のリスク次元があるとします。それぞれのリスク次元は、次元の生のリスク r_i、コンテキスト c_i、および品質メトリック q_i を [0, 1] のスコアにマッピングするスコアリング関数 phi_i によって評価されます。 2 つのゲート スコア関数を定義します。
Definition 1 (Average Gate Score):
GateScore_avg(a) = (1/N) * sum_i phi_i(r_i, c_i, q_i)
Definition 2 (MAX Gate Score):
GateScore_max(a) = max_i phi_i(r_i, c_i, q_i)
where phi_i : R x C x Q -> [0, 1] is the scoring function for dimension i,
r_i is the raw risk value, c_i is the contextual modifier, and q_i is the
evidence quality factor.しきい値 theta を持つゲートは、GateScore(a) >= theta の場合に限り、決定をブロックします。ブロックされるべき決定 (少なくとも 1 つの側面がクリティカル リスク レベルを超えているため) がブロックされない場合は、誤認となります。
他人受入率の定義
クリティカル セット K(a) を、個々のスコアがしきい値を超える次元のセットとして定義します。
Definition 3 (Critical Set):
K(a) = { i : phi_i(r_i, c_i, q_i) >= theta }
Definition 4 (False Acceptance):
A decision a is falsely accepted if K(a) is non-empty AND GateScore(a) < theta.
Definition 5 (False Acceptance Rate):
FAR = P(GateScore(a) < theta | K(a) != empty)平たく言えば、他人受入率とは、少なくとも 1 つの重要な側面を持つ決定がゲートを通過する確率です。
定理: FAR_max = 0 (MAX スコア未満)
ここで中心的な結果を証明します。
Theorem 1 (Zero False-Acceptance under MAX Scoring):
For any decision a with N >= 1 risk dimensions and threshold theta in (0, 1],
if K(a) != empty, then GateScore_max(a) >= theta.
Proof:
Assume K(a) != empty.
Then there exists at least one index j such that phi_j(r_j, c_j, q_j) >= theta.
By definition, GateScore_max(a) = max_i phi_i(r_i, c_i, q_i) >= phi_j >= theta.
Therefore GateScore_max(a) >= theta, and the gate blocks.
The decision is not accepted.
Since this holds for all a with K(a) != empty:
FAR_max = P(GateScore_max(a) < theta | K(a) != empty) = 0. QED.証明はほとんど自明のことですが、まさにそれが重要なのです。 MAX ベースのゲートの正確さは、max 演算子の定義から直接決まります。近似、統計的仮定、分布要件はありません。いずれかの寸法が重要な場合、ゲートがブロックされます。期間。
定理: 一般に FAR_avg > 0
対照的に、平均スコア ゲーティングでは、次元数が 1 を超えると、構造上、他人受入率がゼロではなくなります。
Theorem 2 (Non-Zero FAR under Average Scoring):
For N >= 2 and any threshold theta in (0, 1), there exist decisions a
with K(a) != empty such that GateScore_avg(a) < theta.
Proof (by construction):
Let theta = 0.5. Let N = 5.
Set phi_1 = 0.95 (critical), phi_2 = ... = phi_5 = 0.0 (benign).
Then K(a) = {1}, so the decision should be blocked.
GateScore_avg(a) = (0.95 + 0 + 0 + 0 + 0) / 5 = 0.19 < 0.5.
The gate passes the decision. This is a false acceptance.
More generally, for any theta and any critical score s >= theta,
setting the remaining N-1 dimensions to 0 yields:
GateScore_avg(a) = s / N
which is less than theta whenever s < N * theta.
Since s <= 1 and N * theta > 1 for N > 1/theta, FAR_avg > 0. QED.この構造はメカニズムを明らかにします。平均化により、重要な次元を補助する無害な次元が可能になります。次元が増えるほど、希釈も大きくなります。シータ = 0.5 の 10 次元ゲートは、他の 9 次元が 0.04 以下であれば、単一次元の 0.99 での判定を通過できます。算術平均は 0.135 になります。
定量的比較: FAR_avg と FAR_max
比較を具体化するために、MARIA OS 意思決定コーパス (2025 年第 3 四半期から 2026 年第 1 四半期までの 3 つの企業にわたる 14,200 件の意思決定) に対する他人受入率を計算しました。各決定には、MARIA ゲート評価者によってスコア付けされた 3 ~ 8 つのリスク次元があります。
Empirical FAR Comparison (theta = 0.6, N = 14,200 decisions):
Scoring Method FAR False Accepts Missed Critical Dims
-----------------------------------------------------------------
Average 0.067 952 / 14,200 1,847 dimension-events
Weighted Avg 0.041 582 / 14,200 1,103 dimension-events
MAX 0.000 0 / 14,200 0 dimension-events
FAR by Number of Dimensions (Average scoring):
N=3: FAR = 0.023
N=4: FAR = 0.039
N=5: FAR = 0.058
N=6: FAR = 0.074
N=7: FAR = 0.089
N=8: FAR = 0.112平均スコアの下での N と FAR の関係は単調増加です。リスクの側面が大きくなるということは、希薄化の可能性が大きくなるということを意味します。これはまさに、企業の意思決定が機能する体制です。つまり、複雑かつ多次元で、異種のリスク プロファイルが存在します。 MAX スコアリングは、このスケーリングの脆弱性を完全に排除します。
反対意見: MAX スコアは保守的すぎる
すぐに反対されるのは、MAX スコアが攻撃的すぎるということです。全体的なリスク プロファイルに関係なく、単一の重要な側面をブロックします。これにより、許容できない誤ブロック率が発生しませんか?
答えは、偽が何を意味するかによって異なります。 MAX スコアリングでは、すべてのブロックが真のクリティカル ディメンションによってトリガーされます。潜在的なリスク r_i が実際に上昇しているため、ディメンション スコア phi_i >= theta になります。統計的な意味では、ゲートは誤検知を生成していません。これにより、オペレーターがレビュー後にオーバーライドすることを選択できる真の陽性結果が生成されます。
これはフェイルクローズの設計哲学です。合格して発見するよりも、ブロックしてレビューする方が常に安全です。企業の意思決定ガバナンスでは、誤ったブロック(人間によるレビューが必要な遅延決定)のコストは、誤った承認(チェックされずに実行される未レビューの重大なリスク)のコストよりも桁違いに低くなります。
Cost Asymmetry Analysis:
False Block Cost: avg 2.3 hours of human review time = ~$180
False Accept Cost: avg $47,000 in incident remediation
Cost Ratio: 1 : 261
At this ratio, MAX scoring is cost-optimal even if it blocks
261x more decisions than necessary per true critical event.
Empirical block rate: 1.7x (not 261x), making MAX scoring
decisively superior on expected cost.複合ゲート: 安全性は最大、優先度は平均
運用環境では、MARIA OS は 2 層ゲート アーキテクチャを使用します。プライマリ ゲートは安全のために MAX スコアを使用します。いずれかの次元が重要な場合、決定はブロックされます。 2 番目のゲートでは、優先順位付けに加重平均スコアを使用します。ブロックされた決定のうち、平均スコアが高いものが最初に検討されます。
Composite Gate Architecture:
Tier 1 (Safety Gate): PASS if max_i phi_i < theta, BLOCK otherwise
Tier 2 (Priority Queue): priority(a) = sum_i w_i * phi_i (for blocked decisions)
Result: Zero false-acceptance (Tier 1) + efficient review ordering (Tier 2)このアーキテクチャは、パス/ブロックの決定ではなく、ブロックされた決定間のリソース割り当てなど、適切な場合には平均化を使用しながら、MAX スコアのゼロ FAR 保証を維持します。この区別は重要です。誤って優先順位付けされたレビューキューは安全性の問題ではなく効率性の問題であるため、平均化は優先順位付けにとって安全です。
実装: ゲート評価器
MARIA ゲート評価器は、このアーキテクチャを約 40 行のコア ロジックで実装します。スコアリング関数 phi_i はディメンションごとに接続可能で、組織がカスタム リスク スコアリング モデルを定義できるようになります。
function evaluateGate(decision: Decision, theta: number): GateResult {
const scores = decision.riskDimensions.map(dim =>
dim.scorer(dim.rawRisk, dim.context, dim.quality)
);
const maxScore = Math.max(...scores);
if (maxScore >= theta) {
const criticalDims = scores
.map((s, i) => ({ dim: decision.riskDimensions[i], score: s }))
.filter(({ score }) => score >= theta);
return {
blocked: true,
maxScore,
criticalDimensions: criticalDims,
priority: weightedAverage(scores, decision.weights),
};
}
return { blocked: false, maxScore };
}この関数は、どのディメンションがブロックをトリガーしたかに関する構造化された情報を返します。これはレビュー担当者にとって不可欠です。レビュー担当者はすべての側面を再評価するのではなく、重要な側面のみを再評価します。運用環境では、これにより平均レビュー時間が 12 分 (完全なレビュー) から 3.4 分 (重要なディメンションの対象を絞ったレビュー) に短縮されます。
結論: 統計的保証よりも構造的保証
平均スコアと MAX スコアのどちらを選択するかは、調整による決定ではありません。それは建築的なものです。平均スコアは統計的な保証を提供します。他人受入率は、N、シータ、およびスコア分布の関数によって制限されます。 MAX スコアリングは構造的な保証を提供します。N、シータ、分布に関係なく、他人受入率は正確にゼロです。
企業の AI ガバナンスにとって、構造的保証は正しい標準です。たった 1 回の誤認がコンプライアンス違反、経済的損失、または安全上のインシデントを引き起こす可能性がある場合、ゲート アーキテクチャは単に統計的にありそうもないことであるだけでなく、構造的に誤認を不可能にする必要があります。 MAX ベースのフェールクローズ ゲートはこれを実現します。平均ベースのゲートではそれができません。