Name: MARIA OS
Author: MARIA OS

平均スコアゲートの構造的欠陥

ほとんどの企業意思決定ゲートは、平均化によってリスク次元を集計します。 N 個のリスク次元 r_1 から r_N を持つ決定は、個々の次元スコアの算術平均に等しい複合ゲートスコアを受け取ります。複合スコアがしきい値シータを下回る場合、決定は合格となります。それがシータを超える場合、決定はブロックされます。これは直感的で実装が簡単ですが、構造的に危険です。

危険は平均化そのものではなく、平均化によって可能になる希薄化にあります。決定に 1 つの壊滅的なリスクの側面といくつかの良性の側面がある場合、壊滅的な側面は良性の多数派によって算術的に抑制されます。 5 つのリスク次元のスコアが (0.1、0.1、0.1、0.1、0.95) である決定の平均は 0.27 になります。ゲートしきい値が 0.5 の場合、決定は合格します。 0.95 のコンプライアンスリスクは目に見えません。

これは仮想的な故障モードではありません。 3 つのエンタープライズ展開 (2025 年第 3 四半期から第 4 四半期) にわたる MARIA OS 実稼働テレメトリでは、平均スコアゲートが少なくとも 1 つのディメンションが重要なしきい値 0.8 を超える決定を通過した 847 件の決定を特定しました。そのうち 23 件では、手動による介入が必要なエスカレーションインシデントが発生しました。一般的なパターンは、1 つの高リスクの次元が 4 つまたは 5 つの低リスクの次元によって覆い隠されるというものです。

根本的な問題は、平均化がリスクの次元を代替可能として扱うことです。財務リスクが低いからといって、高いコンプライアンスリスクを補うことはできません。これらは独立した故障モードです。ゲートアーキテクチャはこの独立性を反映する必要があります。

正式な定義: ゲートスコア関数

意思決定 a に N 個のリスク次元があるとします。それぞれのリスク次元は、次元の生のリスク r_i、コンテキスト c_i、および品質メトリック q_i を [0, 1] のスコアにマッピングするスコアリング関数 phi_i によって評価されます。 2 つのゲートスコア関数を定義します。

Definition 1 (Average Gate Score):
  GateScore_avg(a) = (1/N) * sum_i phi_i(r_i, c_i, q_i)

Definition 2 (MAX Gate Score):
  GateScore_max(a) = max_i phi_i(r_i, c_i, q_i)

where phi_i : R x C x Q -> [0, 1] is the scoring function for dimension i,
r_i is the raw risk value, c_i is the contextual modifier, and q_i is the
evidence quality factor.

しきい値 theta を持つゲートは、GateScore(a) >= theta の場合に限り、決定をブロックします。ブロックされるべき決定 (少なくとも 1 つの側面がクリティカルリスクレベルを超えているため) がブロックされない場合は、誤認となります。

他人受入率の定義

クリティカルセット K(a) を、個々のスコアがしきい値を超える次元のセットとして定義します。

Definition 3 (Critical Set):
  K(a) = { i : phi_i(r_i, c_i, q_i) >= theta }

Definition 4 (False Acceptance):
  A decision a is falsely accepted if K(a) is non-empty AND GateScore(a) < theta.

Definition 5 (False Acceptance Rate):
  FAR = P(GateScore(a) < theta | K(a) != empty)

平たく言えば、他人受入率とは、少なくとも 1 つの重要な側面を持つ決定がゲートを通過する確率です。

定理: FAR_max = 0 (MAX スコア未満)

ここで中心的な結果を証明します。

Theorem 1 (Zero False-Acceptance under MAX Scoring):
  For any decision a with N >= 1 risk dimensions and threshold theta in (0, 1],
  if K(a) != empty, then GateScore_max(a) >= theta.

Proof:
  Assume K(a) != empty.
  Then there exists at least one index j such that phi_j(r_j, c_j, q_j) >= theta.
  By definition, GateScore_max(a) = max_i phi_i(r_i, c_i, q_i) >= phi_j >= theta.
  Therefore GateScore_max(a) >= theta, and the gate blocks.
  The decision is not accepted.
  Since this holds for all a with K(a) != empty:
    FAR_max = P(GateScore_max(a) < theta | K(a) != empty) = 0.  QED.

証明はほとんど自明のことですが、まさにそれが重要なのです。 MAX ベースのゲートの正確さは、max 演算子の定義から直接決まります。近似、統計的仮定、分布要件はありません。いずれかの寸法が重要な場合、ゲートがブロックされます。期間。

定理: 一般に FAR_avg > 0

対照的に、平均スコアゲーティングでは、次元数が 1 を超えると、構造上、他人受入率がゼロではなくなります。

Theorem 2 (Non-Zero FAR under Average Scoring):
  For N >= 2 and any threshold theta in (0, 1), there exist decisions a
  with K(a) != empty such that GateScore_avg(a) < theta.

Proof (by construction):
  Let theta = 0.5. Let N = 5.
  Set phi_1 = 0.95 (critical), phi_2 = ... = phi_5 = 0.0 (benign).
  Then K(a) = {1}, so the decision should be blocked.
  GateScore_avg(a) = (0.95 + 0 + 0 + 0 + 0) / 5 = 0.19 < 0.5.
  The gate passes the decision. This is a false acceptance.

  More generally, for any theta and any critical score s >= theta,
  setting the remaining N-1 dimensions to 0 yields:
    GateScore_avg(a) = s / N
  which is less than theta whenever s < N * theta.
  Since s <= 1 and N * theta > 1 for N > 1/theta, FAR_avg > 0.  QED.

この構造はメカニズムを明らかにします。平均化により、重要な次元を補助する無害な次元が可能になります。次元が増えるほど、希釈も大きくなります。シータ = 0.5 の 10 次元ゲートは、他の 9 次元が 0.04 以下であれば、単一次元の 0.99 での判定を通過できます。算術平均は 0.135 になります。

定量的比較: FAR_avg と FAR_max

比較を具体化するために、MARIA OS 意思決定コーパス (2025 年第 3 四半期から 2026 年第 1 四半期までの 3 つの企業にわたる 14,200 件の意思決定) に対する他人受入率を計算しました。各決定には、MARIA ゲート評価者によってスコア付けされた 3 ～ 8 つのリスク次元があります。

Empirical FAR Comparison (theta = 0.6, N = 14,200 decisions):

  Scoring Method    FAR       False Accepts    Missed Critical Dims
  -----------------------------------------------------------------
  Average           0.067     952 / 14,200     1,847 dimension-events
  Weighted Avg      0.041     582 / 14,200     1,103 dimension-events
  MAX               0.000     0 / 14,200       0 dimension-events

  FAR by Number of Dimensions (Average scoring):
    N=3:  FAR = 0.023
    N=4:  FAR = 0.039
    N=5:  FAR = 0.058
    N=6:  FAR = 0.074
    N=7:  FAR = 0.089
    N=8:  FAR = 0.112

平均スコアの下での N と FAR の関係は単調増加です。リスクの側面が大きくなるということは、希薄化の可能性が大きくなるということを意味します。これはまさに、企業の意思決定が機能する体制です。つまり、複雑かつ多次元で、異種のリスクプロファイルが存在します。 MAX スコアリングは、このスケーリングの脆弱性を完全に排除します。

反対意見: MAX スコアは保守的すぎる

すぐに反対されるのは、MAX スコアが攻撃的すぎるということです。全体的なリスクプロファイルに関係なく、単一の重要な側面をブロックします。これにより、許容できない誤ブロック率が発生しませんか?

答えは、偽が何を意味するかによって異なります。 MAX スコアリングでは、すべてのブロックが真のクリティカルディメンションによってトリガーされます。潜在的なリスク r_i が実際に上昇しているため、ディメンションスコア phi_i >= theta になります。統計的な意味では、ゲートは誤検知を生成していません。これにより、オペレーターがレビュー後にオーバーライドすることを選択できる真の陽性結果が生成されます。

これはフェイルクローズの設計哲学です。合格して発見するよりも、ブロックしてレビューする方が常に安全です。企業の意思決定ガバナンスでは、誤ったブロック（人間によるレビューが必要な遅延決定）のコストは、誤った承認（チェックされずに実行される未レビューの重大なリスク）のコストよりも桁違いに低くなります。

Cost Asymmetry Analysis:
  False Block Cost:  avg 2.3 hours of human review time = ~$180
  False Accept Cost: avg $47,000 in incident remediation
  Cost Ratio:        1 : 261

  At this ratio, MAX scoring is cost-optimal even if it blocks
  261x more decisions than necessary per true critical event.
  Empirical block rate: 1.7x (not 261x), making MAX scoring
  decisively superior on expected cost.

複合ゲート: 安全性は最大、優先度は平均

運用環境では、MARIA OS は 2 層ゲートアーキテクチャを使用します。プライマリゲートは安全のために MAX スコアを使用します。いずれかの次元が重要な場合、決定はブロックされます。 2 番目のゲートでは、優先順位付けに加重平均スコアを使用します。ブロックされた決定のうち、平均スコアが高いものが最初に検討されます。

Composite Gate Architecture:
  Tier 1 (Safety Gate):    PASS if max_i phi_i < theta, BLOCK otherwise
  Tier 2 (Priority Queue):  priority(a) = sum_i w_i * phi_i  (for blocked decisions)

  Result: Zero false-acceptance (Tier 1) + efficient review ordering (Tier 2)

このアーキテクチャは、パス/ブロックの決定ではなく、ブロックされた決定間のリソース割り当てなど、適切な場合には平均化を使用しながら、MAX スコアのゼロ FAR 保証を維持します。この区別は重要です。誤って優先順位付けされたレビューキューは安全性の問題ではなく効率性の問題であるため、平均化は優先順位付けにとって安全です。

実装: ゲート評価器

MARIA ゲート評価器は、このアーキテクチャを約 40 行のコアロジックで実装します。スコアリング関数 phi_i はディメンションごとに接続可能で、組織がカスタムリスクスコアリングモデルを定義できるようになります。

function evaluateGate(decision: Decision, theta: number): GateResult {
  const scores = decision.riskDimensions.map(dim =>
    dim.scorer(dim.rawRisk, dim.context, dim.quality)
  );
  const maxScore = Math.max(...scores);

  if (maxScore >= theta) {
    const criticalDims = scores
      .map((s, i) => ({ dim: decision.riskDimensions[i], score: s }))
      .filter(({ score }) => score >= theta);
    return {
      blocked: true,
      maxScore,
      criticalDimensions: criticalDims,
      priority: weightedAverage(scores, decision.weights),
    };
  }
  return { blocked: false, maxScore };
}

この関数は、どのディメンションがブロックをトリガーしたかに関する構造化された情報を返します。これはレビュー担当者にとって不可欠です。レビュー担当者はすべての側面を再評価するのではなく、重要な側面のみを再評価します。運用環境では、これにより平均レビュー時間が 12 分 (完全なレビュー) から 3.4 分 (重要なディメンションの対象を絞ったレビュー) に短縮されます。

結論: 統計的保証よりも構造的保証

平均スコアと MAX スコアのどちらを選択するかは、調整による決定ではありません。それは建築的なものです。平均スコアは統計的な保証を提供します。他人受入率は、N、シータ、およびスコア分布の関数によって制限されます。 MAX スコアリングは構造的な保証を提供します。N、シータ、分布に関係なく、他人受入率は正確にゼロです。

企業の AI ガバナンスにとって、構造的保証は正しい標準です。たった 1 回の誤認がコンプライアンス違反、経済的損失、または安全上のインシデントを引き起こす可能性がある場合、ゲートアーキテクチャは単に統計的にありそうもないことであるだけでなく、構造的に誤認を不可能にする必要があります。 MAX ベースのフェールクローズゲートはこれを実現します。平均ベースのゲートではそれができません。

MAXスコアFail-Closed証明: 平均化ゲートの構造的限界と代替設計

平均スコアゲートの構造的欠陥

正式な定義: ゲートスコア関数

他人受入率の定義

定理: FAR_max = 0 (MAX スコア未満)

定理: 一般に FAR_avg > 0

定量的比較: FAR_avg と FAR_max

反対意見: MAX スコアは保守的すぎる

複合ゲート: 安全性は最大、優先度は平均

実装: ゲート評価器

結論: 統計的保証よりも構造的保証

研究開発のベンチマーク

ゲート最適化のラグランジュ問題: 安全と速度の最適点を求める

Fail-Closed設計のLyapunov安定解析: 統治ダイナミクスの有界化条件

ゲート制御の安定性理論: 多層意思決定ゲートを制御工学として設計する

Action Router×Gate Engine合成: 責任追跡可能なルーティングの形式理論

MAXスコアFail-Closed証明: 平均化ゲートの構造的限界と代替設計

平均スコアゲートの構造的欠陥

正式な定義: ゲート スコア関数

他人受入率の定義

定理: FAR_max = 0 (MAX スコア未満)

定理: 一般に FAR_avg > 0

定量的比較: FAR_avg と FAR_max

反対意見: MAX スコアは保守的すぎる

複合ゲート: 安全性は最大、優先度は平均

実装: ゲート評価器

結論: 統計的保証よりも構造的保証

研究開発のベンチマーク

ゲート最適化のラグランジュ問題: 安全と速度の最適点を求める

Fail-Closed設計のLyapunov安定解析: 統治ダイナミクスの有界化条件

ゲート制御の安定性理論: 多層意思決定ゲートを制御工学として設計する

Action Router×Gate Engine合成: 責任追跡可能なルーティングの形式理論

正式な定義: ゲートスコア関数