What is 企業意思決定予測のためのGradient Boosting: エージェント企業のDecision Layer設計?

企業意思決定予測のためのGradient Boosting: エージェント企業のDecision Layer設計. 業務データが表形式で蓄積される場面では、勾配ブースティングが実務上の強い基準となる。本稿は特徴量設計とSHAP説明を組み合わせ、承認予測・リスクスコアリングを責任ゲート運用へ接続する。 Key topics: gradient-boosting, XGBoost, tabular-data, approval-prediction, risk-scoring, decision-prediction, ensemble-methods, enterprise-AI, agentic-company, MARIA OS. > **要約。** 企業の意思決定データは基本的に表形式です。各意思決定は、意思決定の種類、提案主体、組織の背景、過去の先例、財務上の影響、リスク指標、ガバナンスの制約を記述する特徴を備えた構造化されたテーブルの行です。トランスフォーマーベースのモデルは非構造化言語の理解 (レイヤー 1) に優れていますが、意思決定レイヤーの構造化予測タスク (承認確率の推定、リスク.

How does this article apply to Intelligence in MARIA OS?

企業意思決定予測のためのGradient Boosting: エージェント企業のDecision Layer設計. 業務データが表形式で蓄積される場面では、勾配ブースティングが実務上の強い基準となる。本稿は特徴量設計とSHAP説明を組み合わせ、承認予測・リスクスコアリングを責任ゲート運用へ接続する。 Key topics: gradient-boosting, XGBoost, tabular-data, approval-prediction, risk-scoring, decision-prediction, ensemble-methods, enterprise-AI, agentic-company, MARIA OS. > **要約。** 企業の意思決定データは基本的に表形式です。各意思決定は、意思決定の種類、提案主体、組織の背景、過去の先例、財務上の影響、リスク指標、ガバナンスの制約を記述する特徴を備えた構造化されたテーブルの行です。トランスフォーマーベースのモデルは非構造化言語の理解 (レイヤー 1) に優れていますが、意思決定レイヤーの構造化予測タスク (承認確率の推定、リスク.

How is this article related to dynamic harnesses, SEO, LLMO, and agent governance?

企業意思決定予測のためのGradient Boosting: エージェント企業のDecision Layer設計. 業務データが表形式で蓄積される場面では、勾配ブースティングが実務上の強い基準となる。本稿は特徴量設計とSHAP説明を組み合わせ、承認予測・リスクスコアリングを責任ゲート運用へ接続する。 Key topics: gradient-boosting, XGBoost, tabular-data, approval-prediction, risk-scoring, decision-prediction, ensemble-methods, enterprise-AI, agentic-company, MARIA OS. > **要約。** 企業の意思決定データは基本的に表形式です。各意思決定は、意思決定の種類、提案主体、組織の背景、過去の先例、財務上の影響、リスク指標、ガバナンスの制約を記述する特徴を備えた構造化されたテーブルの行です。トランスフォーマーベースのモデルは非構造化言語の理解 (レイヤー 1) に優れていますが、意思決定レイヤーの構造化予測タスク (承認確率の推定、リスク.

What are the implementation and operating implications of agentic-gradient-boosting-decision-prediction?

企業意思決定予測のためのGradient Boosting: エージェント企業のDecision Layer設計. 業務データが表形式で蓄積される場面では、勾配ブースティングが実務上の強い基準となる。本稿は特徴量設計とSHAP説明を組み合わせ、承認予測・リスクスコアリングを責任ゲート運用へ接続する。 Key topics: gradient-boosting, XGBoost, tabular-data, approval-prediction, risk-scoring, decision-prediction, ensemble-methods, enterprise-AI, agentic-company, MARIA OS. > **要約。** 企業の意思決定データは基本的に表形式です。各意思決定は、意思決定の種類、提案主体、組織の背景、過去の先例、財務上の影響、リスク指標、ガバナンスの制約を記述する特徴を備えた構造化されたテーブルの行です。トランスフォーマーベースのモデルは非構造化言語の理解 (レイヤー 1) に優れていますが、意思決定レイヤーの構造化予測タスク (承認確率の推定、リスク.

Gradient Boosting for Enterprise Decision Prediction: XGBoost and LightGBM as the Decision Layer of Agentic Companies

要約。 企業の意思決定データは基本的に表形式です。各意思決定は、意思決定の種類、提案主体、組織の背景、過去の先例、財務上の影響、リスク指標、ガバナンスの制約を記述する特徴を備えた構造化されたテーブルの行です。トランスフォーマーベースのモデルは非構造化言語の理解 (レイヤー 1) に優れていますが、意思決定レイヤーの構造化予測タスク (承認確率の推定、リスクスコアリング、成功確率の予測、リソース割り当ての最適化) は、勾配ブースティングアンサンブルによって最適に処理されます。このペーパーでは、エージェントの企業インテリジェンススタックにおけるレイヤー 2 のコアアルゴリズムとして XGBoost と LightGBM を形式化します。私たちは、企業の意思決定コンテキストに適用される勾配ブースティングの数学的基礎を導き出し、意思決定表のための包括的な特徴エンジニアリングフレームワークを開発します。異種タイプと中程度のサンプルサイズを特徴とするエンタープライズ特徴量分布において、勾配ブースティングがディープニューラルネットワークよりも予期されるリスクが低いことを証明し、あらゆる予測に対して監査に準拠した説明を生成する SHAP ベースの説明可能性パイプラインを導入します。 MARIA OS 意思決定コーパスの実験評価では、91.3% の承認予測精度、マルチレベルリスクスコアリングで 0.94 AUC、およびリアルタイムゲート統合を可能にする 2ms 未満の推論レイテンシーを実証しました。

1. はじめに

Agentic Companyは毎日何千件もの意思決定を処理しており、それぞれに迅速な評価が必要です。この決定は自動的に承認されるべきでしょうか、それとも人間のレビュー担当者に送られるべきでしょうか?リスクレベルはどれくらいですか?実行が成功する確率はどれくらいですか?リソースはどのように割り当てられるべきでしょうか?これらの予測タスクは、インテリジェンススタックの決定層 (層 2) を形成し、認知層 (言語理解を提供する) の上、計画層 (複数ステップの戦略を最適化する) の下に位置します。

アーキテクチャ上の重要な問題は、どのアルゴリズムファミリが意思決定層のバックボーンとして機能するかということです。 AI の一般的な傾向は、ディープラーニング (大規模なデータセットでエンドツーエンドでトレーニングされた複数の隠れ層を持つニューラルネットワーク) を支持しています。しかし、経験的証拠は、構造化された表形式データの場合、勾配ブースティングアンサンブルが深層学習よりも優れたパフォーマンスを発揮することを一貫して示しています。グリンシュタインら。 (2022) は、45 の表形式データセットのベンチマークで、ツリーベースのモデル (ランダムフォレストと勾配ブースティング) がニューラルネットワークよりも優れたパフォーマンスを発揮することを実証しました。 Shwartz-Ziv と Armon (2022) は、120 のデータセットの広範なベンチマークでこの発見を確認し、XGBoost と LightGBM が表形式タスクの 87% で最高のニューラルアーキテクチャよりも優れているか同等のパフォーマンスを達成することを示しました。

企業の意思決定データは典型的には表形式です。各意思決定レコードには、カテゴリ (意思決定の種類、提案代理人、承認権限)、数値 (金額、リスクスコア、過去の成功率)、時間的 (提出時間、最後の同様の決定からの経過時間)、階層的 (提案代理人の MARIA OS 座標)、およびリレーショナル (他の決定への依存性、前の決定との類似性) といった特徴タイプの異種混合が含まれています。この異質性と、適度なデータセットサイズ (数十億レコードではなく、数千から数百万レコード) が組み合わさることにより、企業の意思決定予測は、勾配ブースティングが優れた領域に直接配置されます。

1.1 エンタープライズ AI における勾配ブースティングの事例

生の予測精度を超えて、勾配ブースティングは企業の導入にとって重要な 3 つの特性を提供します。まず、解釈可能性: ツリーベースのモデルは、SHAP (SHapley Additive exPlanations) を使用して機能寄与に分解できる予測を生成し、すべての予測について監査に準拠した説明を可能にします。 2 番目の堅牢性: 勾配ブースティングは欠損値をネイティブに処理し、単調な特徴変換に対して不変であり、外れ値に耐性があります。 3 番目に効率性: トレーニングされた XGBoost モデルはマイクロ秒単位で予測を生成できるため、承認ゲートが 1 桁ミリ秒以内に応答する必要がある MARIA OS 意思決定パイプラインとのリアルタイム統合が可能になります。

1.2 貢献

この論文は 4 つの寄稿を行っています。まず、勾配ブースティングをエージェント会社の意思決定層として形式化し、企業の意思決定コンテキストにおける加算ツリーアンサンブル学習の数学的フレームワークを定義します。次に、生の意思決定記録を勾配ブースティング用に最適化された特徴ベクトルに変換する包括的な特徴エンジニアリングフレームワークを開発します。第三に、異種タイプのエンタープライズ特徴量分布において、勾配ブースティングがフィードフォワードニューラルネットワークよりも低いベイズリスクを実現することを証明します。 4 番目に、MARIA OS 責任ゲートと統合する SHAP ベースの説明可能性パイプラインを導入し、すべての自動予測に対してガバナンスに準拠した監査証跡を生成します。

2. 勾配ブースティングの数学的基礎

勾配ブースティングは、弱学習器 (通常は決定木) を損失関数の負の勾配に順次適合させることにより、加算モデルを構築します。このフレームワークは Friedman (2001) によって導入され、XGBoost (Chen および Guestrin、2016) や LightGBM (Ke et al.、2017) などの効率的な実装を通じて改良されてきました。

2.1 加算モデルの定式化

n 個の意思決定レコードのトレーニングデータセット {(x_i, y_i)}_{i=1}^n (R^d の x_i は特徴ベクトル、y_i はターゲット (承認決定、リスクレベル、または成功確率) である場合)、勾配ブースティングは K 個の弱学習器の合計として予測関数を構築します。

\hat{y}_i = F_K(x_i) = \sum_{k=0}^{K} f_k(x_i), \quad f_k \in \mathcal{F} $$

ここで、F は回帰木の空間、f_0 は定数の初期予測 (通常は二項分類の陽性クラスの対数オッズ) です。各ツリー f_k は、累積モデル F_{k-1} の誤差を修正するために適合されます。ステップ k の目的は、正規化された損失を最小限に抑えることです。

\mathcal{L}^{(k)} = \sum_{i=1}^{n} l(y_i, F_{k-1}(x_i) + f_k(x_i)) + \Omega(f_k) $$

ここで、l は微分可能な損失関数、Omega はツリーの複雑さにペナルティを与える正則化項です。二項分類 (承認予測) の場合、l はロジスティック損失です。マルチクラス分類 (リスクレベルの予測) の場合、l はソフトマックスクロスエントロピーです。回帰 (成功確率) の場合、l は二乗誤差またはフーバー損失です。

2.2 二次近似

XGBoost の主要な革新は、現在の予測を中心とした損失関数の 2 次テイラー展開であり、これによりツリー構造の効率的な最適化が可能になります。 l を 2 次まで展開すると、次のようになります。

\mathcal{L}^{(k)} \approx \sum_{i=1}^{n} \left[ g_i f_k(x_i) + \frac{1}{2} h_i f_k(x_i)^2 \right] + \Omega(f_k) $$

ここで、 g_i = 部分 l / 部分 F_{k-1}(x_i) は 1 次勾配、 h_i = 部分 ^2 l / 部分 F_{k-1}(x_i)^2 は、現在の予測に対する損失の 2 次勾配 (ヘッセ行列) です。ロジスティック損失の場合、g_i = p_i - y_i および h_i = p_i(1 - p_i)、ここで p_i = sigma(F_{k-1}(x_i)) は予測確率です。

2.3 最適なツリー構造

二次近似を考慮すると、ツリー f_k の葉 j の最適な重みは次のようになります。

w_j^* = -\frac{\sum_{i \in I_j} g_i}{\sum_{i \in I_j} h_i + \lambda} $$

ここで、I_j はリーフ j に割り当てられたトレーニングインスタンスのセットであり、lambda は L2 正則化パラメータです。ノードを左 (I_L) と右 (I_R) の子に分割することによる、対応する最適な損失削減は次のとおりです。

\text{Gain} = \frac{1}{2} \left[ \frac{(\sum_{i \in I_L} g_i)^2}{\sum_{i \in I_L} h_i + \lambda} + \frac{(\sum_{i \in I_R} g_i)^2}{\sum_{i \in I_R} h_i + \lambda} - \frac{(\sum_{i \in I} g_i)^2}{\sum_{i \in I} h_i + \lambda} \right] - \gamma $$

ここで、ガンマは分割に必要な最小損失削減 (複雑さのコスト) です。このゲインの式は、貪欲な分割検索アルゴリズムの基礎です。各特徴と可能な分割点ごとにゲインを計算し、最大ゲインを持つ分割を選択します。ツリーは、ゲインがガンマを下回るか、最大深度に達するまで、再帰的分割によって成長します。

2.4 正則化フレームワーク

正則化項オメガはモデルの複雑さを制御し、過剰適合を防ぎます。 XGBoost は、リーフの重みに対する L1/L2 正則化の組み合わせと、リーフの数に対する複雑さのペナルティを使用します。

\Omega(f_k) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2 + \alpha \sum_{j=1}^{T} |w_j| $$

ここで、T はリーフの数、w_j はリーフ j の重み、lambda は L2 係数、alpha は L1 係数です。ガンマ項は不十分なゲインを提供する分割を阻止し、ラムダ項はリーフの重みをゼロに向けて縮小し（自信過剰な予測を防止）、アルファ項はリーフの重みの疎性を促進します（一部のリーフの出力を正確にゼロに設定します）。

企業の意思決定の予測では、過信した予測の結果は深刻であるため、正則化が重要です。過信した承認予測により人間のレビューを回避する危険な決定が可能になる可能性があり、一方、過信したリスクスコアは不必要なエスカレーションを引き起こす可能性があります。エンタープライズ展開にはラムダ [1, 10] とガンマ [0.1, 1.0] を推奨し、保持されているガバナンス監査セットの相互検証によって調整されます。

3. エンタープライズデシジョンテーブルの特徴量エンジニアリング

勾配ブースティング予測の品質は、入力特徴の品質に大きく依存します。生の企業意思決定記録には豊富な情報が含まれていますが、予測可能で解釈可能で長期にわたって安定した特徴を抽出するには、慎重なエンジニアリングが必要です。

3.1 特徴分類法

私たちは企業の意思決定機能を 6 つのカテゴリに分類し、それぞれに異なるエンジニアリング戦略が必要です。

Category	Examples	Engineering Strategy
Identity	Decision ID, proposer ID, approver ID	Entity embeddings, frequency encoding
Contextual	Decision type, department, urgency	One-hot encoding, target encoding
Financial	Amount, budget remaining, ROI estimate	Log transform, ratio features
Temporal	Submission time, days since last similar	Cyclical encoding, lag features
Hierarchical	MARIA OS coordinate (G.U.P.Z.A)	Level decomposition, path encoding
Historical	Approval rate, avg processing time	Rolling aggregates, trend features

3.2 MARIA OSの座標機能

MARIA OS 座標系は、独自のフィーチャソースを提供します。各座標 G(g).U(u).P(p).Z(z).A(a) は、決定の組織的な位置をエンコードします。これを複数の特徴に分解します。個々のレベル値 (Galaxy ID、Universe ID、Planet ID、Zone ID、Agent ID)、階層の深さ (Null 以外のレベルの数)、座標パス (完全一致の連結文字列)、および座標類似性特徴 (承認者までの組織距離、最後の類似の決定までの組織距離、この決定タイプの平均座標までの距離) です。

座標の類似性は、Transformer Paper (Article 1) で定義され、表形式に適応された階層的な距離メトリックを使用して計算されます。座標 c_1 と c_2 の間の距離は、5 つのバイナリフィーチャ (同じ銀河、同じ宇宙、同じ惑星、同じゾーン、同じエージェント) と 1 つの重み付き距離スカラーに分解されます。この分解により、勾配ブースティングモデルは組織の近接性と意思決定の結果の間の非線形関係を学習できるようになります。

3.3 時間特徴量エンジニアリング

企業の意思決定は強力な時間的パターンを示し、承認率は曜日、時間帯、予算サイクル内の位置によって異なります。時間的特徴を複数の粒度で設計します。短期的な機能は、過去 1 時間に提出された意思決定の数、最近の意思決定の平均リスクスコア、承認ゲートでの現在のキューの深さなど、直接的なコンテキストを捕捉します。中期機能は、曜日、承認サイクル内での位置、今週の累積承認数と過去の平均など、週ごとのパターンをキャプチャします。長期的な特徴は、支持率の四半期ごとの傾向、予算使用率の軌跡、季節調整要因などの戦略的パターンを捕捉します。

3.4 履歴集計機能

決定ごとに、提案代理人、承認機関、決定タイプの実績を要約する履歴集計特徴を計算します。提案エージェントについては、提出された決定の総数、承認率、平均処理時間、拒否理由の分布、過去 30/60/90 日間の承認率の傾向を計算します。承認機関については、レビューされた決定の合計、決定タイプ別の承認率、平均レビュー時間、一貫性スコア (類似した提案に対する決定の差異) を計算します。決定タイプについては、基本承認率、平均財務額、典型的なリスクレベル、および季節変動を計算します。

これらの集計特徴は、データ漏洩を避けるためにローリングウィンドウとして計算されます。時間 t に提出された決定の特徴は、時間 t より前に完了した決定からのデータのみを使用します。ウィンドウサイズは、時間的相互検証によって調整されるハイパーパラメーターです。

4. エンタープライズ表形式データにおける勾配ブースティングとディープラーニングの比較

表形式データに対して、勾配ブースティングと深層学習をいつ使用するかという問題は、広く研究されています。企業の意思決定の予測において、勾配ブースティングが理論的および経験的に優れている条件を定式化します。

4.1 特徴分布分析

エンタープライズ意思決定機能には、深層学習よりも勾配ブースティングを好む 3 つの特性があります。まず、異種の特徴タイプです。一般的な意思決定記録には、連続変数 (金額)、カテゴリ変数 (意思決定の種類、エージェント ID)、順序変数 (緊急度、リスク評価)、および派生変数 (比率、傾向) が混在しています。深層学習では、これらを均一な表現にエンコードし、型固有の構造を失う必要があります。勾配ブースティングは異種タイプをネイティブに処理し、各特徴タイプに最適なしきい値ベースの分割を適用します。

2 番目に、適度なサンプルサイズ: 企業の意思決定コーパスには、通常 10,000 ～ 100 万のレコードが含まれています。数百万のパラメータを持つ深層学習モデルでは、信頼性の高い一般化を達成するために桁違いに多くのデータが必要ですが、深さ 6 の数百のツリーを使用した勾配ブースティングでは、安定した決定境界を学習するためにはるかに少ないサンプルしか必要としません。

3 番目に、特徴の重要度の希薄性: 企業の意思決定データでは、通常、少数の特徴が予測力の大部分を左右します。多くの場合、金額、承認機関のアイデンティティ、および過去の承認率が予測差異の 60 ～ 70% を占めます。勾配ブースティングは、分割検出メカニズムを通じて有益な特徴を自然に選択しますが、深層学習は、より困難な最適化問題である正則化を通じて無関係な特徴を無視することを学習する必要があります。

4.2 勾配ブースティングの理論上の利点

バイアス分散分解を使用して勾配ブースティングの利点を形式化します。ベイズ最適誤差イプシロン* を使用した予測タスクの場合、モデルクラスの予想される超過リスクは次のとおりです。

R_{\text{excess}} = \mathbb{E}[(\hat{y} - y)^2] - \epsilon^* = \text{Bias}^2 + \text{Variance} $$

深さ D の K ツリーによる勾配ブースティングの場合、バイアスは K とともに指数関数的に減少します (各ツリーは残留誤差を修正します)。一方、分散は K とともにゆっくりと増加します (正則化とサブサンプリングによって制御されます)。ステップ K のバイアスは次の条件を満たします。

\text{Bias}^2(K) \leq (1 - \eta)^{2K} \cdot \text{Bias}^2(0) $$

ここで、ηは学習率です。差異は以下によって制限されます。

\text{Variance}(K) \leq \frac{K \sigma^2}{n} \cdot \left( \frac{2^D}{n} + \rho \right) $$

ここで、 sigma^2 はノイズ分散、n はサンプルサイズ、rho はツリー間の相関関係 (特徴サブサンプリングによって低減) です。中程度の n と中程度の固有次元を持つエンタープライズデータの場合、分散項は小さなη (0.01 ～ 0.1) と中程度の D (4 ～ 8) を選択することで制御され、深層学習の代替案よりも高速に収束する過剰リスクが生成されます。

4.3 経験的比較

MARIA OS 意思決定予測ベンチマークで、XGBoost、LightGBM、4 層フィードフォワードニューラルネットワーク、TabNet、および FT-Transformer を比較します。このベンチマークには、12 の予測タスク (承認、リスク、成功、タイミング、リソース、ガバナンスタスク) にわたる 89 のエンジニアリング機能を含む 500,000 の意思決定レコードが含まれています。

Model	Approval Acc	Risk AUC	Success RMSE	Avg Rank
XGBoost	91.3%	0.94	0.087	1.4
LightGBM	90.8%	0.93	0.089	1.8
FT-Transformer	89.1%	0.92	0.094	2.9
TabNet	87.4%	0.90	0.101	3.8
Feed-Forward NN	84.1%	0.88	0.112	4.6

XGBoost と LightGBM はすべてのタスクで優勢であり、XGBoost が最高の平均ランクを達成しています。 FT-Transformer (表形式データ用の最近の変換アーキテクチャ) は競争力がありますが、勾配ブースティングのパフォーマンスを超えることはありません。標準的なフィードフォワードニューラルネットワークのパフォーマンスは最悪であり、非構造化深層学習アーキテクチャが企業の表形式データには最適ではないことが確認されています。

5. 承認確率の予測

MARIA OS 意思決定層における勾配ブースティングの主な用途は、承認確率の予測です。モデルは、パイプラインに入る各決定について、承認、変更、または拒否される確率を推定します。この予測には 2 つの目的があります。1 つは自動ルーティングを可能にする (承認の可能性が高い決定は迅速に追跡でき、承認の可能性が低い決定には慎重な検討のためにフラグが付けられます)。もう 1 つは、意思決定者に提案の予想される結果に関する早期フィードバックを提供することです。

5.1 問題の定式化

承認予測は、承認 (A)、変更 (M)、拒否 (R) の 3 つのクラスを持つマルチクラス分類タスクです。モデルは、次のクラスにわたる確率分布を出力します。

P(y = c | x) = \frac{\exp(F_c(x))}{\sum_{c' \in \{A, M, R\}} \exp(F_{c'}(x))} $$

ここで、F_c(x) はクラス c の勾配ブースティングモデルです。 XGBoost のマルチクラス実装では、ブースティングラウンドごとにクラスごとに K ツリーがトレーニングされ、ソフトマックス損失によって各クラスの勾配 g_i とヘッセ行列 h_i が個別に提供されます。

5.2 クラス固有の機能の重要性

機能が異なれば、結果も異なります。金額は拒否の最も強力な予測因子であり（高額な決定はより精査される）、一方、過去の承認率は承認の最も強力な予測因子です（優れた実績を持つエージェントは承認される可能性が高くなります）。特徴の重要性をクラスごとに個別に分析して、明確な決定メカニズムを理解します。

承認クラスの上位の特徴は、提案者の過去の承認率 (SHAP 重要度 0.23)、意思決定タイプの基本承認率 (0.18)、承認者との組織的な距離 (0.14)、および予算に対する財務額 (0.11) です。拒否クラスの上位の特徴は、絶対金額 (0.27)、リスクスコア (0.21)、ポリシー遵守フラグ (0.16)、および以前に拒否された決定との先行類似性 (0.12) です。変更クラスの主な特徴は、仕様完全性スコア (0.25)、利害関係者の網羅率 (0.19)、および証拠バンドルの品質 (0.15) です。

5.3 ゲート統合のためのしきい値キャリブレーション

勾配ブースティングの生の確率出力は、ランク付けに関して適切に調整されています (確率が高いほど承認される可能性が高いことを意味します) が、絶対的な意味では完全に調整されていない可能性があります (予測された 80% の承認確率は、実際の承認率の 80% に対応する必要があります)。ゲート統合の場合、保持されたキャリブレーションセットに等張回帰キャリブレーションを適用します。校正された確率は次の条件を満たします。

\mathbb{E}[y = A | \hat{p} = p] = p \pm \epsilon $$

ここで、すべての確率範囲でイプシロン < 0.02。この調整は MARIA OS ゲート統合にとって重要であり、承認確率が設定可能なしきい値と比較されてルーティングが決定されます。P(A) > tau_auto による決定は自動承認され、P(R) > tau_escalate による決定は上級レビュー担当者にエスカレーションされ、その他すべては標準の承認ワークフローに従います。

6. リスクスコアリングと重症度分類

承認の予測を超えて、意思決定層はパイプライン内のすべての意思決定のリスクスコアリングを提供します。リスクスコアリングでは、各決定を 5 つの重大度レベル (無視できる、低、中、高、重大) のいずれかに分類します。リスクスコアは、ルーティング、承認機関の要件、および必要な証拠収集の深さに影響します。

6.1 マルチレベルのリスクの定式化

リスクスコアリングは、5 つの重大度レベルが自然な順序を持つ順序分類問題として定式化されます。標準のマルチクラス分類では、順序構造を無視して、クラスを順序なしとして扱います。モデルが 4 つのしきい値関数を学習するバイナリ分類器のチェーンアプローチを使用します。

P(\text{risk} \geq k | x) = \sigma(F_k(x)), \quad k \in \{2, 3, 4, 5\} $$

ここで、F_k は k 番目の閾値の勾配ブースティングモデルです。各特定レベルの確率は、P(リスク = k) = P(リスク >= k) - P(リスク >= k+1) として回復されます。この定式化は順序構造を尊重しています。高リスクとして予測された決定は、少なくとも中程度のリスクとして予測されている必要があり、独立した複数クラスの分類から生じる可能性のある不一致を回避します。

6.2 リスク特徴エンジニアリング

リスク固有の機能は、リスク指標を含む一般的な機能セットを拡張します。財務リスクの特徴には、過去の平均の倍数としての金額、予算影響率、財務予測の差異が含まれます。運用リスクの特徴には、依存する決定の数、リソース競合スコア、タイムラインの重要度 (期限への近さ) が含まれます。ガバナンスリスクの特徴には、影響を受けるポリシー領域の数、組織間の範囲 (関与する個別の MARIA OS 座標の数)、および前例の相違 (特徴空間内の最も近い過去の前例からの距離) が含まれます。

先行分岐機能には特に注意が必要です。新しい決定ごとに、履歴決定空間内でその k 最近傍を (操作された特徴ベクトルを使用して) 計算し、平均距離を測定します。過去のどの前例からもかけ離れた決定は、組織に経験が不足している新しい状況を表しており、他のすべての機能が問題がない場合でも、より高いリスクスコアが保証されます。

6.3 リスクモデルの校正

リスクスコアがガバナンスアクションを推進するため、リスク調整は非常に重要です。当社は、コスト重視のアプローチを使用してリスクモデルを調整します。このアプローチでは、過小評価 (害を引き起こす決定に対して低リスクを予測) のコストが、過大評価 (無害な決定に対して高リスクを予測) のコストよりも重み付けされます。非対称コストマトリックスは次のとおりです。

C(\text{predicted}, \text{actual}) = \begin{cases} 0 & \text{if predicted} = \text{actual} \\ w_{\text{under}} \cdot |\text{predicted} - \text{actual}| & \text{if predicted} < \text{actual} \\ w_{\text{over}} \cdot |\text{predicted} - \text{actual}| & \text{if predicted} > \text{actual} \end{cases} $$

ここで、w_under / w_over = 3.0 はデフォルトで、リスクの検出に失敗すると誤報の 3 倍のコストがかかるというガバナンスの原則を反映しています。この比率は MARIA OS でユニバースごとに構成できるため、さまざまなビジネスユニットが独自のリスク許容度を設定できます。

7. ガバナンス・コンプライアンスに対するSHAPベースの説明可能性

エンタープライズ AI ガバナンスにおいて、説明可能性はオプションではありません。意思決定に影響を与えるすべての自動予測には、予測を推進する主要な要因を特定し、その個々の寄与を定量化し、人間のレビュー担当者がアクセスできる形式で説明を提示する説明が伴う必要があります。 SHAP (SHapley Additive exPlanations) は、この要件に対して理論に基づいたフレームワークを提供します。

7.1 SHAP値の計算

SHAP 値は、予測を各特徴からの追加の寄与に分解します。予測 F(x) の場合、特徴 j の SHAP 値 phi_j は次の条件を満たします。

F(x) = \phi_0 + \sum_{j=1}^{d} \phi_j(x) $$

ここで、phi_0 は基本値 (すべてのトレーニングインスタンスにわたる平均予測)、phi_j(x) はインスタンス x の予測に対する特徴 j の寄与です。 SHAP 値は、局所精度 (予測に対する値の合計)、欠損性 (存在しない特徴の寄与はゼロ)、および一貫性 (新しいモデルで特徴の寄与が増加しても、SHAP 値は減少しません) という 3 つの望ましい特性を満たします。

ツリーベースのモデルの場合、SHAP 値は、TreeSHAP アルゴリズムを使用して O(TLD^2) 時間で正確に計算できます。ここで、T はツリーの数、L はツリーあたりの最大葉数、D は最大深度です。 T=500 ツリー、深さ D=6 の一般的なエンタープライズ XGBoost モデルの場合、TreeSHAP は単一の予測の正確な SHAP 値を約 1 ミリ秒で計算し、リアルタイムの説明可能性を実現します。

7.2 ガバナンス監査証跡の生成

予測ごとに、SHAP 値は 3 つのコンポーネントを含むガバナンス監査証跡に変換されます。機能貢献度レポートは、絶対的な SHAP 値によって機能をランク付けし、上位の貢献者をその方向 (ポジティブ = リスクまたは承認確率が増加、ネガティブ = 減少) と規模とともに表示します。意思決定推論のナラティブは、テンプレートエンジンを使用して SHAP 分解を自然言語に変換します。「この決定は、主に金額 (240 万ドル) がこの意思決定タイプの過去の平均の 8.3 倍 (リスクスコアに +0.34 寄与)、提案代理人の承認率が平均を下回る 62% (+0.18 寄与)、0.5 インチ以内に過去の先例がないため、高リスクであると予測されます」特徴空間 (+0.15 に寄与)。反事実分析は、予測を覆す可能性のある最小の機能変更を特定します。金銭的金額が 80 万ドルに減額されると、リスクスコアは高から中程度に低下します。」

7.3 SHAP インタラクション値

SHAP 相互作用値は、個々の特徴の寄与を超えて、ペアごとの特徴の相互作用を捕捉します。交互作用値 phi_{ij} は、特徴 i と j の個々の寄与を超えた追加の効果を測定します。

\phi_{ij}(x) = \phi_{ji}(x), \quad \sum_{j} \phi_{ij}(x) = \phi_i(x) $$

インタラクション値は、非自明な意思決定パターンを明らかにします。たとえば、金額と組織の距離の相互作用により、リモートエージェント (承認者までの座標距離が高い) によって提案された大規模な決定が、不釣り合いに高い拒否率に直面していることが明らかになる可能性があります。このパターンは、どちらの特徴だけでは説明できません。これらのインタラクションに関する洞察は、明らかではないリスク要因を強調する「インタラクションアラート」としてガバナンスダッシュボードに表示されます。

8. MARIA OS デシジョンゲートの統合

勾配ブースティングモデルは、責任ゲート (ルーティング、承認、実行に関して意思決定が評価されるチェックポイント) で MARIA OS 意思決定パイプラインに統合されます。統合アーキテクチャにより、最終結果に対する人間の権限を維持しながら、すべてのゲート決定がモデル予測によって通知されることが保証されます。

8.1 ゲートアーキテクチャ

MARIA OS の各責任ゲートは、自動承認しきい値 tau_auto (このしきい値を超える承認確率を持つ決定は自動的に承認されます)、エスカレーションしきい値 tau_escalate (このしきい値を超えるリスクスコアを持つ決定は上級レビュー担当者にルーティングされます)、および証拠要件レベル (決定を続行するために必要な最低限の証拠バンドルの品質) の 3 つのパラメーターで構成されます。勾配ブースティングモデルは、次のゲート関数に入力を提供します。

ゲート決定関数は次のとおりです。

G(x) = \begin{cases} \text{AUTO\_APPROVE} & \text{if } P(A|x) > \tau_{\text{auto}} \text{ and } \text{risk}(x) \leq \text{moderate} \\ \text{ESCALATE} & \text{if } \text{risk}(x) \geq \tau_{\text{escalate}} \\ \text{STANDARD\_REVIEW} & \text{otherwise} \end{cases} $$

この関数は、段階的自律性の原則をエンコードしています。つまり、モデルが自信を持っており、リスクが低い決定は自動的に続行できますが、リスクが高い、または不確実な決定は人間の判断が必要です。しきい値は MARIA OS 階層内のゾーンごと、プラネットごと、およびユニバースごとに構成可能であり、さまざまな組織単位が独自の自律レベルを設定できるようになります。

8.2 モデルの監視とドリフト検出

導入された勾配ブースティングモデルは、予測ドリフト、つまりモデルの精度を低下させる入力の分布または入力と結果の間の関係の変化を監視する必要があります。 3 つのドリフト検出メカニズムを実装します。特徴ドリフト検出は、毎週のウィンドウで計算された人口安定性指数 (PSI) を使用して入力特徴分布を監視します。予測ドリフト検出は、コルモゴロフ-スミルノフ検定を使用してモデル予測の分布を監視します。結果ドリフト検出は、予測された確率を条件として実際の承認率を監視し、校正誤差が 5% を超えると再校正をトリガーします。

ドリフトが検出されると、システムは自動承認のしきい値が一時的に引き上げられ (自動化には高いモデルの信頼性が必要)、モデルの再トレーニングパイプラインがトリガーされる保守モードに入ります。再トレーニングでは、同じハイパーパラメータ構成を持つ最新 90 日間の意思決定データが使用され、ホールドアウトセットとして過去 30 日間に対して検証されます。一般的なエンタープライズコーパスの再トレーニングは 15 分以内に完了し、迅速なモデル適応が可能になります。

8.3 A/B テストのフレームワーク

MARIA OS は、ゲートレベルでのモデルバージョンの A/B テストをサポートします。新しいモデルが導入されると、最初はランダムに選択された 10% の意思決定 (治療グループ) についての予測が提供され、残りの 90% (対照グループ) については既存のモデルが提供されます。 A/B テストでは、予測精度、キャリブレーション誤差、偽陰性率 (安全と予測されたが実際には失敗したとの判断)、および人間によるオーバーライド率 (人間のレビュー担当者がモデルの推奨事項に同意しなかった判断) の 4 つの指標を測定します。新しいモデルは、4 つの指標すべてで p < 0.05 で統計的に有意な改善が示された場合にのみ、完全な展開に昇格します。

9. エンタープライズコンテキスト向けの高度な勾配ブースティング技術

9.1 単調制約

企業の意思決定モデルには既知の単調な関係があることがよくあります。つまり、他のすべてが等しい場合、金額が高くなってもリスクが減少することはなく、過去の承認率が高くなって承認確率が低下することはありません。 XGBoost と LightGBM は、ツリー構築中にこれらの関係を強制する単調制約をサポートしています。

x_j^{(a)} \leq x_j^{(b)} \implies F(x^{(a)}) \leq F(x^{(b)}) \quad \text{for monotonically increasing features} $$

単調制約は、モデルの解釈可能性 (モデルの動作がドメインの期待と一致する) と一般化 (制約は分散を低減する帰納的バイアスの一種として機能します) の両方を向上させます。既知の方向関係を持つ 15 個の特徴に単調制約を適用し、承認予測誤差を 2.1% 削減し、直感に反する予測説明を排除します。

9.2 ガバナンス目標のためのカスタム損失関数

標準分類損失 (対数損失、ソフトマックスクロスエントロピー) では、すべての誤差が同等に扱われます。ガバナンスの文脈では、エラーが異なれば結果も異なります。リスクスコアリングにおける偽陰性 (害を引き起こす決定に対して低リスクを予測) は、偽陽性 (良性の決定に対して高リスクを予測) よりもはるかにコストがかかります。非対称ペナルティを備えたカスタム損失関数を実装します。

l_{\text{gov}}(y, \hat{y}) = \begin{cases} -w_+ \cdot y \log \hat{y} & \text{if } y = 1 \text{ (positive class)} \\ -w_- \cdot (1-y) \log(1-\hat{y}) & \text{if } y = 0 \text{ (negative class)} \end{cases} $$

ここで、w_+ / w_- は、偽陰性と偽陽性の相対コストを表します。このカスタム損失の勾配とヘッセ行列は、カスタム目標インターフェイスを通じて XGBoost に提供され、標準の勾配ブースティングフレームワークがガバナンス固有の目標に合わせて最適化できるようになります。

9.3 専門家の集団

すべての意思決定タイプに単一の勾配ブースティングモデルを使用するのではなく、それぞれが特定の意思決定カテゴリに最適化された専門モデルのアンサンブルをトレーニングします。スペシャリストアンサンブルアーキテクチャは、各決定をそのタイプに基づいて適切なスペシャリストにルーティングし、学習した重み付けを使用してスペシャリストの予測をグローバルモデルの予測と組み合わせます。

F_{\text{ensemble}}(x) = \alpha(\text{type}(x)) \cdot F_{\text{specialist}}(x) + (1 - \alpha(\text{type}(x))) \cdot F_{\text{global}}(x) $$

ここで、alpha は学習された混合重みであり、決定の種類と専門家が利用できるトレーニングデータの量に依存します。豊富なトレーニングデータを備えたよく表現された意思決定タイプの場合、スペシャリストが優勢です。まれな意思決定タイプの場合、グローバルモデルが事前情報を提供し、スペシャリストが適度な修正を提供します。このアーキテクチャにより、単一のグローバルモデルと比較して全体の精度が 3.4% 向上します。

10. 実験による評価

10.1 データセットとセットアップ

MARIA OS エンタープライズ意思決定ベンチマーク (EDB) で評価します。このベンチマークは、3 つの銀河、9 つの宇宙、27 の惑星にわたるマルチエージェント操作のシミュレーションによる 50 万件の意思決定記録で構成されています。各レコードには、89 の操作された特徴 (数値 42、カテゴリ 23、時間的 12、階層 7、派生 5) が含まれています。ターゲット変数は、承認結果 (3 クラス)、リスクレベル (5 つの順序レベル)、成功確率 (連続)、および処理時間 (連続) です。データセットは時間的に分割されます。トレーニング用の 1 ～ 9 か月 (400,000)、検証用の 10 か月 (50,000)、テスト用の 11 ～ 12 か月のレコード (50,000)。

10.2 主な結果

Metric	XGBoost	LightGBM	CatBoost	FT-Transformer	MLP	Logistic Reg
Approval Accuracy	91.3%	90.8%	90.2%	89.1%	84.1%	79.3%
Risk AUC (macro)	0.94	0.93	0.93	0.92	0.88	0.82
Success RMSE	0.087	0.089	0.091	0.094	0.112	0.134
Time MAE (hours)	2.3	2.5	2.6	2.9	3.7	4.8
Inference (ms)	0.8	0.6	1.2	12.4	3.1	0.1
SHAP Available	Yes	Yes	Yes	Approx	No	Coef

XGBoost は、ミリ秒未満の推論時間と正確な SHAP 説明可能性を維持しながら、すべての予測タスクにわたって最高の精度を実現します。 LightGBM は推論がわずかに高速ですが、精度がわずかに劣ります。 FT-Transformer は精度では競争力がありますが、推論が 15 倍遅く、おおよその SHAP 値のみをサポートします。標準的な MLP とロジスティック回帰はベースラインとして機能し、このタスクにおけるアンサンブル手法の大きな利点を示しています。

10.3 機能重要性分析

すべての 500,000 予測にわたるグローバル SHAP 特徴の重要性により、承認予測における以下の上位 10 の特徴が明らかになります: (1) 提案者の過去の承認率 (平均 |SHAP| = 0.23)、(2) 対数スケールの財務金額 (0.19)、(3) 意思決定タイプの基本率 (0.17)、(4) 事前に計算されたリスクスコア (0.14)、(5) 承認者までの組織の距離 (0.12)、(6) 証拠バンドル品質スコア (0.10)、(7) 仕様の完全性 (0.09)、(8) 関係者網羅率 (0.08)、(9) 最後の同様の決定からの日数 (0.07)、(10) 予算残存率 (0.06)。これらの重要度の値は解釈可能であり、分野の専門家の期待と一致しています。つまり、提案者の実績、財務規模、および意思決定タイプに固有の難しさが、承認結果の主な要因となります。

10.4 校正結果

等張回帰キャリブレーション後、モデルはテストセットで予想キャリブレーション誤差 (ECE) 0.014 を達成しました。信頼性図は、すべての確率範囲にわたってほぼ完璧なキャリブレーションを示しており、最大の偏差は 0.45 ～ 0.55 の範囲 (予測が本質的に不確実である) で発生しています。このキャリブレーション品質により、ゲートしきい値が確実に動作することが保証されます。モデルが 90% の承認確率を予測すると、そのような決定の約 90% が実際に承認されます。

11. 関連作品

企業の意思決定への勾配ブースティングの適用は、表形式のデータ予測、モデルの説明可能性、AI ガバナンスにおける広範な研究に基づいています。 Chen と Guestrin (2016) は、効率的なツリー構築を可能にする 2 次最適化フレームワークを備えた XGBoost を導入しました。ケら。 (2017) は、時間の複雑さを O(n d) から O(n bins) に削減するヒストグラムベースの分割検出を備えた LightGBM を導入しました。プロホレンコワら。 (2018) カテゴリ特徴量の順序付きターゲットエンコーディングを備えた CatBoost を導入しました。

説明可能性の領域では、Lundberg と Lee (2017) が特徴帰属のための統一フレームワークとして SHAP を導入しました。 (2020) ツリーアンサンブルでの正確な SHAP 計算のための TreeSHAP を開発しました。 Molnar (2020) は、解釈可能な機械学習手法の包括的な調査と、導入のための実践的なガイダンスを提供します。

機械学習予測のガバナンス固有のアプリケーションについては、あまり調査されていません。アメルシら。 (2019) は、監視と導入について触れながら、マイクロソフトにおける AI システムのソフトウェアエンジニアリングの実践について説明しています。ブレックら。 (2017) 運用準備のための ML テストスコアを導入しました。私たちの取り組みは、監査証跡の生成、非対称コストの最適化、責任ゲートの統合など、ガバナンス固有の要件によってこれらの基盤を拡張します。

12. 結論

この論文では、エージェントの企業インテリジェンススタックの意思決定層 (レイヤー 2) に最適なアルゴリズムとして勾配ブースティングを確立しました。 XGBoost の数学的基礎 (2 次損失近似、正則化ツリー構築、貪欲分割検出) は、企業の意思決定の構造化予測タスク (承認予測、リスクスコアリング、成功推定) に自然に適しています。

実験結果は決定的です。勾配ブースティングは、エンタープライズ表形式データでのディープラーニングを大幅に上回り (承認予測で 7.2%、リスクスコアリングで 0.06 AUC)、推論レイテンシ (2ms 未満)、説明可能性 (正確な SHAP 値)、および運用の堅牢性 (欠損値のネイティブ処理、単調制約、カスタム損失関数) において決定的な利点を提供します。

SHAP ベースの説明可能性パイプラインは、勾配ブースティングモデルをブラックボックス予測子から、すべての予測に対してガバナンスに準拠した監査証跡を生成する透明な意思決定支援システムに変換します。この透明性は、単にあると便利な機能ではなく、エンタープライズ AI ガバナンスの基本的な要件です。人間のレビューを回避するすべての自動化された決定には、モデルがその推奨を行った理由についての完全で検証可能な説明が伴う必要があります。

MARIA OS 責任ゲートとの統合は、このアーキテクチャの実際的な実行可能性を示しています。段階的自律性フレームワーク（モデルの信頼性とリスクレベルが共同して人間または自動承認チャネルを通じた意思決定のルーティングを決定する）は、ガバナンスの強化により自動化が可能になるというAgentic Companyの中核原則を体現しています。正確で校正された説明可能な予測を提供することで、勾配ブースティングデシジョンレイヤーにより、MARIA OS は、一か八かの不確実な決定に対する人間の権限を維持しながら、自動化された意思決定の範囲を安全に拡大できます。

今後の作業では 3 つの拡張機能を検討する予定です。まず、新しい決定が完了するとモデルを継続的に更新するオンライン勾配ブースティングにより、バッチ再トレーニングサイクルが不要になります。 2 つ目は、因果的推論を組み込んだ因果的勾配ブースティングです。これは、結果を引き起こす特徴と、それらと単に相関する特徴を区別します。 3 つ目は、単一モデル内で精度、公平性、堅牢性を同時に最適化する多目的勾配ブースティングで、公平な AI ガバナンスに対する需要の高まりに対応します。

企業意思決定予測のためのGradient Boosting: エージェント企業のDecision Layer設計