1. はじめに
Agentic Companyは毎日何千件もの意思決定を処理しており、それぞれに迅速な評価が必要です。この決定は自動的に承認されるべきでしょうか、それとも人間のレビュー担当者に送られるべきでしょうか?リスクレベルはどれくらいですか?実行が成功する確率はどれくらいですか?リソースはどのように割り当てられるべきでしょうか?これらの予測タスクは、インテリジェンス スタックの決定層 (層 2) を形成し、認知層 (言語理解を提供する) の上、計画層 (複数ステップの戦略を最適化する) の下に位置します。
アーキテクチャ上の重要な問題は、どのアルゴリズム ファミリが意思決定層のバックボーンとして機能するかということです。 AI の一般的な傾向は、ディープ ラーニング (大規模なデータセットでエンドツーエンドでトレーニングされた複数の隠れ層を持つニューラル ネットワーク) を支持しています。しかし、経験的証拠は、構造化された表形式データの場合、勾配ブースティングアンサンブルが深層学習よりも優れたパフォーマンスを発揮することを一貫して示しています。グリンシュタインら。 (2022) は、45 の表形式データセットのベンチマークで、ツリーベースのモデル (ランダム フォレストと勾配ブースティング) がニューラル ネットワークよりも優れたパフォーマンスを発揮することを実証しました。 Shwartz-Ziv と Armon (2022) は、120 のデータセットの広範なベンチマークでこの発見を確認し、XGBoost と LightGBM が表形式タスクの 87% で最高のニューラル アーキテクチャよりも優れているか同等のパフォーマンスを達成することを示しました。
企業の意思決定データは典型的には表形式です。各意思決定レコードには、カテゴリ (意思決定の種類、提案代理人、承認権限)、数値 (金額、リスク スコア、過去の成功率)、時間的 (提出時間、最後の同様の決定からの経過時間)、階層的 (提案代理人の MARIA OS 座標)、およびリレーショナル (他の決定への依存性、前の決定との類似性) といった特徴タイプの異種混合が含まれています。この異質性と、適度なデータセット サイズ (数十億レコードではなく、数千から数百万レコード) が組み合わさることにより、企業の意思決定予測は、勾配ブースティングが優れた領域に直接配置されます。
1.1 エンタープライズ AI における勾配ブースティングの事例
生の予測精度を超えて、勾配ブースティングは企業の導入にとって重要な 3 つの特性を提供します。まず、解釈可能性: ツリーベースのモデルは、SHAP (SHapley Additive exPlanations) を使用して機能寄与に分解できる予測を生成し、すべての予測について監査に準拠した説明を可能にします。 2 番目の堅牢性: 勾配ブースティングは欠損値をネイティブに処理し、単調な特徴変換に対して不変であり、外れ値に耐性があります。 3 番目に効率性: トレーニングされた XGBoost モデルはマイクロ秒単位で予測を生成できるため、承認ゲートが 1 桁ミリ秒以内に応答する必要がある MARIA OS 意思決定パイプラインとのリアルタイム統合が可能になります。
1.2 貢献
この論文は 4 つの寄稿を行っています。まず、勾配ブースティングをエージェント会社の意思決定層として形式化し、企業の意思決定コンテキストにおける加算ツリー アンサンブル学習の数学的フレームワークを定義します。次に、生の意思決定記録を勾配ブースティング用に最適化された特徴ベクトルに変換する包括的な特徴エンジニアリング フレームワークを開発します。第三に、異種タイプのエンタープライズ特徴量分布において、勾配ブースティングがフィードフォワード ニューラル ネットワークよりも低いベイズ リスクを実現することを証明します。 4 番目に、MARIA OS 責任ゲートと統合する SHAP ベースの説明可能性パイプラインを導入し、すべての自動予測に対してガバナンスに準拠した監査証跡を生成します。
2. 勾配ブースティングの数学的基礎
勾配ブースティングは、弱学習器 (通常は決定木) を損失関数の負の勾配に順次適合させることにより、加算モデルを構築します。このフレームワークは Friedman (2001) によって導入され、XGBoost (Chen および Guestrin、2016) や LightGBM (Ke et al.、2017) などの効率的な実装を通じて改良されてきました。
2.1 加算モデルの定式化
n 個の意思決定レコードのトレーニング データセット {(x_i, y_i)}_{i=1}^n (R^d の x_i は特徴ベクトル、y_i はターゲット (承認決定、リスク レベル、または成功確率) である場合)、勾配ブースティングは K 個の弱学習器の合計として予測関数を構築します。
ここで、F は回帰木の空間、f_0 は定数の初期予測 (通常は二項分類の陽性クラスの対数オッズ) です。各ツリー f_k は、累積モデル F_{k-1} の誤差を修正するために適合されます。ステップ k の目的は、正規化された損失を最小限に抑えることです。
ここで、l は微分可能な損失関数、Omega はツリーの複雑さにペナルティを与える正則化項です。二項分類 (承認予測) の場合、l はロジスティック損失です。マルチクラス分類 (リスク レベルの予測) の場合、l はソフトマックス クロス エントロピーです。回帰 (成功確率) の場合、l は二乗誤差またはフーバー損失です。
2.2 二次近似
XGBoost の主要な革新は、現在の予測を中心とした損失関数の 2 次テイラー展開であり、これによりツリー構造の効率的な最適化が可能になります。 l を 2 次まで展開すると、次のようになります。
ここで、 g_i = 部分 l / 部分 F_{k-1}(x_i) は 1 次勾配、 h_i = 部分 ^2 l / 部分 F_{k-1}(x_i)^2 は、現在の予測に対する損失の 2 次勾配 (ヘッセ行列) です。ロジスティック損失の場合、g_i = p_i - y_i および h_i = p_i(1 - p_i)、ここで p_i = sigma(F_{k-1}(x_i)) は予測確率です。
2.3 最適なツリー構造
二次近似を考慮すると、ツリー f_k の葉 j の最適な重みは次のようになります。
ここで、I_j はリーフ j に割り当てられたトレーニング インスタンスのセットであり、lambda は L2 正則化パラメータです。ノードを左 (I_L) と右 (I_R) の子に分割することによる、対応する最適な損失削減は次のとおりです。
ここで、ガンマは分割に必要な最小損失削減 (複雑さのコスト) です。このゲインの式は、貪欲な分割検索アルゴリズムの基礎です。各特徴と可能な分割点ごとにゲインを計算し、最大ゲインを持つ分割を選択します。ツリーは、ゲインがガンマを下回るか、最大深度に達するまで、再帰的分割によって成長します。
2.4 正則化フレームワーク
正則化項オメガはモデルの複雑さを制御し、過剰適合を防ぎます。 XGBoost は、リーフの重みに対する L1/L2 正則化の組み合わせと、リーフの数に対する複雑さのペナルティを使用します。
ここで、T はリーフの数、w_j はリーフ j の重み、lambda は L2 係数、alpha は L1 係数です。ガンマ項は不十分なゲインを提供する分割を阻止し、ラムダ項はリーフの重みをゼロに向けて縮小し(自信過剰な予測を防止)、アルファ項はリーフの重みの疎性を促進します(一部のリーフの出力を正確にゼロに設定します)。
企業の意思決定の予測では、過信した予測の結果は深刻であるため、正則化が重要です。過信した承認予測により人間のレビューを回避する危険な決定が可能になる可能性があり、一方、過信したリスク スコアは不必要なエスカレーションを引き起こす可能性があります。エンタープライズ展開にはラムダ [1, 10] とガンマ [0.1, 1.0] を推奨し、保持されているガバナンス監査セットの相互検証によって調整されます。
3. エンタープライズデシジョンテーブルの特徴量エンジニアリング
勾配ブースティング予測の品質は、入力特徴の品質に大きく依存します。生の企業意思決定記録には豊富な情報が含まれていますが、予測可能で解釈可能で長期にわたって安定した特徴を抽出するには、慎重なエンジニアリングが必要です。
3.1 特徴分類法
私たちは企業の意思決定機能を 6 つのカテゴリに分類し、それぞれに異なるエンジニアリング戦略が必要です。
| Category | Examples | Engineering Strategy |
|---|---|---|
| Identity | Decision ID, proposer ID, approver ID | Entity embeddings, frequency encoding |
| Contextual | Decision type, department, urgency | One-hot encoding, target encoding |
| Financial | Amount, budget remaining, ROI estimate | Log transform, ratio features |
| Temporal | Submission time, days since last similar | Cyclical encoding, lag features |
| Hierarchical | MARIA OS coordinate (G.U.P.Z.A) | Level decomposition, path encoding |
| Historical | Approval rate, avg processing time | Rolling aggregates, trend features |
3.2 MARIA OSの座標機能
MARIA OS 座標系は、独自のフィーチャ ソースを提供します。各座標 G(g).U(u).P(p).Z(z).A(a) は、決定の組織的な位置をエンコードします。これを複数の特徴に分解します。個々のレベル値 (Galaxy ID、Universe ID、Planet ID、Zone ID、Agent ID)、階層の深さ (Null 以外のレベルの数)、座標パス (完全一致の連結文字列)、および座標類似性特徴 (承認者までの組織距離、最後の類似の決定までの組織距離、この決定タイプの平均座標までの距離) です。
座標の類似性は、Transformer Paper (Article 1) で定義され、表形式に適応された階層的な距離メトリックを使用して計算されます。座標 c_1 と c_2 の間の距離は、5 つのバイナリ フィーチャ (同じ銀河、同じ宇宙、同じ惑星、同じゾーン、同じエージェント) と 1 つの重み付き距離スカラーに分解されます。この分解により、勾配ブースティング モデルは、組織の近接性と意思決定の結果の間の非線形関係を学習できるようになります。
3.3 時間特徴量エンジニアリング
企業の意思決定は強力な時間的パターンを示し、承認率は曜日、時間帯、予算サイクル内の位置によって異なります。時間的特徴を複数の粒度で設計します。短期的な機能は、過去 1 時間に提出された意思決定の数、最近の意思決定の平均リスク スコア、承認ゲートでの現在のキューの深さなど、直接的なコンテキストを捕捉します。中期機能は、曜日、承認サイクル内での位置、今週の累積承認数と過去の平均など、週ごとのパターンをキャプチャします。長期的な特徴は、支持率の四半期ごとの傾向、予算使用率の軌跡、季節調整要因などの戦略的パターンを捕捉します。
3.4 履歴集計機能
決定ごとに、提案代理人、承認機関、決定タイプの実績を要約する履歴集計特徴を計算します。提案エージェントについては、提出された決定の総数、承認率、平均処理時間、拒否理由の分布、過去 30/60/90 日間の承認率の傾向を計算します。承認機関については、レビューされた決定の合計、決定タイプ別の承認率、平均レビュー時間、一貫性スコア (類似した提案に対する決定の差異) を計算します。決定タイプについては、基本承認率、平均財務額、典型的なリスク レベル、および季節変動を計算します。
これらの集計特徴は、データ漏洩を避けるためにローリング ウィンドウとして計算されます。時間 t に提出された決定の特徴は、時間 t より前に完了した決定からのデータのみを使用します。ウィンドウ サイズは、時間的相互検証によって調整されるハイパーパラメーターです。
4. エンタープライズ表形式データにおける勾配ブースティングとディープラーニングの比較
表形式データに対して、勾配ブースティングと深層学習をいつ使用するかという問題は、広く研究されています。企業の意思決定の予測において、勾配ブースティングが理論的および経験的に優れている条件を定式化します。
4.1 特徴分布分析
エンタープライズ意思決定機能には、深層学習よりも勾配ブースティングを好む 3 つの特性があります。まず、異種の特徴タイプです。一般的な意思決定記録には、連続変数 (金額)、カテゴリ変数 (意思決定の種類、エージェント ID)、順序変数 (緊急度、リスク評価)、および派生変数 (比率、傾向) が混在しています。深層学習では、これらを均一な表現にエンコードし、型固有の構造を失う必要があります。勾配ブースティングは異種タイプをネイティブに処理し、各特徴タイプに最適なしきい値ベースの分割を適用します。
2 番目に、適度なサンプル サイズ: 企業の意思決定コーパスには、通常 10,000 ~ 100 万のレコードが含まれています。数百万のパラメータを持つ深層学習モデルでは、信頼性の高い一般化を達成するために桁違いに多くのデータが必要ですが、深さ 6 の数百のツリーを使用した勾配ブースティングでは、安定した決定境界を学習するためにはるかに少ないサンプルしか必要としません。
3 番目に、特徴の重要度の希薄性: 企業の意思決定データでは、通常、少数の特徴が予測力の大部分を左右します。多くの場合、金額、承認機関のアイデンティティ、および過去の承認率が予測差異の 60 ~ 70% を占めます。勾配ブースティングは、分割検出メカニズムを通じて有益な特徴を自然に選択しますが、深層学習は、より困難な最適化問題である正則化を通じて無関係な特徴を無視することを学習する必要があります。
4.2 勾配ブースティングの理論上の利点
バイアス分散分解を使用して勾配ブースティングの利点を形式化します。ベイズ最適誤差イプシロン* を使用した予測タスクの場合、モデル クラスの予想される超過リスクは次のとおりです。
深さ D の K ツリーによる勾配ブースティングの場合、バイアスは K とともに指数関数的に減少します (各ツリーは残留誤差を修正します)。一方、分散は K とともにゆっくりと増加します (正則化とサブサンプリングによって制御されます)。ステップ K のバイアスは次の条件を満たします。
ここで、ηは学習率です。差異は以下によって制限されます。
ここで、 sigma^2 はノイズ分散、n はサンプル サイズ、rho はツリー間の相関関係 (特徴サブサンプリングによって低減) です。中程度の n と中程度の固有次元を持つエンタープライズ データの場合、分散項は小さなη (0.01 ~ 0.1) と中程度の D (4 ~ 8) を選択することで制御され、深層学習の代替案よりも高速に収束する過剰リスクが生成されます。
4.3 経験的比較
MARIA OS 意思決定予測ベンチマークで、XGBoost、LightGBM、4 層フィードフォワード ニューラル ネットワーク、TabNet、および FT-Transformer を比較します。このベンチマークには、12 の予測タスク (承認、リスク、成功、タイミング、リソース、ガバナンス タスク) にわたる 89 のエンジニアリング機能を含む 500,000 の意思決定レコードが含まれています。
| Model | Approval Acc | Risk AUC | Success RMSE | Avg Rank |
|---|---|---|---|---|
| XGBoost | 91.3% | 0.94 | 0.087 | 1.4 |
| LightGBM | 90.8% | 0.93 | 0.089 | 1.8 |
| FT-Transformer | 89.1% | 0.92 | 0.094 | 2.9 |
| TabNet | 87.4% | 0.90 | 0.101 | 3.8 |
| Feed-Forward NN | 84.1% | 0.88 | 0.112 | 4.6 |
XGBoost と LightGBM はすべてのタスクで優勢であり、XGBoost が最高の平均ランクを達成しています。 FT-Transformer (表形式データ用の最近の変換アーキテクチャ) は競争力がありますが、勾配ブースティングのパフォーマンスを超えることはありません。標準的なフィードフォワード ニューラル ネットワークのパフォーマンスは最悪であり、非構造化深層学習アーキテクチャが企業の表形式データには最適ではないことが確認されています。
5. 承認確率の予測
MARIA OS 意思決定層における勾配ブースティングの主な用途は、承認確率の予測です。モデルは、パイプラインに入る各決定について、承認、変更、または拒否される確率を推定します。この予測には 2 つの目的があります。1 つは自動ルーティングを可能にする (承認の可能性が高い決定は迅速に追跡でき、承認の可能性が低い決定には慎重な検討のためにフラグが付けられます)。もう 1 つは、意思決定者に提案の予想される結果に関する早期フィードバックを提供することです。
5.1 問題の定式化
承認予測は、承認 (A)、変更 (M)、拒否 (R) の 3 つのクラスを持つマルチクラス分類タスクです。モデルは、次のクラスにわたる確率分布を出力します。
ここで、F_c(x) はクラス c の勾配ブースティング モデルです。 XGBoost のマルチクラス実装では、ブースティング ラウンドごとにクラスごとに K ツリーがトレーニングされ、ソフトマックス損失によって各クラスの勾配 g_i とヘッセ行列 h_i が個別に提供されます。
5.2 クラス固有の機能の重要性
機能が異なれば、結果も異なります。金額は拒否の最も強力な予測因子であり(高額な決定はより精査される)、一方、過去の承認率は承認の最も強力な予測因子です(優れた実績を持つエージェントは承認される可能性が高くなります)。特徴の重要性をクラスごとに個別に分析して、明確な決定メカニズムを理解します。
承認クラスの上位の特徴は、提案者の過去の承認率 (SHAP 重要度 0.23)、意思決定タイプの基本承認率 (0.18)、承認者との組織的な距離 (0.14)、および予算に対する財務額 (0.11) です。拒否クラスの上位の特徴は、絶対金額 (0.27)、リスク スコア (0.21)、ポリシー遵守フラグ (0.16)、および以前に拒否された決定との先行類似性 (0.12) です。変更クラスの主な特徴は、仕様完全性スコア (0.25)、利害関係者の網羅率 (0.19)、および証拠バンドルの品質 (0.15) です。
5.3 ゲート統合のためのしきい値キャリブレーション
勾配ブースティングの生の確率出力は、ランク付けに関して適切に調整されています (確率が高いほど承認される可能性が高いことを意味します) が、絶対的な意味では完全に調整されていない可能性があります (予測された 80% の承認確率は、実際の承認率の 80% に対応する必要があります)。ゲート統合の場合、保持されたキャリブレーション セットに等張回帰キャリブレーションを適用します。校正された確率は次の条件を満たします。
ここで、すべての確率範囲でイプシロン < 0.02。この調整は MARIA OS ゲート統合にとって重要であり、承認確率が設定可能なしきい値と比較されてルーティングが決定されます。P(A) > tau_auto による決定は自動承認され、P(R) > tau_escalate による決定は上級レビュー担当者にエスカレーションされ、その他すべては標準の承認ワークフローに従います。
6. リスクスコアリングと重症度分類
承認の予測を超えて、意思決定層はパイプライン内のすべての意思決定のリスク スコアリングを提供します。リスク スコアリングでは、各決定を 5 つの重大度レベル (無視できる、低、中、高、重大) のいずれかに分類します。リスク スコアは、ルーティング、承認機関の要件、および必要な証拠収集の深さに影響します。
6.1 マルチレベルのリスクの定式化
リスク スコアリングは、5 つの重大度レベルが自然な順序を持つ順序分類問題として定式化されます。標準のマルチクラス分類では、順序構造を無視して、クラスを順序なしとして扱います。モデルが 4 つのしきい値関数を学習するバイナリ分類器のチェーン アプローチを使用します。
ここで、F_k は k 番目の閾値の勾配ブースティング モデルです。各特定レベルの確率は、P(リスク = k) = P(リスク >= k) - P(リスク >= k+1) として回復されます。この定式化は順序構造を尊重しています。高リスクとして予測された決定は、少なくとも中程度のリスクとして予測されている必要があり、独立した複数クラスの分類から生じる可能性のある不一致を回避します。
6.2 リスク特徴エンジニアリング
リスク固有の機能は、リスク指標を含む一般的な機能セットを拡張します。財務リスクの特徴には、過去の平均の倍数としての金額、予算影響率、財務予測の差異が含まれます。運用リスクの特徴には、依存する決定の数、リソース競合スコア、タイムラインの重要度 (期限への近さ) が含まれます。ガバナンス リスクの特徴には、影響を受けるポリシー領域の数、組織間の範囲 (関与する個別の MARIA OS 座標の数)、および前例の相違 (特徴空間内の最も近い過去の前例からの距離) が含まれます。
先行分岐機能には特に注意が必要です。新しい決定ごとに、履歴決定空間内でその k 最近傍を (操作された特徴ベクトルを使用して) 計算し、平均距離を測定します。過去のどの前例からもかけ離れた決定は、組織に経験が不足している新しい状況を表しており、他のすべての機能が問題がない場合でも、より高いリスク スコアが保証されます。
6.3 リスクモデルの校正
リスクスコアがガバナンスアクションを推進するため、リスク調整は非常に重要です。当社は、コスト重視のアプローチを使用してリスク モデルを調整します。このアプローチでは、過小評価 (害を引き起こす決定に対して低リスクを予測) のコストが、過大評価 (無害な決定に対して高リスクを予測) のコストよりも重み付けされます。非対称コスト マトリックスは次のとおりです。
ここで、w_under / w_over = 3.0 はデフォルトで、リスクの検出に失敗すると誤報の 3 倍のコストがかかるというガバナンスの原則を反映しています。この比率は MARIA OS でユニバースごとに構成できるため、さまざまなビジネス ユニットが独自のリスク許容度を設定できます。
7. ガバナンス・コンプライアンスに対するSHAPベースの説明可能性
エンタープライズ AI ガバナンスにおいて、説明可能性はオプションではありません。意思決定に影響を与えるすべての自動予測には、予測を推進する主要な要因を特定し、その個々の寄与を定量化し、人間のレビュー担当者がアクセスできる形式で説明を提示する説明が伴う必要があります。 SHAP (SHapley Additive exPlanations) は、この要件に対して理論に基づいたフレームワークを提供します。
7.1 SHAP値の計算
SHAP 値は、予測を各特徴からの追加の寄与に分解します。予測 F(x) の場合、特徴 j の SHAP 値 phi_j は次の条件を満たします。
ここで、phi_0 は基本値 (すべてのトレーニング インスタンスにわたる平均予測)、phi_j(x) はインスタンス x の予測に対する特徴 j の寄与です。 SHAP 値は、局所精度 (予測に対する値の合計)、欠損性 (存在しない特徴の寄与はゼロ)、および一貫性 (新しいモデルで特徴の寄与が増加しても、SHAP 値は減少しません) という 3 つの望ましい特性を満たします。
ツリーベースのモデルの場合、SHAP 値は、TreeSHAP アルゴリズムを使用して O(TLD^2) 時間で正確に計算できます。ここで、T はツリーの数、L はツリーあたりの最大葉数、D は最大深度です。 T=500 ツリー、深さ D=6 の一般的なエンタープライズ XGBoost モデルの場合、TreeSHAP は単一の予測の正確な SHAP 値を約 1 ミリ秒で計算し、リアルタイムの説明可能性を実現します。
7.2 ガバナンス監査証跡の生成
予測ごとに、SHAP 値は 3 つのコンポーネントを含むガバナンス監査証跡に変換されます。機能貢献度レポートは、絶対的な SHAP 値によって機能をランク付けし、上位の貢献者をその方向 (ポジティブ = リスクまたは承認確率が増加、ネガティブ = 減少) と規模とともに表示します。意思決定推論のナラティブは、テンプレート エンジンを使用して SHAP 分解を自然言語に変換します。「この決定は、主に金額 (240 万ドル) がこの意思決定タイプの過去の平均の 8.3 倍 (リスク スコアに +0.34 寄与)、提案代理人の承認率が平均を下回る 62% (+0.18 寄与)、0.5 インチ以内に過去の先例がないため、高リスクであると予測されます」特徴空間 (+0.15 に寄与)。反事実分析は、予測を覆す最小の機能変更を特定します。金銭的金額が 80 万ドルに減額されると、リスク スコアは高から中程度に低下します。」
7.3 SHAP インタラクション値
SHAP 相互作用値は、個々の特徴の寄与を超えて、ペアごとの特徴の相互作用を捕捉します。交互作用値 phi_{ij} は、特徴 i と j の個々の寄与を超えた追加の効果を測定します。
インタラクション値は、非自明な意思決定パターンを明らかにします。たとえば、金額と組織の距離の相互作用により、リモート エージェント (承認者までの座標距離が高い) によって提案された大規模な決定が、不釣り合いに高い拒否率に直面していることが明らかになる可能性があります。このパターンは、どちらの特徴だけでは説明できません。これらのインタラクションに関する洞察は、明らかではないリスク要因を強調する「インタラクション アラート」としてガバナンス ダッシュボードに表示されます。
8. MARIA OS デシジョンゲートの統合
勾配ブースティング モデルは、責任ゲート (ルーティング、承認、実行に関して意思決定が評価されるチェックポイント) で MARIA OS 意思決定パイプラインに統合されています。統合アーキテクチャにより、最終結果に対する人間の権限を維持しながら、すべてのゲート決定がモデル予測によって通知されることが保証されます。
8.1 ゲートアーキテクチャ
MARIA OS の各責任ゲートは、自動承認しきい値 tau_auto (このしきい値を超える承認確率を持つ決定は自動的に承認されます)、エスカレーションしきい値 tau_escalate (このしきい値を超えるリスク スコアを持つ決定は上級レビュー担当者にルーティングされます)、および証拠要件レベル (決定を続行するために必要な最低限の証拠バンドルの品質) の 3 つのパラメーターで構成されます。勾配ブースティング モデルは、次のゲート関数に入力を提供します。
ゲート決定関数は次のとおりです。
この関数は、段階的自律性の原則をエンコードしています。つまり、モデルが自信を持っており、リスクが低い決定は自動的に続行できますが、リスクが高い、または不確実な決定は人間の判断が必要です。しきい値は MARIA OS 階層内のゾーンごと、プラネットごと、およびユニバースごとに構成可能であり、さまざまな組織単位が独自の自律レベルを設定できるようになります。
8.2 モデルの監視とドリフト検出
導入された勾配ブースティング モデルは、予測ドリフト、つまりモデルの精度を低下させる入力の分布または入力と結果の間の関係の変化を監視する必要があります。 3 つのドリフト検出メカニズムを実装します。特徴ドリフト検出は、毎週のウィンドウで計算された人口安定性指数 (PSI) を使用して入力特徴分布を監視します。予測ドリフト検出は、コルモゴロフ-スミルノフ検定を使用してモデル予測の分布を監視します。結果ドリフト検出は、予測された確率を条件として実際の承認率を監視し、校正誤差が 5% を超えると再校正をトリガーします。
ドリフトが検出されると、システムは自動承認のしきい値が一時的に引き上げられ (自動化には高いモデルの信頼性が必要)、モデルの再トレーニング パイプラインがトリガーされる保守モードに入ります。再トレーニングでは、同じハイパーパラメータ構成を持つ最新 90 日間の意思決定データが使用され、ホールドアウト セットとして過去 30 日間に対して検証されます。一般的なエンタープライズ コーパスの再トレーニングは 15 分以内に完了し、迅速なモデル適応が可能になります。
8.3 A/B テストのフレームワーク
MARIA OS は、ゲート レベルでのモデル バージョンの A/B テストをサポートします。新しいモデルが導入されると、最初はランダムに選択された 10% の意思決定 (治療グループ) についての予測が提供され、残りの 90% (対照グループ) については既存のモデルが提供されます。 A/B テストでは、予測精度、キャリブレーション誤差、偽陰性率 (安全と予測されたが実際には失敗したとの判断)、および人間によるオーバーライド率 (人間のレビュー担当者がモデルの推奨事項に同意しなかった判断) の 4 つの指標を測定します。新しいモデルは、4 つの指標すべてで p < 0.05 で統計的に有意な改善が示された場合にのみ、完全な展開に昇格します。
9. エンタープライズコンテキスト向けの高度な勾配ブースティング技術
9.1 単調制約
企業の意思決定モデルには既知の単調な関係があることがよくあります。つまり、他のすべてが等しい場合、金額が高くなってもリスクが減少することはなく、過去の承認率が高くなって承認確率が低下することはありません。 XGBoost と LightGBM は、ツリー構築中にこれらの関係を強制する単調制約をサポートしています。
単調制約は、モデルの解釈可能性 (モデルの動作がドメインの期待と一致する) と一般化 (制約は分散を低減する帰納的バイアスの一種として機能します) の両方を向上させます。既知の方向関係を持つ 15 個の特徴に単調制約を適用し、承認予測誤差を 2.1% 削減し、直感に反する予測説明を排除します。
9.2 ガバナンス目標のためのカスタム損失関数
標準分類損失 (対数損失、ソフトマックス クロスエントロピー) では、すべての誤差が同等に扱われます。ガバナンスの文脈では、エラーが異なれば結果も異なります。リスク スコアリングにおける偽陰性 (害を引き起こす決定に対して低リスクを予測) は、偽陽性 (良性の決定に対して高リスクを予測) よりもはるかにコストがかかります。非対称ペナルティを備えたカスタム損失関数を実装します。
ここで、w_+ / w_- は、偽陰性と偽陽性の相対コストを表します。このカスタム損失の勾配とヘッセ行列は、カスタム目標インターフェイスを通じて XGBoost に提供され、標準の勾配ブースティング フレームワークがガバナンス固有の目標に合わせて最適化できるようになります。
9.3 専門家の集団
すべての意思決定タイプに単一の勾配ブースティング モデルを使用するのではなく、それぞれが特定の意思決定カテゴリに最適化された専門モデルのアンサンブルをトレーニングします。スペシャリスト アンサンブル アーキテクチャは、各決定をそのタイプに基づいて適切なスペシャリストにルーティングし、学習した重み付けを使用してスペシャリストの予測をグローバル モデルの予測と組み合わせます。
ここで、alpha は学習された混合重みであり、決定の種類と専門家が利用できるトレーニング データの量に依存します。豊富なトレーニング データを備えたよく表現された意思決定タイプの場合、スペシャリストが優勢です。まれな意思決定タイプの場合、グローバル モデルが事前情報を提供し、スペシャリストが適度な修正を提供します。このアーキテクチャにより、単一のグローバル モデルと比較して全体の精度が 3.4% 向上します。
10. 実験による評価
10.1 データセットとセットアップ
MARIA OS エンタープライズ意思決定ベンチマーク (EDB) で評価します。このベンチマークは、3 つの銀河、9 つの宇宙、27 の惑星にわたるマルチエージェント操作のシミュレーションによる 50 万件の意思決定記録で構成されています。各レコードには、89 の操作された特徴 (数値 42、カテゴリ 23、時間的 12、階層 7、派生 5) が含まれています。ターゲット変数は、承認結果 (3 クラス)、リスク レベル (5 つの順序レベル)、成功確率 (連続)、および処理時間 (連続) です。データセットは時間的に分割されます。トレーニング用の 1 ~ 9 か月 (400,000)、検証用の 10 か月 (50,000)、テスト用の 11 ~ 12 か月のレコード (50,000)。
10.2 主な結果
| Metric | XGBoost | LightGBM | CatBoost | FT-Transformer | MLP | Logistic Reg |
|---|---|---|---|---|---|---|
| Approval Accuracy | 91.3% | 90.8% | 90.2% | 89.1% | 84.1% | 79.3% |
| Risk AUC (macro) | 0.94 | 0.93 | 0.93 | 0.92 | 0.88 | 0.82 |
| Success RMSE | 0.087 | 0.089 | 0.091 | 0.094 | 0.112 | 0.134 |
| Time MAE (hours) | 2.3 | 2.5 | 2.6 | 2.9 | 3.7 | 4.8 |
| Inference (ms) | 0.8 | 0.6 | 1.2 | 12.4 | 3.1 | 0.1 |
| SHAP Available | Yes | Yes | Yes | Approx | No | Coef |
XGBoost は、ミリ秒未満の推論時間と正確な SHAP 説明可能性を維持しながら、すべての予測タスクにわたって最高の精度を実現します。 LightGBM は推論がわずかに高速ですが、精度がわずかに劣ります。 FT-Transformer は精度では競争力がありますが、推論が 15 倍遅く、おおよその SHAP 値のみをサポートします。標準的な MLP とロジスティック回帰はベースラインとして機能し、このタスクにおけるアンサンブル手法の大きな利点を示しています。
10.3 機能重要性分析
すべての 500,000 予測にわたるグローバル SHAP 特徴の重要性により、承認予測に関する以下のトップ 10 の特徴が明らかになります: (1) 提案者の過去の承認率 (平均 |SHAP| = 0.23)、(2) 対数スケールによる財務金額 (0.19)、(3) 意思決定タイプの基本率 (0.17)、(4) 事前に計算されたリスク スコア (0.14)、(5) 承認者までの組織の距離 (0.12)、(6) 証拠バンドル品質スコア (0.10)、(7) 仕様の完全性 (0.09)、(8) 関係者網羅率 (0.08)、(9) 最後の同様の決定からの日数 (0.07)、(10) 予算残存率 (0.06)。これらの重要度の値は解釈可能であり、分野の専門家の期待と一致しています。つまり、提案者の実績、財務規模、および意思決定タイプに固有の難しさが、承認結果の主な要因となります。
10.4 校正結果
等張回帰キャリブレーション後、モデルはテスト セットで予想キャリブレーション誤差 (ECE) 0.014 を達成しました。信頼性図は、すべての確率範囲にわたってほぼ完璧なキャリブレーションを示しており、最大の偏差は 0.45 ~ 0.55 の範囲 (予測が本質的に不確実である) で発生しています。このキャリブレーション品質により、ゲートしきい値が確実に動作することが保証されます。モデルが 90% の承認確率を予測すると、そのような決定の約 90% が実際に承認されます。
11. 関連作品
企業の意思決定への勾配ブースティングの適用は、表形式のデータ予測、モデルの説明可能性、AI ガバナンスにおける広範な研究に基づいています。 Chen と Guestrin (2016) は、効率的なツリー構築を可能にする 2 次最適化フレームワークを備えた XGBoost を導入しました。ケら。 (2017) は、時間の複雑さを O(n d) から O(n bins) に削減するヒストグラムベースの分割検出を備えた LightGBM を導入しました。プロホレンコワら。 (2018) カテゴリ特徴量の順序付きターゲット エンコーディングを備えた CatBoost を導入しました。
説明可能性の領域では、Lundberg と Lee (2017) が特徴帰属のための統一フレームワークとして SHAP を導入しました。 (2020) ツリー アンサンブルでの正確な SHAP 計算のための TreeSHAP を開発しました。 Molnar (2020) は、解釈可能な機械学習手法の包括的な調査と、導入のための実践的なガイダンスを提供します。
機械学習予測のガバナンス固有のアプリケーションについては、あまり調査されていません。アメルシら。 (2019) は、監視と導入について触れながら、マイクロソフトにおける AI システムのソフトウェア エンジニアリングの実践について説明しています。ブレックら。 (2017) 運用準備のための ML テスト スコアを導入しました。私たちの取り組みは、監査証跡の生成、非対称コストの最適化、責任ゲートの統合など、ガバナンス固有の要件によってこれらの基盤を拡張します。
12. 結論
この論文では、エージェントの企業インテリジェンス スタックの意思決定層 (レイヤー 2) に最適なアルゴリズムとして勾配ブースティングを確立しました。 XGBoost の数学的基礎 (2 次損失近似、正則化ツリー構築、貪欲分割検出) は、企業の意思決定の構造化予測タスク (承認予測、リスク スコアリング、成功推定) に自然に適しています。
実験結果は決定的です。勾配ブースティングは、エンタープライズ表形式データでのディープ ラーニングを大幅に上回り (承認予測で 7.2%、リスク スコアリングで 0.06 AUC)、推論レイテンシ (2ms 未満)、説明可能性 (正確な SHAP 値)、および運用の堅牢性 (欠損値のネイティブ処理、単調制約、カスタム損失関数) において決定的な利点を提供します。
SHAP ベースの説明可能性パイプラインは、勾配ブースティング モデルをブラックボックス予測子から、すべての予測に対してガバナンスに準拠した監査証跡を生成する透明な意思決定支援システムに変換します。この透明性は、単にあると便利な機能ではなく、エンタープライズ AI ガバナンスの基本的な要件です。人間によるレビューを回避するすべての自動化された決定には、モデルがその推奨を行った理由についての完全で検証可能な説明が伴う必要があります。
MARIA OS 責任ゲートとの統合は、このアーキテクチャの実際的な実行可能性を示しています。段階的自律性フレームワーク(モデルの信頼性とリスク レベルが共同して人間または自動承認チャネルを通じた意思決定のルーティングを決定する)は、ガバナンスの強化により自動化が可能になるというAgentic Companyの中核原則を体現しています。正確で校正された説明可能な予測を提供することで、勾配ブースティング デシジョン レイヤーにより、MARIA OS は、一か八かの不確実な決定に対する人間の権限を維持しながら、自動化された意思決定の範囲を安全に拡大できます。
今後の作業では 3 つの拡張機能を検討する予定です。まず、新しい決定が完了するとモデルを継続的に更新するオンライン勾配ブースティングにより、バッチ再トレーニング サイクルが不要になります。 2 つ目は、因果的推論を組み込んだ因果的勾配ブースティングです。これは、結果を引き起こす特徴と、それらと単に相関する特徴を区別します。 3 つ目は、単一モデル内で精度、公平性、堅牢性を同時に最適化する多目的勾配ブースティングで、公平な AI ガバナンスに対する需要の高まりに対応します。