Name: MARIA OS
Author: MARIA OS

概要エージェント会社は状態遷移システムです。調達、雇用、製品リリース、投資承認、コンプライアンス監査など、あらゆるビジネスワークフローは、エージェントのアクションと環境条件によって決定される遷移を伴う一連の個別の状態を経て進行します。この論文では、エージェント会社をマルコフ決定プロセス (MDP) として形式化し、インテリジェンススタックの制御層 (層 4) に数学的基礎を提供します。財務の健全性、運用上の KPI、人材の状態、リスクレベル、ガバナンスの密度を把握する多次元の状態空間を定義します。アクションは、提案、検証、承認、実行、エスカレーション、延期、拒否などの意思決定パイプライン操作に対応します。移行関数は過去のワークフローデータから導出され、報酬関数はガバナンスの制約を受ける組織目標をエンコードします。私たちはエンタープライズワークフロー制御のためのベルマン最適性方程式を導出し、ゲート制約付き MDP (特定の状態遷移に人間の承認が必要な場合) が、制約のない最適化に比べて制限付きリグロングポリシーを許容することを証明し、不完全な情報を含むシナリオに対してフレームワークを部分的に観察可能な MDP (POMDP) に拡張します。 MARIA OS 決定パイプラインは、有限ホライズンゲート制約付き MDP の直接実装であることが示されています。実験による評価では、ポリシーの反復がエンタープライズワークフローグラフ上で 12 反復以内に収束し、ガバナンス違反がゼロでヒューリスティックルーティングと比較してスループットが 23% 向上することが実証されました。

1. はじめに

どの企業もワークフローを運用しています。調達ワークフローは購入リクエストから始まり、予算の検証、サプライヤーの選択、契約交渉、法的レビュー、承認、実行へと進みます。採用ワークフローは、求人から始まり、求人掲載、候補者のスクリーニング、面接、内定、オンボーディングまで進みます。製品リリースのワークフローは、機能の提案から始まり、設計レビュー、実装、テスト、セキュリティ監査、承認、展開へと進みます。これらのワークフローは共通の数学的構造を共有しています。つまり、現在の状態によって利用可能なアクションが決まり、アクションによって新しい状態への遷移が生成される状態遷移システムであり、目標は初期状態から成功した最終状態に効率的かつ安全に移動することです。

マルコフ決定プロセス (MDP) は、この構造の正確な数学的形式主義を提供します。 MDP は、状態のセット、各状態で利用可能なアクションのセット、現在の状態とアクションを考慮して次の各状態に到達する確率を指定する遷移関数、および各遷移の望ましさを定量化する報酬関数を定義します。最適なポリシー (期待される累積報酬を最大化する状態からアクションへのマッピング) は、動的プログラミング (ベルマン方程式) によって正確に計算することも、強化学習によって近似的に計算することもできます。

この論文では、Agentic Companyは単に MDP に類似しているだけではなく、MDP であると主張しています。 MARIA OS の意思決定パイプラインは、明示的な状態 (提案、検証、承認要求、承認、実行、完了、失敗)、明示的な遷移 (valid_transitions テーブルによって検証)、および明示的な報酬 (正常に完了すると正の値が生成され、失敗すると負の値が生成され、遅延により機会費用が発生する) を備えたステートマシンを実装します。この論文の貢献は、この対応を正確にし、エンタープライズ MDP の数学的特性を導き出し、MDP に最適なポリシーがヒューリスティックルーティングよりも大幅に優れていることを実証することです。

1.1 インテリジェンススタックの制御層

制御層 (層 4) はインテリジェンススタックの最上位に位置し、層 1 ～ 3 の出力を調整してワークフローの実行を管理します。認知層 (層 1) は、意思決定アーティファクトの言語理解を提供します。意思決定層 (層 2) は、承認確率、リスクレベル、成功確率の予測を提供します。計画層 (層 3) は、最適化されたアクションシーケンスを提供します。制御層はこれらの入力を使用して、ガバナンスの制約に従って、ワークフローの各状態で最適なアクションを実行します。

MDP フレームワークはこれらの入力を統合します。状態はレイヤー 1 ～ 3 からのすべての関連情報をエンコードし、アクションスペースには利用可能なすべてのパイプライン操作が含まれ、遷移関数にはレイヤー 2 の予測が組み込まれ、ポリシーはレイヤー 3 の最適化された戦略を実装します。数学的には、制御層はポリシーを評価し、各状態で規定のアクションを実行するエンティティです。

1.2 貢献

この論文は 5 つの寄稿を行っています。まず、ビジネスワークフローの完全なコンテキストをキャプチャする 5 つの次元でエンタープライズ MDP 状態空間を定義します。次に、エンタープライズワークフロー制御のためのベルマン最適性方程式を導出し、ポリシー反復の収束を証明します。第三に、特定の状態遷移における人間の承認の要件を形式化し、限定された後悔を証明するゲート制約付き MDP を導入します。 4 番目に、不完全な情報を含むワークフローのフレームワークを POMDP に拡張し、信念状態の更新方程式を導き出します。第 5 に、MARIA OS 意思決定パイプラインが直接 MDP 実装であることを実証し、エンタープライズワークフローベンチマークで MDP に最適なポリシーを評価します。

2. エンタープライズ MDP の正式な定義

エンタープライズ MDP をタプル M = (S, A, T, R, ガンマ) として定義します。ここで、S は状態空間、A はアクション空間、T は遷移関数、R は報酬関数、ガンマは割引係数です。

2.1 状態空間

エンタープライズ状態空間は多次元であり、特定の時点でのビジネスワークフローの完全なコンテキストをキャプチャします。 5 つの状態の次元を定義します。

財務状態 s_fin は、意思決定の財務コンテキスト (意思決定額、残りの予算、予測 ROI、現在までのコスト、および財務リスクエクスポージャ) を取得します。正式には、R^5 の s_fin です。

動作状態 s_ops は、ワークフローステージ (個別のステージセット {提案、検証、承認要求、承認、実行、完了、失敗} の要素)、経過時間、反復回数 (再送信)、現在のキューの位置、およびリソースの可用性といった動作コンテキストをキャプチャします。正式には、s_ops は {1,...,7} x R^4 になります。

人間の状態 s_hum は、提案者の実績 (承認率、平均品質スコア)、現在の承認者の作業負荷、利害関係者の関与レベル、提案者と承認者の間の組織的な距離など、人間のコンテキストをキャプチャします。正式には、R^4 の s_hum です。

リスク状態 s_risk は、リスクコンテキストを取得します。つまり、予測リスクレベル (レイヤー 2 勾配ブースティングモデルから)、証拠バンドル品質スコア、ポリシー準拠スコア、および以前の距離 (過去の決定との類似性) です。正式には、R^4 の s_risk です。

ガバナンス状態 s_gov は、ガバナンス密度 (適用可能なポリシーの数)、承認チェーンの長さ、ゲート構成 (自動承認しきい値、エスカレーションしきい値)、監査証跡の完全性などのガバナンスコンテキストをキャプチャします。正式には、R^4 の s_gov です。

完全な状態は連結です: R^21 x {1,...,7} の S サブセットの s = (s_fin, s_ops, s_hum, s_risk, s_gov)。状態空間の連続と離散が混在する性質には注意深い取り扱いが必要です。離散ワークフローステージコンポーネントはどのアクションが利用可能かを決定し、連続コンポーネントは遷移確率と報酬に影響を与えます。

2.2 アクションスペース

アクションスペース A(s) は状態に依存します。各ワークフローステージでは特定のアクションのみが使用可能です。完全なアクションセットは次のとおりです。

Action	Description	Available In
propose	Submit decision to pipeline	initial
validate	Run validation checks	proposed
auto_approve	Approve without human review	validated
route_approval	Route to human approver	validated
escalate	Route to senior approver	validated, approval_required
approve	Grant approval	approval_required
reject	Deny approval	approval_required
modify	Request modifications	approval_required
execute	Begin execution	approved
complete	Mark as successful	executed
fail	Mark as failed	executed
defer	Delay action	any non-terminal

状態依存のアクション制約 A(s) は、MARIA OS データベースの valid_transitions テーブルによって決定されます。このテーブルは、どの状態遷移が許可されるかを定義します。各状態のアクションスペースは、有効な遷移を生成するアクションのセットです。

2.3 遷移関数

遷移関数 T(s' | s, a) は、状態 s でアクション a を実行したときに状態 s' に到達する確率を指定します。決定的なアクション (検証、承認、拒否) の場合、遷移は決定的です。アクションによって決定される一意の次の状態 s' の場合、T(s' | s, a) = 1 となります。確率的アクション (成功または失敗する実行) の場合、遷移確率は過去のワークフローデータから推定されます。

T(s' | s, \text{execute}) = \begin{cases} p_{\text{success}}(s) & \text{if } s'_{\text{ops}} = \text{completed} \\ 1 - p_{\text{success}}(s) & \text{if } s'_{\text{ops}} = \text{failed} \end{cases} $$

ここで、p_success(s) は、現在の状態を考慮してレイヤー 2 モデルによって予測される成功確率です。連続状態の側面 (財務、人的、リスク、ガバナンス) は、データから推定された遷移ダイナミクスに従って進化します。たとえば、実行後の財務状態は s'_fin = s_fin + delta_fin(s, a) として更新されます。ここで、delta_fin はアクションの財務上の影響 (予算消費、コスト発生、ROI 実現) を取得します。

2.4 報酬関数

報酬関数 R(s, a, s') は、移行の組織的価値を定量化します。報酬を 4 つの要素に分解します。

R(s, a, s') = r_{\text{value}}(s') - r_{\text{cost}}(s, a) - r_{\text{delay}}(\Delta t) + r_{\text{governance}}(s, a) $$

値報酬 r_value(s') は、正常に完了した場合は正 (意思決定の組織的価値に比例)、失敗した場合は負 (失敗のコストに比例) です。コスト報酬 r_cost(s, a) は、状態 s でアクション a を実行するための直接コスト (人間のレビュー担当者の承認にかかる時間、検証にかかる計算リソース) を取得します。遅延報酬 r_delay(Delta t) は、遅い意思決定処理の機会コストを反映して、経過時間にペナルティを与えます。ガバナンス報酬 r_governance(s, a) は、ガバナンスの品質を向上させるアクション (徹底した証拠収集、適切なエスカレーション) に対してボーナスを提供し、ガバナンスの品質を低下させるアクション (レビューのスキップ、不完全な文書化) に対してペナルティを提供します。

3. エンタープライズポリシー最適化のためのベルマン方程式

ベルマンの最適性方程式は、ある状態にあることの価値を、最適なポリシーの下でその状態から達成できる最大の期待報酬として表します。エンタープライズ MDP の場合、最適な状態値関数 V* は次の条件を満たします。

V^*(s) = \max_{a \in A(s)} \left[ \sum_{s'} T(s' | s, a) \left[ R(s, a, s') + \gamma V^*(s') \right] \right] $$

最適な行動価値関数 Q* は次の条件を満たします。

Q^*(s, a) = \sum_{s'} T(s' | s, a) \left[ R(s, a, s') + \gamma \max_{a' \in A(s')} Q^*(s', a') \right] $$

最適なポリシー pi は、Q に関する貪欲なポリシーです: pi(s) = argmax_{a in A(s)} Q(s, a)。

3.1 割引率の解釈

金融 MDP では、割引係数ガンマはお金の時間価値として自然に解釈されます。ガンマ = 0.95 の割引係数は、将来 1 タイムステップで受け取った報酬が、すぐに受け取った同じ報酬の 95% の価値があることを意味します。エンタープライズワークフローの場合、ガンマは組織の緊急性をエンコードします。高いガンマ (1 に近い) は長期的な価値の創造を優先し、低いガンマ (0.8 に近い) は迅速な完了を優先します。適切なガンマは意思決定のタイプによって異なります。緊急の運用上の意思決定には低いガンマが使用され、戦略的な意思決定にはより高いガンマが使用されます。

3.2 値関数の構造

最適値関数 V(s) は、企業のワークフロー構造を反映する構造分解を認めます。最終状態 (完了、失敗) には既知の値があります: V(s_completed) = r_value(s) (実現された組織価値) および V*(s_failed) = -r_failure(s) (失敗のコスト)。非終了状態には、将来のアクションの最適なシーケンスによって決定される値があります。価値関数は、証拠の質、承認確率、提案者の実績が単調増加し、リスクレベル、キューの深さ、組織距離が単調減少します。

3.3 エンタープライズワークフローのポリシーの反復

ポリシーの反復を使用してベルマン方程式を解きます。これは、ポリシーの評価 (現在のポリシー pi の V^pi を計算する) とポリシーの改善 (V^pi に関して貪欲になるように pi を更新する) を交互に行います。ポリシー評価は線形システムを解決します。

V^{\pi}(s) = \sum_{s'} T(s' | s, \pi(s)) \left[ R(s, \pi(s), s') + \gamma V^{\pi}(s') \right] $$

すべての州について。 |S| を使用したエンタープライズワークフローの場合状態の場合、これには |S| の線形システムを解く必要があります。方程式。ポリシーの改善により、各状態のポリシーが更新されます。

\pi'(s) = \arg\max_{a \in A(s)} \sum_{s'} T(s' | s, a) \left[ R(s, a, s') + \gamma V^{\pi}(s') \right] $$

ポリシーの反復は最大で |A|^|S| 以内に最適なポリシーに収束することが保証されます。反復回数 (可能なポリシーの総数)。実際には、エンタープライズワークフローグラフの分岐要素が限られているため、収束ははるかに高速になります。最大 500 の状態と 12 のアクションを含むベンチマークエンタープライズワークフローグラフでは、ポリシーの反復は 12 反復以内に収束します。

3.4 値反復の代替案

ポリシー評価の線形システムを解くのにコストがかかる、より大きな状態空間の場合、値の反復が代替手段となります。値の反復は、ベルマン最適性方程式を直接反復します。

V_{k+1}(s) = \max_{a \in A(s)} \sum_{s'} T(s' | s, a) \left[ R(s, a, s') + \gamma V_k(s') \right] $$

値の反復は、k が無限大に近づくにつれて、収束率 gamma^k (割引係数の幾何学的) で V* に収束します。ガンマ = 0.95 の場合、イプシロン = 0.01 の絶対誤差を達成するには、約 k = log(0.01) / log(0.95) = 90 回の反復が必要です。エンタープライズワークフローに典型的な中程度のサイズの状態空間では、値の反復はポリシーの反復よりも実装が簡単ですが、収束に時間がかかります。

4. ガバナンス維持制御のためのゲート制約付き MDP

エンタープライズワークフロー制御の特徴は、人間の承認を必要とする状態遷移であるゲートの存在です。制約のない MDP は、純粋に効率性を目的として最適化され、人間によるレビューをすべてバイパスする可能性があります。ゲート制約のある MDP は、特定の遷移は人間のエージェントによって承認される必要があるというガバナンス要件を尊重します。

4.1 正式な定義

ゲート制約付き MDP は、人間の承認が必要な状態とアクションのペアを指定するゲート関数 G: S x A -> {0, 1} を使用して標準 MDP を拡張します。 G(s, a) = 1 は、状態 s のアクション a が、実行前に人間の承認を必要とするゲートアクションであることを意味します。制約は次のとおりです。

\pi(s) \in A_{\text{auto}}(s) \cup \{a \in A_{\text{gated}}(s) : \text{human\_approves}(s, a)\} $$

ここで、A_auto(s) = {a in A(s) : G(s, a) = 0} は自動化可能なアクション、A_gated(s) = {a in A(s) : G(s, a) = 1} はゲートされたアクションです。重要な洞察は、ゲートされたアクションは禁止されておらず、条件付きで利用可能であるということです。 MDP オプティマイザーはポリシーにゲートアクションを含めることができますが、その実行は人間の承認が条件となるため、遅延と不確実性が生じます。

4.2 人間の承認を確率的遅延としてモデル化する

人間の承認プロセスを、承認確率を伴う確率的遅延としてモデル化します。ポリシーでゲートアクションが規定されている場合、システムは承認待ち状態になります。人間の承認者は、承認 (確率 t_approve、遅延 tau_approve 後) または拒否 (確率 1 - p_approve、遅延 tau_reject) のいずれかです。これらのパラメーターは過去の承認データから推定され、状態 (リスクレベル、金額、承認者の ID) によって異なります。

T(s_{\text{approved}} | s_{\text{waiting}}, \text{gate}) = p_{\text{approve}}(s) $$

T(s_{\text{rejected}} | s_{\text{waiting}}, \text{gate}) = 1 - p_{\text{approve}}(s) $$

遅延はコストをもたらします。遅延報酬 r_delay(tau_approve) は、人間の承認を待つのに費やした時間にペナルティを与えます。このコストにより、自然なトレードオフが生じます。MDP オプティマイザーは、自動アクションが利用可能で、その期待値がゲートされた代替アクションに近い場合には、自動アクションを優先しますが、ゲートされたアクションの期待値が自動化された代替アクションの期待値を十分に超える場合には、人間の承認にルーティングします。

4.3 有界後悔定理

ゲートに制約のある MDP にとっての中心的な疑問は、特定の移行時に人間の承認を必要とすることで、組織がどれだけの価値を犠牲にするかということです。これをゲートリグレス (制約のない最適なポリシーとゲート制約のある最適なポリシーの間の値の違い) として形式化します。

定理 (境界ゲート後悔)。 pi を制約のない最適なポリシー、pi_G を最適なゲート制約のあるポリシーとする。ゲートの後悔は次の条件を満たします。

V^{\pi^*}(s_0) - V^{\pi^*_G}(s_0) \leq \frac{|\mathcal{G}| \cdot \bar{\tau} \cdot r_{\text{delay}}}{1 - \gamma} + \frac{(1 - \bar{p}) \cdot \bar{r}_{\text{value}}}{1 - \gamma} $$

ここで |G|は期待されるゲート遷移の数、tau_bar は平均承認遅延、r_lay は単位時間あたりの遅延コスト、p_bar は平均承認確率、r_bar_value はゲートアクションの平均値です。最初の項は承認遅延のコストを表し、2 番目の項は拒否のコストを表します。一般的なエンタープライズパラメータ (|G| = ワークフローあたり 2 ゲート、tau_bar = 4 時間、p_bar = 0.85) の場合、ゲートリグレスは制約のない最適値の 8% 未満です。これは、ガバナンスの制約によって効率コストが制限されていることを証明しています。これは、MARIA OS の段階的自律原則を正当化するための重要な結果です。

4.4 最適なゲート配置

制限されたリグレス結果を考慮すると、当然の疑問は、ガバナンス要件を満たしながらリグレスを最小限に抑えるには、ゲートをどこに配置する必要があるかということです。最適なゲート配置をバイレベル最適化として定式化します。

\min_G \left[ V^{\pi^*}(s_0) - V^{\pi^*_G}(s_0) \right] \quad \text{s.t.} \quad |G| \geq k, \quad G \text{ covers all high-risk transitions} $$

制約 |G| >= k は、最小ゲート数 (ガバナンスフロア) を保証し、リスクカバレッジ制約により、しきい値を超えるリスクを伴うすべての遷移をゲートする必要があることを保証します。解は、各候補ゲートのリグレス寄与を評価し、(制約を維持しながら) リグレス寄与が最も高いゲートを貪欲に削除することによって計算されます。これにより、ガバナンスに最適なゲート構成、つまりすべてのガバナンス要件を満たしながら効率の損失を最小限に抑える人間の承認ポイントの配置が実現します。

5. エンタープライズ状態空間: 詳細な定義とプロパティ

MDP ベースのワークフロー制御の品質は、状態空間定義に大きく依存します。状態空間が粗すぎると、ワークフローの状況間の重要な区別が失われます。状態空間が細かすぎると、遷移関数の推定が困難になります。私たちは、MDP における各州の側面とその役割の詳細な分析を提供します。

5.1 財務状態の空間

財務状態 s_fin = (amount、budget_remaining、roi_estimate、cost_to_date、financial_risk) は 5 次元です。この金額は決定の絶対的な金銭的価値であり、承認に必要な権限レベルが決まります。 Budget_remaining は、関連する予算のうちまだコミットされていない割合であり、コスト管理の緊急性に影響します。 roi_estimate は投資収益率の期待値であり、決定の長期的な価値を決定します。 cost_to_date は、意思決定の処理 (レビュー担当者の時間、分析労力) ですでに発生した埋没コストであり、モメンタム効果を生み出します。 Financial_risk は roi_estimate の標準偏差であり、財務結果の不確実性を捉えます。

5.2 ガバナンスの密度

州の側面の中でも、ガバナンスの密度はAgentic Companyの設定に特有のものであるため、特に注意を払う必要があります。ガバナンス密度 g(s) は、現在の状態に適用されるガバナンスポリシーの数と厳格さを測定します。それを次のように定義します。

g(s) = \sum_{p \in \mathcal{P}} w_p \cdot \mathbb{1}[\text{applies}(p, s)] \cdot \text{stringency}(p) $$

ここで、P はすべてのガバナンスポリシーのセット、w_p はポリシーの重み (重要度)、ポリシー p が状態 s に適用される場合は apply(p, s) は 1、stringency(p) はポリシーがどの程度制約されているか (条件の数、承認要件、証拠要件) を測定します。ガバナンスの密度が高いということは、多くのポリシーによって利用可能なアクションが制限され、有効なアクションの余地が減少しますが、移行の安全性が高まることを意味します。

5.3 扱いやすさのための状態集約

生の 22 次元連続状態空間は、正確な MDP ソリューションには大きすぎます。状態集約を適用し、各連続ディメンションをビンに離散化し、集約された状態の遷移確率と報酬を計算します。集計では可変幅のビンが使用されます。感度の高いディメンション (状態ディメンションの小さな変化が最適なアクションの大きな変化につながる) はより多くのビンを受け取りますが、感度の低いディメンションはより少ないビンを受け取ります。

各次元の感度は、有限差分を使用して状態点のグリッドで評価された、各状態次元に関する最適値関数の導関数を計算することによって推定されます。財務額とリスクレベルは最も機密性の高いディメンションであり、それぞれ 20 ビンを受け取りますが、キューの位置などの運用ディメンションはそれほど機密ではなく、それぞれ 5 ビンを受け取ります。集約された状態空間の合計には約 50,000 の状態があり、ポリシーを正確に反復することが可能です。

6. 不確実性の下での企業の意思決定のための部分的に観察可能なMDP

実際には、ワークフローの完全な状態を完全に観察できることはほとんどありません。意思決定の真のリスクレベルは不明である可能性があります (レイヤー 2 からのリスクスコアは推定値であり、神託ではありません)。提案者の真の能力は、過去の実績とは異なる場合があります (過去の実績は将来の結果を保証するものではありません)。この決定が提案されて以来、金融環境は変化した可能性がある。これらの不確実性は、MDP から部分的に観察可能な MDP (POMDP) への拡張の動機となります。

6.1 POMDPの配合

POMDP は、観測空間 O と、真の状態とアクションを考慮した各観測の確率を指定する観測関数 Z: S x A -> Delta(O) を使用して MDP を拡張します。エージェントは真の状態 s を直接観察するのではなく、Z(o | s, a) から引き出された観察 o を受け取ります。エージェントは、信念状態 b(s) = P(S = s | o_1, ..., o_t, a_1, ..., a_{t-1}) (観察とアクションの履歴を考慮した状態にわたる確率分布) を維持します。

エンタープライズワークフローの場合、隠れた状態のコンポーネントは、真のリスクレベル (リスクスコアの推定を通じて観察)、真の財務結果 (ROI 予測を通じて観察)、および真の提案者の能力 (過去の実績を通じて観察) です。観測関数は、次の推定値のノイズをモデル化します。

Z(o_{\text{risk}} | s_{\text{risk}}, a) = \mathcal{N}(s_{\text{risk}}, \sigma_{\text{risk}}^2) $$

ここで、 sigma_risk^2 は、レイヤー 2 モデルのキャリブレーションから導出されたリスクスコア推定の分散です。観測ノイズは、適切にキャリブレーションされたモデル (勾配ブースティングリスクスコアラーが MARIA OS ベンチマークで sigma_risk = 0.08 を達成) では低くなり、モデルのトレーニングデータが少ない新しい決定タイプでは高くなります。

6.2 信念状態の更新

信念状態は、ベイズ規則を使用して各観測後に更新されます。

b'(s') = \eta \cdot Z(o | s', a) \sum_{s} T(s' | s, a) b(s) $$

ここで、eta は、b' の合計が 1 になることを保証する正規化定数です。信念更新では、事前信念 b(s)、遷移ダイナミクス T(s' | s', a)、および観測尤度 Z(o | s', a) の 3 つの情報源が統合されます。エンタープライズワークフローの場合、各パイプラインイベント (検証結果、証拠の提出、承認アクション) の後に信念の更新が計算され、ワークフローの実際の状態に対するシステムの理解が強化されます。

6.3 POMDP ポリシーの最適化

最適な POMDP ポリシーは、信念状態をアクションにマッピングします。 POMDP のベルマン方程式は信念空間で動作します。

V^*(b) = \max_{a \in A} \left[ \sum_s b(s) R(s, a) + \gamma \sum_o P(o | b, a) V^*(b'_{a,o}) \right] $$

ここで、 b'_{a,o} は、アクション a を実行し、o を観察した後の信念状態です。 POMDP の正確な解は、大規模な状態空間 (PSPACE 完全) では扱いにくいですが、点ベースの値反復 (PBVI) またはモンテカルロ木探索 (MCTS) に基づく近似法は、中規模の問題には優れた解を提供します。

シミュレートされたワークフローの軌跡から信念点をサンプリングし、これらの点での価値関数を計算することにより、PBVI をエンタープライズワークフロー POMDP に適用します。近似ポリシーは、隠れたリスク状態の推論で 91.7% の精度を達成します。これは、利用可能な観察を処理した後、信念状態が真のリスクレベルを 91.7% の確率で正しく識別することを意味します。この信念の正確さは、完全な状態情報を使用して行われる場合よりもわずか 3.2% 多いエスカレーションで、最適に近いルーティング決定につながります。

7. MDP 状態ファクタリングによる責任分解

MDP フレームワークは、責任を分解するための自然なメカニズムを提供し、状態と行動スペースのさまざまな側面をさまざまな組織単位に割り当てます。状態ファクタリングは、エンタープライズ MDP をサブ MDP に分解し、それぞれが MARIA OS 階層内の特定の組織単位によって管理されます。

7.1 因数分解された MDP 分解

企業の状態 s = (s_fin、s_ops、s_hum、s_risk、s_gov) は、さまざまな組織単位によって管理されるコンポーネントに組み込むことができます。財務状態は Finance Planet によって管理され、運用状態は Operations Planet によって管理され、人間の状態は HR Planet によって管理され、リスク状態は Risk Planet によって管理され、ガバナンス状態は Governance Planet によって管理されます。因数分解された MDP は、遷移関数をコンポーネントごとの遷移に分解します。

T(s' | s, a) = T_{\text{fin}}(s'_{\text{fin}} | s, a) \cdot T_{\text{ops}}(s'_{\text{ops}} | s, a) \cdot T_{\text{hum}}(s'_{\text{hum}} | s, a) \cdot T_{\text{risk}}(s'_{\text{risk}} | s, a) \cdot T_{\text{gov}}(s'_{\text{gov}} | s, a) $$

この因数分解は、状態コンポーネントがアクションを考慮して条件付きで独立している場合に正確です。これは、財務ダイナミクス、運用ダイナミクス、リスクダイナミクスがほぼ独立したメカニズムを通じて進化する多くのエンタープライズワークフローにとって合理的な近似です。独立性の前提に違反した場合（財務リスクが運用上の決定に影響を与えるなど）、移行関数でコンポーネント間条件を保持します。

7.2 国家所有権による責任の割り当て

各状態コンポーネントには、MARIA OS 座標系で指定された所有者があります。所有者は、(1) 状態コンポーネントの正確な推定を維持すること、(2) コンポーネントにドメイン固有の報酬を提供すること、(3) コンポーネントに影響を与えるポリシーの部分を実装することに対して責任を負います。正式には、MARIA OS 座標 c_j は、状態コンポーネント j を担当する組織単位を指定します。

State Component	Responsible Unit	MARIA Coordinate
s_fin	Finance Department	G1.U.P2.Z.A*
s_ops	Operations	G1.U.P1.Z.A*
s_hum	Human Resources	G1.U.P3.Z.A*
s_risk	Risk Management	G1.U.P4.Z.A*
s_gov	Governance Office	G1.U.P5.Z.A*

7.3 マルチエージェント MDP の調整

因数分解された MDP に複数の担当ユニットが関与する場合、ポリシー全体で各ユニットのアクションを調整する必要があります。これを、各エージェントがアクションスペースのサブセットを制御するマルチエージェント MDP (MMDP) として定式化します。エージェントの行動は、個人のインセンティブを組織の目標に合わせる共有報酬機能を通じて調整されます。 MMDP のナッシュ均衡は、最適な共同政策、つまりどのエージェントも一方的に改善できない個々の政策の組み合わせに対応します。

完全な MMDP のナッシュ均衡を計算するには、計算コストがかかります。 MARIA OS の階層的権限構造に基づく調整メカニズムを使用します。上位レベルのユニット (ユニバース、ギャラクシー) は、調整制約を指定することで、下位レベルのユニット (惑星、ゾーン) 間の競合を解決します。この階層的な調整により、MMDP は一連の小さな調整問題に縮小され、それぞれが正確な解決策として扱いやすくなります。

8. MDP 実装としての MARIA OS 決定パイプライン

MARIA OS 意思決定パイプラインは、このホワイトペーパーで説明されているエンタープライズ MDP フレームワークを直接実装したものです。このセクションでは、パイプラインコンポーネントを MDP 要素にマッピングして、対応関係を明示します。

8.1 MDP 状態としてのパイプライン状態

MARIA OS パイプラインは、提案、検証、承認要求、承認、実行、完了、失敗の 7 つのワークフローステージを定義します。これらは、MDP 状態の離散コンポーネント s_ops に対応します。連続状態コンポーネントは、各段階移行時の意思決定記録と組織コンテキストから計算されます。各パイプライン段階の完全な MDP 状態は、レイヤー 2 モデル (リスクと承認の予測用)、証拠レイヤー (証拠品質スコア用)、および組織データストア (提案者の実績と承認者のワークロード用) をクエリすることによって組み立てられます。

8.2 アクション制約としての有効な遷移

MARIA OS データベース内の valid_transitions テーブルは、許可される状態遷移を定義し、状態依存のアクション制約 A(s) を直接実装します。テーブルの各行は (from_state、to_state) ペアを指定し、特定の状態から許可される遷移のセットによって利用可能なアクションが決まります。このテーブルは MDP のアクションスペース定義であり、コードではなくデータとして保存され、ガバナンス担当者がシステム実装を変更せずにワークフロー構造を変更できるようにします。

8.3 MDP 遷移としての意思決定遷移

MARIA OS パイプラインのすべての状態遷移により、from_state、to_state、アクション、タイムスタンプ、アクター、根拠を含む不変のレコードが Decision_transitions テーブルに作成されます。この監査証跡は MDP の軌跡ログであり、パイプラインを通過するすべての決定に対する状態、行動、報酬のシーケンスの完全な記録です。軌跡ログには 2 つの目的があります。遷移関数 T と報酬関数 R を推定するためのトレーニングデータを提供し、説明責任に必要なガバナンス監査証跡を提供します。

8.4 MDP 制約としての責任ゲート

MARIA OS の責任ゲートは、ゲート制約付き MDP のゲート関数 G(s, a) を直接実装したものです。各ゲートには、移行が自動化されるか人間の承認が必要かどうかを決定するしきい値が設定されます。ゲート関数は、現在の状態を次のしきい値と比較して評価します。

G(s, a) = \begin{cases} 0 & \text{if } P(A|s) > \tau_{\text{auto}} \text{ and } \text{risk}(s) \leq \text{moderate} \\ 1 & \text{otherwise} \end{cases} $$

これはまさに、MDP フレームワーク内で形式化された勾配ブースティング論文 (第 2 条) のゲート決定関数です。ゲート制約のある MDP オプティマイザーは、これらのゲート制約に従って最適なポリシーを決定します。また、有界後悔定理により、人間による承認の効率コストが有限であることが保証されます。

9. エンタープライズワークフロー向けのポリシー最適化アルゴリズム

9.1 モデルベースのポリシーの反復

遷移関数 T と報酬関数 R がわかっている場合 (履歴データから推定)、モデルベースのポリシーの反復により正確な最適なポリシーが提供されます。このアルゴリズムは、ポリシーの評価 (線形システム V^pi = R^pi + ガンマ T^pi V^pi を解く) とポリシーの改善 (pi'(s) = argmax_a Q^pi(s,a)) を交互に行います。 50,000 の集約状態を含むエンタープライズワークフローの場合、ポリシー評価には、共役勾配法を使用して約 3 秒で完了する疎線形システムを解く必要があります。ポリシーの改善には、すべての状態を 1 回通過する必要があり、1 秒未満で完了します。完全なポリシーの反復は 12 回の反復 (合計約 48 秒) で収束し、正確に最適なゲート制約ポリシーが得られます。

9.2 モデルフリーの強化学習

遷移関数が事前にわからない場合 (新しいワークフロータイプまたは急速に変化する環境の場合)、モデルフリーの強化学習が代替手段となります。エンタープライズ MDP でエクスペリエンス再生を伴う Q ラーニングを実装します。

Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R(s, a, s') + \gamma \max_{a'} Q(s', a') - Q(s, a) \right] $$

ここで、アルファは学習率です。エクスペリエンスリプレイバッファーには、MARIA OS 監査証跡からの状態遷移の履歴が保存され、Q ラーニングの更新がバッファーからサンプリングされた遷移のミニバッチに適用されます。コンバージェンスには約 100K の移行 (100K の履歴決定レコードに相当) が必要ですが、これは確立された MARIA OS デプロイメントで利用可能です。

9.3 制約付きポリシーの最適化

ゲート制約のある MDP の場合、ゲートコンプライアンスの明示的な制約に従ってポリシーを最適化する Constrained Policy Optimization (CPO) を実装します。 CPO の目標は次のとおりです。

\max_{\pi} V^{\pi}(s_0) \quad \text{s.t.} \quad \forall s, a: G(s, \pi(s)) = 1 \implies \text{human\_review\_scheduled}(s) $$

CPO は、制約のラグランジュ緩和を使用し、各ゲート制約に二重変数を導入し、主双対勾配降下法によって拡張目的を最適化します。二重変数は、各ゲートのシャドウプライス、つまり人間による各承認要件を維持するための組織のスループットに対する限界コストを反映する値に収束します。これらのシャドウプライスは MARIA OS ガバナンスダッシュボードにレポートされるため、ガバナンス担当者は情報に基づいてガバナンスの厳格さと運用効率の間でトレードオフを行うことができます。

10. 実験による評価

10.1 ベンチマークの設定

MDP ベースのワークフロー制御を 2 つのベンチマークで評価します。ベンチマーク 1 (合成) は、既知の最適なポリシーを持つパラメーター化されたワークフローテンプレートから生成された、それぞれ 50 ～ 500 の状態を持つ 10 のワークフロータイプで構成されます。 Benchmark 2 (MARIA OS) は、3 つの銀河、9 つの宇宙、27 の惑星にわたるシミュレーションされた MARIA OS 展開からの 20 万件の履歴意思決定記録で構成されており、データから推定された実際のワークフローダイナミクスを備えています。

10.2 主な結果

Method	Throughput (decisions/day)	Avg Processing Time	Governance Violations	Gate Regret
Heuristic Routing	847	18.3 hours	0	N/A
MDP (unconstrained)	1,124	12.1 hours	23	0%
MDP (gate-constrained)	1,042	14.2 hours	0	7.3%
Q-Learning	998	15.1 hours	0	11.2%
Random Policy	612	27.4 hours	47	N/A

ゲート制約のある MDP は、ガバナンス違反ゼロを維持しながら、ヒューリスティックルーティングより 23% 高いスループット (1 日あたり 1,042 対 847 の決定) を達成します。制約なしの MDP はさらに高いスループット (1,124) を達成しますが、23 件のガバナンス違反が発生し、ゲート制約が必要であることが確認されています。 7.3% というゲートリグレス (制約のないポリシーとゲート制約のあるポリシー間のスループットギャップ) は理論上の限界である 8% 内にあり、有界リグレス定理が検証されています。

10.3 ポリシー分析

最適なゲート制約ポリシーにより、いくつかの非自明なルーティング戦略が明らかになります。まず、このポリシーは、提案者が 90% を超える実績を持っている場合の検証段階をバイパスし、少額かつ低リスクの意思決定を直接自動承認にルーティングします。これはヒューリスティックシステムでは採用されない戦略です。第 2 に、このポリシーは、承認者のワークロードが高い期間中は戦略的に特定の決定を延期し、すぐにルーティングするのではなく、混雑が緩和される承認ウィンドウを待ちます。第三に、このポリシーは、リスクが高い場合だけでなく、同様の決定に対する標準承認者の過去の拒否率が 40% を超えた場合にも、決定を上級レビュー担当者にエスカレーションし、承認する可能性がより高い当局に先制的にルーティングします。

10.4 POMDPの結果

POMDP ベンチマーク (真のリスクレベルが隠蔽され、ノイズ sigma_risk = 0.08 のレイヤー 2 リスクスコアを通じて観察される) では、PBVI 近似解は隠れたリスク状態推論で 91.7% の信念精度を達成します。 POMDP ポリシーは、MDP 最適スループットの 96.8% を達成します (MDP が真の状態にアクセスできる場合)。これは、レイヤ 2 予測からの観測ノイズによるスループットの低下はわずか 3.2% のみであることを示しています。この結果は、レイヤー 2 の予測に固有の不確実性にもかかわらず、レイヤー 2 がレイヤー 4 によって消費される推定値を提供するレイヤードインテリジェンスアーキテクチャが最適に近いパフォーマンスを達成していることを裏付けています。

10.5 収束解析

ポリシーの反復は、最大 500 の状態を持つすべてのベンチマークワークフローについて 12 反復以内に収束します。収束率は比率 0.91 でほぼ幾何学的になります。これは、各反復でベルマン残差が約 9% 減少することを意味します。同じ収束許容値に対して値の反復には 87 回の反復が必要であり、エンタープライズワークフローの中規模の状態空間ではポリシーの反復が大幅に高速であることが確認されています。 Q ラーニングの収束には約 50,000 のエピソードが必要で、これは 1 日あたり 800 件の決定を伴うリアルタイム操作の約 2 か月に相当します。

11. 関連作品

MDP のビジネスプロセス管理への適用は、さまざまな状況で検討されてきました。ベッカーら。 (2004) は、最適なリソース割り当てのためのビジネスプロセスを MDP としてモデル化し、製造ワークフローにおけるスループットの向上を実証しました。シェーニグら。 (2016) 強化学習を適応型ビジネスプロセス管理に適用し、履歴プロセスデータからルーティングポリシーを学習しました。黄ら。 (2011) は、不確実性の下での適応型ワークフロー管理に POMDP を使用しました。

AI ガバナンスの領域では、Amodei et al. (2016) は、安全状態の探索という課題を含む、AI の安全性における具体的な問題について議論しました。これは、新しいワークフローパターンの探索がガバナンス違反のリスクを負うエンタープライズ MDP に直接関係します。ハドフィールド・メネルら。 (2017) は価値調整の問題を形式化し、報酬関数の指定を誤ると壊滅的な政策につながる可能性があることを示しました。当社のゲート制約付き MDP は、重要な移行ポイントで人間の権限が確実に保持されるようにすることで、価値の調整に取り組み、オプティマイザーがガバナンスの精神に違反しながら形式的な目的を技術的に最大化する報酬ハッキングポリシーを発見するのを防ぎます。

ゲート制約付き MDP の有界リグレス定理は、Altman (1999) によって開始された制約付き MDP 文献を拡張します。私たちの貢献は、企業ガバナンスの制約への適用です。この制約は物理的な制限ではなく組織設計の選択を表し、リグレットバウンドはガバナンスのコストの定量的な正当化を提供します。

エンタープライズワークフローのための POMDP の定式化は、不確実性の下での意思決定に関する広範な文献に関連しています。ケルブリングら。 (1998) は、POMDP 解決方法の基礎的な調査を提供しました。 Smith と Simmons (2004) は、近似 POMDP ソリューションにポイントベースの値の反復を導入しました。これを企業のワークフロー設定に適応させます。

12. 結論と今後の方向性

この論文は、エージェント会社をマルコフ決定プロセスとして形式化し、インテリジェンススタックの制御層 (層 4) の数学的基盤を確立しました。エンタープライズ MDP フレームワークは、認知層、意思決定層、計画層の出力を一貫した制御ポリシーに統合する、ワークフロー制御への原則に基づいたアプローチを提供します。

重要な理論的結果は、ゲート制約のある MDP の限界リグレス定理であり、ガバナンスの制約 (重要な状態遷移における人間の承認の要件) には限界のある効率コストがあることが証明されています。 8% のリグレスバウンドは、組織が人によるレビューなしで達成できるスループットの最大 8% を犠牲にしながら、完全なガバナンスコンプライアンスを維持できることを意味します。この結果は、MARIA OS の中核原則の数学的正当化を提供します。つまり、ガバナンスの強化により、自動化のメリットが拡大する一方、ガバナンスのコストには限界があるため、より多くの自動化が可能になります。

実験結果は理論分析を裏付けています。MDP 最適ルーティングはヒューリスティックルーティングよりも 23% 高いスループットを達成し、ゲート制約ポリシーはガバナンス違反をゼロに維持し、POMDP 拡張機能はわずか 3.2% のスループット低下でレイヤ 2 予測の不確実性を処理します。ポリシーの反復はエンタープライズワークフローグラフ上で迅速に (12 反復) 収束し、正確に最適なポリシーが計算上実現可能になります。

MARIA OS デシジョンパイプラインはエンタープライズ MDP の直接実装であり、パイプライン状態が MDP 状態にマッピングされ、有効な遷移がアクション制約にマッピングされ、責任ゲートがゲート制約にマッピングされ、遷移関数推定のための軌跡データを提供する Decision_transitions 監査証跡が含まれます。この対応関係は比喩的なものではなく、数学的なものであり、完全な MDP 理論を企業のワークフローの最適化に適用できるようになります。

今後の取り組みは 4 つの方向性を追求していきます。 1 つ目は、クロスユニバースのワークフロー調整のためのマルチエージェント MDP です。この場合、意思決定は、異なる目的と制約を持つ複数のビジネスユニットにまたがります。第 2 に、複雑なワークフローを MARIA OS の各レベルでサブ問題に分解する階層型 MDP が階層を調整し、エンタープライズ規模の状態空間に対するスケーラブルなポリシーの最適化を可能にします。 3 番目は、専門家のデモンストレーションからの逆強化学習です。手動で指定するのではなく、観察された人間の意思決定パターンから組織の報酬関数を学習します。 4 つ目は、MDP がガバナンスコンプライアンスを確実に維持しながら、改善されたワークフローパターンを発見できるようにする安全探索ポリシーです。ロボット工学における安全な強化学習のエンタープライズ版です。

Agentic Companyは状態遷移システムです。 MDP はその数学言語です。 MARIA OS はその実装です。

業務ワークフロー制御のためのMDP: エージェント企業を状態遷移系として定式化する