要旨
1. はじめに
代理店の概念は、従来のエンタープライズ アーキテクチャからの根本的な脱却を表しています。従来の組織では、意思決定は人間が介在する階層構造を介して行われ、そこではメタ認知 (自分自身の認知プロセスと限界の認識) が人間の判断の暗黙の副産物となります。部下の提案をレビューするマネージャーは、推論の質の評価、盲点のチェック、提案と組織の経験との比較といったメタ認知的評価を同時に実行しています。 AI エージェントが人間の意思決定者を大規模に置き換えたり強化したりすると、明示的に設計され正式に保証されない限り、この暗黙的なメタ認知層は消滅します。
賭け金はかなり大きい。メタ認知なしで業務を行うエージェント会社は、計器を持たずに飛行するパイロットに似ています。システムには、安定した運用から危険な体制に移行したことを検出する方法がありません。役割の割り当ては修正せずに変更される可能性があります。エージェント間の影響の伝播により、エラーが指数関数的に増幅される可能性があります。意思決定の質は、個々のエージェントの観点からは見えないシステムレベルの現象であるため、個々のエージェントが検出できない形で徐々に低下する可能性があります。この論文が扱う基本的な問題は、Agentic Companyが自社の組織力学を確実に観察、評価、修正できるようにするには、どのような数学的構造を備えていなければならないかということです。
私たちの中心的な理論は、ガバナンス密度が主な潜在的なメタ認知パラメーターとして機能し、ルーターの候補アクション セットの制約付き候補カバレッジが動作上の観察可能性を提供するということです。これは比喩ではありません。私たちは、各ガバナンスの制約が組織の自己観察ポイントを生み出すことを正式に示します。ゲートは意思決定のレビューを強制し、証拠要件は結果の文書化を強制し、承認ワークフローはエージェント間の検証を強制します。これらの観察ポイントの密度によって、組織が安定性を維持するのに十分な自己認識を持っているかどうか、または盲目的に運営されているかどうかが決まります。
この論文は 5 件の寄稿を行っています。まず、エージェント会社をグラフ拡張された制約付き MDP として定義し、組織のダイナミクスを推論するための完全な数学的フレームワークを提供します。次に、計算可能な Top-K オブザーバブルから潜在的なガバナンス密度を区別し、より厳密なバッファリングされたエンベロープ λ<sub>max</sub>(W) < 1 − κ<sub>t</sub> とともに、正確な局所収縮則 (1 − κ<sub>t</sub>)λ<sub>max</sub>(W) < 1 を導出します。第三に、制約下でのエージェントの効用の最大化から生じる役割の特化ダイナミクスを特徴付けます。 4 番目に、タスクの複雑さ、通信帯域幅、ガバナンスの減衰の関数として、4 つの状態図 (停滞、バッファされた特殊化、脆弱な特殊化、およびカスケード) を特定します。 5 番目に、MARIA OS がこれらの理論的要件をどのように実装するかを示します。デシジョン グラフ、ゲート エンジン、証拠レイヤー、ドクター異常検出レイヤーを通じて。
2. 数学的モデル
2.1 グラフ制約のある MDP としてのエージェント会社
タイムステップ t におけるエージェント会社をタプル G<sub>t</sub> = (A<sub>t</sub>, E<sub>t</sub>, S<sub>t</sub>, Π<sub>t</sub>, R<sub>t</sub>, D<sub>t</sub>) としてモデル化します。ここで、A<sub>t</sub> はエージェントのセット、E<sub>t</sub> はエージェント間の依存関係をエンコードするエッジ行列です。通信チャネル、S<sub>t</sub> は組織状態ベクトル、Π<sub>t</sub> はエージェント ポリシーのコレクション、R<sub>t</sub> は状態と行動のペアを組織価値にマッピングする報酬関数、D<sub>t</sub> は潜在的なガバナンス密度パラメータです。これは標準の MDP ではありません。3 つの重要な方法でフレームワークを拡張します。状態空間には組織構造 (誰が誰に報告し、どのエージェントが通信するか) が含まれており、ポリシー セットは異種であり (各エージェントが個別のポリシーを持つ場合もあります)、制約セット D<sub>t</sub> 自体は動的変数であり、次のように調整できます。組織のパフォーマンスへの対応。 D<sub>t</sub> は基礎となるアクション空間のプロパティであるため、常に直接観察されるわけではありません。セクション 3 では、監査可能なオブザーバブルを紹介します。
2.2 状態ベクトル
組織状態 S<sub>t</sub> は、企業の健全性の 5 つの側面を捉えた複合ベクトルです。 S<sub>t</sub> = [F<sub>t</sub>, K<sub>t</sub>, H<sub>t</sub>, L<sub>t</sub>, C<sub>t</sub>] ここで、F<sub>t</sub> は財務状態 (収益、コスト、マージン、キャッシュ フロー) を表し、K<sub>t</sub> は主要業績評価指標を表します。 (完了率、品質スコア、顧客満足度)、H<sub>t</sub> は人間の能力 (利用可能な専門知識、意思決定の帯域幅、承認キューの深さ) を表し、L<sub>t</sub> はリスク状態 (保留中のリスクエクスポージャ、コンプライアンスのギャップ、監査結果) を表し、C<sub>t</sub> は通信構造 (情報フロー トポロジ、ボトルネックの特定、待ち時間メトリクス) を表します。各次元は、インタラクション ログから推定される操作影響行列 W<sub>t</sub> を介して、すべてのエージェントの共同行動に従って進化します。
状態空間は連続的かつ高次元であり、企業の健全性を単一の指標や個別の状態のセットに還元できないという現実を反映しています。ダイナミクス S<sub>t+1</sub> = f(S<sub>t</sub>, a<sub>1</sub>, ..., a<sub>n</sub>, W<sub>t</sub>, D<sub>t</sub>) は、現在のガバナンス制約の下で動作するすべてのエージェントの共同アクションによって決定されます。この公式は、状態遷移を制御する単一のエージェントは存在しないが、システムは安定した動作点に収束する必要があるという本質的な課題を捉えています。
2.3 影響の伝播
運用上の影響行列 W<sub>t</sub> = [w<sub>ij,t</sub>] は、エージェント i のアクションに対するエージェント j のポリシーと KPI の軌跡の感度を捉えます。エントリ w<sub>ij,t</sub> は、共有リソース、情報フロー、承認チェーン、または運用の依存関係を通じて、エージェント i の決定がエージェント j の意思決定コンテキストに影響を与える程度を表します。表記の衝突を避けるために、エージェント セット用に G<sub>t</sub> 内の A<sub>t</sub> を意図的に予約しています。マトリックス W<sub>t</sub> は一般に非対称であり (エージェント i がエージェント j に強い影響を与えるが、その逆は成り立ちません)、時間変化します (組織の再構築、新しいプロジェクト、優先順位の変化による影響パターン)。
各ステップで、局所線形応答モデルを使用して決定ログから W<sub>t</sub> を推定します: ΔKPI<sub>j,t+1</sub> = Σ<sub>i</sub> w<sub>ij,t</sub>u<sub>i,t</sub> + β<sub>j</sub><sup>T</sup>x<sub>t</sub> + ε<sub>j,t</sub>、ここでu<sub>i,t</sub> はエージェント i のアクション強度、x<sub>t</sub> は制御共変量です。この形式では、w<sub>ij,t</sub> は ∂(KPI<sub>j</sub>)/∂(u<sub>i</sub>) を近似し、正則化回帰、因果バリアント、またはグレンジャー スタイルのラグ モデルによって推定できます。
W<sub>t</sub> の重要な特性はスペクトル半径 λ<sub>max</sub>(W<sub>t</sub>) であり、これによって影響の伝播が時間の経過とともに増幅するか減衰するかが決まります。 λ<sub>max</sub> が大きい場合、小さな摂動がネットワーク内を伝播するにつれて大きくなる可能性があります。低い場合、摂動は減衰します。ガバナンス密度 D は、この伝播に適用される減衰を決定します。
3. 自己認識としてのガバナンスの密度
3.1 定義とプロパティ
本番環境でガバナンスの強度を監査可能にするために、各決定ステップで有限の候補セットにオブザーバブルを定義します。 ActionSpace<sub>t</sub><sup>K</sup> = {a<sub>t</sub><sup>(1)</sup>, ..., a<sub>t</sub><sup>(K)</sup>} をルーターによって生成された上位 K 候補アクションとします。 v<sub>t</sub><sup>(k)</sup> ∈ {0,1} が、候補 k が少なくとも 1 つのアクティブなゲート制約をトリガーするかどうかを示すものとします。ベースラインの制約付き候補の範囲は、D̂<sub>t</sub> = (1/K)Σ<sub>k=1..K</sub> v<sub>t</sub><sup>(k)</sup> です。これは潜在的なガバナンス密度 D<sub>t</sub> の観察可能なプロキシであり、ステップごとにログに記録されるため、運用環境でメタ認知表面が監査可能になります。
異種制約の負担を考慮するために、重み付きバリアント D̂<sub>t</sub><sup>(w)</sup> = (Σ<sub>k</sub> ω<sub>t</sub><sup>(k)</sup>v<sub>t</sub><sup>(k)</sup>) / (Σ<sub>k</sub>) を追加で定義します。 ω<sub>t</sub><sup>(k)</sup>)。ここで、ω<sub>t</sub><sup>(k)</sup> は、制約タイプの重み w(type<sub>k</sub>)、予想されるゲート レイテンシー、またはリスク層の重大度から構成できます。操作では、D̂<sub>t</sub> と D̂<sub>t</sub><sup>(w)</sup> の両方を記録します。型付きオブザーバブル D̂<sub>t</sub><sup>(c)</sup> は、より詳細な診断が必要な場合、制約ファミリー (承認、コンプライアンス、リスク、権限) によって追跡できます。減衰係数は、κ<sub>t</sub> = κ(D̂<sub>t</sub>)、または重み付き展開では κ(D̂<sub>t</sub><sup>(w)</sup>) として定義されます。
3.2 なぜ制約が自己観察と等しいのか
ガバナンス密度のメタ認知的解釈は構造的観察に基づいています。つまり、すべてのガバナンス制約は、組織の自己観察の必須ポイントを作成します。仕組みを考えてみましょう。承認ゲートでは、決定を実行する前に少なくとも 2 人のエージェントが決定を検討する必要があります。証拠要件により、代理人は根拠と予想される結果を文書化することが強制され、後で実際の結果と比較できる成果物が作成されます。リスクしきい値によってエスカレーションがトリガーされ、より高い権限を持つエージェントは、個々のエージェントが自動的に処理する可能性のある決定を検討する必要があります。コンプライアンスチェックでは、提案されたアクションを組織のポリシーと比較することが強制され、基本的に「このアクションは私たちが主張する自分たちと一致しているか?」と問われます。
これらのメカニズムはそれぞれ、メタ認知、つまり組織が独自の意思決定プロセスを検討する形式です。したがって、観測可能な D^ は、組織が実際に行おうとしていること、つまり時刻 t におけるルーターの実行可能候補セットに対するメタ認知の範囲を測定します。これは比喩ではなく、直接テレメトリとの正式な対応です。生物学的な用語では、D^ は組織体内の固有受容センサーの密度です。固有受容を持たない人間は、自分の体の状態を認識できないため、姿勢を維持したり、動きを調整したりすることができません。カバレッジがほぼゼロのAgentic Companyは、同じ理由で組織の一貫性を維持できません。
3.3 動的なガバナンスの密度
実際には、潜在ガバナンス密度 D は固定パラメータではなく、動的に調整される制御変数である必要があり、コントローラーは観測されたカバレッジ D^ をフィードバック信号として使用します。ターゲット カバレッジは、D̂<sub>target</sub> = crash(base + w<sub>1</sub> · λ<sub>max</sub>(W<sub>t</sub>) + w<sub>2</sub> · anomaly_rate + w<sub>3</sub> · C<sub>task</sub> − w<sub>4</sub> · B<sub>comm</sub>, 0.1, 0.9) として設定できます。影響マトリックスのスペクトル半径が増加する (エージェントの相互依存性が高まる) と、それを補うためにターゲット カバレッジが増加する必要があります。異常率が上昇した場合、自己観察を強化するために対象範囲を拡大する必要があります。タスクの複雑さが増すと、追加のリスクを管理するためにより多くのガバナンスが必要になります。通信帯域幅が広い場合 (エージェントが効果的に調整できる場合)、必要な正式なガバナンスはそれほど大きくありません。非公式の調整により、メタ認知的な範囲が提供されます。
4. 安定の法則
4.1 主定理
この論文の中心的な結果は、Agentic Companyの安定条件です。ここでは、導出を示す前に、2 レベルの形式でそれを述べます。 定理 (正確な局所収縮とバッファされた動作エンベロープ)。 W<sub>eff,t</sub> = (I − κ<sub>t</sub>I)W<sub>t</sub>、κ<sub>t</sub> = κ(D̂<sub>t</sub>) および κ:[0,1]→[0,1] 単調非減少とする。正確な局所収縮条件は λ<sub>max</sub>(W<sub>eff,t</sub>) < 1、つまりスカラー減衰下では (1 − κ<sub>t</sub>)λ<sub>max</sub>(W<sub>t</sub>) < 1 です。より厳密なバッファリングされた動作エンベロープは、 λ<sub>max</sub>(W<sub>t</sub>) < 1 − κ<sub>t</sub> です。正確な条件が当てはまる場合、エージェント間の影響の伝播は局所的に制限され、摂動は減衰します。バッファリングされたエンベロープも保持している場合、組織は脆弱性のギリギリで動作するのではなく、適応に余裕があること。
4.2 直感
安定性の法則は基本的なトレードオフを捉えています。エージェント会社のエージェントは、共有リソース、情報フロー、意思決定の依存関係を通じて相互に影響を与えます。これらの影響の連鎖が強すぎる場合 (エージェント A のアクションがエージェント B に強く影響し、その反応がエージェント C に強く影響するなど)、あらゆる摂動がネットワーク内をカスケードして際限なく増大する可能性があります。これはスペクトル半径効果です。 λ<sub>max</sub>(W) は、ステップごとの影響伝播の最悪の場合の増幅率を測定します。
ガバナンスの制約は、これらの影響力の連鎖を遮断します。エージェント A とエージェント B の間の承認ゲートは、A の B に対する影響が、伝播を抑制、方向転換、またはブロックする可能性のあるレビュー プロセスによって媒介されることを意味します。証拠要件により、開始エージェントはその行動を正当化することが強制され、自然なブレーキメカニズムが導入されます。観測可能なカバレッジは減衰マップ κ<sub>t</sub> に供給され、有効増幅は g<sub>t</sub> = (1 − κ<sub>t</sub>)λ<sub>max</sub>(W) になります。したがって、安定性ルールは透過的です。ガバナンスでは実効増幅を 1 未満に抑える必要があり、バッファリングされた動作では境界からさらに距離を置く必要があります。
4.3 導出スケッチ
状態発展方程式 S<sub>t+1</sub> = W<sub>eff,t</sub>S<sub>t</sub> + ε<sub>t</sub> (W<sub>eff,t</sub> = (I − κ<sub>t</sub>I)W<sub>t</sub>) を考えます。ここで、ε<sub>t</sub> は外因性摂動を表し、κ<sub>t</sub> はガバナンスを表します。観測されたカバレッジから推測される減衰係数。平衡からの期待偏差は、E[||S<sub>t+1</sub> − S||] ≤ λ<sub>max</sub>(W<sub>eff,t</sub>) · E[||S<sub>t</sub> − S||] + ||ε<sub>t</sub>|| として展開されます。縮小するには、 λ<sub>max</sub>(W<sub>eff,t</sub>) < 1 が必要です。スカラー減衰の下では、これは (1 − κ<sub>t</sub>)λ<sub>max</sub>(W<sub>t</sub>) < 1 になります。より厳密なバッファリングされたエンベロープ λ<sub>max</sub>(W<sub>t</sub>) < 1 − κ<sub>t</sub> は短縮には必要ありませんが、部分を識別します。使用可能なリザーブのある安定領域の。完全な証明には、W<sub>t</sub> と κ<sub>t</sub> の両方の時間変化する性質を処理する必要があります。これは、適度なパラメーター ドリフトの下で正確な収縮を示すリアプノフ引数を通じて対処します。
5. 役割特化のダイナミクス
5.1 ユーティリティ主導の役割の割り当て
エージェント会社では、役割はトップダウンで割り当てられるのではなく、ガバナンスの制約内で動作する個々のエージェントによる効用の最大化から生まれます。時刻 t+1 におけるエージェント i の役割は次のように決定されます: r<sub>i</sub>(t+1) = argmax<sub>r</sub> U<sub>i</sub>(r | C<sub>task</sub>, B<sub>comm</sub>, D<sub>t</sub>) ここで、U<sub>i</sub> は U<sub>i</sub> = α · Eff(r) として分解されるエージェントの効用関数です。 + β · 影響(r) − γ · コスト(r, D<sub>t</sub>)。ここで、Eff(r) はロール r におけるエージェントの効率 (その機能がロールの要件にどれだけ適合しているか) を測定し、Impact(r) はロールが与える組織への影響を測定し、Cost(r, D<sub>t</sub>) は制約コスト、つまりガバナンス要件がそのロールにおけるエージェントの自律性を制限する程度を測定します。
5.2 平衡解析
役割分布 p(r) = |{i : r<sub>i</sub> = r}| / |A|システムが収縮状態にある場合、定常分布に収束します。平衡状態では、どのエージェントも役割を一方的に変更することによってその有用性を向上させることはできません。これが標準的なナッシュ均衡状態です。この分布の形状は、タスクの複雑さ C<sub>task</sub>、通信帯域幅 B<sub>comm</sub>、ガバナンス密度 D の 3 つのパラメータに大きく依存します。タスクの複雑さが高いと専門化が促進されます (エージェントは狭い役割に集中する方が効率的であると感じます)。高い通信帯域幅により調整が可能になります (エージェントは他のエージェントと調整できるため、より幅広い役割を維持できます)。ガバナンスの密度が高いと、影響力の大きい役割が不利になります (組織への影響力が大きい役割ほど制約コストが高くなるため)。
5.3 組織の健全性としての役割エントロピー
役割エントロピー H(r) = −Σ<sub>r</sub> p(r) log p(r) は、組織の健全性の診断指標として機能します。エントロピーが非常に低いことは、極度の専門化を意味します。少数の役割が優勢で、ほとんどは空です。これは、ガバナンスが厳しすぎてエージェントが許容される最小限の行動に陥っている停滞体制を示しています。正の動作バッファを持つ中程度のエントロピーは、バッファされた特殊化、つまり望ましい領域を示します。摂動に対する感度が高い中程度のエントロピーは、脆弱な特殊化を示しています。まだ縮小していますが、余裕はありません。非常に高いエントロピーまたは持続的な振動は、ガバナンスが弱すぎて調整された特殊化を実現できないカスケード動作を示します。
6. 収束条件
6.1 正式な声明
エージェント会社は、lim<sub>t→∞</sub> E[||S<sub>t+1</sub> − S<sub>t</sub>||] = 0 のとき、安定した動作点に収束します。これには、次の 3 つの条件が同時に成立する必要があります: (1) ポリシー勾配が制限されている — エージェントのポリシー更新によってその動作に任意に大きな変更が生じることはありません。これは、ポリシーの更新がゲートされるゲート制約付き強化学習フレームワークによって保証されます: Π<sub>t+1</sub> = Π<sub>t</sub> + η · ∇J(Π<sub>t</sub>) はリスク階層化された承認の対象となります。 (2) ガバナンスの制約は安定しています。潜在密度 D<sub>t</sub> とその観測可能な範囲 D̂<sub>t</sub> は振動したり、際限なくドリフトしたりしません。これは、運動量項とレート リミッターを含む動的コントローラーによって保証されます。 (3) 異常検出は直ちに介入します。Doctor システムは、実効利益が得られる前に暴走エージェントを捕捉します。g<sub>t</sub> = (1 − κ<sub>t</sub>)λ<sub>max</sub>(W<sub>t</sub>) が正確な安定性境界を超えるか、動作バッファが消滅します。 0.85 のソフト スロットルは影響を軽減し、0.92 のハード フリーズは影響を完全に排除します。
6.2 収束の速度
収束率は実効ゲイン g<sub>t</sub> = (1 − κ<sub>t</sub>)λ<sub>max</sub>(W<sub>t</sub>) に依存します。正確な収縮マージン δ<sub>exact,t</sub> = 1 − g<sub>t</sub> とバッファリングされたオペレーティングマージン δ<sub>buffer,t</sub> = 1 − κ<sub>t</sub> − λ<sub>max</sub>(W<sub>t</sub>) を定義します。有限の地平線 [0, T] にわたって、δ<sub>exact,min</sub>(T) = inf<sub>0≤t≤T</sub> δ<sub>exact,t</sub> とします。正確なマージンが大きいほど、収束が速くなります。整定時間は、その水平線上で O(1/δ<sub>exact,min</sub>) としてスケールされます。緩衝マージンは運用予備力です。これがマイナスになっても、組織はまだ収束する可能性がありますが、摂動耐性が低い脆弱な体制で収束します。したがって、ガバナンスは、単に縮小を満足させるだけでなく、快適なプラスのバッファーを維持するように調整される必要があります。
7. MARIA OSの実装
7.1 アーキテクチャのマッピング
理論的なフレームワークは MARIA OS コンポーネントに直接マッピングされます。組織グラフ G は、意思決定グラフ (MARIA 座標系 (G.U.P.Z.A) でエンコードされたエージェント、チーム、部門のネットワーク) に対応します。潜在的なガバナンス密度 D は、ゲート エンジンの基礎となる制約構造に対応しますが、制約された候補のカバレッジ D^ は、ルーターおよびゲート テレメトリを通じて明らかにされます。報酬関数 R は証拠層、つまり意思決定の質に関するフィードバックを提供する証拠の束、監査証跡、および結果の測定に対応します。異常検出レイヤーは、Doctor システム、つまりエージェントの逸脱した動作を識別し、ループ ゲインと動作バッファの両方を監視する Isolation Forest + Autoencoder のデュアル検出メカニズムに対応します。
7.2 ゲート制約のあるポリシーの更新
MARIA OS は、リスク階層型ゲート システムを通じてゲート型強化学習を実装します。低リスクの決定 (リスク スコア ≤ 0.30、観察されたカバレッジ要件が低い) は自動的に実行され、エージェントが動作し、システムが結果を記録します。中リスクの決定 (リスク スコア ≤ 0.60、必要な範囲が中程度) にはエージェントのレビューが必要です。ピア エージェントは実行前に決定を検証します。高リスクの決定 (リスク スコア > 0.60、またはスペクトル半径または異常率の上昇) には人間の承認が必要です。人間の意思決定者がそのアクションをレビューして承認します。この階層構造により、ガバナンスの強度がリスク レベルに一致することが保証され、日常業務のスループットを維持しながら、最も重要な箇所に緻密なメタ認知カバレッジが提供されます。
7.3 メタ認知のセーフティネットとしての医師
Doctor システムは、組織のメタ認知の異常検出コンポーネントを実装します。そのデュアル アーキテクチャ — ツリーベースの異常検出のためのアイソレーション フォレストと再構成ベースの偏差測定のためのオートエンコーダー — により、離散的な動作異常 (決定パターンの突然の変化) と連続的なドリフト (通常の動作からの段階的な逸脱) の両方が確実に検出されます。複合異常スコア A<sub>combined</sub> = α · s(x) + (1−α) · σ(ε(x)) は、段階的に応答をトリガーします。0.85 未満では通常動作、0.85 ~ 0.92 ではソフト スロットル (自律性の 50% 低下)、0.92 を超えるとハード フリーズ (人間による強制的なレビューによる完全停止) になります。
8. 実験的検証
8.1 Planet-100 シミュレーション設計
Planet-100 シミュレーションを通じて理論的フレームワークを検証します。このシミュレーション環境では、111 のエージェント、10 の利用可能なロール、およびタスクの複雑さ C<sub>task</sub> ∈ [1, 10]、通信帯域幅 B<sub>comm</sub> ∈ {low、medium、high}、および潜在ガバナンス密度 D ∈ [0.1, 0.9] の調整可能なパラメーターを備えています。エージェントは、フラットな役割の割り当て、均一なポリシー、およびランダムなネットワーク接続を使用して初期化されます。シミュレーションは 1000 エポック実行され、役割エントロピー、階層の深さ、収束時間、異常率、報酬最大化率、および観察可能なカバレッジ プロキシ D̂ が観察されました。
この論文で報告する Planet-100 の検証では、ベースライン仕様として恒等減衰マップ κ(D) = D を使用します (共同推定ではありません)。ログからパラメトリック κ を学習することは、将来の作業に延期されます。
8.2 状態図の再現
シミュレーション結果は、予測された 4 つの体制構造を裏付けています。停滞段階 (D が高く、実効的な自律性が低い) では、役割のエントロピーは 50 エポック以内にゼロ近くに低下します。エージェントは最小限の安全な行動セットに崩壊し、意思決定のスループットは最大値の 15% に低下し、組織は事実上機能を停止します。カスケード フェーズ (低 D、高結合) では、実効ゲイン g<sub>t</sub> = (1 − κ<sub>t</sub>)λ<sub>max</sub>(W<sub>t</sub>) が 20 エポック以内に 1 を超え、システムは暴走エージェントによって分岐し、カスケード障害が発生します。バッファーされた特殊化フェーズ (通常、ベースライン κ(D)=D 仕様の下で D̂ ∈ [0.30, 0.55] のときに観察されます) では、役割エントロピーは中程度の値に収束し、 g<sub>t</sub> は 1 未満のままで、バッファーされたマージンは正のままです。これらの間には脆弱な専門化が存在します。システムは依然としては収縮しますが (g<sub>t</sub> < 1)、バッファーが使い果たされるため、収束が遅くなり、摂動感度が大幅に高まります。
8.3 安定性の法則の検証
さまざまなパラメーター構成で 500 回のシミュレーションを実行したところ、 g<sub>t</sub> = (1 − κ<sub>t</sub>)λ<sub>max</sub>(W<sub>t</sub>) < 1 の場合の実行の 97.2% が安定した平衡に収束し、g<sub>t</sub> ≥ 1 の場合の実行の 94.8% が発散的な挙動を示すことが観察されました。収束実行の中で、より厳密なバッファーエンベロープ λ<sub>max</sub>(W<sub>t</sub>) < 1 − κ<sub>t</sub> は、高スループットで摂動耐性のある特殊化を 96.8% の精度で分類します。残りの収束実行は、脆弱な特殊化領域にあります。これらの結果は、厳密な短縮テストとして g<sub>t</sub> < 1 を、より操作的な分類器としてバッファー境界を強力に経験的に裏付けています。
9. ディスカッション
9.1 相転移コントローラとしてのガバナンス
この研究の最も重要な概念的貢献は、オーバーヘッドから相転移コントローラーまでのガバナンスを再構築したことです。従来の企業の考え方では、ガバナンスはコストであると考えられています。あらゆる承認ゲートが意思決定を遅らせ、あらゆる証拠要件が作業を追加し、あらゆるコンプライアンスチェックが生産的なタスクから注意をそらします。私たちのフレームワークは、この見方が構造的に間違っていることを明らかにしています。ガバナンスは単にシステムの速度を低下させるだけではありません。システムがどのフェーズを占めるかを制御します。ガバナンスがなければ、影響力の伝播が際限なく広がるため、システムは必然的にカスケード動作に移行することになります。過剰なガバナンスではシステムは停滞してしまう。目標は、単なる縮小ではなく、緩衝された専門化であり、組織が正確な安定性の境界でバランスを取るのではなく、予備力で収束することです。
9.2 AI の安全性への影響
安定性の法則は、企業環境における AI の安全性に直接影響します。複数の自律エージェントを導入するシステムは、g<sub>t</sub> = (1 − κ<sub>t</sub>)λ<sub>max</sub>(W<sub>t</sub>) を監視および制御し、1 未満に保つ必要があります。これにより、ログから W<sub>t</sub> を推定し、そのスペクトル半径を計算し、Top-K ゲートの結果から D̂<sub>t</sub> を測定し、測定可能な具体的な安全基準が提供されます。結果として生じるゲインを継続的に監視します。 κ(D)=D の場合、λ<sub>max</sub>(W<sub>t</sub>) > 1 の場合、正確なしきい値は D<sub>t</sub> > 1 − 1/λ<sub>max</sub>(W<sub>t</sub>) になりますが、バッファリングされた操作ターゲットは D<sub>t</sub> > 1 − λ<sub>max</sub>(W<sub>t</sub>) となります。 Doctor システムはリアルタイム監視機能を提供し、ダイナミック コントローラーは自動修正メカニズムを提供します。一緒に、これらにより、外部の介入を必要とするのではなく、システムが安定性に向けて自己修正することが保証されます。
9.3 制限と今後の課題
いくつかの制限があることを認識しておいてください。影響行列 W<sub>t</sub> は、観察されたエージェント インタラクションから推定する必要があるため、測定誤差が生じます。安定性の法則は、影響マトリックスが収束ダイナミクスに比べてゆっくりと変化することを前提としていますが、組織再編中にはこれが当てはまらない可能性があります。相図は同種のエージェント集団を対象として作成されており、非常に異種のエージェント チームの場合は変更が必要になる場合があります。今後の研究では、データから κ を共同で学習し、文明拡張モデルで形式化された多層ガバナンス (企業 + 市場 + 規制) に理論を拡張する必要があります。
10. 結論
エージェントの企業ダイナミクスは、影響の伝播とガバナンスの密度を結合する安定性の法則に従います。正確な基準 (1 − κ<sub>t</sub>)λ<sub>max</sub>(W<sub>t</sub>) < 1 は収縮テストを提供しますが、より厳密なバッファリングされたエンベロープ λ<sub>max</sub>(W<sub>t</sub>) < 1 − κ<sub>t</sub> は、復元力のある特殊化のターゲット動作領域を特定します。ガバナンスの制約はオーバーヘッドではなく、組織自体を観察できるようにするメタ認知層です。 MARIA OS は、Decision Graph、Gate Engine、Evidence Layer、Doctor 異常検出システムを通じてこれらの条件を強制するための具体的なシステム アーキテクチャを提供します。緩衝された専門化は、留保のある適度なガバナンスのもとで意味のある役割の差別化が生まれるところであり、あらゆるエージェント企業の目標運用状態を表します。数学は明確です: 自己認識は自己組織化の代償です。
参考文献
1. Vaswani、A.、他。 (2017年)。必要なのは注意力だけです。 NeurIPS。
2. R.S.サットン& Barto、A.G. (2018)。 強化学習: 概要。 MITプレス。
3.ニューマン、M.E.J. (2010年)。 ネットワーク: 概要。オックスフォード大学出版局。
4. チャンドラ V.、バナジー A.、クマール V. (2009)。異常検出: 調査。 ACM コンピューティング調査、41(3)、1-58。
5. Hofbauer, J. & Sigmund, K. (1998)。 進化ゲームと人口動態。ケンブリッジ大学出版局。
6. バーンスタイン、D.S.、他。 (2002年)。マルコフ意思決定プロセスの分散制御の複雑さ。 オペレーションズリサーチの数学、27(4)、819-840。
7. リー、J.、他。 (2024年)。マルチエージェント強化学習: 理論とアルゴリズムの選択的な概要。 arXiv:1911.10635。
8. MARIA OS ドキュメント。 (2026年)。意思決定パイプラインのアーキテクチャ。 os.maria-code.ai/docs。