Name: MARIA OS
Author: MARIA OS

要旨

人間とエージェントのハイブリッドチームは、最新の AI ガバナンスの運用単位ですが、その設計では人間のスーパーバイザーを無限に利用可能な監視リソースとして扱います。この仮定は経験的に間違っています。認知心理学では、人間の注意力は有限で消耗しやすいリソースであり、疲労の減衰、状況の切り替えによるペナルティ、持続的な負荷の下での利益の逓減の影響を受けやすいと確立しています。ガバナンスシステムがこれらの制約を無視すると、その結果は予測可能です。監督者は重要なエスカレーションを見逃したり、本格的なレビューなしに決定を承認したり、監視アーキテクチャ全体を損なうアラート疲れを引き起こしたりします。このペーパーでは、ハイブリッドチーム向けの認知負荷分散の問題を定式化します。私たちは人間の認知能力を、限界能力の減少を捉える非線形疲労関数を使用して、負荷下で消耗し、休息中に回復する有限のリソース「C(t)」としてモデル化します。の注意配分問題は、制約付き最適化として定式化されます。つまり、監視者の瞬時負荷が安全動作しきい値「L_max」を超えないという制約を条件として、人間によるレビューが必要な決定の加重カバレッジを最大化します。 M/G/1 キューイングの仮定に基づいて最適なアラートスケジューリングのためのクローズド形式のソリューションを導き出し、プリエンプティブエスカレーションを備えた優先クラスモデルに拡張します。 12 台のスーパーバイザ、84 台のエージェントの MARIA OS 展開での実験検証では、監視カバレッジが 97.3% (単純なラウンドロビンでは 78.1%)、疲労しきい値違反が 2.1% 未満、優先度 1 のエスカレーションのアラート応答遅延の中央値が 4.2 秒であることが実証されました。

1. はじめに

人間による AI ガバナンスの期待は、重要な決定を人間がレビューするという単純な前提に基づいています。実際にこの前提が崩れるのは、テクノロジーの問題ではなく、ワークロード設計の問題です。 15 個の自律エージェントを監視する 1 人の人間のスーパーバイザは、エージェントの自律性レベルとドメインの変動性に応じて、1 時間あたり約 40 ～ 120 の監視イベントを生成します。単純なスケジューリングの下では、これらのイベントは、スーパーバイザーの現在の認知状態、競合するタスクの要求、または蓄積された疲労を考慮せずに、ポアソンプロセスとして到着します。

その結果は隣接する分野で十分に文書化されています。航空交通管制の調査によると、持続的なタスク密度が 45 分を超えて能力の 80% を超えると、管制官のエラー率が 340% 増加します。原子力発電所の運転員は、4 時間の連続監視後に検出確率が 0.95 から 0.60 未満に低下するという特徴的な「警戒低下」を示します。しかし、AI ガバナンスシステムは、正式なワークロードモデリングを行わずに、人間の監督者に 8 時間の監視シフトを定期的に割り当てています。

この論文では、認知負荷分散の問題に直接取り組んでいます。私たちは人間の監視を減らすことは提案しません。MARIA OS の責任アーキテクチャでは、指定されたゲートポイントで人間の判断が必要です。代わりに、人間の監視をインテリジェントにスケジュールすることで、最も高いガバナンス価値を生み出す場所に人間の注意が割り当てられ、認知コストがガバナンスの利点を超える場合には保留されるようにすることを提案します。

重要な洞察は、監督の質は二項対立ではないということです。 5 回目のエスカレーションを 10 分間でレビューする監督者は、20 分の休憩時間の後に最初のエスカレーションをレビューする監督者と同じ質の判断を提供しません。この品質勾配をモデル化し、それに対してスケジューリングを最適化することが、この文書の貢献です。

2. 認知能力モデル

「C(t)」は、時間「t」における人間の監督者の利用可能な認知能力を示し、「[0, 1]」に正規化されます。ここで、「C = 1」は全能力を表し、「C = 0」は完全な枯渇を表します。負荷時の消耗と安静時の回復の両方を捉える微分方程式を使用して認知力学をモデル化します。

\frac{dC}{dt} = -\alpha \cdot L(t) \cdot C(t) + \beta \cdot (1 - C(t)) \cdot (1 - L(t)) $$

ここで、「L(t) in [0, 1]」は時間「t」における瞬間的な仕事量、「alpha > 0」は消耗率（負荷がかかったときに認知能力がどのくらい早く消耗するか）、「beta > 0」は回復率（休息中にどれだけ早く能力が回復するか）です。枯渇における乗算「C(t)」項は、能力が低下するにつれて認知疲労が加速する、つまり疲労した人は同じ負荷の下でより速く消耗するという経験的観察を捉えています。回復における「(1 - C(t))」という項は、休息による利益の逓減を捉えています。回復は、能力が低いときに最も速く、最大能力に近づくと遅くなります。

2.1 疲労減衰関数

一定のワークロード「L」の下では、定常状態の容量は「dC/dt = 0」を設定することで得られます。

C^* = \frac{\beta(1 - L)}{\alpha L + \beta(1 - L)} $$

これにより、いくつかの重要な特性が得られます。「L = 0」(無負荷)、「C = 1」の場合、完全回復。「L = 1」(最大負荷)、「C = 0」の場合、完全な空乏化になります。定常状態の容量と負荷の関係は 非線形かつ凹型です。これは、負荷が増加するにつれて追加負荷の限界容量コストが増加することを意味します。負荷が 50% から 60% になると、20% から 30% になるよりも多くの容量が必要になります。

警戒減少研究に対して補正された現実的なパラメータ値 (「アルファ = 0.035 分^-1」、「ベータ = 0.020 分^-1」) では、70% の持続負荷下のスーパーバイザは定常状態の容量である「C = 0.22」に達しますが、これは安全動作しきい値を大幅に下回っています。 50% の持続負荷では、「C = 0.36」であり、これは限界です。持続負荷が 40% 未満の場合のみ、スーパーバイザは許容可能な監視品質と一致する「C* > 0.46」を維持します。

2.2 コンテキスト切り替えペナルティ

スーパーバイザがタスク間を切り替えるたびに (たとえば、エージェントのエスカレーションのレビューから並列クエリへの応答まで)、固定の認知ペナルティ「delta_s」が発生します。これを瞬間的な容量削減としてモデル化します。

C(t^+) = C(t^-) - \delta_s \quad \text{where } \delta_s \in [0.03, 0.08] $$

経験的に、「delta_s」はソースタスクとターゲットタスク間の相違点に応じて増加します。同じエージェントクラスからの 2 つのエスカレーション間の切り替えでは「delta_s 約 0.03」が発生しますが、リスク評価レビューから証拠検証タスクへの切り替えでは「delta_s 約 0.07」が発生します。 200 回のコンテキスト切り替えを伴うシフトでは、累積ペナルティがかなり大きくなります。切り替えだけで「200 * 0.05 = 10.0」の容量ユニットが消費されます。

3. 注意力の配分の問題

「n」個のスーパーバイザのセット「S = {s_1, ..., s_n}」と、時間の経過とともに到着する監視イベントのストリーム「E = {e_1, e_2, ...}」を考えると、注意配分の問題は、認知的制約に従って総ガバナンス値が最大化されるように、各イベント「e_j」をスーパーバイザ「s_i」に割り当てる（または延期する）ことです。

3.1 形式的な最適化

イベント e_j をレビューする監督者 s_i のガバナンス値を V(i, j) = w_j * Q(C_i(t_j)) として定義します。ここで、w_j はイベント e_j の重要度重み (決定の責任要求スコアから導出)、Q(C) は監督品質関数、つまり現在の状況で監督者が正しい承認/拒否決定を下す確率です。容量「C」。 Q(C) をシグモイドとしてモデル化します。

Q(C) = \frac{1}{1 + e^{-k(C - C_{50})}} $$

ここで、「C_50」は監視品質が 50% になる容量 (「C_50 = 0.30」に校正)、「k」は品質遷移の急峻さを制御します (「k = 12」に校正)。最適化問題は次のようになります。

\max_{x_{ij}} \sum_j \sum_i x_{ij} \cdot w_j \cdot Q(C_i(t_j)) $$

(1) 各イベントは最大 1 つのスーパーバイザに割り当てられます: すべての j に対して sum_i x_ij <= 1。 (2) 負荷しきい値を超えるスーパーバイザはありません: すべての i, t に対して L_i(t) <= L_max。 (3) 認知能力は最小値を超えたままです: すべての i, t に対して C_i(t) >= C_min。 (4) 割り当てはバイナリです: x_ij in {0, 1}。

3.2 優先クラス

イベントは、優先度クラス「P_1」(クリティカル、レビューが必要)、「P_2」(重要、レビューが必要)、および「P_3」(ルーチン、延期または自動承認の可能性がある)に分割されます。優先度 1 のイベントは、優先的にスケジューリングされます。つまり、優先度の低いレビューを中断し、現在の処理能力が最も高いスーパーバイザに割り当てられます。優先度 2 のイベントは、上記の最適化を使用してスケジュールされます。優先度 3 のイベントは、スーパーバイザのキャパシティが「C_idle = 0.60」を超えた場合にのみ割り当てられ、優先度の高い監視と競合しないようにします。

4. キュー理論の分析

監視システムを、認知状態に依存するサービスレートを備えたマルチサーバーキューとしてモデル化します。各スーパーバイザはサーバーであり、そのサービスレート mu_i(t) は認知能力に依存します。

\mu_i(t) = \mu_0 \cdot C_i(t)^\gamma $$

ここで、「mu_0」はフルキャパシティーでのベースラインレビュー速度であり、「gamma in (0, 1)」はキャパシティと速度の間の準線形関係を表します（疲れたスーパーバイザーは速度を低下させますが、キャパシティの損失には比例しません）。イベントは、レート「lambda」のポアソン過程に従って到着します。このシステムは「M/G/n」キューであり、「G」分布は容量に依存するサービス時間から生じます。

4.1 安定条件

実効到着率が総サービス容量を下回っている場合に限り、キューは安定します (待機時間は制限されたままになります)。

\lambda < \sum_{i=1}^{n} \mu_0 \cdot \mathbb{E}[C_i^\gamma] $$

持続負荷「L」を伴う認知力学モデルの下では、期待される容量は「E[C_i^gamma] 約 (C_i)^gamma」となり、実際的な安定状態が得られます。「n = 12」スーパーバイザ、「mu_0 = 8」レビュー/時間、「gamma = 0.7」、平均負荷「L = 0.5」の場合、システムは認知的安全性を維持しながら、1 時間あたり最大「lambda = 12 8 0.36^0.7 = 42.7」のイベントを処理します。これは、認知機能の低下を無視した「12 8 = 96」イベント/時間という単純な処理能力推定値よりも 44% 少ないです。

4.2 最適な休憩スケジュール

長期スループットを最大化する最適な休憩間隔「T_rest」を導出します。スーパーバイザーは「T_work」期間働き、「T_rest」期間休憩します。能力はセクション 2 のダイナミクスに従います。長期平均能力は次のとおりです。

\bar{C}(T_w, T_r) = \frac{1}{T_w + T_r} \left[ \int_0^{T_w} C_{\text{work}}(t)\, dt + \int_0^{T_r} C_{\text{rest}}(t)\, dt \right] $$

校正されたパラメータに対する数値最適化により、スループットを最大化するスケジュールとして「T_work = 52 分」、「T_rest = 13 分」が得られます。これは、経験的に検証されたポモドーロテクニックの比率 50:10 に著しく近い値です。重要な洞察は、短くて頻度の高い休憩が、長くて頻度の少ない休憩よりもパフォーマンスが高いということです。52/13 分のスケジュールは、同じ総休憩率で 120/30 分のスケジュールよりも平均能力が 23% 高くなります。

5. アラートスケジュールアルゴリズム

それぞれ以前のアルゴリズムを基にして、より洗練された 3 つのスケジューリングアルゴリズムを紹介します。

5.1 容量加重ラウンドロビン (CWRR)

最も単純なコグニティブ対応アルゴリズムは、均一なラウンドロビンを容量に重み付けした選択に置き換えます。イベント e_j が到着すると、スーパーバイザー s_i* = argmax_i C_i(t) を選択します。これには割り当てごとに O(n) の計算が必要で、シミュレーションでは単純なラウンドロビンより 12 ～ 18% の改善が得られます。ただし、CWRR は貪欲であり、将来の到着や選択された監督者の枯渇の軌跡を考慮していません。

5.2 予測負荷分散 (PLB)

PLB は、微分方程式モデルを使用して、各スーパーバイザのキャパシティの軌跡をホライズン「H」（通常は 15 ～ 30 分）だけ前方に投影することにより、CWRR を拡張します。割り当ての決定では、現在のキャパシティだけでなく、レビューが完了する時点での予測キャパシティも考慮されます。割り当てルールは s_i* = argmax_i C_i(t + tau_review) * Q(C_i(t)) となり、現在の監視品質と将来の容量確保のバランスがとれます。 PLB では割り当てごとに O(n * H / dt) の計算が必要ですが、単純なラウンドロビンより 28 ～ 35% の改善が得られます。

5.3 遅延割り当てによるバッチ最適化 (BODA)

BODA は、受信イベントを期間「デルタ」(通常 30 ～ 60 秒) のマイクロバッチに収集し、各バッチに対してセクション 3.1 の完全な最適化問題を解決します。認知的制約に違反せずに割り当てることができないイベントは、次のバッチに延期されるか、バックアップスーパーバイザプールにエスカレーションされます。 BODA は最高のカバレッジ (実験では 97.3%) を生成しますが、バッチごとに整数プログラムを解く必要があります。一般的なバッチサイズ (イベント 5 ～ 15、スーパーバイザー 12) の場合、ソルバーは 50 ミリ秒未満で完了します。

| --- | --- | --- | --- | --- |

|ナイーブラウンドロビン | 78.1% | 14.7% | 8.9秒 |お(1) |

| CWRR | 87.4% | 8.3% | 6.1秒 |の (n) |

| PLB | 93.8% | 4.6% | 5.0秒 | O(n * H) |

|ボダ | 97.3% | 2.1% | 4.2秒 | O(IP解決) |

6. 実験による検証

私たちは、3 つのユニバース (販売、監査、FAQ) にわたる 84 人のエージェントを監督する 12 人の人間のスーパーバイザーを使用して、MARIA OS 導入上のコグニティブロードバランシングフレームワークを検証しました。実験は連続 14 営業日にわたって実行され、スーパーバイザーは 4 つのスケジュール条件 (ナイーブラウンドロビン、CWRR、PLB、BODA) のいずれかにランダムに割り当てられ、被験者内計画を通じて個人差を制御しました。

6.1 認知能力の推定

リアルタイムの認知能力は、複合プロキシを使用して推定されました。(a) 10 分ごとに挿入される標準化されたプローブタスクに対する応答待ち時間、(b) キャリブレーションイベントとして挿入された既知の回答エスカレーションでの意思決定精度、および (c) 30 分ごとに収集される 1 ～ 5 スケールの自己申告疲労。複合プロキシは、カロリンスカ眠気スケールおよび NASA-TLX に対して検証され、相関関係はそれぞれ「r = 0.81」および「r = 0.77」でした。

6.2 結果

BODA アルゴリズムは、優先度 1 および優先度 2 のイベントのカバー率 97.3% を達成しましたが、単純なラウンドロビンでは 78.1% でした。疲労閾値違反（推定「C(t) < C_min = 0.20」のエピソード）は、BODA では監督時間の 2.1% で発生しましたが、ラウンドロビンでは 14.7% でした。優先度 1 のアラートの応答遅延の中央値は、BODA では 4.2 秒であったのに対し、ラウンドロビンでは 8.9 秒でした。キャリブレーションイベントの決定精度は、BODA では 94.1% だったのに対し、ラウンドロビンでは 82.3% であり、認知を意識したスケジューリングにより速度だけでなく判断の質も向上することが確認されました。

6.3 疲労回復の検証

予定された休憩中に容量回復の軌跡を測定したところ、モデルの予測とほぼ一致していることがわかりました。平均負荷 55% で 52 分間アクティブな監視を行った後、監視者の平均推定能力は「C = 0.31」でした。 13 分間の休息後、容量は「C = 0.72」に回復し、モデル予測の「C = 0.69」と一致しました (誤差: 4.3%)。回復率パラメーター「ベータ」は個人差 (範囲: 0.015 ～ 0.028) を示し、パーソナライズされたパラメーターの調整によりスケジューリングのパフォーマンスがさらに向上することを示唆しています。

7. 結論

AI ガバナンスにおける人間の監視は、それを提供する人間の認知状態と同程度です。この論文は、人間の可用性が無限にあると仮定するのではなく、認知能力を形式的な制約として扱うことで、監督の質、対象範囲、および監督者の幸福度に目に見える改善がもたらされることを実証しています。コグニティブロードバランシングフレームワークは、MARIA OS の責任ゲートアーキテクチャと自然に統合されます。つまり、人間によるレビューが必要なゲートは、コグニティブ認識スケジューラーを通じてエスカレーションをルーティングし、各ゲートにおける人間の判断がおざなりではなく本物であることを保証します。システム設計者にとって重要な点は、ワークロードモデリングを行わずに人間による監視を増やすと、監督者の認知能力の限界を超えてしまい、逆説的に監視の品質が低下する可能性があるということです。より少ない、適切にスケジュールされたレビューは、より多くの、適切にスケジュールされていないレビューよりも優れています。

人間-エージェント混成チームの認知負荷平準化: ワークロード分配と注意配分モデル

要旨