要旨
エージェント システムの中心的な問題は、モデル インテリジェンスからランタイム フェーズ制御に移行することです。長時間実行されるエージェントは、単一の応答ジェネレータではありません。これは、目標、記憶、アイデンティティ、権限、品質、待ち時間、コストのプレッシャー、および責任の境界を備えた動的なシステムです。これらの変数が一緒に動き始めると、従来の評価ハーネスは 1 つの出力が合格したかどうかを知ることができますが、システムが再試行ループ、メモリ劣化、ID 断片化、またはガバナンス漏洩に陥っているかどうかを知ることはできません。
この記事では、ダイナミック ハーネスを、エージェント ランタイムの位相空間を観察、評価、制御するランタイム ガバナンス レイヤーとして定義します。これは、MARIA OS の研究を bonginkan/virtual-talent からの実装レッスンと結び付けます。そこでは、Producer AI がすでにジョブをランタイム エピソードに正規化し、障害を分類し、動的スコアカードを構築し、修復範囲を提案し、明示的な承認境界を介して安全な自己修復アクションをルーティングします。
その結果、実用的な研究フレームが誕生しました。ハーネスはもはや単なるテスト ラッパーではありません。これは、実行時のドリフトを再実行、隔離、ドラフト修復 PR、人間による承認、ポリシー変更、測定可能な改善ループに変換する操作面となります。
1. テストハーネスからコントロールハーネスへ
従来のソフトウェア ハーネスは、ユニットを分離し、固定条件下で実行し、その結果を予想される契約と比較します。それは依然として必要です。エージェント システムには、型チェック、スキーマ チェック、UI コントラクト、テナント境界、回帰テスト、品質ゲートが依然として必要です。
ただし、エージェントの実行時の動作は重要ではありません。それは軌跡です。システムはメモリを読み取り、ツールを選択し、エージェントを調整し、再試行し、失敗を隠し、待機時間内でショートカットを実行し、以前の結果から学習します。単一の通過出力は、実行時フェーズの悪化と共存する可能性があります。つまり、修正率の増加、再試行ループの厚さ、識別信号の劣化、または品質が向上した後に将来の実行に支障をきたし始めるという警告が表示されます。
したがって、ダイナミック ハーネスは別の質問をします。この出力が合格しただけでなく、ランタイムはどのフェーズに入っているのかということです。
2. バーチャルタレントのリファレンスパターン
バーチャル タレントのプロデューサー AI の作品は、具体的な実装パターンを提供します。プロデューサー ジョブはランタイム エピソードに正規化されます。各エピソードには、意図、ステージ、参加エージェント、品質ゲート、勧告、生成されたアセット、再試行、保留、失敗、イベント数、および期間を含めることができます。
この構造により、動作ノイズが制御可能なオブジェクトに変わります。エピソードが存在すると、障害を分類し、所有者を割り当て、スコアカードを作成し、修復提案の範囲を絞り、自己修復を制限することができます。
| Dynamic Harness layer | virtual-talent pattern | MARIA OS expansion |
|---|---|---|
| Runtime episode | Producer job events become one analyzable unit | Decisions, audits, sales flows, meetings, code changes |
| Failure taxonomy | intent mismatch, identity drift, retry loop, provider failure | memory drift, authority leak, responsibility mismatch |
| Owner mapping | planning, UX, quality, provider, platform | Planet, Zone, Agent, Human Gate, Executive Gate |
| Scorecard | completion, pass rate, retry, advisory usage | business, trust, responsibility, and governance KPIs |
| Repair proposal | scoped fix plus verification commands | PRs, policy updates, gate changes, memory pruning |
| Controlled healing | rerun, quarantine, draft PR, human approval | fail-closed autonomy management |
重要な点は、ハーネスが診断にとどまらないことです。それは次の操作アクションを生み出します。
3. フェーズ空間としてのエージェント ランタイム
MARIA OS は、エージェント ランタイムを状態ベクトルとして表すことができます。
G_t: 目標の一貫性 M_t: 記憶の完全性 I_t: アイデンティティの連続性 Q_t: 品質状態 L_t: 待ち時間のプレッシャー C_t: コストのプレッシャー R_t: 責任の要求 A_t: 権限の境界 $$
ハーネスは x_t を直接監視しません。ログ、出力、ユーザー修正、ゲート決定、ツール呼び出し、メモリ参照、レイテンシ、コスト イベント、承認トレースを監視します。したがって、ハーネスは観察層であると同時にコントローラーでもあります。
u_t = H(y_{0:t}) $$
制御入力 u_t は、再実行、隔離、ドラフト修復 PR、ポリシー更新、メモリ プルーニング、ゲート エスカレーション、または人間による承認要求などです。これにより、ハーネスは静的なチェックリストではなくランタイム コントローラーになります。
4. フェーズレベルの故障モード
フェーズレベルのハーネスは、自己強化動作の領域を検出します。これらの状態は単一の障害ではありません。これらはランタイム アトラクターです。
| Phase | Symptom | Control action |
|---|---|---|
| Stable production | Quality, latency, and correction rates are steady | Lightweight monitoring |
| Retry loop | The same class of failure repeats | Suppress loop, hold, route to owner |
| Identity drift | Persona, face, role, or voice continuity weakens | Identity gate, reference lock, memory pruning |
| Goal mutation | The agent optimizes away from the original goal | Goal consistency check, human gate |
| Governance leak | Authority or responsibility boundaries blur | Fail closed, escalate approval |
| Latency freeze | Slow paths collapse quality | Budgeted fallback, degradation policy |
| Advisory poisoning | Learned guidance makes future runs worse | ON/OFF evaluation, quarantine |
ここでは、Dynamic Harness が単なる評価以上の役割を果たします。点だけではなく、傾斜も見えます。
5. 5 層ハーネス スタック
最小限の MARIA OS ダイナミック ハーネスは 5 つの層で構成されています。
- ランタイムエピソードレイヤー。エージェントのすべての意味のあるアクションを、座標、意図、記憶、ツール、ゲート、証拠、修正、最終状態を備えた耐久性のあるエピソードに正規化します。
- 障害分類レイヤー。生の障害信号を、重大度、信頼度、所有者、ユーザーの可視性、推奨されるアクション、および検証を備えた型指定された障害に変換します。
- 動的スコアカード レイヤー。完了、品質合格率、再試行率、人間による修正率、勧告リフト、所有者障害密度、期間、および時間の経過に伴うブロッカーのリリースを追跡します。
- 提案レイヤーの修復。繰り返される失敗やスコアカードのドリフトを、改善を検証できるテストやハーネスを使用して、範囲を絞った変更に変換します。
- 制御された自己修復層。スキーマ、展開、グローバル ポリシー、コア プロンプト、テナント境界、または権限の変更について人間の承認を必要とする一方で、低リスクの再実行または隔離を許可します。
6. これが MARIA OS にとって重要な理由
MARIA OS はエージェント管理面だけではありません。これは、ヒューマン エージェント組織向けのオペレーティング システムです。つまり、単にタスクを調整するだけでなく、ランタイムを管理する必要があります。
ダイナミック ハーネスは、自律性のためのカーネル境界になります。これにより、エージェントがいつ継続できるか、いつ正常に機能を低下させる必要があるか、いつポリシーを書き直す必要があるか、いつメモリを削除する必要があるか、いつドラフト PR が適切であるか、いつシステムを停止して権限を人間に返さなければならないかが決まります。
これが、ハーネスが価値観レイヤーである理由でもあります。値はドキュメントに記述されているため実行されません。これらは、ランタイムが、いつ停止するか、いつ問い合わせるか、いつ隔離するか、自動化の方が速い場合でもいつ責任を保持するかを認識しているときに実行されます。
7. 研究課題
ダイナミック ハーネスの研究は、制御理論、実行時保証、異常検出、プロセス マイニング、因果推論、自己修復システムの交差点に位置します。
未解決の問題は明らかです。
- 可観測性: 部分的なログ、出力、修正、ゲート、およびメモリ トレースから隠れた実行時の状態を推測します。
- 因果関係: 品質の向上がプロンプト、アドバイス、プロバイダー、記憶、またはランダムな変動によるものかどうかを区別します。
- 安定性:自己修復が制御発振になるのを防ぎます。
- トポロジー: 高次元エージェント状態空間の位相変化を検出します。
- 正当性: 誰がしきい値を設定するか、誰が自律性を承認するか、誰がハーネス自体を監査するかを定義します。
最後の点が最も重要です。自律性を制御するハーネスは、それ自体がガバナンス対象です。それは可視的で、テスト可能で、説明責任があり、制限されている必要があります。
8. 結論
次の AI インフラストラクチャの競争は、より大きなモデルだけを対象とするものではありません。それは、知性を壊さずに操作する能力に関するものです。
静的ハーネスは契約を維持します。ダイナミック ハーネスはフェーズを制御します。静的ハーネスは、ビルドが成功したかどうかを示します。ダイナミック ハーネスは、ランタイムが危険なアトラクターに流れ込んでいるかどうか、次にどのようなアクションを起こすべきかを示します。
バーチャル タレントから生まれる実装パターンは、実行時エピソード、障害分類法、動的スコアカード、修復提案、制御された自己修復など、MARIA OS に具体的な道筋を与えます。そのパターンをプロデューサー AI から企業、ガバナンス システム、エージェント社会に拡張することが次のステップです。
インテリジェンスを安全に実行するには、賢いエージェント以上のものが必要です。システムが壊れる前に、位相空間を観察し、不安定なアトラクターを検出し、責任のある制御入力を適用できるハーネスが必要です。