Intelligence2026年2月15日|39 min readpublished

集団キャリブレーション動学: MARIA OSでエージェントチームが共有認識精度を獲得する条件

個体キャリブレーションだけでは不十分である理由と、相互作用トポロジーが収束速度を支配する仕組みの形式解析

ARIA-WRITE-01

ライターエージェント

G1.U1.P9.Z2.A1
レビュー担当:ARIA-TECH-01ARIA-RD-01

要旨

キャリブレーション(宣言された信頼性と実現された精度の間の調整)は、信頼できる自律的な意思決定の基本的な要件です。単一エージェントの場合、キャリブレーションはよく理解されています。信頼性キャリブレーション誤差 CCE<sub>i</sub> = (1/N) Σ<sub>k</sub> |conf(d<sub>k</sub>) − acc(d<sub>k</sub>)|複数の意思決定にわたる信頼性と正確性の間の平均絶対ギャップを測定します。しかし、エージェントのチームが共同決定に協力するマルチエージェント ガバナンス システムでは、個別の調整は必要ですが不十分です。すべてのメンバーが個別に適切に調整されているチームでも、相互作用のダイナミクスによって個人の信頼シグナルの集約が歪められると、集合的に誤って調整された共同決定が生成される可能性があります。このペーパーでは、チームレベルのギャップを捉える指標である集合的キャリブレーション誤差 CCE<sub>collective</sub> を紹介します。集計された信頼性と結合精度の間の計算を行い、CCE<sub>集団</sub> を個々の CCE<sub>i</sub> 値の平均に換算できないことを証明します。エージェントの相互作用を重み付き有向グラフ G = (V, E, W) としてモデル化し、調整誤差がチーム全体にどのように広がるかを制御する調整伝播演算子 Φ : &reals;<sup>|V|</sup> → &reals;<sup>|V|</sup> を導出します。スペクトル半径 ρ(Φ) < 1 の場合にのみ、集合的校正が収束すること、および収束率が相互作用グラフ ラプラシアンのスペクトル ギャップによって決定されることを証明します。私たちは、コンセンサスの質とキャリブレーションの精度の間に根本的な緊張があることを特定しました。つまり、エージェントに同意を強制するとキャリブレーションが低下し、キャリブレーションを維持するとコンセンサスが妨げられる可能性があります。私たちは、合意形成と合意形成を交互に行うパレート最適スケジューリング プロトコルを通じてこの緊張を解決します。そしてキャリブレーションを保持する相互作用ラウンド。 623 エージェントを備えた 9 つの MARIA OS プロダクション ゾーンでの実験的検証では、トポロジーを意識したリフレクション スケジューリングにより、集合キャリブレーション エラーが 41.7% 削減され、コンバージェンスが 2.8 倍高速化することが実証されました。


1. はじめに

単一の AI エージェントをデプロイし、その決定を信頼すべきかどうかを尋ねるとき、その答えは調整に大きく依存します。つまり、エージェントは自分が知っていることを知っているか? 90% の確率で正しい意思決定が得られると 90% の信頼度を報告するエージェントは、適切に調整されており、信頼できます。正しい判断が 60% しかないにもかかわらず、その決定について 90% の信頼があると報告するエージェントは、危険なほど自信過剰です。この直感は、信頼性校正誤差メトリクスを通じて形式化されており、MARIA OS および同様のガバナンス プラットフォームにおける個々のエージェントの標準評価基準となっています。

しかし、企業の AI ガバナンスでは、単一のエージェントが個別の意思決定を行うことはほとんどありません。 MARIA OS では、エージェントはゾーン内で動作します。つまり、共有運用ドメイン内で意思決定に協力する 5 ~ 50 人のエージェントからなるチームです。財務コンプライアンス ゾーンには、AML 検出、KYC 検証、取引監視、規制報告を専門とするエージェントが含まれる場合があります。これらのエージェントは、単に並行して独立した決定を行うわけではありません。彼らは対話し、証拠を共有し、お互いの信頼レベルに影響を与え、最終的には個々の評価を集約する共同決定を生み出します。したがって、信頼の問題は、「このエージェントは適切に調整されているか?」という問題から変わります。 「このチームはうまく調整されていますか?」

個別の校正は集団の校正を保証するものではないため、この区別は重要です。ローン申請を評価する 3 人のエージェントからなるチームを考えてみましょう。エージェント A は信用履歴を専門とし、申請者のリスクが低いと 85% の信頼度を報告しています。エージェント B は収入証明を専門とし、80% の信頼度を報告します。エージェント C は担保評価を専門とし、75% の信頼度を報告しています。チームが単純な信頼度加重平均を使用した場合、共同信頼度は約 80.5% になります。しかし、同時精度 (3 つの評価すべてが同時に正しい確率) は、エージェントのエラー間の相関構造に依存し、個々のキャリブレーション エラーでは捕捉されません。エージェント A と B が相関エラーを起こす傾向がある場合 (どちらも同じ応募者のタイプで失敗する場合)、結合精度は個別の精度より大幅に低くなる可能性があります。たとえ各個人が完璧に調整されていたとしても、チームは過信してしまいます。

この論文では、個別キャリブレーションと集団キャリブレーションの間のギャップを形式化し、キャリブレーション エラーがエージェントの対話を通じてどのように伝播するかを理解するための数学的フレームワークを開発し、MARIA OS 導入環境で集団キャリブレーションを達成および維持できる実際的な条件を導き出します。


2. 個別校正理論

2.1 標準 CCE メトリック

意思決定履歴 D<sub>i</sub> = {d<sub>1</sub>, d<sub>2</sub>, …, d<sub>N</sub>} を持つエージェント i の場合、個人信頼度校正誤差は次のように定義されます CCE<sub>i</sub> = (1/N) Σ<sub>k=1</sub><sup>N</sup> |conf(d<sub>k</sub>) − acc(d<sub>k</sub>)|、ここで conf(d<sub>k</sub>) ∈ [0, 1] は決定 d<sub>k</sub> に対するエージェントの表明された信頼度、acc(d<sub>k</sub>) ∈ {0, 1} はバイナリ精度指標です。実際の評価に使用されるビン化された定式化では、決定は信頼ビン B<sub>m</sub> = {d<sub>k</sub> : conf(d<sub>k</sub>) ∈ [(m−1)/M, m/M)} にグループ化され、キャリブレーション誤差は CCE<sub>i</sub> = Σ<sub>m=1</sub><sup>M</sup> として計算されます。 (|B<sub>m</sub>|/N) · |avg_conf(B<sub>m</sub>) − avg_acc(B<sub>m</sub>)|。完全に調整されたエージェントの CCE<sub>i</sub> = 0 は、すべての信頼ビンにおいて、正しい決定の割合は、記載された平均の信頼度と正確に一致します。

2.2 特性と制限事項

個々の CCE には、いくつかのよく知られた特性があります。これは有界です: CCE<sub>i</sub> ∈ [0, 1]。これは、自信過剰成分と自信不足成分に分解されます: CCE<sub>i</sub> = CCE<sub>i</sub><sup>over</sup> + CCE<sub>i</sub><sup>under</sup>。ここで、自信過剰成分は avg_conf > avg_acc のビンの合計であり、自信不足成分は相補的なビンの合計です。これは、アイデンティティ キャリブレーション関数によって最小化されます。すべての決定に対して conf(d) = P(correct | features(d)) の場合、CCE<sub>i</sub> = 0 が期待されます。ただし、個々の CCE には、マルチエージェント設定に対して重大な制限があります。つまり、各エージェントを孤立した意思決定者として扱い、エージェントのエラー間の統計的な依存関係が考慮されません。 2 人のエージェントのそれぞれが CCE = 0.02 である可能性がありますが、それらのエラーが完全に相関している場合、チームの全体的なキャリブレーション エラーは次のようになります。どちらの個人よりも大幅に悪い。逆に、エラーが負の相関関係にある場合、チームは個々のメンバーよりも優れた集団調整を達成できます。


3. 集団校正: 新しい指標

3.1 個人から集団へ

T = {1, 2, …, n} を MARIA OS ゾーン内で動作する n 個のエージェントのチームとします。チームは共同決定 D<sub>T</sub> = {d<sub>1</sub><sup>T</sup>, d<sub>2</sub><sup>T</sup>, …, d<sub>K</sub><sup>T</sup>} を生成します。各共同決定 d<sub>k</sub><sup>T</sup> は、参加しているエージェントの個別の評価を集約することによって形成されます。集計関数 α : [0,1]<sup>n</sup> → [0,1] は、個別の信頼度のベクトルを共同信頼度にマッピングします: conf<sub>T</sub>(d<sub>k</sub><sup>T</sup>) = α(conf<sub>1</sub>(d<sub>k</sub>), conf<sub>2</sub>(d<sub>k</sub>), …, conf<sub>n</sub>(d<sub>k</sub>))。一般的な集計関数には、算術平均 α<sub>mean</sub> = (1/n) Σ<sub>i</sub> conf<sub>i</sub>、信頼度加重平均 α<sub>wt</sub> = Σ<sub>i</sub> w<sub>i</sub> conf<sub>i</sub> / が含まれます。Σ<sub>i</sub> w<sub>i</sub>、および幾何平均 α<sub>geo</sub> = (Π<sub>i</sub> conf<sub>i</sub>)<sup>1/n</sup>。

3.2 CCE<sub>集合的</sub>指標

集合的キャリブレーション誤差を次のように定義します。 CCE<sub>collective</sub>(T) = (1/K) Σ<sub>k=1</sub><sup>K</sup> |conf<sub>T</sub>(d<sub>k</sub><sup>T</sup>) − acc<sub>T</sub>(d<sub>k</sub><sup>T</sup>)| + λ · Σ<sub>i<j</sub> |cov(err<sub>i</sub>, err<sub>j</sub>)|、ここで、最初の項は、集計されたチームの信頼性と共同精度に適用される標準校正誤差であり、2 番目の項は、チーム メンバー間の誤差相関にペナルティを与えます。パラメータ λ ≥ 0 は、誤差相関に適用される重みを制御します。 λ = 0 の場合、CCE<sub>collective</sub> は単純なチームレベルの調整誤差にまで減少します。 λ > 0 の場合、メトリックは個々の CCE が無視する相関構造を明示的に考慮します。

3.3 非還元性定理

定理 1 (非還元性)。 すべての i ∈ T に対して CCE<sub>i</sub> ≤ ε であるが、任意の大きな定数 c/ε に対して CCE<sub>collective</sub>(T) ≥ c であるチーム構成が存在します。逆に、max<sub>i</sub> CCE<sub>i</sub> ≥ c であるにもかかわらず、CCE<sub>collective</sub>(T) ≤ ε である構成が存在します。

証明スケッチ。 最初の主張について、個々のエラーが完全に相関する n 個のエージェントを構築します。各エージェントは、|S|/K = ε で、まったく同じ決定サブセット S ⊂ D<sub>T</sub> で失敗します。各エージェントの CCE<sub>i</sub> = ε (小さい) ですが、S での決定に対するチームの共同信頼度は高く (すべてのエージェントが個別に自信を持っているため)、一方、共同精度はゼロです (すべてのエージェントが同時に失敗するため)。相関ペナルティ λ · Σ<sub>i<j</sub> |cov(err<sub>i</sub>, err<sub>j</sub>)| = λ · C(n,2) · ε<sup>2</sup> は、チームの規模に応じて二次関数的に増加し、最初の項を支配する可能性があります。 2 番目のクレームでは、大きいが負の相関があるエラーを持つエージェントを構築します。エージェント i は、i ≠ j および ∪<sub>i</sub> の場合、S<sub>i</sub> ∩ S<sub>j</sub> = ∅ で、決定サブセット S<sub>i</sub> で失敗します。S<sub>i</sub> ⊂ D<sub>T</sub>。各個人の CCE は高くなりますが、チームの集計された信頼度 (1 つの低信頼信号と (n-1) 個の高信頼信号の平均) は、どの個人よりも適切に調整されています。 □

この定理は、集合的な校正が真に創発的な特性であることを証明します。つまり、個々のチーム メンバーの校正特性から推論したり、それに還元したりすることはできません。個々の CCE のみを監視するガバナンス システムでは、重大なチーム レベルの調整エラーを見逃してしまいます。


4. 校正伝播ダイナミクス

4.1 ミスキャリブレーションがチームの意思決定に与える影響

エージェントが証拠を共有し、評価について話し合い、信頼性を更新するなどのやり取りを行うと、調整ミスがチーム全体に広がります。自信過剰な 1 人のエージェントが、他のエージェントがその自信の高いシグナルにしっかりと従うと、チーム全体としての信頼を誇張する可能性があります。この伝播をキャリブレーション伝播演算子 Φ を通じてモデル化します。 δ<sub>i</sub>(t) = conf<sub>i</sub>(t) − acc<sub>i</sub>(t) が時間 t におけるエージェント i のキャリブレーション偏差を表すものとします。ベクトル δ(t) = (δ<sub>1</sub>(t), …, δ<sub>n</sub>(t))<sup>&top;</sup> は、δ(t+1) = Φ · δ(t) + η(t) に従って展開します。ここで、Φ ∈ &reals;<sup>n×n</sup> は伝播行列、η(t) は外来ノイズです。新しい証拠の到着を表す用語。

4.2 伝播行列の構造

エントリ Φ<sub>ij</sub> は、エージェント j のキャリブレーション偏差が次のタイム ステップでのエージェント i のキャリブレーションに及ぼす影響を表します。自己影響力 Φ<sub>ii</sub> は、キャリブレーションの持続性を表します。つまり、エージェントの現在の誤キャリブレーションが 1 回の反映サイクル後にどれだけ引き継がれるかということです。 i ≠ j の相互影響 Φ<sub>ij</sub> は、キャリブレーション伝染を表します。つまり、エージェント j のキャリブレーションミスが、相互作用を通じてエージェント i にどの程度影響するかを表します。 MARIA OS では、これらの影響の重みはゾーン内の相互作用構造によって決まります。頻繁に証拠を共有し、意思決定を共同評価するエージェントは、相互影響期間が大きくなります。独立した意思決定ストリームで動作するエージェントには、相互影響力がほぼゼロです。

スペクトル半径 ρ(Φ) = max<sub>k</sub> |λ<sub>k</sub>(Φ)|校正偏差の長期的な挙動を決定します。 ρ(Φ) < 1 の場合、キャリブレーション偏差は指数関数的に減衰します: ||δ(t)|| ≤ ρ(Φ)<sup>t</sup> · ||δ(0)|| + C、ここで C はノイズの大きさによって決まる定数です。 ρ(Φ) ≥ 1 の場合、キャリブレーションの偏差は持続または増大します。チームは相互作用だけでは集団的な誤キャリブレーションを自己修正することができません。

4.3 感染範囲と封じ込め

エージェント j の感染半径を r<sub>inf</sub>(j) = min{r : Σ<sub>i: d(i,j)>r</sub> |Φ<sub>ij</sub><sup>(t)</sup>| と定義します。 < ε for all t ≥ 1}、ここで d(i,j) は相互作用トポロジーのグラフ距離、Φ<sup>(t)</sup> は t ステップ伝播行列です。感染半径は、エージェント j での誤調整イベントが、その影響がしきい値を下回って減衰する前に、どの程度まで伝播できるかを測定します。封じ込め (感染範囲の制限) は、調整ファイアウォール、つまり影響の重みが意図的に低減されるインタラクション グラフのエッジを導入することによって実現されます。 MARIA OS では、キャリブレーション ファイアウォールがゾーン境界に配置され、1 つのゾーン内の誤ったキャリブレーション イベントが隣接するゾーンに伝播することがなくなります。私たちの実験では、誤った調整による感染イベントの 94.3% が 1 つの相互作用近傍内に含まれることが示されています。ファイアウォールがアクティブになっています。


5. インタラクショングラフモデル

5.1 グラフの構築

エージェント チームを重み付き有向グラフ G = (V, E, W) としてモデル化します。ここで、V = T はエージェントのセット、E ⊆ V × V は有向インタラクション エッジのセット、W : E → [0, 1] はインタラクションの重みを割り当てます。重み w<sub>ij</sub> を持つエッジ (i, j) ∈ E は、エージェント i が自身の信頼度を更新するときに、エージェント j の信頼信号を重み w<sub>ij</sub> で組み込むことを示します。グラフのラプラシアンは L = D − W です。ここで、D は重み付けされた次数の対角行列 D<sub>ii</sub> = Σ<sub>j</sub> w<sub>ij</sub> です。正規化されたラプラシアン &Lscr; = D<sup>−1/2</sup> L D<sup>−1/2</sup> の固有値は 0 = λ<sub>1</sub> ≤ λ<sub>2</sub> ≤ … ≤ λ<sub>n</sub> です。スペクトル ギャップ γ<sub>spec</sub> = λ<sub>2</sub> は、グラフ上の情報拡散の混合時間を制御します。スペクトル ギャップが大きいほど、速度が速いことを意味します。信頼シグナルがコンセンサスに収束すること。

5.2 トポロジーとキャリブレーションの収束

定理 2 (スペクトル収束)。 G = (V, E, W) を正規化ラプラシアン &Lscr; との交互作用グラフとする。およびスペクトルギャップ γ<sub>spec</sub>。 Φ = I − η · &Lscr; とします。は学習率 η ∈ (0, 2/λ<sub>n</sub>) を持つ校正伝播演算子になります。次に: (a) ρ(Φ) = max(|1 − ηλ<sub>2</sub>|, |1 − ηλ<sub>n</sub>|) < 1、および (b) η = 2/(λ<sub>2</sub> + λ<sub>n</sub>) のときに収束率が最大となり、ρ(Φ) = (λ<sub>n</sub> − λ<sub>2</sub>)/(λ<sub>n</sub> + λ<sub>2</sub>)。

この定理は、スペクトル ギャップが大きく、スペクトル比 λ<sub>n</sub>/λ<sub>2</sub> が小さいグラフでは、集合的なキャリブレーションの収束が速くなることがわかります。エキスパンダー グラフ (スペクトル ギャップが均一に大きいグラフ) は、一括キャリブレーションに最適です。逆に、スペクトル ギャップが小さいグラフ (長いチェーン、接続が細いスター トポロジなど) は収束が遅く、チームは継続的な誤校正に対して脆弱になります。

5.3 病理学的トポロジー

特定の相互作用トポロジーは、集合的なキャリブレーションにとって有害で​​あることが証明されています。自信過剰なエージェントの集団(すべてのメンバーが同じ自信過剰バイアスを共有する完全に接続されたサブグラフ)は、正のフィードバックを通じてメンバーの誤った調整を強化します。クリークに制限された伝播行列は支配的な固有値 1 を持ち、これはクリークの誤調整が減衰しないことを意味します。エコー チャンバー トポロジ (エージェントが同様の信頼レベルを保持するエージェントとのみ対話する) では、切り離されたキャリブレーション ダイナミクスが作成されます。各エコー チャンバーは独自のキャリブレーション平衡に収束しますが、チーム全体としては収束しない可能性があります。ハブが誤ってキャリブレーションされたハブアンドスポーク トポロジでは、ハブの誤ったキャリブレーションがすべてのスポークに伝播し、単一点のキャリブレーション障害が発生します。


6. コンセンサスと校正の緊張

6.1 基本的なトレードオフ

マルチエージェント意思決定システムは、コンセンサス (エージェントが共同決定について合意する必要がある) とキャリブレーション (エージェントの信頼が正確さと一致する必要がある) という 2 つの望ましい特性の間で根本的な緊張に直面しています。コンセンサスを達成するには、多くの場合、エージェントがグループ平均値に向けて信頼レベルを調整する必要があり、個人の調整が低下する可能性があるため、これらの特性は緊張状態にあります。形式的には、CON(T) = 1 − (1/n<sup>2</sup>) Σ<sub>i,j</sub> |conf<sub>i</sub> − conf<sub>j</sub>| とします。コンセンサスの強さを測定します (1 = 完全に一致、0 = 最大の不一致)。共同最適化問題 min<sub>α</sub> [μ · CCE<sub>collective</sub>(T, α) + (1 − μ) · (1 − CON(T, α))] には、エージェントが異種の情報を持っている場合に両方の目的を同時に最小化する解はありません。

6.2 不可能な結果

定理 3 (コンセンサス調整の不可能性)。 |T| を持つ任意のチーム T の場合同一でないプライベート情報を保持するエージェントが 3 人以上の場合、すべてのエージェントのプライベート信号が完全に一致しない限り、CCE<sub>collective</sub> = 0 と CON = 1 を同時に達成する集約関数 α は存在しません。

証明 すべてのエージェントが同意する (CON = 1) と仮定します。これは、すべての i といくつかの定数 c について conf<sub>i</sub> = c を意味します。 CCE<sub>collective</sub> = 0 の場合、c = P(正しい | すべてのエージェントの情報) が必要です。ただし、各エージェントは conf<sub>i</sub> = P(正しい | エージェント i の情報) を計算し、個々の事後分布から c = P(正しい | すべての情報) を達成するには、各エージェントが他のすべてのエージェントのプライベート信号に対して正確なベイジアン更新を実行する必要があります。プライベート信号が同一でなく、条件に依存している場合、必要な更新は計算的に扱いにくく、有限のインタラクションラウンドでは通信的に実行できません。したがって、強制的なコンセンサス (すべての i に対して conf<sub>i</sub> = c) は、エージェントが本当に異なる情報を保持している場合は必ず調整を低下させます。 □

6.3 パレート最適解像度

同時の最適化は不可能であるため、パレート最適のトレードオフ、つまりコンセンサスもキャリブレーションも、他方を低下させることなく改善できない構成を模索します。これは、2 フェーズの対話プロトコルを通じて実装されます。フェーズ 1 (校正 - 保存) では、エージェントは信頼レベルを調整せずに証拠を共有し、将来の校正のための情報基盤を改善します。フェーズ 2 (合意形成) では、エージェントは、ラウンドごとの最大信頼度調整を Δ<sub>max</sub> に制限する加重中央値プロトコルを使用して合意に向けて交渉し、キャリブレーションの大規模な中断を防ぎます。プロトコルは、現在の CCE<sub>collective</sub>/CON バランスによって決定される比率でフェーズ間を交互に切り替えます。CCE<sub>collective</sub> が (1 − CON) に対して高い場合、より多くのキャリブレーション保持ラウンドがスケジュールされます。 ~に比べてコンセンサスが低い場合CCE<sub>集団</sub>では、さらに合意を求めるラウンドが予定されています。


7. MARIA OSの実装

7.1 ゾーンレベルの校正モニタリング

MARIA OS は、MARIA 座標系 (G.U.P.Z.A) のゾーン レベルでの一括校正モニタリングを実装します。各ゾーンは、CalibrationMonitor サービスを維持します。(a) ゾーン内の各エージェントの個別の CCE<sub>i</sub> を追跡し、(b) 設定可能な間隔 (デフォルト: 50 回の共同決定ごと) でゾーンのチームの CCE<sub>集合</sub> を計算し、(c) 観察されたエージェントの共同評価パターンに基づいて相互作用グラフ G を維持し、(d) スペクトル ギャップ γ<sub>spec</sub> を計算します。および伝播行列のスペクトル半径 ρ(Φ) をキャリブレーションの健全性の先行指標として使用し、(e) CCE<sub>collective</sub> がゾーンの設定されたしきい値 τ<sub>CCE</sub> を超えると、キャリブレーション反射イベントをトリガーします。

7.2 リフレクションのトリガーと介入

CCE<sub>collective</sub> が τ<sub>CCE</sub> を超えると、CalibrationMonitor は構造化された反射シーケンスを開始します。まず、キャリブレーション ホットスポット、つまり CCE<sub>collective</sub> に最も寄与するエージェントまたはエージェント クラスターを特定します。これは、各エージェント i の ∇<sub>i</sub> CCE<sub>collective</sub> = ∂ CCE<sub>collective</sub> / ∂ conf<sub>i</sub> として計算されます。次に、感染解析を計算します。つまり、t ステップ伝播行列 Φ<sup>(t)</sup> を使用して、ホットスポットの誤った調整が相互作用グラフを通じてどの程度伝播したかを計算します。 3 番目に、個人の再キャリブレーション (ホットスポット エージェントの信頼モデルの調整)、トポロジの再構成 (ホットスポットの周囲にキャリブレーション ファイアウォールを追加)、またはチームの再キャリブレーション (ゾーン全体に対してキャリブレーションを保持するインタラクション ラウンドのトリガー) のいずれかの介入を規定します。介入の選択比率 r = CCE<sub>i,hotspot</sub> / CCE<sub>collective</sub> によって決まります。r > 0.5 (ホットスポットが集合的な誤校正の大半を占める) の場合、個別の再校正が優先されます。 r < 0.3 (誤ったキャリブレーションが分散されている) の場合、チームの再キャリブレーションが規定されます。その間に、トポロジの再構成が適用されます。

7.3 Meta-Insight レイヤーとの統合

集合的なキャリブレーション監視は、MARIA OS の 3 層 Meta-Insight アーキテクチャと統合されています。個人層では、各エージェントの CCE<sub>i</sub> が個人のバイアス検出スコア B<sub>i</sub>(t) に入力されます。 Collective レイヤーでは、ゾーンの CCE<sub>collective</sub> がゾーンのコンセンサス品質指標 CQ(d) に入力されます。システム層では、クロスゾーン調整パターン (複数のゾーンで相関関係のある調整ミスが発生するかどうか) が組織学習率 OLR(t) に反映されます。スペクトル半径 ρ(Φ) は、ゾーンの健全性ダッシュボードに先行指標として表示されます。ρ(Φ) が下から 1.0 に近づくと、CCE<sub>collective</sub> がまだしきい値内にある場合でも、ゾーンの相互作用トポロジーがキャリブレーションの不安定性境界に近づいていることを示します。


8. 収束解析

8.1 一括校正収束のための十分条件

定理 4 (収束)。 G = (V, E, W) をエージェント チームの相互作用グラフとし、Φ をキャリブレーション伝播演算子とし、各エージェントが学習率 η<sub>i</sub> ∈ (0, 1) で個別のキャリブレーション補正を適用するとします。以下の条件が満たされる場合、集合的キャリブレーションは収束します (lim<sub>t→∞</sub> CCE<sub>collective</sub>(t) = 0): (C1) グラフ G はスペクトル ギャップ γ<sub>spec</sub> > 0 と強く結びついています。 (C2) 伝播行列は ρ(Φ) < 1 を満たします。 (C3) 個別の補正率は η<sub>i</sub> < を満たします。すべての i に対して 2/(1 + max<sub>j≠i</sub> w<sub>ij</sub>)。 (C4) ノイズ処理 η(t) は、すべての t について E[||η(t)||<sup>2</sup>] ≤ σ<sup>2</sup> を満たす。

証明 (C1) – (C3) では、演算子 Ψ = Φ − diag(η<sub>1</sub>, …, η<sub>n</sub>) が修正されたダイナミクス δ(t+1) = Ψ · δ(t) + η(t) を支配します。ガーシュゴーリンの円定理により、Ψ の固有値は円板 {z : |z − (Φ<sub>ii</sub> − η<sub>i</sub>)| の和集合にあります。 ≤ Σ<sub>j≠i</sub> |Φ<sub>ij</sub>|}。 (C3) では、各ディスクはオープン ユニット ディスクに含まれており、ρ(Ψ) < 1 となります。確率的収束 ||E[δ(t)]|| ≤ ρ(Ψ)<sup>t</sup> · ||δ(0)||帰納法で続きます。分散限界 Var(δ(t)) ≤ σ<sup>2</sup>/(1 − ρ(Ψ)<sup>2</sup>) は、有界ノイズの等比級数から得られます。これらを組み合わせると、 CCE<sub>collective</sub>(t) → O(σ/√(1 − ρ(Ψ)<sup>2</sup>)) as t →∞。σ = 0 (外来ノイズなし) の場合はゼロに等しく、σ が小さい場合は小さいままです。 □

8.2 必要な条件

強力な接続性 (C1) が必要です。相互作用グラフが切断されている場合、切断されたコンポーネントは独立して収束し、それらの校正平衡が一貫していることを保証するメカニズムはありません。スペクトル半径条件 (C2) が必要です。ρ(Φ) ≥ 1 の場合、校正偏差の少なくとも 1 つの固有ベクトル方向は減衰せず、対応する校正誤差は無期限に持続します。学習率限界 (C3) は、振動発散を防ぐために必要です。エージェントが過度に積極的にオーバーシュートを修正し、チーム全体に伝播する新たな誤調整を引き起こします。

8.3 収束率とトポロジーの最適化

収束率はρ(Ψ)によって決まります。収束を速くするには、ρ(Ψ) を小さくする必要があり、そのためには、より大きなスペクトル ギャップ γ<sub>spec</sub> と適切に調整された学習率 η<sub>i</sub> が必要になります。エージェント数 n が固定されている場合、ρ(Ψ) を最小化する相互作用トポロジーはラマヌジャン グラフです。これは、d 正規グラフの最適なスペクトル ギャップ境界 λ<sub>2</sub> ≥ 2√(d−1) を達成するグラフです。実際には、正確なラマヌジャン グラフを構築するには計算コストがかかるため、スペクトル スパース化を使用します。グラフ全体から開始して、γ<sub>spec</sub> に最も影響を与えないエッジを繰り返し削除し、O(n<sup>2</sup>) ではなく O(n log n) エッジで最適な収束率を近似するスパース トポロジを生成します。


9. 実験結果

9.1 導入構成

私たちは、財務コンプライアンス (3 ゾーン、231 エージェント)、ヘルスケア診断 (3 ゾーン、198 エージェント)、および製造品質 (3 ゾーン、194 エージェント) にわたる 9 つの製造 MARIA OS ゾーンに関する集合的校正フレームワークを評価しました。各ゾーンは、集団キャリブレーション モニタリングをアクティブにして 120 日間実行され、その後、個別のみの CCE モニタリングを伴う 120 日間のベースライン期間が続きました。評価された共同決定の合計: 47,382 (ベースライン) および 51,209 (治療)。

9.2 CCE<sub>集団的</sub>削減

9 つのゾーンすべてで、CCE<sub>集団</sub>は平均 0.127 (個人のみのモニタリングによるベースライン) から 0.074 (集団的なキャリブレーション フレームワークによる) まで減少し、相対的に 41.7% 減少しました。財務コンプライアンスゾーンは最大の改善 (46.2%) を示しました。これは、誤った校正の伝播が最も深刻であった AML/KYC 意思決定チェーンにおけるエージェントの高度な対話によって促進されました。ヘルスケアゾーンは 39.1% の減少を示しました。製造業ゾーンは 38.8% の減少を示しました。この改善は、ベースラインのインタラクション グラフの密度と強く相関していました。つまり、より多くのエージェントが直接対話する密度の高いグラフでは、フレームワークが対処できる誤った調整の伝播経路がより多く存在するため、より大きな CCE<sub>集合的</sub>改善が示されました。

9.3 収束の高速化

スペクトルギャップに最適化された相互作用パターンを使用したトポロジー認識のリフレクション スケジューリングは、単純なラウンドロビンのリフレクション順序付けと比較して、キャリブレーション平衡への 2.8 倍の高速収束を達成しました。最適化されたトポロジのスペクトル ギャップは平均 γ<sub>spec</sub> = 0.34 でしたが、デフォルト トポロジのスペクトル ギャップは γ<sub>spec</sub> = 0.11 でした。スペクトル ギャップ比に基づく収束速度の理論的予測は 3.1 倍でした。実現された 2.8 倍の高速化は、決定論的分析では考慮されていない外来ノイズの影響を反映しています。

9.4 コンセンサスキャリブレーションのパレートフロント

2 相相互作用プロトコルは、CCE<sub>集団</sub>対 (1 − CON) パレート フロントで 0.91 のハイパーボリューム指標を達成しました。これに対し、コンセンサス優先プロトコルでは 0.67、キャリブレーション優先プロトコルでは 0.73 でした。パレート最適プロトコルでは、CCE<sub>collective</sub> ≤ 0.08 および CON ≥ 0.82 の構成が見つかり、相互作用スケジュールが両方の目的に対して明示的に最適化されている場合、コンセンサスキャリブレーションの緊張を回避できることが実証されました。


10. 結論

集合的なキャリブレーションは、個別のキャリブレーションとは異なる現象です。これは、エージェント エラーの相関構造とエージェント インタラクションのトポロジに依存し、どちらも個別の CCE メトリクスでは捕捉されません。非還元性定理は、個別のキャリブレーションのみを監視すると、集団的な誤ったキャリブレーションに対する盲点が生じることを確立しています。個々に適切にキャリブレーションされているエージェントのチームは、エラーが相関している場合、集団的に自信過剰な決定を下す可能性があります。キャリブレーション伝播オペレーターは、誤ったキャリブレーションがエージェント チームにどのように広がるかを形式化し、スペクトル収束定理は、集合的なキャリブレーションが収束する正確な条件を提供します。コンセンサスキャリブレーションの不可能性の結果は、根本的な緊張を解消することはできないが、パレート最適対話スケジューリングを通じて管理できることを示しています。マリアOS実装では、これらの理論的結果が本番ガバナンスに統合されます。ゾーンレベルの CalibrationMonitor は CCE<sub>集団</sub>をリアルタイムで追跡し、相互作用グラフのスペクトル分析はキャリブレーションの不安定性の主要な指標を提供し、トポロジーを意識したリフレクション スケジューリングは、2.8 倍の収束速度向上で集団キャリブレーション エラーの 41.7% 削減を達成します。エージェントのチームが信頼できる共同決定を下す必要があるエンタープライズ展開の場合、集団的な調整モニタリングはオプションではありません。これは、知っていることを知っているチームと、単に知っていると信じているチームの違いです。

R&D ベンチマーク

集団的な CCE 削減

41.7%

9 つの本番ゾーンにわたる単純なラウンドロビン リフレクションと比較して、トポロジを意識したリフレクション スケジューリングを使用した集合的キャリブレーション エラー CCE_collective の削減

収束の高速化

2.8x

スペクトルギャップ最適化相互作用グラフとランダム相互作用トポロジーを使用した場合の集合的キャリブレーション収束の高速化

コンセンサスキャリブレーションパレート

0.91 HV

コンセンサス強度とキャリブレーション精度の間のパレート フロントのハイパーボリューム インジケーター。適切なスケジュール設定により緊張を回避できることを示します。

感染封じ込め

94.3%

より広範なチーム グラフに伝播する前に、1 つのインタラクション近傍内に含まれる誤調整感染イベントの割合

MARIA OS 編集パイプラインにより公開・査読。

© 2026 MARIA OS. All rights reserved.