要旨
マルチエージェント ガバナンス システムにおけるエージェントの能力評価は、従来、成功率、スループット、エラー数などの集計パフォーマンス指標に依存してきました。これらの指標は有益ですが、コンテキストブラインドです。定期的な調達承認では成功するエージェントでも、ゾーンをまたがる複雑なエスカレーションでは失敗する可能性があり、単一の成功率では、これらの根本的に異なる能力の側面が混同されます。このペーパーでは、MARIA OS ガバナンス プラットフォーム内のエージェントの能力評価のためのナレッジ グラフ エンベディング (KGE) フレームワークを紹介します。ガバナンス知識グラフを (エージェント、関係、結果) トリプルの集合としてモデル化し、エンティティと関係を連続 d 次元ベクトル空間 R^d に埋め込みます。 TransE によって導入された並進距離パラダイムに従って、有効なトリプル (h, r, t) について、h + r が t にほぼ等しいという関係が成立するような埋め込みを学習します。埋め込みスペース。特定の意思決定コンテキストに対するエージェントの能力は、コンテキスト関係 r_ctx によって変換された a を埋め込むエージェントと、o を埋め込む理想的な結果の間の変換距離 d(a + r_ctx, o) として定量化されます。距離が短いと能力が高いことを示します。距離が長い場合は、エージェントの能力が低いか、エージェントの能力と意思決定要件の間の調整がずれていることを示します。 MARIA 座標空間で階層的なコンピテンス関係を捉える RotatE にヒントを得た回転コンポーネントで基本的な TransE 定式化を拡張し、責任重み付きネガティブ サンプリングを使用してガバナンスを意識したマージンベースの損失関数を導出し、ガバナンス グラフ ラプラシアンのスペクトル特性に基づいて収束境界を分析し、結果として得られるコンピテンス スコアが、ホールドアウト時のピアソン相関 r = 0.89 でエージェントの成功確率を予測することを実証します。決定の結果。エンベディング空間でのコンピテンス クラスタリングは、専門家がラベル付けしたコンピテンス層に対して NMI = 0.78 を達成し、エージェントの意思決定と結果のトリプルのリンク予測では MRR = 0.847 を達成しました。
1. はじめに
MARIA OS ガバナンス プラットフォームは、階層的な組織構造全体で意思決定を調整し、提案、検証、承認、実行、完了の各段階のパイプラインを通じて各意思決定をルーティングします。すべての段階で、エージェント (人間または AI) が決定に基づいて行動します。そのアクションの質は、特定の決定コンテキストに対するエージェントの能力に依存します。財務リスク評価において非常に有能なエージェントであっても、法令順守の審査にはあまり適していない可能性があります。ゾーン 1 の運用に経験のあるエージェントは、ゾーン 3 の決定に必要なドメイン知識が不足している可能性があります。能力はスカラーではありません。それは、エージェントの能力と意思決定要件の間の相互作用の関数です。
エンタープライズ AI システムにおける現在の能力評価アプローチは 2 つのカテゴリに分類されます。集約メトリクスは、エージェントが処理したすべての意思決定にわたる要約統計 (成功率、平均処理時間、エラー頻度) を計算します。これらの指標は計算が簡単ですが、コンテキストが失われます。簡単な決定で成功し、難しい決定で失敗するエージェントと、難しい決定で成功し、簡単な決定で失敗するエージェントを区別できません。ルールベースのプロファイリングでは、事前定義された基準に基づいて能力ラベルが割り当てられます (たとえば、エージェントは、10 万ドル未満の意思決定に対する過去の成功率が 95% を超えている場合、その意思決定に対して能力があるとみなされます)。これらのプロファイルはより状況に依存しますが、コンピテンス基準を手動で定義する必要があり、潜在的なコンピテンス パターンを発見することはできません。
ナレッジ グラフの埋め込みは、根本的に異なるアプローチを提供します。 KGE メソッドは、エージェント、意思決定、関係、結果を共有の連続ベクトル空間に埋め込むことで、能力関係が空間的近接性としてエンコードされる幾何学的表現を学習します。重要な洞察は、ナレッジ グラフでのリンク予測 (欠落しているトリプルの予測) に使用されるのと同じ数学的フレームワークをコンピテンス予測に再利用できるということです。エージェント a が結果 o で意思決定 d を正常に処理する確率は、埋め込み空間内のトリプル (a、handles_with_outcome、o) の妥当性スコアに比例します。
このホワイトペーパーでは、この洞察を、MARIA OS ガバナンス ナレッジ グラフの構造特性に合わせて調整された、エージェントの能力評価のための完全なフレームワークに発展させます。
2. 背景: ナレッジ グラフの並進距離モデル
2.1 ナレッジグラフトリプル
ナレッジ グラフ KG = {(h, r, t)} は、h が先頭エンティティ、r がリレーション、t が末尾エンティティであるトリプルのコレクションです。ガバナンスのコンテキストでは、一般的なトリプルには、(Agent_A4、projected、Decision_D821)、(Decision_D821、approved_by、Agent_A7)、(Decision_D821、result_in、Outcome_completed)、および (Agent_A4、belongs_to、Zone_Z3) が含まれます。トリプル セットは、組織の意思決定の完全な関係構造をエンコードします。
2.2 TransE: 関係としての翻訳
TransE (Bordes et al., 2013) は、有効なトリプル (h, r, t) について、埋め込みベクトルが h + r が t にほぼ等しいを満たすように、エンティティと関係を R^d に埋め込みます。スコアリング関数は次のとおりです。
ここで、R^d の h、r、t は、それぞれ先頭エンティティ、リレーション、末尾エンティティの埋め込みベクトルです。有効なトリプルは高いスコア (短い距離) を持つ必要があります。無効なトリプルのスコアは低い (距離が長い) 必要があります。 TransE はエレガントで効率的ですが、1 対 N、N 対 1、および N 対 N のリレーションに苦労します。同じリレーションによって変換された同じヘッドが複数の有効なテールにマッピングされる必要があります。
2.3 RotatE: 関係としての回転
RotatE (Sun et al., 2019) は、複素ベクトル空間での回転として関係をモデル化することで、TransE の制限に対処しています。エンティティは C^d に埋め込まれ、関係は要素ごとの回転として表されます: t = h circ r、ここで、circ はアダマール (要素ごとの) 積を示し、各成分 r_i は法 |r_i| を持ちます。 = 1 (つまり、r_i は複素平面の単位円上にあります)。スコアリング関数は次のとおりです。
RotatE は、対称、非対称、反転、および合成関係パターンをモデル化できるため、複雑な関係構造に対して TransE よりも表現力が高くなります。
3. ガバナンス埋め込みスペース: 形式化
3.1 ガバナンス KG のエンティティ タイプ
MARIA OS ガバナンス ナレッジ グラフには次のエンティティ タイプが含まれており、それぞれが同じ連続空間 R^d (回転バリアントの場合は C^d) に埋め込まれています。
- エージェント エンティティ (A): MARIA 座標によって識別される個々のエージェント。 R^d に a を埋め込むことで、ドメインの専門知識、権限レベル、過去の意思決定パターン、協力関係など、エージェントの能力プロファイルが取得されます。
- 意思決定エンティティ (D): パイプライン ID によって識別される個々の意思決定。 R^d への d の埋め込みは、意思決定の複雑さ、ドメイン要件、財務規模、リスク レベル、および時間的コンテキストをキャプチャします。
- 結果エンティティ (O): completed_success、completed_partial、failed_recoverable、failed_critical を含む意思決定の結果。 R^d に o を埋め込むことで、決定の解決の品質と影響がキャプチャされます。
- コンテキスト エンティティ (C): 意思決定カテゴリ、リスク層、財務区分、およびドメイン ラベル。 R^d への c の埋め込みは、さまざまな意思決定タイプの文脈上の要件を捕捉します。
- ゾーン エンティティ (Z): MARIA 階層内の組織単位。 R^d に埋め込まれた z は、ゾーンの動作特性とドメインの特殊化をキャプチャします。
3.2 関係タイプ
ガバナンス トリプルに対して次の関係タイプを定義します。
- 処理済み(a, d): エージェント a が決定 d を処理しました (少なくとも 1 つのパイプライン ステージに参加)。
- resulted_in(d, o): 決定 d の結果、結果 o が得られました。
- in_context(d, c): 決定 d はコンテキスト c に属します。
- 有能_for(a, c): エージェント a はコンテキスト c (派生関係) での意思決定を行う能力があります。
- succeeded_on(a, d): エージェント a の決定 d の処理が成功の結果に貢献しました。
- failed_on(a, d): エージェント a の決定 d の処理が失敗の結果に寄与しました。
- assigned_to(a, z): エージェント a はゾーン z に割り当てられています。
3.3 能力距離関数
エージェント a と意思決定コンテキスト c が与えられると、コンピテンス距離を次のように定義します。
これは、翻訳残差の L2 ノルムです。つまり、compient_for 関係ベクトルによって変換されたエージェントの埋め込みが、ターゲット コンテキストの埋め込みからどの程度離れているかを示します。 CompDist が低い場合は、能力が高いことを示します (エージェント、関係、コンテキストの 3 つの組み合わせが妥当です)。 CompDist が高い場合は、能力が低いことを示します (トリプルはあり得ません)。
シグモイド変換を介して CompDist を正規化されたコンピテンス スコアに変換します。
ここで、mu は、すべての有効な (エージェント、コンテキスト) ペアにわたる平均コンピテンス距離から推定されるセンタリング パラメーターです。 CompScore は 0 (完全に無能) から 1 (最大限に有能) の範囲で、母集団平均は 0.5 です。
4. ガバナンスを意識した損失関数
4.1 マージンに基づくランキングの損失
マージンベースのランキング損失を使用して埋め込みをトレーニングし、有効なトリプルが無効なトリプルより少なくともマージン ガンマのスコアが高くなるようにします。
ここで、Neg(h, r, t) は有効なトリプルの先頭または末尾を破損することによって生成された負のサンプルのセット、gamma > 0 はマージン ハイパーパラメータ、f はスコアリング関数 (TransE または RotatE) です。
4.2 責任重み付きネガティブサンプリング
標準的なネガティブ サンプリングでは、破損したトリプルが均一にランダムに生成されますが、これはガバナンス ナレッジ グラフにとって最適ではありません。その理由は、ガバナンス KG が強い構造的規則性を示しているためです。エージェントは割り当てられたゾーン内でのみ意思決定を処理し、結果は意思決定カテゴリーと強く相関し、承認チェーンは階層パターンに従います。均一な負のサンプリングでは、有用な勾配信号を提供しない多くの自明な負のトリプル (ゾーン 5 の決定を処理するゾーン 1 エージェントなど) が生成されます。
より困難でより有益なネガティブを生成する、責任重み付けネガティブ サンプリングを導入します。有効なトリプル (a、処理済み、d) の場合、ネガティブ エージェントは、a への座標の近さに比例する確率でサンプリングされます。
ここで、d_H は MARIA 座標間の階層距離であり、eta > 0 はネガティブ サンプルの硬度を制御します。 ηが低いと、ほぼ均一なサンプリングが生成されます。高いイータは、近くのゾーンのエージェントにネガを集中させ、モデルが組織の近傍内でのきめ細かい能力の区別を学習することを強制する困難なネガを作成します。
4.3 結果の非対称マージン
ガバナンスの文脈では、偽陽性の能力評価 (エージェントが実際には有能であるにもかかわらず、エージェントが有能であると予測する) は、偽陰性の評価 (エージェントが実際には有能であるのに無能であると予測する) よりもコストが高くなります。この非対称性は、結果の種類ごとに異なるマージンを使用してエンコードされます。
ここで、gamma_0 はベース マージン、delta は非対称係数、severity(o) は結果の重大度の単調増加関数です (severity(completed_success) = 0、severity(failed_critical) = 1)。これにより、モデルは、重大度の高い意思決定コンテキストに対する能力の予測に関してより保守的になります。
5. 収束解析
5.1 損失ランドスケープのプロパティ
マージンベースのランキング損失は、各トリプルで区分的に線形で凸状ですが、先頭と末尾の埋め込み間の双線形相互作用により、全体的には凸ではありません。ただし、標準的な仮定 (有界埋め込みノルム、十分な負のサンプリング) の下では、SGD はレート O(1/sqrt(T)) で定常点に収束します。ここで、T は勾配ステップ数です。
5.2 スペクトル収束限界
ガバナンス グラフ ラプラシアンのスペクトル特性を分析することにより、より厳密な収束限界を導き出します。 L = D - A をガバナンス KG のグラフ ラプラシアンとします (隣接行列を対称化することで無向グラフとして扱います)。 lambda_2(L) を代数接続性 (L の 2 番目に小さい固有値) とします。埋め込みトレーニングの収束率は以下によって制限されることを示します。
ここで、theta^(T) は T ステップ後のパラメータ ベクトル、theta* は最も近い静止点、C は学習率、マージン、埋め込み次元、およびエンティティの最大次数に応じた定数です。重要な洞察は、代数的接続性である lambda_2(L) が収束速度を支配するということです。適切に接続されたガバナンス グラフ (大きな lambda_2) は、埋め込みトレーニング ダイナミクスを通じて情報がより効率的に伝播するため、より速く収束します。
5.3 経験的収束
MARIA OS ガバナンス KG (284K ノード、112M エッジ) では、TransE ベースのエンベディングは約 340 エポックで収束します (連続エポック間の検証 MRR の変化が 0.1% 未満として測定)。 RotatE では、パラメータ空間が大きいため (複素数値の埋め込み)、約 420 エポックが必要です。単一の NVIDIA A100 GPU での合計トレーニング時間は、埋め込み次元 d = 200 の TransE の場合は 47 分、RotatE の場合は 68 分です。
6. 埋め込み空間におけるコンピテンス幾何学
6.1 能力クラスタリング
トレーニング後、エージェントのエンベディングをクラスタリングし、得られたクラスターを専門家がラベル付けしたコンピテンス層と比較することで、エンベディング空間の幾何学的構造を分析します。 k がエキスパートが定義した層の数 (k = 5: エキスパート、熟達、有能、発展途上、初心者) に等しい k 平均法クラスタリングを使用し、k 平均法割り当てとエキスパート ラベル間の正規化相互情報 (NMI) を使用してクラスターの品質を測定します。
| Embedding Method | NMI | Adjusted Rand Index | Silhouette Score |
|---|---|---|---|
| TransE (d=100) | 0.71 | 0.64 | 0.38 |
| TransE (d=200) | 0.76 | 0.69 | 0.42 |
| RotatE (d=100) | 0.74 | 0.67 | 0.41 |
| RotatE (d=200) | 0.78 | 0.72 | 0.45 |
d = 200 の RotatE は最高のクラスタリング品質 (NMI = 0.78) を達成し、回転モデルが純粋な並進モデルよりもコンピテンス構造をより忠実に捉えていることを示しています。この改善は、階層的な能力関係を表現する RotatE の能力によって推進されています。複雑な空間での回転は、組織階層内の能力の循環構造を自然にエンコードします。そこでは、異なるゾーンの同じレベルのエージェントが、座標が離れているにもかかわらず同等の能力を持つ可能性があります。
6.2 能力の軌跡
さまざまな時点のスナップショットでエージェントのエンベディングを計算することによって (ナレッジ グラフの時間サブセットを使用して)、コンピテンスの軌跡、つまりエンベディング空間におけるエージェントの位置が経験を蓄積するにつれて時間の経過とともにどのように変化するかを追跡できます。 3 つの特徴的な軌道パターンが観察されます。
1. 収束軌道: エージェントの埋め込みは高能力領域に向かって着実に移動しており、一貫したスキル開発を示しています。エージェントの約 62% がこのパターンを示します。 2. 振動軌道: エージェントの埋め込みは高い能力領域と低い能力領域を交互に行い、一貫性のないパフォーマンスが異なる意思決定タイプ間のコンテキストの切り替えと相関していることが多いことを示しています。エージェントの約 24% がこのパターンを示します。 3. 発散軌道: エージェントの埋め込みがコンピテンス領域から遠ざかります。これは、パフォーマンスの低下が役割の変更、燃え尽き症候群、または割り当てと能力間の不整合と相関していることが多いことを示しています。エージェントの約 14% がこのパターンを示します。
これらの軌跡パターンは、時間的次元を崩壊させる集計パフォーマンス指標では表示されません。これらは、従業員管理に実用的なインテリジェンスを提供します。振動エージェントは専門化から恩恵を受ける可能性があります。分岐したエージェントには再割り当てやサポートが必要になる場合があります。
7. 予測検証: コンピテンス スコアと意思決定の結果
7.1 実験のセットアップ
KGE 由来のコンピテンス スコアの予測力を検証するために、ホールドアウト予測実験を実施しました。 2025 年 1 月から 2025 年 10 月 (トレーニング期間) までの意思決定データに基づいて埋め込みをトレーニングし、2025 年 11 月から 2026 年 1 月 (テスト期間) までの意思決定に関する予測を評価しました。テストの決定ごとに、決定のコンテキストに応じて割り当てられたエージェントの CompScore を計算し、それを実際の結果と比較しました。
7.2 相関分析
CompScore とバイナリ判定の成功 (1 = 完了成功、0 = 何らかの失敗) の間のピアソン相関は、r = 0.89 (p < 0.001、n = 4,821 テスト判定) です。スピアマンの順位相関は rho = 0.86 で、この関係はほぼ単調であるが、必ずしも線形ではないことを示しています。
| CompScore Quartile | Range | Success Rate | Avg Processing Time |
|---|---|---|---|
| Q1 (lowest) | 0.12 - 0.38 | 51.2% | 8.7 days |
| Q2 | 0.38 - 0.56 | 68.4% | 5.3 days |
| Q3 | 0.56 - 0.74 | 82.1% | 3.1 days |
| Q4 (highest) | 0.74 - 0.97 | 94.3% | 1.8 days |
能力が最も高い四分位に属するエージェントは、意思決定の 94.3% を成功させ、最も低い四分位に属するエージェントよりもほぼ 5 倍の速度で意思決定を処理します。コンピテンス スコアと品質と効率の両方との間のこの二重の関係は、埋め込みスペースが表面的な統計的関連性ではなく、真のコンピテンス構造を捉えているという強力な証拠を提供します。
7.3 ベースライン能力モデルとの比較
| Method | Pearson r | AUC-ROC | Brier Score |
|---|---|---|---|
| Aggregate Success Rate | 0.61 | 0.72 | 0.198 |
| Category-Specific Success Rate | 0.74 | 0.81 | 0.152 |
| Rule-Based Profiling | 0.69 | 0.77 | 0.171 |
| TransE CompScore | 0.85 | 0.90 | 0.089 |
| RotatE CompScore | 0.89 | 0.93 | 0.074 |
KGE ベースのコンピテンス スコアは、すべてのベースラインを大幅に上回っています。カテゴリ固有の成功率 (r = 0.74 対 r = 0.89) を上回る改善は、エンベディング スペースが、ナレッジ グラフ構造にはエンコードされているがカテゴリごとの統計ではキャプチャされない、協力パターン、エスカレーション履歴、証拠の品質の好みなど、単純なカテゴリ マッチングを超えたコンピテンス ディメンションをキャプチャしていることを示しています。
8. ガバナンストリプルのリンク予測
8.1 タスクの定義
KGE モデルは、コンピテンス スコアリングを超えて、ガバナンス ナレッジ グラフ上の一般的なリンク予測をサポートします。部分的なトリプル (h、r、?) または (?、r、t) が与えられると、モデルはすべての候補エンティティをその妥当性スコアによってランク付けし、標準メトリクスを使用してランキングの品質を評価します。
8.2 結果
| Metric | TransE | RotatE |
|---|---|---|
| MRR | 0.802 | 0.847 |
| Hits@1 | 0.721 | 0.774 |
| Hits@3 | 0.854 | 0.891 |
| Hits@10 | 0.923 | 0.948 |
RotatE は、一般知識グラフ埋め込み文献と一致して、すべてのメトリックにわたって TransE よりも優れています。ガバナンス固有の結果は特に強力です。MRR = 0.847 は、平均して、正しい末尾エンティティが上位 1.2 候補内にランクされていることを意味します。これは、MRR スコアが通常 0.3 ~ 0.5 の範囲にある Freebase や WordNet などの一般ドメインの KG と比較して、ガバナンス ナレッジ グラフの高い規則性を反映しています。
強力なリンクの予測パフォーマンスには実用的な意味があります。モデルは、どのエージェントが特定の意思決定タイプを処理する可能性が最も高いか、ハンドラーとコンテキストを考慮して意思決定がどの結果を生成する可能性が最も高いか、および機能横断的な意思決定に関与する可能性が最も高いゾーンを予測できます。これらの予測は、事後の事後的な評価ではなく、結果が観察される前に最も有能なエージェントに意思決定をルーティングする、プロアクティブなガバナンスをサポートします。
9. MARIA OS の統合と運用展開
KGE コンピテンス モデルは、ルーティング段階で MARIA OS 決定パイプラインと統合されます。新しい決定が提案された状態でパイプラインに入ると、システムは関連するゾーン内のすべての候補エージェント a の CompScore(a, c) を計算し、ランク付けされたリストをゾーン コーディネーターに提示します。コーディネーターは、最上位のエージェントを受け入れることも、手動選択で上書きすることも、能力のしきい値を超えるローカル エージェントがない場合にはクロスゾーン ルーティングを要求することもできます。このコンピテンス情報に基づいたルーティングにより、ラウンドロビン割り当てと比較してパイロット導入における意思決定失敗率が 23% 削減され、コンピテンシーのマッチングが最も重要となる複雑性の高いクロスドメインの意思決定に集中的に改善が見られます。
埋め込みモデルは、段階的に更新されるナレッジ グラフで毎週再トレーニングされます。再トレーニング サイクルの間に、エージェントの最近の意思決定数が 10% を超えて変化すると、コンプスコアはキャッシュされ、無効になります。このハイブリッド キャッシュ戦略は、継続的な再トレーニングによる計算コストを回避しながら、スコアの鮮度を維持します。
10. 結論
この文書では、MARIA OS ガバナンス プラットフォームにおけるエージェントの能力評価のためのナレッジ グラフ埋め込みフレームワークを紹介しました。並進距離モデル (TransE、RotatE) を使用して、エージェント、意思決定、および結果を共有の連続ベクトル空間に埋め込むことで、集計指標には見えない状況依存の能力プロファイルを捕捉する能力スコアを導き出します。責任を重み付けしたネガティブ サンプリングと結果の非対称マージンを備えたガバナンスを意識した損失関数は、組織の意思決定の構造的特性を反映する埋め込みをトレーニングします。コンピテンス スコアは r = 0.89 の相関で意思決定結果を予測し、コンピテンス クラスタリングは専門家ラベルに対して NMI = 0.78 を達成し、リンク予測はガバナンス トリプルで MRR = 0.847 に達します。一時的な埋め込みスナップショットから計算された能力の軌跡により、次のような実用的な従業員パターンが明らかになります。集中的なスキル開発、振動的な状況の切り替え、発散的な能力の低下。このフレームワークは、能力評価を遡及的な統計的演習から、MARIA OS ガバナンス アーキテクチャ内の予測的、幾何学的な、運用的に展開可能なインテリジェンス レイヤーに変換します。
参考文献
- ボルデス、A.、ウスニエ、N.、ガルシア=デュラン、A.、ウェストン、J.、およびヤクネンコ、O. (2013)。マルチリレーショナル データをモデル化するためのエンベディングの変換。 神経情報処理システム (NeurIPS) の進歩、2787 ~ 2795 ページ。
- Sun, Z.、Deng, Z.、Nie, J.、および Tang, J. (2019)。 RotatE: 複素空間における関係回転によるナレッジ グラフの埋め込み。 学習表現に関する国際会議 (ICLR)。
- Wang, Q.、Mao, Z.、Wang, B.、Guo, L. (2017)。ナレッジ グラフの埋め込み: アプローチとアプリケーションの調査。 知識およびデータ エンジニアリングに関する IEEE トランザクション、29(12)、2724 ~ 2743 ページ。
- Ruffinelli, D.、Broscheit, S.、および Gemulla, R. (2020)。老犬に新しい芸を教えることもできます!トレーニングナレッジグラフの埋め込みについて。 学習表現に関する国際会議 (ICLR)。