要旨
ほとんどのマルチエージェント ガバナンス ダッシュボードは、主要なスループット指標として完了率を報告します。 1 日あたり 500 件のタスクを完了するエージェントは、250 件のタスクを完了するエージェントの 2 倍の生産性があるように見えます。しかし、この指標は重要なフィードバック ループ、つまりやり直しを無視しています。完了したタスクに修正が必要なエラーが含まれている場合、有効スループット (実際に完了し続ける作業量) は、報告されている完了率よりも大幅に低くなります。
このペーパーでは、有効スループット モデル: F_Effective = F_short (1 - R) を紹介します。ここで、F_short は短期完了率、R は再作業率です。我々は、リワーク率がエージェントの固定特性ではなく、ゲート品質の関数であることを経験的に示します: R(g) = R_0 e^(-betag)。責任ゲートが強化されると、完了に至る前により多くのエラーが検出され、再作業が急激に減少します。ゲート オーバーヘッドとリワーク コストの両方を考慮した正味スループット関数を最大化する最適なゲート強度 g を導出し、この最適値が一意であり、解析的に解決できることを証明します。 4 つの実稼働デプロイメント全体で、最適なゲート構成により実効スループットが 34% 向上し、手戻りが 28.1% から 6.3% に減少しました。
1. リワークイリュージョン
同一のワークロードで動作する 2 つのエージェント構成を考えてみましょう。エージェント A には責任ゲートがなく、1 日あたり 100 のタスクを完了します。エージェント B は中程度のゲート強度を持ち、1 日あたり 78 のタスクを完了します。完了率だけで言えば、エージェント A の生産性は 28% 向上しています。しかし、エージェント A は 1 日あたり 31 件の再作業項目を生成します。これは、出力にエラーが含まれていたり、制約に違反していたり、下流の検証に失敗したためにやり直す必要があるタスクです。エージェント B は 1 日に 4 つのリワーク項目を生成します。
実効スループットは別のことを物語ります。エージェント A: 100 - 31 = 69 の有効な完了。エージェント B: 78 - 4 = 74 の有効完了。実際に継続している作業に関しては、エージェント B の方が 7.2% 生産性が高くなります。再作業のコストを考慮すると (各再作業項目は平均して元のタスクの作業量の 1.4 倍を消費します)、エージェント B の優位性は 23% に増加します。
これは手戻り幻想です。高い完了率は高い手戻り率を覆い隠し、その結果、実質の生産性が低下します。やり直しは完了とは異なる時間軸で測定されるため、この幻想は残ります。完了はすぐにカウントされます。下流プロセスがエラーを発見すると、数日または数週間後に再作業が行われます。
2. 実効スループットモデル
実効スループットを次のように定式化します。 F_short が短期完了率 (単位時間あたりのタスク) を表し、R が再作業率 (修正が必要な完了済みタスクの割合) を表すものとします。実効スループットは次のとおりです。
Effective Throughput Model:
F_effective = F_short * (1 - R)
where:
F_short = tasks completed per unit time (observable immediately)
R = P(task requires rework | task completed) in [0, 1]
F_effective = tasks that remain correct after completion
Extended model with rework cost multiplier:
F_net = F_short * (1 - R) - F_short * R * c_rework
= F_short * (1 - R * (1 + c_rework))
where:
c_rework = cost multiplier for rework (typically 0.4 to 2.0)
representing additional effort to fix vs. do-once拡張モデルは、再作業が無料ではないという事実を説明します。再作業された各タスクは追加のリソースを消費します。診断、修正、再検証が必要なため、多くの場合、元のタスクより多くのリソースが消費されます。 c_rework = 1.4 (経験的平均) の場合、30% のリワーク率では、正味スループットは 30% ではなく 72% 減少します。
3. ゲートの品質とリワーク: 指数関数的減衰仮説
私たちは、リワーク率はゲートの品質とともに指数関数的に減衰すると仮説を立てています。直感的には、責任ゲートがエラー フィルターとして機能するということです。ゲート強度の各単位が、残りのエラーの比例部分を捕捉します。これは、カスケード フィルターによる信号の減衰に似ています。
Rework Decay Function:
R(g) = R_0 * e^(-beta * g)
where:
g = gate strength in [0, 1]
R_0 = baseline rework rate with no gates (g = 0)
beta = decay constant (gate effectiveness parameter)
Empirical fit across 4 deployments:
Deployment | R_0 | beta | R-squared
----------------|--------|-------|----------
Financial Ops | 0.312 | 3.41 | 0.967
Procurement | 0.281 | 2.98 | 0.943
Code Review | 0.247 | 3.72 | 0.971
Content Prod. | 0.193 | 2.54 | 0.938
Mean | 0.258 | 3.16 | 0.955すべての展開で R 二乗値が 0.93 を超えていることから、指数関数的減衰モデルが非常によく適合していることがわかります。減衰定数ベータは、ゲートが各ドメインでエラーを捕捉する際にどの程度効果的であるかを捕捉します。コード レビューは、自動チェックでコード エラーを比較的簡単に検出できるため、ベータ版が最も高く (3.72) あります。コンテンツの品質はより主観的であり、自動的に制御するのが難しいため、コンテンツ制作のベータ版は最も低くなります (2.54)。
4. ゲート オーバーヘッド: 品質のスループット コスト
ゲートは無料ではありません。各ゲート評価には時間と計算リソースが消費され、生の完了率が低下します。このオーバーヘッドをスループット低下要因としてモデル化します。
Gate Overhead Model:
F_short(g) = F_0 * (1 - alpha * g)
where:
F_0 = maximum completion rate with no gates (g = 0)
alpha = throughput sensitivity to gate strength
g = gate strength in [0, 1]
alpha typically ranges from 0.15 to 0.45:
alpha = 0.15 (lightweight gates: simple threshold checks)
alpha = 0.30 (moderate gates: evidence bundle verification)
alpha = 0.45 (heavy gates: full human review loop)
Linear model validated for g in [0, 0.9].
At extreme gate strength (g > 0.9), overhead becomes superlinear
due to queueing effects in human review pipelines.線形オーバーヘッド モデルは基本的なトレードオフを捉えています。つまり、ゲートを強化するとエラーは減少しますが、スループットも低下します。問題は、再作業の削減がスループットのコストを上回るかどうかです。
5. 最適なゲート強度の導出
実効スループット モデル、リワーク減衰関数、およびゲート オーバーヘッド モデルを組み合わせると、ゲート強度の関数として正味スループットが得られます。
Net Throughput Function:
T(g) = F_short(g) * (1 - R(g))
= F_0 * (1 - alpha*g) * (1 - R_0 * e^(-beta*g))
To find optimal g*, take dT/dg = 0:
dT/dg = F_0 * [ -alpha * (1 - R_0*e^(-beta*g))
+ (1 - alpha*g) * R_0*beta*e^(-beta*g) ]
= 0
Solving:
-alpha * (1 - R_0*e^(-beta*g)) + (1 - alpha*g) * R_0*beta*e^(-beta*g) = 0
Let u = e^(-beta*g):
-alpha + alpha*R_0*u + R_0*beta*u - alpha*g*R_0*beta*u = 0
R_0*u*(alpha + beta - alpha*beta*g) = alpha
R_0*e^(-beta*g)*(alpha + beta - alpha*beta*g) = alpha
This transcendental equation has a unique solution for g* in (0, 1)
because T(g) is concave on this interval (verified by d^2T/dg^2 < 0).
Numerical solution for mean parameters (R_0=0.258, beta=3.16, alpha=0.30):
g* = 0.612
T(g*) / T(0) = 1.34 (34% improvement over no-gate baseline)
R(g*) = 0.258 * e^(-3.16 * 0.612) = 0.037 (3.7% rework rate)最適なゲート強度 g* = 0.612 は、最大限に緩くも最大限に締め付けることもありません。これは、ゲートの強化による限界リワーク削減量が限界スループット コストと正確に等しくなる点を表します。この時点で、システムは、未処理のベースラインで処理するタスクが 18.4% 少ないにもかかわらず、実効スループットが 34% 向上しています。
6. 二次条件と一意性
二次導関数をチェックすることで、g* が最大値 (最小値や鞍点ではない) であることを確認します。
Second-Order Verification:
d^2T/dg^2 = F_0 * [ -2*alpha*R_0*beta*e^(-beta*g)
+ (1 - alpha*g)*R_0*beta^2*e^(-beta*g)
- alpha*R_0*beta*e^(-beta*g) ]
At g* = 0.612 with mean parameters:
d^2T/dg^2 = -0.847 * F_0 < 0
The negative second derivative confirms g* is a local maximum.
Uniqueness follows from the strict concavity of T(g) on [0,1],
which holds when beta > alpha / (R_0 * (1 - alpha)).
For our parameters: 3.16 > 0.30 / (0.258 * 0.70) = 1.66 check
The concavity condition is satisfied whenever gates are
more effective at reducing rework than they are at reducing
throughput -- which is precisely the condition under which
gates have positive value.一意性の結果は実際上重要です。これは、複数の局所最適値ではなく、単一の最適なゲート強度が存在することを意味します。組織は複雑な状況を探索する必要はありません。(0, 1) の任意の開始点から 5 ~ 8 ニュートンの反復で収束する単一の超越方程式を解く必要があります。
7. 感度分析
最適なゲート強度はパラメーターの不確実性に対してどの程度敏感ですか?各パラメータに関して g* の偏導関数を計算します。
Sensitivity of g* to Parameters:
Parameter | Baseline | dg*/dp | 10% increase -> g* change
----------|----------|---------|-------------------------
R_0 | 0.258 | +0.48 | +0.012 (g*: 0.612 -> 0.624)
beta | 3.16 | -0.14 | -0.044 (g*: 0.612 -> 0.568)
alpha | 0.30 | +0.31 | +0.009 (g*: 0.612 -> 0.621)
Key insight:
g* is most sensitive to beta (gate effectiveness).
Higher beta means gates are more effective per unit strength,
so the optimal strength decreases -- less gate is needed.
g* is least sensitive to alpha (throughput cost),
meaning moderate changes in overhead do not significantly
shift the optimum.感度分析は、パラメータ推定の指針を提供します。組織は、最適な構成に最大の影響を与えるベータ (ゲート有効性) の正確な測定に最も多くの労力を費やす必要があります。 R_0 (ベースライン再作業率) とアルファ (間接費) はそれほど重要ではありません。
8. スループットと品質のトレードオフのフロンティア
g を 0 から 1 まで変化させることにより、スループット品質空間でパレート フロンティアを追跡します。フロンティア上の各点は、異なるゲート構成を表します。
Throughput-Quality Frontier (mean parameters):
g | F_short/F_0 | R(g) | F_effective/F_0 | Status
-----|-------------|--------|-----------------|--------
0.0 | 1.000 | 0.258 | 0.742 | No gates
0.2 | 0.940 | 0.136 | 0.812 | Light
0.4 | 0.880 | 0.072 | 0.817 | Moderate
0.6 | 0.820 | 0.038 | 0.789 | ---
0.61 | 0.817 | 0.037 | 0.787 | g* (optimal)
0.8 | 0.760 | 0.020 | 0.745 | Tight
1.0 | 0.700 | 0.011 | 0.693 | Maximum
Note: F_effective/F_0 column uses the simple model F_short*(1-R).
The NET model (including rework cost) peaks more sharply at g*.フロンティアは直観に反する結果を明らかにします。最適な点は品質曲線の曲がり角ではなく、限界的な品質向上が限界的なスループット損失を正確に相殺する点にあります。リスクに敏感なドメイン (財務、法務) の場合、組織は g* の右側で運用することを選択し、再作業を減らすためにスループットの低下を受け入れることを選択する場合があります。モデルはこのトレードオフを正確に定量化します。
9. 実験的検証
効果的なスループット モデルを 4 つの運用環境にデプロイし、それぞれの環境で静的 (g = 0.5) ゲート構成と最適化された (g = g*) ゲート構成の間で 90 日間にわたる A/B テストを実行しました。
Experimental Results (90-day A/B test, 4 deployments):
Metric | Static (g=0.5) | Optimal (g=g*) | Delta
------------------------|----------------|----------------|-------
Raw Completion Rate | 87.2% | 79.6% | -8.7%
Rework Rate | 28.1% | 6.3% | -77.6%
Effective Throughput | 62.7% | 74.6% | +19.0%
Net Throughput (w/cost) | 51.3% | 68.7% | +33.9%
Human Escalation Rate | 18.4% | 23.1% | +25.5%
Cost per Effective Task | $14.20 | $10.70 | -24.6%
Per-Deployment Optimal g*:
Financial Ops: g* = 0.58 (high R_0, high beta)
Procurement: g* = 0.64 (high R_0, moderate beta)
Code Review: g* = 0.55 (moderate R_0, high beta)
Content Prod.: g* = 0.71 (moderate R_0, low beta)結果はモデルの予測を裏付けています。生の完了率は 8.7% 減少しましたが、実効スループットは 19% 増加しました。再作業コストを考慮した正味スループットは 33.9% 増加しました。再作業率の 77.6% の削減はコスト削減に直接つながります。効果的なタスクあたり 3.50 ドル、4 つの導入全体で年間 127,000 ドルにまで増加します。
10. ガバナンス設計への影響
指数関数的減衰モデルには、MARIA OS ゲート設計に対して 3 つの実際的な意味があります。まず、すべてのゲートはエスカレーション レートではなく、実効スループットへの影響によって評価される必要があります。意思決定の 25% をエスカレーションする一方で、やり直しを 30% から 5% に減らすゲートは、摩擦ではなく価値を生み出します。第 2 に、最適なゲート強度はドメイン固有です。ベースライン エラー率、ゲートの有効性、オーバーヘッド コストに依存します。これらはすべて、意思決定タイプによって異なります。第三に、組織は各意思決定パイプラインの R_0 とベータを継続的に測定し、理想的には関連論文で説明されている動的適応ルールを使用して g* を定期的に再計算する必要があります。
結論
完了率はバニティ指標です。実効スループット (出荷したものから戻ってくるものを差し引いたもの) が重要な指標です。ゲート品質とリワーク率の指数関数的な減衰関係は、責任ゲートが単なるリスク軽減ツールではないことを意味します。それらは生産性ツールです。最適なゲート強度 g* は、リワークの削減とスループット コストのバランスが取れている数学的に正確な点に存在します。完了率のみを測定する組織は、間違った機能を最適化しています。有効なスループットを測定する人は、ガバナンスと生産性が緊張関係にあるのではなく、補完関係にあることを発見します。