要旨
ほとんどのマルチエージェント ガバナンス ダッシュボードは、主要なスループット指標として完了率を報告します。 1 日あたり 500 件のタスクを完了するエージェントは、250 件のタスクを完了するエージェントの 2 倍の生産性があるように見えます。しかし、この指標は重要なフィードバック ループ、つまりやり直しを無視しています。完了したタスクに修正が必要なエラーが含まれている場合、有効スループット (実際に完了し続ける作業量) は、報告されている完了率よりも大幅に低くなります。
このペーパーでは、有効スループット モデル: F_効果 = F_short (1 - R) を紹介します。ここで、F_short は短期完了率、R は再作業率です。リワーク率はエージェントの固定特性ではなく、ゲート品質の関数であることを示します: R(g) = R_0 e^(-betag)。責任ゲートが強化されると、完了に至る前により多くのエラーが検出され、再作業が急激に減少します。次に、以前のドラフトでは簡単に一緒にできなかった 2 つの目標を分離します。1 つは完了したままの作業をカウントする 有効スループット 目標、もう 1 つは再作業のコストも計算する ネット スループット* 目標です。数値的に最適なゲート強度は、オペレーターが実際にどの目的を重視するかによって異なります。この記事で使用した内部評価セットでは、最適化されたゲート設定により、A/B スタイルの比較でネット スループットが向上し、同時に再作業が大幅に削減されました。28.1%から6.3%。
1. リワークイリュージョン
同一のワークロードで動作する 2 つのエージェント構成を考えてみましょう。エージェント A には責任ゲートがなく、1 日あたり 100 のタスクを完了します。エージェント B は中程度のゲート強度を持ち、1 日あたり 78 のタスクを完了します。完了率だけで言えば、エージェント A の生産性は 28% 向上しています。しかし、エージェント A は 1 日あたり 31 件の再作業項目を生成します。これは、出力にエラーが含まれていたり、制約に違反していたり、下流の検証に失敗したためにやり直す必要があるタスクです。エージェント B は 1 日に 4 つのリワーク項目を生成します。
実効スループットは別のことを物語ります。エージェント A: 100 - 31 = 69 の有効な完了。エージェント B: 78 - 4 = 74 の有効完了。実際に継続している作業に関しては、エージェント B の方が 7.2% 生産性が高くなります。再作業のコストを考慮すると (各再作業項目は平均して元のタスクの作業量の 1.4 倍を消費します)、エージェント B の優位性は 23% に増加します。
これは手戻り幻想です。高い完了率は高い手戻り率を覆い隠し、その結果、実質の生産性が低下します。やり直しは完了とは異なる時間軸で測定されるため、この幻想は残ります。完了はすぐにカウントされます。下流プロセスがエラーを発見すると、数日または数週間後に再作業が行われます。
2. 実効スループットモデル
実効スループットを次のように定式化します。 F_short が短期完了率 (単位時間あたりのタスク) を表し、R が再作業率 (修正が必要な完了済みタスクの割合) を表すものとします。実効スループットは次のとおりです。
Effective Throughput Model:
F_effective = F_short * (1 - R)
where:
F_short = tasks completed per unit time (observable immediately)
R = P(task requires rework | task completed) in [0, 1]
F_effective = tasks that remain correct after completion
Extended model with rework cost multiplier:
F_net = F_short * (1 - R) - F_short * R * c_rework
= F_short * (1 - R * (1 + c_rework))
where:
c_rework = cost multiplier for rework (typically 0.4 to 2.0)
representing additional effort to fix vs. do-once拡張モデルでは、再作業が無料ではないという事実が考慮されています。再作業された各タスクは追加のリソースを消費します。診断、修正、再検証が必要なため、多くの場合、元のタスクより多くのリソースが消費されます。 c_rework = 1.4 (経験的平均) の場合、30% のリワーク率では、正味スループットは 30% ではなく 72% 減少します。
3. ゲートの品質とリワーク: 指数関数的減衰仮説
私たちは、リワーク率はゲートの品質とともに指数関数的に減衰すると仮説を立てています。直感的には、責任ゲートがエラー フィルターとして機能するということです。ゲート強度の各単位が、残りのエラーの比例部分を捕捉します。これは、カスケード フィルターによる信号の減衰に似ています。
Rework Decay Function:
R(g) = R_0 * e^(-beta * g)
where:
g = gate strength in [0, 1]
R_0 = baseline rework rate with no gates (g = 0)
beta = decay constant (gate effectiveness parameter)
Internal fit across 4 deployment datasets:
Deployment | R_0 | beta | R-squared
----------------|--------|-------|----------
Financial Ops | 0.312 | 3.41 | 0.967
Procurement | 0.281 | 2.98 | 0.943
Code Review | 0.247 | 3.72 | 0.971
Content Prod. | 0.193 | 2.54 | 0.938
Mean | 0.258 | 3.16 | 0.955内部データセット全体で 0.93 を超える R 二乗値は、指数関数的減衰モデルが有用な近似であることを示唆しています。減衰定数ベータは、ゲートが各ドメインでエラーを捕捉する際にどの程度効果的であるかを捕捉します。コード レビューは、自動チェックでコード エラーを比較的簡単に検出できるため、ベータ版が最も高く (3.72) あります。コンテンツの品質はより主観的であり、自動的に制御するのが難しいため、コンテンツ制作のベータ版は最も低くなります (2.54)。
4. ゲート オーバーヘッド: 品質のスループット コスト
ゲートは無料ではありません。各ゲート評価には時間と計算リソースが消費され、生の完了率が低下します。このオーバーヘッドをスループット削減要因としてモデル化します。
Gate Overhead Model:
F_short(g) = F_0 * (1 - alpha * g)
where:
F_0 = maximum completion rate with no gates (g = 0)
alpha = throughput sensitivity to gate strength
g = gate strength in [0, 1]
alpha typically ranges from 0.15 to 0.45:
alpha = 0.15 (lightweight gates: simple threshold checks)
alpha = 0.30 (moderate gates: evidence bundle verification)
alpha = 0.45 (heavy gates: full human review loop)
Linear model validated for g in [0, 0.9].
At extreme gate strength (g > 0.9), overhead becomes superlinear
due to queueing effects in human review pipelines.線形オーバーヘッド モデルは基本的なトレードオフを捉えています。つまり、ゲートを強化するとエラーは減少しますが、スループットも低下します。問題は、再作業の削減がスループットのコストを上回るかどうかです。
5. 最適なゲート強度の導出
実効スループット モデル、リワーク減衰関数、ゲート オーバーヘッド モデルを組み合わせると、正味スループット 目標がゲート強度の関数として得られます。
Net Throughput Function:
T_net(g) = F_short(g) * [1 - (1 + c_rework) * R(g)]
= F_0 * (1 - alpha*g) * [1 - (1 + c_rework) * R_0 * e^(-beta*g)]
where c_rework is the additional effort multiplier from Section 2.
The term (1 + c_rework) converts a rework event into both lost output
and corrective effort.
To find optimal g*, take dT_net/dg = 0:
dT_net/dg = F_0 * [ -alpha * (1 - K*e^(-beta*g))
+ (1 - alpha*g) * K*beta*e^(-beta*g) ]
= 0
where K = (1 + c_rework) * R_0.
Solving:
-alpha * (1 - K*e^(-beta*g)) + (1 - alpha*g) * K*beta*e^(-beta*g) = 0
This transcendental equation has a unique interior solution when the
objective is concave on [0, 1].
Numerical solution for the illustrative mean parameters
(R_0 = 0.258, beta = 3.16, alpha = 0.30, c_rework = 1.4):
K = 0.6192
g* ~= 0.569
T_net(g*) / T_net(0) ~= 1.95
R(g*) ~= 0.043正味の目的に最適なゲート強度は、最大限に緩くすることも、最大限に堅くすることもありません。これは、リワーク作業の価格が明示的に設定された場合、ゲートの強化による限界リワーク削減量が限界スループット コストと正確に等しくなる点を表します。これがこの記事の主なモデリング修正です。オペレーターが単純な F_Effective を最適化する場合、最適化はより早く行われます。 「T_net」を最適化すると、コストのかかる再加工によってより強力なゲートが正当化されるため、最適値は右にシフトします。
6. 二次条件と一意性
二次導関数をチェックすることで、g* が最大値 (最小値や鞍点ではない) であることを確認します。
Second-Order Verification:
d^2T_net/dg^2 = F_0 * [ -2*alpha*K*beta*e^(-beta*g)
- (1 - alpha*g)*K*beta^2*e^(-beta*g) ]
At g* ~= 0.569 with the illustrative mean parameters:
d^2T_net/dg^2 ~= -1.045 * F_0 < 0
The negative second derivative confirms g* is a local maximum.
In this parameter regime, the objective is strictly concave on [0,1],
so the numerical root is unique.一意性の結果は実際上重要です。これは、複数の局所最適値ではなく、選択した目的に対して最適なゲート強度が 1 つ存在することを意味します。組織は複雑な状況を調査する必要はありません。スループットがどの目標を意味するのかを決定し、1 つのスカラー非線形方程式を解く必要があります。
7. 感度分析
最適なゲート強度はパラメーターの不確実性に対してどの程度敏感ですか?各パラメータに関して g* の偏導関数を計算します。
Sensitivity of g* to Parameters (net objective):
Parameter | Baseline | Direction of effect on g*
----------|----------|--------------------------
R_0 | 0.258 | Higher baseline rework pushes g* upward
beta | 3.16 | More effective gates pull g* downward
alpha | 0.30 | Higher gate overhead pulls g* downward
c_rework | 1.4 | More expensive rework pushes g* upward
Key insight:
The optimum is no longer governed only by gate effectiveness.
Once rework cost is explicit, c_rework becomes a first-class
calibration parameter.感度分析により、運用上の推奨事項が変更されます。決定の問題が本当にネット スループットに関するものである場合、組織は「beta」だけでなく「c_rework」も慎重に見積もるべきです。やり直しのコストを無視するチームは、組織的に緩すぎるゲートを選択します。
8. スループットと品質のトレードオフのフロンティア
g を 0 から 1 まで変化させることにより、スループット品質空間でパレート フロンティアを追跡します。フロンティア上の各点は、異なるゲート構成を表します。
Throughput-Quality Frontier (illustrative mean parameters, c_rework = 1.4):
g | F_short/F_0 | R(g) | F_net/F_0 | Status
-----|-------------|--------|-----------|--------
0.0 | 1.000 | 0.258 | 0.381 | No gates
0.2 | 0.940 | 0.137 | 0.631 | Light
0.4 | 0.880 | 0.073 | 0.726 | Moderate
0.57 | 0.829 | 0.043 | 0.744 | g* (net optimum)
0.8 | 0.760 | 0.021 | 0.722 | Tight
1.0 | 0.700 | 0.011 | 0.682 | Maximum
Note: the simpler effective-throughput objective F_short*(1-R)
peaks earlier (around g ~= 0.32 for the same mean parameters).
The net objective shifts the optimum right because it prices the
effort of fixing errors after the fact.フロンティアは、2 つの目的間の実際的な違いを明らかにします。リーダーがただやり続けるだけの仕事を重視するなら、より軽いゲートを選択するでしょう。リーダーが下流側での手戻り作業の負担をすべて考慮している場合は、より強力なゲートを選択する必要があります。リスクに敏感なドメイン (財務、法務) の場合、組織は依然として、手戻りを減らすためにスループットの低下を受け入れ、最終的な最適値より右側で運用することを選択する可能性があります。
9. 実験的検証
90 日間にわたる静的 (g = 0.5) ゲート構成と最適化された (g = g*) ゲート構成間の A/B スタイルの比較を使用して、4 つの内部展開データセットに対してモデルを評価しました。
Experimental Results (90-day A/B test, 4 deployments):
Metric | Static (g=0.5) | Optimal (g=g*) | Delta
------------------------|----------------|----------------|-------
Raw Completion Rate | 87.2% | 79.6% | -8.7%
Rework Rate | 28.1% | 6.3% | -77.6%
Effective Throughput | 62.7% | 74.6% | +19.0%
Net Throughput (w/cost) | 51.3% | 68.7% | +33.9%
Human Escalation Rate | 18.4% | 23.1% | +25.5%
Cost per Effective Task | $14.20 | $10.70 | -24.6%
Per-Deployment Optimal g*:
Financial Ops: g* = 0.58 (high R_0, high beta)
Procurement: g* = 0.64 (high R_0, moderate beta)
Code Review: g* = 0.55 (moderate R_0, high beta)
Content Prod.: g* = 0.71 (moderate R_0, low beta)結果はモデルと方向的に一致しています。生の完了率は 8.7% 減少しましたが、実効スループットは 19% 増加しました。再作業コストを考慮した正味スループットは 33.9% 増加しました。重要な運用上のポイントは、正確なパーセンテージではなく、取引の兆候です。つまり、システムが処理する生のタスクが少なくても、より耐久性のある出力を作成できるということです。
10. ガバナンス設計への影響
指数関数的減衰モデルには、MARIA OS ゲート設計に対して 3 つの実際的な意味があります。まず、すべてのゲートはエスカレーション率ではなく、組織がリワーク作業に明示的に価格を設定しているかどうかに応じて、実効スループットまたは正味スループットへの影響によって評価する必要があります。意思決定の 25% をエスカレーションする一方で、やり直しを 30% から 5% に減らすゲートは、摩擦ではなく価値を生み出します。第 2 に、最適なゲート強度はドメイン固有です。ベースライン エラー率、ゲートの有効性、オーバーヘッド コスト、場合によっては再作業コストに依存します。これらはすべて、意思決定タイプによって異なります。第三に、組織は、各意思決定パイプラインの R_0、ベータ、および (重要な) c_rework を継続的に測定し、理想的には関連文書で説明されている動的適応ルールを使用して g* を定期的に再計算する必要があります。
結論
完了率はバニティ指標です。実効スループット (出荷したものから戻ってくるものを差し引いたもの) はすでに優れていますが、再作業に費用がかかる場合は、正味のスループットはさらに優れています。したがって、この記事の主な修正は数学的であると同時に概念的なものです。チームは、耐久性のある出力のみを最適化するのか、下流の作業全体を最適化するのかを決定する必要があります。その目的が明確になると、ゲート キャリブレーションはスタイルの好みではなく運用上の問題になります。完了率のみを測定する組織は、間違った機能を最適化しています。有効スループットまたは正味スループットを測定する組織は、最終的にガバナンスを生産性外部の摩擦としてではなく、生産性の一部として評価できるようになります。