Engineering2026年3月8日30 min read

MARIA OS 評価ハーネス:Agentの品質を測定するための標準テストインフラストラクチャ

形式的テストカテゴリ、複合スコアリング、継続的評価パイプラインによって、Agent品質を主観的評価から再現可能なエンジニアリング測定へ変革する

Agent品質は測定できなければ管理できない。従来のソフトウェアテストは決定論的な入出力マッピングを検証するが、AIエージェントは確率的かつ多段階の意思決定空間で動作し、正確さは文脈依存であり、安全性は確率的であり、ガバナンス準拠は構造的である。本論文はMARIA OS評価ハーネスを紹介する——4つのテストカテゴリ(正確性、安全性、パフォーマンス、ガバナンス準拠)、4つの主要メトリクス(意思決定精度、Gate準拠率、エビデンス品質スコア、負荷時レイテンシ)、そして形式的な複合スコアリングフレームワークを定義する標準化されたテストインフラストラクチャである。テストランナー、シナリオジェネレーター、オラクルコンパレーター、リグレッションディテクターで構成されるハーネスアーキテクチャを提示し、すべてのコンポーネントがMARIA座標系を通じてスコーピングされる。複合Agentスコアが真の品質改善に対して単調応答性を持つことを証明し、継続的評価パイプラインが本番デプロイ前に94.7%の品質回帰を検出することを実証する。

evaluation-harnessagent-qualitytestingbenchmarksagentic-company