TAG ARCHIVE
testing
2 MARIA OS blog articles tagged testing, organized as a Bonginkan topic archive for search engines and LLM retrieval.
Judgment OS / Decision Intelligence OS
Core MARIA OS research on turning organizational judgment into executable decision systems.
Agentic Company Architecture
Research on human-agent organizations, delegation boundaries, role topology, and governed autonomy.
Responsibility Gates and AI Governance
Safety, accountability, fail-closed gates, auditability, and human-in-the-loop control for AI agents.
Multi-Agent Mathematics
Formal models for convergence, stability, game theory, graph dynamics, and multi-agent evaluation.
Evidence, RAG, and Knowledge Governance
Evidence bundles, retrieval architecture, Graph RAG, knowledge trust, and auditable reasoning pipelines.
Agentic R&D and Judgment Science
Research operations, simulation labs, judgment science, recursive improvement, and experimental AI governance.
MARIA OS Evaluation Harness: A Standard Testing Infrastructure for Measuring Agent Quality
Formal test categories, composite scoring, and continuous evaluation pipelines that transform agent quality from subjective assessment into reproducible engineering measurement
Agent quality cannot be managed if it cannot be measured. Traditional software testing verifies deterministic input-output mappings, but AI agents operate in stochastic, multi-step decision spaces where correctness is contextual, safety is probabilistic, and governance compliance is structural. This paper introduces the MARIA OS Evaluation Harness — a standardized testing infrastructure that defines four test categories (correctness, safety, performance, governance compliance), four primary metrics (decision accuracy, gate compliance rate, evidence quality score, latency under load), and a formal composite scoring framework. We present the harness architecture comprising a test runner, scenario generator, oracle comparator, and regression detector, all scoped through MARIA coordinates for hierarchical test targeting. We prove that the composite agent score is monotonically responsive to genuine quality improvements and demonstrate that continuous evaluation pipelines catch 94.7% of quality regressions before production deployment.
MARIA OS 評価ハーネス:Agentの品質を測定するための標準テストインフラストラクチャ
形式的テストカテゴリ、複合スコアリング、継続的評価パイプラインによって、Agent品質を主観的評価から再現可能なエンジニアリング測定へ変革する
Agent品質は測定できなければ管理できない。従来のソフトウェアテストは決定論的な入出力マッピングを検証するが、AIエージェントは確率的かつ多段階の意思決定空間で動作し、正確さは文脈依存であり、安全性は確率的であり、ガバナンス準拠は構造的である。本論文はMARIA OS評価ハーネスを紹介する——4つのテストカテゴリ(正確性、安全性、パフォーマンス、ガバナンス準拠)、4つの主要メトリクス(意思決定精度、Gate準拠率、エビデンス品質スコア、負荷時レイテンシ)、そして形式的な複合スコアリングフレームワークを定義する標準化されたテストインフラストラクチャである。テストランナー、シナリオジェネレーター、オラクルコンパレーター、リグレッションディテクターで構成されるハーネスアーキテクチャを提示し、すべてのコンポーネントがMARIA座標系を通じてスコーピングされる。複合Agentスコアが真の品質改善に対して単調応答性を持つことを証明し、継続的評価パイプラインが本番デプロイ前に94.7%の品質回帰を検出することを実証する。