TAG ARCHIVE
evaluation-harness
MARIA OSブログのevaluation-harnessタグに関連する2件の記事。ボンギンカンの判断OS、AIガバナンス、Agentic Company研究をテーマ別に参照しやすい技術記事アーカイブです。
判断OS / 決断インテリジェンスOS
組織の判断を実行可能な意思決定システムに変換するMARIA OS中核研究。
エージェント型企業アーキテクチャ
人間とエージェントの組織、委任境界、役割トポロジー、ガバナンス付き自律性に関する研究。
責任ゲートとAIガバナンス
AIエージェントの安全性、説明責任、フェイルクローズドゲート、監査可能性、HITL制御。
マルチエージェント数学
収束、安定性、ゲーム理論、グラフダイナミクス、マルチエージェント評価の形式モデル。
エビデンス、RAG、ナレッジガバナンス
エビデンスバンドル、検索アーキテクチャ、Graph RAG、ナレッジトラスト、監査可能な推論パイプライン。
Agentic R&Dと判断科学
研究運用、シミュレーションラボ、判断科学、再帰的改善、実験的AIガバナンス。
ハーネス駆動開発:Runtime Evidenceから逆算してAgentic Systemを作る
実装より先にscenario、gate、scorecard、repair boundaryを設計する開発方法論
ハーネス駆動開発では、dynamic harnessをテスト補助ではなく主仕様として扱う。promptやtoolを書く前に、runtime episode、failure taxonomy、scorecard、authority boundaryを定義し、実装を測定可能な振る舞いへ収束させる。
MARIA OS 評価ハーネス:Agentの品質を測定するための標準テストインフラストラクチャ
形式的テストカテゴリ、複合スコアリング、継続的評価パイプラインによって、Agent品質を主観的評価から再現可能なエンジニアリング測定へ変革する
Agent品質は測定できなければ管理できない。従来のソフトウェアテストは決定論的な入出力マッピングを検証するが、AIエージェントは確率的かつ多段階の意思決定空間で動作し、正確さは文脈依存であり、安全性は確率的であり、ガバナンス準拠は構造的である。本論文はMARIA OS評価ハーネスを紹介する——4つのテストカテゴリ(正確性、安全性、パフォーマンス、ガバナンス準拠)、4つの主要メトリクス(意思決定精度、Gate準拠率、エビデンス品質スコア、負荷時レイテンシ)、そして形式的な複合スコアリングフレームワークを定義する標準化されたテストインフラストラクチャである。テストランナー、シナリオジェネレーター、オラクルコンパレーター、リグレッションディテクターで構成されるハーネスアーキテクチャを提示し、すべてのコンポーネントがMARIA座標系を通じてスコーピングされる。複合Agentスコアが真の品質改善に対して単調応答性を持つことを証明し、継続的評価パイプラインが本番デプロイ前に94.7%の品質回帰を検出することを実証する。