ディープダイブ

Recursive Intelligence

MARIA OSが再帰的自己改善をどう実装するか — チャット駆動学習からディープリフレクションループまで。

チャット再帰ループ

チャットは生成しない。 チャットは改善する。

出力は監査され、結果は内部状態にフィードバックされ、次の判断構造が変化する。これが構造的再帰である。

品質ループパイプライン

ユーザー入力応答エビデンス抽出品質スコア差分分析プロンプト改修再実行

品質状態更新

Qt+1 = Qt + α(Scoret − Target) − β · Driftt

α: 改善学習率。β: ドリフト抑制係数。品質は偏差を抑制しながらTargetに収束する。

内部状態マシン

待機応答自己評価エラー検出改修再応答

収束条件

ドリフト率< ε
品質差分ΔQ < δ
エビデンス整合性> 99%

ダッシュボード指標

論理整合性エビデンス密度構造安定性ドリフト検出再帰回数

人間は感覚で評価する。MARIA OSは構造で評価する。

チャット実績インパクト

実際にユーザーに何が変わるのか

ワンショットのチャット応答から、エビデンス監査と再評価を内蔵した再帰チャットへ。出力だけでなく、次の判断構造そのものが更新される。

Before: シングルパスチャット

[Output]

矛盾監査なしで回答ドラフトが出力される。

[Evidence]

引用が乏しく、トレーサビリティが弱く、手作業の修正が必要。

After: 再帰監査チャット

[Loop]

出力 → 監査 → 差分チェック → 書き換え → 再検証。

[State Update]

失敗パターンが永続化され、次の判断で重み付けされる。

エージェントチームランタイムイメージ

プランナー

仮説ツリーとアクション構造を構築する。

クリティック

矛盾、ドリフト、根拠のない主張を発見する。

検証者

エビデンスの整合性とゲートの準拠を確認する。

プランナークリティック検証者更新されたポリシー

観測テレメトリ(チャット層)

完了タスク比率 / ジョブ

+28.6pt
57.1%85.7%

アクショントレース密度 / ジョブ

+27.2%
10.513.3

永続化アーティファクト / ジョブ

+50.0%
4.06.0

納品ゲートブロック率

-100pt
100%0%

ソース: artifacts/run-to-done/job_*.json (26ジョブ, 2026-02-13〜2026-02-14 UTC)。Before=waiting_approvalコホート (n=13), After=completedコホート (n=13)。

ユニバース再帰ループ

ユニバースは単に拡張しない。 安定しながら進化する。

アーティファクトが監査され、構造的ギャップが検出され、ポリシーが改修・再デプロイされる。品質とガバナンスがサイクルごとに改善される。

生産ループパイプライン

仕様エージェント実行アーティファクト監査エンジンギャップ検出ポリシー改修再デプロイ

アーティファクト品質更新

At+1 = At + γ(Compliance − Risk) + λ · InsightGain

γ: ガバナンス強度。λ: 学習効率。コンプライアンスがリスクを上回ると品質が向上し、インサイトによって加速される。

安定性条件

01ゲート密度 > 最小閾値
02責任境界が明示的に定義されている
03収束関数が負の勾配を持つ
dR/dt < 0  ∧  dError/dt < 0

進化ダッシュボード

意思決定スループットゲートトリガー率人間オーバーライド比率リスク封じ込め改善速度

チャット + ユニバース =

生成AI → Judgment OS

チャットは出力を改善する。ユニバースは構造を改善する。両者が合わさりJudgment OSになる。

ユニバース実績インパクト

再帰的自己改善のインパクトを可視化する

ユニバース層では、アーティファクト監査とポリシー再設計が継続的に実行され、品質とガバナンスが同時に向上する。変更はログに記録され、次のサイクルの構造に反映される。

ガバナンスコントロールルームイメージ

検出

監査エンジンがポリシーと構造のギャップをフラグ付け。

改修

ルールと責任ゲートが書き換えられる。

検証

リプレイテストが回帰とコンプライアンスを検証。

デプロイ

承認済みポリシーセットがランタイムに昇格。

仕様アーティファクト監査レポートポリシー v(t+1)

構造的意味

1. 出力の修正だけでなく、意思決定ルール自体を更新する。

2. エラーを記録し、次の設計・人員配置・ゲート判断に反映する。

3. 品質とガバナンスを同時に最適化する再帰サイクルを維持する。

観測テレメトリ(ユニバース層)

エビデンスアーカイブ完了率

+100pt
0%100%

納品ゲート承認率

+100pt
0%100%

承認待ちタスク率

-14.3pt
14.3%0%

ジョブあたり完了タスク数

+50.0%
4/76/7

ソース: artifacts/run-to-done/job_*.json (26ジョブ, 2026-02-13〜2026-02-14 UTC)。Before=waiting_approvalコホート (n=13), After=completedコホート (n=13)。

エージェントチームデプロイ例

設計エージェント

カバレッジ 92%

監査エージェント

検出率 88%

運用エージェント

復旧率 84%

記憶の階層化

短期記憶のパルスから関心を推定する。 重要なものだけを保存。必要なときだけ呼び出す。

記憶パイプライン

1入力ストリーム → 短期記憶バッファ
2キーワードパルス検出器(頻度、鮮度、再訪問、感情)
3関心ベクトルビルダー → I 更新
4長期記憶ルーター(ゲート判定)
5呼び出しプランナー → オンデマンド検索
6応答コンポーザー → 最適化された出力

キーワードごとの関心スコア

S(k) = w1·freq + w2·recency + w3·revisit + w4·emotion − w5·noise

freq: 出現回数。recency: 鮮度の重み。revisit: 不在後の再訪問。emotion: 強調との共起。noise: 一時的抑制。

関心ベクトル更新

It+1 = normalize(It + η · St)

関心ベクトルは重み付けされたキーワードスコアを蓄積し、各サイクルで再正規化される。

ゲート設計

保存ゲート

保存条件: 高い繰り返し、意思決定に影響、または高い再利用価値がある場合のみ。生ログ禁止 — 要約のみ。

呼び出しゲート

常時オンは禁止。必要なときだけ検索。自然な会話の流れを保持。

記憶保存ゲート — YAML

gate_engine:
  name: "memory-save-gate"
  defaults:
    fail_closed: true
    store_mode: "summary_only"
    pii_policy: "block"
  rules:
    - id: "MS-01-block-pii"
      if: { signal: "contains_pii", value: true }
      then: { action: "deny" }
    - id: "MS-02-allow-stable-preference"
      if: { freq: ">= 3", revisit: ">= 1" }
      then:
        action: "allow"
        store: { format: "canonical_summary" }
    - id: "MS-05-require-user-consent"
      if: { sensitivity: "high", emotion: ">= 0.7" }
      then: { action: "ask_user" }
    - id: "MS-06-fallback-deny"
      then: { action: "deny", reason: "Fail-closed" }

短期パルスから関心を推定。重要なものだけ保存。必要なときだけ呼び出す。

深層リフレクションループ

頻出テーマから潜在意図へ。 価値の矛盾を検出。仮説を生成。エビデンスで検証。

リフレクションパイプライン

1関心ベクトル I → テーマグラフビルダー
2矛盾・緊張ファインダー
3潜在仮説ジェネレーター(複数の H)
4エビデンステストゲート → 根拠のないものを棄却
5リフレクション質問シンセサイザー
6ポリシーセット更新 → 対話戦略の調整

潜在仮説フォーマット

H = { driver, fear, value, constraint, desired_future }
driver動機の源泉
fear回避すべき結果
value判断基準
constraint現実世界の制約
desired_future目指す将来像

仮説スコアリング

Score(H) = a·support + b·predictability + c·stability − d·intrusiveness

support: 会話からのエビデンス。predictability: 次の発話の予測能力。stability: 時間経過に対するロバスト性。intrusiveness: 過度な介入のリスク。

安全設計

プライバシーゲート

ユーザーは望まない深堀りを停止可能。深度レベルは段階的。

説明可能性ゲート

仮説の根拠が要約できない場合、その仮説は提示されない。

対話ルール

直接断定しない。仮説として提示し、確認の質問で検証する。

Hypothesis: 「安全性が達成よりも優先されているようです」
Question: 「守りたいのは結果ですか、それとも関わる人々ですか?」

緊張を検出し、エビデンスから仮説を生成し、対話で検証する。会話が進むほど意図が明確になる。

トリガールール

短期パルスからディープダイブを自動トリガー。

12の観測シグナル、3段階の侵襲性レベル。仮説はエビデンスで検証。会話の自然さは決して損なわない。

IDシグナルLvlアクション
TD-01頻度L1要約 + 関心の言語化
TD-02再訪問L2仮説2つ提示 + 確認
TD-03スパイクL2ディープダイブ候補を提案
TD-04共起クラスタL2テーマ命名 + 構造化Q
TD-05強調L2価値観または恐れを確認
TD-06感情変化L3安全確認 + ペース調整
TD-07未解決質問L3提示 + 順序提案
TD-08価値矛盾L3矛盾仮説 + 優先順位Q
TD-09固定用語L1定義の確定 + 用語集
TD-10回避L2周辺探索
TD-11意思決定接近L2意思決定フレーム + 選択肢
TD-12高再利用価値L1テンプレート提案 + 保存

L1低侵襲性

要約、関心の言語化、選択肢の提示。会話の流れを乱さない。

L2中侵襲性

複数の仮説を提示し、質問で検証。テーマを命名する。

L3高侵襲性

価値の矛盾、恐れ、制約、目指す将来像。同意が必要。

短期パルスからディープダイブを自動トリガー。仮説はエビデンスで検証、会話の流れを決して壊さない。

適応型応答エンジン

ディープダイブは画一的ではない。 ユーザーに合わせて深度と表現を適応。

ユーザーモデル — 4軸(KICS)

U = [K, I, C, S]
K — 知識レベルclarification_rate, correct_usage
I — 関心の強度keyword_freq, revisit_rate
C — 認知レジリエンスmulti_step_acceptance, abstraction
S — コミュニケーションスタイルverbosity, directness, tone

ユーザーモデル更新

Ut+1 = (1 − ρ) Ut + ρ · f(xt)

ρ: 適応率(0.1〜0.25)。x_t: 最新の会話ターンからの観測ベクトル。固定されない — 継続的に更新。

ディープダイブ強度

d = σ(a1I + a2·tension + a3·decision_prox − a4·intrusiveness)

シグモイド有界の強度。高い関心 + 緊張 = より深い探索。高い侵襲性リスク = 抑制。L1/L2/L3にマッピング。

テンプレート選択 — 最適効用

t* = argmaxt E[wA·Align + wL·Learn + wS·Safety − wF·Friction]

Alignment: 関心ベクトルとの一致。Learning: 意図の明確化。Safety: 侵襲性の範囲内。Friction: 押しつけがましさのペナルティ。

テンプレートセレクター — YAML

deep_dive_engine:
  name: "adaptive-deep-dive"
  defaults:
    fail_closed: true
    require_consent_level: 3
  math:
    deep_dive_intensity:
      formula: "sigmoid(a1*I + a2*tension
        + a3*decision_proximity
        - a4*intrusiveness_risk)"
    readability_target:
      formula: "r0 + r1*(1-K) + r2*(1-C)"
  templates:
    - id: "T-A-simple"
      when: "K <= 0.45"
      parts: [mirror, summary, hypothesis, Q]
    - id: "T-B-structured"
      when: "C >= 0.55 and tension >= 0.45"
      parts: [mirror, structure, conflict, Q]
    - id: "T-C-sensitive"
      when: "emotion >= 0.70"
      parts: [safety_check, soft_summary, Q]

適応的重み更新

wt+1 = wt + η(yt − ŷt) · ∂Utility/∂w

y_t: 観測されたユーザー応答品質。ŷ_t: 期待される応答。η: 学習率。重みはセッションを通じて最適なテンプレート選択に収束。

ディープダイブは画一的ではない。深度と表現はユーザーに自動最適化。安全ゲートが侵襲性を制御。

統合フロー

エンドツーエンドパイプライン。 短期パルスから適応型ディープダイブまで、クローズドループ。

10ステップ実行フロー

01ウィンドウ構築 — 直近40発話
02キーワードパルス — 頻度、再訪問、共起、感情、回避
03関心ベクトル更新 — I_t+1
04ユーザーモデル更新 — K, I, C, S
05ディープダイブ強度 — d → L1/L2/L3
06テンプレート効用評価 — argmax
07応答プラン構成 — パーツ + 制約
08応答生成 — 選択されたテンプレートから
09結果観測 — y_t(応答品質、継続率)
10重み更新 — w_t+1(クローズドループ学習)
wt+1 = wt + η(yt − ŷt) ∂U/∂w

会話が積み重なる。各セッションが次をより精緻にする。

呼び出しゲート — YAML

gate_engine:
  name: "memory-recall-gate"
  defaults:
    fail_closed: true
    recall_mode: "on_demand"
    max_recall_items: 3
    min_relevance: 0.62
    pii_policy: "block"
  triggers:
    - id: "RG-01-explicit-request"
      if: { signal: "explicit_memory_request" }
      then: { action: "recall", max_items: 3 }
    - id: "RG-02-project-continuation"
      if: { project_continuation: true }
      then: { action: "recall", mode: "project_card" }
    - id: "RG-04-preference-needed"
      if: { preference_needed: true }
      then: { action: "recall", privacy: "strict" }
    - id: "RG-06-smalltalk"
      then: { action: "deny" }
  math:
    recall_necessity:
      formula: "sigmoid(b1*explicit + b2*coref
        + b3*missing - b7*intrusiveness)"

運用原則

雑談では呼び出しをトリガーしない — 自然さを保持
明示的リクエストなしの高侵襲性 = 拒否
保存ゲートと呼び出しゲートは別のシステム
呼び出しの理由が説明可能でなければ使用しない

短期パルス → ユーザーモデル → テンプレート選択 → 学習更新。エンドツーエンド、クローズドループ。会話のたびに精度が向上。