ブログへ戻る
TAG ARCHIVE
reinforcement-learning
MARIA OSブログのreinforcement-learningタグに関連する2件の記事。ボンギンカンの判断OS、AIガバナンス、Agentic Company研究をテーマ別に参照しやすい技術記事アーカイブです。
Intelligence2026年2月15日36 min read
Action Routingの再帰適応: MARIA OSが実行結果から学習する仕組み
実行フィードバックで高品質方策へ収束しつつ、Lyapunov安定性を維持する自己改善ルーティング
固定ルール型ルーティングでは、能力変化や負荷変動に追従できない。本稿は実行結果を用いて θ_{t+1}=θ_t+η∇J(θ_t) で方策を更新する再帰適応を提案する。確率近似の下での収束性とLyapunov安定性を示し、Thompson samplingと多エージェント協調で探索と競合抑制を両立する。
action-routerrecursive-learningadaptationMARIA-OSreinforcement-learningexecution-feedbackself-improvement
Mathematics2026年2月14日35 min read
ゲート付き自律運用のためのActor-Critic強化学習: 責任制約下のPPO最適化
中リスク業務を対象に、人間承認ゲートを組み込んだ方策学習を実装するControl Layer設計
PPOベースのActor-Criticを責任境界付き環境へ適用し、行動空間をゲート条件で動的制約する。方策勾配の制約項と信頼領域更新を通じて、自律性と統治準拠を同時に維持する運用枠組みを示す。
actor-criticPPOreinforcement-learninggated-autonomypolicy-gradienthuman-approvalrisk-managementagentic-companycontrol-theoryMARIA OS