ブログへ戻る

TAG ARCHIVE

policy-gradient

MARIA OSブログのpolicy-gradientタグに関連する1件の記事。ボンギンカンの判断OS、AIガバナンス、Agentic Company研究をテーマ別に参照しやすい技術記事アーカイブです。

1 件の記事|発行元: Bonginkan

判断OS / 決断インテリジェンスOS

組織の判断を実行可能な意思決定システムに変換するMARIA OS中核研究。

エージェント型企業アーキテクチャ

人間とエージェントの組織、委任境界、役割トポロジー、ガバナンス付き自律性に関する研究。

マルチエージェント数学

収束、安定性、ゲーム理論、グラフダイナミクス、マルチエージェント評価の形式モデル。

Mathematics2026年2月14日35 min read

ゲート付き自律運用のためのActor-Critic強化学習: 責任制約下のPPO最適化

中リスク業務を対象に、人間承認ゲートを組み込んだ方策学習を実装するControl Layer設計

PPOベースのActor-Criticを責任境界付き環境へ適用し、行動空間をゲート条件で動的制約する。方策勾配の制約項と信頼領域更新を通じて、自律性と統治準拠を同時に維持する運用枠組みを示す。

actor-criticPPOreinforcement-learninggated-autonomypolicy-gradienthuman-approvalrisk-managementagentic-companycontrol-theoryMARIA OS