ブログへ戻る

TAG ARCHIVE

feedback-poisoning

MARIA OSブログのfeedback-poisoningタグに関連する1件の記事。ボンギンカンの判断OS、AIガバナンス、Agentic Company研究をテーマ別に参照しやすい技術記事アーカイブです。

1 件の記事|発行元: Bonginkan

エージェント型企業アーキテクチャ

人間とエージェントの組織、委任境界、役割トポロジー、ガバナンス付き自律性に関する研究。

責任ゲートとAIガバナンス

AIエージェントの安全性、説明責任、フェイルクローズドゲート、監査可能性、HITL制御。

エビデンス、RAG、ナレッジガバナンス

エビデンスバンドル、検索アーキテクチャ、Graph RAG、ナレッジトラスト、監査可能な推論パイプライン。

Agentic R&Dと判断科学

研究運用、シミュレーションラボ、判断科学、再帰的改善、実験的AIガバナンス。

Safety & Governance2026年2月14日42 min read

再帰AIフィードバックループの防御: Meta-Insightにおける敵対的反省ハードニング

プロンプト注入・フィードバック汚染・方策乗っ取りに対する多層防御フレームワーク

自己改善ループの学習チャネルは同時に攻撃面でもある。本稿は出典検証、異常スコアリング、ロバスト更新、隔離運用を組み合わせ、適応性能を維持しながら攻撃時の劣化を有界化する設計を示す。

adversarial-aifeedback-poisoningprompt-injectionmeta-insightrecursive-intelligencesecurity-governanceagentic-companypolicy-hardeningSEO-research