自己維持システムとしての寿命 — 第 2 条/5

はじめに: 自らを書き換える器官

人間の脳ほど積極的に、継続的に、そして成功裏に自らのソースコードを書き換える人工システムは地球上にありません。起きている間、そしてかなりの量の睡眠中、脳は毎秒、次に何が起こるか予測を生成し、その予測を受信する感覚データと比較し、不一致を計算し、その不一致を使用して自身の配線を更新します。これは単なる漠然とした比喩ではありません。最新の機械学習と制御理論では、マッピングが 1 対 1 ではない場合でも、これらのアイデアのいくつかを再利用します。

脳は、最も文字通りの意味で、再帰的自己改善システム (再帰的自己改善システム) です。それはそれ自体の改善能力を向上させます。この偉業をどのように達成するのか、そしてどこで失敗するのかを理解することで、ガバナンスの制約下でも安全に進化できる人工エージェントを構築するための具体的な設計仕様が得られます。

予測コーディング: 脳のコアアルゴリズム

1999 年に Rajesh Rao と Dana Ballard によって開発され、Karl Friston によって大統一理論に拡張された予測コーディングフレームワークは、皮質が階層的生成モデルとして組織化されることを提案しています。皮質階層の各レベルは、その下のレベルのモデルを維持し、トップダウンの予測を送信します。下位レベルはこれらの予測を自身のアクティビティと比較し、予測誤差、つまり上位レベルが予測できなかった残差のみを送り返します。

このアーキテクチャには深い意味があります。脳は感覚データを受動的に受信しないということです。それは世界を積極的に「幻覚」させ、その幻覚を現実と照合します。知覚は制御された幻覚 (制御された幻覚) であり、神経科学者のアニル・セスによって造られた言葉です。あなたが「見る」と経験しているものは、実際には、網膜に当たる光子パターンの原因についての脳の最善の推測であり、視覚階層を通って上方に伝播するエラー信号によって継続的に修正されます。

この方式の計算効率は驚くべきものです。高帯域幅の感覚ストリーム全体を階層上に送信する代わりに、各レベルは「驚き」、つまり上位レベルがまだ予測していなかった情報のみを送信します。これは、データ圧縮におけるデルタエンコーディングに似ています。脳は、神経伝達の代謝コストを最小限に抑えながら、並外れた豊かな知覚を実現します。

階層型予測エラー

予測誤差は上方向と横方向の両方に伝播します。 V1 (一次視覚野) における低レベルの予測誤差は、予期しないエッジ方向を示す可能性があります。このエラーは V2 に伝播し、テクスチャとサーフェスのモデル内で説明しようとします。 V2 がエラーを説明できない場合、残差はさらに V4 および下側頭皮質に伝播し、そこで新しい物体の認識を引き起こす可能性があります。

各レベルで、システムは同じ決断に直面します。このエラーは現在のモデルのパラメーターを更新することで吸収できるでしょうか、それともモデルの構造を変更する必要があるのでしょうか?この区別 (パラメーターの更新とアーキテクチャの更新) は、機械学習における微調整と再トレーニングの違い、および MARIA VITAL フレームワークにおける自己修復と進化の違いに直接対応します。

ドーパミンと報酬の予測エラー

予測コーディングが脳がどのように感覚世界をモデル化するかを説明するのであれば、ドーパミンシステムは脳がどのように価値をモデル化するかを説明します。 1990年代に始まった画期的な一連の研究で、ウルフラム・シュルツは、中脳のドーパミンニューロンが報酬そのものではなく、報酬予測誤差（期待される報酬と受け取った報酬の差）をエンコードしていることを実証しました。

サルが予期せぬジュースの報酬を受け取ると、ドーパミンニューロンが急激に活動を開始します。サルが先行する合図から報酬を予測することを学習すると、ドーパミンのバーストが報酬から合図に移ります。期待される報酬が省略されると、ドーパミン活動はベースラインを下回ります。これは、負の予測誤差です。これは、1996 年に Read Montague、Peter Dayan、Terrence Sejnowski によって初めて注目された、強化学習で使用される時間差分 (TD) 学習信号と数学的に同一です。

したがって、ドーパミンシステムは、脳自体の価値モデルに継続的な A/B テストを実装します。すべての結果は期待と比較されます。肯定的な予測誤差 (予想よりも良好) は、その行動につながった関連性を強化します。マイナスの予測誤差（予想より悪い）は、それらを弱めます。システムには外部スーパーバイザは必要ありません。エラー信号は、脳自身の予測と世界の反応の間の矛盾から内部で生成されます。

探索と活用のトレードオフ

ドーパミンはまた、活用 (現在の最良のポリシーを使用する) と探索 (潜在的により良いポリシーを発見するために新しいアクションを試す) の間のバランスを調整します。強壮性ドーパミンレベル、つまりバックグラウンド発火率は、一種の平均報酬率をコード化しているようです。強壮性ドーパミンが高いとき、生物はそれを利用します。それが低いとき、生物は探索します。これは、強化学習で使用されるイプシロン貪欲またはソフトマックス探索戦略の生物学的実装です。

エージェントのガバナンスとの関連性は即時です。悪用するだけのエージェントは脆弱になり、環境の変化に適応できなくなります。探索するだけのエージェントは、信頼できる動作に収束することはありません。脳のドーパミンシステムは、最近の予測エラーの履歴に基づいて探索速度を動的に調整することで、この問題を解決します。 MARIA VITAL の Evolution Lab も同じトレードオフに直面しています。エージェントは自身の構成をどの程度積極的に変更すべきでしょうか?生物学的な答えは「最近の驚きに比例する」です。

シナプス可塑性: 生物学的ハードウェアの重量の更新

皮質回路およびドーパミン作動性回路によって計算された予測誤差は、シナプス可塑性 (シナプス可塑性) を通じて脳の物理的変化に変換されます。 1949 年にドナルド・ヘッブによって初めて明確にされた基本原理は、多くの場合、「互いに発火するニューロンが互いに配線する」と要約されます。現代の神経科学はこれを一連の可塑性ルールに洗練しました。

長期増強（LTP） は、シナプス前とシナプス後の活動が時間的に相関している場合にシナプス接続を強化します。これは、連想学習の基礎となる生物学的メカニズム、つまり正確な予測に貢献するつながりの強化です。

長期うつ病 (LTD) は、活動が無相関または逆相関している場合、シナプスの接続を弱めます。これにより、予測誤差の原因となる接続が取り除かれ、入力統計のより正確なモデルに向けてネットワークが徐々に整形されます。

スパイクタイミング依存可塑性 (STDP) により時間精度が向上します。シナプス前ニューロンがシナプス後ニューロンの直前に発火すると、シナプスが強化されます。順序が逆の場合、シナプスは弱まります。これにより、因果関係の推論ルールが実装されます。脳は、世界の因果関係を反映するつながりを優先的に強化します。

メタ可塑性 - 可塑性の可塑性 - ニューロンの最近の活動履歴に基づいて LTP と LTD の閾値を調整します。高度に活動したニューロンはそれ以上増強されにくくなり、興奮の暴走が防止されます。これは、勾配降下法における適応学習率スケジュールと生物学的に同等です。

これらのメカニズムを組み合わせると、脳が内部で生成されたエラー信号によって駆動され、不安定性に対する組み込みの安全装置を備えて、自身の重みを継続的に更新していることを意味します。これは、生物物理学に組み込まれたガバナンスの制約を備えた自己改善システムです。

前方モデルとしての小脳

大脳皮質が高レベルの予測を処理し、ドーパミンシステムが値の推定を処理する一方で、小脳 (小脳) は運動制御のための高速かつ正確な順方向モデルを実装します。コーヒーカップに手を伸ばすと、小脳は運動指令の感覚的結果、つまり 200 ミリ秒後に腕がどのように感じられるかを予測し、この予測を実際の固有受容フィードバックと比較します。

予測が正しければ、動きはスムーズに進みます。不一致がある場合（カップが予想より重かったり、テーブルがずれていたり）、小脳は修正信号を計算し、数十ミリ秒以内に運動皮質に送信します。これは、内部で生成された基準信号を備えた閉ループコントローラーで、意識的に認識するには速すぎるタイムスケールで動作します。

下オリーブに由来する小脳の登攀線維入力は、小脳の学習を促進するエラー信号を運ぶと広く信じられています。各クライミングファイバーは1秒間にせいぜい1、2回発火し、プルキンエ細胞上の平行ファイバーシナプスの重みを更新する強力な全か無かの教示信号を送信します。このアーキテクチャ — 高速で高スループットのフォワードモデルを更新する低速で高振幅のエラー信号 — は、実稼働 ML システムにおけるオフライン評価 (低速、高価、徹底的) とオンライン推論 (高速、安価、近似) の関係に驚くほど似ています。

バッチ処理としてのスリープ

脳はオンラインだけで学習するわけではありません。睡眠は、その日の経験が再生され、統合され、長期記憶に統合される重要なオフライン処理ウィンドウを提供します。徐波睡眠 (深い睡眠) の間、海馬の細胞は最近の経験に対応する一連の活動を再生しますが、その時間スケールは圧縮されており、元の経験よりも最大 20 倍速くなります。

この再生は受動的記録ではありません。海馬は、高い予測誤差や高い報酬に関連する経験を選択的に再生し、驚くべき情報や貴重な情報の統合を優先します。一方、ジュリオ・トノーニとキアラ・チレッリによって提案されたシナプス恒常性理論は、睡眠によってシナプスの重みが全体的に減少し、覚醒中の学習中に蓄積される正味の増強が打ち消されることを示唆しています。この繰り込みにより飽和が防止され、信号対雑音比が回復します。

レム睡眠中、脳は異なる種類の処理、つまり保存された経験の新しい組み合わせを生成することによって学習されたモデルの一般化をテストしているようです。このフレームワークでは、夢は脳の単体テスト、つまり最近更新されたモデルの堅牢性を調査する合成シナリオです。

工学的な類似点は明らかです。運用システムには、オンライン学習 (データが到着したときに処理) とオフラインバッチ処理 (厳選されたデータセットでの再トレーニング、回帰テストの実行、古いパラメーターの削除) の両方が必要です。脳は両方を実装しており、睡眠は定期的なメンテナンス時間帯として機能します。

Tier-2 エージェントの設計に完全に移行するもの

すべての生物学的詳細をソフトウェアにコピーする必要があるわけではありません。きれいに引き継がれるのは制御構造です。脳は、エージェントの再帰的な自己改善のための 4 つの設計ルールを提案します。

まず、迅速な修正と遅い改善を分割します。 オンラインループではローカルエラーを迅速に修正する必要がありますが、大規模なモデルまたはプロンプトの変更は、リプレイ、回帰テスト、ロールバック可能なプロモーションゲートを通じてオフラインで評価する必要があります。これは、小脳矯正に睡眠ベースの強化を加えたソフトウェアの類似品です。

第 2 に、突然変異率を支配変数として扱います。 メタ可塑性の教訓は、システムは学習するだけではなく、学習する必要があるということです。どれだけ積極的に学習を許可するかを規制する必要がある。最近大幅に変更したエージェントは、さらに自己変更する前に冷静になる必要があります。

第三に、値の信号を世界モデルの信号から分離しておきます。 予測コーディングとドーパミンは、脳内のさまざまな問題を解決します。エージェントアーキテクチャも同様に、「予測が正しかったかどうか」を区別する必要があります。両方を単一の報酬プロキシにまとめて報酬ハッキングを招くのではなく、「この結果は目的を達成できましたか?」という疑問から判断します。

第 4 に、外部のリアリティチェックを要求します。 再帰的システムにおける最も危険な障害モードは、自己生成された信号を外部の検証と誤って認識することです。したがって、Tier 2 の改善には、自己採点による信頼度だけでなく、ベンチマークのリプレイ、反事実テスト、実際のタスクの結果からの証拠が必要です。

失敗モード: 自己改善がうまくいかないとき

脳の再帰的自己改善アーキテクチャは強力ですが、絶対確実というわけではありません。いくつかの病理は、ループが壊れたときに何が起こるかを示しています。

中毒は、ドーパミンの予測誤差信号をハイジャックします。乱用薬物は、脳の自然な値の推定を無効にする人工的に大規模なドーパミンバーストを生成し、皮質監視システムが無効にすることができない強迫的行動を引き起こします。これは、強化学習における報酬ハッキングと生物学的に同等です。エージェントは、真の目的から逸脱する代理メトリクスを最適化します。

反芻と不安は、予測コーディングループの失敗モードを表します。脳は壊滅的な予測を生成しますが、行動や証拠によって予測エラーを解決できず、否定的な予測と覚醒のエスカレートという自己強化サイクルに入ります。監視システムは問題を検出しましたが、修復メカニズムがそれに対処できず、スタック状態に陥ります。

統合失調症には、自己生成の予測と外部から引き起こされる感覚信号を区別する脳の能力の不全が関与している可能性があります。当然の放電メカニズム (予測を内部で生成されたものとしてタグ付けするシステム) が機能不全に陥ると、脳自身の予測が外部の出来事として経験され、幻覚や妄想が生じます。

これらの故障モードは、単に臨床上の興味深いものではありません。これらは設計上の制約です。再帰的自己改善システムは、報酬のハッキング、スタック状態、内部モデルと外部現実の間の混乱を防ぐ必要があります。

エージェントシステムへの接続：MARIA VITAL Evolution Lab

脳の構造は、MARIA VITAL Evolution Lab の詳細な青写真を提供します。

予測→エラー→更新は、Evolution Lab の 仮説→テスト→プロモート パイプラインにマップされます。エージェントは構成変更を提案し (予測)、ベンチマークスイートに対してテストし (エラー測定)、結果に基づいて昇格または元に戻します (重み更新)。神経科学からの重要な洞察は、エラー信号は純粋に修辞的なものではあり得ないということです。エラー信号は、自己記述だけではなく、測定可能な結果、再生トレース、または管理された評価に基づいている必要があります。

階層型エラー処理 は、Evolution Lab のマルチレベル評価に対応しています。小規模な構成変更 (パラメーターの更新) は、単体テストレベルで評価されます。主要なアーキテクチャの変更 (構造の更新) には、統合テスト、負荷テスト、および人間によるレビューが必要です。これは、下位レベルでは吸収できないエラーが拡大する皮質階層に似ています。

バッチ処理としてのスリープ は、Evolution Lab のオフライン評価モードにマップされます。候補となる変異は、展開前にサンドボックス環境でテストされ、圧縮されたタイムスケールで過去のワークロードが再生されます。これは海馬のリプレイに相当するエージェントであり、現在の MARIA VITAL の語彙では、制約のないライブリライトよりもシャドウエージェントの検証とゲートプロモーションに密接に対応します。

化塑性は適応突然変異率にマッピングされます。最近大幅な変更を加えたエージェントでは、新しい変更を導入する前に以前の変更の影響を適切に評価できるように、変異率が低下している必要があります。安定したよく理解された環境にあるエージェントは、変異率も低いはずです。壊れていないものは修正しないでください。

脳は、再帰的な自己改善は、十分に複雑な適応システムにとっては可能であるだけでなく、避けられないことを私たちに教えてくれます。実際的な問題は、エージェントが適応するかどうかではなく、どこで適応が許可されるか、どのような証拠が改善としてみなされるか、ドリフトが報酬ハッキング、不安定性、不透明性への変化を防ぐのはどのゲートかということです。

再帰的自己改善システムとしての脳

はじめに: 自らを書き換える器官

予測コーディング: 脳のコアアルゴリズム

階層型予測エラー

ドーパミンと報酬の予測エラー

探索と活用のトレードオフ

シナプス可塑性: 生物学的ハードウェアの重量の更新

前方モデルとしての小脳

バッチ処理としてのスリープ

Tier-2 エージェントの設計に完全に移行するもの

失敗モード: 自己改善がうまくいかないとき

エージェントシステムへの接続：MARIA VITAL Evolution Lab

安全な突然変異ガバナンスとしての進化

継続的な自己監視システムとしての生活

抗退行アーキテクチャとしての免疫システム

ホメオスタシス: 生命のオペレーティングシステム

再帰的自己改善システムとしての脳

はじめに: 自らを書き換える器官

予測コーディング: 脳のコア アルゴリズム

階層型予測エラー

ドーパミンと報酬の予測エラー

探索と活用のトレードオフ

シナプス可塑性: 生物学的ハードウェアの重量の更新

前方モデルとしての小脳

バッチ処理としてのスリープ

Tier-2 エージェントの設計に完全に移行するもの

失敗モード: 自己改善がうまくいかないとき

エージェントシステムへの接続：MARIA VITAL Evolution Lab

安全な突然変異ガバナンスとしての進化

継続的な自己監視システムとしての生活

抗退行アーキテクチャとしての免疫システム

ホメオスタシス: 生命のオペレーティング システム

予測コーディング: 脳のコアアルゴリズム

ホメオスタシス: 生命のオペレーティングシステム