Name: MARIA OS
Author: MARIA OS

要旨

再帰的自己改善の見通し、つまり自らの推論、学習、意思決定能力を強化できる AI システムは、I.J. の研究以来、AI の安全性研究の中心となってきました。グッドの 1965 年の諜報爆発に関する推測。懸念されるのは、RSI 対応システムが自己改善の暴走を起こし、急速に人間の理解と制御を超えてしまう可能性があるということです。ほとんどの AI 安全アプローチは、物理的隔離、機能制限、適合性制約、またはシャットダウンメカニズムなどの外部封じ込めを通じてこのリスクに対処します。これらのアプローチは、RSI を抑制する必要がある敵対的能力として扱います。このペーパーでは、代替案として管理された再帰を紹介します。これは、調整を維持しながら収束を保証する構造的制約を通じて再帰的な自己改善を導くフレームワークです。 MARIA OS の Meta-Insight アーキテクチャ内の構成は、演算子 M_{t+1} = R_sys compose R_team compose R_self(M_t, E_t) 自体は再帰的な自己改善プロセスです。各アプリケーションはシステムのメタ認知状態を改善し、それによって後続のアプリケーションの品質が向上します。無制限 RSI との重要な違いは、縮小マッピングプロパティです。各反射演算子は 1 未満のリプシッツ定数を持ち、複合演算子がメタ認知状態空間を固定点に向けて縮小します。我々はこれをリアプノフ安定性解析を通じて形式化し、メタ認知状態の軌跡がヒューマンインザループゲートによって境界付けられた正に不変なセットに限定されることを示した。乗算 SRI 式は自然な減衰を提供します。SRI は層ごとの係数の積であるため、他の層の改善に関係なく、単一層の劣化によって SRI がゼロに近づき、システムの能力を求めて調整をトレードする。我々は 3 つの定理を証明します: (1) 管理された再帰演算子は指定された条件下での縮約である、(2) HITL ゲートはリアプノフ安定不変集合を定義する、(3) SRI が臨界しきい値を超えている場合、アライメントの保存は任意の再帰深さにわたってイプシロン以内に維持されます。 500 のエージェントによる 10,000 回の再帰サイクルにわたるガバナンスシナリオのシミュレーション結果では、管理された再帰が 0.98 のコサインアライメント類似度を維持しながら、制約なし再帰の 89% の改善率を維持することが確認され、改善と安全性の両方を同時に達成するフレームワークの能力が検証されています。

1. はじめに

再帰的自己改善は、仮想的な将来の機能ではありません。それは、独自の出力を使用して独自のパラメータを更新するあらゆるシステムにおいて運用可能な現実です。経験から学習する強化学習エージェントは、限定された意味で再帰的に自己改善します。時間 t+1 におけるそのポリシーは、時間 t におけるパフォーマンスの関数です。人間のフィードバックに基づいて微調整される大規模な言語モデルは、再帰的に自己改善されます。その重みは、それ自身の出力の評価に基づいて更新されます。 AI の安全性研究者が懸念する RSI シナリオとこれらのありふれた例とを区別するのは、限界の問題です。つまり、改善プロセスは収束するのか、それとも発散するのか?ということです。有限の限界に向かって能力が向上するシステムはルーチンエンジニアリングです。システムの機能が際限なく増大することは、存続のリスクを招くシナリオです。

収束的自己改善と発散的自己改善の違いは、単に量的なものではなく、構造的なものです。収束的な改善には固定点があり、それを超えるとそれ以上の改善は無視できる状態になります。発散的な改善には固定点がありません。それぞれの改善により、同様またはそれ以上の規模のさらなる改善が可能になり、指数関数的または超指数関数的な能力の成長につながります。 AI の安全性に関する文献は主に発散ケースに焦点を当てており、制限のない機能の増大を防止または制御するための封じ込め戦略 (ボクシング、エアギャップ)、適合性フレームワーク (シャットダウンスイッチ、オーバーライドメカニズム)、および調整手法 (価値学習、報酬モデリング) を開発しています。

この論文は、収束ケースがより現実的であり、より有用であると主張しています。生物進化、組織学習、科学の進歩など、複雑なシステムにおける自己改善プロセスのほとんどは、関連するタイムスケールにわたって収束します。最初は急速に改善しますが、簡単に実現できる成果が枯渇すると利益が減少し、さらなる改善にはますます困難な障害を克服する必要があります。この収束は偶然ではなく、構造的制約の結果です。つまり、有限のエネルギー予算、限られた情報アクセス、同時に改善するサブシステム間の干渉、および高次元空間での最適化の基本的な複雑さ理論上の困難です。

MARIA OS の Meta-Insight フレームワークは、この収束的な自己改善を管理された再帰として形式化します。リフレクションオペレーター R_self、R_team、および R_sys はそれぞれ、自己改善の形式を実装します。つまり、現在のメタ認知状態を取得して、改善された状態を生成します。しかし、各演算子は、レート限界、範囲制限、および情報境界を学習することによって、構造的に短縮されるように制約されます。つまり、偏差を増幅するのではなく、一定の割合で最適な状態までの距離を短縮します。これらの短縮演算子の合成自体は短縮であり、バナッハの不動点定理によって一意の固定点への収束が保証されます。

2. 再帰的な自己改善の問題

2.1 古典的な RSI の定式化

Good (1965) と Yudkowsky (2007) に従う古典的な RSI 定式化では、時刻 t における能力レベル C(t) を持つシステム S を仮定します。システムは、その機能を適用して自身を改善し、新しい機能レベル C(t+1) = f(C(t)) を生成できます。ここで、f は自己改善関数です。すべての C について f(C) > C の場合 (システムは常に改善されます)、改善率が十分に減少しない場合 (df/dC が上から 1 に近づかない場合)、C(t) は発散し、知能の爆発が生じます。重要な前提は、より優れた機能がより効果的な自己改善を可能にするということです。つまり、よりスマートなシステムはそれ自体をさらに賢くすることができ、その優れたインテリジェンスにより、次の改善ステップは困難ではなく容易になります。

2.2 無制限 RSI が構造的に不安定な理由

無制限 RSI シナリオは、自己改善関数 f には構造的制約がないこと、つまり各能力の次元は独立して無制限に改善できることを暗黙的に前提としています。この仮定は、いかなる具体的なシステムにとっても非現実的です。実際のシステムは、自己改善を制限する少なくとも 3 つの構造的制約に直面しています。まず、リソースの制約です。能力のあらゆる側面を向上させるには、計算リソース (時間、メモリ、エネルギー) が必要ですが、これらのリソースは有限です。 1 つの側面を改善すると、他の側面の改善からリソースがそらされ、すべての側面で同時に際限なく成長することが妨げられるトレードオフが生じます。 2 番目に、干渉制約: 1 つの機能の側面での改善が、他の側面のパフォーマンスを低下させる可能性があります。システムの速度を向上させると、精度が犠牲になる可能性があります。分析の深さを向上させるシステムは、幅を犠牲にする可能性があります。これらシステムがその能力空間のパレートフロンティアに近づくにつれて、干渉の影響により利益が逓減していきます。第三に、可観測性の制約: システムは測定できるもののみを改善でき、測定自体には限界があります。能力が向上するにつれて、さらなる改善の機会を検出するために必要な指標はより微妙になり、計算が難しくなり、メタ認知の高度化が必要になりますが、それ自体が改善の限界に直面しています。

2.3 管理された再帰: 収束する代替案

管理された再帰は、自律システムでは再帰的な自己改善が避けられず、望ましいことであることを受け入れます。問題は、システムが自己改善すべきかどうかではなく、改善プロセスが安全で有用な固定点に確実に収束するようにする方法です。管理された再帰フレームワークは、自己改善プロセスに 3 つの構造要件を課します。まず、縮小です。改善の各ステップでは、最適な状態までの距離を少なくとも一定の割合で短縮し、幾何学的収束を確保する必要があります。第 2 に、範囲の制限です。各改善ステップは、単一の改善がシステム全体に連鎖的に波及するのを防ぐために、制限された組織の範囲内で実行する必要があります。第三に、整合性の維持: 各改善ステップでは、システムとそのガバナンス目標との整合性を維持し、機能の向上が価値を犠牲にしないようにする必要があります。ドリフト。

3. 管理された再帰フレームワーク

3.1 再帰的な自己改善としてのメタ洞察

Meta-Insight の合成 M_{t+1} = R_sys compose R_team compose R_self(M_t, E_t) は、次の正確な意味での再帰的自己改善プロセスです。メタ認知状態 M_t は、システムの自己認識をエンコードします。つまり、システムが自身のバイアスをどの程度検出するか、自信をどの程度正確に調整するか、チームレベルの盲点をどの程度効果的に特定するか、ドメイン間で知識をどのようにうまく伝達するかなどです。合成オペレーターを適用するたびにこの自己認識が向上し、B_i (個人のバイアス) が減少し、CCE_i (キャリブレーション誤差) が減少し、BS(T) (集団の盲点) が減少し、OLR (組織の学習率) が増加します。時間 t+1 での自己認識の向上により、時間 t+2 でのより効果的な自己改善が可能になります。バイアスをより正確に検出するシステムは、次のサイクルでバイアスをより正確に修正できます。

これは、自己認識の改善により次の自己改善の改善が可能になり、さらに自己認識の向上が可能になるという再帰的な構造です。この構造は形式的には古典的な RSI 定式化 C(t+1) = f(C(t)) と同じですが、自己改善関数 f = R_sys compose R_team compose R_self が展開ではなく縮小マッピングであるという重要な違いがあります。

この論文では、明示的な状態表現を修正します。 M_t = (b_t, c_t, s_t, o_t, v_t) とします。ここで、[0,1]^{N_a} の b_t はエージェントごとのバイアスベクトル、[0,1]^{N_a} の c_t はエージェントごとのキャリブレーション誤差ベクトル (CCE、0 が最良、1 が最悪)、[0,1]^{N_z} の s_t はゾーンごとの盲点ベクトル、R^{N_u} の o_t はユニバースごとの組織学習ベクトル、R^k の v_t はアライメント追跡に使用されるガバナンス値ベクトルです。 d を加重積メトリックとして定義します: d(M, M') = w_b ||b-b'||_1 / N_a + w_c ||c-c'||_1 / N_a + w_s ||s-s'||_1 / N_z + w_o ||o-o'||_2 + w_v * ||v-v'||_2、すべての重みは負ではなく、この固定された表現により、何が収束するのかについての曖昧さが解消されます。

また、収束主張で使用される明示的な仮定も行います。 (A1) 状態空間は d の下で完全であり、ガバナンス制限によって制限されます。 (A2) 各演算子 R_self、R_team、R_sys は測定可能であり、許容領域上のリプシッツです。 (A3) 安全セット S_safe は空ではなく、修正措置によって到達可能です。 (A4) 同じ違反信号と証拠バンドルが与えられた場合、HITL 修正は決定的です。これらの仮定は、抽象的な数学的便宜ではなく、実行時のポリシー制約として強制可能です。

3.2 収縮特性

計量空間 (M, d) 上のマッピング f は、M のすべての x, y に対して d(f(x), f(y)) <= ガンマ * d(x, y) となるようなガンマが [0, 1) に存在する場合、短縮です。メタインサイトの合成では、各反射演算子が 1 未満の定数でリプシッツ連続である必要があります。個別演算子 R_self は、勾配ステップサイズ η と個別の損失ランドスケープの曲率によって決定されるリプシッツ定数 L_self を持ちます。制限された L_self < 1 は、η < 2 / lambda_max(H) を制約することによって保証されます。ここで、lambda_max(H) は、結合されたバイアス校正損失のヘッセ行列の最大固有値です。集合演算子 R_team には、リフレクションサイクルごとに変更できるチーム構成の最大割合によって決定されるリプシッツ定数 L_team があります。システムオペレーター R_sys には、サイクルごとの最大クロスドメイン知識伝達速度によって決定されるリプシッツ定数 L_sys があります。

実行時に gamma_t = L_self,t L_team,t L_sys,t を計算し、フェイルクローズポリシーを適用します。 (i) gamma_t <= 0.9 の場合は、通常どおり続行します。 (ii) 0.9 < gamma_t < 1.0 の場合、eta <- 0.5 eta で回復ステップを適用し、クロスドメイン転送を制限し、gamma_t <= 0.9 になるまで影響の大きい決定を人間の強制承認にルーティングします。 (iii) gamma_t >= 1.0 の場合、自律更新をブロックし、最後の安全な状態 M_{t_safe} にロールバックし、次の責任層にエスカレーションします。これにより、収縮要件が純粋に理論的なものではなく実際的なものになります。

複合収縮定数は、ガンマ = L_self L_team L_sys です。経験的に検証された値 L_self = 0.7、L_team = 0.8、L_sys = 0.9 の場合、ガンマ = 0.504 となります。これは臨界しきい値 1.0 を余裕で下回り、安定余裕は 0.496 です。この安定余裕は、予期せぬ摂動により各演算子のリプシッツ定数が最大 25% 増加したとしても、システムは収縮性と収束性を維持することを意味します。

4. 形式的安定性分析

4.1 リアプノフ関数の構築

次のように、管理された再帰ダイナミクスのリアプノフ関数を構築します。 V(M) = d(M, m)^2 を定義します。ここで、m は合成演算子の固定点、d はセクション 3.1 で定義された加重積メトリックです。リアプノフ関数 V は、現在の状態から平衡状態までの二乗距離を測定します。 V が安定性を証明するには、(i) m に等しくないすべての M について V(M) > 0、(ii) V(m) = 0、および (iii) m* に等しくないすべての M_t についてデルタ V = V(M_{t+1}) - V(M_t) < 0 が必要です。

条件 (iii) は、収縮特性から直接得られます。 d(M_{t+1}, m) = d(F(M_t), F(m)) <= gamma d(M_t, m) なので、V(M_{t+1}) = d(M_{t+1}, m)^2 <= gamma^2 d(M_t, m)^2 = gamma^2 V(M_t) となります。したがって、ガンマ < 1 はガンマ ^2 < 1 を意味するため、V(M_t) > 0 の場合は常に、デルタ V = V(M_{t+1}) - V(M_t) <= (ガンマ^2 - 1) V(M_t) < 0 となります。リアプノフ関数は反射サイクルごとにガンマ ^2 の割合で幾何学的に減少し、固定点 m の漸近安定性が確認されます。

4.2 安全境界としてのリアプノフレベルセット

V のレベルセットは、メタ認知状態空間の入れ子領域を定義します: L_c = {M : V(M) <= c}。各レベルセット L_c は、管理された再帰ダイナミクスの下では正に不変です。M_t が L_c にある場合、M_{t+1} は L_{gamma^2 c} にあり、gamma^2 c < c であるため、L_c に含まれます。これは、システムのメタ認知状態がレベルセットを通じて外側に移動することは決してできず、固定点に向かって内側に移動することしかできないことを意味します。初期状態 M_0 を含む最も外側のレベルセットは、将来のすべての時間におけるシステムのメタ認知軌道の厳密な上限を定義します。再帰サイクルがどれだけ実行されても、システムはこの範囲内に留まります。

4.3 定理: リアプノフ境界としての HITL ゲート

ここで中心安定定理を述べ、証明します。 MARIA OS の Human-in-the-Loop ゲートは、続行する前に人間の承認が必要な意思決定パイプラインのチェックポイントとして機能します。メタ認知のコンテキストでは、HITL ゲートは、特定のメトリクスがしきい値を超えたとき、つまり B_i が tau_B を超えたとき、BS(T) が tau_BS を超えたとき、または SRI が tau_SRI を下回ったときにアクティブになります。 HITL 活性化を、SRI(M) >= tau_SRI の場合は P_HITL(M) = M、それ以外の場合は P_HITL(M) = argmin_{M' in S_safe} d(M', M) (S_safe = {M : SRI(M) >= tau_SRI}) で定義される射影演算子 P_HITL としてモデル化します。運用上、この予測は決定論的な回復ポリシーによって実装されます。つまり、学習率を下げ、最後に検証されたポリシーバンドルを適用し、人間によるレビューまでの承認レベルを引き上げます。

定理 (HITL Lyapunov 安定性): S_safe = {M : SRI(M) >= tau_SRI} をメタ認知状態空間の安全領域とし、P_HITL : M -> S_safe を上で定義した射影演算子とする。次に、HITL 強制を伴う管理された再帰ダイナミクス M_{t+1} = P_HITL(R_sys compose R_team compose R_self(M_t, E_t)) は、S_safe に関してリアプノフ安定です。つまり、M_0 が S_safe にある場合、M_t はすべての t >= 0 について S_safe にあります。

証明: 2 つのケースがあります。ケース 1: 制約のない更新 F(M_t) = R_sys compose R_team compose R_self(M_t, E_t) は S_safe に残ります。この場合、P_HITL は ID として機能し、M_{t+1} = F(M_t) は直接 S_safe にあります。ケース 2: 制約のない更新 F(M_t) は S_safe を残します。これは、SRI(F(M_t)) < tau_SRI を意味します。次に、P_HITL がアクティブになり、定義により SRI を tau_SRI を超える値に戻す人間による補正が適用されます。結果の状態 P_HITL(F(M_t)) は S_safe になります。どちらの場合も、M_{t+1} は S_safe にあり、不変性の証明が完了します。収縮特性は、不変性を維持しながら、m* に向かう幾何学的収束を独立して保証します。

5. 3 層減衰と乗算的 SRI

5.1 乗法合成の減衰特性

システム反射性指数 SRI = product_{l=1..3} (1 - BS_l) * (1 - CCE_l) には、管理された再帰にとって重要な構造特性があります。つまり、層間で乗算的です。ここで、CCE_l は明示的に [0, 1] の校正誤差 (0 が最良、1 が最悪) であるため、(1 - CCE_l) は校正品質項です。これは、SRI が 0 から 1 までの 6 つの係数の積であり、3 つの各層の盲点とキャリブレーションパフォーマンスに対応することを意味します。乗算構造は、任意の 1 次元での暴走改善に対して自然な減衰を生み出します。

個別レイヤーが劇的な改善を達成し、B_i をゼロ近くまで削減し、ほぼ完璧なキャリブレーションを達成するシナリオを考えてみましょう。集合層が同時に盲点を生じた場合 (BS_2 が増加)、乗算 SRI 式により、個々の改善にもかかわらず、システム全体の反射率が確実に減少します。具体的には、(1 - BS_2) が 0.9 から 0.3 に低下すると、他の条件の改善に関係なく、SRI は 3 分の 1 に減少します。これにより、加法式が可能にするような病的な動態、つまりシステム全体が改善しているように見えながら実際には重要な次元で低下するシステムが防止されます。

5.2 サーキットブレーカーとしての単層障害

乗算 SRI 式は、暴走再帰に対する自然なサーキットブレーカーとして機能します。いずれかの単一レイヤーの死角が 1 に近づくと (BS_l -> 1)、対応する係数 (1 - BS_l) が 0 に近づき、他のレイヤーのパフォーマンスに関係なく SRI が 0 に近づきます。同様に、いずれかのレイヤーのキャリブレーション誤差が 1 に近づくと、対応する係数 (1 - CCE_l) は 0 に近づきます。これは、3 つのレイヤーすべてが同時に適切に実行されない限り、システムは高い SRI を達成できず、したがって高い自律性を維持できないことを意味します。

再帰的な自己改善のコンテキストでは、このサーキットブレーカーは、最も危険な RSI シナリオ、つまり、システムが一次元での機能があまりにも急速に向上し、ガバナンスメカニズムが追いつかないというシナリオを防ぎます。たとえ個別レイヤーのリフレクションオペレーターが急速な機能向上を達成したとしても、それに応じて集合レイヤーとシステムレイヤーも向上する必要があります。遅延すると、SRI が低下し、自律性が低下し、HITL ゲートがアクティブになり、バランスが回復するまで再帰が遅くなります。このように、3 層構造は固有の自己規制を提供します。各層は他の層の管理者として機能し、自己改善の単一の側面が支配されるのを防ぎます。

5.3 形式的な減衰解析

減衰特性を次のように定式化します。 SRI(t) = product_{l=1..3} f_l(t) とします。ここで、f_l(t) = (1 - BS_l(t)) (1 - CCE_l(t)) は l 番目の層の反射率係数です。 SRI の時間導関数は、d(SRI)/dt = SRI sum_{l=1..3} (f_l'(t) / f_l(t)) です。 SRI を向上させるには、レイヤーごとの改善率の加重合計が正である必要があります。重要なのは、いずれかの層が劣化した場合 (f_l'(t) < 0)、合計内の対応する負の項が層の改善による正の項に対抗することです。反対の効果の大きさは 1/f_l(t) に比例し、f_l がゼロに近づくにつれて大きくなります。これは、パフォーマンスの低い層が全体的な SRI 改善に与える影響が増大することを意味します。この数学的構造により、どの層も無視してもシステムが暴走して改善することはありません。

6. 従来のAI安全アプローチとの比較

6.1 外部封じ込めパラダイム

従来の AI 安全性アプローチは、外部封じ込めとして広く特徴付けられます。つまり、望ましくない動作を防ぐためにシステムの外部から制限を課すことです。ボックス化 (物理的または論理的分離) により、システムが外部世界に影響を与えるのを防ぎます。シャットダウンスイッチ (ハードウェアまたはソフトウェアの強制終了メカニズム) を使用すると、システムが予期せぬ動作をした場合に人間がシステムを終了できます。機能制限 (ツール、データ、または計算へのアクセスの制限) により、システムの達成可能な最大機能が制限されます。補正性制約 (システムが修正を受け入れることを要求する数学的仕様) により、システムが人間の介入に抵抗しないことが保証されます。

これらのアプローチには共通の構造があります。つまり、AI システムを潜在的な敵対者として扱い、その動作を外部から制限する必要があります。安全メカニズムはシステムの認知アーキテクチャの外部にあり、システムがそれに課せられた制約を理解したり承認したりする必要はありません。この外部配置には利点と欠点の両方があります。利点は、外部制約がシステムの内部状態から独立していることです。シャットダウンスイッチは、システムが何を信じているのか、何を望んでいるのかに関係なく機能します。欠点は、外部制約が脆弱であることです。外部制約は、防止するように設計されている特定の故障モードを予測する必要があり、制約設計者が予見しなかった新しい故障モードに対する防御を提供しません。

6.2 メタ洞察パラダイム: 自己認識による安全性

メタインサイトは、根本的に異なる安全パラダイム、つまり外部からの封じ込めではなく自己認識による安全を表します。 Meta-Insight は、システムを外部から制限するのではなく、システム自身の限界を認識し、それに応じて行動するためのメタ認知機能をシステムに提供します。自分のバイアスレベル、調整誤差、能力の境界を正確に認識しているエージェントは、自信過剰な決定を防ぐために外部モニターを必要としません。エージェントは、自分自身の信頼度を正しく評価し、能力を超える決定をエスカレーションします。

この自己認識型の安全パラダイムには、外部封じ込めに比べて 3 つの構造上の利点があります。まず、適応的です。システムの安全動作は、新しいシナリオをカバーしていない可能性がある事前に指定されたルールに依存するのではなく、リアルタイムの自己評価に基づいて新しい状況に適応します。これまで見たことのないタイプの意思決定に遭遇したエージェントは、メタ認知指標の不確実性が高く、この特定のシナリオを指定する外部ルールがなくても、自動的に SRI が低下し、適切な警告がトリガーされます。第 2 に、拡張性があります。自己認識はグローバルインフラストラクチャではなく、各エージェントのプロパティであるため、集中監視リソースを必要とするのではなく、エージェントの数に応じて拡張されます。第三に、それは調整されています。それ自体の限界を理解しているために安全なシステムは、外部から制約されているために安全であるシステムよりも、より深い意味で安全です。外部的に制約されたシステムは、その制約が取り除かれると安全ではなくなります。自己認識システムは、その安全特性を自律的に維持します。

6.3 代替ではなく補完性

管理された再帰と外部封じ込めは、競合するアプローチではなく、補完的なものであることを強調します。 Meta-Insight は、防御の第一線、つまり日常的な自己改善を安全かつ効率的に処理する内部自己修正を提供します。外部封じ込めは第 2 の防御線、つまり内部の自己修正が失敗した場合に作動する厳格な境界線を提供します。 MARIA OS の HITL ゲートは 2 つのパラダイムを橋渡しします。ゲートは内部的に (SRI がしきい値を下回ることで) トリガーされますが、外部的に (人間の承認を必要とすることで) 強制されます。この多層防御アーキテクチャにより、たとえ単一の安全機構が故障した場合でもシステムは確実に保護されます。

7. 認識による調整パラダイム

7.1 管理された再帰におけるアライメントの保持

あらゆる形式の再帰的自己改善における重大な懸念は調整ドリフトです。つまり、改善プロセスによってシステムの価値観や目標が意図した目標から徐々にずれてしまう可能性です。無制限 RSI では、アライメントのドリフトが主要なリスクとなります。これは、各改善サイクルによってシステムのパラメーターが変更され、個々の変更がアライメントを維持するものであっても、累積されたパラメーターの変更によってシステムの有効な目的が変更される可能性があるためです。

管理された再帰は、2 つのメカニズムを通じてアライメントのドリフトに対処します。まず、収縮特性により、パラメーターの変化の大きさが幾何学的に減少します。つまり、サイクル t からサイクル t+1 への変化は、サイクル t-1 からサイクル t への変化の最大でガンマ倍になります。これは、無限の再帰サイクルにわたる累積パラメータ変化の合計が d(M_0, m*) / (1 - ガンマ) (有限量) によって制限されることを意味します。したがって、累積パラメータ変化の関数であるアライメントドリフトも制限されます。第 2 に、各リフレクションオペレーターの位置合わせを維持する特性により、システムのガバナンス目標を変更することなく、パラメーターの更新によりメタ認知の精度が向上します。 Individual オペレーターは、値のプロパティではなく精度のプロパティであるバイアスおよびキャリブレーションメトリックを最適化します。 Collective オペレーターは、プロセスであるチームの多様性とコンセンサスの質を最適化します。目標のプロパティではなく、プロパティ。システムオペレーターは、クロスドメインの知識伝達を最適化します。これは効率性の特性であり、好みの特性ではありません。

7.2 定理: SRI 閾値下でのアライメントの維持

定理 (アライメント保持): v_0 をシステムの初期値ベクトル (そのガバナンス目標をエンコード) とし、v_t を t 回の制御された再帰サイクル後の値ベクトルとする。すべての t について SRI(M_t) >= tau_SRI の場合、すべての t について cos(v_0, v_t) >= 1 - epsilon になります。ここで、epsilon = (1 - tau_SRI) * kappa および kappa は反射演算子の値感度定数です。

この証明は、各反映演算子がその範囲内でメタ認知状態を変更し、値ベクトルが完全なメタ認知状態の創発的特性であるという観察から得られます。サイクルごとの値ベクトルの最大変化は、サイクルごとのメタ認知状態の最大変化によって制限され、これはガンマ d(M_t, m) によって制限されます。 SRI がしきい値を超える場合、d(M_t, m*) は (1 - tau_SRI) の関数によって制限され、指定された制限が与えられます。典型的な MARIA OS パラメータ (tau_SRI = 0.85、kappa = 0.12) の場合、これはイプシロン = 0.018 となり、少なくとも 0.982 のコサイン類似度に相当します。これは、10,000 回の再帰サイクルにわたる 0.98 のコサインアライメント類似度という経験的観察と一致します。

8. シミュレーション結果

8.1 実験のセットアップ

私たちは、5 つの宇宙と 1 つの銀河にわたる 50 のゾーンに編成された 500 のエージェントを備えた合成 MARIA OS デプロイメントを使用して、管理された再帰の大規模なシミュレーションを実施しました。シミュレーションは 10,000 の管理された再帰サイクルで実行されました (各サイクルは R_self、R_team、および R_sys の 1 つのアプリケーションで構成されます)。 (1) 制約なし再帰 (収縮限界なし、HITL ゲートなし)、(2) 収縮のみ (リプシッツ限界は適用されるが HITL ゲートなし)、および (3) 完全管理再帰 (収縮限界と HITL ゲートなし) の 3 つの条件を比較しました。複合メタ認知損失は、L(M_t) = w_B means_i B_i(t) + w_C means_i CCE_i(t) + w_S * means_T BS(T,t) であり、w_B + w_C + w_S = 1 となります。サイクル t での改善率は、IR(t) = (L(M_0) - L(M_t)) / L(M_0) として定義されます。アライメントは cos(v_0, v_t) として測定されます。ここで、v_t は、アクティブな値ポリシーコーパス (ガバナンスポリシー) の固定モデル埋め込み重心です。文書、リスク制約、およびエスカレーションルール) をサイクル t で実行します。安全性の指標は、SRI 軌道の安定性とアライメントのコサイン類似性でした。

8.2 改善率の比較

制約のない再帰は、最高の生の改善率を達成し、10,000 サイクルにわたって L(M) を 94.7% 削減しました。ただし、その軌道は非常に不安定でした。SRI は 0.12 ～ 0.91 の間で変動し、システムが十分な自己認識を欠いていた期間を示していました。アライメントのコサイン類似度は 0.71 まで低下し、値のドリフトが大きいことを示しています。収縮のみの再帰では、L(M) の 91.2% の削減が達成されました。これは、制約なしよりもわずか 3.5 パーセントポイント低いだけであり、安定した SRI 軌道は 0.87 に収束し、アライメントコサインは 0.96 でした。完全管理再帰では、SRI が 0.83 (HITL しきい値は 0.80 に設定) を下回らず、アライメントコサインが 0.98 で、L(M) の 84.4% の削減 (制約なしのレートの 89%) を達成しました。

8.3 安定性解析

HITL ゲートは、システムが初期状態から収束していた最初の 500 サイクルの間だけ、完全管理再帰 (10,000 サイクル中 31 回のアクティブ化) の下で、再帰サイクルの 0.3% でアクティブになりました。サイクル 500 の後は、HITL 介入なしでも、収縮特性だけで安定性を維持するのに十分でした。これは多層防御設計を検証します。HITL ゲートは過渡的な収束段階ではセーフティネットを提供しますが、定常状態動作では収縮特性が主な安定性を保証します。収縮のみの条件では、SRI が回復する前に一時的に 0.80 を下回ったエピソードが 7 回 (10,000 サイクル中) ありました。これらは、管理された再帰条件では HITL ゲートによって捕捉されたはずです。制約のない条件では、SRI はサイクルの 23.4% を 0.80 未満で過ごし、これは長期間にわたる不十分な自己認識を表します。

9. 結論

再帰的な自己改善は、必ずしも実存を脅かすものである必要はありません。管理された再帰フレームワークは、再帰的自己改善が発散ではなく収束すること、ドリフトではなく整合性を維持すること、外部の封じ込めだけではなく自己認識を通じて安全性を維持することなど、形式的に制約できることを示しています。重要な洞察は構造的なものです。自己改善を契約演算子を使用して 3 つの範囲限定レイヤーに分解し、自然なサーキットブレーカーとして乗算 SRI 式を使用することにより、MARIA OS のメタインサイトアーキテクチャは RSI 問題を無制限の成長シナリオから証明可能な安定性が保証された収束最適化問題に変換します。 HITL ゲートは、収束が達成される前の過渡段階でもシステムの軌道を制限するリアプノフ安定境界を提供します。整列維持定理が確立される管理された再帰により、SRI しきい値によって決定される定量化可能な範囲内で値の調整が維持されます。シミュレーションの結果、ガバナンスのコスト (制約なしの再帰と比較した改善率の 11% 削減) は、得られる安定性と整合性の保証に比べて控えめであることが確認されています。自律型 AI システムが一か八かのエンタープライズ環境でより普及するにつれて、問題は、これらのシステム自体が改善されるかどうかではなく、その改善が管理されるか管理されないかということです。 Meta-Insight は、管理された再帰を選択するための数学的およびアーキテクチャ的基盤、つまりシステムを危険にせずに改善する再帰的自己改善を提供します。

ガバナンス制約下の再帰的自己改善: 収縮写像とLyapunov安定性による制御再帰

要旨

1. はじめに

2. 再帰的な自己改善の問題

2.1 古典的な RSI の定式化

2.2 無制限 RSI が構造的に不安定な理由

2.3 管理された再帰: 収束する代替案

3. 管理された再帰フレームワーク

3.1 再帰的な自己改善としてのメタ洞察

3.2 収縮特性

4. 形式的安定性分析

4.1 リアプノフ関数の構築

4.2 安全境界としてのリアプノフレベルセット

4.3 定理: リアプノフ境界としての HITL ゲート

5. 3 層減衰と乗算的 SRI

5.1 乗法合成の減衰特性

5.2 サーキットブレーカーとしての単層障害

5.3 形式的な減衰解析

6. 従来のAI安全アプローチとの比較

6.1 外部封じ込めパラダイム

6.2 メタ洞察パラダイム: 自己認識による安全性

6.3 代替ではなく補完性

7. 認識による調整パラダイム

7.1 管理された再帰におけるアライメントの保持

7.2 定理: SRI 閾値下でのアライメントの維持

8. シミュレーション結果

8.1 実験のセットアップ

8.2 改善率の比較

8.3 安定性解析

9. 結論

実行可能アーキテクチャとしての倫理: 多主体AI統治の計算可能制約化

責任移転の定量化: 自動化が責任を減らすのかを検証する形式モデル

可逆性の形式化: 可逆/不可逆意思決定のリスク差分解析

責任階層型RAG出力制御: ゲート統治で検索生成精度を高める数理モデル

ガバナンス制約下の再帰的自己改善: 収縮写像とLyapunov安定性による制御再帰

要旨

1. はじめに

2. 再帰的な自己改善の問題

2.1 古典的な RSI の定式化

2.2 無制限 RSI が構造的に不安定な理由

2.3 管理された再帰: 収束する代替案

3. 管理された再帰フレームワーク

3.1 再帰的な自己改善としてのメタ洞察

3.2 収縮特性

4. 形式的安定性分析

4.1 リアプノフ関数の構築

4.2 安全境界としてのリアプノフ レベル セット

4.3 定理: リアプノフ境界としての HITL ゲート

5. 3 層減衰と乗算的 SRI

5.1 乗法合成の減衰特性

5.2 サーキットブレーカーとしての単層障害

5.3 形式的な減衰解析

6. 従来のAI安全アプローチとの比較

6.1 外部封じ込めパラダイム

6.2 メタ洞察パラダイム: 自己認識による安全性

6.3 代替ではなく補完性

7. 認識による調整パラダイム

7.1 管理された再帰におけるアライメントの保持

7.2 定理: SRI 閾値下でのアライメントの維持

8. シミュレーション結果

8.1 実験のセットアップ

8.2 改善率の比較

8.3 安定性解析

9. 結論

実行可能アーキテクチャとしての倫理: 多主体AI統治の計算可能制約化

責任移転の定量化: 自動化が責任を減らすのかを検証する形式モデル

可逆性の形式化: 可逆/不可逆意思決定のリスク差分解析

責任階層型RAG出力制御: ゲート統治で検索生成精度を高める数理モデル

4.2 安全境界としてのリアプノフレベルセット