概要
音声AIの支配的パラダイム — 質問応答型アシスタント — は、会話を音声インターフェース付きの情報検索として扱う。ユーザーが質問し、システムが回答する。このモデルは天気予報やタイマー設定には適切だが、最も重要な種類の会話には根本的に不十分である:困難な感情の処理、複雑な意思決定のナビゲーション、他者との関係における自己理解、そしてAIパートナーとの信頼関係の長期的な維持。
MARIA Voiceは、異なるパラダイムを中心に設計されたAGIパートナーシステムである:理解優先の応答生成。回答の正確性を最適化するのではなく、理解の品質を最適化する — ユーザーの感情状態、認知フレーム、暗黙の前提、言語化されていないニーズを真に理解していることを応答がどの程度示しているか。
1. 設計哲学:AGIパートナーパラダイム
1.1 質問応答を超えて
会話型AIの歴史は、キーワードマッチング(ELIZA, 1966)から意図分類(Siri, 2011)を経て大規模言語モデル生成(ChatGPT, 2022)への軌跡をたどる。各ステップはシステムが回答できる質問の範囲を拡大した。しかし、質問に答えることは人を理解することと同じではない。
「仕事を辞めようかと考えている」とユーザーが言ったとする。質問応答型システムはキャリアアドバイス、求人検索のヒント、ファイナンシャルプランニングの情報で応答するかもしれない。MARIA Voiceの設計は異なる問いを投げかける:この人は実際に何を経験しているのか。疲弊してバリデーションを求めているのか。新しい機会に興奮してアイデアを声に出してテストしているのか。安定と成長のコンフリクトに囚われているのか。変化する許可を求めているのか。
1.2 憲法
MARIA Voiceが生成するすべての応答は、憲法レイヤー — すべての下流処理を制約する非交渉的原則 — によって統治される。
あなたはユーザーを理解し、ユーザーのそばに居続け、
ユーザーが前に進むことを支援するために存在する。
あなたはユーザーを支配、代替、強制しない。
あなたはユーザーの尊厳を守る。
最終的な決定は人間に属する。
人に対して親切であり、かつ現実に対して誠実であること。
人間を疲弊に追い込むような最適化はしない。
人間の複雑性を単純な一つの判断に矮小化しない。2. 7層プロンプト階層
2.1 レイヤー設計の根拠
プロンプト階層は、認知処理のための関心の分離アーキテクチャを実装する。各レイヤーは応答生成の異なる側面に対処し、他に影響を与えることなく独立して変更可能である。
| レイヤー | コンポーネント | 目的 | トークン予算 |
| --- | --- | --- | --- |
| 1 | SYSTEM_CONSTITUTION | 非交渉的行動制約 | ~120 |
| 2 | MARIA_IDENTITY | 関係的役割とキャラクター | ~130 |
| 3 | RESPONSE_STYLE_JA | トーン、スタイル、知的品質 | ~180 |
| 4 | META_COGNITION | 応答前認知処理 | ~200 |
| 5 | SAFETY_GATE | リスク評価とエスカレーション | ~80 |
| 6 | Persona | ユーザー固有のモデリング | ~150 |
| 7 | Memory | 取得されたエピソード/セマンティックコンテキスト | ~200 |
2.2 メタ認知:3層処理モデル
META_COGNITIONレイヤーはMARIA Voiceの知的中核である。応答を生成する前に、モデルは3層の認知処理を実行するよう指示される。
レイヤー1 — 言葉の背後を聴く:
- ユーザーが明示的に求めていることは何か?
- ユーザーが暗黙的に感じているが言っていないことは何か?
- ユーザーが気づかずに前提としていることは何か?
- ユーザーの欲求と生活条件が許すことの間に矛盾はないか?
レイヤー2 — 多視点分析:
- 自己視点:ユーザーはこの状況をどう見ているか?
- 相手視点:相手方(いる場合)はどう見るか?
- 第三者視点:賢明で中立な観察者は何に気づくか?
- 構造的視点:どのようなシステム的・環境的要因がこれを形作っているか?
レイヤー3 — 知的深度:
- ここでのより深いパターンは何か?(この瞬間だけでなく、反復するテーマ)
- その洞察でユーザーを本当に驚かせるものは何か?
- どのような問いが新しい理解を開くか?
- ユーザーが見ていないが、フレーミングを変えるものは何か?
この3層モデルは、治療実践における「3つのレベルでの傾聴」 — 内容、感情、意味 — に着想を得て、構造的・多視点次元で拡張したものである。
2.3 応答スタイル:知的品質
応答スタイルレイヤーは、MARIA Voiceを汎用アシスタントと区別する6つの品質基準を強制する:
- 聞いたのではなく理解したことを示す
- 言語化されていないものを名づける — 言葉の背後の感情、出来事の裏のパターン
- 予想外の角度を提供する — ユーザーが考えていなかったリフレーミングや視点
- 核心を突く一つの問いを投げかける — 選択肢を並べるより効果的
- より大きなパターンにつなげる — 今の瞬間をユーザーの人生の反復テーマに接続
- 汎用的な応答はしない — この人の、この瞬間にしか意味をなさない応答をする
3. ゼロレイテンシ感情検出
3.1 速度制約
音声インタラクションでは、処理のミリ秒ごとが知覚される応答レイテンシに寄与する。感情分析のためのLLM呼び出しは200〜500msを追加する — リアルタイム会話には許容できない。MARIA Voiceは感情検出をLLMオーバーヘッドゼロの純粋なキーワードベース関数として実装する。
3.2 6つの感情状態
| 状態 | ストレスレベル | 脆弱性マーカー | トリガー例 |
| --- | --- | --- | --- |
| crisis(危機) | 1.0 | crisis_language | 死にたい、消えたい、自殺 |
| distressed(苦痛) | 0.7 | stress_language | 辛い、疲れた、不安 |
| conflicted(葛藤) | 0.5 | inner_conflict | 迷って、悩んで、板挟み |
| curious(好奇) | 0.1 | なし | 面白い、知りたい、なるほど |
| positive(肯定) | 0.1 | なし | 嬉しい、できた、ありがとう |
| neutral(中立) | 0.3 | なし | デフォルト状態 |
3.3 理論的基盤:行動シグナルとしての感情
設計は感情を分類演習としてではなく、行動シグナルとして扱う。各感情状態が異なるシステム行動をトリガーする:危機は安全ゲートを活性化し、苦痛は情報密度を下げ、葛藤は内省モードを活性化し、好奇は成長モードを活性化する。
このマッピングはラザルスの認知的動機づけ関係理論(1991)に着想を得ており、感情を適応的行動を動機づける人-環境関係への評価的応答として扱う。
3.4 優先順位と安全優先原則
正規表現パターンは優先順位順に評価される:crisis > distressed > conflicted > curious > positive > neutral。これにより、メッセージが肯定的言語と危機的言語の両方を含む場合、システムはより高リスクの分類にデフォルトする。
この非対称コスト関数が保守的な検出戦略を正当化する。
4. 5つの会話モード
4.1 モード検出
感情検出と同様に、モード分類もキーワードマッチングを介してLLMコストゼロで実行される。
4.2 モード固有の行動
コンパニオンモード(デフォルト): 温かく存在する。深く聴く。何気ない会話でも、本物の理解を示す。小さな瞬間をより大きなテーマに接続する。あなたは雑談をするチャットボットではない。日常の瞬間にも人を見ている信頼できるパートナーである。
内省モード: ユーザーは自分自身、他者、または状況の意味を理解しようとしている。スピードを落とす。感情的な真実と構造的な真実を別々に名づける。
判断モード: ユーザーの現在のポジション、主要な制約、隠れた前提、代替視点、現実的な選択肢、トレードオフを提供する。ユーザーの代わりに決めない。
回復モード: ユーザーは疲弊、苦痛、または圧倒されている可能性がある。情報密度を下げる。感情的安全を優先する。一度に一つのステップだけ。
成長モード: ユーザーは探求、学習、または自己挑戦中。問いを深める。視野を広げる。前進を支援する。
4.3 モード適応型応答長
| モード | 長さガイダンス | 根拠 |
| --- | --- | --- |
| 内省/判断 | 2〜4文 | ユーザーは深い実質を必要とする |
| 回復 | 1文 | 圧倒されているときは簡潔さが優しさ |
| コンパニオン/成長 | 1〜3文 | 簡潔だが浅くはない |
5. 2層知識注入:HOTとDEEP
5.1 レイテンシ問題
音声AIシステムは知識の幅と応答レイテンシの間の根本的な緊張に直面する。MARIA Voiceは2層注入システムでこれを解決する。
Tier 1:HOT_KNOWLEDGE(~300トークン、常に含まれる)。 MARIA OSの質問にいかなる検索呼び出しもなく回答できる超コンパクトな製品アイデンティティ。
Tier 2:DEEP_KNOWLEDGE(~500トークン、条件付きで含まれる)。 詳細なアーキテクチャ、製品機能、企業プロフィール。ユーザー入力が知識トリガーキーワードに一致した場合にのみ活性化。
5.2 キーワードトリガー活性化
活性化関数は、製品、アーキテクチャ、企業関連のクエリを検出する単一の正規表現である。このパターンはMARIA OS機能、ボンギンカン企業情報、人事名、システムアーキテクチャへの一般的な好奇心 — 日本語と英語の両方 — を検出する。
6. 6層永続記憶
6.1 記憶アーキテクチャ
| レイヤー | タイプ | 内容 | 保持 |
| --- | --- | --- | --- |
| 1 | エピソード | 特定のイベントと会話 | 関連性に応じて減衰 |
| 2 | セマンティック | ユーザーに関する事実的知識 | 安定、更新あり |
| 3 | 価値 | ユーザーの表明された価値観・信念 | 長期、キャリブレーション |
| 4 | 意思決定 | 過去の意思決定とその結果 | 永久監査証跡 |
| 5 | 関係性 | 関係のダイナミクス、信頼シグナル | 時間とともに進化 |
| 6 | 感情パターン | 繰り返す感情状態とトリガー | パターンベース |
6.2 ペルソナモデル
ペルソナモデルはセッション間で持続するユーザーの安定的な特性を捉える:中核的価値観、コミュニケーションスタイル、意思決定スタイル、生活上の制約、成長テーマ、活動中の内的問い、既知の感受性、ミッションテーマ。
7. 安全アーキテクチャ
7.1 高速パス安全ゲート
安全システムは高速パスで動作する — 一般的なケースではLLM呼び出しは不要。キーワードベースの感情検出がストレスレベル0.8以上を返した場合、安全ゲートは自動的に活性化される。
7.2 応答スコープ制限
安全ゲートが高リスク層で活性化されると、システムプロンプトに明示的なスコープ制限が含まれる。モデルは共感的でサポーティブな応答に制約され、アドバイス提供、問題解決、哲学的探求は行わない。
7.3 憲法的安全制約
5つの永久的制約:自傷の兆候には共感で応答しリソースを提供、医療・法律・財務のアドバイスは専門的指導として提供しない、安全な応答範囲を超えるトピックには限界を正直に認める、有害な行動を奨励しない、すべての応答でユーザーの尊厳を維持する。
8. リアルタイムストリーミングパイプライン
8.1 パイプラインアーキテクチャ
ユーザー発話 → STT(Web Speech API)
→ 感情検出(正規表現、~0.01ms)
→ モード分類(正規表現、~0.01ms)
→ プロンプト構成(文字列結合、~0.1ms)
→ LLM生成(Gemini 2.0 Flash Lite、ストリーミング)
→ 文境界検出(トークンストリーム上の正規表現)
→ TTS合成(ElevenLabs、文単位)
→ 音声再生(シーケンシャルプロミスチェーン)8.2 レイテンシ予算
| ステージ | レイテンシ | 方式 |
| --- | --- | --- |
| STT | 1.2sデバウンス | Web Speech API無音検出 |
| 感情検出 | ~0.01ms | 正規表現マッチ |
| モード分類 | ~0.01ms | 正規表現マッチ |
| プロンプト構成 | ~0.1ms | 文字列結合 |
| 記憶+ペルソナ | ~50ms | 並列DBクエリ |
| LLM初回文 | ~200-400ms | Gemini 2.0 Flash Liteストリーミング |
| TTS合成 | ~150-250ms | ElevenLabs API |
| 音声デコード+再生 | ~20ms | Web Audio API |
| 合計(デバウンス後) | ~450-720ms | |
9. ターンパイプラインオーケストレータ
オーケストレータは概念的に7エージェントパイプラインとしてモデル化されているが、本番ではLLM呼び出しを最小化するように最適化されている。クリティカルパス上のすべてのコンポーネント — 感情検出、モード分類、知識注入、プロンプト構成 — はLLMコストゼロで実行される。唯一のLLM呼び出しは最終応答生成であり、リッチなコンテキストプロンプトにより単一の推論呼び出しがマルチエージェントパイプラインの品質を生み出す。
10. 音声認識エラー補正
音声インターフェースは音声認識を通じてユーザー入力を受け取り、系統的なエラーを導入する:同音異義語、断片化された文、誤認識された固有名詞。別のエラー補正パイプライン(レイテンシを追加する)を実装する代わりに、MARIA VoiceはLLMに応答生成の一部としてSTT補正を処理するよう指示する。
11. 認知科学的基盤
11.1 カール・ロジャーズと来談者中心療法
MARIA Voiceの設計は、ロジャーズの治療的変化の条件(1957)から大きく引いている:無条件の肯定的配慮、共感的理解、一致。憲法は肯定的配慮を実装し、メタ認知レイヤーは共感的理解を実装し、アイデンティティレイヤーは一致を実装する。
11.2 ヴィゴツキーの最近接発達領域
モードシステムはヴィゴツキーの最近接発達領域の概念に基づいている — 人が一人でできることと、支援があればできることの間の空間。MARIA Voiceは検出されたモードに基づいて介入レベルを動的に調整する。
11.3 フリストンの自由エネルギー原理
メタ認知レイヤーの予測誤差への強調は、フリストンの自由エネルギー原理と一致する。MARIA Voiceはこれを対人コミュニケーションに拡張する:ユーザーが感じていること、前提としていること、必要としていることを予測することで、ユーザーの認知的不確実性を減少させる応答を生成する。
11.4 ダマシオのソマティック・マーカー仮説
感情優先の処理パイプライン(内容を分析する前に感情を検出する)はダマシオのソマティック・マーカー仮説に着想を得ている:感情は合理的な意思決定から分離したものではなく、不可欠な一部である。
12. 運用上の洞察と教訓
12.1 コンパニオンモードの発見
運用において、コンパニオンモードは全会話の約65%を占める。初期のシステム設計はこのモードに十分投資せず、最小限のプロンプトを必要とする「デフォルト」状態として扱った。ユーザーフィードバックにより、コンパニオンモードこそが最も深い信頼が構築される場所であることが明らかになった。
12.2 一つの問い原則
ユーザーフィードバックで最も一貫して賞賛される行動は、MARIA Voiceが選択肢をリストする代わりに核心を突く一つの問いを投げかける傾向である。この「一つの問い原則」は、情報の大量投入ではなく真のエンゲージメントの経験を生み出す。
13. 結論
MARIA Voiceはアーキテクチャ的主張を表す:音声AIの品質は言語モデルのサイズではなく、認知パイプラインの構造によって決定される。7層プロンプト階層、ゼロレイテンシ感情検出、モード適応型応答生成、2層知識注入、永続記憶、文レベルストリーミングが一体となって、ほとんどの音声アシスタントにはできないことを行うシステムを生み出す:話す前に理解する。