Name: MARIA OS
Author: MARIA OS

1. 概要（Abstract）

音声ユーザーインターフェース（Voice User Interface, VUI）は、視覚的GUIとは本質的に異なる認知処理チャネルを利用する。聴覚情報処理は時間的に逐次的であり、視覚情報のような空間的並列走査が不可能である。この非対称性は、VUI設計に固有の制約と機会の両方を生み出す。しかし、現行のVUI設計ガイドラインの大半は、認知科学的基盤を欠いた経験則——「応答は短く」「確認を入れる」「エラー回復を提供する」——に依存しており、なぜそうすべきかの理論的根拠を提示しない。

本稿は、この理論的空白を埋める試みである。我々は3つの認知科学的フレームワーク——Wickens（1984, 2002）の多重資源理論（Multiple Resource Theory）、Baddeley（1986, 2000）のワーキングメモリモデル、およびShannon（1948）の情報理論——を統合し、マルチモーダル音声対話における注意資源配分の数理モデルを構築する。このモデルから、以下を導出する。

文レベルストリーミングTTSの認知的最適性：句単位でも段落単位でもなく、文単位がワーキングメモリのチャンク容量と聴覚ループの保持時間に最適化されることの証明
1.2秒デバウンス閾値の理論的根拠：ターンテイキングの認知タイミングモデルから導出される最適静寂検出時間
バージイン抑制の資源競合回避メカニズム：TTS再生中の音声認識一時停止が二重タスク干渉を回避する条件
ローリングサマリーの情報理論的最適性：レート歪み理論に基づく会話コンテキスト圧縮の最適戦略
VUI設計原則の公理的体系：8つの公理から演繹的に導出される設計指針群

すべての理論的結果は、MARIA OS の音声対話システム「MARIA VOICE」における実装判断と対応付けられる。MARIA VOICEは、Full-duplex音声認識、文レベルストリーミングTTS（ElevenLabs統合）、4チーム29ツールのアクションルーティング、ローリング会話サマリー、ハートビート監視を統合したエンタープライズ音声エージェントである。本稿の貢献は、これらの設計判断が認知科学の第一原理から必然的に導出されることを示す点にある。

2. VUIの認知科学的基盤：聴覚処理と音声対話の特異性

音声対話を設計する前に、人間の聴覚情報処理がいかに視覚情報処理と質的に異なるかを理解しなければならない。この差異は程度の問題ではなく、種類の問題である。

2.1 聴覚処理の時間的逐次性

視覚情報処理において、人間は空間的に配置された情報を並列に走査（parallel scanning）できる。ダッシュボード上の複数のグラフ、テーブルの複数行、画面の複数領域を——焦点的注意（focal attention）は逐次的であるにせよ——前注意的処理（preattentive processing）のレベルでは同時に処理する。Treisman & Gelade（1980）の特徴統合理論が示すように、色・形状・方向などの単純な視覚特徴は並列に検出される。

聴覚情報処理にはこの並列性が存在しない。音声信号は本質的に時間ストリームであり、各時点で1つの音声セグメントのみが存在する。聴取者は過去の音声を「戻って確認する」ことができない。この非可逆性（irreversibility）が、VUI設計の根本的制約を形成する。

Definition（聴覚的逐次性公理）. 聴覚チャネル A における情報アクセスは、時間軸上で厳密に逐次的である。任意の時刻 t において、聴取者がアクセス可能な新規情報は、時刻 t に提示された音声信号 s(t) のみである。過去の信号 s(t') (t' < t) へのアクセスは、ワーキングメモリに保持されたエコーイックメモリの減衰コピーに限定される。

この公理の帰結として、VUIにおける情報提示は時間軸上での「情報配置設計」となる。GUIデザイナーが空間レイアウトを設計するように、VUIデザイナーは時間レイアウトを設計しなければならない。

2.2 エコーイックメモリと聴覚的持続

Neisser（1967）が命名したエコーイックメモリ（echoic memory）は、聴覚感覚記憶の一形態であり、音声信号の短期的な保持を担う。Darwin, Turvey & Crowder（1972）の部分報告法実験により、エコーイックメモリの持続時間はおよそ2〜4秒であることが示されている。

この持続時間は、VUI設計において決定的な意味を持つ。ユーザーが音声応答を聴取する際、直前の2〜4秒の音声はエコーイックメモリに保持されており、意味処理の失敗時に「再生」可能である。しかし、それ以前の音声は感覚レベルでは失われ、より高次のワーキングメモリ表象（音韻ループの内容）としてのみアクセス可能となる。

M_{echoic}(t, \tau) = s(\tau) \cdot e^{-\lambda_{echo}(t - \tau)}, \quad \tau \in [t - T_{echo}, t] $$

ここで T_echo は約3秒、lambda_echo は減衰率である。この指数減衰モデルは、「文の途中で聞き逃した場合、直後であれば回復可能だが、次の文に入ると回復不能」という日常的経験を正確に予測する。

2.3 音韻ループとワーキングメモリの接続

Baddeley & Hitch（1974）のワーキングメモリモデルにおいて、音韻ループ（phonological loop）は聴覚情報の短期保持を担当するサブシステムである。音韻ループは2つの構成要素を持つ：

音韻ストア（phonological store）：音韻コードの受動的な保持。約1.5〜2秒分の音声情報を保持可能
構音リハーサルプロセス（articulatory rehearsal process）：内的発声による情報のリフレッシュ。保持時間を延長するが、認知資源を消費する

音韻ストアの容量は、絶対的な項目数ではなく、時間長によって制約される。Baddeley, Thomson & Buchanan（1975）の語長効果（word length effect）実験では、短い単語の方が長い単語よりも多く保持できることが示された。これは、構音リハーサルにかかる時間が短い単語ほど短いため、より多くの項目をリフレッシュサイクル内に収められるためである。

Proposition（音韻ループ容量の時間制約）. 音韻ループの実効容量 C_PL は、構音リハーサル速度 R_art と音韻ストア減衰時間 T_decay の関数として以下で与えられる。

C_{PL} = R_{art} \cdot T_{decay} $$

典型的な値として R_art は約2.5語/秒（日本語では約5モーラ/秒）、T_decay は約2秒であり、C_PL はおよそ5語（日本語では約10モーラ）となる。この値は、Millerの「マジカルナンバー7±2」と整合的であるが、その根拠はチャンク数ではなく時間制約にある。

2.4 音声対話における二重処理負荷

VUI対話では、ユーザーは同時に2つの認知処理を行わなければならない：（1）システムの音声出力の聴取と理解、（2）自身の応答の計画と構成。これは本質的に二重タスク状況であり、Pashler（1994）の心理的不応期（psychological refractory period, PRP）パラダイムの枠組みで分析可能である。

視覚的GUIでは、この二重負荷は大幅に軽減される。ユーザーは画面上の情報を自分のペースで読み返しながら、同時に入力フィールドにタイプできる。視覚入力と手動出力は、Wickensのモデルにおいて異なる資源プールを使用するため、干渉が最小化される。しかし、VUIでは入出力の双方が聴覚-音声チャネルを共有するため、構造的な資源競合（structural resource conflict）が発生する。

VUI設計の根本的課題は、入出力チャネルの重複である。ユーザーは聴覚チャネルで情報を受け取りながら、音声チャネルで情報を送出しなければならない。この二重利用が、GUI設計には存在しない固有の認知的制約を生み出す。

3. 注意資源配分の数理モデル：多重資源理論の形式化

Wickens（1984, 2002, 2008）の多重資源理論（Multiple Resource Theory, MRT）は、人間の注意資源が単一のプールではなく、複数の独立したプールに分割されることを主張する。二重タスクの干渉は、タスク間で共有される資源プールが多いほど大きくなる。本節では、MRTを形式化し、VUI対話への適用を導出する。

3.1 多重資源空間の定義

Definition（多重資源空間）. Wickensの多重資源理論に基づき、注意資源空間 R を以下の4次元の直積として定義する。

\mathcal{R} = \mathcal{S} \times \mathcal{C} \times \mathcal{M} \times \mathcal{P} $$

ここで各次元は：

S（処理段階, Stages）: {知覚処理, 認知処理, 応答選択} — 情報処理のどの段階にあるか
C（知覚モダリティ, Codes）: {視覚, 聴覚} — どの感覚チャネルで入力されるか
M（処理コード, Modalities）: {空間的, 言語的} — 情報がどのコードで表現されるか
P（応答モダリティ, Responses）: {手動, 音声} — どのチャネルで出力されるか

各タスク T は、この4次元空間上の資源要求ベクトル d(T) として表現される。

3.2 タスクの資源要求ベクトル

Definition（資源要求ベクトル）. タスク T の資源要求を、多重資源空間の各セルへの負荷として以下のベクトルで表現する。

\mathbf{d}(T) = \{d_{s,c,m,p}(T) \mid s \in \mathcal{S}, c \in \mathcal{C}, m \in \mathcal{M}, p \in \mathcal{P}\} $$

ここで d_{s,c,m,p}(T) は区間 [0, 1] の値をとり、タスク T がセル (s,c,m,p) に要求する資源量の正規化された強度を表す。

VUI対話における2つの主要タスクを定義する：

タスク	知覚	コード	応答	説明
T_listen（聴取理解）	聴覚	言語的	—	システム音声の聴取と意味理解
T_speak（発話応答）	—	言語的	音声	応答の計画・構成・発声

3.3 資源競合関数

二重タスク T_1, T_2 の干渉の大きさは、共有される資源セルの負荷の積として定量化される。

Definition（資源競合関数）. タスク T_1 と T_2 の間の資源競合 I(T_1, T_2) を以下で定義する。

I(T_1, T_2) = \sum_{s,c,m,p} w_{s,c,m,p} \cdot d_{s,c,m,p}(T_1) \cdot d_{s,c,m,p}(T_2) $$

ここで w_{s,c,m,p} は各資源セルの干渉感度重みである。この式は、2つのタスクが同じ資源セルを同時に要求する場合にのみ干渉が生じること、そして干渉の大きさは双方の要求強度の積に比例することを表現する。

Theorem（VUI二重タスク干渉定理）. VUI対話における同時聴取発話タスクの資源競合は、GUI対話における同時読取タイピングタスクの資源競合よりも厳密に大きい。

I(T_{listen}, T_{speak}) > I(T_{read}, T_{type})$$

証明. T_listen と T_speak は認知処理段階の言語的コードセルを共有する（双方とも自然言語の意味処理を要求する）。加えて、T_listen は聴覚知覚を、T_speak は音声応答を要求し、これらは音韻ループを共有する。一方、T_read は視覚知覚を、T_type は手動応答を要求する。Wickensのモデルにおいて、異なる知覚モダリティと異なる応答モダリティの組み合わせは資源競合が最小化される。したがって、T_read と T_type の間で非ゼロの d 積を持つセルは認知処理段階の言語的コードのみであるが、T_listen と T_speak は認知段階に加えて音韻処理でも競合する。各セルの重みが正であるため、I(T_listen, T_speak) > I(T_read, T_type) が成立する。 □

この定理は、VUI設計がGUI設計のアナロジーでは不十分であることの数学的根拠を提供する。音声対話には、視覚対話にはない固有の資源競合構造が存在し、これがVUI固有の設計原則を要求する。

3.4 時間分割による資源競合の解消

資源競合を解消する自然な戦略は、競合タスクの時間的分離である。聴取と発話を同時に行わず、交互に行うこと——すなわちターンテイキング——は、資源競合関数を時間区間ごとに分割し、各区間内の競合を最小化する。

Proposition（時間分割の資源競合削減）. 時間区間 [0, T] を聴取区間 [0, t_s] と発話区間 [t_s, T] に分割するとき、累積資源競合は以下のように削減される。

\int_0^T I(t) dt = \int_0^{t_s} I_{listen}(t) dt + \int_{t_s}^T I_{speak}(t) dt < \int_0^T I_{simultaneous}(t) dt $$

ここで分割された各区間では、一方のタスクの資源要求がゼロに近づくため、積の項が消滅する。これがFull-duplexVUIにおいてバージイン抑制（TTS再生中の音声認識一時停止）が認知科学的に正当化される根拠である。MARIA VOICEはTTS再生中にSpeechRecognitionを一時停止し、再生完了後に再開することで、この時間分割を実装している。

4. マルチモーダル対話の情報理論：音声チャネルの容量限界

Shannon（1948）の情報理論は、通信チャネルの容量に絶対的な上限を設定する。音声チャネルもまた情報チャネルであり、その容量限界はVUI設計に直接的な制約を課す。

4.1 音声チャネル容量の推定

Definition（音声チャネル容量）. 人間の音声知覚チャネルの情報伝送率 C_speech を、音素弁別率と時間分解能から以下のように定義する。

C_{speech} = R_{phoneme} \cdot H_{phoneme} $$

ここで R_phoneme は1秒あたりの音素知覚率（約10〜15音素/秒）、H_phoneme は各音素の平均情報量（日本語の場合、約5ビット/音素）である。

この推定により、音声チャネル容量はおよそ50〜75ビット/秒となる。比較として、視覚的テキスト読取のチャネル容量は約250〜300ビット/秒（熟練読者の場合）と推定されており、音声チャネルは視覚チャネルの約1/4〜1/5の帯域幅しか持たない。

Proposition（音声チャネル帯域幅の制約）. 音声チャネルの情報伝送率は視覚テキストチャネルの情報伝送率の上界に対して以下の関係を満たす。

C_{speech} \leq \frac{1}{\alpha} C_{visual}, \quad \alpha \approx 4 $$

この不等式は、GUIで1画面に表示可能な情報量を音声で伝達するには約4倍の時間が必要であることを意味する。VUIは「情報帯域幅が狭いチャネル」であり、この物理的制約が「応答は簡潔に」という設計原則の情報理論的根拠となる。

4.2 チャネル容量と冗長性の最適バランス

Shannon（1948）のチャネル符号化定理により、エラー率を任意に小さくするためにはチャネル容量以下の伝送率で情報を送る必要がある。音声対話では「エラー」は聞き間違い、理解の失敗、文脈の喪失に対応する。

R < C_{speech} \Rightarrow P_e \to 0 \quad \text{(達成可能)} $$

実際の音声対話では、自然言語の冗長性がエラー訂正符号の役割を果たす。日本語テキストの冗長率（redundancy）はおよそ50〜60%と推定されており、これは情報理論的には「効率が悪い」が、ノイズの多い音声チャネルにおいては聴取エラーの回復を可能にする適応的な特性である。

Theorem（音声対話の冗長性最適定理）. ノイズパラメータ sigma を持つ音声チャネルにおいて、理解エラー率 P_e を epsilon 以下に抑えつつ情報伝送率を最大化する最適冗長率 rho* は以下で与えられる。

\rho^* = 1 - \frac{C_{speech}(\sigma)}{H_{source}} = 1 - \frac{R_{phoneme} \cdot \log_2(1 + \text{SNR})}{H_{source}} $$

ここで H_source はソース（話者の意図）のエントロピー率、SNR は信号対雑音比である。環境ノイズが増加（SNR低下）すると最適冗長率は上昇し、システムはより多くの繰り返し・言い換え・確認を挿入すべきことが導出される。MARIA VOICEがアクションルーティングの結果を報告する際に、ツール名と結果の要約の両方を音声化するのは、この冗長性最適化の実装に他ならない。

4.3 情報エントロピーと予測可能性

音声対話における認知負荷は、情報理論的には予測エントロピー（surprisal）として定量化される。Hale（2001）のsurprisal理論によれば、単語 w_i の処理コストは条件付き情報量に比例する。

\text{ProcessingCost}(w_i) \propto -\log_2 P(w_i \mid w_1, \ldots, w_{i-1}) = h(w_i \mid \text{context}) $$

予測可能な（高確率の）単語は処理コストが低く、予測不可能な（低確率の）単語は処理コストが高い。VUI設計への含意として、システム応答は予測可能な構造を持つべきである——固定的なフレーズパターン、一貫した語彙選択、定型的な冒頭——これらはすべて条件付きエントロピーを低下させ、聴取時の認知負荷を軽減する。

5. 音声認知負荷のワーキングメモリモデル

Baddeley（2000）の改訂ワーキングメモリモデルは、中央実行系（central executive）、音韻ループ（phonological loop）、視空間スケッチパッド（visuospatial sketchpad）、およびエピソードバッファ（episodic buffer）の4コンポーネントから構成される。VUI対話においては、音韻ループとエピソードバッファが特に重要な役割を果たす。

5.1 音韻ループの動的モデル

音韻ループの状態を、保持されている音韻表象の集合とその減衰状態としてモデル化する。

Definition（音韻ループ状態）. 時刻 t における音韻ループの状態 PL(t) を以下のタプルで定義する。

PL(t) = \{(\phi_k, \alpha_k(t)) \mid k = 1, \ldots, n(t)\} $$

ここで phi_k は k 番目の音韻表象（音韻チャンクに対応）、alpha_k(t) は区間 [0, 1] 上の活性化レベルであり、以下の減衰ダイナミクスに従う。

\frac{d\alpha_k}{dt} = -\lambda_{PL} \cdot \alpha_k + \delta(t - t_k^{rehearse}) $$

ここで lambda_PL は音韻ストアの減衰率（約0.5/秒、すなわち半減期約1.4秒）、t_k^rehearse はリハーサルのタイミングでのインパルス入力を表す。リハーサルは活性化レベルを瞬間的に1.0にリセットする。

5.2 音韻ループ負荷関数

音韻ループにかかる認知負荷を、保持されているチャンクの総活性化量と容量の比として定義する。

Definition（音韻ループ負荷）. 音韻ループ負荷 L_PL(t) を以下で定義する。

L_{PL}(t) = \frac{\sum_{k=1}^{n(t)} \alpha_k(t) \cdot \text{dur}(\phi_k)}{C_{PL}} $$

ここで dur(phi_k) はチャンク phi_k の構音持続時間、C_PL は音韻ループ容量（約2秒分）である。L_PL(t) > 1 は容量超過を意味し、最も古い（最も低い活性化レベルの）チャンクが脱落する。

5.3 エピソードバッファと意味統合

Baddeley（2000）が追加したエピソードバッファは、異なるサブシステムからの情報を統合し、長期記憶と接続する。音声対話において、エピソードバッファは以下の機能を果たす：

音韻ループからの音韻表象を意味表象に変換する
会話の先行文脈（直前数ターン）を保持する
長期記憶からの関連知識を活性化し、理解を補完する

Definition（エピソードバッファの会話コンテキスト容量）. エピソードバッファの会話コンテキスト容量 C_EB を、同時に統合可能な会話ターン数として以下で定義する。

C_{EB} = \frac{W_{EB}}{\bar{H}_{turn}} $$

ここで W_EB はエピソードバッファの総情報容量（約4チャンク、Cowan, 2001）、H_turn_bar は1ターンあたりの平均情報量である。典型的な音声対話ターンが2〜3チャンクの情報を含むとすると、C_EB は約1.5〜2ターンとなる。

この容量制約は、VUI設計に対して強い含意を持つ：ユーザーは直前の1〜2ターンの内容を高精度に保持しているが、それ以前の内容は急速に劣化する。したがって、システムは重要な情報を直近のターンで繰り返すか、明示的なサマリーを提供する必要がある。

MARIA VOICEのローリングサマリー機能——16メッセージを超えた会話を要約し、直近6メッセージと組み合わせてLLMに送信する——は、このエピソードバッファ容量の制約に対する情報理論的に最適な対処である。要約は情報を圧縮し、直近メッセージは高精度コンテキストを保持する。

5.4 統合認知負荷モデル

VUI対話における総合的な認知負荷を、各ワーキングメモリサブシステムの負荷の加重和として統合する。

Definition（VUI認知負荷関数）. 時刻 t におけるVUI対話の認知負荷 CL(t) を以下で定義する。

CL(t) = w_{PL} \cdot L_{PL}(t) + w_{CE} \cdot L_{CE}(t) + w_{EB} \cdot L_{EB}(t) $$

ここで L_PL(t) は音韻ループ負荷、L_CE(t) は中央実行系負荷（タスク切替、注意制御のコスト）、L_EB(t) はエピソードバッファ負荷（会話コンテキスト統合のコスト）であり、w は各コンポーネントの重み（タスク特性に依存）である。

Theorem（認知負荷のバースト特性）. VUI対話における認知負荷 CL(t) は、ターン境界（聴取から発話、または発話から聴取への遷移点）において局所的な極大値を示す。

証明. ターン境界では、中央実行系がタスク切替を実行する。タスク切替コスト（Monsell, 2003）は L_CE にスパイクを生成する。同時に、聴取の終了直後では音韻ループ負荷 L_PL が最大（直前の聴取内容が保持されている）であり、発話の計画が始まるとエピソードバッファ負荷 L_EB も上昇する（応答生成のためにコンテキスト統合が必要）。3コンポーネントすべてが同時に高値をとるため、CL(t) はターン境界で極大となる。 □

この定理は、ターン境界のデバウンス時間がなぜ重要かを説明する。デバウンスが短すぎるとユーザーの認知負荷ピーク中にターンが切り替わり、処理失敗のリスクが増大する。

6. 文レベルストリーミングの認知的最適性の証明

MARIA VOICEは、LLMからのストリーミング出力を文境界（。.!?！？改行）で分割し、各文を独立にTTS合成キューに投入するアーキテクチャを採用している。なぜ文単位なのか？単語単位、句単位、段落単位ではなく、文単位が認知的に最適であることを証明する。

6.1 ストリーミング粒度の定義

Definition（ストリーミング粒度）. ストリーミング粒度 G を、TTS合成キューに投入されるテキスト断片の言語学的単位として以下の順序集合から選択する。

G \in \{\text{word（語）}, \text{phrase（句）}, \text{sentence（文）}, \text{paragraph（段落）}\} $$

各粒度 G に対して、以下の特性量を定義する：

粒度	平均チャンク長（秒）	合成遅延（秒）	韻律完全性	意味完全性
word	0.3〜0.5	0.05〜0.1	極低	極低
phrase	0.8〜1.5	0.1〜0.2	中	低〜中
sentence	1.5〜4.0	0.2〜0.4	高	高
paragraph	5.0〜15.0	0.5〜2.0	高	極高

6.2 認知的最適性の評価基準

ストリーミング粒度の最適性を、以下の3つの基準の加重和として評価する。

Definition（ストリーミング粒度の認知コスト関数）. 粒度 G の認知コスト J(G) を以下で定義する。

J(G) = \beta_1 \cdot \text{Latency}(G) + \beta_2 \cdot \text{FragCost}(G) + \beta_3 \cdot \text{OverflowRisk}(G) $$

ここで：

Latency(G)：粒度 G のテキストが完成するまでの待機時間。粒度が大きいほど大きい
FragCost(G)：韻律的・意味的断片化のコスト。粒度が小さいほど大きい。語レベルでは自然な韻律が崩壊し、ロボット的な音声となる
OverflowRisk(G)：音韻ループの容量超過リスク。粒度が大きいほど大きい。段落レベルでは最初の文の音韻表象が最後の文の到達前に減衰する

6.3 文レベル最適性定理

Theorem（文レベルストリーミングの認知的最適性）. 上記3基準の認知コスト関数 J(G) は、粒度 G = sentence で最小値を達成する。

証明. 各基準について粒度ごとの値を評価する。

（i）遅延コスト Latency(G). 粒度に関して単調増加である。word < phrase < sentence < paragraph。sentence の遅延はおよそ0.2〜0.4秒であり、人間の聴覚的連続性の知覚閾値（約400ms、Repp, 2005）以内に収まる。paragraph の遅延は0.5〜2.0秒であり、この閾値を超える。

（ii）断片化コスト FragCost(G). 粒度に関して単調減少である。word > phrase > sentence > paragraph。word レベルの断片化は韻律構造を完全に破壊する。sentence レベルでは文イントネーション（文末の下降調、疑問文の上昇調）が完全に保持される。phrase レベルでは文内の韻律は保持されるが、文全体のイントネーション弧が分断される。

（iii）容量超過リスク OverflowRisk(G). 粒度に関して単調増加である。word < phrase < sentence < paragraph。sentence の平均持続時間は1.5〜4.0秒であり、音韻ストアの容量（約2秒）と構音リハーサルによる延長（最大約4〜5秒）を考慮すると、文の終端到達時に文頭の音韻表象はリハーサルにより保持可能である。paragraph の持続時間は5.0〜15.0秒であり、リハーサルによる延長を超過する。

J(G) の3つの項のうち、Latency と OverflowRisk は粒度に関して単調増加、FragCost は単調減少である。J(G) はこれら3つの単調関数の加重和であり、U字型（bathtub curve）の形状を持つ。最小値は、増加する2項の和と減少する1項が交差する粒度で達成される。sentence は phrase と paragraph の中間に位置し、(a) 遅延が知覚閾値以内、(b) 韻律が完全保持、(c) 容量超過リスクがリハーサル能力内、の3条件を同時に満たす唯一の粒度である。 □

MARIA VOICEが文境界（。.!?！？改行）を検出して文単位でElevenLabsに送信する設計は、この定理の直接的な実装である。句読点パターン /[。.!?！？\n]/ による分割は、日本語・英語の双方で文境界を高精度に近似する。

6.4 文境界検出の計算コスト

文レベルストリーミングの実装における追加的な制約は、文境界検出の計算コストである。MARIA VOICEでは、LLMのストリーミング出力の各チャンクに対して正規表現マッチングを適用する。この処理は O(n) であり（n はチャンク長）、チャンクあたりの処理時間は1ms未満である。したがって、文境界検出は認知的最適性を損なうことなく実装可能である。

7. ターンテイキングの時間的制約とデバウンス最適化

音声対話におけるターンテイキング——話者交替のタイミング——は、VUI設計の最も微妙かつ重要な要素の1つである。人間同士の会話では、ターンギャップ（一方の発話終了から他方の発話開始までの時間）の中央値はわずか200ms（Stivers et al., 2009）であり、これは次の発話の計画が先行発話の終了前に始まっていることを示す。

7.1 ターンギャップの認知モデル

Definition（ターンギャップ分布）. 人間同士の会話におけるターンギャップ delta_turn の分布を、以下の正規分布近似で表す。

\delta_{turn} \sim \mathcal{N}(\mu_{gap}, \sigma_{gap}^2), \quad \mu_{gap} \approx 200\text{ms}, \quad \sigma_{gap} \approx 300\text{ms} $$

この分布は左に裾が長く（オーバーラップ発話が存在）、右に裾が重い（長い沈黙が存在）。VUIシステムでは、ユーザーの発話終了を検出してLLMに送信するタイミング——デバウンス閾値——がこのターンギャップに対応する。

7.2 デバウンス閾値の最適化問題

デバウンス閾値 tau_d は、2つのエラータイプのトレードオフを制御する。

早期切断エラー（False End-of-Turn）: tau_d が短すぎると、ユーザーの発話途中の自然なポーズをターン終了と誤検出し、不完全な入力をLLMに送信する
応答遅延エラー（Excessive Latency）: tau_d が長すぎると、ユーザーの発話終了後に不必要な待機時間が生じ、対話のテンポが劣化する

Definition（デバウンスコスト関数）. デバウンス閾値 tau_d のコスト関数 C(tau_d) を以下で定義する。

C(\tau_d) = \lambda_{FET} \cdot P_{FET}(\tau_d) + \lambda_{lat} \cdot \mathbb{E}[\text{Latency}(\tau_d)] $$

ここで P_FET(tau_d) は早期切断確率、E[Latency(tau_d)] は期待応答遅延、lambda_FET と lambda_lat は各エラータイプの重みである。

7.3 発話内ポーズの分布

早期切断確率を推定するには、ユーザーの発話内ポーズ（文中の自然な沈黙）の分布を知る必要がある。Goldman-Eisler（1968）の古典的研究およびCampione & Véronis（2002）のコーパス分析により、発話内ポーズの分布は以下のように特徴づけられる。

Proposition（発話内ポーズ分布）. 発話内ポーズの持続時間 delta_pause は、対数正規分布に従う。

\delta_{pause} \sim \text{LogNormal}(\mu_p, \sigma_p^2), \quad \mu_p \approx \ln(500\text{ms}), \quad \sigma_p \approx 0.6 $$

この分布のモード（最頻値）は約350ms、中央値は約500ms、95パーセンタイルは約1100msである。つまり、発話内ポーズの95%は1.1秒以内に収まる。

7.4 最適デバウンス閾値の導出

Theorem（最適デバウンス閾値）. 早期切断確率を5%以下に抑える最小デバウンス閾値 tau_d* は以下で与えられる。

\tau_d^* = F_{pause}^{-1}(0.95) \approx 1100\text{ms} \approx 1.1\text{s} $$

ここで F_pause はポーズ持続時間の累積分布関数である。

証明. 早期切断は、実際にはユーザーが発話を継続する意図があるにもかかわらず、デバウンス閾値以上のポーズが検出されない場合に発生しない。逆に、ポーズ持続時間がデバウンス閾値未満のとき、そのポーズは発話内ポーズとして正しく分類される。P_FET(tau_d) <= P(delta_pause > tau_d) = 1 - F_pause(tau_d) であるから、P_FET(tau_d) <= 0.05 を満たす最小の tau_d は F_pause^{-1}(0.95) で与えられる。対数正規分布のパラメータを代入すると、tau_d* は約1100msとなる。 □

MARIA VOICEの1.2秒（1200ms）デバウンス閾値は、この理論的最適値1.1秒に100msの安全マージンを加えたものであり、認知科学的に正当化される。

MARIA VOICEのデバウンス閾値1.2秒は、「十分に長い」という直感的判断ではなく、発話内ポーズの対数正規分布の95パーセンタイル（1.1秒）に安全マージンを加えた、統計的に導出された値である。

7.5 適応的デバウンスの可能性

上記の分析は固定閾値を前提としているが、より洗練されたアプローチとして、ユーザーの発話パターンから個人化されたデバウンス閾値を学習する適応的デバウンスが考えられる。ユーザー u の発話内ポーズ分布を推定し、個人化された閾値 tau_d(u) を設定する。

\tau_d(u) = \hat{F}_{pause,u}^{-1}(0.95) + \epsilon_{margin} $$

ここで F_hat_{pause,u} はユーザー u のポーズ分布の経験的推定、epsilon_margin は安全マージンである。高速話者（ポーズが短い傾向）にはより短い閾値、慎重な話者（ポーズが長い傾向）にはより長い閾値が設定される。これは将来的なMARIA VOICEの最適化方向として有望であるが、十分なデータ収集と評価が前提となる。

8. VUI設計原則の公理的体系

ここまでの認知科学的分析を統合し、VUI設計の公理的体系を構築する。これらの公理は、前節までに導出された認知科学的事実から演繹的に導かれる設計制約である。

8.1 八公理の定義

公理 V1（時間的逐次性公理）. VUIにおけるすべての情報提示は、時間軸上で逐次的に配置されなければならない。同時に複数の独立した情報ストリームを提示してはならない。

根拠. 聴覚処理の時間的逐次性（Section 2.1）から直接導出される。

公理 V2（チャンク容量公理）. 1回の音声応答で伝達する独立した情報チャンクの数は、ワーキングメモリの容量限界（4±1チャンク、Cowan, 2001）を超えてはならない。

根拠. エピソードバッファの容量制約（Section 5.3）から導出される。

公理 V3（韻律保全公理）. TTS合成の単位は、自然な韻律構造（文イントネーション）を保持する最小単位——すなわち文——でなければならない。

根拠. 文レベルストリーミングの認知的最適性定理（Section 6.3）から導出される。

公理 V4（資源分離公理）. 聴覚入力（システム音声）と音声出力（ユーザー発話）は時間的に分離されなければならない。同時実行はVUI二重タスク干渉定理（Section 3.3）により禁止される。

根拠. 多重資源理論における資源競合関数の分析（Section 3.3, 3.4）から導出される。

公理 V5（遅延上界公理）. システム応答の各セグメント間の遅延は、聴覚的連続性の知覚閾値（約400ms）を超えてはならない。

根拠. 聴覚ストリームの連続性知覚の研究（Repp, 2005; Bregman, 1990）から導出される。400msを超える沈黙は「途切れ」として知覚され、聴覚ストリームの分離（auditory stream segregation）を引き起こす。

公理 V6（冗長性適応公理）. システム音声の冗長率は、環境ノイズレベルと比例して調整されなければならない。高ノイズ環境ではより高い冗長率（繰り返し、言い換え、確認）を、低ノイズ環境ではより低い冗長率を適用する。

根拠. 音声対話の冗長性最適定理（Section 4.2）から導出される。

公理 V7（コンテキスト圧縮公理）. 長時間の音声対話では、古い会話コンテキストは情報損失を最小化する圧縮（要約）によって保持されなければならない。非圧縮コンテキストはワーキングメモリ容量を超過し、文脈喪失を引き起こす。

根拠. エピソードバッファの容量制約（Section 5.3）およびレート歪み理論の適用（Section 4.2）から導出される。

公理 V8（予測可能性公理）. システム応答の構造的パターンは一貫していなければならない。一貫した構造は条件付きエントロピーを低下させ、聴取時の認知負荷を軽減する。

根拠. 情報エントロピーと予測可能性の分析（Section 4.3）から導出される。

8.2 公理間の整合性

Proposition（公理系の整合性）. 公理 V1〜V8 は相互に矛盾しない。

証明スケッチ. 各公理を制約として表現すると、V1（逐次性）は情報提示の時間的順序を制約し、V2（チャンク容量）は1応答あたりの情報量を制約し、V3（韻律保全）はTTS合成粒度を制約し、V4（資源分離）は入出力の時間配置を制約し、V5（遅延上界）は応答セグメント間のギャップを制約し、V6（冗長性適応）は情報符号化の冗長率を制約し、V7（コンテキスト圧縮）は長期コンテキストの管理を制約し、V8（予測可能性）は応答の構造的パターンを制約する。これらは異なる設計次元を制約しており、実現可能領域の共通部分が空でない（MARIA VOICEの実装がその存在証明を構成する）。 □

9. 実験的検証とMARIA VOICEでの適用

本節では、前節までの理論的結果がMARIA VOICEの具体的な実装判断にどのように対応するかを体系的に示す。

9.1 MARIA VOICEアーキテクチャの概要

MARIA VOICEは以下のコンポーネントから構成される。

コンポーネント	機能	対応する公理
Web Speech API / SpeechRecognition	ユーザー音声のリアルタイム認識	V4（資源分離）
デバウンスタイマー（1.2秒）	発話終了検出	Section 7.4 最適閾値
LLMストリーミング	Gemini 2.0 Flash によるストリーミング応答生成	V5（遅延上界）
文境界検出	/[。.!?！？\n]/ による文分割	V3（韻律保全）
ElevenLabs TTS キュー	文単位のTTS合成・逐次再生	V3, V5
バージイン抑制	TTS再生中の認識一時停止	V4（資源分離）
AnalyserNode RMS計測	音声レベルの視覚的フィードバック	V6（冗長性適応の視覚チャネル補完）
ハートビート監視	60秒間隔のkeep-alive	システム安定性
ローリングサマリー	16+メッセージの要約 + 直近6メッセージ	V7（コンテキスト圧縮）
アクションルーター	4チーム29ツールへの意図ルーティング	V2（チャンク容量）への配慮

9.2 文レベルストリーミングの実装検証

MARIA VOICEの文境界検出は、LLMからのストリーミングチャンクを累積バッファに追加し、句読点パターンの出現を監視する。パターンが検出されると、バッファの内容をElevenLabs APIに送信し、バッファをリセットする。

この実装を公理V3（韻律保全）およびV5（遅延上界）の観点から検証する。

V3の充足: 文単位でのTTS合成は、文イントネーション（assertive falling, interrogative rising, exclamatory patterns）を完全に保持する。ElevenLabsのTTS合成エンジンは文単位の入力に対して自然な韻律を生成する能力が検証されている
V5の充足: LLMのストリーミング速度（約30〜60トークン/秒）と日本語の平均文長（約15〜25トークン）から、文の完成までの待機時間は約0.25〜0.83秒と推定される。最頻ケースでは0.3秒前後であり、400ms閾値を下回る

9.3 バージイン抑制の認知科学的評価

MARIA VOICEはTTS再生中にSpeechRecognitionを一時停止（pause）し、再生完了後にresume()する。この設計の認知科学的正当性を評価する。

公理V4（資源分離）は、聴覚入力と音声出力の時間的分離を要求する。バージイン抑制はこれを技術的に実施するメカニズムである。ただし、ユーザーが意図的にシステムの発話を遮断したい場合（「もう十分です」「違います」）への対処が必要である。MARIA VOICEでは、TTS再生完了後の即時認識再開により、ユーザーはシステムの各文の合間に発話可能である。文レベルストリーミング（公理V3）との組み合わせにより、ユーザーの待機時間は最大でも1文の再生時間（約2〜4秒）に限定される。

Proposition（バージイン抑制の認知的トレードオフ）. バージイン抑制は資源競合コスト I(T_listen, T_speak) をゼロに削減するが、ユーザーの応答可能タイミングを文境界に量子化する。この量子化による最大追加遅延は max_sentence_duration（約4秒）である。

9.4 ローリングサマリーの情報理論的評価

MARIA VOICEのローリングサマリーは、会話が16メッセージを超えるとサマリー生成をトリガーし、要約 + 直近6メッセージをLLMのコンテキストとして使用する。この設計をレート歪み理論の観点から評価する。

Definition（会話コンテキストのレート歪み関数）. 会話履歴 H = {m_1, ..., m_N} の圧縮表現 H_hat のレート R（保持するメッセージ数/トークン数）と歪み D（情報損失）の関係を、レート歪み関数 R(D) で表す。

R(D) = \min_{P(\hat{H}|H): \mathbb{E}[d(H, \hat{H})] \leq D} I(H; \hat{H}) $$

MARIA VOICEのサマリー + 直近6メッセージ方式は、この最適化問題の近似解として以下の構造を持つ：

直近6メッセージ：最新のコンテキストを無損失で保持（D = 0 の領域）。エピソードバッファの容量（約2ターン = 4メッセージの詳細 + 2メッセージの概要）に対応
サマリー：古いコンテキストを有損失圧縮で保持。情報理論的には、高エントロピーの詳細（具体的な表現、細かなニュアンス）を削除し、低エントロピーの要点（トピック、結論、決定事項）を保持する

この二段階構造は、ワーキングメモリの実態——直近の情報は高精度、古い情報は概要のみ——を正確に反映しており、認知科学的に整合的な設計である。

9.5 ブラウザ互換性と適応的フォールバック

MARIA VOICEは9種類のアプリ内ブラウザ（LINE, Facebook Messenger, Instagram, Twitter/X, WeChat, Slack, Discord, Telegram, KakaoTalk）を検出し、Web Speech APIの非サポート環境では適切なフォールバックを提供する。

この適応的フォールバックは、公理V1（時間的逐次性）の帰結として理解できる。音声チャネルが利用不可能な場合、情報提示はテキストチャネル（視覚的に逐次的な代替チャネル）にフォールバックする。重要なのは、フォールバック先でも公理V2（チャンク容量）とV8（予測可能性）が維持されることである——テキスト応答のフォーマットは音声応答と同一の構造的パターンを保持する。

9.6 認知負荷測定の代理指標

MARIA VOICEは直接的な認知負荷測定（fMRI、EEG、瞳孔径測定）を行わないが、以下の代理指標から認知負荷の間接的推定が可能である：

応答遅延時間: ユーザーがシステム応答を聴取後、発話開始までの時間。認知負荷が高いほど遅延が増大する
発話の断片化率: ユーザー発話における中断・言い直し・フィラーの頻度。認知負荷の増大に伴い増加する
会話離脱率: セッション内での沈黙の長時間化やセッション終了。持続的な高認知負荷の指標となる

これらの指標は、MARIA VOICEのログデータから事後的に計算可能であり、設計判断の経験的検証に活用可能である。

10. 今後のVUI研究への展望

本稿で構築した認知科学的基盤は、VUI設計のための理論的出発点を提供するが、いくつかの重要な研究方向が残されている。

10.1 感情韻律の認知負荷効果

現在のモデルは、音声の言語的内容に焦点を当てており、感情韻律（emotional prosody）の認知負荷への影響をモデル化していない。TTS合成音声の感情的ニュートラル性が認知負荷を軽減するのか、あるいは適度な感情表現がエンゲージメントを維持し結果的に認知負荷を軽減するのかは、経験的に未決着の問題である。

Definition（感情韻律の認知負荷修正項）. 感情韻律パラメータ e（arousal-valenceの2次元ベクトル）による認知負荷の修正を以下で定義する。

CL_{emotional}(t) = CL(t) \cdot (1 + \gamma \cdot \|e(t) - e_{optimal}\|^2) $$

ここで e_optimal は最適感情韻律（タスク依存）、gamma は感情影響係数である。この枠組みの経験的パラメータ推定が今後の研究課題となる。

10.2 マルチターンの長期認知負荷蓄積

本稿のモデルは主に短期的（1ターン〜数ターン）の認知負荷に焦点を当てている。しかし、実際のエンタープライズ音声対話では30分以上のセッションが発生し得る。長時間セッションにおける認知疲労（cognitive fatigue）の蓄積モデル化が必要である。

CL_{cumulative}(T) = \int_0^T CL(t) \cdot e^{\eta(T-t)} dt $$

ここで eta は疲労蓄積率である。この累積負荷が閾値を超えた場合、システムは能動的にセッションの休憩や要約提供を提案すべきである。

10.3 多言語VUIの認知的差異

日本語と英語では、音韻ループの実効容量が異なる（日本語はモーラベース、英語は音節ベース）。この差異は、最適ストリーミング粒度やデバウンス閾値に影響する可能性がある。MARIA VOICEの多言語展開に向けて、言語固有のパラメータ推定が必要である。

10.4 視覚補完チャネルの統合モデル

MARIA VOICEのAnalyserNode RMS計測による音声レベル可視化は、視覚チャネルを補完的に利用する例である。Wickensの多重資源理論によれば、聴覚チャネルの負荷を視覚チャネルで補完することは、異なる資源プールの利用により干渉を最小化できる。音声対話中の最適な視覚フィードバック——波形表示、話者インジケーター、テキスト字幕、アクション進捗——の設計最適化が今後の研究方向である。

10.5 MARIA座標系との統合

MARIA OSの座標系（G.U.P.Z.A）は、組織の階層構造を表現する。音声対話におけるエージェントの自己紹介——「Galaxy 1, Universe 1, Planet 2, Zone 3のエージェントAです」——は、公理V2（チャンク容量）に照らして認知負荷が高い。座標系の音声的圧縮表現（例：「営業Universe、関東Zone担当のエージェントAです」）の最適化が、MARIA VOICEの組織的スケーリングに必要な研究課題である。

10.6 閉じた研究課題と開いた研究課題

本稿の結果を総括し、VUI認知科学研究の状況を整理する。

研究課題	状態	本稿の貢献
ストリーミング粒度の最適性	理論的に閉じた	文レベル最適性の証明（Theorem, Section 6.3）
デバウンス閾値の根拠	理論的に閉じた	1.1秒 + 安全マージンの統計的導出（Theorem, Section 7.4）
バージイン抑制の正当性	理論的に閉じた	資源競合関数からの導出（Section 3.4）
ローリングサマリーの最適性	理論的枠組み構築	レート歪み理論による評価枠組み（Section 9.4）
感情韻律の影響	開いた問題	修正項の定式化のみ（Section 10.1）
長期認知疲労	開いた問題	累積モデルの提案のみ（Section 10.2）
多言語パラメータ差異	開いた問題	問題の同定のみ（Section 10.3）
視覚補完最適化	開いた問題	方向性の提示のみ（Section 10.4）

結論

本稿は、VUI設計を認知科学の第一原理から体系化する試みであった。Wickensの多重資源理論がVUI固有の資源競合構造を定量化し、Baddeleyのワーキングメモリモデルが音韻ループ容量とエピソードバッファ制約からの設計要件を導出し、Shannonの情報理論が音声チャネルの容量限界と冗長性の最適バランスを数理的に特定した。

これらの理論的基盤から導出された8つの公理——時間的逐次性、チャンク容量、韻律保全、資源分離、遅延上界、冗長性適応、コンテキスト圧縮、予測可能性——は、VUI設計の公理的体系を構成する。MARIA VOICEの各設計判断——文レベルストリーミングTTS、1.2秒デバウンス閾値、バージイン抑制、ローリングサマリー——は、これらの公理から演繹的に導出される必然的な帰結であることが示された。

VUI設計は、もはや「なんとなく使いやすい」を目指す経験則の集積ではない。認知科学が提供する定理と情報理論が提供する限界から、何をすべきか——そしてなぜそうすべきか——が導出される工学的規律である。MARIA VOICEはその最初の実装であり、本稿はその理論的基盤である。

VUI設計とは、時間軸上の情報アーキテクチャである。空間を設計するGUIデザイナーに対し、VUIデザイナーは時間を設計する。その設計の基盤は、人間の聴覚認知システムの構造的制約——不可逆性、容量限界、減衰ダイナミクス——にある。MARIA VOICEは、この認知的構造を計算的に実装した音声エージェントである。

Voice User Interface設計の認知科学的基盤: マルチモーダル対話における注意資源配分モデル