TAG ARCHIVE
voice-ui
MARIA OSブログのvoice-uiタグに関連する3件の記事。ボンギンカンの判断OS、AIガバナンス、Agentic Company研究をテーマ別に参照しやすい技術記事アーカイブです。
MARIA Voice:AGIパートナーアーキテクチャ — 感情検出からメタ認知的応答生成まで
7層プロンプト階層、5つの会話モード、ゼロレイテンシ知識注入、文レベルストリーミングが、話す前に理解する音声AIを実現する方法
音声アシスタントは質問に答える。MARIA Voiceは人間を理解する。7層プロンプト階層(憲法、アイデンティティ、応答スタイル、メタ認知、安全ゲート、ペルソナ、記憶)に基づき、MARIA Voiceは完全な認知パイプラインを実装する:キーワードベースの感情検出、コンテキスト感応型モード切替、2層知識注入、6層永続記憶、モード適応型応答生成 — すべてがリアルタイム音声用に最適化され、初回文レイテンシ800ms未満を達成。本論文では認知科学と治療的対話の理論的基盤、完全なシステムアーキテクチャ、感情・モード検出の数学モデル、そして数千の音声セッションからの運用結果を報告する。
文単位ストリーミングVUIアーキテクチャ: 認知理論からMARIA OS本番実装まで
文境界検出、順次TTSチェーン、ローリング要約により自然さと長時間セッション安定性を両立する
VUIは低遅延と自然発話品質のトレードオフを抱える。本稿は、Geminiトークン列から文境界を検出して順次TTS再生する方式を中核に、バージイン制御・発話デバウンス・ハートビート回復・ツールルーティングを統合した実装を示す。実運用セッションで低初動遅延と順序破綻ゼロを確認した。
VUI設計の認知科学的基盤: マルチモーダル対話における注意資源配分モデル
多重資源理論・ワーキングメモリ理論・情報理論を統合し、設計原則を形式化してMARIA VOICEで検証する
VUI設計を経験則から脱し、聴覚処理の特性に基づく数理モデルとして再定式化する。文単位TTS、1.2秒デバウンス、バージイン抑制、ローリング要約の設計判断を理論的に導出し、MARIA VOICE実装での妥当性を検証する。