ブログへ戻る
TAG ARCHIVE
streaming
MARIA OSブログのstreamingタグに関連する2件の記事。ボンギンカンの判断OS、AIガバナンス、Agentic Company研究をテーマ別に参照しやすい技術記事アーカイブです。
Engineering2026年3月8日40 min read
MARIA Voice:AGIパートナーアーキテクチャ — 感情検出からメタ認知的応答生成まで
7層プロンプト階層、5つの会話モード、ゼロレイテンシ知識注入、文レベルストリーミングが、話す前に理解する音声AIを実現する方法
音声アシスタントは質問に答える。MARIA Voiceは人間を理解する。7層プロンプト階層(憲法、アイデンティティ、応答スタイル、メタ認知、安全ゲート、ペルソナ、記憶)に基づき、MARIA Voiceは完全な認知パイプラインを実装する:キーワードベースの感情検出、コンテキスト感応型モード切替、2層知識注入、6層永続記憶、モード適応型応答生成 — すべてがリアルタイム音声用に最適化され、初回文レイテンシ800ms未満を達成。本論文では認知科学と治療的対話の理論的基盤、完全なシステムアーキテクチャ、感情・モード検出の数学モデル、そして数千の音声セッションからの運用結果を報告する。
MARIA-VoiceAGI-assistantvoice-uiemotion-detectionmeta-cognitionprompt-engineeringconversation-modeknowledge-injectionmemory-systemstreaming
Engineering2026年2月15日32 min read
文単位ストリーミングVUIアーキテクチャ: 認知理論からMARIA OS本番実装まで
文境界検出、順次TTSチェーン、ローリング要約により自然さと長時間セッション安定性を両立する
VUIは低遅延と自然発話品質のトレードオフを抱える。本稿は、Geminiトークン列から文境界を検出して順次TTS再生する方式を中核に、バージイン制御・発話デバウンス・ハートビート回復・ツールルーティングを統合した実装を示す。実運用セッションで低初動遅延と順序破綻ゼロを確認した。
voice-uistreamingTTSspeech-recognitionreal-timeGeminiElevenLabsaction-routerMARIA-OScognitive-science