要旨
会議の議事録は、決定に関する組織の記憶です。 AI システムがこれらの議事録を生成すると、根本的な質問は「何が議論されたか?」から変わります。 「議事録が議論を正確に反映していることをどうやって検証できるのか?」従来の AI 要約では、流暢で一貫性のあるテキストが生成されますが、流暢さと正確さは比例関係にあります。決断を間違った人物のせいにしたり、決して行われていない約束を捏造したりする、よく書かれた要約は、要約を全くしないよりも悪いものです。
このペーパーでは、MARIA Meeting AI の証拠リンク アーキテクチャについて説明します。このアーキテクチャでは、抽出されたすべての要素 (意思決定、アクション アイテム、ディスカッション セクション、未解決の質問) が証拠の根拠として特定のトランスクリプト セグメントを参照する必要があります。このシステムは必須の引用連鎖を強制します。議論されたトランスクリプトセグメントへのポインタがなければ、議事録にはいかなる決定も存在しません。この制約により、構築によって幻覚が発生する時間が排除されます。AI がサポートするセグメントを見つけられない場合、その決定は含まれません。
証拠リンクの制約をカバレッジ指標として形式化し、ライブ会議中に議事録を生成および更新する増分要約アルゴリズムを提示し、構造化された出力形式 (セクション、決定、アクション、未解決の質問) によって下流のガバナンスと MARIA OS 意思決定パイプラインの統合が可能になることを示します。
1. 議事録の信頼問題
1.1 従来の議事録が失敗する理由
手動の会議議事録には常に次の 3 つの病理があります。
1. 選択バイアス: メモを取る人は重要だと思うことを記録しますが、それは客観的に重要だったことと一致しない可能性があります。現時点では明らかだと思われる決定は省略される場合があります。メモを取る人の興味を引くような、的外れな議論が過剰に表現される可能性があります。 2. 帰属エラー: 展開の速いディスカッションでは、メモを取る人が発言を間違った発言者のものと帰してしまう可能性があります。これは、帰属が説明責任を決定する意思決定やコミットメントの場合に特に問題となります。 3. 再構成のドリフト: 議事録は、会議後に、まばらなメモによって補足された記憶に基づいて書かれることがよくあります。再構成された説明は、メモ作成者の解釈と事後的な合理化を組み込んでおり、必然的に実際の議論から乖離しています。
AI によって生成された議事録では、自信のある幻覚という 4 番目の病理が紹介されています。大規模な言語モデルは、十分な情報が不足している場合でも、流暢で権威のあるテキストを生成します。ノイズが多く断片化されたトランスクリプトから議事録を生成するように依頼されたモデルは、実際には行われなかったもっともらしい意思決定をでっち上げたり、行動を自発的に参加したことのない参加者に帰したりする可能性があります。出力の流暢さにより、コンテンツの信頼性の低さが隠蔽されます。
1.2 アーキテクチャ上の制約としての証拠のリンク
MARIA Meeting AI は、ベストエフォート型の最適化ではなく、構造要件に関連する証拠を作成することで、これらの病理に対処します。システムの出力スキーマでは、すべての要素に segmentRefs 配列 (要素の証拠根拠として機能するトランスクリプト セグメント ID のリスト) が含まれる必要があります。
これは、AI がテキストを生成してからサポートするセグメントを検索する、事後的な引用メカニズムではありません。代わりに、証拠リンクは、同じ構造化出力の一部として、コンテンツと同時に生成されます。 AI は、関連するセグメントを特定し、単一の推論パスで概要を生成し、コンテンツが特定の転写証拠に基づいていることを確認する必要があります。
2. 構造化された出力スキーマ
2.1 分のアーティファクト構造
議事録アーティファクトは 4 つのコンポーネント タイプからなる構造化ドキュメントであり、それぞれに証拠リンクが必要です。
セクションは、話題のクラスターを表します。
{
title: string, // Topic heading
summary: string, // Narrative summary of the discussion
segmentRefs: string[] // Transcript segments that comprise this topic
}決定事項は、会議中に達した約束または結論を表します。
{
text: string, // The decision statement
segmentRefs: string[], // Segments where the decision was discussed/made
confidence: number // Model confidence in extraction (0-100)
}アクション アイテムは、特定の個人に割り当てられたタスクを表します。
{
text: string, // Task description
owner: string | null, // Assigned person (null if unassigned)
dueDate: string | null,// Deadline if mentioned
segmentRefs: string[] // Segments where the action was discussed
}未解決の質問 は、会議中に特定された未解決の問題を表します。
{
text: string, // The unresolved question
segmentRefs: string[] // Segments where the question arose
}2.2 引用範囲の指標
引用範囲 を、少なくとも 1 つの有効な分節参照を持つ議事録要素の割合として定義します。
ここで、$M$ は議事録内のすべての要素のセット、$T$ はすべてのトランスクリプト セグメント ID のセットです。引用範囲 1.0 は、議事録内のすべての要素に、トランスクリプトへの有効な参照が少なくとも 1 つあることを意味します。
また、引用密度 を要素ごとのセグメント参照の平均数として定義します。
引用密度が高いほど、要素が複数の転写セグメントによってサポートされていることを示し、これは抽出の信頼性と相関します。 $|\text{segmentRefs}| による決定\geq 2$ は、複数の発話ターンにわたって議論されたトピックを表しているため、単一の参照を含むものよりも正確である可能性が大幅に高くなります。
3. 増分要約アルゴリズム
3.1 ライブ議事録の問題
ライブ会議では、トランスクリプトは継続的に増加します。分は段階的に更新する必要があります。15 秒ごとにドキュメント全体を最初から再生成するのは無駄であり、ライブ ビューに不快な不連続性が生じる可能性があります。増分要約アルゴリズムでは、次の 3 つの競合する目的のバランスを取る必要があります。
1. 鮮度: 新しい決定とアクションは、1 つの更新サイクル (15 秒) 以内に分単位で表示されます。 2. 安定性: 新しい情報が本当に矛盾するか改良する場合を除き、既存のコンテンツを変更してはなりません。 3. 一貫性: 議事録は、一連の追加された断片としてではなく、統一された文書として読まれるべきです。
3.2 増分更新プロトコル
アルゴリズムは 2 つのモードで動作します。
ライブ モード (会議中): MINUTES_UPDATE_INTERVAL_MS (15 秒) ごとに、システムは新しいトランスクリプト セグメントと既存の議事録の状態を Gemini モデルにフィードします。プロンプトはモデルに次のことを指示します。
- 新しいトピックが出現した場合は、新しいセクションを追加します
- トピックが続く場合は既存のセクションを拡張します
- 新しい決定、アクション、未解決の質問が見つかったら追加します。
- 蓄積された証拠に基づいて信頼度スコアを更新する
- 明らかに矛盾しない限り、以前に特定された決定を決して削除しないでください
既存の議事録の状態は、不変の真実としてではなく、コンテキストとして渡されます。モデルは以前のセクションを改良できますが、構造の安定性を維持するように指示されます。
最終モード (会議後): 会議が終了すると、システムはトランスクリプト全体に対して単一の包括的なパスを実行します。この最終パスには会議の完全なコンテキストが含まれており、増分更新よりも一貫性があり、よりよく整理されたドキュメントを作成できます。最後の議事録には、人間によるレビューと配布に適した値下げエクスポートが含まれています。
3.3 バージョンの追跡
更新が分ごとにバージョン カウンターが増加します。分アーティファクトは、その状態を次のように追跡します。
ライブ時間の状態は「live」で、バージョン番号が増加します。最後の包括的なパスでは、「最終」状態ドキュメントが生成されます。下流の消費者 (ダッシュボード UI、意思決定パイプライン) は、リアルタイムの認識のためにライブ分を表示するか、ガバナンス目的で最終バージョンを待つかを選択できます。
4. 証拠のリンクの実践
4.1 迅速なエンジニアリングへの挑戦
LLM プロンプトを介して証拠リンクを強制するには、正確な指示が必要です。分エンジンのシステム プロンプトには、明示的なルールが含まれています。
- すべての決定は証拠として少なくとも 1 つのsegment_idを参照しなければなりません
- すべてのアクション アイテムは証拠として少なくとも 1 つのsegment_id を参照しなければなりません (MUST)
- トランスクリプトに存在しないコンテンツを決して捏造しないでください
- スピーカーが不明な場合は、スピーカーのラベルをそのまま使用してください。
- 指定されたスキーマに一致する有効な JSON を出力します
Gemini API 呼び出しで responseMimeType: 'application/json' を使用すると、API レベルで構造化された出力が強制され、必須フィールドを省略した自由形式のテキストがモデルで生成されるのを防ぎます。
4.2 曖昧な決定の処理
すべての決定が明示的に述べられているわけではありません。合意によって現れるものもあります(「では、選択肢 A で行きますか?」と沈黙またはうなずきが続きます)。システムは、これらの暗黙的な決定を次のように処理します。
1. 信頼度スコアを下げる: 暗黙的な決定は 80 未満の信頼度スコアを受け取り、人間による検証が必要な可能性があることを示します。 2. 周囲のコンテキストの参照: セグメント参照には、決定ステートメントだけでなく、その決定に至る前の議論セグメントも含まれます。 3. 未解決の質問としてフラグを立てる: モデルが発言が決定なのか提案なのかが不確かな場合、その要素を決定ではなく未解決の質問として分類することがあります。
この段階的信頼システムは、参加者がおそらく意思決定として意図した暗黙の合意を捕捉しながら、意思決定の過度の抽出 (提案をコミットメントとしてカウントする) を防ぎます。
4.3 多言語証拠のリンク
MARIA ミーティング AI が日本語と英語の会議をサポートします。日本のビジネス会議では、証拠のリンクに関して次のような特有の課題が生じます。
- Indirect agreement patterns: Japanese speakers often indicate agreement through backchannels (そうですね, はい) rather than explicit statements.
- 階層的尊重: たとえ提案が下級の参加者からのものであっても、決定はその場にいた最上位の人物に起因する可能性があります。
- 主語の省略: 日本語の文法では主語が省略されることが多く、アクションアイテムの帰属がより困難になります。
システム プロンプトには、日本語会議用の言語固有の指示が含まれており、信頼度の調整はこれらの言語パターンを考慮して調整されます。
5. MARIA OS 意思決定パイプラインとの統合
5.1 数分から意思決定まで
会議議事録はエンドポイントではなく、MARIA OS 意思決定パイプラインへの入力です。最後の議事録が生成されると、システムは自動的に次のことを実行できます。
1. 決定レコードの作成: 信頼度 85 を超える抽出された各決定は、パイプラインに「提案された」決定として登録できます。 2. アクション アイテムの作成: 各アクション アイテムは、特定の所有者と期日を持つタスクとして登録できます。 3. 証拠のリンク: トランスクリプトセグメント参照は、決定の証拠バンドルとして機能し、すべての決定には追跡可能な証拠チェーンが必要であるという意思決定パイプラインの要件を満たします。
この統合により、会議インテリジェンスと組織ガバナンスの間のループが閉じられます。火曜日の朝の会議で議論された決定は、会議室が空になる前に決定パイプラインに追跡可能で監査可能な記録になります。
5.2 言論から統治までの証拠の連鎖
完全な証拠チェーンは次のとおりです。
各リンクでチェーンを追跡できます。トランスクリプト セグメントには、話者ラベルとタイムスタンプが含まれます。議事録の決定にはセグメント参照が含まれます。ガバナンス レコードには、議事録のアーティファクトが含まれます。監査人は、組織上のあらゆる決定を、それが議論された会議の正確な瞬間まで遡ることができます。
6. 結論
証拠に関連付けられた会議議事録は、AI による要約から AI による文書化へのパラダイム シフトを表しています。この区別は重要です。要約すると、何が起こったのかが読みやすく説明されます。文書は、決定された内容の検証可能な記録を作成します。 MARIA Meeting AI は、強制的な引用チェーン (すべての決定がトランスクリプト内でその出典を示す必要がある) を強制することにより、LLM で生成されたコンテンツを悩ませる幻覚の問題を排除し、組織の説明責任の基盤を構築します。
増分要約アルゴリズムにより、会議終了後だけでなくリアルタイムで議事録を利用できるようになります。構造化された出力形式 (セクション、決定、アクション、未解決の質問) により、下流システムとのプログラムによる統合が可能になります。また、信頼度スコアリングは人間のレビュー担当者に調整されたシグナルを提供し、明示的な決定と検証が必要な暗黙の合意を区別します。
その結果、リンクごと、セグメントごと、意思決定ごとに、信頼を前提とするのではなく構築される会議インテリジェンス システムが誕生します。