発表・掲載日:2008/10/14

会議の映像・音声データから自動的に会議録コンテンツを作成するシステム

-だれが、いつ、どのような発言をしたかを簡単に検索・閲覧-

ポイント

  • 小規模会議でだれが、いつ、どのようなキーワードを発言したかを認識し、マルチメディア会議録コンテンツを作成するシステムを開発
  • 見出しとなるキーワードなどで場面検索したり、発言者をズームしたりする機能により会議概要を短時間で把握可能に
  • 費用対効果の問題で議事録の作成されていなかった小規模会議の発言の検索・閲覧・分析が簡単に

概要

 独立行政法人 産業技術総合研究所【理事長 吉川 弘之】(以下「産総研」という)情報技術研究部門【研究部門長 関口 智嗣】メディアインタラクショングループ 浅野 太 研究グループ長、松坂 要佐 研究員は、小規模会議を専用のカメラとマイクロホンにより収録した映像と音声から、だれが、いつ、どのような発言をしたかを自動判別・認識してマルチメディア会議録コンテンツを自動作成するシステム「MArc」を開発した。

 このシステムでは、専用の入力装置により会議内容を収録したマルチメディアデータ(映像・音声)から、いつ、だれが、どんな発言をしたかという情報を、マイクロホンアレイを使った音源定位・音源分離や音声認識技術などを用いて自動推定して、会議の構造を視覚化できる。例えば、キーワードを含む場面を簡単に検索・再生したり、再生時に発言者が自動的にズームされたりするといった利用者にとってストレスの少ない会議録の閲覧を可能にし、会議の概要を短時間で把握できるようになる。このシステムにより、例えば、マーケティングで用いられるグループインタビューといった顧客とのミーティングを収録した膨大なデータから、所望の情報を簡単・迅速に検索することができる。

 本成果は、2008年10月20日~21日に産総研つくばセンターで開催される「産総研オープンラボ」で公開する予定である。(「マルチメディア会議録支援システム」として研究室公開予定)

マルチメディア会議録コンテンツを自動作成するシステム「MArc」の写真


開発の社会的背景

 議会などの大規模な会議では、専門の書記が議事録を作成し、後で閲覧できるようになっている場合が多い。一方、小規模な会議においても、何らかの形で議事の内容を残し、後で閲覧するニーズが少なくない。例えば、マーケティングリサーチで用いられるグループインタビューでは、会議内容を後で詳しく分析し、マーケットの動向を会議内容から把握する。また、金融・保険分野などでも顧客対応の内容を記録として残すことが求められる。しかしながら、小規模な会議では、人手による議事録作成は費用対効果の観点から、ビデオカメラやレコーダーなどにより会議内容を記録する手段が一般的である。カメラやレコーダーによる収録は、簡便な方法であるが、記録された内容には、だれが、いつ、どのような発言をしたかの情報(タグ情報)がないため、後で会議内容を把握するためには、収録したビデオテープなどを最初から最後まで再生する必要があり、効率が悪いのが現状である。

研究の経緯

 このような状況から、近年、会議録の研究が盛んに行われているが、主に基礎研究の段階にとどまり、アプリケーションとしてデータ収録から会議録コンテンツの自動作成までを一貫して行うシステムの開発例は少ない。会議録コンテンツを自動作成するためには、以下のような課題が挙げられる。

 課題1:発言者一人一人にマイクロホンを装着するなどの煩わしい作業のない会議の収録
 課題2:発言内容をキーワードなどにより簡単に検索
 課題3:会議の概要をわかりやすく視覚化

 産総研では、これまで信号処理・音声認識・画像処理などの要素技術の研究を行ってきた。上述の課題を克服するため、これらの技術を集積して、マルチメディア会議録コンテンツを自動作成する実用的なシステムの開発に取り組んできた。

 なお、本研究の一部は、科研費(18200007)の助成を受けたものである。

研究の内容

 少人数の会議を専用の入力装置で収録し、マルチメディア会議録コンテンツを自動作成するシステム「MArc」を開発した。このシステムは、マイクロホンアレイと全方位カメラからなる入力装置(図1)、音源定位・音源分離・音声認識技術などを行うソフトウェア、および、マルチメディア会議録コンテンツ閲覧用のブラウザーにより構成されている。

マイクロホンアレイと全方位カメラからなる入力装置の写真

図1:マイクロホンアレイと全方位カメラからなる入力装置

 発話イベント(場面)情報(いつ、だれが、どんな発言をしたか)を、マイクロホンアレイを使った音源定位・音源分離や音声認識技術などを用いて自動推定し、会議の構造を視覚化する。このシステムを用いることにより、例えばキーワードを含む発話イベントを簡単に検索・再生したり、再生時に発言者が自動的にズームされたりするといった利用者にとってストレスの少ない会議録の閲覧を可能にする。

 図2に、コンテンツ作成までの流れを表した。

コンテンツ作成までの流れの図

図2:コンテンツ作成までの流れ

 まず、マイクロホンアレイにより8チャンネルの音響信号を収録し、音源定位により、各時刻の音源の方向が推定される。この方向情報を発言者ごとにまとめ(クラスタリング)、発話イベント情報として検出することにより、どの発言者が話したかを自動判別する。次に、音源分離により重なりあった不要音を除去する。実際の会議では、他の出席者の相づちや部屋の残響が、音声認識の対象となる発話に重なりあうため、発言者とマイクロホンの距離が離れると信号対雑音比(SN比)が低下し、音声認識の精度が著しく低下する。このため、マイクロホンを各々の発言者に装着せずに発言内容を自動認識するには、音源分離の技術が必要不可欠である。音源定位から音源分離までの一連の音響信号処理により、発言者が一人一人マイクロホンを装着することなく、図1のような収録装置をテーブルの真ん中に設置するだけで、発言者の特定を可能にしている(課題1)。

 続いて、音声認識を用いて、発言内容からキーワードを抽出して、そのキーワードをその発話イベントの検索用の情報(タグ情報)として用いることにより、会議内容を構造化することで、会議中の発言の検索を可能にしている(課題2)。

発話イベントごとに検索のためのタグ情報を付加して、会議内容を構造化の図

図3:発話イベント(場面)ごとに検索のためのタグ情報を付加して、会議内容を構造化

 一方、全方位カメラで収録したパノラマ画像は、発話イベントのタグ情報に基づいて、常に発言者がズームされるようになっている。

 さらに作成したマルチメディア会議録コンテンツを、効果的に閲覧できるブラウザーも開発した。このブラウザーでは、頻度の高いキーワードを画面右にキーワードの固まりとして表示し、求めるキーワードをクリックすることにより、会議の中でこのキーワードがどのように分布しているかを視覚化できるようになっている。これらの画像処理やブラウザーは、会議の概要の視覚化に有効である(課題3)

会議録ブラウザーMArcBrowserの画面

図4:会議録ブラウザーMArcBrowserの画面

動画:1分24秒】(Windows Media形式)

今後の予定

 今回開発したプロトタイプのシステムを用いて、実際の会議を対象とした実証実験を行う予定である。実証実験の結果を踏まえ、改良を重ねたのち技術移転などによる実用化を目指している。

 また、同じく産総研で開発された「ユーザーが協力すると性能が向上する音声情報検索システム」(PodCastle) (2008年6月12日プレス発表)、「マルチメディアを「声で探す」検索システム」(2008年10月8日プレス発表)などで用いられている要素技術と融合することにより、音声認識や発言検索の精度向上が期待される。こうした技術との融合についても、今後、研究を進める予定である。


用語の説明

◆マイクロホンアレイ
複数のマイクロホンを空間的に配置したもの。フェイズドアレイアンテナと同じ原理で、音の到来方向によりマイクロホンに到達する音の時間に差が出るため、音源の方向を推定したり、複数の音源を分離したりすることができる。[参照元へ戻る]
◆音源分離
複数のマイクロホンからの音信号に、信号処理を施すことにより、複数の音源からの音を分離したり、重なった雑音を除去したりする技術。本発表では、適応ビームフォーミングという技術を用いて、音源分離を行っている。[参照元へ戻る]
◆タグ情報
タグとは荷札などの意味。あるものに、その属性(例えば商品の値段、原産地)などの情報を付加する場合に用いる。[参照元へ戻る]
◆発話イベント
会議などで、ある人が発言を開始してから終了するまでを一つの「発話イベント」として定義する。[参照元へ戻る]
◆構造化
例えば、CDを再生する場合、ディスプレイに曲名や収録時間などの情報が表示されるため、ユーザーは、すきな曲だけを選んで再生したりすることができる。これは、音楽のデータが「構造化」されているためである。会議の内容を単にビデオなどで収録した場合には、収録されたデータは構造化されていない。収録されたデータを構造化し、いつ、だれが、どのような発言をしたかという情報を付加することにより、会議内容を簡単に検索したり、所望のデータだけを再生したりすることができる。[参照元へ戻る]

関連記事


お問い合わせ

お問い合わせフォーム