インターネット上の動画音声データの検索・書き起こしシステムを実現

－動画中の発言内容を音声認識でテキストに書き起こして全文検索が可能に－

ポイント

動画共有サービスの動画中の音声を認識して全文検索できるウェブ上のサービスを公開
誰でも簡単な操作で音声認識誤りを訂正して読みやすい書き起こしを作成できる
日本語に加えて英語の動画音声データの検索・書き起こしにも対応

概要

　独立行政法人産業技術総合研究所【理事長野間口有】（以下「産総研」という）情報技術研究部門【研究部門長関口智嗣】後藤真孝上席研究員兼メディアインタラクション研究グループ研究グループ長と緒方淳研究員らは、ユーザーに協力してもらうことで日々性能が向上する音声情報検索技術を開発し、インターネット上にある日本語と英語の動画音声データ（動画共有サービスやポッドキャストによって公開されているデータ）を対象とした音声全文検索・書き起こしサービス「PodCastle (ポッドキャッスル)」(日本語版 http://podcastle.jp、英語版 http://en.podcastle.jp)を2011年10月12日に一般公開し、実証実験を開始する。

　産総研では、音声認識誤りをユーザーが訂正できる独自のインターフェースを開発し、2008年6月12日に日本語のポッドキャストに対象を限定した音声全文検索サービスを一般公開した。12万件以上の音声データが登録され、実際に52万単語以上が訂正されて、それらを学習することで音声認識の性能を日々向上させるのが可能なことを実証した。それを受けて、動画や英語への対応が求められてきた。

　今回公開する音声全文検索・書き起こしサービスでは新たに、普及が進んでいる代表的な動画共有サービス（ニコニコ動画、YouTube、Ustream）に対応した。そして、複数のユーザーが協力し合って、話者名や改行を入力しながら読みやすい書き起こしを作成できる機能を実現した。さらに、日本語に加えて英語の動画音声データも音声認識と検索ができるように改良した。今後は英語以外の言語への対応も検討していく。

　なお、この研究成果は、2011年10月13日～14日に産総研つくばセンターで開催される「産総研オープンラボ」にてデモンストレーション展示を行う。

今回公開する音声全文検索・書き起こしサービス「PodCastle（ポッドキャッスル）」

開発の社会的背景

　インターネット上の動画共有サービスや音声配信サービスの普及に伴い、誰でも視聴できる動画音声データ（音声を伴う動画データや音声データ）が日常的に生成・蓄積されて増え続けている。しかし、動画音声データはテキスト(文字)データと異なり、それ自体を索引として使えないため、発言内容などの詳細な情報の検索(全文検索)ができなかった。

　また、そうした既に公開されている動画音声データに対して、人手でテキスト化（書き起こし）をして公開する活動も広がっている。書き起こしされた結果は、視聴の効率化や聴覚障害者支援、会議議事録作成などに有用であるが、書き起こし作業に長時間の労力を要していた。

　このような検索・書き起こしを可能にするために、これまで音声認識技術を使って自動的にテキスト化する取り組みはあったが、音声認識誤りを避けることはできず、ユーザーが誤りに気づいても正しい書き起こしを作成するために協力し合うことはできなかった。

研究の経緯

　産総研では、「音」をコンピューターが理解して快適な社会を実現することを目指して、音声認識システム、音楽理解システム、音インターフェースなどの研究開発をしてきた。これまでの研究開発の蓄積から「ユーザーが利用中に音声認識誤りの訂正に協力をするほど性能が向上する音声情報検索システム」というアイデアが生まれ、代表的な音声データである日本語ポッドキャストを対象とした音声全文検索サービス「PodCastle(ポッドキャッスル)」を一般公開し、実証実験を続けてきた（2008年6月12日産総研プレス発表）。既に12万件以上の音声データが登録され、その一部の音声認識結果に対して、不特定多数のユーザーにより、累計52万単語以上の多数の訂正がなされたことで、音声検索性能が向上した。さらに、訂正結果を言語的・音響的に学習することで、音声認識性能の向上が可能なことを実証した。

　今回、代表的な動画共有サービス（ニコニコ動画、YouTube、Ustream）上の動画音声データへの対応、話者名や改行などが含まれた読みやすいテキストを複数のユーザーが協力し合って作成できる書き起こし支援、英語の動画音声データへの対応といった新たな機能を開発したので、ウェブブラウザから利用できるサービスとして一般公開して、実証実験を開始することとした。

研究の内容

　産総研では、これまで研究開発を進めてきた、不特定多数のユーザーの協力によって使用中に性能が向上する音声情報検索システムを拡張し、以下の3つの新たな機能を持つ音声全文検索・書き起こしサービス「PodCastle (ポッドキャッスル)」(日本語版http://podcastle.jp、英語版http://en.podcastle.jp)として2011年10月12日に一般公開を行い、実験を開始する。

代表的な動画共有サービスを含めたさまざまな動画音声データに対応
　これまではポッドキャストの音声データのみを検索の対象としてきたが、動画共有サービス（ニコニコ動画、YouTube、Ustream）の動画音声データと、インターネット上の任意のURLにある動画音声データに、新たに対応した。ユーザーが任意の検索語を入力すれば、それを含む動画音声データ中の発言を検索できる（図1）。そして、音声認識結果をウェブブラウザ上で閲覧・訂正しながら、元のウェブサイト上にある動画音声データをストリーミング再生して視聴できる（図2）。こうして幅広い動画音声データの全文検索と書き起こしが可能になり、利便性が向上した。
書き起こし支援機能を強化
　これまでのPodCastleでも、ウェブブラウザ上で候補を選択するだけで手軽に音声認識誤りを訂正できる独自のインターフェース（図2左）を提供してきた。それにより最低限の書き起こしはできたが、今回新たに、複数のユーザーが協調して、読みやすいテキストとして円滑に書き起こしを作成できるように、書き起こし支援機能を強化した。まず、テキスト中の任意の箇所に話者名と改行の入力を可能にし（図2右）、可読性を向上した。次に、同じ動画音声データ中の異なる箇所を、複数のユーザーが同時に書き起こし可能とした。お互いの訂正が自動反映されて着色されるので、どこを訂正したかが容易に把握できる。また、ユーザーが訂正するだけでなく、音声認識結果の正しい箇所に正解マークを着色することも可能にした（図2右）。これにより、そうした正しい箇所とまだ訂正されていない箇所を区別することができ、書き起こしの進捗状況を把握しやすくなった。同一ユーザーが後日続きを書き起こす場合にも有用である。これにより、全体の単語数の何％が書き起こされたか（訂正あるいは正解マーク付与されたか）を達成率として表示可能となった（図2右）。
英語の動画音声データに対応
　これまでは産総研で開発した日本語用の音声認識システムを用いて、日本語ポッドキャストに限定したサービスを公開していた。この日本語版PodCastle (http://podcastle.jp)に加え、今回新たに、英語版PodCastle (http://en.podcastle.jp)を実現し、英語の動画音声データも検索・書き起こし可能にした（図3）。そのための英語用の音声認識システムは、エジンバラ大学音声技術研究所(CSTR)が中核研究機関として実施した欧州連合（EU）の研究枠組み計画(FP6 AMI および FP6 AMIDA)で開発され、同研究所が英語版PodCastle用に運用しているシステムを用いている。

図1 動画音声データに対する全文検索の画面例

左のトップページの画面でキーワードをタイプ入力すると、右のような検索結果の画面が表示される。VIDEOアイコンが、それが動画であることを表している。

図2 音声認識の誤認識を訂正し、書き起こしを作成できるインターフェースの画面例

全文検索結果から興味のある動画音声データを選択すると、左の画面になり、検索したキーワード周辺の音声認識結果を再生しながら見ることができる。新たに動画を画面上で再生しながら訂正できる機能が追加された。また、右の図のような全文表示に切り替えて、話者名、改行を入力することもできる。訂正した箇所は青色で着色され、認識結果が正しい箇所に正解マークを付与すると緑色に着色される。右上の保存ボタンの左に達成率が表示されている。これらの新たに追加された書き起こし支援機能により、読みやすい書き起こしを作成できるようになった。

図3 英語の動画音声データに対応したインターフェースの画面例

英語版でも日本語版と同様に、ユーザーは動画を画面上で再生しながら音声認識結果を閲覧し、誤認識を訂正して書き起こしを作成できる。

今後の予定

　誰でもウェブブラウザから利用できる有用なサービス「PodCastle (ポッドキャッスル)」の持続的な研究開発・運用を通じて社会に貢献していくとともに、本研究で開発した、動画音声データに対する検索・書き起こしシステムを、産業界と連携して実用化し、動画視聴の効率化や聴覚障害者支援、会議議事録作成など、さまざまな応用に展開していく予定である。また日本語、英語以外の言語にも今後対応していくことを検討している。

用語の説明

◆音声情報検索: 人間の音声を収録した大規模なデータベースから、所望の情報を検索する技術。キーワード（検索語）をタイプ入力してそのキーワードを含む音声を検索する。今回開発したPodCastleでは、インターネット上の動画データや音声データ中の音声を収集したデータベースに対して検索を行う。[参照元へ戻る]
◆動画音声データ: 動画音声データとは、インターネット上で蓄積、配信されている動画データ、音声データを指す。動画データは下記で説明する「動画共有サービス」、音声データは下記で説明する「ポッドキャスト」の普及により日々増え続けており、インターネット上の主要なコンテンツの1つとなっている。なお、ユーザーがPodCastleを利用中に再生される動画音声データは、（PodCastleを経由せずに）元の配信サイトから、ユーザーのコンピューターへ直接ダウンロードされる。[参照元へ戻る]
◆動画共有サービス: 動画共有サービスとは、ユーザーによってアップロードされた動画データを、インターネット上で不特定多数のユーザーに配信して共有し、視聴可能にするウェブ上のサービスである。代表的な動画共有サービスとしては「ニコニコ動画」、「YouTube」、「Ustream」が挙げられる。 [参照元へ戻る]
◆ポッドキャスト: ポッドキャスト(podcast)とは、インターネット上で音声データを公開するために広く用いられている方法の一種である。ポッドキャストには、一連のエピソードと呼ばれる音声データ（MP3ファイル）に加え、その流通を促すために、ブログなどで更新情報を通知するために用いられているメタデータRSSが必ず付与されている。エピソードは作成者側が任意のタイミングで追加できる。[参照元へ戻る]
◆音声全文検索・書き起こしサービス: 検索対象とするテキストの全文あるいは動画音声データの全内容（すべての書き起こしテキスト）の中で、ユーザーが入力したキーワードを含むものを検索し、検索結果を列挙してユーザーに提示するサービスである。あるキーワードを含む文章や動画音声データを入手したいという需要は高く、インターネット上のテキストに対して全文検索サービスが不可欠になったのと同様に、動画音声データに対しても全文検索サービスの重要性が増している。一方、視聴の効率化や聴覚障害者支援、会議議事録作成などの目的のために、動画音声データ中の発言内容の書き起こし(テキスト化)を作成することのニーズと重要性も高い。音声全文検索・書き起こしサービスであるPodCastleは、膨大な動画音声データから全文検索でユーザーの欲しい情報(動画音声データ、発言内容)を提示し、さらにそれを不特定多数のユーザーが協力し合いながら書き起こしを作成することができる。[参照元へ戻る]

お問い合わせ

お問い合わせフォーム