ユーザーが協力すると性能が向上する音声情報検索システムを実現

－インターネット上の音声情報を認識・検索するサービスを開始－

ポイント

インターネット上の音声データ（ポッドキャスト）を全文検索できるウェブサービスを開始
音声認識の誤りを不特定多数のユーザーが訂正することによって認識・検索性能が向上
新しい言葉の自動学習により、最新の話題を含む音声データの検索も可能

概要

　独立行政法人産業技術総合研究所【理事長吉川弘之】（以下「産総研」という）情報技術研究部門【研究部門長関口智嗣】メディアインタラクショングループ【研究グループ長浅野太】後藤真孝主任研究員と緒方淳研究員らは、ユーザーが協力すると日々性能が向上する音声情報検索技術を開発し、インターネット上にある日本語の音声データ（ポッドキャスト）を対象とした全文検索サービス「PodCastle(ポッドキャッスル)」(http://podcastle.jp)を2008年6月12日に一般公開し、実証実験を開始する。

　現在の音声認識技術では、インターネット上のさまざまな音声データを認識する際、誤認識が多く、次々と出現する新しい言葉（固有名詞や流行語等）にも対応できない。そのため、音声情報検索システムを実現しようとしても、適切な検索結果を得ることが難しかった。

　今回産総研は、不特定多数のユーザーが簡単な操作で誤認識を訂正できる新たなインターフェースを開発した。その訂正結果を学習・反映させることで、音声検索性能と音声認識性能を共に向上させることが可能になった。さらに、インターネット上のニュース記事や辞書等から新しい言葉を自動学習する技術も開発した。

　このウェブサービス PodCastleを通じて性能が向上していく音声認識技術は、ロボットやコールセンター、会議議事録作成等のさまざまな分野へ応用されることが期待される。

　本成果については、6月14日～15日国立京都国際会館において開催される「第7回産学官連携推進会議（内閣府等主催）」にてデモンストレーション展示を行う。

PodCastle概要図

開発の社会的背景

　インターネット上のデータ量が増大し、情報検索は社会にとって不可欠な技術となった。テキスト(文字)データの検索に関しては、多数のウェブサービスが公開され、キーワードをタイプするだけで全文検索ができる。

　しかし近年、音声版ブログと称されるポッドキャストや音声を伴う動画等がインターネット上で急増しており、音声を含むデータに対する情報検索の実用化が期待されている。音声データはテキストデータと異なり、それ自体を索引として使えないため、全文検索サービスを実現するには音声認識によるテキスト化（書き起こし）が必要となる。しかし、従来の音声認識技術では、誤認識が多い上に、新しい言葉に対応できなかったため、インターネット上の多様な音声に対して、実用的な精度の音声情報検索サービスはできなかった。

研究の経緯

　産総研では、人間の「音声」をコンピューターが理解して快適な社会を実現することを目指して、音声認識システム、音声インターフェース、対話ロボット等の研究開発をしてきた。

　これまでの研究開発の蓄積から、「ユーザーが協力すると性能が向上する音声情報検索システム」というアイデアが生まれた。このアイデアに基づくシステムは、2006年12月から研究者向けにベータ版として試験公開してきたが、この度、諸機能が完成し、ウェブサービスとして一般公開して、実証実験を開始することとした。

　なお、本研究の一部は、日本学術振興会科学研究費補助金（課題番号: 19300065）の助成を受けたものである。

研究の内容

　産総研では、不特定多数のユーザーの協力によって使用中に性能が向上する音声情報検索システムを開発したので、インターネット上に多数存在する日本語のポッドキャストを対象とした全文検索サービス「PodCastle(ポッドキャッスル)」(http://podcastle.jp)として公開する。PodCastleは、以下の３つの特長を持つ。

1．ウェブ上の日本語ポッドキャストの全文検索を提供

　ポッドキャストはブログの音声版に相当し、個人や団体が容易に発信できるために数が増え続けているが、従来、日本語のポッドキャストを全文検索できるウェブサービスはなく、あるキーワードを音声中に含むポッドキャストを見付けることはできなかった。今回、本PodCastle(ポッドキャッスル)サービスにアクセスすることで、誰でも無料でそうした音声検索が可能となる。

　本サービスでは、日々自動収集しているポッドキャストを、音声認識でテキスト化（自動書き起こし）して索引付けておき、図1の画面例のように、ユーザーが入力した検索キーワードと照合して全文検索結果を表示する。個々の検索結果では、キーワード周辺の音声認識結果が表示され、実際に元のサイト上から音声を聴いて確認することもできる。

2．次々と出現する新しい言葉（固有名詞や流行語等）を自動学習

　従来の音声認識では対応できないような新しい言葉（新語、時事用語、芸能人名等）を、インターネット上のニュース記事や辞書等から、自動学習する新たな技術を開発した。その際、音声認識辞書に言葉を追加するだけでなく、その前後のつながり（文脈）も学習し、より的確な認識が可能となった。ポッドキャストでは「サブプライムローン」や「iPS細胞」、「taspo」等の新しい言葉が使われることが多いが、これらの新しい言葉も、PodCastleによりいち早く自動認識できるようになった。従来は、これらを手作業で音声認識辞書に加えるしかなかったが、それだけでは「アメリカのサブプライムローン問題」のような前後のつながりは学習できず、認識性能が低下することがあった。PodCastleではそうしたつながりも自動学習し、的確な認識ができるようになった。

3．ユーザーが協力すればするほど音声の検索・認識の性能が向上する

　ポッドキャストは様々な収録条件の音声を含んでおり、性能の高い音声認識技術を用いたとしても、必ずどこかに誤認識を生じる。そこで、そうした誤認識にユーザーが気づいたときに、選択操作で容易に訂正ができる新たなインターフェースを開発した。PodCastleでは、音声認識時に最終的な認識結果以外に可能性の高かった複数の候補も求めておき、図2の左の画面例のように提示する。ユーザーは正しい候補を選択するだけで訂正ができる（候補にない場合にはタイプ入力できる）。これにより索引付けが正しくなるので、検索性能が向上する。さらに、多数のユーザーによる訂正結果を学習することで、訂正すればするほど音声の検索・認識の性能が向上する。


図1: ポッドキャストに対する全文検索の画面例左のトップページの画面でキーワードをタイプ入力すると、右のような検索結果の画面が表示される。


図2: 音声認識の誤認識をユーザーが簡単に訂正できるインターフェースの画面例
全文検索結果から興味のあるポッドキャストを選択すると、左の画面になり、検索したキーワード周辺の音声認識結果を再生しながら見ることができる。区間ごとに一番上が認識結果、その下に並んでいるのが可能性の高い候補であり、適切な候補を選択するだけで訂正できる。右の図のような全文表示にも切り替えられる（音声認識の信頼性が低い区間が、赤色で着色されている）。

今後の予定

　本研究で開発した、新しい言葉に強く「日々成長する」音声認識システムを、産業界と連携して実用化し、ウェブサービスや、ロボット、コールセンター、会議議事録作成等の様々な応用に展開していく予定である。また、本研究で提案した「ユーザーによる誤り訂正や、インターネット上の情報で性能が向上していくパターン認識技術」という概念自体が学術的に新しいため、この概念の有効性を音声認識分野及びそれ以外の分野で検証していくことを検討している。

用語の説明

◆音声情報検索: 人間の音声を収録したデータベースに対し、所望の音声を検索する技術。キーワード（検索語）をタイプ入力してそのキーワードを含む音声を検索する方法や、キーワードを音声入力してその音声に近い音声を検索する方法等がある。今回開発したPodCastleはキーワードを文字列としてキーボードからタイプ入力するが、入力に音声認識を用いることもできる。[参照元へ戻る]
◆ポッドキャスト(podcast): ポッドキャストとは、ウェブ上で音声データを公開するために広く用いられている方法の一種である。ポッドキャストには、一連のエピソードと呼ばれる音声データ（MP3ファイル）に加え、その流通を促すために、ブログなどで更新情報を通知するために用いられているメタデータRSSが必ず付与されている。エピソードは作成者（ポッドキャスタ）側が任意のタイミングで追加できる。この仕組みによりポッドキャストは音声版ブログとも言われ、個人による音声データの発信、流通、入手が容易にできるので普及してきた。なお、ユーザーがPodCastleを利用中に再生される音声データは、（PodCastleを経由せずに）元のポッドキャスト配信サイトから、ユーザーのコンピューターへ直接ダウンロードされる。[参照元へ戻る]
◆全文検索サービス: 検索対象とするテキストの全文あるいは音声の全内容（すべての書き起こしテキスト）の中で、ユーザーが入力したキーワードを含むものを検索し、検索結果を列挙してユーザーに提示するサービス。あるキーワードを含む文章や音声データを入手したいという需要は高く、ウェブ上のテキストに対して全文検索サービスが不可欠になったのと同様に、音声データに対しても全文検索サービスの重要性が増している。[参照元へ戻る]
◆新しい言葉（固有名詞や流行語等）: 現在の音声認識技術では、事前に用意した音声認識辞書の語句しか認識できない。そのため、辞書にない新しい言葉は、既存の何らかの語句の組み合わせとして誤認識されてしまう。今回開発したPodCastleでは新しい言葉を自動的に学習し、適切に認識できる。現在のPodCastleの音声認識辞書には約165000語が登録されており、自動学習によって日々増え続けている。[参照元へ戻る]
◆インターネット上のニュース記事や辞書等: 原理的には任意のニュースサイトや辞書サイトを用いることができる。本研究では、GoogleニュースとYahoo!ニュースに掲載された記事や、不特定多数のユーザーの協力で構築されているインターネット辞書「はてなダイアリーキーワード」(http://d.hatena.ne.jp/keyword/)等を用いて、新しい言葉を自動学習する仕組みを実現した。[参照元へ戻る]

お問い合わせ

お問い合わせフォーム