独立行政法人 産業技術総合研究所【理事長 吉川 弘之】(以下「産総研」という)情報技術研究部門【研究部門長 関口 智嗣】メディアインタラクショングループ【研究グループ長 浅野 太】後藤 真孝 主任研究員と緒方 淳 研究員らは、ユーザーが協力すると日々性能が向上する音声情報検索技術を開発し、インターネット上にある日本語の音声データ(ポッドキャスト)を対象とした全文検索サービス「PodCastle(ポッドキャッスル)」(http://podcastle.jp)を2008年6月12日に一般公開し、実証実験を開始する。
現在の音声認識技術では、インターネット上のさまざまな音声データを認識する際、誤認識が多く、次々と出現する新しい言葉(固有名詞や流行語等)にも対応できない。そのため、音声情報検索システムを実現しようとしても、適切な検索結果を得ることが難しかった。
今回産総研は、不特定多数のユーザーが簡単な操作で誤認識を訂正できる新たなインターフェースを開発した。その訂正結果を学習・反映させることで、音声検索性能と音声認識性能を共に向上させることが可能になった。さらに、インターネット上のニュース記事や辞書等から新しい言葉を自動学習する技術も開発した。
このウェブサービス PodCastleを通じて性能が向上していく音声認識技術は、ロボットやコールセンター、会議議事録作成等のさまざまな分野へ応用されることが期待される。
本成果については、6月14日~15日 国立京都国際会館において開催される「第7回産学官連携推進会議(内閣府等主催)」にてデモンストレーション展示を行う。
インターネット上のデータ量が増大し、情報検索は社会にとって不可欠な技術となった。テキスト(文字)データの検索に関しては、多数のウェブサービスが公開され、キーワードをタイプするだけで全文検索ができる。
しかし近年、音声版ブログと称されるポッドキャストや音声を伴う動画等がインターネット上で急増しており、音声を含むデータに対する情報検索の実用化が期待されている。音声データはテキストデータと異なり、それ自体を索引として使えないため、全文検索サービスを実現するには音声認識によるテキスト化(書き起こし)が必要となる。しかし、従来の音声認識技術では、誤認識が多い上に、新しい言葉に対応できなかったため、インターネット上の多様な音声に対して、実用的な精度の音声情報検索サービスはできなかった。
産総研では、人間の「音声」をコンピューターが理解して快適な社会を実現することを目指して、音声認識システム、音声インターフェース、対話ロボット等の研究開発をしてきた。
これまでの研究開発の蓄積から、「ユーザーが協力すると性能が向上する音声情報検索システム」というアイデアが生まれた。このアイデアに基づくシステムは、2006年12月から研究者向けにベータ版として試験公開してきたが、この度、諸機能が完成し、ウェブサービスとして一般公開して、実証実験を開始することとした。
なお、本研究の一部は、日本学術振興会科学研究費補助金(課題番号: 19300065)の助成を受けたものである。
産総研では、不特定多数のユーザーの協力によって使用中に性能が向上する音声情報検索システムを開発したので、インターネット上に多数存在する日本語のポッドキャストを対象とした全文検索サービス「PodCastle(ポッドキャッスル)」(http://podcastle.jp)として公開する。PodCastleは、以下の3つの特長を持つ。
1.ウェブ上の日本語ポッドキャストの全文検索を提供
ポッドキャストはブログの音声版に相当し、個人や団体が容易に発信できるために数が増え続けているが、従来、日本語のポッドキャストを全文検索できるウェブサービスはなく、あるキーワードを音声中に含むポッドキャストを見付けることはできなかった。今回、本PodCastle(ポッドキャッスル)サービスにアクセスすることで、誰でも無料でそうした音声検索が可能となる。
本サービスでは、日々自動収集しているポッドキャストを、音声認識でテキスト化(自動書き起こし)して索引付けておき、図1の画面例のように、ユーザーが入力した検索キーワードと照合して全文検索結果を表示する。個々の検索結果では、キーワード周辺の音声認識結果が表示され、実際に元のサイト上から音声を聴いて確認することもできる。
2.次々と出現する新しい言葉(固有名詞や流行語等)を自動学習
従来の音声認識では対応できないような新しい言葉(新語、時事用語、芸能人名等)を、インターネット上のニュース記事や辞書等から、自動学習する新たな技術を開発した。その際、音声認識辞書に言葉を追加するだけでなく、その前後のつながり(文脈)も学習し、より的確な認識が可能となった。ポッドキャストでは「サブプライムローン」や「iPS細胞」、「taspo」等の新しい言葉が使われることが多いが、これらの新しい言葉も、PodCastleによりいち早く自動認識できるようになった。従来は、これらを手作業で音声認識辞書に加えるしかなかったが、それだけでは「アメリカのサブプライムローン問題」のような前後のつながりは学習できず、認識性能が低下することがあった。PodCastleではそうしたつながりも自動学習し、的確な認識ができるようになった。
3.ユーザーが協力すればするほど音声の検索・認識の性能が向上する
ポッドキャストは様々な収録条件の音声を含んでおり、性能の高い音声認識技術を用いたとしても、必ずどこかに誤認識を生じる。そこで、そうした誤認識にユーザーが気づいたときに、選択操作で容易に訂正ができる新たなインターフェースを開発した。PodCastleでは、音声認識時に最終的な認識結果以外に可能性の高かった複数の候補も求めておき、図2の左の画面例のように提示する。ユーザーは正しい候補を選択するだけで訂正ができる(候補にない場合にはタイプ入力できる)。これにより索引付けが正しくなるので、検索性能が向上する。さらに、多数のユーザーによる訂正結果を学習することで、訂正すればするほど音声の検索・認識の性能が向上する。
|
|
|
図1: ポッドキャストに対する全文検索の画面例
左のトップページの画面でキーワードをタイプ入力すると、右のような検索結果の画面が表示される。
|
|
|
|
図2: 音声認識の誤認識をユーザーが簡単に訂正できるインターフェースの画面例 |
全文検索結果から興味のあるポッドキャストを選択すると、左の画面になり、検索したキーワード周辺の音声認識結果を再生しながら見ることができる。区間ごとに一番上が認識結果、その下に並んでいるのが可能性の高い候補であり、適切な候補を選択するだけで訂正できる。右の図のような全文表示にも切り替えられる(音声認識の信頼性が低い区間が、赤色で着色されている)。 |
本研究で開発した、新しい言葉に強く「日々成長する」音声認識システムを、産業界と連携して実用化し、ウェブサービスや、ロボット、コールセンター、会議議事録作成等の様々な応用に展開していく予定である。また、本研究で提案した「ユーザーによる誤り訂正や、インターネット上の情報で性能が向上していくパターン認識技術」という概念自体が学術的に新しいため、この概念の有効性を音声認識分野及びそれ以外の分野で検証していくことを検討している。