独立行政法人 産業技術総合研究所【理事長 吉川 弘之】(以下「産総研」という) 情報処理研究部門【部門長 大蒔 和仁】の後藤 真孝、伊藤 克亘らは、世界で初めて、コンピュータによる音声認識に、断片だけ話せば入力できる補完機能を導入した。この「音声補完」機能によって、音声入力インタフェースがより自然で使いやすくなり、その普及が促進されると期待される。なお、今回の研究成果については、10月3日~5日 東京ファッションタウン(江東区)に於いて開催される「RWC2001最終成果展示発表会」及び10月18日 産総研つくばセンターに於いて開催される「産総研情報処理研究部門オープンハウス」にてデモンストレーションを行う予定である。
○ 従来の問題点:【 これまでの音声入力は話しかけにくい 】
現在の音声入力の多くは、ユーザにすべての音を最初から最後まで丁寧に発声することを暗黙の内に強いている。そのため、ユーザにとって、心理的抵抗が大きく、話しかけにくいという問題点があった。音声は人間にとって最も重要なコミュニケーション手段であり、人間とコンピュータとのインタフェースにおいても大きな役割を果たすことが期待されているにも関わらず、限定的にしか用いられていなかった。
○ 解決法:【 音声入力インタフェースに補完機能を導入 】
この問題点を解決し、話しかけやすい音声入力を実現するために、ユーザがある単語を一部しか思い出せずに断片だけを発声しても、音声入力システム側がその残りを補って入力することを可能にする補完機能「音声補完」を、世界で初めて、音声入力インタフェースに導入した。人間同士の対話では、「音声補完」という語の後半を思い出せずに「おんせいー…」と困って言い淀むと、相手が「音声補完?」と手助けしてくれることがあるが、本研究では、この相手の役割をシステム側に担わせることで、快適な音声入力を実現した。【イメージは図1を参照】
○ 展望:【 音声入力インタフェース研究の新たな展開に道を拓く 】
「音声補完」のように言い淀みを音声入力で積極的に活用する発想は従来なく、音声入力インタフェース研究の新たな展開に道を拓くものである。これは、多様な音声入力応用システムに適用できる基本的なアイディアであり、今後、音声入力システムを構築する上での不可欠な機能の一つになることが予想される。
|
|
|
|
|
|
|
|
|
|
|
|
(6)
|
1 番の候補「宇多田ヒカル」が認識結果として確定
|
|
|
音声バックワード補完 |
単語の後半がわかっているとき
|
|
|
|
|
(b)
|
「ゆき」と入力した直後に補完候補ウィンドウが登場
|
↓
|
|
|
(c)
|
「1 番」と入力して「小柳ゆき」が認識結果として確定
|
|
|
|
(ii)
|
「BLANKEY JET CITY 」を含む補完候補ウィンドウが登場
|
↓
|
|
(iii)
|
「してぃ」と入力して「BLANKEY JET CITY 」が確定
|
|
図2:音声補完の実行画面例(曲名とアーティスト名の補完が可能)
|
音声による対話は人間のコミュニケーションにおける最も重要な手段であり、人間とコンピュータとのインタフェースにおいても、大きな役割を果たすことが期待されている。しかしながら、近年、音声認識の性能が着実に向上しているにも関わらず、音声入力インタフェースは十分に普及していない。この理由の一つとして、現在の音声入力が、ユーザにすべての音を最初から最後まで丁寧に発声することを暗黙の内に強いているために、心理的抵抗が大きく、話しかけにくいものになっていることが挙げられるが、この問題点に着目した研究は従来ほとんど行われてこなかった。
産総研では、人間とコンピュータとの間のインタフェースを、より自然で親密なものにすることを目指して、これまでに、音声認識エンジン、音声対話システム、マルチモーダル対話システム、対話ロボット等を世の中に先駆けて研究開発してきた。音声入力に補完機能を導入するという新しいアイディアは、こうした音声と対話に関する研究開発の蓄積から生まれた。
ユーザが音声入力中に言い淀むと、音声入力システム側が補完候補を提示して手助けをしてくれる「音声補完」という補完機能を、世界で初めて、音声入力インタフェースに導入した。例えば、ユーザが「宇多田ヒカル」を音声入力したいときに、後半を思い出せずに、「うただー」と前半を発声しながら言い淀むと、システム側が後半を補って、「宇多田ヒカル」を含む補完候補を提示してくれる【動作の様子は図2を参照】。ユーザはその後、番号を言ったり続きを読み上げたりするだけで、選択入力できる。前半を思い出せないときには、「なんとかー、ひかる」と発声すれば、今度はシステム側が前半を補ってくれる。
このように、ある単語の一部しか思い出せずに断片だけを発声しても、システム側がその残りを補って入力することを可能にすることで、以下の利点が得られる。
-
記憶の補助
入力したい内容がうろ覚えでも一部だけ思い出せれば入力できる。
-
省力化
入力内容が長くて複雑なときも、内容の特定に十分な部分だけ発声すればよい。
-
心理的抵抗の低減
すべての音を最初から最後まで丁寧に発声することを要求する従来の音声入力に比べて、思いついた断片だけを発声すればよく、心理的抵抗が少なくなる。
このような補完による手助けは、ユーザが必要としているときにだけ与えるべきである。そこで、人間が困ったときに言い淀む現象に着目した。「音声補完」では、音声に含まれる非言語情報の一つである言い淀み現象の中でも、特にユーザの思考状態が現れやすい有声休止(母音の引き延ばし)を利用する。有声休止は、発話したい内容が断片的にしか思い出せないときや、何を発話してよいか判断に迷うときによく現れる。例えば、「音声補完」という単語を最後まで思い出せないときには、「おんせいー」と言い淀むことがよくある。この「いー」のような有声休止をシステムが検出したときだけ補完候補を提示する(手助けをする)ことで、わずらわしくない実用的な音声入力を実現できた。
この音声補完を実現するには、
-
任意の単語中の有声休止をリアルタイムに検出する技術
-
検出した有声休止をトリガーとして、補完のための候補を、音声認識の単語辞書との音響的な類似度に基づいて生成・提示する技術
が必要となるが、本研究はこれらの技術も新たに開発した。これらを既存の不特定話者音声認識技術と組み合わせることで、楽曲の検索を例題として、曲名とアーティスト名を音声補完しながら入力できるシステムを実現し、その動作と高い有効性を検証した。
以上をまとめると、本研究が優れているのは、
-
アイディアの新規性
「音声補完」という機能そのものの提案と呼び出し手段に有声休止を用いる提案
-
技術の新規性
リアルタイム有声休止検出技術と音響的な類似度に基づく補完候補生成技術
を兼ね備えているからであり、音声入力インタフェース研究の新たな展開に道を拓くものとして高く評価されている。
【学会受賞4件、日米特許出願中】
「音声補完」は、音声入力が有効な多様な応用システムに適用できる基本的なアイディアであり、音声入力システムを構築する上での不可欠な機能の一つになることが予想される。既に曲名とアーティスト名の入力で有用性を確認したが、このアイディアは住所入力や各種固有名詞の入力等の様々な局面にもすぐに適用できる。補完対象を文章のような長い単位に拡張する目処も立っており、今後、研究開発を進めていく予定である。
本研究は、次世代情報処理基盤技術開発事業(リアルワールドコンピューティングプログラム)の支援を受けて行われているもので、10月3日~5日 東京ファッションタウン(江東区)に於いて開催される「RWC2001最終成果展示発表会( http://www.rwcp.or.jp/rwc2001/ ) 」及び10月18日 産総研つくばセンターに於いて開催される「 産総研情報処理研究部門オープンハウス( http://www.aist.go.jp/pr/openhouse2001/ ) 」にてデモンストレーションを行う予定である。