産総研：音声補完：言い淀むと助けてくれる新たな音声入力インタフェース

　独立行政法人産業技術総合研究所【理事長吉川弘之】（以下「産総研」という）情報処理研究部門【部門長大蒔　和仁】の後藤真孝、伊藤克亘らは、世界で初めて、コンピュータによる音声認識に、断片だけ話せば入力できる補完機能を導入した。この「音声補完」機能によって、音声入力インタフェースがより自然で使いやすくなり、その普及が促進されると期待される。なお、今回の研究成果については、10月3日～5日東京ファッションタウン（江東区）に於いて開催される「RWC2001最終成果展示発表会」及び10月18日産総研つくばセンターに於いて開催される「産総研情報処理研究部門オープンハウス」にてデモンストレーションを行う予定である。

○ 従来の問題点：【これまでの音声入力は話しかけにくい】
　現在の音声入力の多くは、ユーザにすべての音を最初から最後まで丁寧に発声することを暗黙の内に強いている。そのため、ユーザにとって、心理的抵抗が大きく、話しかけにくいという問題点があった。音声は人間にとって最も重要なコミュニケーション手段であり、人間とコンピュータとのインタフェースにおいても大きな役割を果たすことが期待されているにも関わらず、限定的にしか用いられていなかった。

○ 解決法：【　音声入力インタフェースに補完機能を導入　】
　この問題点を解決し、話しかけやすい音声入力を実現するために、ユーザがある単語を一部しか思い出せずに断片だけを発声しても、音声入力システム側がその残りを補って入力することを可能にする補完機能「音声補完」を、世界で初めて、音声入力インタフェースに導入した。人間同士の対話では、「音声補完」という語の後半を思い出せずに「おんせいー…」と困って言い淀むと、相手が「音声補完？」と手助けしてくれることがあるが、本研究では、この相手の役割をシステム側に担わせることで、快適な音声入力を実現した。【イメージは図１を参照】

○ 展望：【音声入力インタフェース研究の新たな展開に道を拓く】
　「音声補完」のように言い淀みを音声入力で積極的に活用する発想は従来なく、音声入力インタフェース研究の新たな展開に道を拓くものである。これは、多様な音声入力応用システムに適用できる基本的なアイディアであり、今後、音声入力システムを構築する上での不可欠な機能の一つになることが予想される。

音声フォワード補完

単語の前半がわかっているとき

（１）	「うただー」と入力
↓

（２）	「だー」の有声休止中
↓

（３）	補完候補ウィンドウが回転しながら登場
↓

（４）	「1 番」と入力した直後
↓

（５）	1 番の候補が輝いて跳躍
↓

（６）	1 番の候補「宇多田ヒカル」が認識結果として確定

音声バックワード補完

単語の後半がわかっているとき

（ａ）	「なんとかー」と入力した直後
↓

（ｂ）	「ゆき」と入力した直後に補完候補ウィンドウが登場
↓

（ｃ）	「1 番」と入力して「小柳ゆき」が認識結果として確定

音声ツーウェイ補完

単語の中央がわかっているとき

（ｉ）	「なんとかーじぇっとー」と入力
↓

（ｉｉ）	「BLANKEY JET CITY 」を含む補完候補ウィンドウが登場
↓

（ｉｉｉ）

「してぃ」と入力して「BLANKEY JET CITY 」が確定

図２：音声補完の実行画面例（曲名とアーティスト名の補完が可能）

　音声による対話は人間のコミュニケーションにおける最も重要な手段であり、人間とコンピュータとのインタフェースにおいても、大きな役割を果たすことが期待されている。しかしながら、近年、音声認識の性能が着実に向上しているにも関わらず、音声入力インタフェースは十分に普及していない。この理由の一つとして、現在の音声入力が、ユーザにすべての音を最初から最後まで丁寧に発声することを暗黙の内に強いているために、心理的抵抗が大きく、話しかけにくいものになっていることが挙げられるが、この問題点に着目した研究は従来ほとんど行われてこなかった。　

　産総研では、人間とコンピュータとの間のインタフェースを、より自然で親密なものにすることを目指して、これまでに、音声認識エンジン、音声対話システム、マルチモーダル対話システム、対話ロボット等を世の中に先駆けて研究開発してきた。音声入力に補完機能を導入するという新しいアイディアは、こうした音声と対話に関する研究開発の蓄積から生まれた。

　ユーザが音声入力中に言い淀むと、音声入力システム側が補完候補を提示して手助けをしてくれる「音声補完」という補完機能を、世界で初めて、音声入力インタフェースに導入した。例えば、ユーザが「宇多田ヒカル」を音声入力したいときに、後半を思い出せずに、「うただー」と前半を発声しながら言い淀むと、システム側が後半を補って、「宇多田ヒカル」を含む補完候補を提示してくれる【動作の様子は図２を参照】。ユーザはその後、番号を言ったり続きを読み上げたりするだけで、選択入力できる。前半を思い出せないときには、「なんとかー、ひかる」と発声すれば、今度はシステム側が前半を補ってくれる。

　このように、ある単語の一部しか思い出せずに断片だけを発声しても、システム側がその残りを補って入力することを可能にすることで、以下の利点が得られる。

記憶の補助
入力したい内容がうろ覚えでも一部だけ思い出せれば入力できる。
省力化
入力内容が長くて複雑なときも、内容の特定に十分な部分だけ発声すればよい。
心理的抵抗の低減
すべての音を最初から最後まで丁寧に発声することを要求する従来の音声入力に比べて、思いついた断片だけを発声すればよく、心理的抵抗が少なくなる。

　このような補完による手助けは、ユーザが必要としているときにだけ与えるべきである。そこで、人間が困ったときに言い淀む現象に着目した。「音声補完」では、音声に含まれる非言語情報の一つである言い淀み現象の中でも、特にユーザの思考状態が現れやすい有声休止（母音の引き延ばし）を利用する。有声休止は、発話したい内容が断片的にしか思い出せないときや、何を発話してよいか判断に迷うときによく現れる。例えば、「音声補完」という単語を最後まで思い出せないときには、「おんせいー」と言い淀むことがよくある。この「いー」のような有声休止をシステムが検出したときだけ補完候補を提示する（手助けをする）ことで、わずらわしくない実用的な音声入力を実現できた。

この音声補完を実現するには、

任意の単語中の有声休止をリアルタイムに検出する技術
検出した有声休止をトリガーとして、補完のための候補を、音声認識の単語辞書との音響的な類似度に基づいて生成・提示する技術

が必要となるが、本研究はこれらの技術も新たに開発した。これらを既存の不特定話者音声認識技術と組み合わせることで、楽曲の検索を例題として、曲名とアーティスト名を音声補完しながら入力できるシステムを実現し、その動作と高い有効性を検証した。

以上をまとめると、本研究が優れているのは、

アイディアの新規性
「音声補完」という機能そのものの提案と呼び出し手段に有声休止を用いる提案
技術の新規性
リアルタイム有声休止検出技術と音響的な類似度に基づく補完候補生成技術

を兼ね備えているからであり、音声入力インタフェース研究の新たな展開に道を拓くものとして高く評価されている。
【学会受賞４件、日米特許出願中】

　「音声補完」は、音声入力が有効な多様な応用システムに適用できる基本的なアイディアであり、音声入力システムを構築する上での不可欠な機能の一つになることが予想される。既に曲名とアーティスト名の入力で有用性を確認したが、このアイディアは住所入力や各種固有名詞の入力等の様々な局面にもすぐに適用できる。補完対象を文章のような長い単位に拡張する目処も立っており、今後、研究開発を進めていく予定である。

　本研究は、次世代情報処理基盤技術開発事業（リアルワールドコンピューティングプログラム）の支援を受けて行われているもので、10月3日～5日東京ファッションタウン（江東区）に於いて開催される「RWC2001最終成果展示発表会( http://www.rwcp.or.jp/rwc2001/ ) 」及び10月18日産総研つくばセンターに於いて開催される「産総研情報処理研究部門オープンハウス( http://www.aist.go.jp/pr/openhouse2001/ ) 」にてデモンストレーションを行う予定である。

音声補完のWWWページ

◆音声認識: 人間の音声をコンピュータに認識させる技術。現在の音声認識のほとんどは、入力したい語句とその語句の読みをあらかじめ登録して使用する。それらを入力するときには、音を飛ばしたり、間違えたりせず、登録した通りに最初から最後まできちんと発声しないといけない。[参照元へ戻る]
◆補完機能: 入力したいデータの一部を入力すると、システムがその残りを補ってくれる機能。例えばUNIXシステム上のキーボード入力では、途中まで文字列を打ち込んで、TABキーなどの補完トリガーキーを押すことで、その後を補う補完機能が実現されていた。しかし、音声入力においては、入力中に補完機能を適切に呼び出す手段がなかったこともあって、これまで実現された例はなかった。なお、音声の場合の補完では、音声の個人差や変動が非常に大きいために、音響的な類似度に基づいて補完候補を生成しなければならず、キーボード入力の補完よりも実現困難な機能である。[参照元へ戻る]
◆音声入力インタフェース: 音声を用いてコンピュータや携帯端末を操作するための仕組み。これまでのコンピュータや携帯端末は、主に、キーボードとマウスによって操作されてきた。人間のコミュニケーションにおいて音声は最も自然で重要なものであり、音声を用いてコンピュータを操作することは近年一部可能になりつつあるが、まだまだ使用しにくい点があり、普及が進んでいない状況にある。[参照元へ戻る]
◆非言語情報（ノンバーバル・インフォメーション）: 音声信号中には、その言語的な内容以外にも、声の調子、抑揚、言い淀みなどによって表現される様々な情報が含まれており、それが、音声によるコミュニケーションを人間にとって快適で豊かな情報交換手段にしている。言語情報以外のこれらの情報を「非言語情報」と呼ぶが、現在の音声認識ではほとんど利用されていない。なお、音声中に限らず、ジェスチャーや表情のようなコミュニケーションに用いられる言語以外の情報全般を意味することもある。[参照元へ戻る]
◆有声休止: 言い淀み現象の一つで、母音の引き延ばしとして現れるもの。「えー」「うー」などといった典型的な言い淀みの他に、例えば、「音声補完」という語を最後まで思い出せないときに、「おんせいー」（「いー」の部分が有声休止）と言い淀んだりする現象も含まれる。[参照元へ戻る]

音声補完：言い淀むと助けてくれる新たな音声入力インタフェース

ポイント

概要

研究の背景

研究の経緯

研究成果の内容

今後の展望

展示予定

関連情報

用語の説明

お問い合わせ