独立行政法人 産業技術総合研究所【理事長 吉川 弘之】(以下「産総研」という) 情報技術研究部門【部門長 坂上勝彦】メディアインタラクショングループ【グループ長 浅野太】と知能システム研究部門【部門長 平井 成興】ヒューマノイド研究グループ【グループ長 比留川博久】は、マイクロホンアレイを用いた生活環境での音声認識機能を開発し、人間型ロボットHRP-2プロメテ(以下「HRP-2」という)の知覚機能の拡大に成功した。マイクロホンアレイはロボット頭部周辺に設置した8個の無指向性マイクロホン【図1左参照】から構成されている。音が各マイクロホンに到達する時間の差から音源位置を推定し、同時にロボット頭部のカメラにより人の発見・追跡を行い人の位置を検出する。マイクロホンアレイとカメラから得られたこれらの情報を組みあわせて雑音の分離・除去を行い、安定した音声認識を行うことが可能になった。また、この雑音除去をリアルタイムで行えるハードウェアを開発、ロボット内部へ組み込むことでテレビなどの雑音源が存在するような場所でも、人が音声によってロボットに命令を与えたり、ロボットを通じてテレビなどの情報家電を操作したりすることが可能になった。
このようなロボット聴覚機能によって、生活環境における人間と人間型ロボットとの自然なコミュニケーションの実現が期待される。
本研究は、産総研のプロジェクト「ヒューマノイドロボット型知能ブースタープラットホーム開発(2003~2005年度)」の一環として実施された。
|
|
|
図1 左:マイクロホンアレイを設置した人間型ロボットの頭部。矢印はマイクロホンの位置を示す。右:ロボットに組み込んだ多チャンネル信号処理用ハードウェア。 |
1996年に本田技研工業株式会社が人間型ロボットP2を発表して以来、日本をはじめ全世界で人間型ロボットの研究開発が盛んに行われている。また、経済産業省が策定したロボット分野の技術戦略マップで示されているように2025年には、家庭における家事支援や高齢者の自立支援、介助・介護等の、生活環境において人間を支援するロボットの実用化が期待されている。
一方、これまでの人間型ロボットに関する技術は、ロボットの安全・安定な歩行や動作に関する機能、ロボットビジョン(視覚機能)を中心に開発が進められてきている。しかしながら、人間とロボットの自然なコミュニケーションを実現するための重要な機能であるロボットの聴覚機能に関する技術開発については、本格的な取り組みが少なかった。
次世代ロボットの実用化が期待される生活環境において、人間が音声によって直接ロボットとコミュニケーションできる機能は、重要なロボットの知覚機能のひとつとなってきている。
産総研では、高性能化する情報通信環境を活用して、必要とする情報・知識を誰もが自在に創造、流通、共有できる、高度で安全な情報通信社会の実現を目指している。そのなかでも、機械と人間の自然なコミュニケーションを実現するヒューマンインターフェース技術開発は重要な推進テーマのひとつであり、家庭をはじめ実際のさまざまな環境において人間と安全に協調活動を行うことができる人間型ロボットは、ヒューマンインターフェース技術の実現形態のひとつである。そこで、産総研では2003年度から「ヒューマノイドロボット型知能ブースタープラットホーム開発」プロジェクトを開始し、さまざまな環境下で安全・安定に動作し、人間との自然なコミュニケーションが可能な人間型ロボットの開発をすすめている。本研究はこの研究プロジェクトの一環として実施された。
近い将来、次世代ロボットの活動環境として期待されている生活環境には、テレビをはじめとしてさまざまな音源が存在する。このような状況下で、人と人とが行うように、人間とロボットが音声を使って自然なコミュニケーションができることは、生活環境で働くロボットにとって重要な機能のひとつである。本研究は、このような多数の音源が存在する環境であっても使用可能な音声インターフェースを人間型ロボットで実現させたものである。今回、人間型ロボットはHRP-2プロメテを使用した。
本研究で開発した音声インターフェースは、
- HRP-2の頭部周辺に埋め込まれた8個の無指向性マイクロホンで構成されるマイクロホンアレイシステム
- HRP-2頭部の広視野用カメラによる画像から人物の位置を検出するソフトウェア
- マイクロホンアレイの各マイクロホンへ音声が到達する時間の違いから音源の位置を推定し、カメラから得られた人の位置の情報とあわせることで、発話区間の検出と音源分離を行い、人の音声以外の雑音を分離・除去するソフトウェア
- 上記のソフトウェアをリアルタイムで実行できる小型の多チャンネル信号処理用ハードウェア【図1右参照】
から構成されている。
この音声インターフェースにより雑音を除いた人の音声を、音声認識ソフトウェアJulianに与えることで、テレビなどの雑音源が存在する場所でも、人間がヘッドセットなどの装置を使わないで、音声認識を安定に行うことができるようになり、ロボットの聴覚機能が実現できた。
さらに、認識した音声命令によりロボットを動作させ、ロボットからネットワークを介してテレビ等の情報家電を操作することができるソフトウェアを開発し、音声インターフェースの有効性を確認した。
今回実現したロボットの聴覚機能(音声インターフェースおよび音声認識)は、一度に一人から発声されることを前提としているが、今後、視覚機能との連携を強化することで、複数の人物が発声している場合にも、雑音を分離しロボットへの音声による命令を認識できるようにしていく。さらに、ロボットの様々な動作との連携を強化し、視聴覚機能を備え、実環境で動作できる人間型ロボットの一層の機能向上を図る。