大学共同利用機関法人 情報・システム研究機構 【機構長 堀田 凱樹】(以下「ROIS」という)ライフサイエンス統合データベースセンター【センター長 高木 利久】(以下「DBCLS」という)と、独立行政法人 産業技術総合研究所【理事長 野間口 有】(以下「産総研」という)バイオメディシナル情報研究センターおよび社団法人 バイオ産業情報化コンソーシアム【会長 秋草 直之】(以下「JBiC」という)は、それぞれがまとめた生命科学系データベースを相互に検索できる機能を公開した。
DBCLSは今回、平成20年度より公開していた「生命科学データベース横断検索」において経済産業省関連の21件のデータベースも検索できるようにした。産総研とJBiCは、その「横断検索」に独自の機能を追加した検索サービス「MEDALS横断検索」を公開し、どちらのサイトからでも全データベースを検索できるようにした。これらにより、両省のプロジェクトにおいて個別にまとめていた、生命科学系データベースの情報の統合化が推進され、生命科学・医学系の研究が促進されることが期待される。
|
図 相互的な横断検索の仕組み
それぞれが作成した索引データを相互に利用できる
|
わが国の生命科学系の大型研究プロジェクトは、文部科学省、厚生労働省、農林水産省、経済産業省の各省によって実施されてきた。これらの大型プロジェクトの成果物であるデータベースには、個別に作成・公開されてきたため、個々のデータベースについての所在や利用方法が利用者にはわかりにくいなどの問題点が存在した。また、より効果的な治療薬の開発研究を目指す製薬業界をはじめとする産業界からは、さまざまなプロジェクトにより産生された研究データを一括して活用できるデータベース構築への要望が高まっていた。
そのため、わが国では第3期科学技術基本計画(平成18年3月28日閣議決定)にもとづき、総合科学技術会議が策定した、ライフサイエンス分野の推進戦略における戦略重点技術の1つとして「世界最高水準のライフサイエンス基盤整備」が掲げられ、また、科学技術連携施策群 「生命科学の基礎・基盤」補完的課題 「生命科学データベース統合に関する調査研究」(※1)では各省で実施された生命科学系の大型研究プロジェクトにおけるデータベースを個別にまとめたのち、4省統合データベースを構築する必要があるとの報告がなされた。これを受け、文部科学省、厚生労働省、農林水産省、経済産業省では、4省統合データベースの構築を目指して検討を進めていた。
一方、一部のデータベースはインターネット上にも公開され、GoogleやYahooのような世界中のウェブサイトを巡回する検索エンジンによって検出されることもあるが、これらの検索エンジンは、生命科学系の専門分野に特化していないため、検出の精度は高くない。また、これまでも個々のデータベース内部を検索するサービスは存在したが、研究者はそれぞれのサイトに行ってそのつど検索を繰り返さなければならず、データやデータベースの増加に対応しきれなくなっていた。このため、複数のデータベースや文献を一度に併せて検索する仕組みの開発が求められていた。
このような背景のもと、ROIS/DBCLSでは、文部科学省委託研究開発事業「統合データベースプロジェクト」(※2)の一環として生命科学系の国内外の主要なデータベースを特許や日本語文献と併せて一括して検索できる「生命科学データベース横断検索」を平成20年度から「統合ホームページ(LSDB)」において提供してきた。これは国産の検索エンジンHyperEstraierを採用することで、生命科学系の専門分野に特化させた検索サービスを実現したもので、平成21年度にはこのサービスを用いて232データベースの780万件にのぼるデータや文書が検索可能となっていた。
一方、産総研とJBiCは、ヒトの遺伝子と転写産物を対象とした統合データベース H-InvDB(※3)をはじめとする遺伝子や分子の情報基盤の提供を行ってきた。また、平成20年度からは経済産業省産業技術研究開発「統合データベースプロジェクト」(※4)を、五條堀 孝 プロジェクト・リーダー、今西 規 分子システム統合チーム長のもとで実施し、生命科学分野における経済産業省関連のデータベース・解析ソフト情報を提供するポータルサイトMEDALS[メダルズ](METI database portal for life science)を構築・運用している。さらに、生命科学の専門用語が同時に出現した文献を効率的に検索できる文献データベースLEGENDA(※5)も開発している。
今回、ROIS/DBCLSは、離れたサーバー間で通信し索引データを共有することができるHyperEstraierの特徴を活かし、経済産業省関連の21にのぼるデータベースを「生命科学データベース横断検索」においても既公開分と併せて検索できるようにした(図参照)。この結果、現在は253件のデータベースを一括して検索できることになった。この仕組みを使えば利用者は省庁や研究機関の垣根を気にすることなく多数のデータベースを一度に検索することができる。
産総研とJBiCは無駄な重複開発を避け、操作性の統一感をもたせるため「生命科学データベース横断検索」で用いられている仕組みを「MEDALS横断検索」に採用し、同じデータベースが検索できるようにした。また、「生命科学データベース横断検索」の特徴としてキーワードを自動で日英変換して検索する機能があるが、「MEDALS横断検索」ではその機能をさらに発展させ、追加候補となるキーワードの提案機能や同義語の検索を実現した。これらキーワードの提案機能にはLEGENDA(※5)の辞書を、同義語の検索にはライフサイエンス辞書(ライフサイエンス辞書プロジェクト)を用いている。
ROIS/DBCLS、産総研とJBiCは、今後、扱うデータベースの数を増やし、他省庁関連のデータベースも含めて検索サービスそのものの統合運用を目指す。また、利用者の意見をさらに取り入れ、利便性の向上を図る。3者は、検索システムの研究開発における連携に加えて人的あるいは、経済的な理由から公開・維持が困難になったデータベースの受け入れ作業においても協力しており、さらなる連携の強化を目指している。
このような連携は、データ管理、データ解析、データ公開、および論文整理や論文執筆を支援する環境など、生命科学研究を促進する知的情報環境の整備・実現への第一歩となり、これが4省統合データベースへと展開することによって、ひいてはわが国の生命科学研究、医薬・創薬研究の発展へとつながるものと期待される。
なお、わが国のライフサイエンス分野の統合データベース整備は、文部科学省と経済産業省の「統合データベースプロジェクト」(※2、4)終了後の平成23年度に、独立行政法人 科学技術振興機構に設置予定の新センターがその機能を継承するとの方針が、総合科学技術会議 ライフサイエンスPT(プロジェクトチーム) 統合データベースタスクフォース(※6)において取りまとめられた。本連携成果は将来の4省データベース構築に向けた布石であり、ナショナルセンターを目指す新センターの事業に活かされる予定である。