JST 課題達成型基礎研究の一環として、産業技術総合研究所 生命情報工学研究センターの津田 宏治 主任研究員(JST ERATO「湊離散構造処理系プロジェクト」グループリーダー)、東京工業大学 大学院情報理工学研究科 計算工学専攻の瀬々 潤 准教授、理化学研究所 統合生命医科学研究センターの岡田 眞里子 チームリーダーらは、従来に比べて格段に高い精度で誤発見の確率を示す検定値(P値)を計算するアルゴリズム(手順)を開発しました。
自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれています。しかし、従来の統計検定手法は観測できる対象が増えれば増えるほど、発見の基準を厳しくしなくてはなりません。その結果、観測対象が増えたのに、科学的発見が減るという奇妙な現象「ビッグデータのパラドックス」が起きる場合があります。特に、複合的な組み合せ因子に対して極めて保守的な検定値(P値)を出すことが多く、有意義な実験結果が不当に低く評価されることがありました。
本研究グループでは、超高速アルゴリズムの技法を用いて、従来法より、格段に精度の高いP値を算出する新手法を開発しました。この手法を、乳がん細胞株の増殖・分化に関与している転写因子の研究に利用したところ、既存の遺伝子発現データから新たな組み合わせ因子を発見することに成功しました。
開発した手法を用いれば、これまで見過ごされてきた組み合わせ因子の発見が可能になります。本成果は、物理学、医学、化学など、全ての実験科学に貢献するものであり、今後世界中で広く利用されることが期待されます。
本研究成果は、米国科学雑誌「米国科学アカデミー紀要(PNAS)」のオンライン速報版で2013年7月22日(米国東部時間)の週に公開されます。
本成果は、以下の事業・研究領域・研究課題によって得られました。
戦略的創造研究推進事業 ERATO型研究
研究プロジェクト:「湊離散構造処理系プロジェクト」
研究総括:湊 真一(北海道大学 大学院情報科学研究科 教授)
グループリーダー:津田 宏治(産業技術総合研究所 生命情報工学研究センター 主任研究員)
研究期間:平成21年度~平成26年度
上記研究課題では、超高速アルゴリズムを用いて、実問題を短時間に効率よく処理する技術基盤の構築を目指します。
自然科学では新しい現象を見つけたとき、系のゆらぎや観測のあいまいさを考慮した上で、その結果の信頼性を担保する必要があります。科学データの解析において、この信頼性担保には、統計検定が欠かせません(図1)。統計検定では、誤発見の確率を示す検定値(P値)が計算され、あるしきい値(一般には、0.05)以下の場合にのみ、信頼しうる科学的発見として認められ、論文に記すことができます。
観測できる対象(例:DNAの変異)が増えると、誤発見の確率も高くなります。誤発見を避けるには、対象数が増えれば増えるほど、発見の基準を厳しくしなくてはなりません。一般的な多重検定法では、P値に大きな補正係数を掛けて(補正P値)、それでも0.05以下の場合のみ発見とみなします(図2)。最もシンプルでよく用いられるボンフェローニ法では、n個の対象があれば、P値にnを掛けて補正し、それでも0.05以内であれば、発見として認めます。その結果、観測対象が増えたのに、科学的発見が減るという奇妙な現象「ビッグデータのパラドックス」が起きる場合があります。
特に、複合的な組み合わせ因子を考えると(図3)、対象数nが爆発的に大きくなるため、ほぼ発見は不可能となってしまいます。このため、細胞のiPS化を引き起こす4つの転写因子などに見られる組み合わせ因子を、データから見つけ出すことは困難でした。
本研究では、従来よりも格段に正確な補正P値を計算できるアルゴリズムLAMP(Limitless-Arity Multiple testing Procedure、無限次数多重検定法)を開発しました。LAMPでは、出現頻度の低い組み合わせは誤発見率を変化させないという数理的性質に注目し、超高速アルゴリズムを用いて無為な出現頻度の低い組み合わせを特定し取り除くことによって、補正係数を大幅に削減しています。またLAMPでは通常のボンフェローニ法と比べて、統計的な検定の精度を保ったままで、補正係数を十分に低くすることができます。この手法を用いて、ヒトの乳がん細胞株の遺伝子発現データを再解析したところ、これまで見過ごされてきた、最大8個の転写因子の組み合わせが乳がん細胞の増殖に関与していることを発見できました。
出現頻度の低い組み合わせが誤発見率を変化させないという事実は、1990年に米国のタローネによって明らかになっていましたが、アルゴリズムを用いて、それらを実際に数えあげて、生命科学データに適用したのは世界初です。生命科学で広く用いられているFDRによる方法では、誤発見率については妥協することで、発見力を高めていますが、この手法ではそのような妥協をせず、アルゴリズムのみによって発見力を大幅に高めることに成功しました。
本成果により、転写因子の組み合わせ効果の研究をはじめ、複数の遺伝子が原因となっている疾患の同定や多数の部位が関わる脳の高次機能の解明など、複合要因に起因する現象の解明が加速されることが期待されます。さらに、複数の薬剤を組み合わせた創薬、多数の項目からなるアンケートの分析など、広く自然科学から社会科学分野の実験結果の評価に影響を及ぼすと考えられます。