発表のポイント
・精神疾患のリスクを説明するような遺伝子情報を適切に組み合わせる数理モデルがないことが問題となっていました。
・複数の数理モデルを比較し、過学習*1を抑えるような機械学習手法を用いた手法が、うつ病症状をはじめとする精神疾患のリスク予測に有用なことを示しました。
・今回有効とされた手法を用いて精密な疾患のリスク予測が可能となれば、うつ病に関する個別化医療や予防、遺伝素因に関する病態生理の解明に寄与することが期待されます。
概要
うつ病の発症には多数のDNA多型が関係すると想定されていますが、関係する遺伝子個々の影響はとても小さいことがわかっています。そうした小さい効果がどのように組み合わされてうつ病のなりやすさ(脆弱性)が形成されるのかはまだよくわかっていません。東北大学東北メディカル・メガバンク機構の高橋雄太医員、植木優夫助教(現・長崎大学教授)、田宮元教授、富田博秋教授らは、うつ病症状に関連するDNA多型情報*2について機械学習手法を用いたこれまでの研究で個別化医療につながる知見を得ました。
今回の研究では、先に開発した機械学習手法であるSTMGP法*3を用いてうつ病に関する症状や種々のシミュレーションデータを使った解析を行うことで、多数のDNA多型が複雑に病態に関係していることが想定されるうつ病をはじめとする精神疾患のリスク予測に、STMGP法が有用であることが示唆されました。
本研究は、日本医療研究開発機構(AMED)の脳科学研究戦略推進プログラムにおける課題「栄養・生活習慣・炎症に着目したうつ病の発症要因解明と個別化医療技術開発」によって行われました。この成果は米国時間2020年8月17日に米国科学雑誌「Translational Psychiatry」のオンライン版で公開されます。
論文情報
タイトル:Machine learning for effectively avoiding overfitting is a crucial strategy for the genetic prediction of polygenic psychiatric phenotypes
(邦題名)「機械学習を用いて過学習を抑えることが、複雑な遺伝素因をもつ精神疾患のリスク予測には重要である」
著者:Yuta Takahashi, Masao Ueki, Gen Tamiya, Soichi Ogishima, Kengo Kinoshita, Atsushi Hozawa, Naoko Minegishi, Fuji Nagami, Kentaro Fukumoto, Kotaro Otsuka, Kozo Tanno, Kiyomi Sakata, Atsushi Shimizu, Makoto Sasaki, Kenji Sobue, Shigeo Kure, Masayuki Yamamoto, Hiroaki Tomita
掲載誌:Translational Psychiatry
DOI:10.1038/s41398-020-00957-5
用語解説
*1. 過学習:一般に予測モデルを作成する場合、予測モデルを学習させるためのデータ(トレーニングデータ)とそのモデルの性能を評価するためのデータ(テストデータ)の2つを用意する。過学習とは、学習の段階ではあたかも性能が良いかのように高い予測精度を示すが、実際のテストの段階では予測精度が低くなってしまうことを指す。
*2. DNA多型情報:人体を形作るタンパク質などの構成分子の設計図となる遺伝子はアデニン、シトシン、グアニン、チミンの4つの塩基が30億つながるゲノムDNA上にコードされている。この塩基の配列の千塩基に1つは個人ごとに異なる塩基からなる箇所があり、DNA多型と呼ばれる。このDNA多型を検出して集約した情報を指す。
*3. STMGP法(smooth-thresholded multivariate genetic prediction法):ToMMo田宮元教授らのグループが開発した複雑な遺伝疾患のリスク予測を高精度に可能とする機械学習手法。(植木ら、2016年、DOI: 10.1002/gepi.21958.)
関連リンク
うつ病に関する症状を血中の代謝物情報から機械学習を用いて予測する論文がTranslational Psychiatry誌に掲載