マイクロソフトは、AIとクラウドコンピューティングを活用し、ヘルスケア分野のイノベーションを目指すHealthcareNExTの取り組みとして、ゲノム配列をAIとクラウドを使って分析するツール Microsoft Genomicsサービスを開始した。
以下、同社の発表内容である。
小児がんの治療につながるブレークスルーの実現には、世界中の研究者がゲノムデータを容易に共有し、共同作業を行える環境が必要だ。
2010年に計算生物学者のチングイ チャン (Jinghui Zhang) 教授とメンフィス市にある聖ジュード小児研究病院 (St. Jude Children’s Research Hospital) の彼女の研究チームが患者の健康な細胞とがん性細胞を匿名化し、パブリックなデータリポジトリにアップロードする取り組みを始めたのも、この考えがきっかけだった。
「データサイズが膨大なため、ダウンロードして利用することは非常に困難であることに気づきました。そこで、聖ジュード病院はグローバルな研究コミュニティとのデータ共有を促進するため、別の方法を真剣に模索し始めました」とチャン教授は述べている。
これが、マイクロソフトのゲノム研究グループのメンバーとのコラボレーションにつながった。
当時、マイクロソフトはゲノムデータの数10億個のパズルピースを参照ゲノムと重ね合わせ、相違点を識別するクラウドベースの計算パイプラインの取り組みを開始していた。これは、配列アラインメントと変異解析(バリアントコーリング)と呼ばれる分析手法だ。
バリアントは個人をユニークにする要素だ。身体的特徴から病気への感受性に至るさまざまな特性のマーカーになる。
バリアントが何を意味するかを発見するゲノムワイド分析と呼ばれる研究の対象としてもバリアントは重要だ。研究者がより多くのゲノムデータをアクセスし、分析できるほど、より正確に生物学の複雑性を解き明かし、がんなどの治療に向けて進歩することができるのだ。
チャン教授のチームはマイクロソフトの研究者と協力し、DNAnexusが提供する、Microsoft Azure上で稼働するゲノムデータ管理プラットフォームを活用して、配列アラインメントと変異解析のパイプラインを開発している。
現在までのところ、合同研究チームは0.5ペタバイトのゲノムデータを処理し、分析のためにAzureに保管している。参考までに言えば0.5ペタバイトは75万枚のCD-ROMに相当する。
計算パイプラインにより分析されクラウドに格納されている聖ジュード病院のゲノムデータは、同院がDNAnexus、及びマイクロソフトと協力して構築しているデータ共有プラットフォームの基盤となる。
目標は、世界中の研究者が、世界で14歳以下の子供たちが毎年およそ 175,000 人罹患している小児がんの治療法の発見を共同で行なうことだ。
マイクロソフトの研究組織のゲノムグループを統率するジェラリン ミラー (Geralyn Miller) は「私たちにとってこのような現実世界のデータを使ってテストできること、そしてこれらのチームと密接な関係を持って働けることは素晴らしい機会です」と述べている。
良質のデータを使いやすく
Microsoft Genomicsサービスは、人工知能クラウドコンピューティングによるヘルスケア分野のイノベーションを目指すマイクロソフトの取り組み、 Healthcare NExTの一環だ。
ゲノム工学で最初に必要になるのはノイズがない正確なデータだ。
マイクロソフトのゲノムグループの主任ソフトウェアアーキテクトであるボブ デビッドソン (Bob Davidson) は次のように述べている。
「良質なデータが必要なのは明らかです。そして、人々がきわめて容易に良質なデータを取得できるようにすれば、生物学の情報をクラウド上の分析ツールに提供して、あらゆる人の生産性を向上し、発見率を向上することが期待できます。」
Microsoft Genomicsサービスは、がんなどの疾病を理解して治療する高精度医療のブレークスルーを実現するための重要な構成要素だ。たとえば、患者の健康な組織とがん化した組織のゲノムデータを分析することで、診療医は他の患者への治療と結果のデータに基づいて最も効果的な治療法を選択できる。
ゲノムデータを処理する共通パイプラインによりデータ品質を低下させる作為的データやノイズを削減できる。これにより、AIによる高精度医療の支援をさらに強化できるとミラーは説明する。
「マイクロソフトはこのステップをコモディティ化しています。人々が容易に実行し、出力されるデータの一貫性を維持できるようにしています。」
「クラウドに最適なワークロード」
ひとつのヒトゲノムのシーケンス解析に要するコストが2001年時点の1億ドルから現時点の1,000ドルにまで低下し、一般的な診療試験と同レベルになったことで、ゲノムのシーケンス解析における二次処理とも呼ばれる配列アラインメントと変異解析がコモディティ化される機会が生まれた。
業界専門家はゲノム解析が1,000ドル以下になることにより、需要が激増し、2025年までには1億個以上のヒトゲノムの解析が行なわれることになると予測している。
これは新たな問題を生じさせるが、マイクロソフトとDNAnexusはそれを解決する準備ができている。
ひとつのヒトゲノムは100ギガバイトのストレージスペースを消費する。シーケンス対象のゲノム数が増すにつれストレージの所要量はギガバイト、ペタバイト、エクサバイトへと拡大していく。
2025年までには、ヒトゲノムデータの保管に40エクサバイトのストレージ容量が必要になると予測されている。エクサバイトは約1,000ペタバイトであり、CD-ROMの15億枚分に相当する。
「ゲノムデータは真のビッグデータです。そして、膨大な計算能力を必要とします」とミラー氏は述べる。
ひとつのヒトゲノムの分析だけでも数100時間のコア時間を必要とする。昨今のラップトップコンピューターのCPUは通常、4つのコアを備えている。これに対して、データセンターは数10万コアを提供しており「ゲノム分析はクラウドでの処理に最適だ。
さらに、ゲノムデータの扱いにはプライバシーとセキュリティという複雑な課題がつきまとう。
マイクロソフトはAzureデータセンターを世界中で運営しており、Microsoft Genomicsは現在、米国、西欧、東南アジアで提供されている。
Microsoft GenomicsサービスはISO認証を受けており、セキュリティ、プライバシー、品質における国際標準に準拠している。加えて、マイクロソフトはHIPAA Business Associate Agreementに対応しており、個人の健康に関する情報は責任を持って扱われる。また、Microsoft Trust Centerで定められたセキュリティとプライバシーの基準にも従っている。
パートナーのエコシステム
Azureを活用するDNAnexusは、聖ジュード小児研究病院とデータ共有プラットフォーム関連で協力しているゲノムデータ管理企業だ。
DNAnexusはMicrosoft Genomicsサービスと他のゲノム分析・可視化ツールを統合し、研究者が安全なエコシステム内のツールや多様なデータセットにアクセスするためのインターフェースを提供する。
DNAnexusのCEOリチャード ダリー (Richard Daly) 氏は次のように述べている。
「当社の科学者がお客様の科学者と連携し、科学的な課題を理解してワークフローをプラットフォームに移植できるようにすることが当社にとっての成功です。お客様の試行の後に本番展開を開始します。今回のケースでは、当社のチームがSt. Jude 病院そしてマイクロソフトと緊密に連携し、特定の要件を判別し、独自のソリューションを構築できました。」
ミラー、デビッドソン、そして、マイクロソフトのゲノム研究グループのメンバーは、Microsoft Genomicsサービスが、DNAnexusなどのAzureパートナーとの統合できる最初のツールのひとつあると考えている。
St. Jude病院は、多様なツールを使用して多様な組織が生成した多様なタイプのデータを共有し、コラボレーションする方法を模索しているが、それについても活発な議論が継続しているとミラー氏は述べる。
「Microsoft Genomicsの特色は研究部門との結び付きの強さです。私たちは、現場に出て、実験を行ない、アイデアを研究室から実行に移すための専門知識を持っています」とミラーは述べている。
【関連リンク】
・マイクロソフト(Microsoft)
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。