Infinite Curationインフィニットキュレーション最先端コンピュータ技術の最大活用により「ミクロ」遺伝子解析と「マクロ」医療画像解析の相乗から新たな価値を創出し、医療・ヘルスケアの進展に貢献します。

機械学習を用いた解析パラメータの最適化により、世界最高精度のヒト全ゲノム解析システム実現へ

株式会社Infinite Curationは、株式会社PEZY Computing、株式会社ExaScalerと共同で開発した高速ゲノム解析システムにおいて、次世代シーケンサー[注1]から出力されたヒト全ゲノムデータを機械学習[注2]によって最適化された解析パラメータを用い、解析処理時間を大幅に増やすことなく極めて高い精度をもって解析しました。

 

機械学習におけるパラメータの最適化はゲノム解析を何度も繰り返して実行する必要がありますが、通常のゲノム解析システムでは1回の解析に十数時間以上の時間を要するため実現が困難でした。

しかし本解析システムは非常に短時間でゲノム解析を完了させることができるため、非常に理想的な解析パラメータを短期間に見つけ出すことができました。

 

ヒト全ゲノム解析例

データ:Precision FDA Truth Challenge V1 HG002 160Gbp(illumina カバレッジ 53.5x )

SNP F値:0.9994、INDEL F値:0.9967

実際の解析処理時間:約29分、100Gbp換算[注3]処理時間:約18分

 

この高速ゲノム解析システムは、株式会社ExaScaler、株式会社PEZY Computingが共同で開発・製造した液浸冷却スーパーコンピュータZettaScaler-2.2の一部を利用しています。

現在、ゲノム解析を専門とする研究者の方々にも外部から御利用いただけるようシステム整備を進めております。

また、今年リリース予定の新プロセッサPEZY-SC3を4基搭載した後継機ZettaScaler-3.0におきまして更なる高精度化と高速化を追求してまいります。

 

注1: 次世代シーケンサー(NGS)は、ランダムに切断された数千万~数億のDNA断片の塩基配列を高速同時並行的に読み出せる装置です。

 

注2: 機械学習は、コンピューターが大量のデータから反復的に学習し、タスクを遂行するためのアルゴリズムやモデルの特性を自動的に見出そうとする技術です。

 

注3: 100Gbp換算は、商用に利用される次世代シーケンサーが一度に生成する一般的なデータ量になります。

 

Press release 2021.2.10