ゲノム科学におけるビッグデータ・データマイニングsvr4.terrapub.co.jp/journals/jjssj/pdf/4301/43010099.pdf ·...

Click here to load reader

Transcript of ゲノム科学におけるビッグデータ・データマイニングsvr4.terrapub.co.jp/journals/jjssj/pdf/4301/43010099.pdf ·...

  • 日本統計学会誌第 43 巻, 第 1 号, 2013 年 9 月99 頁 ∼ 111 頁

    特 集 

    ゲノム科学におけるビッグデータ・データマイニング

    石井 一夫∗,佐藤 暁†,古崎 利紀∗,有江 力†,寺岡 徹†

    Big Data and Data Mining in Genomic Sciences

    Kazuo Ishii∗, Akira Sato†, Toshinori Kozaki∗, Tsutomu Arie† and Tohru Teraoka†

    近年,次世代シーケンサーの出現と普及により,ゲノム科学を基盤とする医学,薬学,農学,生物学などのライフサイエンス,グリーンサイエンスにおいては,データ産生量が爆発的に増えている.そのデータサイズは,数ギガバイトから数テラバイトにおよび,しばしばペタバイトレベルに達することもある.これらのデータ解析の高速化,最適化のために,ブートストラップやジャックナイフなど,モンテカルロ法による標本抽出法を用いたり,Hadoop などクラスター分散処理システムによる並列処理を行なったりして,ビックデータの解析を可能にする.本稿では,ゲノム科学におけるビッグデータ処理について概説する.

    Emergence and spread of next generation sequencing technologies have brought about anexplosion of data production in life sciences and green sciences based on genomic sciences,such as medicine, pharmaceutics, agriculture and biology. Genomic sequencing data rangesfrom giga-bites level to tera-bites level, it often reaches peta-bites level. Acceleration andoptimization of data analysis are enabled by implementation of Monte Carlo methods, such asbootstrap and jackknife for sample preparation and big data analysis is achieved by parallelprocessing with a cluster distributed processing system, such as Hadoop. Big data processingin genomic sciences was described in this manuscript.

    キーワード: ゲノム科学,次世代シーケンサー,モンテカルロ法,並列分散処理,クラウドコンピューティング

    1. 次世代シーケンサーとゲノム科学におけるビッグデータ

    ヒトゲノム解析の国際競争がほぼ決着がついた 2003年以降,次世代シーケンサー(超並

    列型高速ゲノムDNA塩基配列自動解析装置)が実用化され,ゲノムDNAデータが日常的

    に爆発的に産生される時代となった.次世代シーケンサーは,数十から数千塩基長のDNA

    断片の配列データを大量に同時並行的に産生する.一検体当たり,数十万から数十億断片

    の配列データを,数時間から数週間のスピードで解読する.これは総塩基長にして数十億

    ∗ 東京農工大学農学系ゲノム科学人材育成プログラム:〒 183-8509 東京都府中市幸町 3-5-8 (E-mail:[email protected]).

    † 東京農工大学大学院農学府生物制御科学専攻植物病理学研究室:住所同上.

  • 100 日本統計学会誌  第43巻 第1号 2013

    塩基程度でありヒト一人分のゲノムサイズにも匹敵する.次世代シーケンサーにはいろい

    ろな種類や測定原理が存在し,一度に解読できる塩基長や精度,データ産生スピード(ス

    ループット)が異なっている.各メーカーからいろいろな製品が発売されており,その解

    析目的により使い分ける必要がある (Metzker (2010),Liu et al. (2012)).主な製品には以

    下のようなものがある.

    (1) ガラス基盤(フローセル)上にDNA断片の固着した無数のクラスターを形成し,蛍

    光標識したヌクレオチドを酵素により伸長反応させ,その反応サイクルごとに CCD

    カメラで撮影する.得られた複数の画像を再構成して,データ処理することにより

    DNA断片の塩基配列を分析する.イルミナ社から,HiSeqTM,MiSeqTMという製品

    が発売されている.

    (2) DNA断片を鋳型にした伸長反応を半導体基盤上で行い,一反応ごとに産生されるプ

    ロトンイオン (H+)の量を半導体チップで測定する半導体シーケンサー (Rothberg et

    al. (2011)).ライフテクノロジーズ社から Ion PGMTM,Ion ProtonTMという製品が

    発売されている.

    イルミナ社の HiSeqはスループットが非常に高いのに対し,半導体シーケンサーは比較

    的安価で,数百塩基程度の長い断片を解読できるという特徴がある.

    次世代シーケンサーから産生される一単位分のデータは,アデニン (A),グアニン (G),

    シトシン (C),チミン (T)の4つの塩基から成る DNA塩基配列データとそれに対応する

    クオリティデータである.図 1にその例を示す.例で示したものは,次世代シーケンサー

    から産生された FASTQファイルと呼ばれるデータファイルである.

    図 1 次世代シーケンサーからの 1 リード分の出力結果.

    図 1に示した例の 1行目が配列名で, 2行目が実際に解読された塩基配列である. 3列

    目は単なるプラス記号で意味はない. 4行目は, 2行目の各塩基に対応するクオリティ

    データである.4行目の各文字は特定の値のクオリティに対応しており, 40段階のクオリ

    ティスコアが割り当てられる.この 4行 1単位のデータ(リード)を互いに相同性のある

    配列同士を重ね合わせて長い配列を再構成したり(アセンブリ),すでに,ゲノムの構造の

    分かっている既知の配列に整列させて,対応する塩基が一致(ヒット)したリード数を計

    数したりして,配列(テキスト)データと,計数(定量)データを得る.これを既知の配

    列との相同性を調べたり,定量データを統計処理して,有用な情報を得ることになる.

  • ゲノム科学におけるビッグデータ・データマイニング 101

    次世代シーケンサーによる解析は,単に DNAの塩基配列情報を解読するだけでなく,

    RNAを逆転写酵素でDNAに逆転写した cDNAも解読できるため,間接的にRNAの定量

    も可能になる.次世代シーケンサーの解析手法には以下のようなものがある (Hawkins et

    al. (2011)).

    (1) DNAの塩基配列が未解析の生物の新規ゲノム解析

    (2) 既に配列が分かっている生物の網羅的な多型解析(リシーケンシング)

    (3) RNAの網羅的発現定量解析および多型解析(ゲノム配列既知のもの,および未知の

    もの:RNA-Seqと称される)

    (4) 網羅的な小分子 RNA発現定量解析および多型解析(Small RNA-Seq)

    (5) DNAの網羅的メチル化およびクロマチン結合,タンパク質結合解析(ChIP-Seq)

    これらの方法をもちいて,医学,薬学,農学,食品,環境など広範な分野での応用が可能

    になる.たとえば,医学分野では,癌や糖尿病,高血圧など病因解明とその診断,病気の

    予後予測などに用いられる (Michils et al. (2012)).また外部から感染した病原菌やウィル

    スの同定や,感染の治癒の判定に用いられる.制がん剤や抗生物質に対する感受性なども,

    RNAの発現変動が影響していることが知られているがそれらの診断にも使用できる.薬学

    分野では,創薬分野において薬物の効き目を判定する指標として,RNA-SeqやChIP-Seq,

    網羅的メチル化分析などが用いられる.薬物に対する感受性に関する遺伝的背景を調べる

    のに網羅的な多型解析や,特定の遺伝子領域の多型解析が用いられる (Besaratinia et al.

    (2012)).農業分野では,農作物や家畜の育種の指標として,網羅的な DNA多型解析や,

    発現定量解析など各種の解析方法が用いられる (Zou et al. (2013)). 環境の汚染部位や,

    体内に存在する微生物叢(“びせいぶつそう”と呼ぶ.複数の微生物の集塊のこと.)のゲ

    ノムを丸ごと調べ,自然環境や体内環境の微生物の構成比などを調べることも行なわれる

    (Song et al. (2013)).このような生物集塊を解析する方法をメタゲノム解析と呼ぶ.

    2. ゲノム科学におけるビッグデータ処理で用いられる統計学的方法

    次世代シーケンサーにおけるビッグデータ処理で統計学的手法が用いられる例は非常に

    多いが,ここでは代表的な例を 3例示す.

    2.1 網羅的発現定量解析次世代シーケンサーによるデータ解析では,大量の数値データが得られるため,統計解

    析的手法もよく利用される.特にメッセンジャーRNAの発現変動解析においては,t 検定

    による有意差検定が用いられることもある.次世代シーケンサーの解析は,最近はコスト

  • 102 日本統計学会誌  第43巻 第1号 2013

    が下がってきているとはいえ非常に高価である.そのため,有意差を出すことを目的とす

    るよりも,全体の増加傾向,減少傾向を調べて,変動している順に変動候補遺伝子をリス

    トアップし,その後に別の実験で再確認することにより結論を出すということもよく行な

    われる.

    次世代シーケンサーの定量データは,生化学的な測定法と比較して特徴的な点がいくつ

    かある.例えば, (1)定量データは計数データであり,全体の発現量が低発現量に大きく

    偏る(負の二項分布をすることが知られている). (2)発現量の低い領域では,離散データ

    になる.

    図 2 イネにイモチ病菌が感染した場合の RNA-Seq による発現定量結果.横軸は非感染植物の,縦軸は感染植物の各 RNA の発現量を示す.

    例えば,図 2に,イネにイモチ病菌が感染した場合の,遺伝子の網羅的な発現量の変化

    を示した散布図の例を示した.低発現量への偏りや低発現量付近で値が離散データになっ

    ているのが確認できる.すなわち,通常計数ゼロの遺伝子が大量に得られ,次に計数 1の

    遺伝子が多く,次に計数 2の遺伝子が多く,また次には計数 3の遺伝子が,というように

    順に減っていく傾向にあり,これらの計数データを対数変換してプロットすると低発現量

    の領域では,計数値ごとのデータの間隔が広くなり離散データとなる.

  • ゲノム科学におけるビッグデータ・データマイニング 103

    2.2 配列データのクオリティチェック次世代シーケンサーは,データ量が膨大であるため,通常の計算方法で,評価が出来な

    いケースがしばしば起こる.たとえば,次世代シーケンサーのシーケンシング科学反応が

    起こっているフローセル上のクラスターの分布状況は上手な実験者が行なった場合は均一

    になるが,実験者の操作が雑だった場合や,機械の故障などでクウオリティに偏りが出る.

    クオリティチェックは通常,FASTQCという簡易なソフトウェアがよく用いられるがこ

    のソフトウェアは最初の 20万リードの平均値しかチェックしていない.配列データのクオ

    リティが良好な場合,通常 FASTQCの結果は,図 3のようにリード当たりの平均クオリ

    ティスコアは 38~39あたりがピークとなる分布となる.

    図 3 配列データのクオリティが良好な例のリード当たりの平均クオリティスコアの分布.横軸は各リードの平均クオリティスコアを,縦軸はその頻度を示す.

    図 4にフローセルの反応が悪く,データのクオリティが劣悪で均一でなかった例の 400

    万リードごとの FASTQCによるデータのクオリティチェックの結果を示す.図 4(A)は 1

    ~20万リード,図 4(B)は 400~420万リード,図 4(C)は 800~820万リード,図 4(D)は

    1200~1220万リードの範囲のリード当たりの平均クオリティスコアの分布を示している.

    この例の場合,配列データのクオリティは均一ではなく前のリードほどクオリティは悪く,

    後のリードほど良くなる傾向にあることが分かる.

  • 104 日本統計学会誌  第43巻 第1号 2013

    図 4 配列データのクオリティが悪かった例のリード当たりの平均クオリティスコアの分布.

    そこで,我々は,Rを用いたモンテカルロ法により,フローセルの全領域から無作為に

    リードデータを抽出した (Rizzo (2008)).その後,クオリティデータをメーカーの提供す

    るマニュアル (CASAVA v1.8.2 User Guide (2011))にしたがってテキストデータからクオ

    リティスコアに変換し,クオリティの分布を示すグラフを作成することにより評価した.

    図 5にその結果を,FASTQCによるリード当たりの平均クオリティスコアの分布(図

    5(A))と対比して示した.

    図 5(A)は,このレーンでの 1~20万リードの範囲のリード当たりの平均クオリティス

    コアの分布を反映しているのに対し,図 5(B)は無作為抽出で求めたこのレーン全体の平均

    クオリティスコアの分布を反映している.この例では,前半のほうのリードのクオリティ

    が非常に悪いが,後半に行くに従って改善がみられ,FASTQCの結果は,必ずしも全体の

    平均クオリティスコアの分布を正確に反映していないことが示唆される.

    例えば,今回の検討に,ブートストラッブの標本抽出回数をいろいろ変えて最適化を検

    討してみるとか,非復元抽出であるジャックナイフや,領域ごとに分割して標本抽出を行

    なう層化抽出法などで,クオリティチェックをさらにきめ細かに,効率よく行なうことも

  • ゲノム科学におけるビッグデータ・データマイニング 105

    図 5 配列データのクオリティが悪かった例のリード当たりの平均クオリティの分布.

    可能であると思われるので,今後の検討の余地がある.

    今回のような標本抽出法は,非常に解析に時間がかかる塩基配列の相同性の解析システ

    ムである BLASTや,系統解析による種の分類などにも応用して,その解析を効率化でき

    る可能性があり,今後適用例が増えていくであろうと思われる.

    ところで,FASTQCによるクオリティチェックは数分~10分程度の時間がかかるうえ,

    各ファイルの最初の 20万リードしかチェックできない.Rによる無作為抽出によるクオリ

    ティチェックもそれなりに時間がかかり,1000リードのデータ解析で数十分の時間を要し

    た.しかし,本稿の第 4節で述べたような分散並列処理システムを用いてこのクオリティ

    スコアを Brute Force的に総当たりで解析したところ十数秒で,解析することが可能であ

    ることも確認している(未発表データ).

    今後,モンテカルロ法による標本抽出法と分散並列処理システムを適宜組み合わせること

    により,ゲノム科学データのビッグデータ解析の効率化を行なっていきたいと考えている.

    2.3 網羅的遺伝子型解析遺伝子型解析(ジェノタイピング)においては,次世代シーケンサーの配列クオリティ

    チェック,エラーチェックに関して,実際の関連解析を行なう前に,以下のような遺伝的

    多型を除外することによりエラーを除く配慮がなされる.

    (1) 遺伝的多型に関する情報が得られた一塩基多型(SNP)のうち,集団における 1SNP

    あたりの遺伝子型決定の割合(1SNPあたりの call rate)ある一定基準(たとえば

    95%)に満たないものを除外する.

  • 106 日本統計学会誌  第43巻 第1号 2013

    (2) 特定の実験区間(たとえば患者・対照群間)において call rate がある一定基準以上

    (たとえば 3%以上)の差異が認められるものを除外する.

    (3) HWE法則への適合度検定:ハーディー・ワインバーグ平衡(HWE)の法則からの

    乖離は集団データにおいて稀な状況であるため,その逸脱を認めるものを除外する.

    検定法は,カイ 2乗検定法,一般尤度比検定法,正確確率法などを適用する.

    (4) マイナーアレル頻度(MAF)による評価:MAFが極端に低い場合,遺伝子型決定の

    誤りが考えられるため,MAFがある一定基準(たとえば 5%未満)に満たないもの

    を除外する.

    また,ゲノムワイド関連解析 (GWAS)においては,たとえば人種間に起因する構造化

    (均一な小集団の集まりを構成している状態)の有無が問題になることがしはしばある.こ

    の場合,何十万もの SNPを主因子分析手法に基づいて集団構造を説明する要因を求めて

    補正することが行なわれる (EIGENSTRAT) (Price AL et al. (2006)).さらに,集団構造

    化が存在する場合,統計量の分散が大きくなり,フィッシャー正確確率検定などの検定に

    よる P値が小さくなると仮定して補正することが行なわれる(Genomic control法補正).

    Genomic controlは Rパッケージの GCにより実施できる (Devlin and Roeder (1999)).

    3. ゲノム科学におけるデータ解析と用いられるソフトウェア

    次世代シーケンサーのデータ解析は,大きく3つのステップに分けて考えられている (図

    6).

    図 6 次世代シーケンサーのデータ解析のフローチャート.

  • ゲノム科学におけるビッグデータ・データマイニング 107

    ゲノム科学におけるデータ解析環境では,大量のテキストデータを処理したり,エクセ

    ルなどの表計算ソフトでは処理できない大量の統計計算を行なったりする必要があるため,

    Linuxや FreeBSDなどUNIX系OSの使用は欠かせない.また,オープンソース,フリー

    ソフトウェアを頻用する.解析に使う主なソフトは以下のようなものがある.

    (1) 一次解析:画像データから配列データを抽出するまでの行程である.この行程は世代

    シーケンサーが正常に動けば,ほぼ自動で生成してくれる場合も少なくない.普段の

    解析ではあまり意識することがない.我々の場合,イルミナ社のシーケンサーに付属

    しているCASAVA (CASAVA v1.8.2 User Guide (2011))というソフトウェアを用い

    て,画像データから,配列データへの変換を行なっている.

    (2) 二次解析:新規解析のDNA配列データのアセンブリや,既知の配列に対して整列を行

    うマッピングを行なう行程である.データのクオリティチェックには FASTQCとい

    うソフトが簡便であり,よく用いられる.データのアセンブリには,新規のDNAア

    センブリソフトとしては,Velvet,SOAPdenovo,Newbler,MIRA,Phrap,WGS

    Assembler 等が用いられる (Miller et al. (2010)).新規の RNASeq用アセンブラに

    は,Trinity,Oases,TransABySS,SOAPdenovo-Trans等が用いられる (Grabherr

    et al. (2011)).マッピングには,Bowite (Bowtie2)やBWA (Li and Durbin (2009)),

    TopHat (Kim et al. (2013))がよく用いられる.

    (3) 三次解析:マッピングやアセンブリで得た結果を計数したり,有意差検定を行ったり

    してデータ解析を行なう行程である.いわゆる統計解析は,この三次解析で行なう

    という位置づけである.Rや Octave (MatLab)で統計解析を行い,BLASTによる

    相同性解析で注釈を行なう.Rには Bioconductor (Gentleman et al. (2004))と呼ば

    れる生物分野での解析に特化したパッケージが存在し,非常に重宝する.多型解析

    には,Samtools (Li et al. (2009))や Mapreduceフレームワークを使用する GATK

    (Genome Analysis Toolkit) (McKenna et al. (2010))などがよく用いられる.ChIP-

    Seqのピークコーリング(タンパク質が結合する場所を推定すること)には,MACS

    (Feng et al. (2012))や QuESTは操作が簡単で,再現性が良いためよく用いられる.

    4. ゲノム科学におけるビッグデータ処理およびクラウド関連ツールの適用例

    ゲノム科学における次世代シーケンサーによるデータ産生量の爆発的増加とそのデー

    タ解析の要請から,2005年前後にオープンソース化された分散ファイルシステム HDFS

    (Hadoop Distributed File System) (Shvachko et al. (2010))とビッグデータ処理のための

    分散処理モデルMapReduce (Dean and Ghemawat (2004))を基盤とするビッグデータ処

    理システムフレームワーク Apache Hadoop (以下 Hadoop)も注目され,クラウドシステ

  • 108 日本統計学会誌  第43巻 第1号 2013

    図 7 Hadoop 上で動作する次世代シーケンサーのデータ解析ソフト群.

    ムの普及と相まってゲノム分野にも応用が進んできた.

    クラウドシステムのゲノム科学への応用例としては,1000人分のゲノム配列情報データベー

    スを作成するために開始された 1000人ゲノムプロジェクトの成果が,AWS (Amazon Web

    Serveice)から利用できるようになったことが上げられる (1000 Genomes Project (2010)).

    AWSでは 1000人ゲノムプロジェクト以外にも多くのゲノム解析ツールや公共データベー

    スが利用可能になっており,今後クラウド環境でのゲノム科学に関するデータ解析が普及

    してくるものと考えられる.

    Hadoopは,複数のサーバから構成されるコンピュータクラスタにファイルを分散させる

    分散ファイルシステム HDFSと,その分散ファイルシステムでの並列化分散処理を可能に

    するMapReduce,分散化データベース (Apache HBase (以下Hbase)やApache Cassandra

    (以下 Cassandra)など)などのコンポーネントから成るビッグデータ処理システムである.

    複数の PCにデータとデータ処理プロセスを分散させ同時並行的に処理することで,大規

    模なデータ解析を可能にしたシステムである.従来,Googleで開発され,Googleでの強

    力な検索システムの心臓部として機能してきたが,2003年に GFS(Google File System

    (Ghemawat et al. (2003)), 2004年にMapReduce (Dean and Ghemawat (2004))として

    論文発表され,後に Hadoopとしてオープンソース化されたため,Amazon, FaceBook,

    Yahooなどの多くの企業に利用されるに至っている.

    Hadoop上で動作する次世代シーケンサー解析ソフトウェアは,論文で確認出来るだけ

    で TIBCOソフトウェア田も数十から数百種類存在し,従来型のソフトウェアよりもパワ

  • ゲノム科学におけるビッグデータ・データマイニング 109

    フルな解析が可能となっている(図 7).主なものを以下に紹介する (Taylor (2011)).

    (1) Crossbow: Hadoopを使用して次世代シーケンサーデータをマッピングし,多型を検

    出するソフトウェア.

    (2) Contrail: Hadoopを使用して de Brujinグラフ理論によりゲノムアセンブリを行な

    うソフトウェア.

    (3) Myrna: Hadoopを使用して Bowtieを用いてマッピングを行ない R/Bioconductor

    を用いて RNAの発現定量解析を行なうソフトウェア.

    (4) GATK (Genome Analysis Toolkit): Javaベースで動作するMapReduceのフレーム

    ワークを取り入れた遺伝子多型解析用ソフトウェア (McKenna et al. (2010)).

    5. おわりに

    以上,ゲノム科学におけるビッグデータ処理の現状について,特に次世代シーケンサー

    技術とモンテカルロ法による計算機統計学的推定法,Hadoopを中心とした次世代シーケ

    ンサーデータのビッグデータ処理について概要を説明した.半導体シーケンサーの普及に

    より,現在,次世代シーケンサー解析のコストがどんどん下がっているので,今後もます

    ます利用,普及が進み汎用的な技術として定着して行くと思われる.したがって,データ

    産生量の爆発はとどまることなく増えていき,統計学の重要性は上がってくると思われる.

    しかし,ライフサイエンス,グリーンサイエンス分野でも統計解析や機械学習を含むビッ

    グデータ解析を行なえるデータサイエンティストの不足は顕著である.東京農工大学では,

    次世代シーケンサーを用いたゲノム科学を題材にした情報科学およびデータ解析技術,計

    算機統計学に関する研究教育活動を 2011年に開始しているが,その重要性は今後益々増え

    ていくと考えられる.

    謝辞本研究は,文部科学省特別経費「農学系ゲノム科学領域における人材育成プログラム」の

    支援により実施した.本プログラムを通してご支援いただき,貴重なコメントをいただい

    たプログラム代表の東京農工大学高橋信弘先生,特任教員,その他の教員の先生方,参加

    された大学院生諸氏ならびに,本稿の査読をしていただいたレフリーの先生に感謝したい.

    また,本研究は日本ヒューレットパッカード(株)の計算機リソース提供により実施した.

    本稿の執筆の機会をいただいた北海道大学水田正弘先生,日本 TIBCOソフトウェア (株)

    田澤司先生に感謝したい.

  • 110 日本統計学会誌  第43巻 第1号 2013

    参 考 文 献1000 Genomes Project (2010). 1000 Genomes Project and AWS, http://aws.amazon.com/jp/1000genomes/.

    Besaratinia, A., Li, H., Yoon, J. I., Zheng, A., Gao, H. and Tommasi, S. (2012). A high-throughput next-generation sequencing-based method for detecting the mutational fingerprint of carcinogens, Nucleic AcidsRes., 40(15), e116.

    CASAVA v1.8.2 User Guide (2011). Illumina http://support.illumina.com/documents/MyIllumina/a557afc4-bf0e-4dad-9e59-9c740dd1e751/CASAVA UserGuide 15011196D.pdf.

    Dean, J. and Ghemawat, S. (2004). MapReduce: Simplified Data Processing on Large Clusters, OSDI’04: SixthSymposium on Operating System Design and Implementation, San Francisco, CA, December, 2004 .

    Devlin, B. and Roeder, K. (1999). Genomic control for association studies, Biometrics, 55(4), 997–1004.

    Feng, J., Liu, T., Qin, B., Zhang, Y. and Liu, X. S. (2012). Identifying ChIP-seq enrichment using MACS, Nat.Protoc., 7(9), 1728–1740.

    Gentleman, R. C., Carey, V. J., Bates, D. M., Bolstad, B., Dettling, M., Dudoit, S., Ellis, B., Gautier, L., Ge, Y.,Gentry, J., Hornik, K., Hothorn, T., Huber, W., Iacus, S., Irizarry, R., Leisch, F., Li, C., Maechler, M., Rossini,A. J., Sawitzki, G., Smith, C., Smyth, G., Tierney, L., Yang, J. Y. and Zhang, J. (2004). Bioconductor: opensoftware development for computational biology and bioinformatics, Genome Biol., 5(10), R80.

    Ghemawat, S., Gobioff, H. and Leung, S.-T. (2003). The Google File System ACM SOSP’03, October 19–22,2003, Bolton Landing, New York, USA.

    Grabherr, M. G., Haas, B. J., Yassour, M., Levin, J. Z., Thompson, D. A., Amit, I., Adiconis, X., Fan, L.,Raychowdhury, R., Zeng, Q., Chen, Z., Mauceli, E., Hacohen, N., Gnirke, A., Rhind, N., Palma, F., Birren, B.W., Nusbaum, C., Lindblad-Toh, K., Friedman, N. and Regev, A. (2011). Full-length transcriptome assemblyfrom RNA-Seq data without a reference genome, Nat. Biotechnol., 29(7), 644–652.

    Hawkins, R. D., Hon, G. C. and Ren, B. (2011). Next-generation genomics: an integrative approach, Nat. Rev.Genet., 11(7), 476–486.

    Kim, D., Pertea, G., Trapnell, C., Pimentel, H., Kelley, R. and Salzberg, S. L. (2013). TopHat2: accuratealignment of transcriptomes in the presence of insertions, deletions and gene fusions, Genome Biol., 14(4),R36.

    Li, H. and Durbin, R. (2009). Fast and accurate short read alignment with Burrows-Wheeler transform, Bioin-formatics, 25(14), 1754–1760.

    Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., Marth, G., Abecasis, G. and Durbin,R., 1000 Genome Project Data Processing Subgroup (2009). The Sequence Alignment/Map format andSAMtools, Bioinformatics, 25(16), 2078–2079.

    Liu, L., Li, Y., Li, S., Hu, N., He, Y., Pong, R., Lin, D., Lu, L. and Law, M. J. (2012). Comparison of next-generation sequencing systems, Biomed Biotechnol., 201, 251364.

    McKenna, A., Hanna, M., Banks, E., Sivachenko, A., Cibulskis, K., Kernytsky, A., Garimella, K., Altshuler, D.,Gabriel, S., Daly, M. and DePristo, M. A. (2010). The Genome Analysis Toolkit: a MapReduce frameworkfor analyzing next-generation DNA sequencing data, Genome Res., 20(9), 1297–1303.

    Metzker, M. L. (2010). Sequencing technologies—the next generation, Nat. Rev. Genet., 11(1), 31–46.

    Michils, G., Hollants, S., Dehaspe, L., Van Houdt, J., Bidet, Y., Uhrhammer, N., Bignon, Y. J., Vermeesch, J.R., Cuppens, H. and Matthijs, G. (2012). Molecular analysis of the breast cancer genes BRCA1 and BRCA2using amplicon-based massive parallel pyrosequencing, J. Mol. Diagn., 14(6), 623–630.

    Miller, J. R., Koren, S. and Sutton, G. (2010). Assembly algorithms for next-generation sequencing data,Genomics, 95(6), 315–327.

    Price, A. L., Patterson, N. J., Plenge, R. M., Weinblatt, M. E., Shadick, N. A. and Reich, D. (2006). Principalcomponents analysis corrects for stratification in genome-wide association studies, Nat. Genet., 38(8), 904–909.

    Rizzo, M. (2008). Statistical Computing with R, Chapman & Hall/CRC (Rizzo M(著), 石井一夫, 村田真樹(共訳)(2011)『R よる計算機統計学』オーム社).

    Rothberg, J. M., Hinz, W., Rearick, T. M., Schultz, J., Mileski, W., Davey, M., Leamon, J. H., Johnson, K.,Milgrew, M. J., Edwards, M., Hoon, J., Simons, J. F., Marran, D., Myers, J. W., Davidson, J. F., Branting,

  • ゲノム科学におけるビッグデータ・データマイニング 111

    A., Nobile, J. R., Puc, B. P., Light, D., Clark, T. A., Huber, M., Branciforte, J. T., Stoner, I. B., Cawley,S. E., Lyons, M., Fu, Y., Homer, N., Sedova, M., Miao, X., Reed, B., Sabina, J., Feierstein, E., Schorn,M., Alanjary, M., Dimalanta, E., Dressman, D., Kasinskas, R., Sokolsky, T., Fidanza, J. A., Namsaraev, E.,McKernan, K. J., Williams, A., Roth, G. T. and Bustillo, J. (2011). An integrated semiconductor deviceenabling non-optical genome sequencin, BMC Bioinformatics, 11, (Suppl 12) S1.

    Shvachko, K., Kuang, H., Radia, S., Chansler, R. (2010). The Hadoop Distributed File System, Proceedings ofthe 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST), 1–10.

    Song, S., Jarvie, T., Hattori, M. (2013). Our second genome-human metagenome: how next-generation sequencerchanges our life through microbiology, Adv. Microb. Physiol., 62, 119–44.

    Taylor, R. C. (2010). An overview of the Hadoop/MapReduce/HBase framework and its current applicationsin bioinformatics, BMC Bioinformatics, 11(Suppl 12), S1.

    Zou, Z., Ishida, M., Li, F., Kakizaki, T., Suzuki, S., Kitashiba, H. and Nishiom, T. (2013). QTL analysis usingSNP markers developed by next-generation sequencing for identification of candidate genes controlling 4-methylthio-3-butenyl glucosinolate contents in roots of radish, Raphanus sativus L, PLoS One, 8(1), e53541.