MAY 24, 2023 | HUMAN GENETICS RESEARCH
シーケンシング入門:ロングリードシーケンス
< Return to Japan blog | < Return to Main blog
PacBio HiFiシーケンスのようなロングリードシーケンス技術は、急速にゲノム研究の新しいゴールドスタンダードになりつつあります。この記事では、ロングリードシーケンスとは何かを紹介し、利点やアプリケーションなどのトピックを探ります。
背景
メンデルが生物遺伝の法則を初めて推測してから、ニーレンベルグが遺伝暗号を解読するまで、およそ2世紀にわたって、生き物を動かす本質を解読することは、世界中の科学者の中心的な目標となってきました。今日、生物学の最も差し迫った研究課題の多くは、非常に複雑であるため、単一の遺伝子や遺伝パターンだけでなく、生物の遺伝情報(ゲノム)全体とその無数の機能を考慮する必要があります。
ロングリードシーケンスとは何ですか?
ロングリードシーケンスとは、核酸シーケンスの一種で、数千ヌクレオチド以上の長さの単一分子に由来する個々のリードを生成することによりゲノムデータを作成するものです。
ロングリードシーケンスでは、1,000~20,000塩基以上のサイズのDNA(またはRNA)断片を使用します。これらの断片は、解析のために生物学的サンプルから直接抽出された「ネイティブ」分子と呼ばれるものから得られることが多くあります。一方、ほとんどのショートリードシーケンスでは、50~300塩基の断片を使用します。ロングリードのアプローチとは異なり、ショートリードのソリューションではネイティブ分子の配列を効率的に決定することができないため、抽出したDNAを解析の前に合成的にコピーする必要があります。
ゲノムの長さは数百万から数十億塩基にも及ぶため、試料からゲノムをそのまま取り出すことは、少なくとも今のところ現実的には不可能である。そこで研究者たちは、小さな断片からゲノム配列情報を復元する装置を利用しています。このプロセスの最初の部分で、ゲノムは実際の配列決定、再組み立て、解析が行われる前に、驚くほど多くの断片に分解される。使用する技術によって異なりますが、抽出されたDNAサンプルは、配列決定装置の能力に適したサイズの断片を提供できるように、いくつかの準備段階を経ます。シーケンス装置は、基本的な化学的性質と解析するDNA断片の長さに基づいて、ロングリードとショートリードに分類されます。
ロングリードシーケンスの利点は何ですか?
ロングリードシーケンスとショートリードシーケンスの基本的な違いは、解析する分子の長さであることは驚くことではありません。ショートリードとロングリードの違いを理解し、ロングリードシーケンスが全ゲノム再構築などの分野で優れている理由を知るには、次の例を考えてみてください。
ロングリードシーケンスでゲノムを組み立てる利点:書籍を用いた例
ショートリードとロングリードのシーケンス技術の違いについて考える一つの方法は、500ページの小説をランダムな文章の断片から再構築する2つの異なるアプローチを想像することです。
ショートリードシーケンスの場合、”then there were “や “sometimes she “のような断片的な文章だけを扱うのと同じです。このような短い文章から小説を再構成するのは大変なことです。なぜなら、文章は不完全で、順序を正しく配置するのに必要な文脈情報が欠けているからです。同様に、ショートリードのシーケンシングデータだけで、全ゲノム(この例では本)の高精度かつ詳細なコピーを再構築することは非常に難しく、そのためには複雑で計算量の多い数学モデルが必要です。また、ショートリードのシーケンスデータで作成されたアセンブリには、多くのエラーや欠落した情報が含まれることがあります。
長時間のシーケンシングデータを用いれば、ゲノムの組み立ては非常に簡単で、500ページの小説を小さな断片ではなく、段落全体を包含するような断片でつなぎ合わせていくようなものです。このような長い文章は、筋書きの重要な出来事に関する文脈的な情報を提供し、ストーリーを再構築するためにそれらを正しく配置することをより容易にします。同様に、ロングリードを用いたゲノムアセンブリを作成するために研究者が乗り越えなければならない障害は、ショートリードのソリューションに比べればはるかに簡単で、計算ステップも少なく複雑ではありません。
ロングリードの利点は精度に依存する
“…リードの長さが支配的な要因として頻繁に示唆されているが…、我々の結果は、リードの長さという利点は、HiFi技術の高いシーケンス精度によって影を潜めていることを実証した。”– Mahmoud et al. 2023
500ページの小説に例えると、すべてのロングリードシーケンス技術が同じように作られているわけではないことに注意することが重要です。競合するロングリード技術に対する重要な要素が1つあります。
ゲノムを正しく組み立てることは小さな仕事ではありません。ロングリードはこのタスクにおいてショートリードよりも多くのコンテキストを提供しますが、十分な精度がなければその利点は失われます。本に例えるなら、ロングリードのデータが正確でないということは、長い文章の断片を読むようなものです。その文章は筋書きを説明するのに十分なまとまりがありますが、同時にスペルミスや文字化け、無意味な文章に満ちており、重要な出来事がいつ、どのように起こったのかを正確に見極めることが難しくなっています。ショートリードの場合と同様に、不正確なロングリード技術がもたらす解析上の課題を克服するには、時間がかかり、複雑な計算処理とデータのポリッシングが必要になることがあります。この例えの場合、小説の要約に相当するゲノム情報があればよいのであれば、この程度の精度は許容範囲かもしれません。しかし、文字や句読点のひとつひとつまで正確に再現することが求められるのであれば、可能な限りベストな断片を得ること必要です。
ゲノム解析におけるこの長さと正確さの両方の要求を満たすために、HiFiシーケンスはPacBioの科学者によって開発されました。
HiFiシーケンシングとは?
HiFiシーケンシングは、長さと精度の両方を兼ね備えたリードを生成する1分子ロングリードシーケンス技術です。HiFiシーケンシングはPacBio社によって開発され、すべてのPacBioロングリードシーケンス装置で実行されるコアケミストリーです。
HiFiシーケンスは、2000年代初頭にコーネル大学でPacBio CTOのStephen Turner博士とCSOのJonas Korlach博士が開発したナノ流体設計と単一分子リアルタイム化学に起源を持つ。
HiFiシーケンスは、ケミストリーやデータ品質に大きなばらつきがある他のロングリード技術とは異なり、15,000~20,000塩基以上の長さのリードで非常に安定したシーケンス性能を研究者に提供することができる点が特徴である。さらに、配列の決定に使用されるコンセンサスアプローチ(後述の「仕組み」のセクションを参照)により、HiFiシーケンスは99.9%の精度を達成することができます。これらの長さと精度の指標を組み合わせることで、HiFiシーケンスは、ゲノミクスの最も複雑で技術的に困難な側面を研究するための、世界で最も強力なシーケンス技術の1つとなっています。
ゲノム研究の進歩への重要な貢献が認められ、HiFiシーケンサーはNature Methods誌から2022年のMethod of the Yearという名誉あるタイトルを共同で授与されました。
学生や同僚と共有するために、HiFiシーケンスに関する公式の電子ブックをご希望ですか?
HiFiシーケンスはどのように行われるのですか?
HiFiシーケンシングは、溶液中に浮遊するサンプルDNAの円形断片が、SMRT(Single Molecule, Real-Time)セルと呼ばれるナノ流体チップの表面に流れ込むところから始まります。このチップの表面には、zero-mode waveguides(ZMW)と呼ばれる数百万-数千万個の円柱状の凹部(井戸)が市松模様に配置されており、それぞれの幅はわずかナノメートルです。試料がSMRTセル上を流れると、円形のDNA断片がZMWの底に固定され、サンプルDNAがZMWの中に入ると、自由に浮遊するヌクレオチドが加えられ、ライブラリー調製時にサンプルDNAに付着していたDNAポリメラーゼ酵素がサンプル分子のコピーを開始します。ポリメラーゼが新しい塩基を複製された鎖に組み込むと、微量の光が放出され、検出器よって検出されます。放出された光によって、シーケンサーはどのDNA塩基(アデニン、チミン、シトシン、グアニン)が組み込まれたかを判断することができます。
レースカーが円形のレース場を何周もするように、HiFiシーケンサーのDNAポリメラーゼは、円形のサンプル分子の周りを何度も何度も周回します。ポリメラーゼは、ZMW内に保持されたDNAの各パーツのコピーを複数生成するため、PacBioロングリードシーケンスシステムは、CCS(Circular consensus sequencing)と呼ばれる方法で精度を最大限に高めるために分子の各コピーを相互参照することによってサンプルの正しい配列をピンポイントで特定できます。
SMRTセル内のすべてのZMWからのデータがコンパイルされると、研究者によるダウンストリーム解析のための一次データ出力が生成されます。
Sequel IIeシステムと最新のPacBioロングリードシーケンスプラットフォームは、各塩基がポリメラーゼによって取り込まれる速度を測定します。この情報は、PacBio SMRT Linkソフトウェアによって、エピジェネティック研究に不可欠なメチル化されているかどうかを判断するために使用されます。
HiFiシーケンスの利点は何ですか?
HiFiシーケンスが特定の研究や研究分野にもたらすメリットは数多くありますが、以下の4つの特徴は、研究の用途にかかわらず、ゲノム研究者が他のシーケンスアプローチと比較して重要な利点をもたらします。
長いリード長
HiFiシーケンスでは、15,000~20,000塩基対以上のリードが得られるため、研究者は自信を持ってリファレンスグレードのゲノムを構築し、全長RNA転写物をシーケンスすることができます。
高い精度
HiFiシーケンスでは、サーキュラーコンセンサスにより、99.9%の精度でリードを生成します。
均一なカバレッジ
増幅に伴うバイアスを排除することで、HiFiシーケンスでは、他の技術ではアクセスできないことが多いゲノム領域(配列が難しいATやGCリッチコンテンツ、高反復領域、長いホモポリマー、反復配列など)を解析することができます。
ネイティブメチル化検出
試料から直接抽出したDNAを増幅せずにシーケンスすることで、塩基取り込みのカイネティクス情報(速度情報)を測定し、シーケンス中に塩基修飾を並行して検出することができます。これにより、追加のライブラリー調製を必要とせず、1回の実験で塩基配列とメチル化の両方の情報を取得することができます。
HiFiシーケンスはどのような用途に使われるのですか?
均一なゲノムカバレッジとネイティブなメチル化検出能を備えた長くて正確なリードデータを生成できるHiFiシーケンスは、生物学のあらゆる分野で活用できる多くのゲノム解析アプリケーションを持っています。
HiFiシーケンサーのアプリケーション一覧:
- ハプロタイプフェージング
- 大規模かつ複雑なバリアントの検出
- 包括的で正確なゲノムアセンブリ
- エピジェネティクス
- ハプロタイプフェージング
作物の特性の遺伝的基盤や、ヒトの複雑な遺伝性疾患の起源を探索する場合、フェージングと呼ばれるプロセスで、各染色体コピーまたはハプロタイプ(例えば、母系または父系遺伝)を他のものと完全に区別できることが重要である。HiFiシーケンスの長距離機能は、統計的な複雑さを軽減し、各染色体コピーを正しく再構築するための信頼性を向上させます。ほとんどの場合、HiFiシーケンスは、研究チームの限られた時間とリソースに大きな負担をかけることになるトリオや集団ベースのフェージング技術を不要にします。脊髄性筋萎縮症(SMA)のゲノムに関する最近の研究では、研究者はHiFiシーケンスを用いて、アフリカの集団に共通する2コピーのSMN1対立遺伝子を形成する2つのSMN1ハプロタイプを特定しました。これは、現在使用されているSNP(一塩基多型)マーカーの1.7%~3.0%を大幅に上回るもので、HiFiシーケンサーがSMAのサイレントキャリアのハプロタイプ別スクリーニングの開発に役立つ可能性を示しています。
変異検出
HiFiシーケンスのリードは、ゲノムの広い領域にまたがっているため、ゲノムワイドなスケールでバリアントを検出するのに適しています。ショートリードでは、大きな挿入-欠失イベントが発生した例では、検出が困難であることが知られており、HiFiシーケンスの得意とする分野です。同様に、HiFiリードは、研究者がタンデムリピートや、長く正確なリードがなければ解析できない、高度に反復した配列を持つ他の領域の変化を検出するのに役立ちます。 最近まで、ゲノムワイド関連研究(GWAS)は、複雑な疾患の遺伝率を説明することが困難でした。しかし、HiFiシーケンスのバリアント検出機能により、構造バリアント(50~1,000bp以上のゲノムバリアント)を正しく同定することができるようになりました。これにより、研究者は病気の表現型を新規遺伝子や原因バリアントと結びつける能力が向上し、特定の遺伝性疾患における遺伝率の不足の問題を解決し始めることができるようになりました。
ゲノムアセンブリ
HiFiシーケンスは、バクテリアからヒト、そしてカリフォルニアの巨大なレッドウッドまで、あらゆる生命体において高精度のゲノムアセンブリを実現する最高峰の技術です。HiFiデータの長さと精度により、相同性の高い領域でも個々のリードの重なりが十分に確保されるため、hifiasmなどのアセンブリソフトウェアで、エラーや不確定要素の少ないゲノムを再構築することができます。これらの強みを生かし、T2Tコンソーシアムの科学者たちはHiFiシーケンスを用いて、ヒトゲノムの残りの8%の欠損情報を解消し、2022年3月に世界初の完全なヒトゲノムアセンブリを発表することに成功しました。
エピジェネティクス
HiFiシーケンサーは、増幅工程を経ずにサンプル分子を直接解析できるため、研究者は従来の塩基コールデータに加え、メチル化などの塩基修飾情報にもアクセスできます。これにより、ヒトや他の生物における遺伝子発現の遺伝的変化の解明に焦点を当てた研究に、さまざまな新しい可能性がもたらされます。さらに、このメチル化データは他のHiFiアプリケーションと連動して生成されるため、研究者は、ハプロタイプに基づくバリアントと呼ばれるゲノムコンテキストにおいて、エピジェネティック効果をピンポイントで研究することができます。 このメチル化検出機能の創造的な利用法として、遺伝子治療薬の研究者は、HiFiメチル化検出を使用して、設計の切れ目や構造的欠陥を特定することも始めています。
ゲノム探索の未来は長い
生態系の機能から人間の健康まで、あらゆる分野にまたがる生物学的な疑問に対する答えを探し続ける科学者たちにとって、ますます強力で洗練されたゲノムツールの必要性はますます重要になってきています。発見志向の研究用途では、ロングリードシーケンス、特にHiFiシーケンスは、ゲノム解析のほぼすべての側面で現在の標準を上回ることができるため、非常に大きな期待を集めています。その結果、これらの最先端のロングリードテクノロジーがゲノム発見の新時代を切り開く可能性は、もはや角を曲がったところではなく、ここにあるのです。
References
M. Mahmoud, Y. Huang, K. Garimella, P. A. Audano, W. Wan, N. Prasad, R. E. Handsaker, S. Hall, A. Pionzio, M. C. Schatz, M. E. Talkowski, E. E. Eichler, S. E. Levy, F. J. Sedlazeck Utility of long-read sequencing for All of Us. bioRxiv [Preprint]. 2023.01.23.; doi: https://doi.org/10.1101/2023.01.23.525236
PacBioに問い合わせる