近日,真邁生物與Sentieon團(tuán)隊(duì)合作,開(kāi)發(fā)并驗(yàn)證了GenoLab M測(cè)序儀搭配DNAscope專屬分析模型的高精度變異檢測(cè)方案?;谠摍z測(cè)方案,在人源細(xì)胞系標(biāo)準(zhǔn)品全基因組(WGS)與全外顯子組重測(cè)序(WES)測(cè)試中,GenoLab M展現(xiàn)出了相對(duì)于Illumina NovaSeq與NextSeq測(cè)序平臺(tái)在SNP與Indel檢測(cè)準(zhǔn)確度的顯著優(yōu)勢(shì)。
高通量測(cè)序技術(shù)完成商業(yè)化的15年間,市場(chǎng)基本上被Illumina測(cè)序平臺(tái)所壟斷。尤其是2014年其推出的桌面式測(cè)序儀NextSeq 500以及2017年推出的生產(chǎn)工廠級(jí)別的NovaSeq 6000,代表了這兩個(gè)級(jí)別測(cè)序儀的主流水平。然而,業(yè)界希望有更多的選擇,期待有新的測(cè)序儀品牌的產(chǎn)品能夠同時(shí)滿足精準(zhǔn)高效,靈活,經(jīng)濟(jì)的應(yīng)用需求。
真邁生物推出了全新桌面級(jí)測(cè)序平臺(tái)GenoLab M。該平臺(tái)基于芯片擴(kuò)增的表面熒光測(cè)序技術(shù)SURFseq(Surface Restricted Fluorescence Sequencing)對(duì)堿基的熒光信號(hào)進(jìn)行識(shí)別,實(shí)現(xiàn)大規(guī)模并行測(cè)序,在之前發(fā)表的轉(zhuǎn)錄組評(píng)測(cè)文章中展現(xiàn)了不俗的應(yīng)用潛力。本次基于GenoLab M平臺(tái)的測(cè)序數(shù)據(jù)結(jié)合Sentieon DNAscope分析流程,亦獲得了WGS和WES的高準(zhǔn)確度變異結(jié)果,證明了GenoLab M平臺(tái)在DNA和RNA測(cè)序領(lǐng)域的通用性。
Sentieon的DNAsocpe分析流程基于機(jī)器學(xué)習(xí)原理,相比于開(kāi)源GATK能夠更快更準(zhǔn)確的處理DNA測(cè)序數(shù)據(jù),完成變異檢測(cè)。相比于針對(duì)Illumina平臺(tái)開(kāi)發(fā)的GATK流程,Sentieon DNAscope可以通過(guò)訓(xùn)練不同的算法模型,特異性的適配各種測(cè)序平臺(tái)的數(shù)據(jù)特性,糾正系統(tǒng)性偏差,提升變異檢測(cè)準(zhǔn)確率。
在本文中,作者團(tuán)隊(duì)使用NA12878人源細(xì)胞系標(biāo)準(zhǔn)品DNA構(gòu)建的WGS和WES(Agilent V8捕獲)兩個(gè)文庫(kù)分別在GenoLab M、NovaSeq 6000和NextSeq 500平臺(tái)上進(jìn)行測(cè)序,NovaSeq/NextSeq平臺(tái)測(cè)序結(jié)果使用GATK算法(文中使用的Sentieon DNAseq軟件是基于GATK算法的一個(gè)加速方案)分析作為標(biāo)準(zhǔn)流程產(chǎn)生基線數(shù)據(jù),與GenoLab M平臺(tái)測(cè)序數(shù)據(jù)使用DNAscope適配流程的結(jié)果進(jìn)行準(zhǔn)確度的比對(duì)。
圖表1 流程圖
使用兩種標(biāo)準(zhǔn)品文庫(kù),三種測(cè)序平臺(tái),兩種分析工具搭建的項(xiàng)目流程圖
統(tǒng)計(jì)GenoLab M、NovaSeq 6000和NextSeq 500的WGS和WES測(cè)序數(shù)據(jù)可見(jiàn),GenoLab M原始下機(jī)數(shù)據(jù)的質(zhì)量值介于NovaSeq 6000和NextSeq 500之間,數(shù)據(jù)冗余率(Duplication Rate)較低。
圖表2 測(cè)試數(shù)據(jù)集的基本質(zhì)控
GL_WGS_22/GL_WGS_33:分別代表GenoLab M平臺(tái)WGS測(cè)序深度22X/33X數(shù)據(jù)
NA_WGS_22/NA_WGS_33:分別代表NovaSeq 6000平臺(tái)WGS測(cè)序深度22X/33X數(shù)據(jù)
GL_WES_100/GL_WGS_raw:分別代表GenoLab M平臺(tái)WES測(cè)序深度100X/原始下機(jī)數(shù)據(jù)
NA_WES_100/NA_WGS_raw:分別代表NovaSeq 6000平臺(tái)WES測(cè)序深度100X/原始下機(jī)數(shù)據(jù)NT_WES_100/NT_WGS_raw:分別代表NextSeq 500平臺(tái)WES測(cè)序深度100X/原始下機(jī)數(shù)據(jù)
?WGS數(shù)據(jù)測(cè)評(píng)結(jié)果
文章首先分析了GenoLab M以及NovaSeq 6000平臺(tái)在全基因組數(shù)據(jù)處理中的表現(xiàn),考慮到測(cè)序深度決定了大部分?jǐn)?shù)據(jù)生成的成本,我們?cè)?3x深度以外又通過(guò)降采樣增加了22x的淺深度數(shù)據(jù)進(jìn)行分析。分析完成后一共生成了4個(gè)VCF文件,參考GIAB高置信變異集(V4.2.1)計(jì)算SNP和InDel檢測(cè)的靈敏度、特異性以及綜合F-score。
可以看出,在全基因組的范圍內(nèi),Genolab M+DNAscope的靈敏度與特異性都顯著超越同深度的NovaSeq+GATK結(jié)果,并且前者22x深度的整體準(zhǔn)確率能夠達(dá)到后者33x的水平,展現(xiàn)了卓越的成本控制潛力。在基因組的細(xì)分區(qū)域,也可以看到相似的結(jié)論。
在重復(fù)序列區(qū)域Genolab M平臺(tái)展現(xiàn)了更加顯著的準(zhǔn)確度優(yōu)勢(shì),為該區(qū)域相關(guān)致病基因的檢測(cè)帶來(lái)了更多潛力。
圖表3 WGS變異檢測(cè)結(jié)果數(shù)據(jù)統(tǒng)計(jì)
全基因組范圍內(nèi) (A) SNP、?(B) Indel的靈敏度,特異性,F(xiàn)-score;分區(qū)分析中,20號(hào)染色體(chr20)、低難度區(qū)域(NIADR, not-in-all-difficult-region)、重復(fù)區(qū)域(SDR, seg-dup-region)中(C) SNP (D) InDel的靈敏度,特異性,F(xiàn)-score。
?WES數(shù)據(jù)測(cè)評(píng)結(jié)果
在WES的準(zhǔn)確率評(píng)測(cè)中,作者比對(duì)了GenoLab M,NovaSeq6000以及NextSeq500這三個(gè)平臺(tái)生成的數(shù)據(jù),每個(gè)數(shù)據(jù)又被降采樣到100x,一共產(chǎn)生6個(gè)結(jié)果文件進(jìn)行比對(duì)。
通過(guò)下圖可以看出,基于WES數(shù)據(jù),Genolab M+DNAscope變異檢測(cè)的靈敏度(Recall)與NovaSeq/NextSeq+GATK檢測(cè)結(jié)果類似,但是變異檢測(cè)的特異性(Precision)大幅度領(lǐng)先,最終的綜合F-score也較高,可以在100x的深度下達(dá)到NovaSeq/NextSeq平臺(tái)更高深度才能達(dá)到的準(zhǔn)確率。
圖表4 WES變異檢測(cè)結(jié)果數(shù)據(jù)統(tǒng)計(jì)
(A) SNP (B) InDel的靈敏度,特異性,F(xiàn)-score。
另外,我們比較了WES數(shù)據(jù)平臺(tái)間變異檢測(cè)結(jié)果的一致性可以看出,三個(gè)平臺(tái)對(duì)SNP的檢測(cè)結(jié)果一致性非常高,絕大多數(shù)正確的SNP被所有平臺(tái)檢出,但不同平臺(tái)對(duì)InDel的檢測(cè)結(jié)果則略有差異。
圖表5 WES變異檢測(cè)結(jié)果平臺(tái)間一致性分析
(A)SNP,(B)InDel。
GenoLab M作為新一代桌面型高通量基因測(cè)序平臺(tái),為用戶提供了一個(gè)新的選擇。在本次的WGS和WES評(píng)測(cè)中,真邁生物GenoLab M +Sentieon DNAscope檢測(cè)方案展現(xiàn)了優(yōu)異的變異檢測(cè)準(zhǔn)確率,這不僅來(lái)源于測(cè)序平臺(tái)本身的高質(zhì)量,同時(shí)也來(lái)源于Sentieon DNAscope特異性適配模型的高性能。
真邁生物與Sentieon將持續(xù)合作,共同推動(dòng)DNA重測(cè)序解決方案的升級(jí)與迭代,為業(yè)界提供更多更好的技術(shù)選擇!
關(guān)于Sentieon
Sentieon致力于解決生物信息數(shù)據(jù)分析中的速度與準(zhǔn)確度瓶頸,通過(guò)算法的深度優(yōu)化和企業(yè)級(jí)的軟件工程,大幅度提升NGS數(shù)據(jù)處理的效率,準(zhǔn)確度,和可靠性。公司自成立以來(lái),多次贏得precisionFDA國(guó)際生物信息挑戰(zhàn)賽的第一名,包括三次臨床多組學(xué)聯(lián)合分析AI建模大賽冠軍,展現(xiàn)了業(yè)內(nèi)頂級(jí)的研發(fā)實(shí)力。Sentieon為來(lái)自于分子診斷,藥物研發(fā),臨床醫(yī)療等多個(gè)領(lǐng)域的合作伙伴和科研機(jī)構(gòu)提供軟件解決方案,共同推動(dòng)基因技術(shù)的發(fā)展,實(shí)現(xiàn)“成就精準(zhǔn)數(shù)據(jù),服務(wù)精準(zhǔn)醫(yī)療“的愿景。