近日,真邁生物聯(lián)合上海交通大學(xué)醫(yī)學(xué)院在國(guó)際期刊Frontiers in Genetics上發(fā)表題為“Assessing the impact of sequencing platforms and analytical pipelines on whole-exome sequencing”的研究成果。該研究采用腫瘤標(biāo)準(zhǔn)品HD832和正常樣本HG001,通過NovaSeq 6000、NextSeq 550、GenoLab M,FASTASeq 300與SURFSeq 5000測(cè)序平臺(tái),采用多款主流生信軟件,比較SNP和InDel在各測(cè)序平臺(tái)與分析軟件下的表現(xiàn)情況,發(fā)現(xiàn)測(cè)序平臺(tái)對(duì)于全外顯子組測(cè)序(WES)的結(jié)果影響較小,而分析軟件對(duì)WES結(jié)果的影響更大。此外,也強(qiáng)調(diào)了生物學(xué)重復(fù)對(duì)于WES檢測(cè)的重要性。
全外顯子組測(cè)序(WES)正迅速成為識(shí)別人類基因組目標(biāo)區(qū)域分子遺傳病變的經(jīng)濟(jì)有效的工具。近年來(lái),隨著WES在遺傳病和腫瘤檢測(cè)領(lǐng)域的廣泛應(yīng)用,測(cè)序平臺(tái)和分析軟件對(duì)WES的結(jié)果的影響至關(guān)重要。
01?腫瘤樣本HD832中的對(duì)比結(jié)果
首先,該研究在3個(gè)測(cè)序平臺(tái)上(NovaSeq 6000, NextSeq 550, GenoLab M)通過7個(gè)分析軟件獲得高置信度陽(yáng)性位點(diǎn)的檢測(cè)結(jié)果,發(fā)現(xiàn):軟件相同時(shí),不同測(cè)序平臺(tái)之間檢測(cè)到的突變數(shù)目相差很小(圖1A, B)。在VarScan2分析軟件下,3個(gè)平臺(tái)上的平均SNP檢測(cè)數(shù)分別為233、232和234。所有平臺(tái)都無(wú)法檢測(cè)HD832給出的全部高可信度的陽(yáng)性位點(diǎn),但不同分析軟件得到的F Score和Recall的結(jié)果表明平臺(tái)之間的差異很小,而分析軟件間差異較大。例如,相同測(cè)序平臺(tái)的數(shù)據(jù)在Strelka2中檢測(cè)得到193個(gè)SNP位點(diǎn),而在VarScan2中檢測(cè)到234個(gè)。這與給出的HD832已被ddPCR驗(yàn)證過的陽(yáng)性位點(diǎn)對(duì)比結(jié)果一致(圖1c)。對(duì)于InDel,測(cè)序平臺(tái)之間的差異僅為1-2個(gè)InDel (圖1B),但分析軟件之間的差異高達(dá)7個(gè)InDel。此外,SNVer和VarScan2在高置信度陽(yáng)性位點(diǎn)的檢出率上表現(xiàn)最好。
圖1?3個(gè)測(cè)序平臺(tái)四個(gè)分析軟件在高置信陽(yáng)性位點(diǎn)檢測(cè)中的結(jié)果對(duì)比
02?正常樣本HG001中的對(duì)比結(jié)果
為進(jìn)一步驗(yàn)證腫瘤樣本中的發(fā)現(xiàn),又增加正常樣本HG001,并納入2個(gè)新測(cè)序平臺(tái)——FASTASeq 300和SURFSeq 5000,并去除了2個(gè)腫瘤檢測(cè)特異性的軟件。類似地,在同一個(gè)分析軟件下,不同測(cè)序平臺(tái)之間SNP檢測(cè)的差異較小。具體來(lái)說(shuō),在mpileup工具下,各平臺(tái)SNP檢測(cè)的F值范圍為0.8738到0.8856。而在InDel檢測(cè)中,差異更明顯。例如,表現(xiàn)較差的SNVer分析軟件的平均F值僅為0.4,而表現(xiàn)優(yōu)越的Strelka2分析軟件的平均F值高達(dá)0.76。這些發(fā)現(xiàn)表明:對(duì)于正常樣本HG0001,測(cè)序平臺(tái)的選擇對(duì)WES結(jié)果的影響可以忽略不計(jì)。相反,分析軟件的選擇對(duì)SNP檢測(cè)影響較小,但對(duì)InDel檢測(cè)影響較大。
圖2?五個(gè)測(cè)序平臺(tái)和五個(gè)分析軟件在正常樣本HG001檢測(cè)中的結(jié)果對(duì)比
1.?文章通過對(duì)多個(gè)數(shù)據(jù)集的比較分析,發(fā)現(xiàn)對(duì)于HD832和HG001樣本,分析軟件對(duì)WES結(jié)果的影響大于測(cè)序平臺(tái);
2.?在HD832樣本中,SNVer和VarScan2在7個(gè)分析軟件中表現(xiàn)最佳。在HG001樣本的InDel檢測(cè)中,Strelka2在5個(gè)分析軟件中表現(xiàn)最佳;
3.?研究為新測(cè)序平臺(tái)和HD832標(biāo)準(zhǔn)樣本提供了多個(gè)實(shí)用的參考數(shù)據(jù)集。通過這些參考數(shù)據(jù)集,研究人員可以選擇更合適的分析軟件和測(cè)序平臺(tái),從而提高遺傳變異檢測(cè)的準(zhǔn)確性和可靠性。
Sun, Yanping, et al. "Assessing the impact of sequencing platforms and analytical pipelines on whole-exome sequencing."?Frontiers in Genetics?15 (2024): 1334075.