近日,真邁生物聯(lián)合深圳市環(huán)境科學(xué)院在《Frontiers in Environmental Science》雜志上發(fā)表了題為“FWAlgaeDB,an integrated?genome database of freshwater?algae”的研究成果,發(fā)布了淡水藻類基因組數(shù)據(jù)庫——FWAlgaeDB,并闡述了數(shù)據(jù)庫的結(jié)構(gòu)及各功能板塊。研究還基于真邁生物GenoLab M高通量基因測序平臺對10個水庫水體樣本進行了宏基因組測序,在藻類物種鑒定方面,比較了FWAlgaeDB與NT庫的差異及優(yōu)勢。
FWAlgaeDB是第一個專門的淡水藻類數(shù)據(jù)庫,包含204個淡水藻類物種的生物學(xué)信息、基因組及功能注釋信息,并整合BLAST在線比對軟件,可以快速、準確地完成序列相似性比對和物種鑒定,對淡水藻類物種多樣性保護及功能開發(fā),具有重要作用。
藻類是水生態(tài)系統(tǒng)中重要的成員,對碳固定和初級生產(chǎn)力的提高發(fā)揮關(guān)鍵作用,并在可再生能源、水產(chǎn)養(yǎng)殖和制藥產(chǎn)業(yè)中具有普遍應(yīng)用。淡水藻類廣泛分布于人類的生活環(huán)境中,包括淡水湖泊、沼澤、水庫、河流、溪流及冰川等,占據(jù)了淡水環(huán)境的重要生態(tài)位,與人類生存息息相關(guān)。近幾十年來,淡水藻類在水質(zhì)監(jiān)測、生物多樣性評估與廢水重金屬去除等方面受到密切廣注。
藻類基因組包含重要的遺傳信息,是藻類功能開發(fā)及遺傳改造的基礎(chǔ),為生態(tài)環(huán)境保護與生物資源利用提供重要的理論依據(jù)。然而,目前已發(fā)表的藻類基因組序列有限且分散。已有的藻類相關(guān)數(shù)據(jù)庫,比如GenBank和JGI,沒有對淡水和海洋藻類進行有效的區(qū)分,且不包含藻類的生物學(xué)信息,比如生活環(huán)境、分類學(xué)信息、形態(tài)學(xué)圖片等;而AlgaeBase和Algae-Hub,雖然包含藻類基本的生物學(xué)信息,但是沒有收錄其基因組信息。因此,對于專注于淡水藻類的研究人員來說,目前已有的藻類數(shù)據(jù)庫并不能滿足其研究需求?;诖耍?strong style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important;">真邁生物和深圳市環(huán)境科學(xué)院合作開發(fā)了一個綜合性的、開放訪問的淡水藻類基因組平臺--FWAlgaeDB,助力淡水藻類研究和生態(tài)環(huán)境保護。
FWAlgaeDB目前包含來自于7個門204個物種的淡水藻類。其中,生物學(xué)特征信息來源于NCBI,公共數(shù)據(jù)庫以及已發(fā)表的文獻?;蚪M序列從NCBI下載,CDS及Protein序列一部分來源于NCBI已公布的文件(84個物種),另一部分來源于我們的基因預(yù)測(120個物種)。此外,我們對每個物種都進行了功能注釋(NR,Swiss-Prot,GO,KEGG,COG和KOG),以幫助了解基因功能層面的信息。
圖1?數(shù)據(jù)庫中204個藻類物種的分類及豐度
FWAlgaeDB包括搜索模塊、BLAST比對分析、基因組數(shù)據(jù)集(FWAlgae pool)/功能注釋文件(annotation)模塊,可以實現(xiàn)網(wǎng)站內(nèi)的快速檢索、相似性比對及基因組/注釋文件的免費下載。
FWAlgaeDB集成了一個智能搜索模塊,可以幫助研究人員快速檢索感興趣的數(shù)據(jù)。FWAlgaeDB支持不同的搜索方法:①輸入分類學(xué)術(shù)語檢索(支持不同分類學(xué)水平,如綱,目,科,屬等),網(wǎng)站會輸出相應(yīng)水平上的物種列表以供選擇。研究人員確定目標物種后,可以點擊并跳轉(zhuǎn)到特定頁面瀏覽、下載相關(guān)數(shù)據(jù)。②精確檢索,通過物種的科學(xué)名稱、數(shù)據(jù)庫編號或NCBI分類號來精確檢索物種信息。FWAlgaeDB使用模糊匹配算法,即使搜索字符串或拼寫不完整,也可以根據(jù)潛在相關(guān)性輸出搜索結(jié)果。
展示204個淡水藻類的分類信息和基因組序列。淡水藻類的屬和種按字母順序排列在瀏覽界面上。每個物種都鏈接到一個特定的頁面,包含其生物分類學(xué)信息、生活環(huán)境、NCBI登錄號、地理分布、參考圖片和相關(guān)文獻,以及可下載的基因組序列。在本頁面,研究人員可以下載相應(yīng)的FASTA格式的基因組序列。此外,單擊藻類名稱將直接進入Annotation下載界面。
注釋界面以表格形式呈現(xiàn),研究人員可以單獨選擇或一鍵打包Genome、CDS、Protein和不同的數(shù)據(jù)庫注釋文件進行下載。為了更好地了解藻類基因組信息,我們還收集并注釋了204種藻類的主要基因家族,包括ABC transport、細胞色素p450、轉(zhuǎn)座酶、藻毒素基因簇等,供研究人員免費下載使用。本頁內(nèi)嵌的搜索工具也支持通過物種名稱或數(shù)據(jù)庫ID進行精確搜索。
FWAlgaeDB集成了BLASTN/BLASTP比對工具,研究人員能夠?qū)⒋樵冃蛄?核苷酸或氨基酸序列)與整個數(shù)據(jù)庫進行比對,并獲得BLAST比對報告。研究人員可以在操作界面中粘貼FASTA序列或上傳序列文件,快速搜索數(shù)據(jù)庫中與待查詢基因組或蛋白質(zhì)序列相匹配的物種列表。數(shù)據(jù)庫支持BLASTN、MEGABLAST和Discontiguous MEGABLAST比對,且可以使用高級命令行參數(shù)對搜索進行優(yōu)化。
為了驗證FWAlgaeDB的有效性,我們使用GenoLab M平臺對10個水庫水體樣本進行了宏基因組測序,將測序得到的reads在FWAlgaeDB和NT藻類數(shù)據(jù)庫中進行物種注釋的分析和比較。
基于NT藻類數(shù)據(jù)庫進行物種鑒定時,獲得了極其龐雜的物種鑒定結(jié)果,且需要進一步區(qū)分是否是淡水藻類,后續(xù)的識別過程將極為復(fù)雜。NT數(shù)據(jù)庫獲得的海量數(shù)據(jù)可能會分散研究人員的注意力,并模糊一些重要信息。而基于FWAlgaeDB鑒定得到的物種,相對更為集中,且確定都是淡水來源的藻類。
另外,在NT數(shù)據(jù)庫中檢測到幾個公認的海洋藻類物種(圖中橙色標記),這是令人費解且無法解釋的。因為樣本來源于淡水水庫,理論上不存在海洋種類。這些潛在的假陽性表明,F(xiàn)WAlgaeDB是鑒定淡水樣本中藻類物種的更優(yōu)選擇。當然,如果要對這些假陽性物種進行確切的鑒定,還需要進一步的濕實驗驗證,如藻類分離、培養(yǎng)和PCR鑒定。

圖6?FWAlgaeDB和NT藻類數(shù)據(jù)庫對10個水庫樣本藻類物種鑒定的比較
基于上述分析,我們得出如下結(jié)論:
1、FWAlgaeDB是目前第一個專門針對淡水藻類的基因組數(shù)據(jù)庫,包含204種淡水藻類的生物學(xué)特征及基因組信息,可助力水生態(tài)環(huán)境相關(guān)研究的開展;
2、FWAlgaeDB可以實現(xiàn)BLAST相似性比對及淡水藻類物種鑒定,且數(shù)據(jù)庫中所有信息文件都提供開源、免費的下載;
3、相對于NT數(shù)據(jù)庫,F(xiàn)WAlgaeDB更適合淡水樣本的藻類物種鑒定。