北京基因組所開發國際領先基因組序列變異庫
近日,中國科學院北京基因組研究所生命與健康大數據中心開發了國際領先、國內首個規模最大的基因組序列變異庫—GVM(Genome Variation Map)。該庫基于人工審編整合了多個物種的大量基因組序列單核苷酸多態位點和小的插入與刪除變異信息,是基因組序列變異信息匯交、管理與檢索的資源庫。研究成果以“Genome Variation Map: a data repository of genome variations in BIG Data Center”為題在國際學術期刊Nucleic Acids Research在線發表。
基因組序列變異是基因組DNA水平發生的可遺傳變異,是生物多樣性的基礎,是物種進化、分子育種、優良性狀選育、人類疾病等研究最為寶貴的遺傳資源。近年來,隨著測序技術發展,越來越多物種的基因組被精細解析;物種內遺傳多態變異位點也通過大規模的群體測序獲得,并廣泛應用于復雜性狀的關聯解析。國際兩大數據中心NCBI和EBI旗下的dbSNP和EVA是兩個主要的基因組序列變異資源庫。今年5月,NCBI宣布自2017年9月1日起,dbSNP和dbVar兩大數據庫停止接收非人物種的SNP提交信息,自2017年11月1日起停止非人物種的SNP在線查詢與提交。對基于序列變異研究的科研人員造成了極大不便。
為此,GVM作為生命與健康大數據中心的核心數據資源庫之一,搜集了以二代測序和芯片技術為主要檢測手段的全基因組序列變異檢測的原始數據,通過標準化的變異位點鑒定與注釋,獲得包括人、畜牧動物、主要農作物和其他資源物種在內的19個物種共約50億的變異信息,8,884個個體的基因型數據,并通過人工審編收錄了13,262條高質量非人物種的基因型與表型知識數據、整合了180,911條人變異位點的知識信息。其中,大熊貓、虎鯨、毛竹、橡膠、小麥是GVM數據庫所特有的物種。
GVM開發了友好的數據提交、瀏覽、搜索和可視化功能。用戶可通過基因組位置、變異影響、基因名稱和基因功能等檢索變異位點信息,下載數據,也可通過ftp服務下載VCF和FASTA文件格式的全基因變異信息,可以在線或離線方式向系統提交數據,極大方便了科研人員的數據共享。
該研究得到了中國科學院戰略性先導科技專項、中國科學院國際大科學計劃、國家科技攻關計劃、國家863計劃、國家自然基金項目、中科院青年創新促進會等項目基金的資助。
GVM數據庫物種變異信息統計表