國家基因組科學數據中心
一、中心成立及定位
國家基因組科學數據中心(National Genomics Data Center,簡稱NGDC)于2019年6月經科技部、財政部通知公布,由中國科學院北京基因組研究所(國家生物信息中心)作為依托單位,聯合中國科學院生物物理研究所和中國科學院上海營養與健康研究所共同建設。中心面向我國人口健康和社會可持續發展的重大戰略需求,建立生命與健康大數據匯交存儲、安全管理、開放共享與整合挖掘研究體系,研發大數據前沿交叉與轉化應用的新方法和新技術,建設支撐我國生命科學發展、國際領先的基因組科學數據中心。
定位與目標
二、中心運行機制與組成
中心主任:鮑一明研究員
中心副主任:章張研究員, 趙文明正高級工程師
工作團隊:組學原始數據歸檔庫、基因組數據庫、基因組變異數據庫、基因表達數據庫、表觀基因組數據庫、非編碼RNA數據庫、精準醫學知識庫、生物信息工具庫和系統運維部等。
國家基因組科學數據中心集體照
三、年度主要科研進展
1.多組學數據資源體系建設持續取得重要進展
2022年,NGDC持續更新和完善核心數據庫資源(GSA、GWH、GVM、GEN、MethBank、LncBook、RCoV19等),并開發了多個全新數據庫,進一步拓展了涵蓋基礎組學、國家人類遺傳、重要戰略生物、病毒等資源信息庫以及生物信息在線分析工具等在內的多組學數據資源體系。NGDC提供一站式數據遞交和中英文服務,發布的數據編號被全球主要出版集團認可。截至2022年12月底,組學原始數據管理體系(GSA Family)已支持各類科技項目10,900多個,匯交數據量超19PB,相關數據已發表在475種國內外期刊的2000多篇文章,為國家基因組科學數據的匯交共享、安全管理和挖掘利用提供了重要支撐。數據庫建設整體情況以“Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2023”為題在Nucleic Acids Research 在線發表。
國家基因組科學數據中心多組學數據資源體系
2.國家人類遺傳資源信息管理備份平臺完成升級和開通運行
人類遺傳資源信息是指利用人類遺傳資源材料產生的數據等信息資料,是國家重要戰略生物資源。受科技部委托,NGDC承擔國家人類遺傳資源信息管理備份任務,于2022年7月18日完成升級和開通運行人類遺傳資源信息管理備份一體化平臺。該平臺充分利用NGDC的生物信息數據資源架構和體系,整合了人類遺傳資源組學原始數據歸檔庫(GSA-Human)、基因組數據庫(GWH)、基因組變異數據庫(GVM)和多元數據歸檔庫(OMIX),實現人類遺傳資源信息管理、備份、發布與共享,為科學研究、政府決策和產業應用提供一體化服務。
人類遺傳資源信息管理備份平臺
3.組學原始數據歸檔庫GSA實現與NCBI SRA數據庫的數據整合
2022年5月,在國際核酸序列數據庫聯盟(INSDC)的支持和美國國家生物信息技術中心(NCBI)的技術協助下,NGDC完成NCBI生物項目管理數據庫(BioProject)、生物樣本管理數據庫(BioSample)全部數據及序列片段歸檔庫(Sequence Read Archive,SRA)全部元數據與自主開發數據庫的整合,實現了上述數據在NGDC網站的一站式檢索與訪問,極大提升了國內科研人員查詢和獲取數據的效率。
GSA整合國際來源數據
4.2019新冠病毒信息庫(RCoV19)持續升級更新
RCoV19于2022年1月22日發布更新版,新增新冠病毒基因組結構及注釋、新冠病毒宿主分布、重要突變功能知識、新冠感染基因表達研究專題、主要株系序列變異比較、核酸引物區突變監測和Omicron變異株監測7個功能模塊,提供了新冠病毒基因組結構功能的最新認知,以及當前主要流行株系的突變比較及時空監測。截至2022年12月20日,已收錄新冠病毒序列超1400萬條,為全球181個國家/地區240多萬名訪客提供數據服務,累計數據下載達100多億條,在病毒演化分析、監測、溯源等方面發揮了重要作用,入選2022年世界互聯網領先科技成果手冊。
此外,NGDC與中科院上海營養健康所合作開發了新冠病毒基因組瀏覽器(Coronavirus GenBrowser,GCB)。基于分布式基因組序列比對,CGB采用自主開發的超快構樹新方法進行進化樹構建,并基于超快速極大似然法估算內節點時間,解決了快速構建百萬病毒基因組序列的進化關系與可視化展示的關鍵問題。該成果以 “Coronavirus GenBrowser for monitoring the transmission and evolution of SARS-CoV-2”為題于2022年1月在Briefings in Bioinformatics 在線發表。
RCoV19持續升級更新
5.發布猴痘病毒信息庫MPoXVR
為支撐猴痘病毒相關研究,NGDC于2022年6月10日正式發布猴痘病毒信息庫(Monkeypox Virus Resource,MPoxVR)。該庫整合了美國NCBI公開發布的全球猴痘病毒基因組序列數據和元信息,并對不同猴痘病毒株的基因組序列做了變異分析與展示,同時提供基因組注釋、基因組變異分析和注釋、BLAST等在線分析工具,以及相關的SRA測序原始數據、學術文獻、科普文章和其他猴痘資源數據庫。截至2022年12月底,已收錄來自全球42個國家和地區的猴痘病毒基因組序列4000多條。該成果以 “MPoxVR–A comprehensive genomic resource for monkeypox virus variants surveillance”為題于2022年8月在The Innovation 在線發表。
猴痘病毒信息庫頁面
6.開發原核生物泛基因組數據庫ProPan
相比于傳統的比較基因組學分析,泛基因組學為開展物種基因組動力學、分類及鑒定、致病性和環境適應等研究提供了新的視角。為此,NGDC開發了原核生物泛基因組數據庫ProPan,旨在提供多物種的基因組動力學特征,為物種關鍵抗性和代謝相關基因鑒定及其演化規律研究提供重要的數據資源。ProPan不僅剖析了多個原核生物物種的基因組動力學特征,還進行了基因簇核苷酸多樣性計算、COG功能富集分析、31個關鍵代謝循環過程及圖譜構建、126種物質(包括殺菌劑、抗菌藥物和金屬)抗性基因預測和基因存在/缺失變異分析等。目前,ProPan共收集了432個屬1504個物種的51,882個基因組。用戶可以以物種作為基本單元,進行數據的瀏覽、搜索和下載。該成果以“ProPan: a comprehensive database for profiling prokaryotic pan-genome dynamics”為題在Nucleic Acid Research 在線發表。
ProPan數據庫瀏覽、搜索及分析展示
7.開發全轉錄組關聯研究知識庫TWAS Atlas
全轉錄組關聯研究(TWAS)技術的興起為探索人類復雜性狀或疾病相關的關鍵基因提供了有效手段。為此,NGDC開發了TWAS Atlas知識庫系統,為基因-性狀關聯知識的創建和挖掘提供重要參考。目前,TWAS Atlas共整合200篇TWAS研究的分析數據,通過人工審編獲得401,266條高質量的人類基因-性狀關聯條目,涉及257種性狀、22,247個基因及135種組織類型,并同步收集了研究相關元數據和注釋信息。此外,數據庫從頭構建了一個綜合性的交互式SNP-基因-性狀關聯知識圖譜,實現了多疾病、多組織、多組學層次關聯調控關系的在線解析和可視化。該成果以“TWAS Atlas: a curated knowledgebase of transcriptome-wide association studies”為題在Nucleic Acid Research 在線發表。
TWAS Atlas關聯知識圖譜分析示例
8.發布細胞分類庫Cell Taxonomy
隨著單細胞技術的迅速發展和應用,越來越多的細胞類型和細胞多態性被發現。準確的細胞分類對于描繪細胞類型多樣性、追蹤細胞譜系、表征腫瘤微環境以及闡明發育和疾病復雜機制至關重要。為此,NGDC發布了細胞分類庫Cell Taxonomy,旨在提供多物種的細胞特征刻畫和細胞標志物(cell marker)評估,為細胞類型注釋和單細胞相關研究提供重要數據資源。Cell Taxonomy基于4299篇文獻審編、15個相關數據資源整合和單細胞測序數據分析(約350萬個細胞),目前共收錄3143種細胞類型和26,613個細胞標志物(cell marker),涵蓋34個物種、387種組織和257種生理/病理狀態。該成果以“Cell Taxonomy: a curated repository of cell types with multifaceted characterization”為題在國際學術期刊 Nucleic Acids Research 在線發表。
細胞分類庫主要內容
9.開發同源基因數據庫HGD
同源基因是指來源于共同祖先的基因,常用于研究基因進化過程以及推斷基因的潛在功能,在進化基因組研究以及系統生物學的功能研究中具有重要價值。為此,NGDC開發了同源基因數據庫(Homologous Gene Database,HGD)。HGD整合國際上多個同源資源數據集,解決了當前同源資源庫在同源關系和同源基因標識方面存在差異、同源推斷方法多樣以及部分數據庫同源基因鑒定結果不一致帶來的困擾,提供了一個綜合、全面、簡單、直觀的同源基因數據集。目前,HGD收集了人、常見動植物以及微生物等37個物種共計112,383,644個同源對,用戶可通過物種名、基因ID、基因功能、蛋白ID、蛋白名以及相關注釋等多種條件進行數據檢索和篩選。該成果以“HGD: an integrated homologous gene database across multiple species”為題在Nucleic Acids Research 在線發表。
同源基因數據庫頁面
10.發布人類癌癥可變剪接知識庫ASCancer Atlas
可變剪接(alternative splicing)是指從一個mRNA前體中通過不同的剪接方式(選擇不同的剪接位點組合)產生不同的mRNA剪接異構體的過程。研究表明,可變剪接異常與腫瘤的發生、發展以及耐藥性密切相關。為此,NGDC開發了ASCancer Atlas知識庫,為研究人員提供較為完善的人類癌癥可變剪接信息資源。 ASCancer Atlas主要收集兩類癌癥相關剪接事件:實驗驗證的剪接事件和計算方法推斷的剪接事件。首先,基于610篇已公開發表的文獻,人工審編了2006條實驗驗證的癌癥特異性剪接事件,共涉及29個人類癌癥原發性位點及60種癌癥亞型。此外,還整合了約200萬個計算推斷的剪接事件,涵蓋33種TCGA癌癥類型以及31種GTEx正常組織類型。最后,數據庫還提供了一系列可視化和在線分析工具用于進一步探索這些剪接事件的潛在調控機制、臨床相關性以及衍生的藥物反應。該成果以“ASCancer Atlas: a comprehensive knowledgebase of alternative splicing in human cancers”為題在Nucleic Acids Research 在線發表。
ASCancer Atlas內容概覽
11.升級發布動植物基因組變異與表型關聯知識庫GWAS Atlas v2.0
基因組序列變異與表型關聯知識,主要是通過全基因組關聯分析(GWAS),在全基因組范圍內鑒定與特定疾病或表型性狀等相關聯的遺傳變異位點,是挖掘和揭示生物復雜性狀分子遺傳機制的重要資源。GWAS Atlas v2.0基于830篇科研文獻,提供了15個物種(包括10種植物和5種動物)及與其1444個性狀相關聯的278,109條基因型與表型關聯知識,鑒定到與439個性狀相關的6084個獨立變異位點(Lead SNPs),并新收錄157個性狀的486個經實驗驗證的因果變異(Casual variants),為重要農藝性狀的模塊化遺傳研究和育種應用提供了重要數據管理和分析平臺。該成果以“GWAS Atlas: an updated knowledgebase integrating more curated associations in plants and animals”為題在Nucleic Acid Research 在線發表。
GWAS Atlas 2.0數據更新情況
12.發布DNA甲基化數據庫第四版MethBank 4.0
MethBank是一個綜合性的DNA甲基化數據庫,自2014年上線以來,一直致力于整合多物種高質量的全基因組單堿基精度DNA甲基化數據。2022年MethBank升級發布了第四版。MethBank 4.0應用標準化處理流程整合了來自1449個樣本的高質量全基因組重亞硫酸鹽測序(WGBS)數據,涵蓋23個物種的236個組織/細胞系,涉及疾病、發育等15個生物學場景。MethBank 4.0具備界面友好的瀏覽、檢索、可視化等功能,提供DNA甲基化數據信息、知識信息和分析工具,為科研人員探索多種生物學場景下的DNA甲基化模式提供重要數據和信息資源。該成果以“MethBank 4.0: an updated database of DNA methylation across a variety of species”為題在Nucleic Acids Research 在線發表。
MethBank 4.0頁面
13.發布更新版人類長非編碼RNA數據庫LncBook 2.0
長非編碼RNA(long non-coding RNA, lncRNA)是哺乳動物基因組中的重要組成部分,參與DNA甲基化、組蛋白修飾、轉錄調控、轉錄后調控等多個生物學過程,與人類疾病的產生和發展密切相關。NGDC于2019年首次發布了LncBook數據庫,致力于人類lncRNA數據整合,并通過多組學數據分析對lncRNA進行系統注釋。2022年LncBook進行了升級更新,收錄了119,722個新的轉錄本,注釋了9632個新的基因,更新了21,305個lncRNA基因的結構。豐富的多組學數據是LncBook2.0的一大亮點,包括保守性、表達、DNA甲基化、變異、小蛋白、相互作用六個方面。該成果以“LncBook 2.0: integrating human long non-coding RNAs with multi-omics annotations”為題在Nucleic Acids Research 在線發表。
LncBook 2.0內容與功能概覽
四、獲獎與榮譽
新冠病毒變異監測與分子溯源研究團隊獲中國科學院第三屆“科苑名匠”稱號;
新冠病毒信息庫(RCoV19)入選2022年世界互聯網領先科技成果手冊
唐碧霞,2022年度中科院技術支撐人才;
降帥,2022年度中科院青促會會員;
熊壯、劉曉楠、王國梁,2022年度研究生國家獎學金;
滕徐菲、熊壯,2022年度中科院院長優秀獎;
張韜,2022年度中科院朱李月華優秀博士生獎。