一、中心成立及定位
中國科學院北京基因組研究所于2016年2月29日成立生命與健康大數據中心,是研究所三大科研體系之一。中心面向我國人口健康和社會可持續發展的重大戰略需求,圍繞國家精準醫學和重要戰略生物資源的組學數據,建立海量生物組學大數據匯交、存儲與管理的應用與共享平臺,發展組學大數據系統整合、挖掘與分析的新技術、新方法。2019年6月5日,由科技部、財政部批復,“國家基因組科學數據中心”依托中國科學院北京基因組研究所生命與健康大數據中心,聯合中國科學院上海生命科學研究院和中國科學院生物物理研究所共同建設。

定位與目標
二、中心運行機制與組成
中心主任:鮑一明研究員
中心常務副主任:章張研究員
中心副主任:趙文明高級工程師
工作團隊:組學原始數據歸檔庫、基因組數據序列庫、基因組變異數據庫、基因表達數據庫、表觀基因組數據庫、生命科學維基知識庫、中國人群參比數據庫、電子健康管理系統和系統運維部等九個工作團隊

組織與結構

大數據中心集體照
三、年度主要科研進展
1. 進一步完善國內從數據匯交存儲、整合挖掘到轉化應用的數據庫體系
國家基因組科學數據中心自2019年6月正式成立以來,在依托單位中科院北京基因組研究所,和共建單位中科院生物物理所和上海營養健康所前期數據資源建設基礎之上,從數據、信息、知識三個層次,系統推進面向人口健康和重要戰略生物資源的生物大數據匯交共享平臺和多層次資源體系建設。2019年,國家基因組科學數據中心發布了基因組變異與表型關聯、微生物分類與基因組資源、表觀組關聯分析、特色物種多維組學信息資源等8個新開發數據庫,系統更新了原始測序數據歸檔庫GSA、基因組歸檔數據庫GWH、基因組變異數據庫GVM、非編碼RNA等15個資源庫,并對云分析等4個網絡服務工具進行了更新優化。
國家基因組科學數據中心免費向國內外用戶提供方便快捷的多組學數據匯交和存儲服務,目前,已匯交來自269個單位720個用戶遞交的超過1.4PB的組學數據,相關數據發表于144種國內外期刊的237篇文章。GSA已被國際著名出版商Elsevier收錄為指定的基因數據歸檔庫。此外,通過跨庫檢索形式,中心還整合了13家國內合作科研機構的25個專業特色數據庫,極大豐富了數據資源類型。

國家基因組科學數據中心核心數據資源 (Nucleic Acids Res, 2019)
2. 開發基因組變異與表型關聯知識庫:GWAS Atlas
全基因組關聯分析(GWAS)在全基因組范圍內篩選出與表型性狀等相關聯的遺傳位點,是挖掘生物復雜性狀遺傳基礎的關鍵技術。隨著測序技術和分析算法的快速發展,越來越多GWAS研究工作被成功開展,并已解析了與許多動植物復雜性狀相關聯的遺傳位點。但這些知識信息都分散在不同文獻中,不利于知識整合、挖掘與再利用。本研究通過關鍵詞檢索、人工審編、詞條比對注釋等技術手段,結構化整理了現有主要農作物和畜牧動物的基因型-表型關聯知識,開發了世界上首個動植物基因組變異-表型關聯知識庫GWAS Atlas。
GWAS Atlas知識庫整合了9個物種(包括棉花、梅花、玉米、油菜籽、水稻、高粱、大豆等7種植物和山羊、豬等兩種動物)與614個性狀關聯的75467條基因型-表型(G2P)信息,并通過語義比對等映射到五個不同的性狀本體上(植物性狀本體PTO,家畜性狀本體ATOL,作物本體CO等),方便用戶通過基于本體的層級結構來查找感興趣的性狀及對應的G2P關聯信息。此外,研究人員還分析并定義了與多個性狀相關聯的多效基因及遺傳位點,支持用戶通過不同模塊在線瀏覽、檢索與下載。
GWAS Atlas 是全基因組變異信息數據庫(Genome Variation Map,GVM)的延伸,將為未來重要農藝性狀的模塊化遺傳研究和育種應用提供重要資源和平臺。該項研究成果以“GWAS Atlas: a curated resource of genome-wide variant-trait associations in plants and animals”為題在國際學術期刊Nucleic Acids Research在線發表。

GWAS Atlas主頁
3. 表觀關聯分析數據庫系統構建
近年來,表觀關聯分析(EWAS)已成為探索復雜性狀表觀遺傳基礎的有效策略。DNA甲基化芯片數據和元數據的全面整合對于系統地表征和研究不同實驗條件下的甲基化狀態以及探索與各種性狀相關的表觀遺傳機制具有根本意義。中心開發了針對EWAS的人工審編知識庫EWAS Atlas,以及針對EWAS的DNA甲基化芯片數據存儲和分析的數據庫EWAS Data Hub,構建了較為完整的表觀遺傳數據庫系統。
EWAS Atlas是一個完全基于人工審編和文獻挖掘的知識庫。當前版本的EWAS Atlas主要關注DNA甲基化這一重要的表觀修飾,EWAS Atlas一共整合了618篇文獻中1,038個研究報道的472,268個高質量的甲基化與表型關聯。這些關聯一共涉及到140個組織/細胞,2,786個隊列以及419種表型本體。此外,EWAS Atlas還配備了功能強大的表型富集工具,用于研究表型與表型、表型與表觀變異的關系。
EWAS Data Hub整合了來自NCBI、TCGA、EBI和ENCODE的75,344個樣本的DNA甲基化芯片數據和對應的元信息,并采用了有效的歸一化方法來消除不同數據集之間的批次效應。EWAS Data Hub為485,512探針和36,397基因,提供了一系列相關的評估值(包括組織特異性,年齡相關性,性別差異和種族特異性)和不同背景下的參考DNA甲基化圖譜,涉及81種組織/細胞類型(包含25個腦部和25種血細胞類型),67種疾病(包括39種癌癥),年齡,性別,種族和BMI。
表觀遺傳數據庫系統的構建對于系統地表征和研究不同實驗條件下的甲基化狀態以及探索與各種性狀相關的表觀遺傳機制具有根本性意義。

表觀遺傳數據庫系統
4. 建立原核生物防御系統基因數據庫
原核生物防御系統基因數據庫(Prokaryotic Antiviral Defense System, PADS),收集、整合分析6,600,264個防御系統相關基因,這些基因來自古細菌和細菌的33,390個物種的63,701個基因組,分屬于18個不同的防御系統(圖1A)。PADS整合了防御基因注釋和演化分析功能,同時還通過泛基因組學分析,將防御基因動態變化信息可視化展示。在瀏覽模塊中,所有完成圖基因組通過不同的分類學層次可視化展示。在搜索模塊中,用戶可以通過四種搜索方法查詢所需信息,主要包括防御系統類別、防御系統子類型和基因名等。在分析模塊中,PADS集成一套防御系統基因在線交互注釋分析流程,綜合序列同源性搜索、多序列比對、系統發育分析等功能。另外,基因保守度是理解防御系統機制的重要特征。為可視化防御系統相關基因跨物種的動態變化,PADS還集成了基因存在缺失變異(Presence–Absence Variation,PAV)分析功能。在PAV分析中,用戶可以選擇一個感興趣的物種來查看PAV分析結果(圖1B)。同時,用戶也可以基于泛基因組分析結果,選擇一個防御系統來查看防御系統相關基因在物種水平上的動態變化。PADS是一個開放的防御系統基因綜合性數據庫,可以有效促進原核生物防御系統研究并為分子工具開發提供參考信息。

原核生物防御系統基因數據庫(A)數據庫首頁信息 (B)PAV分析熱圖
5. 研發家犬多組學綜合性數據庫系統:iDOG
中心與昆明動物研究所合作,通過整合挖掘公共數據和自產數據,形成集基因組、變異組、表觀組、轉錄組等多組學為一體的綜合性組學數據資源庫。該項研究成果以“iDog:an integrated resource for domestic dogs and wild animals”為題在國際學術期刊Nucleic Acids Research在線發表。iDog是第一個致力于家犬(Canis lupus familiaris)和野生犬科動物的綜合性數據資源庫,為全世界從事犬科研究的科研人員提供各種數據服務和在線分析工具,同時也為全世界的養狗愛好者提供家犬品種、疾病等信息查詢平臺。

家犬多組學數據資源構成
6. 研發生物進化與多組學綜合分析軟件云平臺:eGPSCloud
中心與中國科學院計算生物學重點實驗室、北京生命科學研究院等多家單位組成聯合攻關團隊,合作開發的生物進化與多組學綜合分析軟件eGPS 1.0正式在線發布。該項研究成果以“EGPS 1.0: Comprehensive software for multi-omic and evolutionary analyses”為題于2019年6月18日在線發表于National Science Review。eGPS1.0收集了生物進化與多組學分析領域的主要軟件與可視化工具,為全世界從事生物進化與多組學分析的科研人員提供免費的分析平臺。
eGPS軟件包括單機軟件版本eGPS Desktop和云計算eGPS Cloud,將基因組分析、群體數據分析、進化數據分析、網絡分析以及圖形可視化這五部分的分析有機整合起來,實現遠程云計算功能,方便用戶在缺乏計算資源的情況下快速獲得運算結果,并最終以圖形、圖表等形式直觀展示。在eGPS Cloud和其他開放式在線資源的支持下,eGPS Desktop提供了一鍵點擊從候選基因到基因樹的分析流程。egps結合了云計算和桌面應用的優勢,具有用戶友好的圖形界面和高度的交互能。

(A) eGPS Cloud網頁界面,共包括15個軟件以及20個可視化工具。(B) eGPS Desktop軟件界面,共包括3大類16個功能模塊,并且支持第三方插件
7. 成功舉辦第四屆國際生命與健康大數據論壇
10月13日至16日,第四屆國際生命與健康大數據論壇(The 4th Big Data Forum for Life and Health Sciences)在中國科學院北京基因組研究所成功召開。本次論壇依托中國科學院“國際健康大數據共享計劃”,由北京基因組所國家基因組科學數據中心和中國遺傳學會聯合主辦,共有來自國內外數十家單位的200余名代表參加了會議。
與會專家學者圍繞生命與健康大數據開放共享、精準醫學數據分析與應用、海量生物組學數據存儲匯交與分析應用體系、表觀遺傳與生物多樣性等主題進行了學術交流與討論。國家基因組科學數據中心主任鮑一明研究員介紹了中心的成立過程、當前數據庫資源和今后發展方向,以及2018年牽頭成立的國際生物多樣性與健康大數據聯盟(BHBD)情況,得到參會人員的廣泛關注和充分肯定。

第四屆國際生命與健康大數據論壇
8. 建成國內領先的組學大數據存儲與計算中心
隨著二代測序技術在基因組研究中的廣泛應用,基因組、轉錄組、表觀組等組學數據以井噴之勢爆發,生命科學研究已經進入組學大數據時代。生命與健康大數據中心,在科學院以及大型儀器設備區域共享中心(以下簡稱“區域中心”)的支持下,不斷提高和完善所內的計算能力,已具有1Gbps總網絡帶寬,230萬億次/秒的聚合計算能力,配備6.5PB高性能存儲系統,累計為中科院內外16家生命科研單位,87個科研機構的提供科學計算服務,平均每天活躍用戶超過500人。中心用于組學數據匯交的存儲系統總容量超過4PB,已建設6PB數據歸檔備份系統,按分級存儲、安全可用的原則,通過持續提升基礎設施支撐能力,實現海量組學大數據的高效管理。

中心服務器運算和存儲能力增長趨勢圖
四、獲獎及榮譽
職工
鮑一明研究員被評為2019年度北京基因組研究所身邊的榜樣
章張研究員入選第四批國家“萬人計劃”青年拔尖人才
李茹姣高級工程師入選2019年度中國科學院關鍵技術人才
馬利娜副研究員入選中科院2019年度“青年創新促進會會員”
組學原始數據歸檔庫(GSA)案例被評為“2018年度中國科學院信息化優秀案例”
章張研究員被評為2018年度北京基因組研究所身邊的榜樣
章張研究員獲得2018年中科院BHPB導師獎
郝麗麗副研究員入選中科院2018年度“青年創新促進會會員”
杜政霖高級工程師入選中科院2018年度“關鍵技術人才”
中心榮獲2017-2018年度中央和國家機關青年文明號
趙文明高級工程師被評為2017年度北京基因組研究所身邊的榜樣
宋述慧副研究員入選中科院2017年度“青年創新促進會會員”
趙文明高級工程師入選中國科學院2015年度“關鍵技術人才”
學生
王佩獲得2019年研究生國家獎學金
李兆華獲得2019年研究生國家獎學金
李萌偉獲得2019年研究生國家獎學金
杜強獲得2019年中科院大學生獎學金
張源笙獲得2019年中國科學院大學三好學生
時碩獲得2019年中國科學院大學三好學生
王佩獲得2019年中國科學院大學三好學生
李兆華獲得2019年中國科學院大學三好學生
李兆華獲得2019年優秀團員
曹佳寶獲得2018年研究生國家獎學金
桑健獲得2018年研究生國家獎學金
桑健獲得2018年BHPB獎學金
呂洪義獲得2017年研究生國家獎學金
徐行健獲得2017年地奧獎學金
盛欣獲得2016年研究生國家獎學金