北京基因組所國家基因組科學數據中心開發表觀組關聯分析數據庫
近日,由中國科學院北京基因組研究所國家基因組科學數據中心(以下簡稱國家中心)開發的人類表觀組關聯分析數據庫EWAS Data Hub正式上線。該項研究成果以“EWAS Data Hub: a resource of DNA methylation array data and metadata”為題在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。
近年來, 表觀組關聯分析(Epigenome-wide Association Study,EWAS)已成為探索復雜性狀表觀遺傳基礎的有效策略。隨著大量EWAS科研成果的發表,現已積累了海量表觀遺傳數據,尤其是DNA甲基化芯片數據,其海量數據的整合分析對系統研究不同實驗條件下的DNA甲基化狀態以及探索與各種性狀相關的表觀遺傳機制具有重要意義。目前,國際上存在一些數據庫來存儲DNA甲基化芯片數據,但這些數據庫缺乏有效和統一的歸一化方法來消除不同數據集之間的批次效應,可能對下游分析產生負面影響,元數據標準不統一,并且都不提供跨不同組織、性別、種族和疾病的標準化的DNA甲基化圖譜。為了解決這些問題,國家中心開發了EWAS Data Hub數據庫。
目前,EWAS Data Hub整合了來自GEO、TCGA、ArrayExpress和ENCODE數據庫的共計75,344個樣本的DNA甲基化芯片數據和對應的元數據,并采用了有效的歸一化方法來消除不同數據集的批次效應。EWAS Data Hub利用海量高質量DNA甲基化數據和標準化元數據的優勢,為485,512個探針和36,397個基因提供了一系列重要的評估值(包括組織特異性、年齡相關性、性別差異和種族特異性)和不同背景下的參考DNA甲基化圖譜,涉及81種組織/細胞類型(包含25個腦部和25種血細胞類型),67種疾病(包括39種癌癥),不同年齡、性別、種族和BMI。同時,EWAS Data Hub 還提供了高效的查詢方式。
該研究得到了國家重點研發計劃、中科院戰略先導專項、中科院國際大科學計劃和中科院十三五信息化專項等項目基金資助。