DNA甲基化是一個重要的表觀遺傳標記,在胚胎早期發育過程中起到至關重要的作用,不同物種所采用的機制亦各不相同。因而,整合多個物種的海量甲基化數據并提供在線的數據瀏覽、獲取及其功能分析,可幫助更多研究人員深入探析不同物種在早期發育時期的DNA甲基化差異,并揭示其DNA甲基化重編程過程與機制。
中科院北京基因組所基因組科學與信息重點實驗室章張研究組、劉江研究組以及所級中心信息室組成的開發團隊,在研究所高性能計算平臺和大數據存儲平臺的有力支撐下,共同開發完成“基于高通量測序的單堿基精度DNA甲基化重編程數據庫MethBank”,該成果于2014年10月在國際生物信息學領域期刊Nucleic Acids Research在線發表。
MethBank是面向多種模式生物配子和早期胚胎多個不同發育時期的DNA甲基化組重編程數據庫,整合的數據包括甲基化水平、差異甲基化區域、CpG島甲基化水平等,全部是全基因組單堿基精度的DNA甲基化數據,且集成了其它包括基因表達信息、SNP信息等在內的相關組學數據信息。此外,MethBank提供一個支持多組學數據的交互式甲基化瀏覽器,能夠高分辨度的實現DNA甲基化圖譜以及其它相關數據的可視化。
MethBank現今整合集成了斑馬魚和小鼠各自9個不同發育時期的全基因組單堿基精度DNA甲基化數據,每個時期包含全基因組約90%CG位點的甲基化信息,且對應的數據庫表存有上千萬條記錄,數據庫存儲大小分別為15G和9G。MethBank的開發建立實現了海量甲基化大數據的整合與可視化,為后續其它多個物種的大數據整合提供了流程方法和數據平臺。
該項研究得到了中國科學院、科技部和國家自然科學基金委的資助。

數據庫頁面
論文鏈接