北京基因組所(國家生物信息中心)發布更新版表觀基因組關聯研究開放平臺EWAS Open Platform
近日,由中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心(NGDC)開發的表觀基因組關聯研究資源開放平臺EWAS Open Platform正式上線。該研究成果以“EWAS Open Platform: integrated data, knowledge and toolkit for epigenome-wide association study”為題在國際學術期刊Nucleic Acids Research 在線發表。
隨著表觀基因組關聯研究(EWAS)的爆炸式增長,發表了大量EWAS學術論文,積累了海量EWAS相關的數據。對這些數據進行標準化整合,并從已發表論文中提取和挖掘表觀關聯知識,對于系統的表征和研究不同實驗條件下的甲基化狀態、探索與各種性狀相關的表觀遺傳分子機制具有重要意義。NGDC在2019年和2020年先后開發了基于高質量的人工審編EWAS知識庫(EWAS Atlas)和存儲了海量標準化的DNA甲基化芯片數據的EWAS數據庫(EWAS Data Hub),得到了業內的廣泛使用和國際同行的高度評價。
為了提供從數據瀏覽與下載、在線分析與可視化到知識解釋與驗證的全面系統的資源和服務,NGDC研究團隊在不斷整合和更新中心已有EWAS資源基礎上,構建了表觀組關聯研究資源開放平臺(EWAS Open Platform)。EWAS Open Platform包括標準化的數據信息庫 (EWAS Data Hub)、人工信息提取的知識庫(EWAS Atlas)和表觀-特征關聯在線工具(EWAS Toolkit) 三部分。EWAS Data Hub整合了115,852個樣本的DNA甲基化芯片數據和對應的元數據,并統一采用GMQN方法進行標準化。同時,EWAS Data Hub利用海量高質量DNA甲基化芯片數據和標準化元數據的優勢,為485,512個探針和36,397個基因提供了一系列重要的評估值(包括組織特異性、年齡相關性、性別差異和種族特異性)和不同背景下的參考DNA甲基化圖譜;EWAS Atlas共整合了910篇文獻中報道的617,018個高質量的甲基化與表型關聯,涉及到618種表型和3,385個隊列;EWAS Toolkit利用EWAS Atlas和EWAS Data Hub提供的高質量的甲基化與表型關聯知識和標準化的DNA甲基化芯片數據,為用戶提供多種在線分析和可視化工具,包括富集分析、注釋、知識圖譜可視化等。
北京基因組所(國家生物信息中心)博士研究生熊壯、楊飛以及博士畢業生李萌偉為本文共同第一作者,鮑一明研究員、章張研究員及李茹姣高級工程師為共同通訊作者。該研究得到了中科院戰略性先導科技專項、國家重點研發計劃、中科院關鍵技術人才等項目資助。
EWAS Open Platform數據處理流程示意圖