北京基因組所開發長非編碼RNA數據庫LncBook
近日,由基因組所開發的人類長非編碼RNA(long non-coding RNA, lncRNA)數據庫LncBook正式上線。該項研究成果以“LncBook: a curated knowledgebase of human long non-coding RNAs”為題在國際學術期刊Nucleic Acids Research在線發表。
近年來,有關lncRNA的研究一直是國際熱點,研究表明,lncRNA在多種生物過程中發揮了重要作用并與疾病的發生密切相關,但lncRNA的注釋信息及質量仍遠遠落后于蛋白編碼基因。LncBook數據庫不僅提供了豐富的高質量人類lncRNA數據集,還進行了大規模的多組學數據分析,以及系統的功能與疾病注釋,為功能實驗研究及生物信息學分析提供了大量可用信息與數據。
基于嚴格的審編標準,LncBook整合已有lncRNA數據并鑒定新的lncRNA,共獲得270,044個lncRNA轉錄本。在此基礎上,LncBook在lncRNA表達、甲基化、變異、miRNA-lncRNA相互作用這些多組學層面進行大規模深層次的數據分析。在表達層面,繪制lncRNA在32或者53種正常人類組織中的表達圖譜,并鑒定出49,115個高度組織特異(tissue-specific)和819個持家(housekeeping) lncRNA;在甲基化層面,構建lncRNA在9種癌癥中正常與癌癥狀態下的promoter及body區的甲基化圖譜;在變異層面,基于dbSNP數據庫SNP位點注釋lncRNA區域92,725,757個SNP最小等位頻率(基于千人基因組數據)、ClinVar與COSMIC疾病關聯信息;預測了128,392,451個lncRNA-miRNA的相互作用條目。上述的結果以圖或表的形式展示在LncBook數據庫中,相關信息均可免費下載。基于以上數據,LncBook還預測了97,998個潛在的疾病關聯lncRNA。此外,在LncRNAWiki的基礎上LncBook對1,867個文獻報道lncRNA進行了系統的功能與疾病信息注釋。
LncBook作為重要的lncRNA資源庫,提供了目前為止數據量最為豐富的人類lncRNA數據。作為LncRNAWiki數據庫的補充,LncBook具備友好的查詢、瀏覽與可視化功能。用戶可通過ID/symbol、功能、疾病名稱等檢索lncRNA信息,瀏覽指定lncRNA的多組學信息,并通過ftp下載所有相關注釋信息與分析結果。此外,LncBook還提供了可用于lncRNA序列比對、分類、編碼能力預測等研究的工具,方便在線分析。
該研究與沙特阿卜杜拉國王科技大學(King Abdullah University of Science & Technology,KAUST)Vladimir Bajic教授合作開展。研究得到了中國科學院戰略性先導科技專項、中國科學院國際伙伴計劃、中國科學院“十三五”信息化專項等基金資助。