北京基因組研究所(國家生物信息中心)建立人類長非編碼RNA表達數據庫
近日,由中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心開發的人類長非編碼RNA(long non-coding RNA, lncRNA)表達數據庫LncExpDB正式上線。該研究成果以“LncExpDB: an expression database of human long non-coding RNAs”為題在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。
LncRNA通過復雜多樣的分子機制發揮重要調控功能,在多個生物學過程以及疾病發生發展中均發揮重要作用。目前,人類基因組中已鑒定出十萬多個lncRNA基因,但有功能研究的僅有數千條,因此全面注釋lncRNA功能是人類基因組研究的重要內容和巨大挑戰。近年來,高通量測序技術的迅速發展促進了正常組織、疾病、胚胎發育、器官分化、病毒侵染、亞細胞區室等多種生物學場景的研究,積累了豐富的組學數據,尤其是轉錄組測序數據,為從多角度發現和研究lncRNA的生物學功能提供了重要的數據基礎與研究思路。
LncExpDB數據庫致力于提供多生物學場景的lncRNA表達譜,鑒定具有潛在功能的lncRNA,促進lncRNA的功能實驗研究。在LncBook數據庫構建的人類lncRNA數據集基礎上,研究人員整合CHESS、RefLnc、FANTOM等10余個專業數據庫鑒定的lncRNA,基于嚴格審編標準,獲得全面的高質量人類lncRNA參考數據集,包含101,293個基因/33,1244個轉錄本。LncExpDB數據庫進一步整合9種重要生物學場景(正常組織/細胞系、器官發育、植入前胚胎發育、細胞分化、亞細胞定位、外泌體、癌癥細胞系、病毒侵染、晝夜節律)的1,977個樣本的轉錄組數據,通過標準化的轉錄組數據分析流程,系統分析并鑒定每種生物學場景的特征基因(管家基因/組織特異性基因、差異表達基因、節律基因、動態表達基因、亞細胞區室富集基因)集合,共計25,191個特征lncRNA基因和28,443,865對相關的lncRNA-mRNA共表達關系。此外,LncExpDB鑒定了具有表達證據支持的92,016個lncRNA基因,評估了lncRNA的表達水平與表達潛力。
LncExpDB數據庫具備友好的檢索、瀏覽與可視化功能,方便用戶通過不同基因/轉錄本ID、基因symbol進行檢索和瀏覽,探索特定生物學場景下特征基因與共表達關系,全面比較lncRNA在不同生物學場景中的功能差異,提供FTP下載所有相關注釋信息與分析結果的開放共享功能,為非編碼RNA功能研究提供了重要數據基礎和共享平臺。
北京基因組所(國家生物信息中心)碩士研究生李昭和博士研究生劉琳為本文共同第一作者,馬利娜副研究員與章張研究員為共同通訊作者。該研究得到了中科院戰略性先導科技專項、國家重點研發計劃、中科院青促會等項目資助。
LncExpDB數據審編與分析流程