基因組所設計開發檢測基因CUB的新算法——CDC(Codon Deviation Coefficient)
近日,中國科學院北京基因組研究所基因組科學與信息重點實驗室章張研究員,帶領其團隊成功開發檢測密碼子使用偏好(Codon Usage Bias,CUB)的新算法:密碼子偏差系數模型(Codon Deviation Coefficient,CDC),該研究成果發表在《BMC Bioinformatics》雜志。
此項工作原創性地將概率論中的交、并、補操作應用到組分分析,用GC含量(S)和嘌呤含量(R)來表示四個核苷酸組分,并在此基礎上推導出密碼子和氨基酸的組分,從而設計出基于S和R的組分模型,應用該模型考察基因的CUB(Codon Usage Bias;密碼子使用偏好),進而提出了檢測基因CUB的新算法CDC(Codon Deviation Coefficient,密碼子偏差系數)。不同于現有的相關算法(例如:CAI、ENC等),CDC通過GC含量和嘌呤含量考慮了不同序列的背景組分特異性,獨創性的運用自展重抽樣法(Bootstrap Resampling)檢測CUB的顯著性,且不需要高表達基因作為先驗信息。經驗證,CDC在模擬數據中優于現有的多個相關算法,在真實數據中CDC與基因表達含量的關聯系數(Correlation Coefficient)高于其它算法,并且在大腸桿菌中發現CUB的顯著性與基因功能有著緊密聯系。
該項成果的發布,使科研工作者能更準確快速的分析研究CUB,進而更深入的學習在自然選擇壓力下的基因突變、基因表達,蛋白質功能等的進化。
文章鏈接:http://www.biomedcentral.com/1471-2105/13/43/abstract
附件下載: