基因組所開發國際首個基于Spark的大數據系統發育建樹工具CloudPhylo----中國科學院北京基因組研究所(國家生物信息中心)

<ruby id="n5jn1"></ruby>

新聞動態

·圖片新聞

·綜合新聞

學術活動

·第四屆基因組醫學前沿與健康普惠論壇 [12.04]
·第五屆國際生命與健康大數據論壇成功舉行 [10.30]
·北京生科院11月8日第166期精品講座 [10.31]
·學術報告--RNA interference in replication and qui... [10.08]
·北京生科院7月4日第165期精品講座 [07.01]

研究生信息

您現在的位置：首頁 > 新聞動態 > 科研進展

基因組所開發國際首個基于Spark的大數據系統發育建樹工具CloudPhylo

2016-10-31 | 作者：生命與健康大數據中心徐行健【關閉】

　　構建系統發育樹是分子進化研究中分析物種間進化關系的基礎步驟與重要環節。隨著生物大數據時代的到來，傳統的建樹工具在使用大數據集構建系統發育樹時需要消耗更多的計算資源且運行時間超長，使得科研工作者無法快速高效地進行分子進化分析。為此，生命與健康大數據中心（BIG Data Center；http://bigd.big.ac.cn）利用Spark云計算技術，于近期開發了一款適用于大數據集的系統發育樹構建工具——CloudPhylo。Spark是一種新的分布式云計算框架，它實現了MapReduce分布式并行算法。基于Spark框架的程序在運算過程中可高效地將中間輸出結果保存在內存中，大大降低了因為頻繁讀寫文件造成的損耗。因此，與傳統的Hadoop框架相比，Spark能更好地應用于需要反復迭代的大數據分析任務。

　　CloudPhylo是目前國際上首款針對大數據集開發的系統發育建樹工具，同時也是國內首個使用Spark云計算技術開發的生物信息學分析軟件。在應用于模擬和真實的大數據集構建系統發育樹時，CloudPhylo均表現出了比傳統建樹軟件更高的運行效率和更大的并行加速比（圖1）。

　　該工具已經部署在BIGD云平臺Qomo（https://cloud.big.ac.cn/users/bigd/tools/clouldphylo）上，無須本地安裝，用戶可在線提交數據并進行分析。同時本項工作的相關具體內容已經發表在Bioinformatics雜志中（http://bioinformatics.oxfordjournals.org/content/early/2016/10/14/bioinformatics.btw645）。

該項研究工作獲得了國家高技術研究發展計劃（2014AA021503和2015AA020108）和中國科學院國際合作局國際大科學計劃（153F11KYSB2016008）等基金資助。

　　論文鏈接：http://bioinformatics.oxfordjournals.org/content/early/2016/10/14/bioinformatics.btw645

　　圖1 CloudPhylo在不同條件下的并行加速比

<ruby id="n5jn1"></ruby>

国产黄在线播放免费观看