單細胞轉錄組作為單個細胞的特征,能更加精確地定義細胞的類型。常規的基于單細胞轉錄組的分類方法首先是進行無監督的聚類,然后根據每個集群(Cluster)特異表達的細胞標記基因來對集群進行標注。雖然基于無監督的分類方法更容易發現新細胞類型,但人工標注的過程費時費力。目前已有的基于監督學習的自動分類方法,大部分無法兼顧到方法的可解釋性以及新細胞類型的發現。
近日,中國科學院北京基因組研究所(國家生物信息中心)蔡軍研究組、北京師范大學張江研究組合作在Nature Machine Intelligence發表了題為An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA-sequencing data的研究成果,構建了決策過程可解釋的深度學習網絡模型,單細胞膠囊網絡(single cell Capsule Network, scCapsNet),并用于單細胞轉錄組分析。相對于其他單細胞轉錄組自動分析工具,單細胞膠囊網絡能更穩定更高效地分辨出屬于新細胞類型的細胞。并且,單細胞膠囊網絡能通過模型的內部參數找出細胞類型相關基因。通過細胞類型相關基因,單細胞膠囊網絡能將基因與細胞類型直接聯系起來,極大地提高了深度學習模型的可解釋性。本質上,單細胞膠囊網絡將基因的表達特征和細胞類型特征進行低維編碼,這樣的編碼富含生物學意義。
中國科學院北京基因組研究所蔡軍研究員與北京師范大學張江教授為本文共同通訊作者。中國科學院北京基因組研究所王力飛博士為第一作者。該研究得到科技部重點研發項目、中科院戰略先導專項、及自然科學基金委等項目的資助。

單細胞膠囊網絡的結構以及模型的可解釋性(細胞類型相關基因的發現)
論文鏈接