该研究首先通过分析TCGA数据库中大规模的癌症转录组数据,鉴定出了在癌症中剪接异常的外显子,发现了癌症中剪接异常的外显子长度均偏向于更短,并且这些短外显子在癌症中更倾向于被跳跃。该研究共鉴定出了494个癌症相关的短外显子(cancer-associated short exons, CASE)并进行了进一步的深入研究。研究人员利用CASE的剪接开发了一个用于癌症预测的随机森林模型,可以对癌症样本进行准确的预测,AUC可达到0.9左右。此外,该研究还提出了一种利用CASE剪接计算risk factor的方法来预测癌症病人的预后,在TCGA数据集及其他独立癌症数据集中均具有很好的预测结果。
在机制的研究上,该研究提出了两种影响CASE剪接的机制。首先,由于癌症中癌细胞快速地生长增殖需要更快的转录过程,所以癌症中异常的转录可能会对剪接产生影响。研究人员通过对具有不同转录延伸速度的细胞系中可变剪接的分析发现短的外显子对速度的变化更为敏感,更容易受到转录速度变化的扰动而发生外显子的跳跃。转录对剪接的影响是广泛的无选择性的,该研究进一步发现特定的短外显子在癌症中发生跳跃是受到剪接因子的调控。通过分析ENCODE数据库中大量RNA结合蛋白(RBP)的相关组学数据,研究人员建立了RBP对CASE剪接的直接调控网络,并鉴定出了多个调控CASE剪接的RBP,包括RBFOX2,AQR,U2AF2和PTBP1等。
中国科学院上海营养与健康研究所王泽峰研究员和大连医科大学肿瘤干细胞研究院汪洋教授为文章的共同通讯作者,张思蕊博士为文章的第一作者。该项工作得到了科技部国家重点研发计划、国家自然科学基金等科研项目经费的支持。
图注:A.基于TCGA数据库中18种癌症鉴定癌症相关的剪接事件流程。B.所有人类外显子和每种癌症类型中异常剪接外显子的长度分布图。C.利用剪接建立随机森林模型在每种癌症类型中的AUC值。D.基于CASE评估的风险因子进行分组的癌症患者的Kaplan-Meier曲线。