导读
癌症的早期发现可提高接受手术等有效治疗的可能性,增加患者的生存机会,降低死亡率。当前,液体活检越来越多地用于非侵入性癌症检测、预后和治疗监测研究。例如,使用循环肿瘤DNA(ctDNA)进行早期检测的方法可反映肿瘤特征,这些特征可以与癌症的病因和类型联系起来,例如点突变、拷贝数改变等。
突变事件在个体体细胞的一生中都在进行。内源性过程(如衰老)和外源性暴露(如吸烟)都会导致体细胞基因组中的不同突变。由于细胞分裂时会释放出游离的DNA片段(cfDNA)进入循环系统,因此cfDNA可能反映体细胞组织的突变特征。
传统上,从癌症组织全基因组测序(WGS)中提取体细胞突变特征,然后对匹配的肿瘤和正常样本进行中等深度的突变检测。但在低覆盖率的WGS数据中,体细胞和胚系突变很可能仅通过等位基因片段无法区分,这就使得那些基于每个位点等位基因片段的突变检测方法无效。
近日,美国MSK癌症中心研究团队在Nature Communications发表了题为“Genome-wide mutational signatures in lowcoverage whole genome sequencing of cellfree DNA”的文章。研究团队开发了一种名为Pointy的方法,该方法可以从低覆盖度的血浆WGS数据中分析全基因组突变特征。同时,研究团队还基于Pointy分析了单碱基替换(SBS)特征提取和机器学习相结合的特征分析和样本分类。总的来说,Pointy方法能够识别癌症个体血浆中的突变特征,使早期癌症检测以及癌症风险和病因的评估成为可能。
文章发表在Nature Communications
首先,为了克服从低覆盖度基因组数据中检测突变困难的难题,研究人员开发了一种特殊的分析流程Pointy。为了检测其性能,研究团队分析了一组4期结直肠癌(CRC)患者来源的数据,这些患者大多存在错配修复缺陷(MMR-D)和微卫星不稳定性(MSI)。在获得血浆WGS数据后,经过严格的质控,并利用Pointy对其突变特征进行表征。总的来说,患者突变特征整体符合该类疾病的突变谱。其中,在CRC样本中,Pointy检测到的贡献最大突变特征是SBS1和SBS54。与健康个体相比,CRC患者血浆中多个SBS特征的贡献明显更大,包括SBS1和SBS21,后者也与先前在这些患者中检测到的微卫星不稳定性(MSI)一致。
考虑到衰老和MSI在该CRC队列中的作用,研究人员还分析了衰老和MSI特征,包括突变特征SBS1、SBS5、SBS20和SBS21。在CRC患者的血浆中,衰老和MSI信号的贡献显著更高,并且多重衰老和MSI相关特征与ctDNA分数和TMB呈显著正相关。
图1. 结直肠癌患者突变特征分析,来源:Nature Communications
研究团队利用SBS突变谱区分了癌症和健康样本。为了使信噪比最大化,研究人员去除了单核苷酸多态性(SNP)。SBS突变特征被用于机器学习分类。主成分分析(PCA)结果显示,癌症患者和健康对照的区分基于两个主要成分PC1和PC2(特别是PC2),并且PC1和PC2均与ctDNA分数显著相关。进一步评估PC1和PC2的SBS特征贡献,结果显示SBS8是PC2的最大贡献成分。
为了区分癌症或健康样本,研究人员使用SBS突变作为机器学习模型的输入,发现在模型中加入ctDNA片段信息可将随机森林模型的AUC提高至1.00。
图2. 结直肠癌的检测和分类,来源:Nature Communications
考虑到Pointy数据中衰老特征的富集,研究团队还探索了健康个体中其与实际年龄的关系。基于159个健康个体的血浆数据(年龄范围为49-75岁,中位年龄为54岁),发现突变特征SBS1和SBS5均与生物年龄呈显著正相关。
图3. 健康个体衰老特征的分析,来源:Nature Communications
为了将Pointy应用于所有癌症类型,研究人员使用去除SNP的SBS突变特征进行癌症检测和分类,ctDNA信息也纳入到每个模型。结果表明,对于所有癌症类型和分期的总体检测AUC为0.96;在所有分期中,非小细胞肺癌的AUC值为0.99,乳腺癌0.99,CRC为0.98,胃癌为0.92,卵巢癌为1.00,胰腺癌为0.88,表明Pointy对不同癌症类型、各分期患者检出率均较高。
图4. Pointy对不同癌症类型的检测,来源:Nature Communications
研究团队利用开发的新型分析流程Pointy在两个独立的数据集中发现了低覆盖率血浆WGS的突变特征,并且揭示了血浆中外源性和内源性突变过程,包括衰老和MSI标记等。此外,研究人员在健康个体的血浆中发现了与年龄相关的突变特征,这与此前在人类组织中的发现一致,并展示了使用这些标记进行癌症检测的敏感性和特异性。
图5. 研究概括图,来源:Nature Communications
虽然受到技术和生物噪音的影响,但这一低覆盖率血浆WGS的检测方法为cfDNA中的突变特征及其在肿瘤学中的潜在用途提供了一个深入的见解。未来更深入的测序将使人们能够更详细地探索相关标记物的特征,这些特征可能在癌症发展之前和过程中发挥作用。另外,利用集成机器学习方法,将突变特征与其他参数(如cfDNA片段模式)结合起来,检测灵敏度可能会进一步提高。
Wan, J.C.M., Stephens, D., Luo, L. et al. Genome-wide mutational signatures in low-coverage whole genome sequencing of cell-free DNA. Nat Commun 13, 4953 (2022).
声明:本文来源测序中国,仅为交流学习。内容仅代表作者个人观点,望大家理性判断及应用。