本发明属于临床检验诊断,涉及一种泛肿瘤和癌胚循环代谢物标志物及其应用。具体涉及一种基于代谢组学和人工智能分析技术的泛肿瘤和癌胚循环代谢物标志物及其在泛肿瘤和癌胚辅助诊断中的应用。
背景技术:
1、癌症是全球主要的死亡原因之一。尽管近年来对癌症的分子机制和临床特征有了更深入的了解,并且开发了更多的治疗手段和方法,但癌症患者的预后仍然很差。这主要是因为缺乏明显的症状和足够敏感的生物标志物,导致许多患者在被诊断时已经处于晚期,失去了手术的机会。因此,早期检测和干预是改善肿瘤患者长期结局的关键策略。目前,对组织标本进行病理检查仍然是诊断癌症的金标准。然而,这些方法过于依赖检测者的经验,并且其侵入性的检测方法限制了其在大规模人群中筛查疾病的可行性。现有的无创性肿瘤标志物,如 cea、ca19-9 等,在癌症诊断中的敏感性或特异性并不高。因此,寻找新型的肿瘤标志物显得尤为重要,以便促进早期干预和治疗,延长患者的生存期。
2、代谢组学是基因组学、转录组学和蛋白组学之后发展起来的一门学科。与其他组学不同,代谢组学是通过考察生物体系(细胞、组织或生物体)受到刺激或扰动后(如将某个特定的基因变异或环境改变后),其代谢产物的变化或其随时间的变化,来研究生物体系的一门学科。代谢组是基因组和蛋白质组的下游产物也是最终产物,是一些参与生物体新陈代谢、维持生物体正常功能和生长发育的小分子化合物的集合,主要是相对分子质量小于1000的内源性小分子。基因组的变化不一定能够得到表达,蛋白质的变化可能由于基因或其他蛋白质的功能补偿作用而使得最后反应的净结果为零。而小分子的产生和代谢才是这一系列事件的最终结果,它能够更准确地反映生物体系的状态。代谢组学对生物标志物评估具有巨大潜力,已成为系统生物学领域最常用的方法之一。
3、瓦伯格效应的发现使人们首次认识到肿瘤的代谢重编程,从而推动了对癌症的研究逐渐进入小分子代谢物领域。随着代谢组学技术的发展,体液(如血液、尿液、脑脊液、胸腹水等)、组织、细胞等生物组织已被广泛应用于各种癌症相关研究。这些研究发现了许多与癌症发生、发展、治疗、预后等密切相关的代谢特征,为癌症的预防、诊断和治疗提供了重要的信息。然而,这些研究大部分都集中于单个癌种或少量的几个癌种,与泛癌相关的研究相对较少。代谢组学在单个癌种间的广泛应用与在泛癌中的研究寥寥无几,形成了鲜明的对比。
4、人工智能是一项备受研究关注的技术,利用算法和统计模型在计算机系统上执行预测和决策任务。其中,机器学习作为人工智能的重要分支,具有高准确性、高自动化和整合电子医疗数据进行快速预测结果等特点。此外,机器学习方法还能够解决传统建模方法(如逻辑回归模型) 无法处理的高阶非线性相互作用问题。基于人工智能/机器学习的这些优势,已经开发出各种软件系统,广泛应用于生命科学的不同领域。目前,应用代谢组学技术发现生物标志物的一个瓶颈在于其检测灵敏度高且数据特征多、数据量庞大。传统主成分分析方法会为了减少特征数量而忽略许多对区分两类样本有一定影响的特征。因此,将代谢组学技术与人工智能/机器学习方法相结合,能够更加快速、精准地找到更为有效可靠的生物标志物。
技术实现思路
1、针对癌症诊断方法较为有限,且缺乏有效的液体诊断方法的现状,本发明提供了一种与泛肿瘤辅助诊断或/和癌胚相关的循环代谢物标志物及其应用。该标志物对于泛肿瘤具有较高的灵敏度和特异性,可用于泛肿瘤的辅助诊断。这对于改善癌症患者的预后,提高患者的生存率具有重要意义。
2、本发明还提供了一种泛肿瘤和癌胚循环代谢物标志物的筛选方法。通过该方法获得的标志物对于泛肿瘤具有很好的灵敏度和特异性。
3、本发明还提供了一种泛肿瘤ai诊断模型的构建方法。该模型构建方法简便,针对泛肿瘤具有较高的灵敏度和特异性,为泛肿瘤的早期诊断和及时治疗提供了有力的技术保障。
4、本发明的目的可以通过以下技术方案实现:
5、第一方面,本发明请求保护一种循环代谢物标志物,该循环代谢物标志物与泛肿瘤辅助诊断或/和癌胚相关;该循环代谢物标志物由血浆代谢标志物次黄嘌呤、丙酮酸和半胱氨酸组成。
6、第二方面,本发明请求保护上述的循环代谢物标志物或用于检测上述循环代谢物标志物的物质在以下(1)或(2)中的应用;
7、(1)制备泛肿瘤辅助诊断试剂盒;
8、(2)制备治疗泛肿瘤药物。
9、进一步优选的,所述的物质为用于检测血浆中循环代谢物标志物含量的物质。更进一步,所述的物质为检测血浆中循环代谢物标志物的气相色谱质谱联用仪所需仪器和/或试剂。
10、第三方面,本发明请求保护一种泛肿瘤辅助诊断试剂盒,该试剂盒中包含有用于检测上述循环代谢物标志物的物质。进一步,该试剂盒还包含记载有模型的载体或者负载有模型的装置。
11、第四方面,本发明请求保护一种泛肿瘤和癌胚循环代谢物标志物的筛选方法,该筛选方法包含以下步骤:
12、(1)收集临床常见的泛肿瘤患者、新生儿脐带血和健康人群的血浆样本作为分析样品;
13、(2)采用气相色谱质谱联用技术对每个分析样本进行代谢组学分析,得到各血浆样本的原始代谢指纹图谱;
14、(3)使用岛津的 gc-ms postrun analysis 软件对所有样本进行原始代谢指纹图谱处理,得到一个二维矩阵,其中每行为代谢物信息,每列为分析样本;此外,该软件还可以对矩阵中的代谢物峰进行鉴定和面积积分,获得各代谢物的半定量数据,以便进行进一步的统计分析;
15、(4)利用数据统计软件 spss 对获得的各代谢物的半定量数据进行统计分析,筛选出泛肿瘤患者与健康对照人群之间存在差异的代谢物;接着,将受试者中所检测和分析到的差异代谢物取交集,从而得到稳定且可靠的泛肿瘤血浆标志物;
16、(5)对上述稳定可靠的泛肿瘤血浆标志物进行roc分析,以筛选出对泛肿瘤诊断性能最佳的代谢物,同时对其灵敏度和特异性进行评估;
17、(6)利用数据统计软件 spss 对获得的各代谢物的半定量数据进行统计分析,筛选出新生儿脐带血与健康对照人群之间存在差异的代谢物;接着,将上述稳定可靠的泛肿瘤血浆标志物与新生儿脐带血差异代谢物取交集,从而得到稳定且可靠癌胚血浆标志物。
18、进一步,所述的临床常见的泛肿瘤为鼻咽癌、喉鳞状细胞癌、肺腺癌、肺鳞癌、小细胞肺癌、食管癌、贲门癌、胃癌、结肠癌、直肠癌、肝癌、胰腺癌、宫颈癌、子宫内膜癌、卵巢癌、乳腺癌、前列腺癌、肾透明细胞癌、膀胱尿路上皮癌和甲状腺癌。
19、研究过程中,本发明对来自两个临床中心的3376例受试者的血浆样本进行了分析。其中,临床中心 1 包括2043例受试者(1646例泛肿瘤患者、45例新生儿脐带血和 352例健康对照),临床中心 2 包括1333例受试者(1055例泛肿瘤患者和278例健康对照)。我们使用气相色谱质谱联用仪(gc-ms)获取了所有样本的代谢物半定量数据。通过统计分析临床中心1中泛肿瘤患者和健康受试者的代谢物数据,并在临床中心2受试者进行验证,我们发现了适合于泛肿瘤的循环标志物。此外,我们利用机器学习方法对检测数据进行了建模,得到了泛肿瘤诊断模型。该模型具有准确、高灵敏度和普适性等特点,具有临床应用和推广价值。
20、在本发明中,所述的肿瘤患者是指 2016-2022 年间通过组织学或细胞学确诊的新发病例,排除了曾接受过手术、化疗、放疗或其他抗癌治疗的患者。从肿瘤癌患者招募期间访问同一医院健康检查中心的健康个体中随机选择无癌症对照。新生儿脐带血收集于江苏省人民医院。
21、本发明的诊断标志物和诊断模型能够有效地检测出多种癌症,其方法简便、快捷且非侵入性,能够减轻受检者的痛苦和辐射暴露。这对于癌症患者的早期筛查、诊断和治疗以及改善患者预后、提高患者生存率具有极其重要的意义。
22、在以上的筛选方法中,使用 gc-ms 血浆代谢组学技术进行分析时,每 15 个分析样本中添加一个质量控制样品,以实时监测从样品进样预处理到分析过程中的质量控制状况。这些质量控制样品是由所有血浆样本混合而成的。
23、上述筛选方法中,所述分析样本和质量控制样品按以下方式进行预处理:
24、(1)取血浆50.0 μl,加入200.0 μl含有1, 2-13c2-肉蔻酸的甲醇溶液(5.0 μg/ml),涡旋振荡5.0 min,在4℃下以20000×g离心10.0 min;
25、(2)取100.0 μl上清液于gc进样瓶中,使用speedvac 真空浓缩仪挥干溶剂;
26、(3)将30.0 μl甲氧胺吡啶溶液(10.0 mg/ml)加入至浓缩的血浆样本,涡旋振荡5.0 min,室温静置 16.0 h 进行肟化;
27、(4)然后加入30.0 μl衍生化试剂mstfa(含1%tmcs,v/v),涡旋振荡5.0 min,室温静置 1.0 h 进行硅烷化;
28、(5)最后加入30.0 μl外标溶液(甲基肉蔻酸酯庚烷溶液,15.0 μg/ml),涡旋振荡5.0 min后即可进行gc-ms检测。
29、上述筛选方法中,对所有样本进行原始代谢指纹图谱处理是指:使用岛津的 gc-ms postrun analysis 软件读取原始代谢指纹图谱,进行包括保留时间校正、峰识别、峰匹配、峰对齐和对峰面积积分的处理操作,得到二维矩阵。
30、上述筛选方法中,对每个分析样本采用gc-ms血浆代谢组学技术进行分析时,气相色谱柱为 rtx-5ms 熔凝石英毛细管柱(0.25 mm × 30 m × 0.25 µm,restek,pa,usa)。进样量为0.5 μl,采用分流进样模式(分流比为8:1)。氦气作为载气,流速为1.5 ml/min。采用程序升温模式:初始温度为80℃保持3.0 min,然后以20℃/min的速度升至300℃,并保持5.0 min。质谱仪的离子源温度和传输管温度均为220℃,采用电子流轰击模式, 能量为 −70 ev,电流为3.2 ma。质谱系统采用全扫描方式进行数据采集(2500 hz), 扫描范围为 50~700 m/z, 每次运行时间为19.0 min。为减少系统误差,所有样本都是随机乱序进样。
31、将各色谱峰的质谱碎片、峰强度和保留时间等信息与文献和数据库(包括2017版nist标准化合物谱库和wiley 9标准化合物谱图库)所采集谱图中的化合物进行对照,还利用一些标准化合物来鉴定代谢物。对比测定化合物和对照标准化合物质谱图, 确定各色谱峰/化合物特征定量离子, 取得各色谱峰/化合物峰面积的定量数据。
32、本发明的优选方案中,共有3种代谢物在20种癌症中均表现出显著性差异,主要为次黄嘌呤、半胱氨酸和丙酮酸。
33、本发明的优选方案中,共有3种代谢物可以作为癌胚的代谢标志物,主要为次黄嘌呤、半胱氨酸和丙酮酸。
34、本发明的优选方案中,次黄嘌呤在20种癌症中均表现出非常好的诊断性能(auc≥0.89,灵敏度≥0.79,特异性≥0.78)。
35、第五方面,本发明请求保护一种泛肿瘤ai诊断模型的构建方法,该方法包含以下步骤:
36、(1)以在泛肿瘤患者和健康人中含量变化趋势一致的三种代谢物次黄嘌呤、丙酮酸和半胱氨酸为预测因子,使用机器学习随机森林算法构建分类模型;
37、(2)使用准确度、特异性、召回率、阳性预测值、阴性预测值、f1 分数和kappa 系数等评估ai预测模型的预测性能。
38、本发明的优选方案中,最终用于构建ai分类模型的3种血浆代谢物为:次黄嘌呤、半胱氨酸和丙酮酸。
39、本发明的优选方案中,所构建的ai分类模型在20种癌症中均展现出了极为出色的预测性能。具体而言,其auc高于0.96,准确度高于0.95,特异性高于0.91,灵敏度高于0.96,阳性预测值大于 0.92,阴性预测值大于 0.96,f1 分数高于 0.95,以及 kappa 系数大于0.93。这些数据充分证明了该模型在多种癌症中具有稳定的预测效果和较高的准确性。
40、此外,本发明所构建的ai模型在外部验证集的5种癌症中仍展现出了极为出色的预测性能。具体而言,其auc高于0.91,准确度高于0.94,特异性高于0.84,灵敏度高于0.94,阳性预测值大于 0.84,阴性预测值大于 0.94,f1 分数高于 0.91,以及 kappa 系数大于0.92。这些数据充分证明了该模型在癌症中具有稳定的预测效果和较高的准确性。
41、本发明所述的室温为25±10℃。
42、本发明的有益效果:通过运用血浆代谢组学技术和人工智能数据分析技术,确定适用于泛肿瘤的循环代谢标志物。本发明的代谢标志物筛选方法操作性强,模型构建方法简便,所获得的诊断模型效果优秀,灵敏度高,特异性优良,适用于泛肿瘤的早期辅助诊断。本发明只需通过取血检测即可完成诊断,无需额外的组织样本采集,也无需 ct 影像学数据辅助判断,极大地降低了创伤和辐射风险。本发明能够有效替代现有的组织活检和影像学诊断方式,且诊断过程简洁迅速,有利于泛肿瘤的早期发现和及时治疗,具有很高的临床应用和推广价值。
1.一种循环代谢物标志物,其特征在于:该循环代谢物标志物与泛肿瘤辅助诊断或/和癌胚相关;该循环代谢物标志物由血浆代谢标志物次黄嘌呤、丙酮酸和半胱氨酸组成。
2.权利要求1所述的循环代谢物标志物或用于检测权利要求1所述循环代谢物标志物的物质在(1)或(2)中的应用;
3.根据权利要求2所述的应用,其特征在于:所述的物质为用于检测血浆中循环代谢物标志物含量的物质。
4.根据权利要求 3所述的应用,其特征在于:所述的物质为检测血浆中循环代谢物标志物的气相色谱质谱联用仪所需仪器和/或试剂。
5.一种泛肿瘤辅助诊断试剂盒,其特征在于,该试剂盒中包含有用于检测权利要求1中所述循环代谢物标志物的物质。
6.根据权利要求5所述的泛肿瘤辅助诊断试剂盒,其特征在于,该试剂盒还包含记载有模型的载体或者负载有模型的装置。
7.一种泛肿瘤和癌胚循环代谢物标志物的筛选方法,其特征在于,该筛选方法包含以下步骤:
8.根据权利要求7所述的泛肿瘤和癌胚循环代谢物标志物的筛选方法,其特征在于,所述的临床常见的泛肿瘤为鼻咽癌、喉鳞状细胞癌、肺腺癌、肺鳞癌、小细胞肺癌、食管癌、贲门癌、胃癌、结肠癌、直肠癌、肝癌、胰腺癌、宫颈癌、子宫内膜癌、卵巢癌、乳腺癌、前列腺癌、肾透明细胞癌、膀胱尿路上皮癌和甲状腺癌。
9.一种泛肿瘤ai诊断模型的构建方法,其特征在于:该方法包含以下步骤: