新抗原是肿瘤特异性免疫治疗的理想靶点,但精准预测极具挑战。现有计算模型多仅关注肽-MHC 结合亲和力,忽略抗原加工、T 细胞识别等免疫原性关键因素,预测准确性不足;且大多基于肿瘤组织数据,缺乏液体活检适配性,验证也多依赖虚拟分析而非严格实验。同时,传统编码与机器学习方法难以捕捉序列复杂模式,制约个性化免疫治疗与无创肿瘤监测的临床转化,亟需更精准、可落地的新抗原预测工具。本研究旨在构建高精度、经严格实验验证、适配无创检测的新抗原预测体系。
客户文章 研究成果展示
▶ 发表时间:2026年2月
▶ 期刊:Frontiers in Immunology(Front Immunol, IF=5.9)
▶ 文章标题:CNNeoPP: a large language model-enhanced deep learning pipeline for personalized neoantigen prediction and liquid biopsy applications
▶ 核心内容:
本研究开发了AI + 深度学习新抗原预测模型 CNNeoPP,经独立数据集、ELISpot 实验、cfDNA 液体活检验证,其预测性能显著优于现有工具,50 个候选新抗原经过ELISpot 细胞实验验证,其中有58%的新抗原肽段具免疫原性,该体系的建设为个性化肿瘤免疫治疗与无创监测提供了高效的新工具。百蓁生物(Baizhen Biotechnologies)为本研究提供了ELISpot细胞实验检测与分析服务。


1、研究方法

一、 数据收集与特征评估 本研究构建了包含1498 条验证肽段的训练集与153 条肽段的独立验证集。免疫原性肽段以9 聚体为主,氨基酸组成具有明显偏好:P2–P4 位富集 E/D 负电残基,P1 位富集 K/R 正电残基。对 11 个免疫原性相关特征分析显示,7 个特征存在组间显著差异,且特征间相关性低。随机森林分析确定TAP 转运效率、NetCTLpan 评分、肽‑MHC 结合亲和力为预测免疫原性的三大关键特征。 图1. 训练数据集肽段特征解析及特征重要性 二、CNNeo模型的开发与性能优势 本研究通过多模型训练与筛选,最终构建的CNNeo 集成模型在独立测试集上取得了AUC=0.81的优异性能,在多个排名阈值下,全面优于 Seq2Neo-CNN、Immuno-GNN、DeepImmuno-CNN、INeo-Epp 这 4 种现有主流新抗原预测工具,充分验证了其在新抗原免疫原性预测上的高精度与可靠性。 图2. CNNeo 的模型架构与性能评估 三、CNNeoPP管道的整体验证 CNNeo被整合进一个完整的计算管道 CNNeoPP,用于从肿瘤组织(DNA-seq + RNA-seq)和PBMC数据中发现新抗原。 在TESLA独立数据集上,CNNeoPP在Top 50预测中成功识别出8个免疫原性肽段(共34个真实阳性),表现优于其他管道。 四、实验验证(T细胞ELISpot) 在乳腺癌和肺癌患者样本中,50个预测肽段中有29个(58%)表现出免疫原性,其中 48% 为弱阳性、10% 为强阳性。CNNeoPP 专属预测肽的免疫原性更优,弱阳性率达 59.3%,强阳性率达 11.1%,优于与其他模型重叠的肽段。 图3. CNNeoPP 的 T 细胞实验验证 五、cfDNA(液体活检)概念验证 通过构建15%肿瘤含量的模拟cfDNA样本,验证了CNNeoPP在液体活检中的可行性。结果显示,测序深度从 200× 提升至 1000×,SNV 与新抗原检出率提升 14%,真实新抗原匹配度提升 21%;实体模拟 cfDNA 样本的新抗原匹配率(38%)显著优于计算机模拟样本(16%)。证实提高测序深度可弥补 cfDNA 肿瘤信号弱的局限,CNNeoPP 的优先级策略能进一步放大检出效果,为无创新抗原监测提供可行方案。 图4. 基于 cfDNA 的新抗原预测概念验证 本研究开发了基于深度学习的新抗原预测模型CNNeo及其整合管道CNNeoPP。通过结合大语言模型序列编码与多模态免疫原性特征,经 TESLA 数据集、IFN-γ ELISpot 实验多维度验证,性能全面优于现有工具,58% 预测新抗原具 T 细胞免疫原性。同时证实提高测序深度可提升 cfDNA 新抗原检出率,为液体活检应用提供支撑。2、研究结果




3、研究结论

