该论文提出了一种名为scDeal的深度转移学习框架✿✿◈,用于通过整合大规模的批量细胞系数据来预测单细胞水平的抗癌药物反应✿✿◈。
越来越多的单细胞RNA测序数据帮助研究癌细胞亚群药物反应的异质性✿✿◈,为提高治疗效果提供了见解✿✿◈。研究开发了深度迁移学习框架scDEAL✿✿◈,通过整合大规模批量细胞系数据✿✿◈,用于在单细胞水平上预测癌症药物反应✿✿◈。
今天小编为大家带来一篇发表在16分+ nc期刊的思路✿✿◈。题目为 Deep transfer learning of cancer drug responses by integrating bulk and single-cell RNA-seq data ✿✿◈。 研究开发scDEAL的创新点涉及将与药物相关的批量RNA-seq数据与scRNA-seq数据协调✿✿◈,并转移在批量RNA-seq数据上训练模型✿✿◈,以预测scRNA-seq中的药物反应✿✿◈。scDEAL的另一个特点是集成梯度特征解释✿✿◈,以推断耐药机制的标志性基因✿✿◈。研究在六个scRNA-seq数据集上对scDEAL进行了基准测试✿✿◈,并通过三个案例研究证明了其模型可解释性✿✿◈,重点是药物反应标签预测✿✿◈,基因标记识别和伪时间分析✿✿◈。scDEAL可以帮助研究细胞重编程✿✿◈,药物选择和再利用以提高治疗效果✿✿◈。
该论文使用了来自公开的GDSC数据库的药物反应注释数据✿✿◈,包括最大抑制浓度的一半(IC50)和剂量反应曲线下的面积(AUC)✿✿◈。也可以在GDSC上访问细胞系的基因表达数据(RMA标准化基础表达谱)✿✿◈。此外✿✿◈,作者还收集了CCLE细胞系表达谱和PRISM细胞系活力测定✿✿◈。
该论文提出了一种名为scDeal的深度转移学习框架✿✿◈,用于通过整合大规模的批量细胞系数据来预测单细胞水平的抗癌药物反应✿✿◈。作者在6个 scRna-seq 数据集上对scDeal进行了基准测试✿✿◈,这些数据集带有经过实验验证的药物反应标签✿✿◈。研究设计涉及开发计算方法✿✿◈,以预测和解释从临床样本中收集的单细胞数据中的抗癌药物反应✿✿◈。拟议的框架包括将与药物相关的批量RNA-seq数据与scRNA-seq数据进行协调✿✿◈,并传输根据批量RNA-seq数据训练的模型以预测scrna-seq中的药物反应✿✿◈。作者还引入了其他采样方法✿✿◈,以平衡敏感细胞系和耐药细胞系的比例✿✿◈,以在批量水平上训练预测模型✿✿◈。该论文使用了来自公开的GDSC数据库的药物反应注释数据以及来自GDSC和CCLE数据库的细胞系的基因表达数据✿✿◈。
首先✿✿◈,scDEAL在批量水平上对基因表达特征和药物反应之间的关系进行建模✿✿◈,其中细胞系的注释可用✿✿◈。 然后凯发,凯发k8,K8✿✿◈。✿✿◈,识别单像元和批量数据之间的共享低维特征空间✿✿◈,以协调两种数据类型之间的关系✿✿◈。 体水平上的基因表达-药物反应关系通过共享的低维特征空间捕获✿✿◈。 训练DTL模型来学习上述两种关系的优化解✿✿◈。 最后✿✿◈,可以通过单细胞水平基因表达✿✿◈、体积水平基因表达和DTL模型中药物反应的元关系来构建单细胞-药物应答关系✿✿◈。 总体而言✿✿◈,scDEAL推断单个细胞的药物反应✿✿◈,而无需在单细胞水平上进行监督训练(图1a)✿✿◈。
scDEAL的训练由一个源模型组成✿✿◈,用于仅使用批量数据确定体积水平特征减少和药物反应预测的初始参数✿✿◈,以及一个包含scRNA-seq数据并部署转移学习策略的靶向模型✿✿◈,以训练和更新单细胞药物反应预测的整个框架✿✿◈。训练两个去噪自动编码器(DAE)分别从批量和scRNA-seq数据中提取低维基因特征✿✿◈。训练减少了解码器输出和表达谱之间的重建损失✿✿◈,使低维特征具有足够的信息来表示原始基因表达✿✿◈。初步训练用于在 DTL 模型中生成初始神经元权重✿✿◈。一个完全连接的预测器附加到经过训练的批量特征提取器✿✿◈,用于预测批量水平的药物反应戶田惠梨香✿✿◈。 最后✿✿◈,DTL 模型以多任务学习方式同时更新两个 DAE 模型和预测变量模型✿✿◈。具体来说✿✿◈,第一个任务是最小化来自两个提取器的基因特征之间的差异(即平均最大差异损失)✿✿◈,桥接批量和scRNA-seq数据之间的通信✿✿◈。第二个任务是通过交叉熵损失最小化预测结果与数据库提供的药物反应之间的差异✿✿◈。我们预计该框架将得到更新✿✿◈,以协调批量表达数据和scRNA-seq数据✿✿◈,并将可信的基因 - 药物关系从批量水平转移到单细胞水平✿✿◈。scDEAL的输出是单个细胞预测的潜在药物反应✿✿◈。 模型训练中的关键挑战之一是在协调scRNA-seq数据与批量数据时保持单细胞异质性✿✿◈。应用了两种策略✿✿◈。首先✿✿◈,由于体积RNA-seq和scRNA-seq数据中的噪声特征非常不同✿✿◈,我们使用DAE模型✿✿◈,而不是常见的自动编码器或变分自动编码器✿✿◈,在特征减少之前诱导批量噪声以及scRNA-seq✿✿◈。通过这种方式✿✿◈,我们可以避免不平衡训练的风险✿✿◈,这种训练只会迫使scRNA-seq数据中的基因表达接近批量RNA-seq数据✿✿◈。其次✿✿◈,我们整合了细胞聚类结果✿✿◈,以规范scDEAL的整体损失函数✿✿◈,以便在训练过程中保留细胞异质性✿✿◈。
研究评估了由五种药物(即顺铂✿✿◈、吉非替尼凯发k8官方旗舰厅✿✿◈,✿✿◈、I-BET-762✿✿◈、多西他赛和埃罗替尼)处理的六个公共scRNA-seq数据集上的药物反应预测性能✿✿◈。所有数据集都提供了单个细胞的地面真实药物反应注释(即药物敏感或耐药)✿✿◈。真实标签是从原始手稿中提取的二元指标(0 表示抵抗✿✿◈,1 表示敏感)✿✿◈。大多数研究根据治疗条件确定对整个细胞群的药物反应✿✿◈,例如✿✿◈,二甲基亚砜(DMSO)处理的细胞都是敏感的✿✿◈,治疗后存活的细胞都是耐药的✿✿◈。与真实标签相比✿✿◈,scDEAL预测使用七个指标进行评估✿✿◈:F1分数✿✿◈,接收器工作特征下面积(AUROC)✿✿◈,AP分数✿✿◈,精度✿✿◈,召回率✿✿◈,调整后互信息(AMI)和调整后兰德指数(ARI)✿✿◈。我们展示了基于scDEAL中优化的超参数在六个数据集(图2a)上的F1分数✿✿◈,AUROC和AP分数的结果✿✿◈,而其余分数可以在源数据1中找到✿✿◈。六个数据集的平均得分分别为 0.892(F1 分数)✿✿◈、0.898(AUROC)✿✿◈、0.944(AP 分数)✿✿◈、0.926(精度)✿✿◈、0.899(召回率)✿✿◈、0.528(AMI)和 0.608(ARI)✿✿◈。为了更好地可视化预测结果✿✿◈,我们为每个数据集生成了UMAP并按预测细胞簇✿✿◈,真实单细胞药物反应✿✿◈,scDEAL预测的药物反应(二进制标签以及连续概率)对其进行着色✿✿◈,并生成桑基图以观察真实和预测标签之间的差异✿✿◈。我们观察到✿✿◈,大多数细胞的预测药物反应标签与基本事实非常一致✿✿◈,并显示出明显的细胞簇差异✿✿◈。体积水平的预测结果也显示出良好的性能✿✿◈,表明该模型在转移到分析scRNA-seq数据之前已经过良好的训练✿✿◈。
如上所述✿✿◈,scDEAL在所有六个数据集中在单细胞药物反应预测方面取得了相当高的性能✿✿◈。此外✿✿◈,为了阐明scDEAL框架设计的基本原理✿✿◈,我们替换或删除了scDEAL中的特定组件✿✿◈,并将结果与最终框架的结果进行了比较✿✿◈。最终的scDEAL框架将得到全面验证✿✿◈,如果它能超越所有替代模型戶田惠梨香✿✿◈。
首先凯发K8官方网站✿✿◈。✿✿◈,通过仅在批量数据上训练模型✿✿◈,然后直接将其用于scRNA-seq数据预测而不进行步骤3(迁移学习)来进行比较测试✿✿◈。对于每个数据凯发k8国际✿✿◈,重复实验50次(n = 50)✿✿◈。请注意✿✿◈,如果使用相同的种子进行相同的数据训练✿✿◈,scDEAL 的结果是完全可重现的✿✿◈。所有六个数据集的结果表明凯发k8国际✿✿◈,与不使用转移策略相比凯发K8✿✿◈,✿✿◈,使用转移策略时的F1分数显着增加(图2b)✿✿◈。平均而言✿✿◈,与没有迁移学习的模型相比✿✿◈,scDEAL的F1分数提高了19%✿✿◈。我们的比较表明✿✿◈,迁移学习有助于单细胞药物反应预测的性能改进✿✿◈。
其次✿✿◈,为了评估转移模型的训练能力是否依赖于批量资源✿✿◈,我们使用仅来自GDSC数据库✿✿◈,仅CCLE数据库以及GDSC和CCLE数据库的组合的批量数据对scDEAL进行了基准测试✿✿◈。我们的结果表明✿✿◈,结合GDSC和CCLE数据库的批量数据可以显着提高预测能力(图2c)✿✿◈。平均而言✿✿◈,与仅使用GDSC或CCLE数据库的结果相比戶田惠梨香✿✿◈,两个数据库的整合分别使F1分数提高了130%和69%✿✿◈。
第三✿✿◈,我们验证了使用DAE和细胞类型正则化是否有助于减少单细胞异质性的损失并提高预测性能✿✿◈。我们比较了使用通用自动编码器进行批量和scRNA-seq数据特征提取的框架的结果✿✿◈,使用DAE但未按细胞类型正则化的框架✿✿◈,以及最终的scDEAL框架(包括DAE以及细胞类型正则化)✿✿◈。对于所有六个数据集✿✿◈,在框架中使用DAE和细胞类型正则化比其他两个选项获得了更好的性能(图2d)✿✿◈。平均而言✿✿◈,与仅使用 AE 或 DAE 数据库的结果相比✿✿◈,使用 DAE 和细胞类型正则化显示 F1 评分分别提高了 36% 和 9%✿✿◈。为了进一步阐明添加细胞类型正则化如何更好地保持scRNA-seq数据的异质性✿✿◈,我们展示了具有细胞簇和药物反应注释的细胞✿✿◈,这些细胞使用来自scDEAL的潜在表示✿✿◈,有和没有细胞类型正则子(图2e)✿✿◈。UMAP结果表明凯发k8国际✿✿◈,在应用细胞类型正则子后✿✿◈,细胞在簇内变得更加有序和紧凑✿✿◈。
此外✿✿◈,为了验证基因表达与药物反应之间的关系是否已成功学习并转移到单细胞水平✿✿◈,我们计算了积分梯度(IG)评分✿✿◈,以反映每个基因对最终药物反应标签预测的潜在贡献(补充图)✿✿◈。S5 和方法)✿✿◈。传统的DEG分析可能导致与细胞类型相关的偏倚结果✿✿◈,而不是药物反应;因此✿✿◈,我们使用敏感细胞和耐药细胞之间的差异IG评分来表示对药物反应至关重要的基因✿✿◈。IG 分数基于神经网络中神经元梯度的积累✿✿◈,遵循层连接的路径✿✿◈。对药物敏感标记具有较高IG评分的基因表明该基因与药物敏感性更相关✿✿◈,并且对将样品分类为药物敏感性的贡献更大✿✿◈。类似的规则也适用于抗性标签✿✿◈。通过比较在大细胞和单细胞水平上有助于药物反应标记的基因数量✿✿◈,我们发现✿✿◈,平均而言✿✿◈,46%的基因在两种数据类型中被证明是重叠的✿✿◈,有助于药物敏感性✿✿◈,而53%的基因被证明与耐药性重叠✿✿◈。结果表明✿✿◈,可以在体细胞和单细胞水平上推断出各种基因 - 药物关系✿✿◈。最后✿✿◈,我们展示了网格参数调整结果✿✿◈,包括6个超参数的480种组合(例如✿✿◈,批量抽样方法✿✿◈,预测因子维度✿✿◈,学习率✿✿◈,单单元编码器维度✿✿◈,dropout和瓶颈维度)✿✿◈。总体而言✿✿◈,我们的结果表明✿✿◈,单个参数选择对scDEAL性能没有显着影响✿✿◈。四个数据集凯发天生赢家一触即发✿✿◈,✿✿◈,即数据 1✿✿◈、2✿✿◈、4 和 5✿✿◈,在所有参数组合上都比数据 3 和 6 更可靠✿✿◈。scDEAL的性能和鲁棒性可能与参数组合有关✿✿◈,但不是以敏感的方式✿✿◈。对于任何新数据集✿✿◈,我们建议调整批量采样方法和瓶颈维度✿✿◈,因为我们发现在实现最佳预测性能时✿✿◈,这两个参数在六个数据集中差异很大✿✿◈。为了评估scDEAL的稳健性✿✿◈,我们对六个数据集进行了随机分层抽样测试(n = 20)(图2f)✿✿◈。F1 分数✿✿◈、AUROC凯发k8国际✿✿◈、AP 分数✿✿◈、精度✿✿◈、召回率✿✿◈、AMI 和 ARI 的变化分别为 0.031✿✿◈、0.046✿✿◈、0.027✿✿◈、0.029✿✿◈、0.031✿✿◈、0.156 和 0.198凯发k8国际✿✿◈,表明 scDEAL 在多次随机抽样运行中具有鲁棒性✿✿◈。
研究展示了scDEAL对数据(GSE110894)的分析能力✿✿◈,包括用BET抑制剂(I-BET)处理的1419个混合谱系白血病-AF9(MA9) 白血病细胞(图3a)✿✿◈。包括四种治疗条件✿✿◈,包括两种敏感状态(DMSO和I-BET 400 nM)和两种耐药状态(IBET耐药和IBET抗撤回)✿✿◈。 据观察✿✿◈,与原始研究相比凯发k8国际✿✿◈,scDEAL一致地预测白血病细胞药物反应戶田惠梨香✿✿◈。我们发现scDEAL中97.1%的预测耐药细胞和95.8%的预测药物敏感细胞与原始标记匹配戶田惠梨香✿✿◈。此外凯发k8国际✿✿◈,scDEAL提供了两种类型的药物反应预测评分✿✿◈,即连续概率评分和二元敏感/耐药标签✿✿◈。细胞中较高的连续评分反映了细胞对药物敏感的可能性越高✿✿◈。通过将连续概率评分在 0-0.5 之间的细胞计数为抗性细胞和将 0.5-1 的细胞计数为敏感细胞来确定✿✿◈。
接下来✿✿◈,我们引入基因评分✿✿◈,以反映在敏感(或抗性)细胞簇中鉴定的差异表达基因的整体基因表达水平✿✿◈。分数背后的假设是✿✿◈,准确的预测为细胞分配了正确的响应标签✿✿◈。因此✿✿◈,为了准确预测✿✿◈,抗性和敏感性状态之间的DEG的基因评分应与从地面事实得出的DEG相关✿✿◈。此外✿✿◈,我们的DEG显示出基因评分模式✿✿◈,可以比使用真实标记识别的DEG更好地分离抗性和敏感性细胞(图3b)✿✿◈。对于敏感的 DEG 列表✿✿◈,预测的 DEG 分数与地面真实 DEG 分数之间的相关性高达 R 2= 0.90✿✿◈,对于抗性 DEG 列表凯发官方网站✿✿◈。✿✿◈,R2= 0.77(图 3c )✿✿◈。我们进行了经验零模型检验来评估相关性的显著性✿✿◈。我们随机选择与我们预测的DEG相同数量的基因✿✿◈,并计算上述1000次相关性✿✿◈。我们的实证检验(n = 1000)结果显示✿✿◈,对烦恼敏感和抵抗DEG评分相关性的p值低于0.001✿✿◈,表明我们的相关性是显着的✿✿◈,具有统计学意义(图.3d)✿✿◈。
尽管scDEAL为单细胞药物反应提供了准确的预测✿✿◈,但理解模型中的活性遗传特征至关重要✿✿◈。我们在数据1中对顺铂治疗的口腔鳞状细胞癌(OSCC)进行了scDEAL分析 ✿✿◈。顺铂通过与DNA上的嘌呤碱基相互作用✿✿◈,通过产生DNA交联来发挥其抗癌活性✿✿◈,干扰DNA复制并引起额外的有害DNA双链断裂✿✿◈,如果不修复✿✿◈,可导致癌细胞 凋亡✿✿◈。因此✿✿◈,任何可以增强DNA修复或/和抑制细胞凋亡的因素都能够使癌细胞对顺铂治疗产生耐药性✿✿◈。使用scDEAL✿✿◈,85%的细胞被正确预测为对顺铂敏感或耐药✿✿◈,F1评分为0.92✿✿◈,AUROC为0.92✿✿◈,AP评分为0.97(图4a)✿✿◈。调整p值0.05✿✿◈、对数倍变化0.1和任一对照组中细胞百分比高于0.2的基因被定义为影响药物反应的关键基因(CGs)✿✿◈。我们在HN120P(敏感细胞组)中鉴定了936个药物敏感性CG✿✿◈,在HN120PCR(顺铂治疗超过四个月后的耐药细胞组)中发现了868个耐药CG✿✿◈,IG评分存在显着差异(图4b)✿✿◈。我们观察到几种预测最高的耐药CG✿✿◈,例如BCL2A1 和DKK1 ✿✿◈,具有抗凋亡活性(图4c)✿✿◈。这些基因的过表达已被证明可以介导对顺铂的耐药性✿✿◈。
对868个耐药CG的基因肿瘤学(GO)通路富集分析进一步揭示✿✿◈,HN120PCR细胞中预测的顺铂耐药CGs在“DNA修复”中显着富集(Benjamini调整p值= 0.039)戶田惠梨香✿✿◈,这是顺铂耐药相关的主要生物过程之一✿✿◈。在HN120PCR细胞耐药CG列表中的26个DNA修复相关基因中✿✿◈,我们发现其中8个是RAD51✿✿◈,EXO1✿✿◈,FANCL✿✿◈,MSH3✿✿◈,RIF1✿✿◈,USP28✿✿◈,FANCG和POLH的有力文献证据✿✿◈。这些基因对于用于处理顺铂诱导的DNA损伤的DNA修复途径至关重要✿✿◈,包括链间交联和DNA双链断裂✿✿◈,以及用于绕过顺铂诱导的DNA损伤以促进癌细胞存活的DNA损伤耐受途径✿✿◈。另一方面✿✿◈,另一种显着富集的GO途径“细胞分裂”(Benjamini调整p值= 0.003)包含参与细胞周期检查点的多个基因✿✿◈,例如CCNF✿✿◈,BUB1B✿✿◈,BUB1和CDC25C✿✿◈。活化的细胞周期检查点可以保护细胞免受顺铂诱导的细胞死亡✿✿◈,并在顺铂耐药性中起关键作用✿✿◈。此外✿✿◈,还从耐药的CG中鉴定出一些与顺铂耐药相关的途径戶田惠梨香✿✿◈,例如“细胞死亡的负调节”✿✿◈,“对缺氧的反应”和“有丝分裂细胞周期检查点”✿✿◈,进一步验证了我们的scDEAL能够识别对药物反应很重要的基因凯发k8国际✿✿◈。
我们将Monocle3应用于数据6(用I-BET处理)的轨迹推断✿✿◈,以验证我们预测的药物反应是否与药物治疗的进展相关✿✿◈。基于基因表达的伪时间分析显示了从DMSO样品到1000ml I-BET处理样品的轨迹趋势(图5a)✿✿◈。当将伪时间结果与相同扩散UMAP上的药物反应(连续概率评分)进行比较时✿✿◈,我们观察到DMSO对照对处理样品的抗性增加(图5b)✿✿◈。这些结果表明✿✿◈,在高剂量药物后测序的剩余活细胞表现出显着的药物耐受性✿✿◈,这也与实验药物反应标签(地面真实标签)非常吻合✿✿◈。除了预测和轨迹拓扑之间的一致性外✿✿◈,我们还进一步解释了scDEAL中确定的CG的阻力发展趋势✿✿◈。我们展示了两个具有代表性的I-BET抗性CG的表达值✿✿◈,即Eid2和Galnt17(图5c)凯发k8✿✿◈,✿✿◈,以及两个代表性的I-BET敏感基因✿✿◈,即Emilin1和Ramp1(图5d)✿✿◈。我们观察到这些基因的表达水平与伪时间分析和预测药物反应概率评分的轨迹相匹配✿✿◈。
关于预测的CG和DEG的比较以及轨迹的进一步研究表明✿✿◈,预测的CG列表在分离敏感和抗性细胞状态方面具有更明显的表达(图5e)✿✿◈。分数与伪时间值之间的皮尔逊相关性高达0.81(正相关;抗性概率得分与伪时间)和-0.93(负相关;敏感概率得分与伪时间)✿✿◈,这表明scDEAL的预测可能意味着药物反应的发展✿✿◈。敏感和耐药细胞组中排名前十的CG表现出不同的表达模式✿✿◈,并且与伪时间评分高度相关(图5f)✿✿◈。综上所述✿✿◈,我们证实scDEAL中预测的药物反应结果和CGs与I-BET处理的细胞假时间轨迹具有很强的相关性✿✿◈。
该论文提出了一种名为scDeal的深度转移学习框架✿✿◈,用于通过整合大规模的批量细胞系数据来预测单细胞水平的抗癌药物反应凯发k8国际首页登录✿✿◈。拟议的框架包括将与药物相关的批量RNA-seq数据与scrna-seq数据进行协调✿✿◈,并传输根据批量RNA-seq数据训练的模型以预测scrna-seq中的药物反应✿✿◈。该论文还通过三个侧重于药物反应标签预测✿✿◈、基因特征识别和伪时间分析的案例研究演示了scDeal的模型可解释性✿✿◈。作者认为✿✿◈,scDeal可以帮助研究细胞重编程✿✿◈、药物选择和再利用✿✿◈,以提高治疗效果✿✿◈。