scDEAL

Huahuatii大约 7 分钟文献阅读ArticleTransfer Learning

文献阅读(2)scDEAL

标题:Deep transfer learning of cancer drug responses by integrating bulk and single-cell RNA-seq data

1 亮点

  1. 它可以使用来自癌症药物敏感性基因组学 (GDSC) 数据库和癌细胞系百科全书 (CCLE)的大量药物反应 RNA-seq 信息来训练并优化模型;
  2. 为了解释批量和 scRNA-seq 数据之间的数据结构差异,scDEAL 调和了scRNA-seq和bulkRNA-seq的嵌入以确保药物反应标签可从bulkRNA-seq转移到scRNA-seq;
  3. 为了避免丢失scRNA-seq数据中的异质性,scDEAL在每个训练阶段都包含了用于损失函数正则化的细胞群标签;
  4. scDEAL 的集成梯度解释推断了药物反应预测的特征基因,从而提高了模型的可解释性。

通过追踪和累积 DTL 模型中每个神经元的积分梯度,进一步确定了被认为直接影响细胞药物敏感性或耐药性的基因特征。

2 scDEAL模型示意图

Overview of scDEAL(single-cell Drug rEsponse AnaLysis)[1]

scDEAL示意图
scDEAL示意图

3 实验内容

1 困难

如何在平衡scRNA-seq数据与Bulk RNA-seq数据的同时保持单细胞异质性;

2 解决思路

  1. 考虑scRNA-seq数据与Bulk RNA-seq数据的噪音特征不同,使用DAE模型引入大量噪音,通过这样的策略迫使scRNA-seq更加接近Bulk RNA-seq数据;
  2. 通过整合细胞聚类结果来规范 scDEAL 的整体损失函数,从而在训练过程中保留细胞异质性。

评估了由五种药物处理的六个公共 scRNA-seq 数据集的药物反应预测性能。

使用了7个指标:F1分数、 AUCROC、AP 分数、精确度、召回率、调整后的互信息 (AMI) 和调整后的兰德指数 (ARI)

结果图
结果图

3 scDEAL 工作流

整体可以分为两个部分:

  • 【step: 1-2】监督学习建立模型预测Bulk RNA-seq标签;
  • 【step: 3-5】迁移该模型至scRNA-seq标签预测。

Step 1. Bulk特征提取

通过一个DAE(De-noising Auto Encoder)初步提取Bulk特征,此外这也是Step 3中的预训练模型,DAE 的基本架构由三部分组成:

  1. 基于原始XbX_b生成一个噪音矩阵Xb{X}_b^{\prime }[2]

Xb=B(Xb,  pb), {X}_{b}^{\prime }=B\left({X}_{b},\;{p}_{b}\right),

  1. Encoder(Eb)Encoder(E_b):通过ReLU将Xb{X}_b^{\prime }降维至低维表示;
  2. Decoder(Db)Decoder(D_b):通过低维表示重构Xb{X}_b^{\prime\prime }

模型概括如下:

min  lossrecon(Eb,  Db,  Xb)=min(MSE(Xb,  Xb))Xb=Db(Eb(Xb)) {\min }\;{loss}_{recon}\left({E_{b},\;D}_{b},\;{X}_{b}\right)={\min }\left({MSE}\left({X}_{b},\;{X}_{b}^{\prime {\prime} }\right)\right) \\ {X_{b}^\prime {\prime} }=D_b\left(E_{b}\left({X_b}^{\prime }\right)\right)

Step 2. Bulk药物反应预测

使用MLP在Bulk数据上,训练一个药物反应预测器( Predictor,PPredictor, P ),同时使用Cross Entropy进行参数优化。

模型概括如下:

min  lossclass(P,  Yb,  Yb0)=min(Cross  Entropy(Yb,Yb0))Yb=P(Eb(Xb)) {\min }\;{loss}_{class}\left(P,\;{Y}_{b},\;{Y}_{b}^{0}\right)={\min }\left({Cross\; Entropy}\left({Y}_{b},{Y}_{b}^{0}\right)\right) \\ {Y}_{b}={P}(E_{b}({X}_{b}))

Step 3. Single特征提取

同STEP 1,略。

Step 4. DTL模型训练

在这一步是综合训练前三步的模型,需要考虑:两个分布之间的最大平均差异、预测药物反应和真实药物反应之间的交叉熵损失、以及对scRNA-seq数据进行合理聚类的正则项

为了让预测器 PP 能够作用于single特征数据,因此需要调和Single特征和Bulk特征。所以采用DaNN模型对 EsE_s 进行调整,引入最大均值差异(MMD)衡量 EsE_sEbE_b 输出结果的相似性,MMD在该问题中定义如下[3]

lossMMD(Eb(Xb),  Es(Xs))=1ni=1nϕ(xbi)1mj=1mϕ(xsj)H, {loss}_{MMD}\left({E_b}(X_{b}),\;{E}_{s}({X}_{s})\right)={|}\frac{1}n\mathop{\sum }\limits_{i=1}^n\phi \left({x}_{b}^{i}\right)-\frac{1}{m}\mathop{\sum }\limits_{j=1}^{m}\phi \left({x}_{s}^j\right){|}_{H},

此外,在预测器PP的训练过程中将两个基因特征之间的相似性加入到分类损失中,以保证 EsE_sEbE_b 的特征空间具有相似的分布。训练 DaNN 模型以同时更新两个基因提取器( EbE_bEsE_s )和预测器 PP ,模型概括[4]如下:

min  lossrecon(Eb,  Db,  Xb)=min(MSE(Xb,  Xb))regulizer=CCcosinesimilarityc  in  CC(Xs), {\min }\;{loss}_{recon}\left({E_{b},\;D}_{b},\;{X}_{b}\right)={\min }\left({MSE}\left({X}_{b},\;{X}_{b}^{\prime {\prime} }\right)\right) \\ {regulizer}=\mathop{\sum}\limits_{CC} {cosine_similarity \atop c\; {in}\; CC }\left({X}_{s}\right),

Step 5. 模型迁移以及single特征药物反应预测

经过步骤 4 中训练的 EsE_sPP 将被组合用于scRNA-seq 数据中的所有细胞预测单细胞药物反应,通过输入Xs输出连续概率分数Ys,以0-0.5作为耐药细胞,0.5-1作为敏感细胞。

4 预测指标

1 Precision:

Precision=True  positiveTrue  positive+False  positive(1) {Precision}=\frac{True\; positive}{True\; positive}+{False\; positive}\tag{1}

2 Recall:

Recall=True  positiveTrue  positive+False  negative(2) {Recall}=\frac{True\; positive}{True\; positive}+{False\; negative}\tag{2}

3 F1-score:

F1score=True  positiveTrue  positive+0.5(True  positive+False  negative)(3) F1-{score}=\frac{True\; positive}{True\; positive}+0.5*\left({True\; positive}+{False\; negative}\right) \tag{3}

4 AUROC score:

5 AP score:

AP=i=1n(RnRn1)Pn(4) {AP}=\mathop{\sum }\limits_{i=1}^n({R}_n-{R}_{n-1}){P}_n \tag{4}

6 AMI:

7 ARI:

ARI(P,  P)=i,j(Nij2)[i(Ni2)j(Nj2)](N2)0.5[i(Ni2)+j(Nj2)][i(Ni2)j(Nj2)](N2), {ARI}\left({P}{*},\;P\right)=\frac{\sum _{i,j}\left({N_ij}\atop{2}\right)-\frac{\left[{\sum }_i\left({N_i}\atop{2}\right){\sum }_j\left({N_j}\atop{2}\right)\right]}{\left(N\atop{2}\right)}\\}{0.5*\left[{\sum }_i\left({N_i}\atop{2}\right)+{\sum }_j\left({N_j}\atop{2}\right)\right]-\frac{\left[{\sum }_i\left({N_i}\atop{2}\right){\sum }_j\left({N_j}\atop{2}\right)\right]}{\left(N\atop{2}\right)}\\},

4 集成梯度法鉴定关键基因(⭐)

应用IG score来表征scDEAL模型中关键输入基因特征。IG 分数表示相对于每个基因表达的梯度积分,作为输入沿着从零表达作为基线到输入表达水平的路径,使用如下所述的黎曼法则对积分进行近似IG score[5],该方法计算了**输入细胞 xx** 的**ii个基因**表达的重要性:

IGi(x) ⁣: ⁣:=(xixi)× ⁣ ⁣α=01F(x+α×(xx))xid {IG}_{i}\left(x\right)\colon\colon=\left({x}_{i}-{x}_{i}^{\prime }\right)\times {\int }_{\!\!\alpha=0}^{1}\frac{\partial F\left({x}^{\prime }+\alpha \times \left(x-{x}^{\prime }\right)\right)}{\partial {x}_i}d

α,β分别是权重,c是cell,CC是Louvain聚类结果。

这里IG score是通过Python Captum库中的“IntegratedGradients”类进行计算的,要求的输入是【基因表达矩阵】,【训练模型】和【输出标签】,输出结果为与输入表达矩阵形状相同的IG矩阵。因为scDEAL是一个二分类的模型,即有两个输出,因此可以为每个输出获得两个单独的IG矩阵。

5 实验结果

6 参考链接

https://www.nature.com/articles/s41467-022-34277-7open in new window ——原文链接

脚注


  1. 1. 训练一个AE获得Bulk RNA-seq的低维特征;2. 将表达矩阵丢入MLP,训练一个细胞系对于药物的反应结果的预测器;3. 训练一个AE获得scRNA-seq的低维特征;4. 考虑【scRNA-seq和Bulk RNA-seq之间的MMD差异】和【药物反应的Cross Entropy】和【 scRNA-seq 数据预测的细胞簇】进行联合训练;5. 通过实现最小的总体损失,Eb、Es 和 P 将同时更新和优化。 ↩︎

  2. 基于二项分布,引入噪音,其中Pb是每行(Cell Line)噪音为0的几率 ↩︎

    1. $ϕ(.) $指的是映射到通用再生核希尔伯特空间 (RKHS) 的特征空间;2. RKHS 范数 .H|.|_H 用于测量具有不同维度的两个向量之间的距离。
    ↩︎
  3. xx 是输入细胞(x) / ∂xi$。 α,β分别是权重,c是cell,CC是Louvain聚类结果。 ↩︎

  4. xx 是输入细胞,αα 是缩放系数,xix_i^\prime 是基因i表达水平的基线(这里为0),F(x)/xi∂F(x) / ∂xi 表示 F(x)F(x) 沿第 ii 个维度的梯度。 ↩︎