欢迎光临吉康旅!
编译 | 于正秋
本次报道的论文来自阿斯利康AI工程总监Papa领导的研究团队,发表于-of in EGFR non-cell lung。本研究基于BIKG知识图谱构建推荐系统,寻找EGFR突变阳性非小细胞肺癌耐药机制的驱动因素。
1 背景
随着生物医学数据的指数级增长,将经典推荐系统方法移植到生物医学领域显示出巨大的潜力,可以帮助研究人员快速浏览数据并从中进行知识推断。
耐药性阻碍了肿瘤治疗的发展。这项研究的重点是具有激活表皮生长因子受体 (EGFR) 突变的非小细胞肺癌 ()。占肺癌患者的 15-20%,接受第一代或第二代 EGFR-TKI(如吉非替尼、安罗替尼或阿法替尼)治疗的患者通常具有显着的初始疗效,但随后会产生耐药性。药物。大多数耐药病例是由于对EGFR的获得性耐药,例如突变阳性病例。第三代EGFR-TKI奥希替尼用于EGFR突变阳性局部晚期或转移性疾病的一线治疗。尽管奥希替尼具有显着疗效,但在 6-26% 的病例中,EGFR 的获得性突变(例如)导致奥希替尼耐药。
-Cas9基因敲除、敲低、敲入技术是系统研究耐药机制的有效高通量技术。筛选的典型输出是识别数百个参与抗性机制的基因,然后进行手动分类和验证。在此过程中,专家将疾病的先验知识与临床和临床前证据相结合,以决定优先考虑哪些基因进行实验验证。选择过程繁琐、耗时,并且需要深厚的专业知识,因此容易产生个人偏见。
将问题移植到推荐系统领域有两个主要挑战。一是缺乏训练数据;其次,与典型的推荐系统应用场景不同,该问题缺乏显式和隐式反馈,限制了逐步训练和改进模型的能力。考虑到上述问题,无监督、基于内容的推荐系统将重新排序筛选结果的任务转变为多目标优化问题,将支持基因相关性的各种冲突类型的证据映射到目标。在优化过程中,可行的解决方案(基因)被识别和比较,直到没有找到更好的解决方案,一组混合特征,每个代表不同类型的证据,
2 个结果
重新排序结果可以作为多目标优化来处理。在这种情况下,支持基因相关性的各种证据被视为多个目标(图 1),k 个目标同时优化,反映在 k 个目标函数中:f1(x), f2(x), ..., fk( X)。
其中 x = [x1, x2, ..., XM] ∈ ω;x 代表决策变量,ω 代表决策空间。因此,多目标优化问题可以定义为寻找目标函数 F(x) 的最小或最大优化模式。对于多个相互竞争的目标,通常不可能找到单一的最佳解决方案。但是可以根据帕累托支配的概念确定一组最优解。如果满足以下两个条件,则随机自变量解 x1 优于解 x2:
如果两个条件都成立,则可以说x1支配x2,等于x2被x1支配。在不削弱至少一个其他目标函数的情况下,没有办法改进任何目标函数,即形成非支配解。一组这样的解决方案形成了一个帕累托前沿 ( ),它可以通过计算基于筛选结果和其他支持证据定义的不同目标解决方案集的帕累托前沿来减少潜在耐药标记的数量(图。1) .
一组混合特征推荐系统。为了支持推荐系统,作者结合了一组丰富的混合特征(图 1 和补充表 1),以下总结了关键特征类型以及考虑它们重新排序筛选结果的基本原理:
筛选数据作为重新排序的起点。在这项研究中,作者确定了 1,550 个候选抗性基因,这些基因在筛选分析后被标记为显着。作者通过计算一致性指标进一步汇总了数据,这些指标反映了基因在实验条件下的稳定性。总共有 7 个基于一致性的特征被合并到特征集中。
对于耐药性,作者对所有关于基因的文献感兴趣,统计了文中提到相关基因名词的出版物,如“”、“”、“EGFR”、“”,并分析了从2000年到2000年的时间。 2019年发表论文100余篇,文献汇总“EGFR”和“”两个词。作者计算了同时提及基因和其中一个术语的论文数量(补充表 1)。考虑到研究论文中提到的基因在不同基因之间存在很大差异,作者将论文处理的频率标准化。
作者使用自定义知识图 (KG) 作为辅助信息源,包含 1100 万个节点和 8400 万条边,由 37 个公共或内部数据集(例如 、 和 )组成。KG 中生物实体之间的交互模式可以用作特征,并由推荐系统以多种方式使用(图 1 和补充表 1)。一种方法是直接在图上计算特征,包括,例如,节点度(node)——反映节点的重要性,——衡量节点的流行度,点-边介数()——描述点和边的连通性的重要性。另一种方式是将图投影到低维空间中, 以便每个节点都被转换成它的向量表示 - (). 捕获图的关键结构属性,
为确保推荐系统捕获临床证据,作者将来自接受奥希替尼治疗的 EGFR 突变肺癌患者的基因组数据纳入特征集。
传统方法是通过开发调节其关键驱动基因(靶标)活性的化合物或联合疗法来解决癌症中的耐药性问题。当药物开发成为优先目标时,需要确保:(1)基因原则上是易处理的,即它会以高亲和力的常用药物的形式出现;(2)是一个非必需基因,因为必需基因的敲除可能对生物体内的其他细胞有害,而不仅仅是肿瘤细胞。考虑到第一点,作者定义了3种格式:抗体、小分子和其他格式(酶、寡核苷酸) ) 酸等). 考虑到第二点,作者将范围锁定到癌症基因组数据库。
总之,最终的混合特征集包含 27 个特征(补充表 1)。混合集还增加了图派生特征和基于文献的指标。
交互式界面帮助专家重新排列结果
在现实世界的场景中,决策是迭代的和主观的,特定目标集的选择和同一变量的优化方向因专家而异。不同的目标组合和相应的优化方向导致不同形状的帕累托前沿,从而产生不同的推荐基因解决方案集。为了适应不同的观点并使医学领域专家能够探索目标之间的复杂权衡,作者构建了一个交互式应用程序 ( )(图 2).
评估表明,大多数建议被专家认为是可信的
为了评估推荐框架给出的结果与专家意见的异同,作者预设了一组默认偏好。选择这组默认值是为了模拟该领域专家对筛选结果的验证过程,同时包括从文献中提取的图派生特征和汇总指标。结果列表包含 57 个推荐基因(图 3))。为了收集领域专家对列表的意见,我们设置了一个由五位独立专家组成的交互式评估任务,将每个推荐基因分配到一个或多个预设类别中:(1)已知抗性标记;(2)@ >以前未知,但可信;(3)以前未知,不清楚易处理性;(4)不新颖,不可信。这里"
值表示派生特征的显着影响
为了根据专家决策进一步评估目标,计算其值,将问题简化为二元分类任务,其中基因要么由专家选择,要么由专家选择。为了分配阳性标签,作者使用了一组 100 个基因,优先进行二次筛选并训练了两个随机森林模型:(1)基于默认的特征子集;(2)基于全集)的特征,包括临床、临床前、文献和图派生类特征(图。4)。计算值表明,在两个实验中,派生特征对基因分类的影响最大。
网络分析和临床知识表明,EGFR 耐药机制是首选基因之一
为了将筛选出的优先结果与已知的EGFR生物学知识联系起来,作者进行了通路富集分析和串扰分析,证实“EGFR抑制剂在肺癌中的耐药机制”处于最富集通路中。为了用临床相关信息额外注释推荐基因,作者对数据库中的结果进行了比较分析。通过五个类别的注释评估基因改变:治疗、预后、诊断、耐药性和 FDA 等级。该评估表明,作者的发现捕获了具有已知临床意义的基因(补充表 3).
实验验证表明,表观遗传和 Ras 信号基因在介导耐药表型中起关键调控作用
为了进一步验证推荐基因,作者对结果进行了实验验证,发现了一些生物学机制,如-、NF1、KCTD信号通路和耐药机制。选择了一些可以与奥希替尼联合作用的抑制剂靶点(SRC 和 EZH2)),以评估它们在耐药模型中的综合益处。并以明确的耐药性标志物(MET 和 PTEN)作为验证研究的背景,在奥希替尼敏感的 EGFR 突变阳性细胞系中,六个推荐基因(MET、、EZH、EZH、PTEN、NF1 和被操纵(图5A)。用于验证的基因分为“已知”(作为真阳性)和“以前未知”类别(图 3).PTEN、NF1、和 MAPK 是已知的 EGFR-TKI 耐药机制驱动因素)和 PI3K/AKT 信号通路。作者假设 PTEN、NF1 和表达的下调将介导稳定的耐药表型。为了验证这一假设,作者建立了基于流式细胞仪的长期竞争实验(图 5B)。本实验表明,NF1、PTEN,在对照(DMSO)条件下共培养14天后,与非靶向对照(NTC)细胞相比,受干扰的表达(图5B,C)没有增殖显着不同。但是当用奥希替尼治疗时,NF1、PTEN KO 产生了适应性优势,与对照细胞(分别在 PC-9 或在 PC-9 中)相比增殖了 2 到 3 倍(图 5C)。耐药效应与细胞相比,在 PC-9 中观察到的 KO 更明显。
EZH2 表达的抑制剂被称为抗癌治疗的增敏剂。作者消除了 II-18 细胞中的 EZH2 表达(补充图 9D),并在控制和治疗条件下跟踪它们的增殖。我们发现 II-18 中 EZH2 表达的缺失诱导了奥希替尼耐药表型的出现。
MET 扩增通常与受体酪氨酸激酶的过表达有关,这反过来会导致 EGFR 下游通路的激活。为了验证 MET 与奥希替尼耐药性的相关性,比较了活化、其在 PC-9 细胞中的表达(补充图 9B)以及对照(DMSO)和药物治疗组中的增殖。实验发现,在对照条件下,MET过表达并没有明显改变细胞增殖,而与对照组相比,奥希替尼处理的实验组细胞增殖明显增加(图5E)。
当在 PC-9 中激活表达时获得了类似的结果。是通路中转录活性的效应子。如长期竞争实验所示,在 PC-9 细胞中激活,与对照细胞相比,奥希替尼处理的细胞产生大量耐药性克隆增殖(图 5F 和补充图 9B)。
推荐系统确定的另一个目标是 SRC 原癌基因,这是一种非受体酪氨酸激酶,以前与 EGFR-TKI 耐药有关。为了验证 SRC 是奥希替尼耐药的机制驱动因素,作者使用获得性耐药细胞系(图 6A 和补充图 10A、C、G)并产生了三种小分子 SRC 抑制剂(ECF-50 6、达沙替尼或西卡替尼)剂量反应曲线比较亲本和耐药克隆的敏感性。抗性克隆与奥希替尼共同治疗。发现亲本细胞系通常对单一 SRC 抑制剂治疗具有抗性(图 6B 和补充图 10B,D-F,H)。值得注意的是,用等剂量的 SRC 抑制剂治疗可以使所有奥希替尼耐药 (OR) 细胞系 (PC-9、, NCI-和)对临床中等剂量的奥希替尼耐药。 () 敏感,由此可见SRC在介导奥希替尼耐药机制中的重要性。
当奥希替尼与 EZH2 抑制剂 联合使用的浓度增加时,对奥希替尼的耐药性呈浓度依赖性,抑制 EZH2 表达会增加奥希替尼的耐药性(图 6C)。
总之,初步实验表明,推荐系统给出的基因子集——EZH2、、MET、NF1、PTEN、SRC和SRC——都介导了奥希替尼耐药。
除了已知的奥希替尼耐药标志物和上面讨论的强效标志物外,作者还确定了其他几个奥希替尼耐药标志物,这些标志物的先验知识或文献证据非常有限,但可能是治疗中潜在的有效靶点,可用于形成新的奥希替尼组合(图3).
推荐系统给出的两个基因 BCL6 已被证明与 EGFR-TKI 抗性机制有关(补充图 11))。它已被证明在 MEK 和信号通路之间的串扰中起关键作用。涉及驱动肿瘤生长的MEK信号通路的异常调节和信号通路中的关键因素(YAP、TAZ)。BCL6在介导抗细胞凋亡和DNA损伤识别等核心细胞功能中起关键作用,并已被证明在发挥关键作用中发挥作用。
NRF2 转录因子和下游信号通路(-Nrf2 信号通路失调)也参与肺癌的 EGFR-TKI 耐药机制。除了识别之外,推荐系统还将识别奥希替尼耐药的标志物。最近的研究表明,增加的表达与非小细胞肺癌组织有关。综上所述,这些观察结果表明,作者推荐的方法不仅提出了众所周知的抗性标志物,而且还确定了以前未探索和潜在的抗性驱动因素。
3 讨论
这种推荐的方法有局限性。首先,在对问题应用多目标优化方法时,在某些情况下存在获得不平衡解的风险。这样的解占据了帕累托前沿的边缘,可以由少数几个值相对较高的基因根据单个目标生成。其次,考虑太多目标/证据线是有风险的。作者考虑的目标越多,边界可能变得越广泛和拓扑复杂。这种效应限制了明确选择一小组最优解的能力。以下策略可以帮助克服这个问题:(1)依靠领域知识选择少数几个最重要的目标;(2)使用标量化技术将目标组合成一个单一的目标;( 3) 根据专业知识和每种证据的相对重要性为单个目标引入自适应权重;(4)多目标优化可以在上面的连续阶段进行,类似于马尔科夫决策过程。上面的部分方法可以结合使用,例如标量化和自适应权重。由于缺乏一个明确的“抗性机制的良好标记”概念,本研究进一步的一个缺点是如何评估结果的准确性。最后,与传统的推荐系统设置不同,预测不能根据用户反馈进行增量评估和改进。最终来源本研究中的事实是实验验证了基因在耐药表型中的作用 驱动作用可以在体外或动物模型中进行测试。
4种方法
筛选设计
在 EGFR 突变细胞系 PC-9 sum(外显子 19 EGFR 缺失)和含有继发性 EGFR 抗性突变(PC-sum)的吉非替尼抗性克隆中进行全基因组敲除和激活筛选。用 EGFR 抑制剂吉非替尼和奥希替尼处理细胞以模拟 一、临床二线治疗中 EGFR 耐药性的发展。
对于全基因组功能丧失基因敲除(“”),细胞系用个体人类基因库转导。对于全基因组功能获得(激活)转录激活(“”),细胞系被转导与编码具有独特转录起始位点的异构体的库。筛选后,文库转导的细胞用吉非替尼或奥希替尼(各 100 nM)处理 21 天,以选择耐药基因。在所有六项研究中,该算法用于识别治疗组与对照组相比显着富集的基因。
- 筛选分析
使用和评估测序数据的质量。使用自定义脚本将引导序列映射到 Yusa 3。原始计数数据的数据质量根据每个样本的读取深度、由基尼系数测量的每个样本内的 RNA 多样性以及样本的预期聚类来控制。
进行了三个主要的比较研究:(i) 对照样品与名为 CvT 的处理样品,(ii) 对照样品与名为 CvP 的质粒样品,(iii) 处理样品与名为 TvP 的质粒样品。使用 v0.5.7 进行 CvT 差异分析。CvP和TvP的顺序使用和差异分析。如参考文献中所述计算显着性阈值,错误发现率 (FDR) 为 5%。CvP 比较分析用于进一步的质量评估。
然后,对三组CvT、CvP和TvP进行比较和总结,得到感兴趣的抗性或敏感性基因的排名。给定基因的合意度介于 0 和 1 之间。根据定义的参数,1 代表最感兴趣的基因。该分数的设置考虑了不同的因素。例如,在对感兴趣的基因进行排序时,它可以同时考虑 p 值和倍数差异 (LFC)。对于电阻,考虑以下参数:
(i) 如果 FDR 高于 0.1,则用于评估 CvT 的 FDR 设置为 0,如果 FDR 较低,则设置为 1。这使得只关注重要基因成为可能。
(ii) 当 p 值高于 0.1 时,用于评估 CvT 的 p 值设置为 0.01。它随着 p 值的降低而迅速增加,当 p 值为 10-4 时达到 1。这条规则可以对 p 值较低的基因给予更高的期望。
(iii) 当效果大小高于平均 LFC + 3 倍 LFC 标准差时,评估 CvT 大小效果的设置为 1,如果 LFC 低于此,则急剧下降到 0.01。该规则可以对具有更高尺寸效应的基因给予更高的期望。大于 LFC 标准偏差的 3 倍,达到最大值 1。
(iv) 要删除感兴趣列表中存在的所有必需基因,如果该基因在 CvP 和 CvT 中被认为是必需的,则必需基因的设置为 0。如果仍然存在负 LFC 的基因,它们的也设置为 0 . 这个规则过滤掉了很多假阳性,因为当一个慢速必需基因被敲除时,治疗组的细胞可能比对照组的细胞死亡得更慢,从而导致 CvP 的错误富集。
考虑到敏感性,采用上述情况中的(i)和(ii)。此外,当影响大小低于 LFC 的平均 LFC - 3 倍标准偏差时,估计 CvT 大小影响设置为 1,如果 LFC 高于此限制,则急剧下降到 0.01。用于对感兴趣的基因进行排名,如参考文献中所述。
筛选质量控制和重要性评估
开发了用于执行最终质量检查的技术管道,以确保其质量控制和与其他功能基因组学中心进行的筛选结果的可比性。根据准确筛选必需基因的能力评估可靠性。将本研究的结果与 Hart 等人的结果进行比较。和 Map,必需基因的 AUC 调用均大于 0.9。此外,通过检查 LFC 在对照与质粒中的分布以确认 LFC 分布以 0 为中心,实验中的细胞系没有生存问题(补充图 12)。
过滤派生特征
为重新排序确定了超过 3000 个抗性基因的起始列表。合并的一致性测量定义为当存在“目标”基因时的细胞系总数,并定义了“目标”基因。使用两个不同的阈值来定义总和:(>0.7& 0.7& <0.1)。
从图派生的特征
KG是由基于全图计算的算法生成的。使用软件包计算人类基因节点到“EGFR”和“”节点的 L2 距离。为了使图派生指标与耐药机制解释更相关,作者进一步关注蛋白质-蛋白质相互作用 (PPI) 子图。
临床富集特征
奥希替尼是一种选择性靶向 EGFR 突变的不可逆 EGFR 抑制剂。作者汇总了五项临床试验(、、、和)中接受奥希替尼治疗的患者的数据。这是 AURA 试验的第 2 阶段扩展,患者接受 80 毫克/天的奥希替尼治疗。是一项针对晚期患者的单臂 2 期临床试验,这些患者在先前接受过 EGFR-TKI 治疗并具有 EGFR 突变的情况下取得了进展。是一项 3 期随机对照试验,在 EGFR-TKI 治疗后进展的晚期患者中比较奥希替尼与铂类化疗。这些患者还携带 EGFR 突变。这是一项 3 期临床试验,比较了其他 EGFR-TKI 标准治疗方案在接受奥希替尼作为一线治疗的晚期患者中的疗效。
共分析了 335 名接受奥希替尼治疗的患者。来自 FMI 基因组的测序数据用于鉴定遗传改变。根据标准分类,将部分缓解/完全缓解且PFS>6个月的患者分类为有反应者,计算有反应者和无反应者的基因变异富集情况。由于个别试验使用不同的临床基因组,因此富集指标仍然是特定于试验的,并且不进行跨试验的聚合。这个“浓缩分数”被用作多目标优化的一个特征。
成药性
使用的成药性评分,最高成药性评分为10分。
遗传必要性
从 DMC 中检索是否需要该基因的信息。如果靶基因的抑制导致 90% 细胞系的活力降低,则该基因被标记为“必需”,否则为“非必需”。
转录组签名
推荐系统框架中包含的特征“”和“”是未发表的内部实验,用于研究奥希替尼治疗对细胞系内基因上调的影响。该实验包括分别用奥希替尼和 DMSO 处理细胞系 PC9 和 DMSO,以显示奥希替尼治疗前后的转录组变化。
模型与实现
帕累托边界由 R 包计算。最佳边界标记为 1,次优解标记为 2,依此类推... n。将返回 1 的基因。用户可以通过选择一个或多个变量来进一步对推荐进行排名。使用包快速构建基因标签的二元分类器,包计算值,包生成相关系数图。
信号通路富集分析
使用 (,) 进行富集分析和串扰分析。
推荐基因的临床意义
结果与 MSK 的 FDA 批准的精准肿瘤学知识库进行了比较。
参考
, A., , D., , M. 等。- 在 EGFR 非细胞肺中。Nat 13, 1667 (2022).
免责声明: 本站关于疾病和药品的介绍仅供参考,实际治疗和用药方案请咨询专业医生和药师。
微信扫码◀
免费咨询电话