【文献速递】基于机器学习的分子诊断预测铜绿假单胞菌的抗生素耐药性
发布时间:
2021-09-15
由于抗生素耐药性导致的治疗选择有限,因此需要优化当前的诊断。在某些细菌物种中,可以根据它们的基因组序列明确预测抗菌素耐药性。在这项研究中,作者对 414 株耐药的临床铜绿假单胞菌分离株的基因组和转录组进行了测序。通过关于基因存在与否、其序列变异和表达谱的信息训练机器学习分类器,生成了预测模型并确定了对四种常用抗菌药物的耐药性生物标志物。单独或组合使用这些数据类型会产生高 (0.8–0.9) 或非常高 (> 0.9) 的灵敏度和预测值。对于除环丙沙星外的所有药物,基因表达信息都提高了诊断性能。研究结果为开发基于基因组和转录组标记可靠地预测抗菌药物敏感性的分子耐药分析工具铺平了道路。在常规微生物学诊断中实施分子药敏试验系统有望提供更早、更详细的细菌病原体抗生素耐药性信息,从而改变医生治疗细菌感染的方式。
文章题目:基于机器学习的分子诊断预测铜绿假单胞菌的抗生素耐药性
发表杂志:《EMBO Molecular Medicine》
发表时间:2020年2月
影响因子:12.14
作者:德国赫姆霍尔兹感染研究中心Susanne Häussler团队
文章亮点:利用机器学习的方法创造了一个分类器,通过全基因组和基因表达数据预测铜绿药敏表型的准确率达0.8-0.9
1、研究背景
抗生素耐药性的增加是当下最重要的公共卫生问题之一。日益增长的耐药性阻碍了传统抗生素的使用,并导致无效的经验性抗菌治疗的比率增加。如果没有得到充分治疗,感染会给患者带来痛苦、残疾甚至死亡,并对卫生保健系统和整个社会造成巨大的财政负担。尽管医疗需求不断增长,但FDA对新抗菌药物的批准在过去20年里大幅下降。令人担忧的是,只有少数药物在临床开发中用于治疗多重耐药革兰氏阴性病原体引起的感染。铜绿假单胞菌是造成严重急性和慢性持续性感染的病原体,问题尤其严重。
缺乏新的抗生素选择强调了优化当前诊断方法的必要性。抗菌药物敏感性测试(AST)在过去的这些年里几乎没有太大变化,它仍然依赖于培养方法。基于培养的AST需要48小时(或更长时间)才能得到明确的结果,这让医生难以给单个患者开具最佳的治疗药物。同时,这种延迟也有助于耐药性的传播。
分子诊断的引入可能成为基于培养检测药敏的替代方法,并可能在抗击抗菌素耐药性的道路上发挥关键作用。鉴定抗菌素耐药性的遗传因素有助于更深入地了解耐药性的流行病学和机制,与基于传统培养的检测相比,可能会及时地报告耐药性情况。已有的研究证明,对于许多细菌种类,基于从该方法获得的信息,可以高度准确地预测抗菌素耐药性。
2、研究目的
基于铜绿假单胞菌基因组信息和定量基因表达信息预测药敏的性能。
3、研究方法
1)菌株收集和抗生素耐药性分析
我们的研究包括来自不同诊所或研究机构提供的414株临床铜绿假单胞菌:350株来自德国(138株来自柏林夏利特医院,89株来自法兰克福大学医院,39株来自汉诺威医学院,84株来自其他不同地点)。62个分离株来自西班牙位于马略卡岛帕尔马的Son Espases大学医院,2份样本分别来自匈牙利和罗马尼亚。对所有临床分离菌株进行妥布霉素(TOB)、环丙沙星(CIP)、美罗培南(MEM)和头孢他啶(CAZ)四种常用抗假单胞菌药敏试验。采用美国实验室标准协会(CLSI)推荐的琼脂稀释法进行最低抑菌浓度(MIC)测定和折点测定。对所有分离株进行3个重复的MIC检测。如果结果不同,最多使用5次重复。只有具有至少三个匹配结果的分离株被纳入研究。
2)单克隆筛选
为了排除可能的污染,所有的分离株都从单个菌落连续重新划线至少两次。只有表型试验结果可重复的分离株被纳入最终小组,并进一步通过了DNA测序质量控制(>85%测序reads映射到P. aeruginosa UCBPP-PA14参考基因组,总序列GC含量为64-66%)。
3)DNA测序
基因组DNA使用NEBNext Ultra DNA Library Prep Kit (New England Biolabs)建测序库,并在Illumina HiSeq或MiSeq机器上以配对方式进行测序,生成2×250或2×300 bp的序列。平均每个分离株产生289万个reads(数据量从最低653,062到最高21,086,866 reads,至少是每个分离株总基因组覆盖率的30倍)。
4)RNA测序
使用ScriptSeq RNA-Seq Library Preparation Kit (Illumina)制备测序库,并在Illumina HiSeq 2500机器上生成短读长数据(单端,50 bp),平均每个样本产生300万reads。414个样本分布在24个独立的测序库中。大部分基因表达在重复实验中表现稳定(Pearson相关系数0.94)。
5)支持向量机分类器
为了应用交叉验证,数据集用系统发育信息标注并被随机分割(见下文)为k份(k设置为10,除非另有说明)。用其中k-1份大小的数据优化分类器超参数,并用剩下的1份数据确认最优参数化方法的性能。这种方式重复对所有可能的k个分配进行,最后平均每次的结果得到最终的性能评价。
4、研究结果
1)菌株收集和抗生素耐药性分析
从德国各地医院的临床微生物实验室以及西班牙、匈牙利和罗马尼亚收集了414株铜绿假单胞菌(图1A)。对所有分离株进行基因组DNA测序并记录转录谱。这使得我们不仅可以使用完整的基因组信息,还可以使用基因表达谱信息作为机器学习方法的输入。
我们基于变异核苷酸位点推断出最大似然系统发育树(图1B)。构建树的方法是将每个分离物的测序序列定位到P. aeruginosa PA14参考株的基因组中,然后对每个基因的一致序列进行比对。该菌株在分类学上分布广泛,可分为两大系统发育类群。其中一个包括PAO1、PACS2、LESB58和一组高危克隆ST175分离株;另一个包括PA14,以及一大群高危克隆ST235分离株。根据多位点测序分型(MLST),这两组都包含了几个进一步的进化支,它们的分离株具有相同的序列类型。
接下来,我们记录了所有分离株的四种常见抗假单胞菌抗菌素的耐药性情况,分别是妥布霉素(TOB)、头孢他啶(CAZ)、环丙沙星(CIP)和美罗培南(MEM),采用的药敏测试方法为琼脂稀释法。我们收集的大多数临床分离株对这四种抗生素表现出耐药性(图1C)。三分之一的人有多药耐药(MDR)表型,定义为对至少三种不同种类的抗生素不敏感。
2)机器学习预测抗菌素耐药性
我们使用临床P. aeruginosa分离株的基因组和转录组数据,利用机器学习分类器推断对头孢他啶、美罗培南、环丙沙星和妥布霉素的耐药和易感表型。对于每一种抗生素,我们将所有分离菌株分为耐药和易感两类。对于基因组数据,我们包括序列变异(单核苷酸多态性,SNPs,包括小的indel)和基因存在或缺失(GPA)作为特征。我们总共分析了255,868个SNPs,相同分布的分为一组,共65,817个组,和76,493个具有存在或缺失信息的基因家族,相同分布分为一组共14,700组。这些基因家族中有1,306个在某些分离基因组中具有indel,我们将其作为附加特征纳入其中。最后我们结合SNP、GPA和6026个基因的表达信息进行了评估(图2)。
如Weimann等人(2016)所述方法,我们使用带线性核的支持向量机(SVM)分类器来预测四种不同抗生素的敏感性或耐药性。与琼脂稀释法得到的药敏结果相比较,得到敏感性和预测值。参数在嵌套交叉验证中进行了优化,重复五次估计平均性能。(i) GPA , (ii) SNPs和(iii)基因表达信息的联合使用最终得到了高(0.8-0.9)或非常高(> 0.9)的敏感性和预测值(图3)。
基于支持向量机的环丙沙星耐药敏感性预测准确率分别为0.92±0.01和0.87±0.01,同时仅使用SNP信息就具有较高的预测值0.91±0.01和0.90±0.01。仅根据基因表达数据预测环丙沙星敏感性和耐药性的敏感性分别为0.80±0.04和0.79±0.02,预测值分别为0.73±0.01和0.76±0.02。然而,在SNP信息上附加基因表达信息对预测环丙沙星的敏感性/耐药没有附加价值。
对于妥布霉素敏感性和耐药性的预测,机器学习分类器在单独使用三种输入数据类型(SNPs、GPA和基因表达)时表现几乎相同(值均大于0.8)。SNP信息可预测妥布霉素耐药,但当与其他数据类型相结合时,并没有进一步提高分类性能。GPA信息是区分托布霉素耐药和易感性最重要的数据类型,得到的灵敏度值分别为0.84±0.01和0.95±0.01,预测值为0.88±0.01和0.93±0.01。当纳入基因表达值时,基于GPA的预测性能进一步提高。
对于正确预测美罗培南耐药/敏感,GPA影响最大(分别为0.87±0.01和0.84±0.01,预测值为0.92±0.00和0.74±0.01)。和妥布霉素一样,使用GPA信息和基因表达信息联合时,可以提高对美罗培南耐药性检测灵敏度分别为0.91±0.02和0.86±0.01,预测值分别为0.93±0.01和0.81±0.03。(单侧t检验的p值:0.004)。
对于头孢他啶,仅使用GPA信息,敏感性/耐药预测灵敏度分别为0.69±0.01和0.66±0.01,预测值为0.66±0.01、0.67±0.01。添加基因表达信息后,敏感性和抗性显著提高,分别为0.83±0.02和0.81±0.02,预测值分别为0.81±0.02和0.83±0.01(单侧t检验的p值为-7.1 × 10^7)。综上所述,对于妥布霉素、头孢他啶和美罗培南,结合GPA和表达信息可以得出最可靠的分类结果,而对于环丙沙星,我们发现仅使用SNP就可以得到最好的性能(表1和数据集EV3)。
3)候选耐药特征
我们确定了每种药物获得Macro-F1 分数所需的最小分子特征数(图4)。使用50到100个特征就可使分类器的抗菌素耐药性预测性能达到峰值。值得注意的是,环丙沙星分类器只需要两个SNP, 就能使学习曲线性能接近饱和,而包括表达和GPA标记物的药物分类器需要更多的特征(>50)。接下来,我们确定C参数,使SVM模型在峰值性能的一个标准差内最不复杂,也就是说,每个药物具有最高的Macro-F1 分数和尽可能少的特征。环丙沙星候选特征包含50个snp。美罗培南、头孢他啶和妥布霉素特征包含93、37和59个表达和GPA特征。为了测试基于候选标记物物的分类器在一组独立的临床铜绿假单胞菌分离株上的性能,我们使用它们来预测测试数据集的样本的抗生素耐药性(图5)。根据这些保留的特征,我们得到了所有药物的f1值,与之前一样高:即根据基因表达和基因存在/缺失特征,美罗培南为0.95,头孢他啶为0.77,妥布霉素为0.96,环丙沙星为0.87。这些结果表明,诊断分类器对新样本具有良好的泛化能力。我们观察到不同药物之间的变异性比嵌套交叉验证中更多,这是在与预期内的,因为测试集的规模相对较小。
4)样本数量对分类器分类准确度的提高
接下来我们研究了预测性能如何依赖于用于分类器训练的样本数量。我们从完整数据集(414分离株)中取不同大小的随机样本训练支持向量机分类器。对于每个模型,我们记录了5次重复的10倍嵌套交叉验证的Macro F1评分(图6)。在使用所有可用的训练样本之前,我们所有的分类器的分类性能都达到了饱和状态,这表明当添加更多的分离株进行抗性分类时,分类性能的提高非常缓慢。在我们的研究中可能还没有发现的标记物物可能具有非常小的效应大小,需要更大的数据集来检测它们。有趣的是,在性能曲线趋于平稳之前所需的样本数量取决于所使用的药物和数据类型。对环丙沙星的耐药/敏感性预测基于snp迅速饱和,可能由于已知突变的有较大影响的喹诺酮抗性决定区域(QRDR),而其他三种药物的分类器,基于表达和GPA信息训练,需要更多的样本,才能让f1评分趋于稳定。对于这些分类器,样本较少的数据子集的Macro f1评分的离散度也比环丙沙星SNP模型高得多。
5)MIC在折点附近菌株更容易被错误分类
我们从折点周围的等距间隔(log间隔)中选择样本,测试在MIC值接近折点的样本中,与MIC值较高或较低的样本相比,分类器的误分类是否会变高。就环丙沙星而言,MIC在0.5至8之间的样本被错误分类的数量(139个样本中有31个(22%))明显多于MIC小于0.5或大于8的样本(219个样本中有7个(3%),图7)。对于头孢他啶,我们发现,MIC在4到64之间的177个样本中有46个(26%)被错误分类,而MIC小于或高于这些值的157个样本中只有21个(13%)被错误分类。对于美罗培南,我们发现207个MIC值在1到16之间的样本中有26个(13%)被误分类,而在147个MIC值小于或高于这些值的样本中只有8个(5%)被误分类。妥布霉素则无显著差异。
5、讨论
有趣的是,尽管我们发现四种抗生素的耐药谱广泛重叠,但我们没有在已筛选出的标记物中观察到很多的共同耐药特征。例如,在美罗培南、头孢他啶和妥布霉素的最佳分类中,只有头孢他啶和妥布霉素之间有重叠的标记物。
综上所述,我们证明了用基因表达值扩展遗传特征(SNPs和基因存在/缺失)是提高性能的关键。因此,不同种类的生物标记物对耐药敏感性的相对贡献很大程度上取决于抗生素。这与许多肠杆菌科抗生素耐药性的预测形成了鲜明的对比,在肠杆菌科,已知产生耐药性的基因,如β -内酰胺酶,通常就足以正确预测敏感性。然而,对基因表达标记物列表的分析表明,机会致病菌铜绿假单胞菌(也可能是其他非发酵菌)的抗性表型是多因素的,基因表达的改变可以很大程度上改变抗性表型。
另外我们发现,如果分离菌株的MIC值不接近折点,我们的分类器的性能就会提高。对于环丙沙星,这一点尤为明显。已有研究表明,由于MICs水平升高的革兰氏阴性菌引起的血流感染而接受左氧氟沙星治疗的患者,其预后比MICs水平较低的菌感染的类似患者更差。治疗失败的一个可能的解释可能是gyrA的第一步突变导致接近折点的MIC值。如果受到喹诺酮类药物的影响,这些分离株可以在parC中迅速获得第二步突变,然后表现出完全耐药表型。另一种解释可能是,MICs的再现性水平比较低。由于药敏试验测得MIC折点附近的值的不确定性而导致的分类不准确,也可以解释机器学习分类器分配耐药性失败的原因。
获取与预测铜绿假单胞菌耐药性相关的全部标记物物的库需要进一步研究,以扩大已建立的标记物物列表的预测能力。在我们的研究中,基于这些标记物列表的其余错误分类样本为进一步发现虚假抗性突变提供了宝贵的资源。
关于金匙医学
金匙医学成立于2017年,坐落于北京昌平中关村生命科学园,公司不断深耕分子诊断技术在感染领域的应用。金匙医学与中日友好医院、北京大学人民医院、四川大学华西医院、中国医学科学院血液学研究所血液病医院、陆道培医疗集团等顶级院所建立了深入合作关系,服务临床千余家,面向呼吸、血液、检验、重症、感染等科室,提供病原微生物宏基因组诊断产品及检测服务的整体解决方案。
金匙医学母公司及子公司天津金匙于2020年双双取得国家高新技术企业证书认定,并于2019年和2020年蝉联清科集团评选的Venture 50最具投资价值企业,连年入选动脉网“中国创新医疗服务榜 TOP100”,在2020年中关村国际前沿科技创新大赛中荣登“病毒检测技术TOP10榜单”。
金匙医学已发布基于二代测序和三代测序病原微生物高通量检测产品,实现了进口和国产测序平台并双双高分通过国家临检中心mNGS室间质评。金匙医学创新推出直接针对临床样本进行宏基因组分子药敏表型预测的产品GenseqAMR。在血液样本领域,金匙医学已推出血浆及血细胞检测组合解决方案,其中,金识原®针对血浆层核酸检测已在国际检验学知名期刊《Clinical Chemistry》发表系统性临床研究性能验证文章,目前该产品已通过中检院注册检并进入NMPA三类注册临床研究。
金匙医学在北京、上海、广州、天津拥有自己的医学实验室,面积超过17000m²,在武汉、成都、西安与当地医学实验室均有合作。此外,金匙医学协助郑州、深圳、南昌、济南、昆明、海口、南京等多家三甲医院实现院内开展病原基因检测项目。
金匙医学管理团队多位成员来自知名外资药企、硅谷著名临床诊断公司以及国内成功基因检测类公司的管理层,从业时间在二十年以上。公司现有员工500余人,企业90%以上人员为生命科学和临床医学背景,普遍在基因测序、医药、诊断企业,医疗机构和微生物研究机构工作多年。企业20%以上人员拥有博士学历,50%以上人员拥有硕士学历。
金匙医学已获得数个I类,II类注册证,2项已授权发明专利,二十余项计算机软著,并与多家顶级临床院所深入合作,发表20余篇高分SCI文章,其中共一和共通讯作者文章5篇。2020年7月,金匙医学研发的“病原微生物测序数据分析软件”成功获得医疗器械注册证。
CONTACT INFORMATION
联系方式
金匙北京:北京市昌平区生命园路9号院博晖创新3号楼1层3层
咨询电话:010-69739593
金匙天津:天津市武清开发区创业总部基地B21栋
咨询电话:022-22977679
金匙上海:上海市嘉定区惠平路801号2号楼101
咨询电话:021-60765612
金匙广州:广州市黄埔区开源大道11号科技企业加速器C5栋 202-206
咨询电话:020-32037636
客服电话:17526851372 18522759136
金匙医学科技有限公司. All Rights Reserved.
OFFICIAL ACCOUNTS
公众号

ONLINE MESSAGE
在线留言