【文献速递】一项利用部分基因组序列预测抗菌素耐药性的研究
发布时间:
2021-09-15
抗菌素耐药性(AMR)阻碍了对细菌、寄生虫、病毒和真核病原体的有效治疗,威胁着全球健康。AMR通常是基因改变的自然结果,然而,滥用或过度使用抗菌药物会加速耐药变异的选择。为了提供有效的治疗并防止 AMR 的快速传播,了解病原体的耐药表型至关重要。在临床上,这通常使用传统的抗菌药敏试验 (AST) 来完成,其中细菌培养物会受到各种抗生素的影响。一些研究已经发布了机器学习 (ML) 模型,基于基因组序
题目:一项利用部分基因组序列预测抗菌素耐药性的研究
发表杂志:《mSystems》
发表时间:2021年6月
IF:6.5
作者:丹麦国家食品研究所及美国 Argonne 国家实验室
亮点:文章提出利用部分基因组信息可预测抗生素耐药性
1、研究背景
抗菌素耐药性(AMR)阻碍了对细菌、寄生虫、病毒和真核病原体的有效治疗,威胁着全球健康。AMR通常是基因改变的自然结果,然而,滥用或过度使用抗菌药物会加速耐药变异的选择。2019年,美国疾病控制与预防中心报告称,美国每年有超过280万人发生抗生素耐药性感染,至少有35,000 人死亡,欧洲疾病预防与控制中心 (ECDC) ) 报告称,欧盟和欧洲经济区每年有33,000人死于抗生素耐药性感染。AMR除了导致疾病和死亡之外,还会因为住院时间延长、需要进行额外检测和使用更昂贵的药物而给医疗保健系统带来重大的经济负担。
为了提供有效的治疗并防止 AMR 的快速传播,了解病原体的耐药表型至关重要。在临床上,这通常使用传统的抗菌药敏试验 (AST) 来完成,其中细菌培养物会受到各种抗生素的影响。一些研究已经发布了机器学习 (ML) 模型,基于基因组序列数据预测AMR表型,效果良好;尽管许多研究表明ML方法可以产生准确的模型,但这些模型的稳定性高度依赖于训练集的质量。例如,训练集大小、系统发育多样性和各种药物敏感性测试方法都会影响模型的准确性。理想情况下,ML模型应该从由类别平衡数据集来构建(例如,耐药与易感),而且样本的数量应该大于特征的数量。在实践中,很难获得大量且均衡的基因组训练集与抗菌药物敏感性测试数据。
2、研究目的
了解基因组的哪些保守部分为 AMR 预测模型提供信号可能有助于增强我们对 AMR 机制和因获得耐药性而导致的补偿性变化的理解。
在本研究中,我们基于短染色体亚序列生成 AMR 预测模型,并使用它们系统地识别具有预测能力和与 AMR 潜在联系的基因组区域。
3、研究方法
数据集来源:
1664例肺炎克雷伯氏菌、16906例结核分枝杆菌,5286例肠道沙门氏菌三种细菌的基因组信息及药敏信息,以上基因组数据和临床药敏数据均来源于 PATRIC。
(ftp://ftp.patricbrc.org/RELEASE_NOTES/PATRIC_genomes_AMR.txt)
序列生成:
全序列:每个分离菌株组装的基因组与相关高质量参考基因组的染色体进行全长对比。
亚序列:通过选择任意的起始点,对全长染色体序列的连续区域进行随机采样,生成亚序列。
模型生成和交叉验证:
本研究选择随机森林作为机器学习算法,生成的模型是二元分类器,预测单一抗生素的易感或耐药表型。使用训练集、测试集和保留验证集对每个模型进行标准的5倍交叉验证,以监控模型的过拟合情况。
4、研究结果
1、染色体亚序列可用于预测AMR表型
为了评估需要多少序列数据才能进行准确的 AMR 表型预测,本研究随机采样每个染色体比对的较小区域以生成各种大小的亚比对序列,并使用相同的算法和参数为每个亚比对序列构建模型(表1)。对于所有三个物种,AUC随着亚序列长度的增加而增加(图1)。这种效应在结核分枝杆菌中最为明显,可能是因为该物种的菌株之间具有高度相似性。准确率、F1 分数和 Matthews 相关系数 (MCC) 遵循与 AUC 相同的趋势,错误率随着序列长度的增加而下降。这些结果表明,长度只有几千个碱基的小保守染色体区域可以通过机器学习算法识别耐药信号。
2、产生高精度和低精度模型的染色体区域
基于染色体位置绘制每个亚序列模型时,我们观察AUC相较于参考染色体较一致。对于每个物种,都有几个高于背景的峰。例如,结核分枝杆菌中大约位于770,000、2,160,000和4,250,000 的三个显著峰对应于包含rpoB、katG、 ermA和ermBAMR 基因的亚序列(图2)。以上基因分别编码可赋予对利福霉素,异烟肼和大环内酯类抗生素抗性的蛋白质。另一方面,有一些亚序列模型的低谷部分无法成功预测耐药表型。例如,肺炎克雷伯菌的近似位置1,310,000、3,440,000、4,035,000 和 4,535,000 。这些谷通常与移动元素的位置相对应(图2)。总体而言,这些结果表明对含有染色体编码的 AMR 基因的区域具有高于平均水平的预测能力,而在保守性较差的区域则低于平均 AUC。
3、序列相似性影响亚序列模型的性能
为了观察菌株相似性如何影响预测,我们使用来自整个染色体序列的核苷酸k聚体相似性对每个菌株进行聚类,并通过改变聚类阈值来评估基于亚比对序列的模型性能。
当k聚体相似性的聚类阈值降低时,模型性能也开始降低(图3)。发生这种情况是因为随着集群变得更大和更具包容性,训练集和测试集中菌株之间的遗传距离正在增加。从无聚类到具有最低相似性阈值的聚类,肺炎克雷伯菌和沙门氏菌的平均AUC下降约10%,结核分枝杆菌下降约2% 。当使用基于每个亚序列的单个序列而不是整个染色体比对的k聚体相似性重复分析时,也会观察到这种趋势。这些结果表明随机森林模型可以学习潜在的系统发育并使用这些信息来帮助进行表型预测。
4、 一些亚比对序列包含广泛保守的 AMR 信号
为了区分具有良好特征的基因编码蛋白质的亚序列和那些特征不佳的亚序列,根据其染色体比对位置在每个聚类阈值下绘制了AUC > 0.80的亚序列。每个亚序列中搜索了已知编码与 AMR、毒力或膜转运相关的功能的基因。总的来说,在这组亚比对中,AMR、毒力因子和转运蛋白基因富集。但还有许多亚序列没有带注释的AMR、毒力或转运蛋白基因(图5)。猜测这些区域可能未被发现,或者可能与AMR在耐药菌株的进化过程中具有重要的相关性。
5、结论
这项研究的结果表明,预测 AMR 表型可能不需要完整的基因组序列。然而,模型中使用的抗生素、亚比对序列大小和基因组序列区域对模型的准确性有显著影响。这可能最终会为生物信息学工作流程的开发提供信息,这些工作流程可以使用不完整的基因组序列数据进行预测。
关于金匙医学
金匙医学成立于2017年,坐落于北京昌平中关村生命科学园,公司不断深耕分子诊断技术在感染领域的应用。金匙医学与中日友好医院、北京大学人民医院、四川大学华西医院、中国医学科学院血液学研究所血液病医院、陆道培医疗集团等顶级院所建立了深入合作关系,服务临床千余家,面向呼吸、血液、检验、重症、感染等科室,提供病原微生物宏基因组诊断产品及检测服务的整体解决方案。
金匙医学母公司及子公司天津金匙于2020年双双取得国家高新技术企业证书认定,并于2019年和2020年蝉联清科集团评选的Venture 50最具投资价值企业,连年入选动脉网“中国创新医疗服务榜 TOP100”,在2020年中关村国际前沿科技创新大赛中荣登“病毒检测技术TOP10榜单”。
金匙医学已发布基于二代测序和三代测序病原微生物高通量检测产品,实现了进口和国产测序平台并双双高分通过国家临检中心mNGS室间质评。金匙医学创新推出直接针对临床样本进行宏基因组分子药敏表型预测的产品GenseqAMR。在血液样本领域,金匙医学已推出血浆及血细胞检测组合解决方案,其中,金识原®针对血浆层核酸检测已在国际检验学知名期刊《Clinical Chemistry》发表系统性临床研究性能验证文章,目前该产品已通过中检院注册检并进入NMPA三类注册临床研究。
金匙医学在北京、上海、广州、天津拥有自己的医学实验室,面积超过17000m²,在武汉、成都、西安与当地医学实验室均有合作。此外,金匙医学协助郑州、深圳、南昌、济南、昆明、海口、南京等多家三甲医院实现院内开展病原基因检测项目。
金匙医学管理团队多位成员来自知名外资药企、硅谷著名临床诊断公司以及国内成功基因检测类公司的管理层,从业时间在二十年以上。公司现有员工500余人,企业90%以上人员为生命科学和临床医学背景,普遍在基因测序、医药、诊断企业,医疗机构和微生物研究机构工作多年。企业20%以上人员拥有博士学历,50%以上人员拥有硕士学历。
金匙医学已获得数个I类,II类注册证,2项已授权发明专利,二十余项计算机软著,并与多家顶级临床院所深入合作,发表20余篇高分SCI文章,其中共一和共通讯作者文章5篇。2020年7月,金匙医学研发的“病原微生物测序数据分析软件”成功获得医疗器械注册证。
CONTACT INFORMATION
联系方式
金匙北京:北京市昌平区生命园路9号院博晖创新3号楼1层3层
咨询电话:010-69739593
金匙天津:天津市武清开发区创业总部基地B21栋
咨询电话:022-22977679
金匙上海:上海市嘉定区惠平路801号2号楼101
咨询电话:021-60765612
金匙广州:广州市黄埔区开源大道11号科技企业加速器C5栋 202-206
咨询电话:020-32037636
客服电话:17526851372 18522759136
金匙医学科技有限公司. All Rights Reserved.
OFFICIAL ACCOUNTS
公众号

ONLINE MESSAGE
在线留言