我院学者在《Nature Methods》发表HiMAP-seq新技术及三亿量级原创药物基因表达数据库CIGS
2025年8月18日,我院王栋团队与药学院邓赟团队和格物致和生物科技(北京)有限公司许俊泉团队合作,在世界顶级期刊《Nature Methods》(《Nature》大子刊,中科院一区TOP期刊)上发表题为《High-throughput profiling of chemical-induced gene expression across 93,644 perturbations》的研究论文。成都中医药大学基础医学院为论文第一完成单位,成都中医药大学基础医学院2025届博士研究生向磊、成都中医药大学基础医学院汪玉梅博士、格物致和生物科技(北京)有限公司邵伟博士为论文的共同第一作者,王栋、邓赟、许俊泉为共同通讯作者(图1)。
图1:文章首页
对细胞在各种扰动后的基因表达谱进行大规模、高通量检测,是目前生物医学领域的前沿。通过检测细胞被扰动后的基因表达变化特征,可以对生物系统进行量化,对于理解基因功能、细胞状态、生物过程、疾病机制以及新药研发,都具有重要意义。然而,当前常用的基因表达谱检测方法仍存在检测通量有限、成本高昂和耗时长等问题。
为突破现有基因表达谱检测技术的局限,在已有的HTS2(High Throughput Sequencing-based High Throughput Screening)技术的基础上,该研究开发了一种基因表达谱检测新技术——HiMAP-seq(Highly Multiplexed and Parallel Sequencing,多重和并行测序技术)(图2)。HiMAP-seq是一种能够在一次反应中对数千个样本的转录组变化进行大规模检测的新一代高通量技术,采用样本混合(pooled-sample)策略与多重基因检测设计,既能实现单次反应内对数千样本中的数千基因的并行表达分析,又能在通量、速度和成本上显著优于传统的RNA测序方法。同时,性能评估结果显示,HiMAP-seq在检测准确性、灵敏度、重复性、比对率及索引错配率等方面也均表现优异。
图2:HiMAP-seq示意图
借助HiMAP-seq技术,该研究建立了全球最大的、原创的中药化合物扰动基因表达谱数据集。该研究检测了1,865种中药来源化合物,在两种浓度条件下分别作用于人乳腺癌细胞系MDA-MB-231和人胚肾细胞系HEK293T后的基因表达谱数据。这一数据集是目前全球已知规模最大的中药化合物诱导的基因表达谱资源,共含有22,380个基因表达谱,0.76亿条原创的中药化合物扰动的基因表达数据。其中超过90%的化合物未被收录于现有的LINCS L1000数据库、ITCM等其他数据库,具有高度原创性和独特性。该研究还通过团队已有的HTS²技术,检测了11,356种具有生物活性的化合物扰动两种人细胞系的表达谱数据。
该研究将中药化合物数据和生物活性化合物基因表达谱数据整合,构建了一个大规模化学扰动的、原创的特征基因表达谱数据库——CIGS(Chemical-Induced Gene Signatures)(图3)。该数据库是目前全球在单一细胞模型体系下检测化合物数量最多的基因表达数据库:包含13,221种化合物,93,664个基因表达谱,覆盖3,407个生命调控关键基因,总计3.19亿条原创的化学扰动基因表达数据。
图3:CIGS示意图
随后,研究团队展示了CIGS数据库在揭示化合物靶点及其作用机制研究方面的应用潜力。通过对化学扰动诱导的特征基因表达谱进行t-SNE聚类分析,能够有效地对具有相似作用机制的化合物进行分类。聚类结果显示,功能相近的化合物在表达空间中聚集成簇,例如,BET簇中聚集了多个已知的BET抑制剂,表明它们在基因表达层面具有高度相似的特征基因表达谱。这一结果提示,小分子诱导的特征基因表达谱可以反映其作用机制的相似性。基于该策略,研究团队进一步预测并验证出一种此前作用机制不明确的中药来源化合物——女贞苷,为新型BET抑制剂。
进一步的,研究团队展示了CIGS数据库在细胞状态(cell state)研究方面的应用潜力。首先,构建了代表细胞铁死亡抑制状态的特征基因表达谱,并将该特征谱输入CIGS数据库,利用ZhangScore算法进行相似性分析,以筛选能够模拟该状态的化学扰动。分析结果显示,2,4-二羟基苯甲醛处理细胞所产生的基因表达谱与铁死亡抑制状态的特征谱高度相似,提示该化合物可能具有抑制铁死亡的能力。随后,通过体外实验验证了2,4-二羟基苯甲醛确实可以显著抑制铁死亡的发生。进一步的体内动物实验结果也表明,该化合物能够通过抑制顺铂诱导的铁死亡,有效缓解顺铂所致的急性肾损伤。最后,研究团队构建了2,4-二羟基苯甲醛诱导的特征基因表达谱,并基于CIGS平台的预测结果,成功揭示该化合物可通过靶向Keap1蛋白并激活Nrf2信号通路,从而实现铁死亡的抑制效应及肾脏保护功能。该研究不仅验证了CIGS在细胞状态研究中的实用价值,也为未知化合物作用机制的解析提供了新路径。同时,该研究专门构建了一个交互式在线平台(https://cigs.iomicscloud.com/),向全球用户开放全部CIGS数据资源,支持自由访问与下载(图4)。该平台还集成了多种功能丰富的在线分析工具,以满足不同研究者在药物筛选、机制研究和基因功能探索等方面的需求。
图4:在线交互平台(https://cigs.iomicscloud.com/)
该研究是我国中医药院校首次以第一完成单位在《Nature Methods》发表研究论文,标志着我校在中医药现代化、数据驱动药物发现、以及交叉融合技术创新方面的引领作用。HiMAP-seq技术的建立以及CIGS数据库的开放共享,不仅大幅拓展了当前基因表达谱研究的广度和深度,也为中医药科学内涵解析、新药发现、基因功能解析及复杂生物过程机制研究等多个生命医学领域提供了坚实的数据支撑与技术平台。
更重要的是,在目前人工智能(AI)的浪潮中,HiMAP-seq技术对于AI驱动的新药发现和前沿的虚拟细胞(Artificial Intelligence Virtual Cell, AIVC)研究具有重大意义。在基于AI的新药发现中,数据决定算法,算法对训练数据的规模与多样性高度敏感。HiMAP-seq能够在短时间内生成覆盖不同细胞类型、处理条件、药物扰动的大规模基因表达数据,为深度学习模型提供高维、全景式的训练集,从而大幅提高药物作用机制预测、药效评估以及副作用预测的精度和泛化能力。同时,虚拟细胞(AIVC)的核心是建立跨尺度、多模态的细胞动态模型,需要不同状态下细胞的转录组数据作为基础参数。HiMAP-seq可快速采集不同刺激、不同时间点、不同药物处理条件下的细胞状态转录组图谱,使虚拟细胞能够更真实地模拟基因调控网络、代谢通路与信号转导过程,并预测干预策略对细胞行为的动态影响。此外,这种技术还具备极强的可扩展性和可移植性,可以无缝整合到自动化实验平台与AI分析管线中,形成“实验—计算—验证”的闭环,加速药物从靶点发现到临床前验证的全链条过程。因此,HiMAP-seq不仅是大规模、高通量分子检测技术的一次跃迁,更将是支撑AI驱动精准医学、个性化治疗和未来虚拟生命系统构建的关键基础设施。
图5: HiMAP-seq与CIGS在生物医学研究中的多领域应用
该研究得到国家重点研发计划项目(2023YFF0720300)、国家自然科学基金(82172723)和国家中医药管理局创新团队和人才培养计划项目(ZYYCXTD-D-202209)的资助。
(文、图/基础医学院 王栋课题组)