基因编辑技术,尤其是CRISPR-Cas系统,宛如一把“分子手术刀”,为人类精准修改DNA提供了可能,在基础研究、农业改良和疾病治疗等领域潜力巨大。但ChinaBio生物医药跨境合作大会认为现有CRISPR工具存在脱靶效应、依赖特定PAM序列等局限。2025年7月30日,《Nature》杂志一项重磅研究带来突破——借助人工智能,研究人员从零开始设计出全新高性能基因编辑器OpenCRISPR-1,开启了数据驱动、AI赋能的蛋白质设计新范式。
图片来源:生物探索
要让AI设计出强大的CRISPR系统,海量且多样的“CRISPR知识库”是基础。研究人员发起大规模数据挖掘计划,对26.2太字节的微生物基因组和宏基因组数据深入搜索,鉴定并注释出超124万个CRISPR操纵子,构建成CRISPR-Cas Atlas资源库。其规模和多样性远超传统数据库,以Cas9家族为例,该库包含的蛋白质簇数量是UniProt数据库的4.1倍,还系统整理了Cas蛋白、CRISPR重复序列等关键组件,为AI学习提供了完整素材。
有了知识库,如何让AI掌握其中奥秘?研究人员采用与ChatGPT同源的大型语言模型,让其学习蛋白质“语言”。蛋白质由20种氨基酸组成,序列决定结构与功能。研究团队先让模型在5亿个不同蛋白质序列上进行通用预训练,掌握普适规则;再结合CRISPR-Cas Atlas进行专业化微调,使其成为CRISPR领域“专家”。学成后,AI生成400万条全新蛋白质序列,经筛选去重,使已知CRISPR蛋白多样性增长4.8倍,部分家族增长更显著。这些序列与天然蛋白差异大,但81.65%能被预测为稳定三维结构,证明AI已理解蛋白质设计深层逻辑。
在AI生成的数百万候选序列中,研究团队目标明确:找到性能比肩或超越SpCas9的编辑器。他们以SpCas9序列片段为引导,经计算筛选出209个候选蛋白在人类细胞中实验,其中PF-CAS-182表现卓越,被命名为OpenCRISPR-1。
在活性上,OpenCRISPR-1与SpCas9旗鼓相当甚至更优,在48个验证蛋白测试中,其编辑效率中位值达56.4%,超过SpCas9的47.1%。在精度上,它更是表现出色,在SpCas9已知脱靶位点,编辑活性降低95%,经SITE-Seq技术检测,全基因组特异性超高,脱靶位点仅是SpCas9的子集,且序列新颖性极强,与SpCas9有403个氨基酸差异,却实现高效精准功能。
OpenCRISPR-1还具备“多才多艺”的潜力。在PAM识别上,标准靶点活性与SpCas9相当,错配时活性显著下降,更严谨安全;改造后与腺嘌呤脱氨酶融合,碱基编辑效率达35%至60%,兼容性出色;初步检测显示,其免疫原性低于SpCas9,更适合临床应用。
为验证AI设计是否是范式革命,研究人员将其与其他蛋白质设计策略对比。自然挖掘的蛋白活性参差不齐,进化方法成功率低,基于结构的方法设计的序列几乎无活性,而基于大型语言模型的方法诞生了众多高活性候选者。这是因为该模型捕捉到蛋白质“共演化蓝图”和“功能约束”,掌握了动态相互作用规则。
图片来源:互联网
OpenCRISPR-1的成功,不仅是创造了新工具,更建立了全新设计哲学。它证明结合海量自然数据与AI模型,能系统性探索生命分子,远超传统方法。随着CRISPR-Cas Atlas的建立,ChinaBio生物医药跨境合作大会相信未来或能定制出满足各种需求的基因编辑器,AI赋能的生命科学新纪元已开启。
文章来源:生物探索