OpenCRISPR-1的物理结构,这是一种由Profluent的AI技术创建的基因编辑器。图片来源:singularityhub.com
制图、写歌、作诗、编程、生成视频……生成式人工智能(AI)技术与各行业的结合不断为人们带来惊喜,在各领域掀起革新浪潮。
现在,AI的应用场景再次拓展:美国AI蛋白质设计公司Profluent宣布,一款完全由AI设计的基因编辑器,已成功编辑了人类细胞中的DNA。这预示着未来科学家能更精确、更快速地对抗疾病。
首款AI设计的基因编辑器
4月22日,初创公司Profluent宣布推出OpenCRISPRTM计划,并声称其成功使用AI生成的基因编辑器(称为OpenCRISPR-1)来编辑人类DNA。该公司表示,这是“世界上第一个开源的、AI生成的基因编辑器”,并且是“用AI从头开始设计的”。
这家公司将大量生物数据输入一个大型语言模型(LLM),在基因编辑技术CRISPR基础上提出了新的编辑方法。其目标是构建比现有生物机制更有效、更有能力的基因编辑器,使生物体能够抵御疾病和其他病原体。Profluent团队相信,在其他领域游刃有余的AI,同样可以在基因编辑领域如鱼得水。
“尝试用AI设计的生物系统来编辑人类DNA是一次科学上的挑战。”Profluent联合创始人兼首席执行官阿里·马达尼说,“我们的成功预示着未来AI将精确设计出一系列定制的疾病治疗方案。为了促进基因编辑领域创新,推动这一未来趋势,我们正在开源OpenCRISPRTM计划的产品。”这意味着OpenCRISPR-1编辑器是开放的,允许个人、学术实验室和公司免费试验该技术。
CRISPR和AI的“天作之合”
CRISPR这一基因编辑工具的灵感,来自细菌和古菌等原核生物的适应性免疫机制。在自然界,细菌和古菌通过CRISPR-Cas系统来对抗病毒入侵。该系统通过记录并剪切病毒基因组来保护细菌免受病毒感染。科学家们通过对CRISPR-Cas系统的研究,成功开发出了一系列强大的基因编辑工具,例如CRISPR-Cas9。
可以说,CRISPR是大自然掷了数十亿次骰子后(自然选择)产生的强大工具之一。不过,棘手的是,大多数Cas9蛋白长度超过1000个氨基酸,总体设计空间包含20的1000次方个可能序列,这比可观测宇宙中的原子数量还要多几个数量级。
只有当这些蛋白质以正确顺序排列并相互作用,才能实现精准切割。因此,即使是单个错误突变,也可能让蛋白质完全丧失功能。通过实验探索所有可能的序列变异,需要几代科学家的努力。但现在,通过AI系统,在几个小时内就可以轻松发现功能性基因编辑器。
Profluent公司采用了一种新颖方式来使用AI:他们没有增强现有系统,而是使用大型语言模型从头开始设计CRISPR组件。该模型也是聊天机器人ChatGPT和图像生成系统DALL-E的基础。
现在,人类的DNA,也能由AI重新改写了。
语言模型生成多种CRISPR-Cas蛋白
生成蛋白质语言模型需要大量数据进行预训练,而这需要涵盖广泛功能的大型、多样化的天然蛋白质序列数据集。为此,Profluent创建了迄今为止最广泛的CRISPR系统数据集,包含510万个CRISPR-Cas蛋白质数据。研究人员利用该数据集训练AI大型语言模型,并要求AI创建可在CRISPR系统中代替Cas9的潜在蛋白质。
结果显示,系统从400万个序列中进行筛选,最终确定了包括OpenCRISPR-1在内的新蛋白质。这种新设计蛋白质在测试中的表现与Cas9不相上下,但有一点明显突出:它对脱靶位点的影响降低了95%。这意味着它更加精确,几乎只在需要的地方起作用,而不会对DNA链造成任何多余损伤。
总体而言,这些结果将潜在Cas蛋白的范围扩大了近5倍。这些AI生成的蛋白质表现出更广泛的功能。它们在不同条件下保持高活性,能轻松适应不同的温度和分子环境。
Profluent尚未将这些合成基因编辑器进行临床试验,因此尚不清楚它们能否赶上或超过CRISPR的性能。但概念论证表明,AI模型能够编辑人类基因组。
此外,Profluent的平台能随意生成更多的基因编辑系统,而OpenCRISPR-1只是“冰山一角”。
发表在预印本服务器bioRxiv上的论文尚未经过专家同行评审。预计下个月,该公司将在美国基因和细胞治疗学会年会上提交这篇论文。与此同时,OpenCRISPR-1或其变体在多种生物体(包括植物、小鼠和人类)中是否都能发挥作用还有待证明。此外,技术的伦理和安全问题也需要考虑。但令人兴奋的是,这些突破性成果为生成式AI开辟了一条新途径,将对医学和健康领域产生广泛影响,有望从根本上改变人们的基因蓝图。