— 2025/4/25
在生命科学的前沿,AI技术正在引发一场革命。最近,生物计算公司ProFluent推出了ProGen3,这是一款强大的生成式蛋白质语言模型(PLM),它有望在抗体研发、工业酶合成及基因编辑技术领域带来重大突破。研究显示,ProGen3的规模和设计优化能够生成功能强大的新型蛋白质,甚至重塑我们对生物学基本构建模块的理解。
蛋白质设计的关键挑战
蛋白质是生命体内的关键分子,负责多种生理功能。从催化生物化学反应到识别入侵病原体,它们的作用不可小觑。然而,设计全新的氨基酸序列以实现自然界中未曾出现的功能,如新型药物或超稳定的工业酶,一直面临巨大挑战。传统的蛋白质设计方法往往依赖于现有结构的修改,创新空间有限。ProGen3的出现,为解决这一根本性问题提供了全新思路。
突破性的数据基础
ProGen3的训练数据来自一个名为Profluent Protein Atlas v1的庞大数据集,该数据集包含34亿个全长蛋白质和1.1万亿个氨基酸标记,成为目前业内最全面的蛋白质数据集之一。研究表明,随着模型规模的扩大,ProGen3能够生成更为多样化且功能真实的蛋白质序列。例如,ProGen3-46B生成的蛋白质多样性比小型模型高出近两倍,显示出更广泛的生物学应用潜力。
ProFluent的研究团队采用了创新的训练方法,使模型能够理解蛋白质序列中的长距离依赖关系和复杂的空间构型信息,这是此前蛋白质语言模型的主要局限所在。通过整合序列数据与结构信息,ProGen3能够在理解生物学原理的基础上,提出符合物理化学规律的创新设计。
实际应用中的优异表现
在实际应用验证中,研究团队通过ProGen3设计了一系列高质量的抗体。这些抗体不仅在亲和力、稳定性、可溶性等多项关键属性上与已获批准的临床药物相当,还展现出了优越的可开发性,挑战了传统抗体设计的技术限制。此类"从零设计"的能力为解决困扰制药行业的靶点可成药性问题提供了新的可能性。
更为引人注目的是,研究团队还利用ProGen3开发出一种紧凑型的基因编辑器,仅由592个氨基酸组成,远小于目前主流CRISPR系统的体积,同时保持了精准的基因编辑能力。这一成果不仅验证了ProGen3在设计复杂功能蛋白方面的能力,也为基因治疗领域提供了潜在的技术突破,特别是在递送系统容量有限的情况下。
未来展望
ProGen3的推出标志着蛋白质设计领域进入了一个由AI驱动的新时代。ProFluent的研究者们认为,随着计算资源的进一步提升和数据集的持续扩充,这类模型的能力还将获得显著提升。在不远的将来,我们有望看到更多AI设计的生物分子在药物研发、酶工程、生物材料和可持续工业生产等领域发挥关键作用。
值得注意的是,ProFluent公司已宣布将为学术研究提供有限访问ProGen3的途径,这种开放态度有望加速整个生命科学领域的创新步伐,让更多研究人员能够借助AI工具探索生物学的未知领域。随着技术的进一步成熟,我们或许将见证由AI启发的全新生物学范式的诞生。