Meta让150亿参数语言模型学会从头设计「全新」蛋白质,LeCun:效
Meta最新力作!训练出来的语言模型直接化身创造者,可以设计生成蛋白质生命的终极奥秘会被人工智能发现吗
AI在生物医学领域又有新进展是的,这次也是关于蛋白质的
不同的是,过去AI发现的是蛋白质结构,而这次开始自己设计生成蛋白质结构如果你以前是检察官,那么现在说你进化成了创造者也不是不可能
在这项研究中,Meta的AI研究机构包括FAIR的蛋白质研究团队作为在脸书工作多年的首席AI科学家,Yann LeCun也第一时间转发了自己团队的成果,并给予了高度评价
这两篇关于BioRxiv的论文是Meta在蛋白质设计/生产方面的惊人成就系统使用模拟退火算法寻找一个氨基酸序列,该序列的折叠方式符合要求的形状或满足约束条件
原子层次预测模型ESM2
你猜对了,这项研究和这两篇论文都是基于Meta不久前提出的蛋白质的预测和发现的大语言模型:ESM2。
这是一个拥有150亿个参数的大型模型伴随着模型从800万参数扩展到1500万参数,内部表示中的信息可以用来预测原子分辨率的三维结构
利用大规模语言模型学习进化模式,可以直接从蛋白质序列端到端生成精确的结构预测,在保持准确性的同时,预测速度比目前最先进的方法快60倍。
事实上,在这种新的结构预测能力的帮助下,Meta用大约2000个GPU的集群在短短两周内预测了地图中超过6亿个宏基因组蛋白质的序列。
蛋白质设计特殊编程语言
锋利的工具能做好工作。
为了使蛋白质的设计和生产更加高效,研究人员在前人成果的基础上,开发了一种用于蛋白质设计的高级编程语言。
总的来说,本文描述了生成机器学习如何实现由蛋白质设计高级编程语言控制的复杂蛋白质的模块化设计。
他说,这篇文章的主要思想不是使用序列或结构的积木,而是将模块化放在更高的抽象层次上,让黑盒优化生成具体的设计优化的每一步都预测原子结构
与以前的蛋白质设计方法相比,这种新方法允许设计者指定任意和不可微的约束,范围从指定原子坐标到蛋白质的抽象设计方案,如对称设计。
对于可编程性,重要的是约束是模块化的例如,下图是将同一个约束层应用于两级对称编程的情况
这些约束也很容易重新组合例如,对原子坐标的约束可以与对对称性的约束相结合或者可以组合不同形式的两级对称来编程非对称复合结构
让蛋白质设计像盖大楼一样
在论文中,研究人员认为,蛋白质设计将受益于一组基本抽象概念提供的规律性,简单性和可编程性,就像建筑,机器,电路和计算机软件工程中使用的那些概念一样。
但与这些人工创造不同,蛋白质无法分解成易于重组的部分,因为序列的局部结构与其整体环境交织在一起从零开始的经典蛋白质设计试图确定一组基本结构组件,然后将它们组装成高阶结构
类似地,传统的蛋白质工程通常将天然蛋白质序列的片段或结构域重组为混合嵌合体可是,现有方法无法达到真正可编程性所要求的高组合复杂度
本文表明,现代一代模型已经在新的组合复杂性水平上实现了模块化和可编程性的经典目标将模块化和可编程性放在更高的抽象层次上在这个层面上,生成模型弥补了人类直觉与特定序列和结构生成之间的差距
在这种情况下,蛋白质设计者只需要对高级指令进行重组,获得满足这些指令的蛋白质的任务就是生成模型。
研究人员提出了一种用于生成性蛋白质设计的编程语言,允许设计者指定直观,模块化和分层的程序高级程序可以通过生成模型转化为低级序列和结构该方法利用了蛋白质语言模型的发展,能够学习蛋白质的结构信息和设计原理
本研究中的具体实现是基于基于能源的发电模型,如上图所示。
首先,一个蛋白质设计者指定了一个由一组层次约束组成的高级程序。
然后,这个程序被编译成一个能量函数来评估它与约束的相容性,约束可以是任意的,不可区分的。
通过将原子结构预测结合到能量函数中来应用结构约束这种方法可以生成各种复杂的设计
从头开始生成蛋白质序列
第一是为给定的骨架结构设计一个序列使用语言模型,可以得到所有目标的成功设计,成功率为19/20,而没有语言模型的序列设计成功率只有1/20
第二个任务是无约束生成研究小组提出了一种从语言模型定义的能源景观中采样对的新方法
通过不同的拓扑结构进行采样,可以再次提高实验的成功率。
为了证明预测的蛋白质结构超出了天然蛋白质的限制,研究团队在覆盖所有已知天然蛋白质的序列数据库中搜索了语言模型生成的蛋白质序列。
结果表明,两者之间不存在匹配关系,自然序列和语言模型生成的预测结构不同。
Sercu表示,可以单独使用ESM2蛋白质语言模型来设计蛋白质结构。研究团队通过实验测试了228种蛋白质,成功率高达67%!
Sercu认为,只在序列上训练的蛋白质语言模型可以学习连接序列和结构的深层模式,可以用来从零开始设计蛋白质,这超出了自然探索的设计空间。
探索蛋白质生成的深层语法
在论文中,Meta的研究人员表示,尽管语言模型只是按顺序进行训练,但该模型仍然可以设计蛋白质的深层语法结构,并突破天然蛋白质的限制。
如果图A的正方形代表所有蛋白质序列组成的空间,那么自然蛋白质序列就是灰色部分,覆盖了其中的一小部分为了超越自然顺序,语言模型需要访问底层的设计模式
研究团队要做两件事:一是从零开始设计蛋白质的主链,其次,根据主链,从头开始生成蛋白质序列。
研究团队使用mask语言模型对ESM2进行训练,训练内容包括进化过程中数百万种不同的天然蛋白质。
经过语言训练后,可以在模型的内部注意状态中识别出关于蛋白质三级结构的信息之后,研究人员通过线性投影将对蛋白质序列中一对位置的关注转化为残基间距离的分布
研究人员表示,语言模型预测蛋白质结构的能力指出了天然蛋白质序列背后更深层的结构序列,以及模型可以学习的深层语法的可能性。
结果表明,在进化过程中,蛋白质序列中包含的大量生物结构和功能揭示了蛋白质的设计结构这种结构完全可以通过学习蛋白质序列的机器模型来复制
语言模型在六次实验中成功预测蛋白质结构
蛋白质深层语法的存在解释了两个看似矛盾的发现:对天然蛋白质的理解依赖于训练数据,语言模型可用于预测和探索已知天然蛋白质家族之外的事物。
如果蛋白质语言模型的标度律继续有效,可以预期AI语言模型的生成能力将不断提高。
研究团队表示,由于蛋白质结构的基本语法,机器模型将学习更稀有的蛋白质结构,从而扩展模型的预测能力和探索空间。
一年前,DeepMind开源AlphaFold2连登《自然与科学》,炸了生物学和AI学术界。
一年后,人工智能预测模型如雨后春笋般涌现,频繁填补蛋白质结构领域的空白。
如果人类赋予人工智能生命,人工智能是不是完成人类生命之谜的最后一个谜题。
参考资料:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
责任编辑:夏冰
最新阅读
-
“深交所·创享荟”打造资本市场服务国企改革新典范
9月27日,深交所举办第九期“创享荟”国企专业化整合专场活动。“创享荟”是深交所着力打造的具有深市特色的市场服务品牌,目前已围绕热点主题举办了多期专场活动,影响力和吸引力不断增强。 深交所相关负...
-
微软在GitHub上线开发工具包,助力开发者使用Rust语言编写Wind
,微软Azure首席技术官MarkRussinovich日前在X平台发文,公开微软最近宣布“扩大采用Rust语言的成果”,微软同时还在GitHub中发布了一系列开发工具包,让开发者可以使用Rust语言...
-
擦亮“金融为民”底色光大银行多维发力谱写“人民金融”新篇章
像这样面向听障人士的手语服务模式,光大银行已持续运行了四年。四年来,光大银行通过收集听障客群金融业务需求及沟通痛点,让金融服务更贴近听障人士的日常生活。而这,只是光大银行践行“金融为民”初心,努力提供...
-
云南信托联合多家金融机构进乡村开展金融知识普及教育
近日,为帮助广大农村群众进一步提升金融素养及金融风险防范意识,助力打造诚信、健康、安全、和谐的金融环境,在云南省农村信用社联合社、昆明市农村信用社联合社及昆明市西山区农村信用合作联社的共同协调组织下,...
-
“领头羊”计划走进广州番禺,超59家企业具备上市潜力
南方财经全媒体记者翁榕涛实习生曾日丽广州报道 9月26日下午,广州企业上市“领头羊”行动计划“番禺行动”启动仪式在番禺节能科技园交流中心举行。 据南方财经全媒体记者了解,今年7月以来,广州市地方金...
-
算力牛股中际旭创股价“反攻”800G能否助三季度业绩惯性增长?
21世纪经济报道记者雷晨实习生原婷婷北京报道 近期受国内外AI利好消息驱动,二级市场上,中际旭创股价重新抬头,9月26日、9月27日连续上涨。截至9月27日收盘,公司股价报收于114.07元/股,收...
-
索尼申请外置小型触摸屏专利,可“架在”PS5手柄上远程游玩游戏
,据外媒gamerant报道,索尼近日注册了一项新专利,从文件内容上来看,这项专利主要显示,外加可以使用一个“触摸屏”连接DualSense手柄,来游玩PS5游戏。 图源索尼 索尼于此前正式公布了...
-
14幅图看懂债市潮起潮落
超越城乡居民储蓄存款规模和A股总市值,拥有百万亿以上体量的债券。如同资产配置中的“米面粮油”,在投资中无处不在。相较于股票,您可能是更加委婉地参与其中,大部分人是通过银行理财、债券基金、保险、资管计划...
-
国庆黄金周运输今日启动,长三角铁路预计发送超250万人次
国庆黄金周运输启动。 9月27日,澎湃新闻记者从中国铁路上海局集团有限公司获悉,今天是铁路国庆黄金周运输首日,长三角铁路预计发送旅客逾250万人次,较2019年同期多发送60余万人次,增幅超三成。 ...
-
阿里拟分拆菜鸟在港上市菜鸟子公司已申请上百项物流专利
9月26日,阿里巴巴港交所公告,拟通过以菜鸟股份于香港联交所主板独立上市的方式分拆菜鸟。拟议分拆完成后,阿里巴巴将继续持有菜鸟50%以上的股份,菜鸟将仍为其子公司。 天眼查App显示,菜鸟网络科技有...