9月21日, 在2025浦江創(chuàng)新論壇(第十八屆)人工智能賦能科學(xué)研究專題論壇上,“2025人工智能賦能科學(xué)研究共創(chuàng)成果”重磅發(fā)布,集中展示了我國在科學(xué)智能領(lǐng)域取得的突破性進(jìn)展。上海科學(xué)智能研究院(下稱上智院)牽頭研發(fā)的燧人催化大模型、女媧RNA大模型和女媧蛋白狀態(tài)遷移大模型集中入選。
具體而言,燧人催化大模型統(tǒng)一催化合成預(yù)測框架,在實際反應(yīng)中將反應(yīng)選擇性提升3倍,推動有機(jī)合成研發(fā)與化工生產(chǎn)向智能化升級。作為領(lǐng)域內(nèi)首個生成式原生的多模態(tài)RNA大模型,女媧RNA大模型整合十億級多模態(tài)數(shù)據(jù),在數(shù)十項基準(zhǔn)測試中取得最優(yōu)結(jié)果,助力核酸藥研發(fā)。女媧蛋白狀態(tài)遷移大模型實現(xiàn)亞微秒級別蛋白質(zhì)動態(tài)過渡路徑預(yù)測,并構(gòu)建行業(yè)最大的全原子精度蛋白質(zhì)構(gòu)象采樣數(shù)據(jù)集,為蛋白質(zhì)動態(tài)機(jī)制研究與藥物設(shè)計提供強(qiáng)大支持。
三大模型及相關(guān)高質(zhì)量數(shù)據(jù)集將于近期在星河啟智科學(xué)智能開放平臺上線,向科研和產(chǎn)業(yè)界及廣大開發(fā)者開放使用。
(上智院科研副院長、復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院副院長程遠(yuǎn)出席“2025 年度人工智能賦能科學(xué)研究十大代表性案例成果”發(fā)布儀式)
燧人催化大模型:革新AI算法框架,開啟分子合成“智駕”新時代
基于人工智能的精準(zhǔn)合成長期面臨一個根本挑戰(zhàn):合成路線規(guī)劃(即序列生成)與反應(yīng)性能預(yù)測(即數(shù)值回歸)在方法與模型上相互割裂,這嚴(yán)重阻礙了高效、統(tǒng)一的深度學(xué)習(xí)框架的建立。突破這一瓶頸,已成為推動化學(xué)研究從“經(jīng)驗試錯”向“智能設(shè)計”范式變革的關(guān)鍵。
燧人催化大模型應(yīng)需而生。由上智院、復(fù)旦大學(xué)、浙江大學(xué)聯(lián)合研發(fā),模型可同時實現(xiàn)對反應(yīng)活性、選擇性及單步正向與逆向合成的精準(zhǔn)預(yù)測,如同為化學(xué)家配備了一位精通合成設(shè)計與效果優(yōu)化的“AI科研伙伴”,極大提升了催化研究的整體性與智能化水平,助力重塑化工與制藥產(chǎn)業(yè)創(chuàng)新格局。
團(tuán)隊基于超過1300萬條反應(yīng)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使模型能夠自發(fā)學(xué)習(xí)化學(xué)鍵的變化規(guī)律、提取深層次認(rèn)知,從而在反應(yīng)活性、選擇性的15個指標(biāo)中有13個指標(biāo)達(dá)到領(lǐng)先水平,在反應(yīng)正向與逆向合成預(yù)測任務(wù)的16個指標(biāo)中有14個達(dá)到領(lǐng)先水平,相關(guān)工作將作為Nature Machine Intelligence九月刊封面文章發(fā)布。
此外,學(xué)術(shù)層面,該模型已與中國科學(xué)院上海有機(jī)化學(xué)研究所合作,在實際反應(yīng)中實現(xiàn)選擇性提升3倍,大幅提高了有效生成目標(biāo)產(chǎn)物的效率,顯著減少了項目的濕實驗次數(shù)、原料浪費(fèi)和副產(chǎn)物;產(chǎn)業(yè)層面,模型已通過大型化工企業(yè)應(yīng)用測試,有望在實際工業(yè)化生產(chǎn)環(huán)境中落地。
值得一提的是,本次大會發(fā)布是上智院物質(zhì)科學(xué)領(lǐng)域大模型的首度公開亮相。燧人氏作為鉆木取火的發(fā)明者,曾引領(lǐng)華夏民族實現(xiàn)從自然物質(zhì)到能源利用的重大跨越,以此命名彰顯了該模型在物質(zhì)轉(zhuǎn)化與使用的開拓性使命。
女媧RNA大模型:涌現(xiàn)深層認(rèn)知,掌握RNA的語言語法
RNA作為生命體內(nèi)的“精密軟件”,影響著遺傳信息傳遞、基因調(diào)控、催化等核心生物過程,這使得其作為一種全新的藥物模態(tài),在解決傳統(tǒng)藥物難以應(yīng)對的“不可成藥”靶點(diǎn)方面擁有獨(dú)特優(yōu)勢。然而,由于其功能受到序列、結(jié)構(gòu)、修飾等多維度因素的復(fù)雜影響,理性設(shè)計功能性RNA分子一直是科學(xué)領(lǐng)域內(nèi)的重要問題。
基于星河啟智科學(xué)智能開放平臺,由上智院和復(fù)旦大學(xué)聯(lián)合攻關(guān)的女媧RNA大模型,整合了10億級RNA序列、結(jié)構(gòu)、修飾、RNA結(jié)合蛋白等多模態(tài)數(shù)據(jù),涵蓋mRNA、ncRNA等大多數(shù)RNA種類,開創(chuàng)性將多種與RNA設(shè)計息息相關(guān)的模態(tài)融合于一個大模型范式之下,構(gòu)建了領(lǐng)域首個生成式原生的多模態(tài)RNA大模型,將有力賦能創(chuàng)新核酸藥設(shè)計場景。
該模型通過學(xué)習(xí)海量序列數(shù)據(jù),涌現(xiàn)出對RNA折疊物理、調(diào)控語法等關(guān)鍵生物學(xué)特征的深層認(rèn)知,有效克服了RNA自身的高度多樣性與復(fù)雜性,如同一臺“RNA生物學(xué)模擬器”,為理解其功能、掌握RNA的“語言語法”提供了前所未有的工具。
這些深層認(rèn)知進(jìn)而轉(zhuǎn)化為超30項國際基準(zhǔn)測試中的頂尖表現(xiàn),在RNA結(jié)構(gòu)預(yù)測、逆折疊、轉(zhuǎn)錄豐度預(yù)測等數(shù)十個基準(zhǔn)任務(wù)中取得最優(yōu)結(jié)果,優(yōu)于Evo2等基因領(lǐng)域?qū)S心P停瑢⑾嚓P(guān)研究從“實驗試錯”推向“計算引領(lǐng)”,大大加速生命科學(xué)領(lǐng)域?qū)NA的深度研究。
女媧蛋白狀態(tài)遷移大模型:讓蛋白質(zhì)動起來,助推AI藥物設(shè)計落地
在生命活動中,蛋白質(zhì)并非靜態(tài)的“照片”,而是時刻處于動態(tài)變化的“影片”,其功能奧秘正藏于運(yùn)動之中。盡管靜態(tài)結(jié)構(gòu)為學(xué)術(shù)研究和傳統(tǒng)方法提供了基礎(chǔ),但唯有啃下動態(tài)變化這一“硬骨頭”,才能真正推動AI模型在藥物設(shè)計等實際場景中落地應(yīng)用。
為此,上智院和復(fù)旦大學(xué)聯(lián)合構(gòu)建了全球最大規(guī)模、最長時間尺度的蛋白質(zhì) 4D 動態(tài)數(shù)據(jù)庫——dynamicPDB,系統(tǒng)收錄了 1.26 萬條微秒級全原子構(gòu)象演化軌跡,覆蓋上百種典型折疊類型與功能家族,呈現(xiàn)從亞納秒局部震蕩到微秒級大尺度轉(zhuǎn)變的完整過程。所有軌跡均基于高精度分子動力學(xué)模擬生成,并經(jīng)過統(tǒng)一清洗、拓?fù)渥⑨尯蜁r空對齊處理,可直接支持構(gòu)象轉(zhuǎn)變機(jī)制解析、自由能面重建、AI 生成模型訓(xùn)練等研究。發(fā)布不到一年,dynamicPDB 已在開源社區(qū)獲得超過 760 顆Star、近百名關(guān)注者和 130 余個分支,迅速成長為全球蛋白質(zhì)動力學(xué)研究的重要基礎(chǔ)設(shè)施之一。
在此基礎(chǔ)上,團(tuán)隊創(chuàng)新開發(fā)出4D diffusion 模型——女媧蛋白狀態(tài)遷移大模型,首次實現(xiàn)了從蛋白質(zhì)序列與首幀結(jié)構(gòu)出發(fā),生成未來 32 幀全原子構(gòu)象演化軌跡和未來4個結(jié)構(gòu)狀態(tài)遷移的能力。該模型通過空間模塊與運(yùn)動對齊模塊聯(lián)合建模構(gòu)象間的時空依賴,能夠生成在低維動力學(xué)空間上與真實分子動力學(xué)仿真高度一致的軌跡,其準(zhǔn)確性已可與領(lǐng)域知名模型 AlphaFlow 比肩,同時展現(xiàn)出更高的采樣多樣性,能夠捕捉更多潛在中間態(tài)與構(gòu)象分支。
dynamicPDB 與 4D diffusion 模型的結(jié)合,標(biāo)志著蛋白質(zhì)研究正從靜態(tài)結(jié)構(gòu)解析邁向動態(tài)演化生成的全新范式,為結(jié)構(gòu)預(yù)測、功能推斷與藥物設(shè)計等領(lǐng)域打開巨大想象空間。