上海交大發(fā)布蛋白質(zhì)設(shè)計(jì)模型“Venus”用AI訓(xùn)練“六邊形戰(zhàn)士”
東方網(wǎng)通訊員符云霞、江倩倩3月22日?qǐng)?bào)道:提起蛋白質(zhì),你會(huì)想到什么?肉、蛋、奶,這些食物中含有豐富的蛋白質(zhì),可以為人們提供身體所需的營(yíng)養(yǎng)。但天然的蛋白質(zhì)難以發(fā)揮這些功能,需要對(duì)蛋白質(zhì)的功能進(jìn)行設(shè)計(jì)和改造,才能使它成為滿足應(yīng)用需求的產(chǎn)品。然而,這并不是一件容易的事——一款功能過(guò)硬的蛋白質(zhì)產(chǎn)品的誕生,通常需要豐富的專家經(jīng)驗(yàn)配合數(shù)以萬(wàn)計(jì)的實(shí)驗(yàn)試錯(cuò),長(zhǎng)期以來(lái),蛋白質(zhì)設(shè)計(jì)改造的時(shí)間長(zhǎng)、成本高、試錯(cuò)密集問(wèn)題,一直是業(yè)界難題。
3月22日,上海交通大學(xué)洪亮教授團(tuán)隊(duì)發(fā)布最新成果,使這些問(wèn)題迎刃而解。團(tuán)隊(duì)將AI與蛋白質(zhì)設(shè)計(jì)與改造相結(jié)合,建立了全球最大的蛋白質(zhì)數(shù)據(jù)集,基于該數(shù)據(jù)集訓(xùn)練的模型,可以精準(zhǔn)、高效地預(yù)測(cè)、設(shè)計(jì)蛋白質(zhì)的功能,把蛋白質(zhì)生產(chǎn)由“緩慢的試錯(cuò)”變?yōu)椤案咝实木珳?zhǔn)設(shè)計(jì)”。該成果配合行業(yè)領(lǐng)先的自動(dòng)化設(shè)備,已經(jīng)進(jìn)行產(chǎn)業(yè)化落地,把蛋白質(zhì)設(shè)計(jì)從原先的“復(fù)雜科學(xué)”變?yōu)槿缃竦摹昂?jiǎn)單工程”。

建立全球最大的蛋白質(zhì)序列數(shù)據(jù)集
蛋白質(zhì)是由氨基酸序列構(gòu)成的,氨基酸序列的長(zhǎng)度從數(shù)百個(gè)到上千個(gè)不等。AI時(shí)代,數(shù)據(jù)是推動(dòng)技術(shù)進(jìn)步的核心資源,龐大的蛋白質(zhì)序列數(shù)據(jù)集為AI模型提供了豐富的“學(xué)習(xí)材料”,能幫助模型更好地理解蛋白質(zhì)的序列、結(jié)構(gòu)和功能關(guān)系。洪亮團(tuán)隊(duì)建立的蛋白質(zhì)序列數(shù)據(jù)集Venus-Pod含有近90億條蛋白質(zhì)序列,包含數(shù)億個(gè)功能標(biāo)簽,是全球數(shù)據(jù)規(guī)模最大、功能批注標(biāo)簽最多的數(shù)據(jù)集,也是另一行業(yè)知名模型——美國(guó)ESM-C模型訓(xùn)練用的21億蛋白質(zhì)序列的4倍體量。
該數(shù)據(jù)集包含36.2億條陸地微生物蛋白質(zhì)序列、26.4億條海洋微生物蛋白質(zhì)序列、24.3億條抗體蛋白質(zhì)序列、0.6億條病毒蛋白質(zhì)序列,覆蓋從常規(guī)地表生物到極端環(huán)境微生物的蛋白質(zhì)序列信息,尤其是配備的數(shù)億功能標(biāo)簽。
這些數(shù)據(jù)意味著什么?洪亮表示,首先該數(shù)據(jù)集構(gòu)成了巨大的“蛋白質(zhì)礦藏”,使得人類有可能挖掘新的蛋白或者生物催化劑,助力我們生物醫(yī)藥和合成生物學(xué)的快速發(fā)展;其次,AI大模型有望通過(guò)海量數(shù)據(jù)的學(xué)習(xí)和掌握自然界蛋白質(zhì)的進(jìn)化模式,為AI設(shè)計(jì)優(yōu)異的蛋白質(zhì)產(chǎn)品提供了寶貴的學(xué)習(xí)資料。
瞄準(zhǔn)蛋白質(zhì)“功能預(yù)測(cè)”,用AI訓(xùn)練“六邊形戰(zhàn)士”
蛋白質(zhì)是由20種氨基酸組成的一條高分子鏈,這個(gè)高分子鏈會(huì)扭曲并折疊成獨(dú)特的三維結(jié)構(gòu),正是這種獨(dú)特結(jié)構(gòu)賦予了特定蛋白質(zhì)的生物功能。2024年,諾貝爾化學(xué)獎(jiǎng)?lì)C發(fā)給谷歌DeepMind團(tuán)隊(duì),該團(tuán)隊(duì)利用AI技術(shù)精準(zhǔn)解析了蛋白質(zhì)序列到三維結(jié)構(gòu)的關(guān)系,解決了困擾生物學(xué)家長(zhǎng)達(dá)50年的基本難題。然而,一個(gè)現(xiàn)實(shí)的問(wèn)題是:如果我們稍微改動(dòng)蛋白質(zhì)的氨基酸序列,哪怕只是1%的微小改變,蛋白質(zhì)的整體結(jié)構(gòu)看似沒(méi)有發(fā)生明顯變化,但它的功能大概率會(huì)變差,甚至完全喪失。換言之,要設(shè)計(jì)出一款成功的蛋白質(zhì)產(chǎn)品,不能只關(guān)注它的三維結(jié)構(gòu),而是要能成功預(yù)測(cè)和設(shè)計(jì)它的功能。因此,洪亮教授團(tuán)隊(duì)“另辟蹊徑”,不再執(zhí)著于蛋白質(zhì)的結(jié)構(gòu),而是直接瞄準(zhǔn)“功能預(yù)測(cè)”這一終極目標(biāo),將復(fù)雜的蛋白質(zhì)設(shè)計(jì)變成以需求為導(dǎo)向,配合少量實(shí)驗(yàn)輸出結(jié)果的簡(jiǎn)單過(guò)程。
“我們訓(xùn)練了Venus系列模型,與DeepMind團(tuán)隊(duì)的AlphaFold預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)不同,這個(gè)模型學(xué)習(xí)自然界蛋白質(zhì)序列的組織規(guī)則以及它與功能之間的關(guān)系,其預(yù)測(cè)蛋白質(zhì)突變功能的精度位居行業(yè)榜單之首?!焙榱帘硎荆琕enus系列模型具備兩大核心功能:“AI定向進(jìn)化”與“AI挖酶”。所謂“AI定向進(jìn)化”是指?Venus系列模型可以對(duì)一個(gè)不盡如人意的蛋白質(zhì)產(chǎn)品的多種性能進(jìn)行優(yōu)化,讓它成為一個(gè)“六邊形戰(zhàn)士”滿足應(yīng)用需求。而“AI挖酶”則是指?Venus?系列模型基于其海量的未知功能蛋白質(zhì)數(shù)據(jù)集,可以“海選超能力戰(zhàn)士”,去精準(zhǔn)發(fā)掘滿足苛刻應(yīng)用需求的具備超常規(guī)功能的蛋白質(zhì),比如極度耐熱、極度耐酸、極度耐堿、極度耐胃腸消化等。這些超常規(guī)功能的蛋白質(zhì)在生物技術(shù)、醫(yī)藥研發(fā)和工業(yè)生產(chǎn)中具有巨大的應(yīng)用潛力,能夠?yàn)橄嚓P(guān)領(lǐng)域帶來(lái)創(chuàng)新和突破。
與此同時(shí),配合Venus系列模型的全球首款低通量大體積蛋白質(zhì)表達(dá)、純化與功能檢測(cè)自動(dòng)化一體機(jī),可在24小時(shí)內(nèi)不間斷地完成100余個(gè)蛋白質(zhì)的表達(dá)、純化與檢測(cè)任務(wù),較人力效率提高近10倍,將大大減少研發(fā)過(guò)程中的人力、物力和時(shí)間成本投入,顯著提高蛋白質(zhì)工程與合成生物學(xué)研究的效率。其宗旨就是“設(shè)計(jì)AI化,實(shí)驗(yàn)自動(dòng)化”,讓科研人員從繁瑣的設(shè)計(jì)和實(shí)驗(yàn)中解放出來(lái),他們只需要提出問(wèn)題,AI和自動(dòng)化來(lái)解決問(wèn)題,最終將復(fù)雜的蛋白質(zhì)科學(xué)發(fā)現(xiàn)變成“傻瓜相機(jī)式”的簡(jiǎn)單過(guò)程。
已有多款產(chǎn)品落地,助力阿爾茲海默等疾病的診斷
從基礎(chǔ)科研到產(chǎn)業(yè)應(yīng)用,在任何科學(xué)領(lǐng)域都是一項(xiàng)從0到100的挑戰(zhàn),AI蛋白質(zhì)設(shè)計(jì)也不例外:經(jīng)AI設(shè)計(jì)出的蛋白質(zhì)在實(shí)驗(yàn)室環(huán)境中表現(xiàn)出色,并不能保證它在中試階段或大規(guī)模生產(chǎn)中同樣能夠維持優(yōu)異的性能,這是因?yàn)楫a(chǎn)業(yè)化生產(chǎn)涉及更大規(guī)模的原料處理、更復(fù)雜的工藝控制以及更嚴(yán)格的質(zhì)量標(biāo)準(zhǔn),這些因素都可能對(duì)蛋白質(zhì)的性能產(chǎn)生影響,而經(jīng)過(guò)Venus系列模型設(shè)計(jì)的多款蛋白質(zhì)已經(jīng)實(shí)現(xiàn)了落地產(chǎn)業(yè)化。
以國(guó)內(nèi)生長(zhǎng)激素龍頭金賽藥業(yè)的單域抗體耐堿性改造為例。提升蛋白質(zhì)的耐堿性歷來(lái)是一項(xiàng)極具挑戰(zhàn)性的工作,洪亮團(tuán)隊(duì)借助該模型結(jié)合少量濕實(shí)驗(yàn)閉環(huán)迭代驗(yàn)證,不到?1?年將普通單域抗體耐堿性提升?4?倍,每年為金賽藥業(yè)節(jié)約上千萬(wàn)元成本。該成果已實(shí)現(xiàn)多個(gè)批次?5000?升放大生產(chǎn),成為全球首款由大模型設(shè)計(jì)并規(guī)?;a(chǎn)的蛋白質(zhì)產(chǎn)品。
另一項(xiàng)Venus系列模型的創(chuàng)新應(yīng)用則是對(duì)某體外診斷頭部公司堿性磷酸酶的改造項(xiàng)目。ALP?因高穩(wěn)定性和靈敏度被廣泛用作標(biāo)記酶,其活性越高,檢測(cè)靈敏度越高,從而能夠檢測(cè)到極低的生物標(biāo)志物,但提升ALP的活性一直是一個(gè)挑戰(zhàn)。Venus?系列模型成功優(yōu)化?ALP,使其分子活性超國(guó)際頭部公司產(chǎn)品?3?倍,為超敏檢測(cè)診斷(如心肌梗塞、阿爾茲海默癥)帶來(lái)巨大價(jià)值。目前,改造后的?ALP?已進(jìn)入?200L?規(guī)模放大生產(chǎn)階段,標(biāo)志著?Venus?系列模型成功實(shí)現(xiàn)產(chǎn)業(yè)轉(zhuǎn)化。
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
最新文章
- 英偉達(dá),開(kāi)啟硅光新紀(jì)元
- 嘉實(shí)多全新勁霆系列亮相,攜手天貓養(yǎng)車共筑
- 星紀(jì)元全系OTA升級(jí),開(kāi)啟智能出行新體驗(yàn)
- 億咖通科技與沈子瑜載譽(yù),引領(lǐng)汽車智能化新
- 灣區(qū)融合再提速深中跨市公交專線客流突破2
- 全新瑞虎7PLUS對(duì)決豐田銳放,誰(shuí)是年輕
- 浦創(chuàng)智能:憑創(chuàng)新科技,領(lǐng)航智能座艙新變革
- 東風(fēng)車谷造:創(chuàng)新領(lǐng)航,助力汽車產(chǎn)業(yè)躍新程
- 2月第四周新能源銷量風(fēng)云:理想奪冠,多品
- 海信洗衣機(jī)“王炸”新品來(lái)了!全球首臺(tái)4合
熱門文章
- 補(bǔ)齊知識(shí)技能短板提升畢業(yè)生就業(yè)能力——高
- 蔚來(lái),股價(jià)大跌!李斌發(fā)聲:今年Q4實(shí)現(xiàn)盈
- 中國(guó)最大核能供熱商用示范工程完成第6個(gè)供
- 中國(guó)石油昆侖之星科技公司成立開(kāi)啟車輔業(yè)務(wù)
- 中國(guó)品牌再出海阿維塔開(kāi)啟歐洲之行
- 售38.98-44.98萬(wàn)元騰勢(shì)N9正式
- 湖北移動(dòng)5G+AI賦能濕地治理數(shù)智守護(hù)綠
- 現(xiàn)代摩比斯在電氣化轉(zhuǎn)型中擴(kuò)大車載芯片生產(chǎn)
- 蔚來(lái)2024財(cái)年?duì)I收657.3億元,毛利
- 飛龍股份002536.SZ:目前公司主要