0
| 本文作者: 梁丙鑒 | 2026-06-22 10:25 |
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))訊。近日,恩和科技在《bioRxiv》發(fā)布Biology Protocol Language(BPL)及其生成管線BPL-COGEN,首次為生物實(shí)驗(yàn)協(xié)議建立了一套形式化的語(yǔ)言體系,打通了Physical AI進(jìn)入物理世界的標(biāo)準(zhǔn)接口。

BPL是專為生物實(shí)驗(yàn)協(xié)議設(shè)計(jì)的可編譯、可驗(yàn)證的形式化語(yǔ)言。BPL-COGEN把自然語(yǔ)言協(xié)議自動(dòng)翻譯為BPL程序,由一個(gè)300億參數(shù)微調(diào)大語(yǔ)言模型與確定性編譯器構(gòu)成“生成—驗(yàn)證—修復(fù)”閉環(huán)。
在基于300篇《Nature Protocols》論文的基準(zhǔn)測(cè)試中,BPL-COGEN實(shí)現(xiàn)95.1%的首輪一致性,通過(guò)2輪編譯-仿真閉環(huán)將正確率推進(jìn)至98.6%。目前,相關(guān)代碼已在GitLab完全開源(MIT License)。
AI已會(huì)“思考”,但還不會(huì)“動(dòng)手”
當(dāng)前,AI已經(jīng)能在數(shù)字世界生成假設(shè)與設(shè)計(jì)實(shí)驗(yàn)。材料科學(xué)領(lǐng)域已經(jīng)出現(xiàn)自主驅(qū)動(dòng)的Self-driving Lab。但在生物學(xué)領(lǐng)域,無(wú)論上游AI多么強(qiáng)大,其輸出最終仍須被翻譯為物理操作,而這一過(guò)程,至今仍依賴自然語(yǔ)言文本
這是一個(gè)半導(dǎo)體和軟件行業(yè)幾十年前就已跨越的問(wèn)題。半導(dǎo)體設(shè)計(jì)通過(guò)Verilog和VHDL完成了從自然語(yǔ)言向硬件描述語(yǔ)言的躍遷,軟件工程通過(guò)類型化語(yǔ)言確立了可驗(yàn)證的穩(wěn)定性。生物學(xué)一直缺少與之對(duì)應(yīng)的、具備編譯器驗(yàn)證能力的底層語(yǔ)言,這正是當(dāng)前AI驅(qū)動(dòng)實(shí)驗(yàn)設(shè)計(jì)與可復(fù)現(xiàn)物理執(zhí)行之間的速率限制環(huán)節(jié)。
代價(jià)是清晰的。《Nature》在2016年針對(duì)1,576名研究者的調(diào)查顯示,超過(guò)70%的人無(wú)法復(fù)現(xiàn)他人實(shí)驗(yàn),超過(guò)一半的人無(wú)法復(fù)現(xiàn)自己的實(shí)驗(yàn)(Baker, *Nature*, 2016)。恩和團(tuán)隊(duì)的論文進(jìn)一步將問(wèn)題歸納為三個(gè)維度:
協(xié)議精確度。典型指令中常隱藏濃度、時(shí)間、體積等多處未明分支點(diǎn)。幾十條此類指令疊加,使實(shí)驗(yàn)可復(fù)現(xiàn)性完全依賴于人員的經(jīng)驗(yàn)補(bǔ)全。
協(xié)議驗(yàn)證。自然語(yǔ)言缺乏在執(zhí)行前模擬物理一致性的機(jī)制,內(nèi)部邏輯錯(cuò)誤往往只能靠人工判斷甚至“實(shí)驗(yàn)失敗”才能察覺(jué)。
跨平臺(tái)可遷移性。一項(xiàng)跨四個(gè)實(shí)驗(yàn)室的合成生物學(xué)研究發(fā)現(xiàn),名義一致的協(xié)議在不同實(shí)驗(yàn)室間產(chǎn)生了兩倍以上的轉(zhuǎn)化效率差異(Beal et al., 2016, 2020),根源不在生物本身,而在執(zhí)行上下文的隱性差別。
科學(xué)的累積,源于方法可被復(fù)現(xiàn)與忠實(shí)傳遞。若協(xié)議無(wú)法被無(wú)歧義表達(dá)與跨環(huán)境復(fù)用,AI 生成的實(shí)驗(yàn)設(shè)計(jì)就無(wú)法穩(wěn)定落地。
BPL設(shè)計(jì): AI負(fù)責(zé)生成,BPL-COGEN負(fù)責(zé)仿真與驗(yàn)證
BPL用形式化規(guī)范取代自然語(yǔ)言的歧義。在這套類型系統(tǒng)下,所有隱性參數(shù)都必須顯式聲明;任何違反物理規(guī)律的操作(如“將固態(tài)粉末加入空容器后取上清液”)將在編譯階段直接被攔截,從而避免了錯(cuò)誤流入真實(shí)實(shí)驗(yàn)臺(tái)。
為配合這一語(yǔ)言體系,團(tuán)隊(duì)構(gòu)建了BPL-COGEN自動(dòng)化編譯器。它將一個(gè)300億參數(shù)微調(diào)大語(yǔ)言模型與確定性編譯器耦合在“生成—驗(yàn)證—修復(fù)”的閉環(huán)機(jī)制中:自然語(yǔ)言SOP被歸一化,轉(zhuǎn)換為BPL,根據(jù)編譯器診斷反復(fù)修正,直到所有物理、量綱、狀態(tài)約束全部滿足。LLM負(fù)責(zé)理解科學(xué)家的意圖,編譯器負(fù)責(zé)驗(yàn)證物理世界的約束。

(b)Bounded agentic workflow: (1) SOP input with optional lab catalog, (2) BPL-Nano-30B code generation, (3) three-gate compiler validation (parse, semantic, and plan/validate gates), (4) diagnostic-guided repair loop (max 3 attempts), and (5) output artifact generation. (c) BPL compiler architecture: six-layer compilation pipeline.
實(shí)驗(yàn)驗(yàn)證:多維度證實(shí)三大難題的解決
團(tuán)隊(duì)從三個(gè)層面對(duì)BPL-COGEN進(jìn)行系統(tǒng)性驗(yàn)證。
大規(guī)模文本評(píng)測(cè)。在300篇Nature Protocols論文上,BPL-COGEN實(shí)現(xiàn)95.1%的首輪一致性。經(jīng)2輪編譯-仿真閉環(huán)達(dá)98.6%的迭代正確率。
(a) LLM validation scores across processed variants. Overall score, experiment match, protocol validity, and phase completeness all remained high (mean: 95.1). This panel establishes that BPL outputs are not only structurally regularized, but also remain faithful to the underlying experiment. |
(b) Compilation success rate by attempt number: 82.3% of protocols compile on the first attempt; the repair loop resolves an additional 16.3%, leaving only 1.4% unresolved after three attempts
|
分子生物學(xué)驗(yàn)證。同一份BPL源碼同時(shí)編譯至手動(dòng)操作與自動(dòng)化設(shè)備兩種執(zhí)行上下文,均產(chǎn)生可復(fù)現(xiàn)的實(shí)驗(yàn)結(jié)果。證明了協(xié)議在執(zhí)行模態(tài)上的可遷移性。

GFP fluorescence measurement of cell cultures with IPTG induction. Medium: negative control without cells.
分析化學(xué)遷移驗(yàn)證。在不同設(shè)備上下文之間遷移后,類胡蘿卜素的表征獲得了可比的分析結(jié)果,驗(yàn)證了協(xié)議的設(shè)備無(wú)關(guān)可遷移性。

(b) HPLC chromatogram (C18, 4.6 × 250 mm, 5 μm; 32 min). (c) UHPLC chromatogram (Kinetex C18, 2.1 × 50 mm, 1.7 μm; 2.1 min). All five compounds (retinol, retinal, retinyl acetate, lycopene, β-carotene) achieved baseline resolution with preserved elution order.
這三項(xiàng)驗(yàn)證共同確認(rèn):BPL與BPL-COGEN同時(shí)解決了長(zhǎng)期困擾行業(yè)的協(xié)議精確度、可驗(yàn)證性、跨平臺(tái)可遷移性三大核心難題。
在SAION物理AI平臺(tái)中的定位
BPL是恩和SAION物理AI平臺(tái)“認(rèn)知—控制—執(zhí)行”三層架構(gòu)中執(zhí)行層的標(biāo)準(zhǔn)接口。向下,它下發(fā)指令到生物鑄造廠的自動(dòng)化設(shè)備與人類操作員;向上,它回流結(jié)構(gòu)化的實(shí)驗(yàn)執(zhí)行數(shù)據(jù),驅(qū)動(dòng)認(rèn)知層與控制層的持續(xù)進(jìn)化。
結(jié)合此前SAION AI平臺(tái)在文獻(xiàn)閱讀到質(zhì)粒設(shè)計(jì)與濕實(shí)驗(yàn)組裝的100%正確率、質(zhì)粒構(gòu)建90%成功率,BPL的引入使物理AI閉環(huán)的執(zhí)行層首次具備了可驗(yàn)證、可遷移的標(biāo)準(zhǔn)協(xié)議基礎(chǔ)。
在AI+生物制造全球圖景中的意義
生物制造領(lǐng)域AI技術(shù)的核心價(jià)值,在于能否真實(shí)推動(dòng)兌現(xiàn)數(shù)千萬(wàn)元乃至數(shù)億元的經(jīng)濟(jì)效益。當(dāng)AI真正驅(qū)動(dòng)產(chǎn)業(yè)鏈、產(chǎn)品、訂單的經(jīng)濟(jì)價(jià)值兌現(xiàn)時(shí),它在產(chǎn)業(yè)中才獲得存在的意義。BPL的提出,是恩和把“AI 兌現(xiàn)產(chǎn)業(yè)價(jià)值”落到執(zhí)行層的具體動(dòng)作。
據(jù)相關(guān)機(jī)構(gòu)預(yù)測(cè),至2035年全球生物制造市場(chǎng)規(guī)模將達(dá)到約6萬(wàn)億美元。縱觀工業(yè)史,所有制造業(yè)從“作坊”走向“工業(yè)化”的關(guān)鍵點(diǎn),都伴隨著形式化協(xié)議標(biāo)準(zhǔn)的建立。作為首個(gè)具備“編譯時(shí)物理驗(yàn)證 + 跨平臺(tái)可遷移”雙能力的工程級(jí)方案,BPL為這一萬(wàn)億級(jí)賽道的標(biāo)準(zhǔn)化推進(jìn)提供了關(guān)鍵基礎(chǔ)設(shè)施。
正如研究團(tuán)隊(duì)在論文中所指出的:BPL-COGEN提供了生物領(lǐng)域物理具身AI所需的關(guān)鍵基礎(chǔ)。只有當(dāng)AI能夠以一種可被驗(yàn)證的語(yǔ)言“說(shuō)清楚自己想做什么”,自主實(shí)驗(yàn)室代理才在工程上成為可能。生物制造的工程邊界,正被重新定義。
論文原文:Song, R., Fu, Y., Zhao, Z., Yu, J., Yuan, Q., & Chen, C. T. (2026). Towards autonomous biology: Compiler-Verified Protocols as a Foundation for Real World AI Execution. bioRxiv, 2026-05.
恩和科技(Bota)是一家全球領(lǐng)先的物理人工智能(Physical AI)驅(qū)動(dòng)的生物制造公司,致力于將生物技術(shù)打造為可靠、可規(guī)模化的工業(yè)生產(chǎn)力引擎。通過(guò)整合人工智能、合成生物學(xué)與工業(yè)化的端到端能力,Bota開啟了生物制造研發(fā)與生產(chǎn)的新范式。我們打造了全球首屈一指的物理智能驅(qū)動(dòng)的生物鑄造廠,涵蓋了從菌株工程、工藝開發(fā)到規(guī)模化生產(chǎn)的全過(guò)程——將復(fù)雜的生物學(xué)轉(zhuǎn)化為適用于食品、營(yíng)養(yǎng)、個(gè)人護(hù)理及更多行業(yè)的可規(guī)模化解決方案。Bota與全球客戶攜手,提供更綠色、更高效的生物解決方案,加速行業(yè)普及,并共同推動(dòng)向可持續(xù)未來(lái)的轉(zhuǎn)型。
了解更多信息,請(qǐng)?jiān)L問(wèn):www.bota.bio
雷峰網(wǎng)文章