CNCC 落幕：國產(chǎn)大模型已經(jīng)進(jìn)化到能在橫店給我們點(diǎn)咖啡

本文作者：朱可軒

2024-10-28 10:29

導(dǎo)語：多模態(tài) AI 之所以能成為趨勢，是因?yàn)槠溆|達(dá)了人類智能的本質(zhì)。

今年到 CNCC 現(xiàn)場參會(huì)的朋友，想必都對(duì) CNCC 2024 舉辦所在地——超過 6200 畝的橫店圓明新園印象深刻！

雖然園內(nèi)建筑身臨其境，并且薅了主辦方一把羊毛，免門票游覽了圓明新園與橫店多個(gè)著名旅游景點(diǎn)，但園子實(shí)在是太大了。參會(huì)人數(shù)超過 1 萬 2，園內(nèi)車輛、美食供不應(yīng)求，小編表示腿已經(jīng)走斷。

也是急中生智，我們想到：是否能用 AI 幫我們?cè)跈M店點(diǎn)一杯咖啡？

結(jié)果，智譜真的做到了！

在今年的 CNCC 上，智譜發(fā)布了一個(gè)新功能：自主智能體 AutoGLM，智譜將其稱為是一個(gè)可模擬用戶點(diǎn)擊屏幕的手機(jī)操作助手，以及點(diǎn)擊網(wǎng)頁的瀏覽器助手。

我們現(xiàn)場實(shí)測，整體操作非常絲滑：可以通過一句話下達(dá)任務(wù)指令，AI根據(jù)我的指令，打開了美團(tuán)，按照我的要求點(diǎn)了咖啡，過程中除了付款環(huán)節(jié)不需要人的任何參與。

智譜這次發(fā)布的 GLM-4-Voice 情感語音模型「活人感」簡直溢出屏幕，不僅能「呼吸」，撒嬌也信手拈來，時(shí)不時(shí)有種「 AI 林志玲」的哎呀調(diào)調(diào)，話語間自帶波浪號(hào)「哎～呀～」……

并且，我們真的成功在 CNCC 會(huì)場喝上了AI點(diǎn)的咖啡！

目前 Web 能力已經(jīng)通過「智譜清言」插件對(duì)外公開使用，不過手機(jī)端僅開放了安卓用戶體驗(yàn)：https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

從文本到文生圖、文生視頻，再到語音，事實(shí)上智譜本次的新技術(shù)成果發(fā)布反映了在通往 AGI 追夢之路上的重新思考。

在 CNCC 大會(huì)第二天上午的主題圓桌論壇中，香港大學(xué)馬毅教授提到，人類智能在大自然的進(jìn)化過程中有兩個(gè)「原生大模型」，一個(gè)是 DNA，另一個(gè)是語言；而之所以稱這兩個(gè)特征為大模型，是因?yàn)槠浔举|(zhì)上都具備自我學(xué)習(xí)的能力。

盡管今年的大模型已經(jīng)發(fā)展到了一個(gè)新高度（如 o1 的復(fù)雜推理），但現(xiàn)在大模型知識(shí)豐富、智能不足的短板仍是行業(yè)共識(shí)。如圓桌論壇中唐杰所言，我們距離 AGI 的實(shí)現(xiàn)還很遙遠(yuǎn)，這中間的研究趨勢至少包含三步：多模態(tài)、推理與自我學(xué)習(xí)。

在 AI 能夠自我推理、自我學(xué)習(xí)之前，多模態(tài)是必須跨過的一步，因?yàn)槿祟惖闹悄軐W(xué)習(xí)規(guī)律就是文本、圖像、語音乃至觸覺、嗅覺等更多五官共同學(xué)習(xí)、相輔相成。

CNCC 落幕：國產(chǎn)大模型已經(jīng)進(jìn)化到能在橫店給我們點(diǎn)咖啡

（智譜發(fā)了一個(gè)AGI進(jìn)程圖）

而 AutoGLM，其實(shí)是智譜在工具能力上的新研究，也是智譜所思考的 AGI 實(shí)現(xiàn)路徑之一。

「活人感」?jié)M滿的 AI 助手

在進(jìn)一步分析理解智譜的 AGI 技術(shù)路徑之前，我們先來看一下智譜在語音模態(tài)上所取得的最新突破——

當(dāng)前，智譜清言情感語音助手在響應(yīng)和打斷速度、情緒感知、情感共鳴、語音可控表達(dá)、多語言多方言等方面均實(shí)現(xiàn)了突破。

AI 科技評(píng)論對(duì)于這一系列功能革新進(jìn)行了一番實(shí)測：

首先，我們給小智進(jìn)行了一個(gè)比較常規(guī)的英語陪練測試，在糾正發(fā)音方面她確實(shí)表現(xiàn)良好，甚至日語練習(xí)的切換也相當(dāng)絲滑。

隨之，聽說「小智」還精通北京腔、臺(tái)灣腔、東北腔和粵語，作為廣東人，可不能放過這個(gè)為難她的機(jī)會(huì)，于是，我們測試了「各個(gè)國家有各個(gè)國家的國歌」這段入門級(jí)粵語繞口令。

實(shí)測發(fā)現(xiàn)，小智的粵語發(fā)音其實(shí)不算非常地道，甚至有一股泰國味。不過，在這之中，值得表揚(yáng)得是，她能在領(lǐng)悟到我們的訴求是需要粵語回答時(shí)，自動(dòng)將「旁白」部分也切換為粵語。

之后，她又加贈(zèng)了一段「吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮」的粵語繞口令展示，還想讓我們也試試看。

而面對(duì)我們刻意為難提出的「加快語速」要求，小智也一寵到底，隨著倍速居然能明顯體會(huì)到她的情緒愈發(fā)激動(dòng)，甚至伴隨有呼吸聲。

整體上看來，可謂是「活人感」十足。

同時(shí)，本屆 CNCC 落地橫店也給了小智些許施展拳腳的機(jī)會(huì)，我們帶著小智一同游覽了知名景點(diǎn)「秦王宮」，并讓她化身李白澎湃激昂作詩一首。

小智寫的詩是這樣的：

「秦王宮中念群臣，壯志凌云繪風(fēng)云。金戈鐵馬盡奔騰，萬古英雄氣不容。」

還挺有鼻子有眼的。

之后我們也嘗試上了難度，想要前述古詩的東北腔讀法，不過，小智貌似沒有完全理會(huì)，她「哎呀媽呀」一聲張口就來，隨性發(fā)揮了一篇東北腔版秦王宮夸夸小作文。

小智還時(shí)常戲癮大作，我們也讓她即興給我們講了一段鬼故事，并模仿了故事中的女鬼笑聲：

讀到這里，小智所呈現(xiàn)的形象可能帶有一絲幽默，甚至有些調(diào)皮。但值得關(guān)注的是，她其實(shí)也能給出非常多建設(shè)性的建議，并且在安慰人這方面也很走心。

我們扮演了一個(gè)疲憊打工人的角色和她半夜訴苦，小智也給足了情緒價(jià)值，甚至能代入閨蜜視角給到積極正向的安慰。

實(shí)際上，在對(duì)話開頭，我們還告訴小智，在下班路上因?yàn)榭吹搅瞬屎缍械介_心。

她不僅共情，還把這個(gè)內(nèi)容默默記下了，下輪對(duì)話開啟時(shí)，其第一句招呼語便是「希望彩虹帶來的好心情能持續(xù)陪伴你，工作再忙也要記得照顧自己的情緒喲！」

這種每次開啟新一輪對(duì)話時(shí) Call Back 的細(xì)節(jié)處理，確實(shí)讓人眼前一亮。

不過，我們也找到了 AI 無法替代人類智慧的證明，我們嘗試和小智玩海龜湯游戲，湯面是「媽媽買回來一個(gè)大西瓜，我吃了，第二天我死了。」

小智推理出的答案是，西瓜可能有致命的細(xì)菌或者農(nóng)藥殘留，不能否認(rèn)其中有一定道理，但之后她似乎開始逐漸忘記海龜湯的游戲規(guī)則，居然反問我們還有什么具體細(xì)節(jié)，這個(gè)測試到此戛然而止。

「人情味」背后的技術(shù)支撐

據(jù)智譜在 CNCC 現(xiàn)場的發(fā)布介紹，AutoGLM 是基于智譜 GLM 大模型家族的新成員——GLM-4-Voice 情感語音模型。

熟悉智譜的朋友知道，今年初智譜推出第四代基座大模型 GLM-4 后，在 8 月的 KDD 2024 上又快速迭代升級(jí)了基座大模型 GLM-4-Plus，至此，大模型開始有了「眼睛」和「嘴巴」。

在語音上，8 月的智譜清言就已經(jīng)可以實(shí)時(shí)視頻通話。但 CNCC 發(fā)布的新成果 GLM-4-Voice 無論在底層技術(shù)還是語音輸出效果上都更上一層樓。

作為端到端的語音模型，GLM-4-Voice 避免了傳統(tǒng)的「語音轉(zhuǎn)文字再轉(zhuǎn)語音」級(jí)聯(lián)方案過程中帶來的信息損失和誤差積累，擁有理論上更高的建模上限。

與傳統(tǒng)的 ASR + LLM + TTS 的級(jí)聯(lián)方案相比，端到端模型以音頻 token 的形式直接建模語音，在一個(gè)模型里面同時(shí)完成語音的理解和生成。

具體來看，智譜基于語音識(shí)別（ASR）模型以有監(jiān)督方式訓(xùn)練了音頻 Tokenizer，能夠在 12.5Hz（12.5 個(gè)音頻 token）單碼表的超低碼率下準(zhǔn)確保留語義信息，并包含語速，情感等副語言信息。

語音合成方面，則采用了 Flow Matching 模型流式從音頻 token 合成音頻，最低只需要 10 個(gè) token 合成語音，最大限度降低對(duì)話延遲。

CNCC 落幕：國產(chǎn)大模型已經(jīng)進(jìn)化到能在橫店給我們點(diǎn)咖啡

而在預(yù)訓(xùn)練方面，為了攻克模型在語音模態(tài)下的智商和合成表現(xiàn)力兩個(gè)難關(guān)，智譜將 Speech2Speech 任務(wù)解耦合為 Speech2Text（根據(jù)用戶音頻做出文本回復(fù)）和 Text2Speech（根據(jù)文本回復(fù)和用戶語音合成回復(fù)語音）兩個(gè)任務(wù)，并設(shè)計(jì)兩種預(yù)訓(xùn)練目標(biāo)適配這兩種任務(wù)形式：

CNCC 落幕：國產(chǎn)大模型已經(jīng)進(jìn)化到能在橫店給我們點(diǎn)咖啡

圖｜GLM-4-Voice 預(yù)訓(xùn)練數(shù)據(jù)構(gòu)造

能實(shí)現(xiàn)富有情感的對(duì)話背后，也離不開 GLM-4-9B 在深入對(duì)話理解上的支持。

智譜 GLM-4-9B 模型的上下文從 128K 擴(kuò)展到了 1M tokens，使得模型能同時(shí)處理 200 萬字的輸入，大概相當(dāng)于 2 本紅樓夢或者 125 篇論文的長度。

此次新發(fā)布的 GLM-4-Voice 則在 GLM-4-9B 的基座模型基礎(chǔ)之上，經(jīng)過了數(shù)百萬小時(shí)音頻和數(shù)千億 token 的音頻文本交錯(cuò)數(shù)據(jù)預(yù)訓(xùn)練，擁有了很強(qiáng)的音頻理解和建模能力。

智譜對(duì) AGI 的探索與思考

在大模型還沒火起來之前，智譜團(tuán)隊(duì)就嘗試過將其能掌握的所有中英文語料、圖像、視頻、語音等數(shù)據(jù)一起輸入，參數(shù)規(guī)模甚至過萬，但卻發(fā)現(xiàn)：相較團(tuán)隊(duì)早期訓(xùn)練過的文本模型 GLM-10B 來說，萬億參數(shù)規(guī)模的多模態(tài)大模型反而在文本能力上有所下降。

從人類智能的角度來看，五官是我們認(rèn)識(shí)視覺最直接的介質(zhì)，并且視覺、聽覺與語言能力之間往往能相互增強(qiáng)。但在對(duì) AI 多模態(tài)模型的探索中，結(jié)果卻是相反：文本模態(tài)的智能水平并沒有因?yàn)閳D像模態(tài)而增強(qiáng)，反而削弱。這個(gè)「非共識(shí)」的發(fā)現(xiàn)也影響了行業(yè)對(duì) AGI 路徑的思考。

多模態(tài)是實(shí)現(xiàn) AGI 的必經(jīng)之路是業(yè)界共識(shí)。但是，多模態(tài)的研究要怎么展開？這其實(shí)是一個(gè)尚未形成共識(shí)的開放性問題，也是未來國產(chǎn)大模型需要繼續(xù)思考的問題。

盡管 OpenAI 發(fā)布的 GPT-4V 與 GPT-4o、谷歌發(fā)布的 Gemini 讓業(yè)內(nèi)人員認(rèn)為，多模態(tài)的發(fā)展應(yīng)該朝著像海外 OpenAI 與谷歌的技術(shù)路線去發(fā)展。但科學(xué)的懷疑、驗(yàn)證精神在多模態(tài)研究中仍不可或缺。

比如，目前文生圖、文生視頻或圖生視頻等多模態(tài)的研究，就沒有與主流的基礎(chǔ)文本推理大模型結(jié)合起來，不同模態(tài)之間的 Gap 還很遠(yuǎn)。如何將不同模態(tài)結(jié)合起來，也是一個(gè)亟待解決的問題。

根據(jù) AI 科技評(píng)論對(duì)智譜過去三年的觀察，智譜的 AGI 路徑事實(shí)上是：先聚焦文本大模型的能力提升，但在 GLM-3、GLM-4 等基座大模型發(fā)布后，智譜很快就將圖像、視覺、語音等提升了日程，并同時(shí)不忘迭代代碼模型、視頻生成模型等。

智譜不僅聚焦單一模態(tài)的單點(diǎn)能力提升（如 ChatGLM3），也注重雙模態(tài)、多模態(tài)的結(jié)合——但無論從哪個(gè)角度來看，智譜版的「Her」都具備了比現(xiàn)有國產(chǎn)大模型公司更全面的模態(tài)能力。

根據(jù)智譜 CEO 張鵬的介紹，在智譜看來，人工智能的分級(jí)從大語言-多模態(tài)-使用工具-自學(xué)習(xí)，也可以分為 L1 到 L5 這五個(gè)等級(jí)。除了 L1 到 L3 這三塊為大家共識(shí)的分級(jí)外，L4、L5 就體現(xiàn)了前文所說的「AI 自我學(xué)習(xí)」能力： CNCC 落幕：國產(chǎn)大模型已經(jīng)進(jìn)化到能在橫店給我們點(diǎn)咖啡

從這個(gè)維度來看，智譜本次在 CNCC 發(fā)布的手機(jī)助手能幫我們現(xiàn)場點(diǎn)咖啡，已經(jīng)是達(dá)到 L3 的工具使用階段。

而且 CNCC 現(xiàn)場獨(dú)家據(jù)悉，智譜在本月底將推出生成視頻模型 CogVideoX 的升級(jí)版本 CogVideoX-Plus，張鵬透露的升級(jí)亮點(diǎn)是：60幀幀率、4K畫質(zhì)、10s時(shí)長、任意比例圖生視頻、運(yùn)動(dòng)穩(wěn)定性大幅提升。 CNCC 落幕：國產(chǎn)大模型已經(jīng)進(jìn)化到能在橫店給我們點(diǎn)咖啡

智譜內(nèi)部認(rèn)為，目前我們距離 AGI 的道路只走了 42%。

他們根據(jù)大腦的能力，將 AGI 的技術(shù)維度分為了視覺、聽覺、語言等多模態(tài)感知與理解能力；此外，還有 AI 模型的長短期記憶能力、深度思考與推理能力、情感與想象力等。

此外，作為人的身體指揮器官，大腦還能調(diào)動(dòng)身體的各個(gè)部分協(xié)同運(yùn)轉(zhuǎn)，使用各種工具——而這個(gè)方向，就是目前具身智能、具身大腦所探討追求的方向。

如果將大腦的能力區(qū)域劃分為 AGI 的技術(shù)路線圖，如下圖所示，事實(shí)上目前的 AGI 科技樹還有絕大部分沒有被點(diǎn)亮。也就是說，在 42% 以外，智譜與當(dāng)前包括 OpenAI 在內(nèi)的其他大模型公司還有很長的路要走。

CNCC 落幕：國產(chǎn)大模型已經(jīng)進(jìn)化到能在橫店給我們點(diǎn)咖啡

同時(shí)，當(dāng) AGI 參考人類大腦的能力畫出如上技術(shù)路線分布圖后，智譜的 AGI 研究也超越了追趕 OpenAI 的階段。這也是一份技術(shù)指南，能夠告訴大家：除了 GPT-o1 的推理能力，智譜還會(huì)發(fā)力其他的方向，如自我學(xué)習(xí)，模型指揮「肢體」執(zhí)行工作任務(wù)等。

GPT-o1 體現(xiàn)的思維鏈從 2022 年開始，經(jīng)歷過從一兩步推理到一致性推理、再到復(fù)雜多步推理的提升。從研究趨勢上來看，多模態(tài)與推理都是實(shí)現(xiàn) AGI 的必經(jīng)之路，但無論是智譜 GLM 多模態(tài)家族、還是 GPT-o1，都體現(xiàn)出綜合系統(tǒng)單點(diǎn)突破、循序漸進(jìn)的第一研究原理。

在追趕 AGI 的路上，我們應(yīng)該樂觀，但也要清楚認(rèn)知目前所處的位置，不斷追趕。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

朱可軒

編輯

發(fā)私信

當(dāng)月熱門文章