大模型激戰(zhàn)半年:王小川進(jìn)擊、王慧文退場(chǎng),騰訊字節(jié)姍姍來遲
國產(chǎn)通用大模型的混戰(zhàn)遠(yuǎn)未結(jié)束。在半年左右的蟄伏期過后,大部分玩家都浮出了水面。
在這之中,有人加速迭代。8月8日,由搜狗搜索創(chuàng)始人王小川創(chuàng)立的百川智能發(fā)布了旗下第三款大模型產(chǎn)品Baichuan-53B,背后訓(xùn)練參數(shù)高達(dá)530億。此時(shí)距離王小川宣布進(jìn)軍大模型戰(zhàn)場(chǎng)不過4個(gè)月的時(shí)間,這家創(chuàng)業(yè)公司進(jìn)展神速。
這還只是一個(gè)開始,百川智能方面向時(shí)代財(cái)經(jīng)透露,后續(xù)還會(huì)有多款產(chǎn)品發(fā)布,包括規(guī)模更大、參數(shù)超千億的大模型。
(相關(guān)資料圖)
也有人黯淡退場(chǎng)。由美團(tuán)聯(lián)合創(chuàng)始人王慧文創(chuàng)立,吸引源碼資本、五源資本等知名VC機(jī)構(gòu),以及美團(tuán)創(chuàng)始人王興、快手創(chuàng)始人宿華等互聯(lián)網(wǎng)大佬投資的光年之外,曾一度被市場(chǎng)認(rèn)為是國內(nèi)大模型戰(zhàn)場(chǎng)上最強(qiáng)有力的玩家之一。
然而,隨著6月下旬王慧文因健康問題離崗?fù)顺觯瑹o法繼續(xù)執(zhí)掌光年之外,這家備受期待的大模型創(chuàng)業(yè)公司只能賣身美團(tuán),一眾投資人也隨之退股。
還有人另辟蹊徑。AI大牛周明創(chuàng)立的瀾舟科技,強(qiáng)調(diào)輕量化模型,希望用更低的成本解決B端場(chǎng)景問題。而曾幫助谷歌將BERT模型的訓(xùn)練時(shí)間從3天降到76分鐘的新加坡國立大學(xué)校長青年教授尤洋,則成立了潞晨科技,試圖用低成本訓(xùn)練大模型的解決方案突圍。
相比之下,大廠自研的大模型則姍姍來遲。直到8月初,騰訊自研的混元大模型和字節(jié)打造的AI對(duì)話類產(chǎn)品Grace才先后傳出內(nèi)測(cè)消息,具體面世時(shí)間仍未可知。
同樣停留在測(cè)試階段的,還有李開復(fù)創(chuàng)立的AI 2.0企業(yè)“零一萬物”。在7月3日舉辦的對(duì)外交流會(huì)上,李開復(fù)透露,該公司在三個(gè)月內(nèi)已實(shí)現(xiàn)百億參數(shù)規(guī)模的模型內(nèi)測(cè),目前正向300億—700億參數(shù)規(guī)模擴(kuò)大。不過,該產(chǎn)品至今仍未向市場(chǎng)開放。
這些仍未發(fā)布的大模型產(chǎn)品將為科技行業(yè)帶來什么樣的改變,值得市場(chǎng)期待。從這個(gè)角度來看,這場(chǎng)混戰(zhàn)或許還要持續(xù)很久。
進(jìn)擊的王小川
由王小川創(chuàng)立的百川智能,正以其驚人的產(chǎn)品發(fā)布速度吸引市場(chǎng)的關(guān)注。
在其4月宣布下場(chǎng)做大模型后,僅用了兩個(gè)月零五天的時(shí)間,就在6月15日發(fā)布70億參數(shù)開源大模型Baichuan-7B。不到一個(gè)月時(shí)間,又發(fā)布了130億參數(shù)開源大模型Baichuan-13B。
8月8日發(fā)布的Baichuan-53B,已經(jīng)是這家大模型創(chuàng)業(yè)公司半年內(nèi)發(fā)布的第三款產(chǎn)品,百川智能進(jìn)展神速。
百川智能相關(guān)負(fù)責(zé)人回復(fù)時(shí)代財(cái)經(jīng)表示,公司在創(chuàng)立之前就已經(jīng)花了很多時(shí)間做前期準(zhǔn)備,開始就把路線和方法想得比較清楚。
其指出,做大模型都會(huì)考慮三個(gè)層面:數(shù)據(jù)、算法和算力。拋開算力不說,做搜索的公司天然有優(yōu)秀的數(shù)據(jù)能力,百川智能的核心團(tuán)隊(duì)此前已經(jīng)做了20年的數(shù)據(jù)抓取、抽取、清洗、去重、反垃圾等操作,可以更快拿到高質(zhì)量數(shù)據(jù)集。
而算法是以自然語言處理為中心,將算法工程進(jìn)行迭代,不是單一的工程問題,而是在文本數(shù)據(jù)驅(qū)動(dòng)下,算法和工程共同運(yùn)行。此前在搜索領(lǐng)域積累的經(jīng)驗(yàn)在這里也能很好地發(fā)揮作用,利用數(shù)據(jù)評(píng)價(jià)推動(dòng)模型進(jìn)步。
“有了之前多年的技術(shù)和經(jīng)驗(yàn)積累,百川智能做大模型產(chǎn)品的速度才會(huì)又快又好。”
不過,在發(fā)布會(huì)上,王小川亦指出,當(dāng)下國產(chǎn)通用大模型仍處在一個(gè)分型復(fù)刻的階段。各家廠商基本都在對(duì)標(biāo)OpenAI,不可避免地會(huì)出現(xiàn)同質(zhì)化的問題。
正因如此,在他看來,與美國閉源大模型的頭部格局已定的情況不同,“中國誰的大模型最好”現(xiàn)在并沒有結(jié)論。在這場(chǎng)混戰(zhàn)之中,錢是重要的,但最終決定的力量還是人和團(tuán)隊(duì)、組織能力。大廠錢多、人多、算力多,但組織效率通常不一定夠好,創(chuàng)業(yè)公司的組織效率可能好,也可能不好。
“大家都在爭(zhēng)取機(jī)會(huì),而且不一定落在大廠里。”
王小川還在采訪中談及退場(chǎng)的王慧文。其指出,王慧文是國內(nèi)幾個(gè)主流做大模型里唯一一個(gè)沒有強(qiáng)勢(shì)技術(shù)背景的,對(duì)他的挑戰(zhàn)比其他家要大。工作中要做大量的技術(shù)決策,招什么人、走什么技術(shù)路線圖、需要多少計(jì)算資源,一定會(huì)面臨非常多的決策壓力。
“不是做大模型壓力大,是沒有技術(shù)背景做決策壓力會(huì)大很多。但是技術(shù)足夠的話,其實(shí)挺愉悅的。”
騰訊、字節(jié)姍姍來遲
大模型混戰(zhàn)開啟之初,互聯(lián)網(wǎng)大廠因?yàn)樽鴵砀嗨懔Α⑷瞬拧①Y金和數(shù)據(jù),被認(rèn)為是強(qiáng)大的競(jìng)爭(zhēng)對(duì)手。
百度自研的文心一言早在今年3月底就已率先落地;阿里打造通義千問緊隨其后,在4月11日舉辦的阿里云峰會(huì)上揭曉。就在阿里發(fā)布通義千問的前一天,王小川才剛剛宣布下場(chǎng),成立百川智能。
相比之下,同為一線大廠的騰訊跟字節(jié),推出通用大模型的步調(diào)要慢許多。
8月3日,據(jù)36kr報(bào)道,騰訊自研的 “騰訊混元大模型”已經(jīng)進(jìn)入應(yīng)用內(nèi)測(cè)階段。三天后,8月6日,字節(jié)旗下的AI對(duì)話類產(chǎn)品Grace也被爆出歷經(jīng)兩個(gè)月的研發(fā)后,終于進(jìn)入測(cè)試階段。
此時(shí)距離百度發(fā)布文心一言已經(jīng)過去4個(gè)月。對(duì)于騰訊通用大模型產(chǎn)品步調(diào)稍慢的原因,馬化騰曾公開表示,“騰訊也一樣在埋頭研發(fā),但是并不急于早早做完,把半成品拿出來展示。”
不過,“并不著急”的騰訊,還是在今年6月中旬率先公布了“行業(yè)大模型”的路線,一口氣拋出10大行業(yè)超過50個(gè)解決方案。無獨(dú)有偶,字節(jié)跳動(dòng)也同樣在6月發(fā)布大模型服務(wù)平臺(tái)“火山方舟”,通過集成多家AI科技公司及科研院所的大模型,向企業(yè)提供全方位的平臺(tái)服務(wù)。
市場(chǎng)曾一度認(rèn)為,行業(yè)大模型將成為這兩家大廠突圍的方法。
但事實(shí)或許并非如此。當(dāng)下被鼓吹的行業(yè)大模型始終存在著被替代的風(fēng)險(xiǎn)。科大訊飛總裁吳曉如曾向時(shí)代財(cái)經(jīng)指出,10年前,在語音識(shí)別技術(shù)上,也曾誕生過諸多聚焦在通話、行車、辦公等不同場(chǎng)景的專用模型,但隨著通用模型技術(shù)的成熟,專用模型也隨之退場(chǎng)。
“我認(rèn)為大模型也會(huì)經(jīng)歷一樣的階段。”
相比之下,從更長遠(yuǎn)角度看,通用大模型才真正代表著一個(gè)平臺(tái)級(jí)或顛覆性的大機(jī)會(huì)。正是因此,騰訊和字節(jié)都不可能放任自己錯(cuò)過,哪怕進(jìn)度緩慢,但它們必定要堅(jiān)持在場(chǎng)。
有騰訊內(nèi)部人士向時(shí)代財(cái)經(jīng)指出,騰訊的計(jì)劃一直是兩條腿走路,通用和行業(yè)齊頭并進(jìn)。只是與一些激進(jìn)的廠商相比,旗下產(chǎn)品涵蓋社交、游戲、廣告、內(nèi)容創(chuàng)作等多個(gè)領(lǐng)域的騰訊,要更為謹(jǐn)慎一些。
學(xué)院派創(chuàng)業(yè)者另辟蹊徑
在大模型戰(zhàn)場(chǎng)上,來自高校、研究機(jī)構(gòu)的學(xué)院派創(chuàng)業(yè)公司組成了競(jìng)爭(zhēng)的第三極。
它們既不是王小川、王慧文這樣的種子選手,在創(chuàng)業(yè)之初就能憑借人脈吸引到數(shù)億美元的投資,并以此迅速起步。也不像騰訊、阿里、百度這樣的大廠,在算力、人才、資金等各個(gè)方面都占據(jù)難以逾越的優(yōu)勢(shì)。
但憑借著他們對(duì)于人工智能技術(shù)的深度理解,這些創(chuàng)業(yè)者仍然能在夾擊之下,另辟蹊徑找到新的發(fā)展方向。
比如由原微軟亞洲研究院副院長周明創(chuàng)立的瀾舟科技,不同于市面上一眾追逐千億乃至萬億參數(shù)的大模型產(chǎn)品,這位從1980年就開始研究NLP(自然語言處理)的華人AI大牛希望以更輕量級(jí)模型解決B端場(chǎng)景的問題。
其推出的孟子大模型曾以十億參數(shù),刷新此前被百億、千億級(jí)別參數(shù)模型輪番霸榜的中文語言理解權(quán)威評(píng)測(cè)基準(zhǔn) CLUE 榜單。
這是一項(xiàng)務(wù)實(shí)的決策。出于數(shù)據(jù)安全考慮,絕大部分企業(yè)都不會(huì)將數(shù)據(jù)上傳,而是會(huì)要求本地化部署,成本因此被顯著拉高。在接受媒體采訪時(shí),周明指出,哪怕只是本地部署推理,拿訓(xùn)練好的大模型來用,千億參數(shù)大模型也需要8到16塊 A100,換算下來至少是一兩百萬元的投入,“對(duì)很多場(chǎng)景來說,客戶需要便宜和夠用”。
由新加坡國立大學(xué)校長青年教授尤洋創(chuàng)立的潞晨科技,則希望利用算法技術(shù)降低大模型的調(diào)用成本。
現(xiàn)如今,無論是大廠,還是創(chuàng)業(yè)公司,都必須面對(duì)國產(chǎn)大模型同質(zhì)化趨勢(shì)愈發(fā)明顯的問題。如果這一問題不被解決,未來大模型極有可能陷入當(dāng)下云服務(wù)廠商面臨的低毛利困境。
尤洋對(duì)時(shí)代財(cái)經(jīng)表示,這是因?yàn)榈讓蛹夹g(shù)基座迭代成本過于高昂。他以GPT舉例,OpenAI每一次的訓(xùn)練成本高達(dá)6000萬美元,每隔三四個(gè)月就需要訓(xùn)練一次,迭代一次則需要四五次訓(xùn)練。以此計(jì)算,每迭代一次技術(shù)基座可能需要2億到3億美元。
過于高昂的成本導(dǎo)致市場(chǎng)上的技術(shù)基座極其稀缺。基本上只有GPT、LLAMA,還有國內(nèi)的GLM。各家廠商基本都是在模仿這幾家大模型做產(chǎn)品,才導(dǎo)致了同質(zhì)化的問題愈發(fā)凸顯。
長期研究高性能計(jì)算的尤洋因此成立了潞晨科技。該公司目前推出的開源系統(tǒng)Colossal-AI 可通過高效多維并行、異構(gòu)內(nèi)存等技術(shù),顯著降低AI大模型訓(xùn)練、微調(diào)和推理的開發(fā)與應(yīng)用成本。
尤洋認(rèn)為,只有伴隨大模型訓(xùn)練成本快速下降,或者采取更好的優(yōu)化技術(shù),使得參數(shù)控制在200億左右,還依然能夠達(dá)到和千億參數(shù)一樣的效果時(shí),才會(huì)真正迎來大模型百花齊放的那一天。
本文源自:時(shí)代財(cái)經(jīng)
作者:謝斯臨
關(guān)鍵詞:
[責(zé)任編輯:xwzkw]
相關(guān)閱讀
- (2023-08-15)大模型激戰(zhàn)半年:王小川進(jìn)擊、王慧文退場(chǎng),騰訊字節(jié)姍姍來遲
- (2023-08-15)暑期免稅購物熱“點(diǎn)燃”海南
- (2023-08-15)歐盟新電池法將生效,國內(nèi)電池企業(yè)直面三大挑戰(zhàn)
- (2023-08-15)研報(bào)掘金丨安信國際:予丘鈦科技目標(biāo)價(jià)3.48港元,維持“增持”評(píng)級(jí)
- (2023-08-15)海利得08月14日被深股通減持1.93萬股
- (2023-08-15)捷克一工業(yè)廠房發(fā)生火災(zāi) 損失約達(dá)15億捷克克朗
- (2023-08-15)電信運(yùn)營商加強(qiáng)隱私計(jì)算生態(tài)合作的思考與建議
- (2023-08-15)萬元機(jī)皇太搶手!小米MIX Fold 3龍鱗纖維版閃電搶光
- (2023-08-15)東岳泰山在哪里個(gè)省哪個(gè)市(東岳泰山在哪)
- (2023-08-15)特斯拉突然降價(jià),車市價(jià)格戰(zhàn)再起?
- (2023-08-15)烏干達(dá)制訂預(yù)包裝熟豆標(biāo)準(zhǔn)
- (2023-08-15)小米MIX Fold3:續(xù)航引領(lǐng)折疊屏
- (2023-08-15)女子曬丈夫離世前兩天畫面,駝背彎腰滿臉憔悴疲憊:恨沒早點(diǎn)發(fā)現(xiàn)
- (2023-08-15)滿坤科技2023年上半年凈利4995.73萬 同比增加8.02%
- (2023-08-15)全國多地不良貸款加速出清 各項(xiàng)指標(biāo)居于合理區(qū)間
- (2023-08-15)2023年少兒圖書股票名單(8/15)
- (2023-08-15)東軟載波2023年上半年凈利4654.91萬 同比減少7.31%
- (2023-08-15)旭日企業(yè)(00393)8月14日注銷534萬股已回購股份
- (2023-08-15)金融監(jiān)管總局鼓勵(lì)開發(fā)專項(xiàng)救災(zāi)信貸產(chǎn)品
- (2023-08-15)AYN Odin 2 游戲掌機(jī)將配備驍龍 8 Gen 2 芯片,售價(jià) 299 美元起
- (2023-08-15)天振股份跌3.42% 上市即巔峰募18.9億安信證券保薦
- (2023-08-15)飆漲1317倍,天價(jià)鋰礦爭(zhēng)奪戰(zhàn)42億落槌,大中礦業(yè)強(qiáng)勢(shì)得“鋰”
- (2023-08-15)A股分紅派息轉(zhuǎn)增一覽|4股今日股權(quán)登記
- (2023-08-15)上海電氣08月14日獲滬股通增持24.7萬股
- (2023-08-15)川儀股份(603100.SH):股東權(quán)益可能發(fā)生變動(dòng)
- (2023-08-15)「盈喜」萬順集團(tuán)控股(01746.HK)料中期轉(zhuǎn)虧為盈純利不多于150萬港元
- (2023-08-15)方便!寶雞17個(gè)三級(jí)以上客運(yùn)站實(shí)現(xiàn)與公交站點(diǎn)便捷換乘
- (2023-08-15)“光伏已經(jīng)輸給了中國,風(fēng)電可能也會(huì)如此”
- (2023-08-15)【環(huán)時(shí)深度】日本“一億中產(chǎn)”萎縮的背后
- (2023-08-15)醫(yī)藥領(lǐng)域行業(yè)整治影響如何,哪些細(xì)分板塊將受益?





