香蕉99国产精选免费,国产精品一区二区在线观看网站,91青草国产超碰人人,免费久久99精品国产自在现线

財(cái)政部唯一指定政府采購(gòu)信息網(wǎng)絡(luò)發(fā)布媒體 國(guó)家級(jí)政府采購(gòu)專業(yè)網(wǎng)站

服務(wù)熱線:400-810-1996   |   服務(wù)投訴:010-63819289

新質(zhì)生產(chǎn)力下的大模型產(chǎn)業(yè)化

2025年06月06日 14:10 來(lái)源:數(shù)字中國(guó)打印

  商湯科技董事長(zhǎng)兼CEO——徐立

  非常高興能夠在這里分享商湯對(duì)科技在如此大模型數(shù)據(jù)化和資產(chǎn)化的情境下,如何有效利用我們的數(shù)據(jù)要素。

  首先,在整個(gè)行業(yè)中,現(xiàn)在大模型的生成和制造遵循一個(gè)被認(rèn)為是經(jīng)驗(yàn)性公理的尺度定律。這個(gè)尺度定律表明,隨著模型參數(shù)量、數(shù)據(jù)規(guī)模、訓(xùn)練時(shí)間的增加,模型的性能得到顯著提升。因此,性能的整體提升速度很快。這也解釋了為什么計(jì)算資源已經(jīng)成為這個(gè)時(shí)代的核心資源之一。

  我們也看到,西方大量地投入計(jì)算資源作為核心基礎(chǔ)設(shè)施。但更重要的是如何更有效地利用好數(shù)據(jù)。很多人認(rèn)為數(shù)據(jù)的好壞無(wú)法區(qū)分,實(shí)際上,并非如此盡管數(shù)據(jù)質(zhì)量都有所下降,但下降的速度和程度,例如指數(shù)β,其實(shí)是不同的。

  所以,我們的尺度定律在某種程度上可以為不同的數(shù)據(jù)資產(chǎn)打分,能夠跨越5—7個(gè)數(shù)量級(jí)的尺度,保持對(duì)性能的預(yù)測(cè),并在較小的尺度上驗(yàn)證性能優(yōu)劣。因此,我們進(jìn)行了很多關(guān)于數(shù)據(jù)的實(shí)驗(yàn)。在一些真實(shí)的場(chǎng)景和問(wèn)題下,我們發(fā)現(xiàn)當(dāng)一個(gè)模型在同樣的數(shù)據(jù)集上,小在較的尺度上領(lǐng)先時(shí),在大較的尺度上也會(huì)領(lǐng)先。這不僅涉及推理計(jì)算、語(yǔ)言知識(shí)等問(wèn)題,而是基于數(shù)據(jù)本身的質(zhì)量,而不是僅憑經(jīng)驗(yàn)的分?jǐn)?shù)。

  我們對(duì)三個(gè)不同數(shù)據(jù)集在兩個(gè)問(wèn)題下進(jìn)行了數(shù)據(jù)質(zhì)量的打分,可以看到,斜率越大,說(shuō)明性能提升越快。有了這個(gè)指數(shù),才能真正對(duì)數(shù)據(jù)質(zhì)量進(jìn)行區(qū)分。也就是說(shuō),我們不需要極大的算力,可以用一些小模型配合更高質(zhì)量的數(shù)據(jù),打造同樣的性能。例如Llama 80億參數(shù)的模型性能要比Llama2 700億參數(shù)的模型還要好,關(guān)鍵就在于數(shù)據(jù)質(zhì)量的差異。

  我們?cè)?月份發(fā)布的SenseChat日日新V5模型,是國(guó)內(nèi)首個(gè)性能超過(guò)GPT4- Turbo的,模型其成功的原因在于我們對(duì)行業(yè)數(shù)據(jù)進(jìn)行了細(xì)分,并且在這些數(shù)據(jù)上下功夫了很大的。

  我們理解,在中國(guó)開發(fā)大模型的過(guò)程中,有一個(gè)很重要的行業(yè)優(yōu)勢(shì)在于如何利用好感知能力,對(duì)理解能力賦能。比如說(shuō)比如在通用生成方面,我們發(fā)現(xiàn),在很多垂直領(lǐng)域中,數(shù)據(jù)的構(gòu)造與我們對(duì)這些垂直領(lǐng)域能力的理解是相關(guān)的。

  舉幾個(gè)例子,比如說(shuō)模態(tài)的理解。舉例來(lái)說(shuō),這是一張手表的圖片,如果無(wú)法識(shí)別出來(lái)它的時(shí)間,就無(wú)法生成對(duì)應(yīng)的描述。我們還可以識(shí)別出這是什么品牌的表手,這是一張英文考卷,可以識(shí)別出上面英文題目的意思,并用中文進(jìn)行各種互動(dòng)。當(dāng)然,很多情況下需要理解圖片背后的意思,比如,左邊是一只可愛的恐龍,右邊是一只真實(shí)的恐龍,上面寫著“我媽第一次叫我吃飯”“我媽第二次叫我吃飯”。讓AI來(lái)理解這張圖,就會(huì)知道一般媽媽第一次叫你吃飯脾氣比較好,第二次叫你吃飯時(shí)會(huì)表現(xiàn)出不耐煩,我想這種概念大家都能理解。

  但是如果我們沒(méi)有在垂直方向上的理解,就很難真正意義上泛化這些問(wèn)題。因此,中國(guó)在數(shù)據(jù)利用方面的核心優(yōu)勢(shì)在于結(jié)合非常大的產(chǎn)業(yè)化數(shù)據(jù)理解。

  再來(lái)看生成,文本講多了,用圖片舉例子。方面以為如果我們要生成一張具有國(guó)家地理風(fēng)格的圖片,不理解這種風(fēng)格就很難生成出高質(zhì)量的結(jié)果。左邊是我們生成的圖片,右邊是行業(yè)中最好的,包括OpenAI的成果。在橫向?qū)Ρ戎?,我們認(rèn)為我們的模型目前在這一領(lǐng)域具有一定的領(lǐng)先性。

  這是一個(gè)亞洲女孩的美術(shù)攝影,頭發(fā)略微凌亂,對(duì)細(xì)節(jié)的把握非常重要。在特定行業(yè)中,例如文字識(shí)別,如果你不認(rèn)識(shí)這個(gè)文字,就很難生成正確的內(nèi)容。我們的品牌掛到一棟樓上,只有,我們生成的圖片是正確的。再比如,如果我們能夠識(shí)別福建話,我們當(dāng)然可以生成福建話,但如果不行的話,生成過(guò)程就會(huì)變得非常困難。因此,行業(yè)場(chǎng)景的疊加是數(shù)據(jù)資產(chǎn)在大模型使用中最核心的產(chǎn)業(yè)化要素。

  構(gòu)造行業(yè)場(chǎng)景差異化數(shù)據(jù)時(shí),可以將大模型的數(shù)據(jù)分三層,與其能力有關(guān),第一層叫世界知識(shí),這是一個(gè)單純的記憶層,知識(shí)背后核心還是推理。真正意義上形成高質(zhì)量數(shù)據(jù)的核心在于從一個(gè)知識(shí)點(diǎn)到另一個(gè)知識(shí)點(diǎn)背后的思維鏈。

  舉例來(lái)說(shuō),平行公理是一個(gè)數(shù)學(xué)公理,三角形內(nèi)角和是180度,這當(dāng)中的證明就是推理,一個(gè)模型的思考能力來(lái)自其背后強(qiáng)大的推理能力。因此,對(duì)于一些行業(yè)來(lái)說(shuō),如何構(gòu)造更好地推理數(shù)據(jù)是非常重要的。跟世界的交互執(zhí)行能力,有了交互數(shù)據(jù)才能更加豐富模型的核心能力。所以,我認(rèn)為可以通過(guò)行業(yè)構(gòu)造一個(gè)三層數(shù)據(jù)能力模型。

  垂直領(lǐng)域的數(shù)據(jù)差異化就是在這三層當(dāng)中。比如,醫(yī)療方面就會(huì)明顯超GPT4越-,在一定垂直領(lǐng)域,你的數(shù)據(jù)比它更專業(yè),構(gòu)造的思維鏈數(shù)據(jù)就會(huì)更加高端。    所以,我認(rèn)為數(shù)據(jù)要素在整個(gè)環(huán)境當(dāng)中,模型的生成本身就是一種數(shù)據(jù)要素的消耗。而模型服務(wù)則是數(shù)據(jù)要素再次資產(chǎn)化的過(guò)程,因此,這構(gòu)成了一個(gè)完整的以數(shù)據(jù)為核心的生產(chǎn)資料,為生產(chǎn)力帶來(lái)突破的飛輪,我相信,這也是未來(lái)大模型時(shí)代具有巨大行業(yè)潛力的原因之一。

  大家知道《時(shí)代周刊》通常用人是以物來(lái)做封面,少有用技術(shù)做封面。1997年,《時(shí)代周刊》用了克隆羊做封面。2015年,《時(shí)代周刊》用了虛擬現(xiàn)實(shí)做封面。2018年,用人工智能做封面。然而,這些技術(shù)的發(fā)展直到今天,仍未真正成為我們生活中不可或缺的基礎(chǔ)元素。這是為什么呢主要原因在于疊加的應(yīng)用并沒(méi)有那么充分,并不是改變我們生活當(dāng)中基礎(chǔ)要素的部分。

  去年ChatGPT又被放到《時(shí)代周刊》上,我認(rèn)為ChatGPT火不是因?yàn)镚PT,而是因?yàn)镚PT本身的Thansformer架構(gòu),這在2018年已經(jīng)成為行業(yè)共識(shí),ChatGPT真正的疊加應(yīng)用才是它的革命性時(shí)刻。在中國(guó),最不缺的就是垂直化數(shù)據(jù),也希望借此跟大家一起推動(dòng)這個(gè)時(shí)代應(yīng)用型的變化。

  謝謝大家!

 ?。ㄒ陨蟽?nèi)容根據(jù)嘉賓發(fā)言速記整理)