隨著人工智能技術(shù)快速發(fā)展,高質(zhì)量數(shù)據(jù)集已成為推動(dòng)生成式人工智能創(chuàng)新發(fā)展的核心稀缺要素。
8月26日,清華大學(xué)中國(guó)電子數(shù)據(jù)治理工程研究院院長(zhǎng)孟慶國(guó)在“2025人民數(shù)據(jù)大會(huì)”發(fā)表主旨演講時(shí)表示,人工智能的每一次發(fā)展和進(jìn)步都與數(shù)據(jù)有關(guān),沒(méi)有數(shù)據(jù)的支撐,人工智能將寸步難行。在大模型時(shí)代,有沒(méi)有成規(guī)模、高質(zhì)量、多模態(tài)的數(shù)據(jù),成為行業(yè)發(fā)展的基礎(chǔ)。
高質(zhì)量數(shù)據(jù)集是什么?
孟慶國(guó)表示,高質(zhì)量數(shù)據(jù)集需要具備以下要素:有一定規(guī)模、準(zhǔn)確性高和擁有足夠多樣性,同時(shí)還包括數(shù)據(jù)的時(shí)效性,數(shù)據(jù)是否合規(guī)、合法,以及數(shù)據(jù)和訓(xùn)練模型之間的匹配程度。
數(shù)據(jù)標(biāo)注作為將原始數(shù)據(jù)轉(zhuǎn)化為可識(shí)別、可訓(xùn)練、可計(jì)算的關(guān)鍵環(huán)節(jié),其質(zhì)量直接決定了數(shù)據(jù)集的應(yīng)用價(jià)值。培育壯大數(shù)據(jù)標(biāo)注產(chǎn)業(yè)對(duì)于提升數(shù)據(jù)供給質(zhì)量,推動(dòng)人工智能創(chuàng)新發(fā)展具有重要支撐作用。
孟慶國(guó)表示,近年來(lái),我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈發(fā)展迅速,市場(chǎng)規(guī)模達(dá)800多億,但依然存在高質(zhì)量行業(yè)數(shù)據(jù)規(guī)模較小、數(shù)據(jù)治理的能力不足、復(fù)合型標(biāo)注人才存在缺口、數(shù)據(jù)質(zhì)量的評(píng)價(jià)體系不完善等現(xiàn)象。
如何開(kāi)展數(shù)據(jù)標(biāo)注?
在國(guó)家戰(zhàn)略布局和大模型技術(shù)突破的雙重驅(qū)動(dòng)下,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)正在經(jīng)歷從勞動(dòng)密集型向知識(shí)密集型的深刻轉(zhuǎn)型。孟慶國(guó)表示,從歷史維度來(lái)看,過(guò)去的數(shù)據(jù)更多依賴(lài)人工,如今是以工具和平臺(tái)作為標(biāo)注手段,未來(lái),依靠人工智能自身去進(jìn)行數(shù)據(jù)標(biāo)注將成為趨勢(shì)。在做好布局和探索過(guò)程中要把握以下幾方面路徑:
要進(jìn)行需求牽引,通過(guò)挖掘人工智能的場(chǎng)景,來(lái)釋放標(biāo)注的需求。要因地制宜,通過(guò)構(gòu)建一些特色產(chǎn)業(yè)的場(chǎng)景,來(lái)發(fā)展具有特色性的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)。要夯實(shí)基礎(chǔ)支撐,在數(shù)據(jù)質(zhì)量、數(shù)據(jù)倫理、數(shù)據(jù)安全得到保障的前提下,構(gòu)建數(shù)據(jù)可信的標(biāo)注空間,助力數(shù)據(jù)價(jià)值釋放。要打造產(chǎn)業(yè)聚集,通過(guò)產(chǎn)業(yè)聚集推動(dòng)數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。要帶動(dòng)就業(yè),通過(guò)數(shù)據(jù)標(biāo)注,發(fā)展具有專(zhuān)業(yè)領(lǐng)域知識(shí)的專(zhuān)門(mén)性標(biāo)注人才。要營(yíng)造良好產(chǎn)業(yè)生態(tài),特別是在政策、制度、標(biāo)準(zhǔn)、公共服務(wù)平臺(tái)建設(shè)等方面進(jìn)一步營(yíng)造好數(shù)據(jù)標(biāo)注的發(fā)展環(huán)境。
編輯:李華山