原標(biāo)題:漫談詞元(新知)
【現(xiàn)象】人工智能浪潮席卷全球,人工智能大模型成為人們工作與生活的重要幫手。在這場(chǎng)浪潮中,有個(gè)概念的曝光度很高——Token,即通常所說(shuō)的詞元,它是處理文本的最小數(shù)據(jù)單元。國(guó)家數(shù)據(jù)局披露了這樣一組數(shù)據(jù):2024年初,我國(guó)日均詞元的消耗量為1000億,而截至2025年9月底,這一數(shù)字已突破40萬(wàn)億,1年多時(shí)間增長(zhǎng)了400多倍。指數(shù)級(jí)增長(zhǎng)的數(shù)字,見(jiàn)證我國(guó)人工智能產(chǎn)業(yè)的迅猛發(fā)展、應(yīng)用規(guī)模的快速擴(kuò)大。
【點(diǎn)評(píng)】
怎么理解詞元?簡(jiǎn)單來(lái)說(shuō),詞元是人工智能大模型為了高效處理數(shù)據(jù),把數(shù)據(jù)進(jìn)行拆分后的“最小信息載體”,可以理解為“字/詞片段/符號(hào)”等。比如“我愛(ài)中國(guó)!”,可拆分成“我”“愛(ài)”“中國(guó)”“!”4個(gè)詞元。
如果說(shuō)互聯(lián)網(wǎng)時(shí)代信息傳輸?shù)暮诵亩攘渴恰傲髁俊?,那么人工智能時(shí)代,這一關(guān)鍵指標(biāo)正變?yōu)樵~元——用戶輸入的每一個(gè)字,模型生成的每一段話、識(shí)別的每一幅圖像,都在消耗詞元。
看似很抽象,實(shí)際上,每一次詞元消耗都對(duì)應(yīng)著真實(shí)的場(chǎng)景交互——可能是銀行智能客服作出的一筆貸款咨詢,是汽車(chē)智能座艙處理的一句語(yǔ)音指令,或是編程助手輸出的數(shù)行復(fù)雜代碼。詞元消耗量爆發(fā)式增長(zhǎng),意味著越來(lái)越多人工智能應(yīng)用落地,越來(lái)越多個(gè)人用戶、企業(yè)客戶在使用智能工具解決問(wèn)題、提高效率。詞元消耗增長(zhǎng)與應(yīng)用落地強(qiáng)綁定的特性,使其成為衡量人工智能產(chǎn)業(yè)景氣度的重要晴雨表。
以長(zhǎng)遠(yuǎn)視角觀之,隨著我國(guó)人工智能產(chǎn)業(yè)創(chuàng)新活力的不斷釋放,詞元消耗量的增長(zhǎng)不僅具有短期爆發(fā)力,還有長(zhǎng)期持續(xù)性。
在政策層面,去年印發(fā)的《關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見(jiàn)》強(qiáng)調(diào),“推動(dòng)人工智能與經(jīng)濟(jì)社會(huì)各行業(yè)各領(lǐng)域廣泛深度融合”。比如,人工智能為教育行業(yè)提供“長(zhǎng)文本知識(shí)梳理”,為電商行業(yè)提供“多輪智能導(dǎo)購(gòu)服務(wù)”。這些都將為詞元調(diào)用、消耗提供更豐富、更復(fù)雜的場(chǎng)景。
在技術(shù)層面,加快“從0到1”的創(chuàng)新突破、“從1到N”的技術(shù)落地,更智能的人工智能體加速涌現(xiàn),不僅能拓展發(fā)展空間,還將助力重塑人類生產(chǎn)生活范式,促進(jìn)生產(chǎn)力革命性躍遷。
向更深層次探求,詞元消耗量增長(zhǎng)離不開(kāi)我國(guó)在技術(shù)、數(shù)據(jù)供給等方面的扎實(shí)投入,有力印證“創(chuàng)新是第一動(dòng)力”。
不少人記得,10多年前流量貴且網(wǎng)速慢,“提速降費(fèi)”不僅讓群眾享受到實(shí)打?qū)嵉拿裆l?,也為互?lián)網(wǎng)發(fā)展、數(shù)字經(jīng)濟(jì)繁榮奠定了基礎(chǔ)。從此前單輪對(duì)話幾十詞元的“精打細(xì)算”,到如今企業(yè)級(jí)應(yīng)用單輪億萬(wàn)詞元的“從容調(diào)度”,借由技術(shù)進(jìn)步帶來(lái)的成本下降,企業(yè)得以大規(guī)模地將人工智能應(yīng)用于更復(fù)雜、更耗能的場(chǎng)景,不斷突破詞元消耗量的增長(zhǎng)瓶頸。
加力技術(shù)創(chuàng)新,推動(dòng)技術(shù)普惠、成果共享,讓更多新技術(shù)從書(shū)架走向貨架、從“奢侈品”變成“日用品”,更好驅(qū)動(dòng)實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展、添彩日常生活,這是技術(shù)向善的題中應(yīng)有之義。
高質(zhì)量的數(shù)據(jù)供給是詞元消耗爆發(fā)的“能量源泉”。沒(méi)有高質(zhì)量的數(shù)據(jù),詞元就成了“無(wú)源之水”,模型訓(xùn)練和推理會(huì)因數(shù)據(jù)失真、殘缺而輸出錯(cuò)誤結(jié)果,這是產(chǎn)生人工智能幻覺(jué)的重要原因。這也啟示我們,推動(dòng)人工智能技術(shù)創(chuàng)新應(yīng)用,一方面要“固本培元”,持續(xù)深耕關(guān)鍵技術(shù)、加快普及推廣,另一方面需“正本清源”,擰緊新技術(shù)發(fā)展的“安全閥”,加強(qiáng)關(guān)鍵要素供給能力,筑牢安全底座。
本固枝榮,源清流潔。從最小數(shù)據(jù)單元中,我們可以感悟原始創(chuàng)新的重要性,體會(huì)技術(shù)應(yīng)用的廣泛性,看到新技術(shù)、新業(yè)態(tài)拔節(jié)生長(zhǎng)、突飛猛進(jìn)的浩蕩之勢(shì)。
Copyright ? 2001-2025 湖北荊楚網(wǎng)絡(luò)科技股份有限公司 All Rights Reserved
互聯(lián)網(wǎng)新聞信息許可證 4212025003 -
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證 鄂B2-20231273 -
廣播電視節(jié)目制作經(jīng)營(yíng)許可證(鄂)字第00011號(hào)
信息網(wǎng)絡(luò)傳播視聽(tīng)節(jié)目許可證 1706144 -
互聯(lián)網(wǎng)出版許可證 (鄂)字3號(hào) -
營(yíng)業(yè)執(zhí)照
鄂ICP備 13000573號(hào)-1
鄂公網(wǎng)安備 42010602000206號(hào)
版權(quán)為 荊楚網(wǎng) www.guanzhipeng.com 所有 未經(jīng)同意不得復(fù)制或鏡像