| 廣西新聞網(wǎng) > 教育頻道 > 要聞 > 正文 |
從有到優(yōu),語料庫建設(shè)要邁多少坎 |
2026年02月02日 07:55 來源:廣西云-廣西日報 記者 黃玲娜 羅 丹 編輯:李香瑩 |
|
一副看似普通的眼鏡,僅重61克,卻能實時翻譯、AI交互,自帶138種語言實時翻譯,東盟小語種識別率達(dá)90%……第22屆中國—東盟博覽會上,一副看似普通的黑框眼鏡被客商們爭相試戴。 創(chuàng)造這副眼鏡的邁越科技公司副總經(jīng)理黃有章,就站在幾步之外。這一幕,讓他想起8年前在憑祥口岸看到的景象:中越商戶們漲紅了臉,用手勢比劃著水果價格,交易在計算器的“滴滴”聲和含混的單詞中進(jìn)行。“那時我就想,要做出能戴在臉上的翻譯工具!彼貞浀馈 這副驚艷東博會的眼鏡,背后遠(yuǎn)非一家企業(yè)的技術(shù)突破。
黃有章展示AI智能眼鏡 。權(quán)晟 攝 “以前,尋找東盟小語種非通用語料,如同在沙漠中尋水;如今,高校、企業(yè)、政府三方擰成一股繩,數(shù)據(jù)池越積越滿、質(zhì)量越來越高!睆V西翻譯協(xié)會副會長溫家凱在接受采訪時如是感慨。 廣西的語料庫建設(shè)何以起勢?從有到優(yōu),還要邁過多少坎? 從“為什么是廣西”到“廣西如何做” “語料庫絕不是單純的‘?dāng)?shù)據(jù)倉庫’,能切實解決實際問題才是核心!睆V西大學(xué)人工智能學(xué)院副院長蒙祖強(qiáng)的觀點,道破了廣西建設(shè)語料庫的起點:強(qiáng)烈的現(xiàn)實需求驅(qū)動。 邊境貿(mào)易的窘境、跨境醫(yī)療的風(fēng)險、商事糾紛的僵局,這些具體痛點,成為倒逼語言數(shù)據(jù)建設(shè)的動力。但真正讓廣西得以蹚出一條路的,是獨特稟賦與務(wù)實路徑。 “其他省份可能更多依賴文獻(xiàn),而我們能直接在邊境、在東盟,采集到鮮活、地道的語料!秉S有章認(rèn)為。超過1.2萬名東盟留學(xué)生和密集的小語種專業(yè),為這座數(shù)據(jù)池提供了源源不斷的活水。 “我們不需要一味追求最前沿的技術(shù),更需要‘好用、便宜、適配本地需求’的實用技術(shù)!睆V西民族大學(xué)的郭泉老師坦言。例如,他們攻堅三個月,將老撾語的文字識別準(zhǔn)確率從30%多提升至80%以上。這項“夠用就好”但關(guān)鍵的突破,立刻盤活了海量紙質(zhì)文獻(xiàn)。 政策精準(zhǔn)滴灌,更為語料庫建設(shè)按下快進(jìn)鍵。 2026年,自治區(qū)印發(fā)廣西深入實施“人工智能+”三年行動方案,明確提出“加快實施高質(zhì)量語料庫建設(shè)工程”;自治區(qū)教育廳將語料庫建設(shè)納入高校學(xué)科評估核心指標(biāo),給予招生計劃與科研經(jīng)費雙重傾斜;南寧、柳州等地創(chuàng)新推出“語料券”“算力券”補(bǔ)貼政策,企業(yè)與高校合作可申領(lǐng)最高100萬元補(bǔ)貼,有效激發(fā)了協(xié)同共建活力…… “若沒有‘人工智能+’行動方案的精準(zhǔn)扶持,我們的語料庫或許仍停留在理論構(gòu)想階段!币晃粯I(yè)內(nèi)人士感慨。
黃有章介紹邁越科技東盟語料庫管理平臺。記者 黃玲娜 攝 從“數(shù)據(jù)荒漠”步入“數(shù)據(jù)丘陵” 當(dāng)然,“并不是所有語種都能建立語料庫!睆V西醫(yī)科大學(xué)王富博教授表示。 他以廣西本土方言為例作了分析。據(jù)他介紹,廣西的壯語語料庫資源極度稀缺,目前尚無一本權(quán)威的壯語醫(yī)學(xué)詞典可供參考!案螞r,廣西不僅有壯語,也有粵語和各種方言,而要建立某種語料庫必須具備語言和文字兩個條件,這便是本土特色語料建設(shè)的困境”。 因此,盡管廣西人工智能語料庫建設(shè)成果初顯,但前行之路并非坦途。受訪者的一個共識是:廣西正從“數(shù)據(jù)荒漠”步入“數(shù)據(jù)丘陵”,從“有沒有”邁向“好不好”,挑戰(zhàn)更為復(fù)雜。 調(diào)研表明,廣西高校語料庫存在明顯短板,主要體現(xiàn)在三個方面:質(zhì)量上,通用語料占比偏高,專業(yè)語料匱乏,東盟小語種語料中日常對話類超60%,醫(yī)療、法律等專業(yè)領(lǐng)域占比不足20%;范圍上,越南語、泰語等主要語種布局較全,文萊語、東帝汶語等小眾語種近乎空白;形式上,文本語料為主,語音、視頻等多模態(tài)語料占比不足15%。 “我們曾經(jīng)采集過一段老撾語工程機(jī)械維修視頻,僅差旅費就數(shù)萬元,還未必能獲高質(zhì)量素材!睆V西科技大學(xué)人工智能學(xué)院的一位老師介紹,該校為收集100小時的泰語機(jī)械維修視頻,耗時8個月、投入超40萬元,高成本與高難度讓多模態(tài)建設(shè)舉步維艱。 更棘手的是語料標(biāo)準(zhǔn)化不足,各高校標(biāo)注規(guī)則各異!拔覀冊胍媚炒髮W(xué)的越南語醫(yī)療語料,因標(biāo)注規(guī)則不同需重新加工,成本高、效率低,最終只能放棄。”廣西外國語學(xué)院人工智能學(xué)院院長鐘明輝無奈表示。 “缺乏相關(guān)國家本土人員支持,公開語料多被大公司壟斷,語音語料難辨有效信息等,都加劇了采集難度!泵勺鎻(qiáng)補(bǔ)充了語料獲取難點。 如何構(gòu)建能自我生長的生態(tài) “首要任務(wù),是‘立標(biāo)準(zhǔn)、通血脈’!倍辔皇茉L者呼吁,必須盡快從建設(shè)具體項目,轉(zhuǎn)向構(gòu)建一個能自我迭代、良性循環(huán)的生態(tài)系統(tǒng)。 一方面,是復(fù)合型人才的培育。“‘東盟小語種+AI’復(fù)合型人才招聘難,要么懂小語種缺AI技術(shù),要么懂AI不懂小語種,供需錯配突出。”黃有章介紹,邁越科技的情況反映了行業(yè)普遍困境。 調(diào)研顯示,廣西高校語料庫建設(shè)面臨師資、學(xué)生“兩缺”難題。具備東盟語言、AI技術(shù)與行業(yè)知識的教師不足50人,多依賴外聘專家;“人工智能+小語種”專業(yè)年均畢業(yè)生僅300余人,且60%以上流向發(fā)達(dá)地區(qū),人才流失嚴(yán)重。 針對人才短板,區(qū)內(nèi)高校紛紛創(chuàng)新模式。例如,廣西民族大學(xué)設(shè)實驗班、廣西醫(yī)科大學(xué)開微專業(yè)、廣西外國語學(xué)院開發(fā)特色課程;不少高校依托“廣西人才計劃”引進(jìn)高端人才,搭建校企聯(lián)合培養(yǎng)基地實現(xiàn)就業(yè)無縫銜接。 另一方面,需要協(xié)同創(chuàng)新破局,激活語料庫生態(tài)效能!皢嗡咝5馁Y源與能力有限,唯有抱團(tuán)發(fā)展、協(xié)同發(fā)力,才能把語料庫做大做強(qiáng)、做深做精。”廣西民族大學(xué)人工智能學(xué)院院長葛麗娜提出的觀點,也是廣西高校的普遍共識。 針對校際、校企間的“數(shù)據(jù)壁壘”與安全顧慮,廣西搭建起“高校牽頭、企業(yè)參與、政府協(xié)調(diào)、東盟合作”的多元協(xié)同機(jī)制。 校企合作中,廣西科技大學(xué)與五菱汽車共建“汽車術(shù)語語料庫”,3個月內(nèi)完成5000條車載越南語術(shù)語標(biāo)注;跨境合作上,廣西高校已與東盟160余所高校建立合作,聯(lián)合研發(fā)小語種大語言模型、校準(zhǔn)醫(yī)療語料。技術(shù)層面,聚焦東盟小語種特性,開發(fā)“東盟小語種智能預(yù)標(biāo)注系統(tǒng)”,依托柳州東盟智算中心提供50%算力補(bǔ)貼。 “我們不僅要追趕前沿技術(shù),更需要‘好用、便宜、適配本地需求’的實用技術(shù)。”廣西民族大學(xué)老師郭泉建議。 “語料庫建設(shè)不是短跑,而是久久為功的馬拉松。”專家一致表示,校、企、政協(xié)同發(fā)力,才能讓語料庫真正“用得好”,為廣西AI產(chǎn)業(yè)發(fā)展、東盟多語種合作筑牢根基。 |
|
掃一掃在手機(jī)打開當(dāng)前頁
|
| >>更多精彩圖集推薦 |
|
|
||||||||||||||||||||||||||||||