| 廣西新聞網(wǎng) > 教育頻道 > 要聞 > 正文 |
太“庫”啦!廣西打通東盟合作AI“經(jīng)絡(luò)” |
2026年02月02日 11:31 來源:廣西云-廣西日?qǐng)?bào) 廣西云-廣西日?qǐng)?bào)記者 黃玲娜 羅 丹 編輯:黃玲娜 |
|
新聞眼在中國—東盟自貿(mào)區(qū)3.0版加速推進(jìn)的時(shí)代浪潮中,語言數(shù)據(jù)已成為跨境合作的核心“數(shù)字基建”。廣西高校立足學(xué)科優(yōu)勢,緊扣東盟合作與地方發(fā)展需求,破解區(qū)域合作中的語言壁壘,形成了覆蓋法律、醫(yī)療、產(chǎn)業(yè)、文化等關(guān)鍵領(lǐng)域的語料庫建設(shè)格局。如今,這些誕生于校園的語料庫正走出實(shí)驗(yàn)室,真正將“數(shù)據(jù)”轉(zhuǎn)化為“生產(chǎn)力”,為中國—東盟人工智能協(xié)同發(fā)展注入強(qiáng)勁動(dòng)能。 視頻攝制:記者羅丹、實(shí)習(xí)生 陳鄧浩麟 故事一 一所大學(xué)的東盟小語種“解碼之路” 南寧國際商事法庭調(diào)解室內(nèi),氣氛凝滯。一場涉及中越兩國企業(yè)的榴蓮交易糾紛,因雙方對(duì)合同條款的法律解釋爭執(zhí)不下,已僵持許久。 當(dāng)法官再次提及越南對(duì)買賣合同與合伙關(guān)系的界定規(guī)則時(shí),越方代表堅(jiān)持己見,怎么辦?此時(shí),工作人員點(diǎn)開了一個(gè)系統(tǒng)。幾秒后,屏幕上清晰顯示出對(duì)應(yīng)的越南現(xiàn)行法律條文,以及精準(zhǔn)的中越雙語對(duì)照譯文。拿著這份無可辯駁的“智能法律參考”,雙方終于找到了共識(shí)的基礎(chǔ),和解得以達(dá)成。 這一系統(tǒng),正是廣西民族大學(xué)聯(lián)合自治區(qū)司法廳研發(fā)的“中國—東盟法律咨詢服務(wù)智能體”。智能體的語料庫里,不僅有越南,還有印尼、老撾、泰語等東盟國家語言“庫存”,這正是廣西高校人工智能語料庫從實(shí)驗(yàn)室走向應(yīng)用場景的生動(dòng)寫照。
中國—東盟法律智能體平臺(tái)界面。學(xué)校供圖 時(shí)間倒回更早。在廣西民族大學(xué)人工智能學(xué)院,郭泉老師面對(duì)的困境更為原始。曾經(jīng),在他的電腦屏幕上,老撾語的字符經(jīng)過通用識(shí)別軟件掃描后,變成了一團(tuán)難以辨認(rèn)的亂碼。“準(zhǔn)確率還不到40%,”他指著屏幕說,“這就像給你一本天書,連字母表都是錯(cuò)的”。 問題的核心在于“饑餓”。人工智能大模型需要海量數(shù)據(jù)“喂養(yǎng)”,但對(duì)于老撾語、緬甸語等東盟小語種,數(shù)字世界近乎一片荒漠。“網(wǎng)上能找到的高質(zhì)量老撾語數(shù)字文本不足10GB。”郭泉對(duì)當(dāng)時(shí)的困境記憶猶新,“對(duì)于一個(gè)需要‘幾十萬本書量級(jí)’數(shù)據(jù)喂養(yǎng)的大模型來說,無異于用一桶水去澆灌整片田地”。 海量珍貴紙質(zhì)文獻(xiàn)的數(shù)字化難題更突出:通用OCR技術(shù)對(duì)老撾語識(shí)別準(zhǔn)確率一度僅30%-40%,更棘手的是跨學(xué)科壁壘——人工智能師生不懂小語種,語言教師不通編碼,老撾文字符的電腦編碼組合規(guī)則,成了雙方共同摸索的“謎題”。 一場跨學(xué)科攻堅(jiān)戰(zhàn)就此打響! 依托學(xué)校小語種研究深厚底蘊(yùn),廣西民族大學(xué)迅速組建跨學(xué)院團(tuán)隊(duì):東南亞語言文化學(xué)院的語言專家定義規(guī)則、校驗(yàn)質(zhì)量,人工智能學(xué)院的技術(shù)專家專攻算法攻關(guān),人工智能專業(yè)學(xué)生也埋頭鉆研老撾文字構(gòu)成規(guī)律。經(jīng)三個(gè)月反復(fù)調(diào)試,團(tuán)隊(duì)自主研發(fā)的老撾語OCR工具將識(shí)別準(zhǔn)確率提升至80%以上,遠(yuǎn)超行業(yè)水平。 這把“鑰匙”開啟了海量語料數(shù)字化大門,緬甸練習(xí)冊(cè)、泰國法律文本、越南新聞報(bào)道、老撾文學(xué)作品等實(shí)體資源,源源不斷轉(zhuǎn)化為AI可用數(shù)據(jù),覆蓋七種東盟主要語種的多模態(tài)語料庫初具規(guī)模。 “語料質(zhì)量直接決定模型效果,既要拼數(shù)量,更要保質(zhì)量!睎|南亞語言文化學(xué)院緬甸語教師陳宇點(diǎn)明了核心原則。為了獲取純正的緬甸語語音,用算法篩選優(yōu)質(zhì)樣本,他們請(qǐng)來8位緬甸留學(xué)生,在專業(yè)的錄音棚里,一句一句地錄制、校對(duì)。這8名學(xué)生,后來創(chuàng)下了一個(gè)月完成80小時(shí)高質(zhì)量語音錄制的紀(jì)錄。
廣西民族大學(xué)語料庫加工團(tuán)隊(duì)正在工作。學(xué)校供圖 資源網(wǎng)絡(luò)也隨之鋪開,從校園延伸到老撾、泰國、越南、馬來西亞等國的頂尖學(xué)府。高校深度合作,共建聯(lián)合實(shí)驗(yàn)室、聯(lián)合研發(fā)大模型,構(gòu)建多層次國際協(xié)同網(wǎng)絡(luò),保障語料的本土化與高質(zhì)量。目前,語料庫已收錄海量文本、音頻、視頻資源,為模型訓(xùn)練夯實(shí)基礎(chǔ)。 積累語料的最終目的,是賦能千行百業(yè)。團(tuán)隊(duì)精準(zhǔn)對(duì)接多元需求:針對(duì)影視劇出海熱潮,收集超2000萬條雙語字幕,計(jì)劃訓(xùn)練專用翻譯模型、搭建高效平臺(tái);跨界建成的法律雙語平行語料庫,成為“中國—東盟法律大模型”核心,衍生的AI法律智能體已成功輔助南寧國際商事法庭調(diào)解跨境糾紛,盡顯實(shí)效。 于是,當(dāng)中國—東盟自由貿(mào)易區(qū)國際商事法庭那場榴蓮糾紛陷入僵局時(shí),由這些歷經(jīng)“千錘百煉”的語料所支撐的系統(tǒng),才能像一枚精準(zhǔn)的砝碼,瞬間打破平衡。 “不僅為涉外糾紛調(diào)解提供高效精準(zhǔn)的法律支撐,提升跨境商事調(diào)解的專業(yè)性與說服力,更以數(shù)字化方案為優(yōu)化中國—東盟經(jīng)貿(mào)合作法治環(huán)境提供了可復(fù)制經(jīng)驗(yàn)!庇袑<疫@么點(diǎn)評(píng)。 2022年11月,廣西民族大學(xué)牽頭成立了中國—東盟語言服務(wù)協(xié)同創(chuàng)新中心。人工智能學(xué)院院長葛麗娜說:“我們的目標(biāo),就是要破解中國與東盟經(jīng)貿(mào)合作中的語言服務(wù)瓶頸,以現(xiàn)代技術(shù)提升跨境產(chǎn)業(yè)鏈協(xié)作效率。” 人才后備力量也逐漸強(qiáng)大。“高年級(jí)本科生和研究生通過參與語料庫項(xiàng)目,逐漸掌握語料清洗、質(zhì)檢等技能,成了就業(yè)市場上的‘香餑餑’。不少學(xué)生進(jìn)入科大訊飛、中國—東盟信息港等企業(yè)參與語料庫相關(guān)工作,得到企業(yè)好評(píng)。”東南亞語言文化學(xué)院院長覃秀紅既欣喜又自豪。 如今,從語料標(biāo)注平臺(tái)、精細(xì)化翻譯系統(tǒng),到集成AI翻譯的“阿育詞典”,一系列工具正在讓這條“語言絲路”變得通暢。 故事二 這位AI醫(yī)生,何以精通多國語言 第22屆中國—東盟博覽會(huì)現(xiàn)場,中外客商在一個(gè)特殊的“展位”前駐足。 一位身高1.27米、身披白大褂的“醫(yī)生”正在接診。當(dāng)越南客商用母語描述腰部不適后,不一會(huì),清晰的越南語答復(fù)便從“醫(yī)生”處傳來,分析了可能的原因并建議了檢查方向。 這位不會(huì)疲倦、能說多種語言的“醫(yī)生”,正是廣西醫(yī)科大學(xué)帶來的AI醫(yī)生機(jī)器人。它的亮相,不僅是一場展示,更像是一份宣言——廣西高校的醫(yī)學(xué)智慧,正借由人工智能,打穿橫亙?cè)谥袊c東盟之間的醫(yī)療語言壁壘。
2025年,在第22屆中國—東盟博覽會(huì)(主題展)上,廣西醫(yī)科大學(xué)第一附屬醫(yī)院正式發(fā)布全球首款支持東盟小語種的AI交互式醫(yī)療?茢(shù)字人——“泌語醫(yī)談”智能體。學(xué)校供圖 研發(fā)的種子,早在臨床的陣痛中就已埋下。 “翻譯失真,可能意味著誤診!睆V西醫(yī)科大學(xué)護(hù)理學(xué)院院長、第一附屬醫(yī)院副院長程繼文對(duì)跨境醫(yī)療中的語言困境有切膚之感!皞鹘y(tǒng)模式下,醫(yī)患依賴翻譯轉(zhuǎn)述病情,醫(yī)學(xué)術(shù)語難以精準(zhǔn)傳遞;通用翻譯工具缺乏醫(yī)學(xué)語境適配能力,無法支撐?圃\療邏輯!彼f。 團(tuán)隊(duì)的初衷變得無比清晰:必須創(chuàng)造一個(gè)能理解醫(yī)學(xué)、精通語言、具備?漆t(yī)生思維的數(shù)字生命。 打造這樣一個(gè)數(shù)字生命,始于四年前一次奔赴。彼時(shí),身為外科醫(yī)生的王富博還在上海,身處國內(nèi)頂尖的醫(yī)療圈,但他敏銳地感知到,廣西在中國—東盟醫(yī)療合作中的樞紐位置,將為醫(yī)學(xué)AI提供獨(dú)一無二的場景與使命。他毅然南下,加入程繼文麾下,組建了一個(gè)20多人的科研團(tuán)隊(duì),開始了另一場從零開始的“創(chuàng)業(yè)”。
廣西醫(yī)科大學(xué)展示AI醫(yī)生機(jī)器人。學(xué)校供圖 AI醫(yī)生的“靈魂”,在于其高質(zhì)量、專業(yè)化的語料庫。 市面上很多小語種語料庫都是通用型的,遇到專業(yè)術(shù)語可以說是“不堪一擊”。如何破解這一難題? 沒有捷徑可走,他們創(chuàng)造了獨(dú)特的“三步法”來鍛造這個(gè)靈魂:創(chuàng)新采用“基礎(chǔ)語料庫+專業(yè)術(shù)語定制”模式,通過“專業(yè)知識(shí)學(xué)習(xí)—場景實(shí)戰(zhàn)訓(xùn)練—人機(jī)對(duì)抗測試”三步法構(gòu)建語料庫。該庫匯集診療指南、專家共識(shí)及自編教材,經(jīng)數(shù)百個(gè)真實(shí)病例訓(xùn)練和上萬次中外專科醫(yī)生糾錯(cuò),最終形成了高質(zhì)量語料數(shù)據(jù)資產(chǎn)。 最大的挑戰(zhàn)之一,還要解決多語言術(shù)語的“對(duì)齊”問題。一個(gè)專業(yè)詞匯,如何找到它在最精準(zhǔn)、最地道的對(duì)應(yīng)說法?為此,他們找到了越南籍博士生范忠孝。在錄音棚里,范忠孝面對(duì)長長的醫(yī)學(xué)詞列表,一個(gè)詞一個(gè)詞地斟酌、確認(rèn)、錄制!坝袝r(shí)為了一個(gè)術(shù)語的譯法,我們需要查閱多本醫(yī)學(xué)辭典,并咨詢河內(nèi)醫(yī)學(xué)院的教授,確保萬無一失。”這個(gè)過程,催生了全球首個(gè)東盟多語種醫(yī)學(xué)術(shù)語對(duì)齊引擎,其核心語料庫也獲得了專利。
“智眼、凈源、譯瞬通”三大核心技術(shù)發(fā)布。學(xué)校供圖 歷時(shí)兩年攻堅(jiān),“泌語醫(yī)談”智能體誕生,它成為國內(nèi)首個(gè)能模擬?漆t(yī)生診斷邏輯的醫(yī)療數(shù)字人。同年9月,它進(jìn)化成為全球首款支持東盟多語種的AI交互式醫(yī)療?茢(shù)字人。 該系統(tǒng)由“智眼”數(shù)據(jù)監(jiān)測中心、“凈源”圖數(shù)據(jù)庫清洗平臺(tái)和“譯瞬通”同聲傳譯三大核心系統(tǒng)構(gòu)成,形成數(shù)據(jù)處理、信息清洗、多語言交互的完整閉環(huán)!爸茄邸弊鳛椤皵(shù)字大腦”實(shí)時(shí)監(jiān)測對(duì)話質(zhì)量,保障服務(wù)穩(wěn)定;“凈源”平臺(tái)深耕醫(yī)學(xué)知識(shí)圖譜清洗,從源頭提升AI專業(yè)性;“譯瞬通”則實(shí)現(xiàn)語言破壁,使用者掃描二維碼即可在手機(jī)端獲取母語翻譯內(nèi)容。 其知識(shí)體系,則源自程繼文主編的120萬字泌尿外科臨床案例叢書,覆蓋387種典型疾病,經(jīng)多學(xué)科專家聯(lián)合訓(xùn)練,已支持中、英、越三種語言,未來將拓展泰語、老撾語等東盟語種,可精準(zhǔn)回應(yīng)腫瘤、結(jié)石等五大亞專科咨詢,這推動(dòng)了跨境問診從“能用”向“好用、管用、智能用”升級(jí)。 在自主建設(shè)的?啤罢Z料庫”支持下,泌尿科的成功模式正在多個(gè)?蒲杆購(fù)制。近日,該校“AI中醫(yī)體質(zhì)辨識(shí)機(jī)”成功出海,在尼日爾、馬來西亞、泰國試點(diǎn)推廣;藥學(xué)院與第一附屬醫(yī)院聯(lián)合上線數(shù)字人藥師應(yīng)用場景,實(shí)現(xiàn)對(duì)門診、出院患者全生命周期藥學(xué)管理與服務(wù);藥學(xué)院借助AI活性篩選技術(shù),將傳統(tǒng)創(chuàng)新藥研發(fā)周期從3至5年壓縮至1至1.5年,大幅提升研發(fā)效率。
尼日爾群眾在體驗(yàn)AI中醫(yī)體質(zhì)辨識(shí)服務(wù)。廣西醫(yī)科大學(xué)第一附屬醫(yī)院供圖 數(shù)字看成果 廣西高校在人工智能語料庫領(lǐng)域的突破并非個(gè)例。語料庫建設(shè)在數(shù)字時(shí)代蓬勃發(fā)展,展現(xiàn)勃勃生機(jī)。 500萬:廣西師范大學(xué)出版社“中華傳統(tǒng)文化東盟多語種平行語料庫建設(shè)及應(yīng)用”項(xiàng)目,已完成500萬漢字詞對(duì)的精標(biāo)平行語料建設(shè),涵蓋哲學(xué)、文學(xué)、藝術(shù)等多個(gè)領(lǐng)域。 300多GB:廣西大學(xué)人工智能學(xué)院已收集300多GB語料,涵蓋菲律賓、新加坡、越南、泰國等東盟國家,不僅收集文本、語音、視頻等多模態(tài)數(shù)據(jù),還重點(diǎn)構(gòu)建東盟文化對(duì)接知識(shí)圖譜。 75%~80%:廣西民族大學(xué)科研團(tuán)隊(duì)攻克泰語、老撾語、柬埔寨語等語種的OCR(光學(xué)字符識(shí)別)技術(shù)難題,將識(shí)別準(zhǔn)確率提升至75%~80%,并自主研發(fā)完成老撾語大模型的中老雙語微調(diào)訓(xùn)練,推出系列東南亞語言翻譯軟件。 300小時(shí):廣西外國語學(xué)院率先實(shí)現(xiàn)東盟7門非通用語種全覆蓋,積累泰語、越南語語音數(shù)據(jù)各近300小時(shí),其他東盟小語種語音數(shù)據(jù)近30小時(shí)。 (廣西云-廣西日?qǐng)?bào)記者黃玲娜、羅丹/整理) 記者觀察 從有到優(yōu),語料庫建設(shè)要邁多少坎 一副看似普通的眼鏡,僅重61克,卻能實(shí)時(shí)翻譯、AI交互,自帶138種語言實(shí)時(shí)翻譯,東盟小語種識(shí)別率達(dá)90%……第22屆中國—東盟博覽會(huì)上,一副看似普通的黑框眼鏡被客商們爭相試戴。 創(chuàng)造這副眼鏡的邁越科技公司副總經(jīng)理黃有章,就站在幾步之外。這一幕,讓他想起8年前在憑祥口岸看到的景象:中越商戶們漲紅了臉,用手勢比劃著水果價(jià)格,交易在計(jì)算器的“滴滴”聲和含混的單詞中進(jìn)行!澳菚r(shí)我就想,要做出能戴在臉上的翻譯工具。”他回憶道。 這副驚艷東博會(huì)的眼鏡,背后遠(yuǎn)非一家企業(yè)的技術(shù)突破。
黃有章展示AI智能眼鏡 。權(quán)晟 攝 “以前,尋找東盟小語種非通用語料,如同在沙漠中尋水;如今,高校、企業(yè)、政府三方擰成一股繩,數(shù)據(jù)池越積越滿、質(zhì)量越來越高!睆V西翻譯協(xié)會(huì)副會(huì)長溫家凱在接受采訪時(shí)如是感慨。 廣西的語料庫建設(shè)何以起勢?從有到優(yōu),還要邁過多少坎? 從“為什么是廣西”到“廣西如何做” “語料庫絕不是單純的‘?dāng)?shù)據(jù)倉庫’,能切實(shí)解決實(shí)際問題才是核心!睆V西大學(xué)人工智能學(xué)院副院長蒙祖強(qiáng)的觀點(diǎn),道破了廣西建設(shè)語料庫的起點(diǎn):強(qiáng)烈的現(xiàn)實(shí)需求驅(qū)動(dòng)。 邊境貿(mào)易的窘境、跨境醫(yī)療的風(fēng)險(xiǎn)、商事糾紛的僵局,這些具體痛點(diǎn),成為倒逼語言數(shù)據(jù)建設(shè)的動(dòng)力。但真正讓廣西得以蹚出一條路的,是獨(dú)特稟賦與務(wù)實(shí)路徑。 “其他省份可能更多依賴文獻(xiàn),而我們能直接在邊境、在東盟,采集到鮮活、地道的語料。”黃有章認(rèn)為。超過1.2萬名東盟留學(xué)生和密集的小語種專業(yè),為這座數(shù)據(jù)池提供了源源不斷的活水。 “我們不需要一味追求最前沿的技術(shù),更需要‘好用、便宜、適配本地需求’的實(shí)用技術(shù)!睆V西民族大學(xué)的郭泉老師坦言。例如,他們攻堅(jiān)三個(gè)月,將老撾語的文字識(shí)別準(zhǔn)確率從30%多提升至80%以上。這項(xiàng)“夠用就好”但關(guān)鍵的突破,立刻盤活了海量紙質(zhì)文獻(xiàn)。 政策精準(zhǔn)滴灌,更為語料庫建設(shè)按下快進(jìn)鍵。 2026年,自治區(qū)印發(fā)廣西深入實(shí)施“人工智能+”三年行動(dòng)方案,明確提出“加快實(shí)施高質(zhì)量語料庫建設(shè)工程”;自治區(qū)教育廳將語料庫建設(shè)納入高校學(xué)科評(píng)估核心指標(biāo),給予招生計(jì)劃與科研經(jīng)費(fèi)雙重傾斜;南寧、柳州等地創(chuàng)新推出“語料券”“算力券”補(bǔ)貼政策,企業(yè)與高校合作可申領(lǐng)最高100萬元補(bǔ)貼,有效激發(fā)了協(xié)同共建活力…… “若沒有‘人工智能+’行動(dòng)方案的精準(zhǔn)扶持,我們的語料庫或許仍停留在理論構(gòu)想階段。”一位業(yè)內(nèi)人士感慨。
黃有章介紹邁越科技東盟語料庫管理平臺(tái)。記者 黃玲娜 攝 從“數(shù)據(jù)荒漠”步入“數(shù)據(jù)丘陵” 當(dāng)然,“并不是所有語種都能建立語料庫!睆V西醫(yī)科大學(xué)王富博教授表示。 他以廣西本土方言為例作了分析。據(jù)他介紹,廣西的壯語語料庫資源極度稀缺,目前尚無一本權(quán)威的壯語醫(yī)學(xué)詞典可供參考。“更何況,廣西不僅有壯語,也有粵語和各種方言,而要建立某種語料庫必須具備語言和文字兩個(gè)條件,這便是本土特色語料建設(shè)的困境! 因此,盡管廣西人工智能語料庫建設(shè)成果初顯,但前行之路并非坦途。受訪者的一個(gè)共識(shí)是:廣西正從“數(shù)據(jù)荒漠”步入“數(shù)據(jù)丘陵”,從“有沒有”邁向“好不好”,挑戰(zhàn)更為復(fù)雜。 調(diào)研表明,廣西高校語料庫存在明顯短板,主要體現(xiàn)在三個(gè)方面:質(zhì)量上,通用語料占比偏高,專業(yè)語料匱乏,東盟小語種語料中日常對(duì)話類超60%,醫(yī)療、法律等專業(yè)領(lǐng)域占比不足20%;范圍上,越南語、泰語等主要語種布局較全,文萊語、東帝汶語等小眾語種近乎空白;形式上,文本語料為主,語音、視頻等多模態(tài)語料占比不足15%。 “我們?cè)?jīng)采集過一段老撾語工程機(jī)械維修視頻,僅差旅費(fèi)就數(shù)萬元,還未必能獲高質(zhì)量素材!睆V西科技大學(xué)人工智能學(xué)院的一位老師介紹,該校為收集100小時(shí)的泰語機(jī)械維修視頻,耗時(shí)8個(gè)月、投入超40萬元,高成本與高難度讓多模態(tài)建設(shè)舉步維艱。 更棘手的是語料標(biāo)準(zhǔn)化不足,各高校標(biāo)注規(guī)則各異!拔覀?cè)胍媚炒髮W(xué)的越南語醫(yī)療語料,因標(biāo)注規(guī)則不同需重新加工,成本高、效率低,最終只能放棄!睆V西外國語學(xué)院人工智能學(xué)院院長鐘明輝無奈表示。 “缺乏相關(guān)國家本土人員支持,公開語料多被大公司壟斷,語音語料難辨有效信息等,都加劇了采集難度!泵勺鎻(qiáng)補(bǔ)充了語料獲取難點(diǎn)。 如何構(gòu)建能自我生長的生態(tài) “首要任務(wù),是‘立標(biāo)準(zhǔn)、通血脈’。”多位受訪者呼吁,必須盡快從建設(shè)具體項(xiàng)目,轉(zhuǎn)向構(gòu)建一個(gè)能自我迭代、良性循環(huán)的生態(tài)系統(tǒng) 一方面,是復(fù)合型人才的培育!啊畺|盟小語種+AI’復(fù)合型人才招聘難,要么懂小語種缺AI技術(shù),要么懂AI不懂小語種,供需錯(cuò)配突出!秉S有章介紹,邁越科技的情況反映了行業(yè)普遍困境。 調(diào)研顯示,廣西高校語料庫建設(shè)面臨師資、學(xué)生“兩缺”難題。具備東盟語言、AI技術(shù)與行業(yè)知識(shí)的教師不足50人,多依賴外聘專家;“人工智能+小語種”專業(yè)年均畢業(yè)生僅300余人,且60%以上流向發(fā)達(dá)地區(qū),人才流失嚴(yán)重。 針對(duì)人才短板,區(qū)內(nèi)高校紛紛創(chuàng)新模式。例如,廣西民族大學(xué)設(shè)實(shí)驗(yàn)班、廣西醫(yī)科大學(xué)開微專業(yè)、廣西外國語學(xué)院開發(fā)特色課程;不少高校依托“廣西人才計(jì)劃”引進(jìn)高端人才,搭建校企聯(lián)合培養(yǎng)基地實(shí)現(xiàn)就業(yè)無縫銜接。 另一方,需要協(xié)同創(chuàng)新破局,激活語料庫生態(tài)效能。“單所高校的資源與能力有限,唯有抱團(tuán)發(fā)展、協(xié)同發(fā)力,才能把語料庫做大做強(qiáng)、做深做精。”廣西民族大學(xué)人工智能學(xué)院院長葛麗娜提出的觀點(diǎn),也是廣西高校的普遍共識(shí)。 針對(duì)校際、校企間的“數(shù)據(jù)壁壘”與安全顧慮,廣西搭建起“高校牽頭、企業(yè)參與、政府協(xié)調(diào)、東盟合作”的多元協(xié)同機(jī)制。 校企合作中,廣西科技大學(xué)與五菱汽車共建“汽車術(shù)語語料庫”,3個(gè)月內(nèi)完成5000條車載越南語術(shù)語標(biāo)注;跨境合作上,廣西高校已與東盟160余所高校建立合作,聯(lián)合研發(fā)小語種大語言模型、校準(zhǔn)醫(yī)療語料。技術(shù)層面,聚焦東盟小語種特性,開發(fā)“東盟小語種智能預(yù)標(biāo)注系統(tǒng)”,依托柳州東盟智算中心提供50%算力補(bǔ)貼。 “我們不僅要追趕前沿技術(shù),更需要‘好用、便宜、適配本地需求’的實(shí)用技術(shù)!睆V西民族大學(xué)老師郭泉建議。 “語料庫建設(shè)不是短跑,而是久久為功的馬拉松!睂<乙恢卤硎,校、企、政協(xié)同發(fā)力,才能讓語料庫真正“用得好”,為廣西AI產(chǎn)業(yè)發(fā)展、東盟多語種合作筑牢根基。 |
|
掃一掃在手機(jī)打開當(dāng)前頁
|
| >>更多精彩圖集推薦 |
|
|
||||||||||||||||||||||||||||||