[新聞] 全球四成語言瀕危 新版「台灣客語語料庫」全球規模最大
https://i.urusai.cc/3JaRz.webp
https://hakkanews.tw/2025/11/21/243622/
全球四成語言瀕危 新版「台灣客語語料庫」全球規模最大
2025年11月21日
【蔡依璇/新竹報導】當前全球化與語言同質化加劇,世界上六千多種語言中,有四成被
列為瀕危語言,台灣的客語、閩南語及南島語,都面臨語言轉移與傳承斷層,如何運用科
技儲存並再現語言,成母語復振的核心課題。政治大學英國語文學系博士後研究員葉秋杏
今天(21日)在一項客家國際研討會上指出,「台灣客語語料庫計畫」將於明年推出2.0
版,屆時將成全球規模最大的客語語料庫。
全球客家研究聯盟(Consortium of Global Hakka Studies, GHAS)國際學術研討會昨、
今兩天,在陽明交通大學客家學院舉行。在推動少數語言保存上,建置語料庫與校園母語
教學,是兩個重要的討論方向。
葉秋杏在會中分享台灣首個國家級客語語料庫的建置歷程,及未來在人工智慧及教育推廣
上的可能性。聯合大學文化創意與數位行銷學系教授張陳基說,台灣在全球客語語言研究
具關鍵地位,公開與標準化語料庫,有助提升研究尺度與國際能見度。聯合大學客家語言
與傳播研究所副教授兼所長范瑞玲,則聚焦苗栗地區國中客語教學,探討《國家語言發展
法》施行後,國中客語課程的實際成效與挑戰。
語料庫是復振起點 除了保存更要能用
「如何運用科技儲存並再現語言,成為語言復振的核心課題。」葉秋杏說,客家委員會從
2017年委託政大啟動「台灣客語語料庫計畫」,打造首座國家級客語語料庫,1.0版於
2022年推出,語料涵蓋四縣、海陸、大埔、饒平、詔安、南四縣共六腔跨地區語料,時間
跨度自1990年代至今,來源包括出版品、政府文宣、訪談、電視節目、紀錄錄音等。
https://i.urusai.cc/rQkIh.webp
葉秋杏分享台灣首個國家級客語語料庫的建置歷程,以及未來在人工智慧及教育推廣上的
可能性。蔡依璇攝
葉秋杏表示,所有資料都經合法授權、兩次以上校訂與母語審查,目前語料庫收錄超過
600萬字書面語與40萬字口語語料,預計明年(2026年)推出2.0版後,總字數將突破千萬
,成為全球規模最大的客語語料庫。
「語料庫的使命是讓語言被看見、被使用,成為活的語言,而不是只停留在保存。」葉秋
杏說,少數語言的語料庫,不能停留在典藏,更要進一步成為語言學研究與人工智慧開發
的基礎,「我們希望語料可以被機器讀懂、可被運算使用,才能真正提高語言活力。」
葉秋杏以紐西蘭毛利語、愛爾蘭語與日本愛努語等案例,比較國際語言復振策略。「國際
經驗顯示,語料庫往往是語言復振的重要起點,能同時支撐學術研究、教材編纂、科技工
具開發與文化再生。」葉秋杏說,毛利語與愛爾蘭語,都已建立大型語料庫;愛努語從民
間文學運動開始,最終促使政府投入文化復興政策。
葉秋杏認為,語料庫不應只是靜態資料庫,而是語言科技的基礎建設。透過自然語言處理
技術,未來可發展語音辨識、翻譯系統、語料搜尋工具、語言教學平台與AI對話應用,使
客語在更多場景中自然使用。
https://i.urusai.cc/v5FHQ.webp
大學生參加全球客家研究聯盟國際學術研討會。蔡依璇攝
盼大型客語語言模型進駐校園
張陳基則以使用者角度,分享語料庫應用觀察。他指出,目前語料庫取得,受限於申請程
序與著作權授權規範,影響研究者取得完整資料的效率。他舉例,若能釋出可下載的原始
資料清單、分詞詞庫或完整的斷詞詞庫,將更有利於語言分析與自然語言處理,類似華文
領域常見的「結巴分詞工具」,可讓客語文字處理在學術與科技應用上更具發展空間。
https://i.urusai.cc/C93ft.webp
張陳基從使用者角度分享客語語料庫應用觀察。蔡依璇攝
張陳基也表示,現有客語語料約一千多萬字,對AI模型訓練仍偏不足,未來可透過大模型
微調( fine-tuning)、資料擴充(reg)或跨來源(cross-sourcing)方式補強,並探
索自動審查與即時更新機制,使新世代研究者更便捷取得語料並持續應用。
張陳基說,台灣在全球客語語言研究具關鍵地位,透過語料庫公開與標準化,有助提升研
究尺度與國際能見度。現階段跨腔調、跨來源的客語資料系統化整合,是極具意義的成果
,未來「大型客語語言模型」若能逐步完善,也可在國中、小語文教學中實際輔助,更有
助提升聽說讀寫等面向。
客語課程挑戰多 「三明治教學法」助提升
隨著社會結構變遷與語言態度影響,客語使用領域逐漸萎縮,葉秋杏表示,不僅口語交流
減少,書面產出也愈來愈稀少。范瑞玲以苗栗為例說,「苗栗縣客家人口比例高達62.5%
,理應是客家文化與語言傳承的重點地區,但20歲以下的年輕人中,近一半(47.5%)不
太會說客語。」
https://i.urusai.cc/imk7O.webp
范瑞玲研究苗栗的國中客語教學,探討《國家語言發展法》施行後,客語課程的實際成效
與挑戰。蔡依璇攝
《國家語言發展法》公佈後,國中及高中正式納入客語課程。但范瑞玲指出,許多學生在
客語演講等競賽中表現優異,日常生活使用客語的能力仍相當有限,顯示教學與實務應用
間,仍存在落差。
在教學策略上,除了要說故事吸引學生興趣外,范瑞玲介紹「三明治教學法」,透過「客
語—華語—客語」模式循環,引導學生逐步理解語意、強化輸出能力,減少學生因陌生詞
彙而失去信心的情況。
https://i.urusai.cc/yfUhJ.webp
2025全球客家研究聯盟國際學術研討會在陽明交大舉行,現場參與者認真筆記。蔡依璇攝
https://i.urusai.cc/Eu0Mh.webp
2025全球客家研究聯盟國際學術研討會在陽明交大舉行。蔡依璇攝
范瑞玲研究發現,學生的性別與年級,對學習客語影響不大,但「父親族群別」則有顯著
影響;若父親是是客家人,學生不僅在客語能力表現較佳,對課程與教師教學,通常也會
給予較高評價。
在學習狀況上,范瑞玲說,讀寫能力是普遍弱項。「客語字與華語字差異大,學生常因字
形陌生而不易表達,字彙輸出仍需更完善教材支援。」另外,教師端也面臨時數有限、學
生程度差異大、專業資源不足等挑戰。
https://i.urusai.cc/gxpzb.webp
全球客家研究聯盟國際學術研討會今天在陽明交大舉辦。蔡依璇攝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.125.229 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1763814795.A.CBE.html
※ 編輯: CCY0927 (111.255.125.229 臺灣), 11/22/2025 20:39:35
TW-language 近期熱門文章
PTT職涯區 即時熱門文章
18
30