
[資料] SARC-Taigi-LLM 台語大語言模型與訓練程式專案正式釋出

【SARC-Taigi-LLM 台語大語言模型與訓練程式專案正式釋出】
我們很高興宣布,基於 IMA’s Taiwan Tongues Taigi Datasets 所建置的台語大語言模
型與完整專案,現已正式公開。本次同步釋出 SARC-Taigi-LLM 12B 與 27B 兩個 Gemma
3 模型版本及訓練程式,後續亦將持續推進 Gemma 4 模型的訓練與開發。
SARC-Taigi-LLM 由 台灣資訊經理人學會(IMA-Taiwan) 與 國立陽明交通大學人工智慧
語音研發中心(SARC) 共同推動,聚焦於展示如何運用 IMA’s Taiwan Tongues Taigi
Datasets,結合 Google Gemma 3 模型與多階段訓練流程,實作出台語大語言模型。儘管
目前這個模型仍有許多不足之處,我們仍期盼能藉此拋磚引玉,邀請更多人共同推動台語
AI 技術的發展與生活化應用。
本次公開內容包括(下載或是試玩連結請見第一則留言):
‧ SARC-Taigi-LLM 模型
‧ 台語大語言模型線上展示系統
‧ GitHub 台語大語言模型訓練專案
這些成果得以完成,特別要感謝 十七位台灣文學作家 慷慨捐獻 超過 600 萬字 的台文
文字語料,提供極為珍貴的台語書寫典範資源。這不僅是一次模型釋出,更是台語語言資
源、文化內容與 AI 技術共同累積的重要成果。
更重要的是,我們希望這不只是單一模型成果的展示,而是一個 可延伸、可重現 的台語
LLM 實作範例,讓更多研究者、開發者與教育工作者能在此基礎上持續擴充、重新實作
與驗證,進一步推動台語 AI、本土語言科技與語言文化保存。
展望未來,SARC-Taigi-LLM 可望應用於:
‧ 台語問答與對話系統
‧ 台語詞彙、語意與文化知識查詢(例如,連結 張凱為 的【台語水管 - 從鄉土劇學台
語】,台語水管 連結請見第4則留言)
‧ 台語教學、教材輔助與數位內容生成
‧ 台語自然語言理解與推理研究
在此,也再次向所有慷慨捐獻台文語料的作家們,致上最誠摯的感謝與敬意。
https://www.facebook.com/share/p/1AYRbeAiMQ/
-----
本次公開內容包括:
‧ SARC-Taigi-LLM 模型
‧ 台語大型語言模型線上展示系統
‧ GitHub 台語大語言模型訓練專案
相關網址如下:
IMA’s Taiwan Tongues Taigi Dataset(Taigi Dataset)
https://huggingface.co/IMA-Taiwan
台語大型語言模型線上展示網站(Demonstration Site)
https://llm.ivoice.tw:64441/
Hugging Face(Models)
https://huggingface.co/Speech-AI-Research-Center
GitHub(Project Repository)
https://github.com/Speech-AI-Research-Center
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.110.252 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1775893896.A.872.html
TW-language 近期熱門文章
PTT職涯區 即時熱門文章