[資料] SARC-Taigi-LLM 台語大語言模型與訓練程式專案正式釋出

看板TW-language (臺語板)作者CCY0927 (茹絮夢)時間3月前 (2026/04/11 15:51)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

https://i.urusai.cc/2xK8S.jpg

【SARC-Taigi-LLM 台語大語言模型與訓練程式專案正式釋出】我們很高興宣布，基於 IMA’s Taiwan Tongues Taigi Datasets 所建置的台語大語言模型與完整專案，現已正式公開。本次同步釋出 SARC-Taigi-LLM 12B 與 27B 兩個 Gemma 3 模型版本及訓練程式，後續亦將持續推進 Gemma 4 模型的訓練與開發。 SARC-Taigi-LLM 由台灣資訊經理人學會（IMA-Taiwan）與國立陽明交通大學人工智慧語音研發中心（SARC）共同推動，聚焦於展示如何運用 IMA’s Taiwan Tongues Taigi Datasets，結合 Google Gemma 3 模型與多階段訓練流程，實作出台語大語言模型。儘管目前這個模型仍有許多不足之處，我們仍期盼能藉此拋磚引玉，邀請更多人共同推動台語 AI 技術的發展與生活化應用。本次公開內容包括（下載或是試玩連結請見第一則留言）： ‧ SARC-Taigi-LLM 模型 ‧ 台語大語言模型線上展示系統 ‧ GitHub 台語大語言模型訓練專案這些成果得以完成，特別要感謝十七位台灣文學作家慷慨捐獻超過 600 萬字的台文文字語料，提供極為珍貴的台語書寫典範資源。這不僅是一次模型釋出，更是台語語言資源、文化內容與 AI 技術共同累積的重要成果。更重要的是，我們希望這不只是單一模型成果的展示，而是一個可延伸、可重現的台語 LLM 實作範例，讓更多研究者、開發者與教育工作者能在此基礎上持續擴充、重新實作與驗證，進一步推動台語 AI、本土語言科技與語言文化保存。展望未來，SARC-Taigi-LLM 可望應用於： ‧ 台語問答與對話系統 ‧ 台語詞彙、語意與文化知識查詢（例如，連結張凱為的【台語水管 - 從鄉土劇學台語】，台語水管連結請見第4則留言） ‧ 台語教學、教材輔助與數位內容生成 ‧ 台語自然語言理解與推理研究在此，也再次向所有慷慨捐獻台文語料的作家們，致上最誠摯的感謝與敬意。 https://www.facebook.com/share/p/1AYRbeAiMQ/ ----- 本次公開內容包括： ‧ SARC-Taigi-LLM 模型 ‧ 台語大型語言模型線上展示系統 ‧ GitHub 台語大語言模型訓練專案相關網址如下： IMA’s Taiwan Tongues Taigi Dataset（Taigi Dataset） https://huggingface.co/IMA-Taiwan 台語大型語言模型線上展示網站（Demonstration Site） https://llm.ivoice.tw:64441/ Hugging Face（Models） https://huggingface.co/Speech-AI-Research-Center GitHub（Project Repository） https://github.com/Speech-AI-Research-Center -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.110.252 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1775893896.A.872.html