[資料] SARC-Taigi-LLM 台語大語言模型與訓練程式專案正式釋出

看板TW-language (臺語板)作者 (茹絮夢)時間2小時前 (2026/04/11 15:51), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
https://i.urusai.cc/2xK8S.jpg
【SARC-Taigi-LLM 台語大語言模型與訓練程式專案正式釋出】 我們很高興宣布,基於 IMA’s Taiwan Tongues Taigi Datasets 所建置的台語大語言模 型與完整專案,現已正式公開。本次同步釋出 SARC-Taigi-LLM 12B 與 27B 兩個 Gemma 3 模型版本及訓練程式,後續亦將持續推進 Gemma 4 模型的訓練與開發。 SARC-Taigi-LLM 由 台灣資訊經理人學會(IMA-Taiwan) 與 國立陽明交通大學人工智慧 語音研發中心(SARC) 共同推動,聚焦於展示如何運用 IMA’s Taiwan Tongues Taigi Datasets,結合 Google Gemma 3 模型與多階段訓練流程,實作出台語大語言模型。儘管 目前這個模型仍有許多不足之處,我們仍期盼能藉此拋磚引玉,邀請更多人共同推動台語 AI 技術的發展與生活化應用。 本次公開內容包括(下載或是試玩連結請見第一則留言): ‧ SARC-Taigi-LLM 模型 ‧ 台語大語言模型線上展示系統 ‧ GitHub 台語大語言模型訓練專案 這些成果得以完成,特別要感謝 十七位台灣文學作家 慷慨捐獻 超過 600 萬字 的台文 文字語料,提供極為珍貴的台語書寫典範資源。這不僅是一次模型釋出,更是台語語言資 源、文化內容與 AI 技術共同累積的重要成果。 更重要的是,我們希望這不只是單一模型成果的展示,而是一個 可延伸、可重現 的台語 LLM 實作範例,讓更多研究者、開發者與教育工作者能在此基礎上持續擴充、重新實作 與驗證,進一步推動台語 AI、本土語言科技與語言文化保存。 展望未來,SARC-Taigi-LLM 可望應用於: ‧ 台語問答與對話系統 ‧ 台語詞彙、語意與文化知識查詢(例如,連結 張凱為 的【台語水管 - 從鄉土劇學台 語】,台語水管 連結請見第4則留言) ‧ 台語教學、教材輔助與數位內容生成 ‧ 台語自然語言理解與推理研究 在此,也再次向所有慷慨捐獻台文語料的作家們,致上最誠摯的感謝與敬意。 https://www.facebook.com/share/p/1AYRbeAiMQ/ ----- 本次公開內容包括: ‧ SARC-Taigi-LLM 模型 ‧ 台語大型語言模型線上展示系統 ‧ GitHub 台語大語言模型訓練專案 相關網址如下: IMA’s Taiwan Tongues Taigi Dataset(Taigi Dataset) https://huggingface.co/IMA-Taiwan 台語大型語言模型線上展示網站(Demonstration Site) https://llm.ivoice.tw:64441/ Hugging Face(Models) https://huggingface.co/Speech-AI-Research-Center GitHub(Project Repository) https://github.com/Speech-AI-Research-Center -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.110.252 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1775893896.A.872.html
文章代碼(AID): #1fsVs8Xo (TW-language)
文章代碼(AID): #1fsVs8Xo (TW-language)