[資料] 胡長松的台語小說語料庫

看板TW-language (臺語板)作者 (茹絮夢)時間2周前 (2025/03/16 22:18), 編輯推噓1(100)
留言1則, 1人參與, 2周前最新討論串1/1
https://www.facebook.com/share/p/15B6hLjxLU/ 【胡長松的台語小說語料庫已全數公開】 各位朋友,我在此正式公告,我們團隊總算完成了公開語料庫所需的技術準備工作,並在 3/14日,已經把所有我本人的台語小說、超過100萬字的語料庫公開出來,提供給AI開源 訓練專案和學術專案使用。在說明底下的技術方案之前,我要先感謝我所任職的公司台灣 大哥大資訊長、同時也是IMA理事長蔡祈岩先生,充分支持及授權給我運用IMA的資源及技 術團隊來佈建這個方案,除了感謝,還有感動! 我的語料目前已經轉成了AI訓練所需的語料庫格式(此格式並不適於人的閱讀,且可視作 者要求進行結構重組),3/14日起,全數掛載在IMA (中華民國資訊經理人協會)的 Hugging Face語料庫,採取【Creative Commons CC具名授權,申請後提供存取】的管理 方式提供需要者使用,目前限非商業的AI訓練專案和學術專案來申請。各界朋友,若您有 使用我的小說語料庫的需要,操作說明如下: 1. 請點擊 https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots 2. 您將需要登入Hugging Face帳號 3. 在「Dataset Card」頁籤點擊「申請權限」按鈕 4. 提交申請後,狀態會變成「等待審核中」,我們會根據取得的帳號聯繫方式和您聯繫, 並進行核准程序 5. 審核通過後,您會收到電子郵件通知 6. 收到通知後,請再次打開前述語料庫頁面,就可以看到並存取完整資料集 另外,針對台語文學作家有志,這是咱欲予未來AI有法度讀台語的「上起頭」的行動,假 使你若有認同,邀請咱做伙用慷慨、曠闊的心來加入這个隊陣。假使你若願意,我嘛歡喜 用仝款的技術方案來支持你的行動,阮的團隊會用仝款的方式、經過你的授權,共你上優 質的文字,照你佮意的方式(比如先拍碎、拍亂),囥佇我參與管理的NPO IMA的語料庫 ,提供予非商業的AI訓練專案佮學術專案使用。歡迎你佮我連絡! 各族母語作家,若您有同樣的心志和技術需求,也都歡迎和我聯繫! https://i.imgur.com/5JVLW7i.png
https://i.imgur.com/qkKPTBI.png
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.124.48 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1742134687.A.776.html

03/17 14:39, 2周前 , 1F
03/17 14:39, 1F
文章代碼(AID): #1drjsVTs (TW-language)
文章代碼(AID): #1drjsVTs (TW-language)