[資料] 胡長松的台語小說語料庫
https://www.facebook.com/share/p/15B6hLjxLU/
【胡長松的台語小說語料庫已全數公開】
各位朋友,我在此正式公告,我們團隊總算完成了公開語料庫所需的技術準備工作,並在
3/14日,已經把所有我本人的台語小說、超過100萬字的語料庫公開出來,提供給AI開源
訓練專案和學術專案使用。在說明底下的技術方案之前,我要先感謝我所任職的公司台灣
大哥大資訊長、同時也是IMA理事長蔡祈岩先生,充分支持及授權給我運用IMA的資源及技
術團隊來佈建這個方案,除了感謝,還有感動!
我的語料目前已經轉成了AI訓練所需的語料庫格式(此格式並不適於人的閱讀,且可視作
者要求進行結構重組),3/14日起,全數掛載在IMA (中華民國資訊經理人協會)的
Hugging Face語料庫,採取【Creative Commons CC具名授權,申請後提供存取】的管理
方式提供需要者使用,目前限非商業的AI訓練專案和學術專案來申請。各界朋友,若您有
使用我的小說語料庫的需要,操作說明如下:
1. 請點擊
https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots
2. 您將需要登入Hugging Face帳號
3. 在「Dataset Card」頁籤點擊「申請權限」按鈕
4. 提交申請後,狀態會變成「等待審核中」,我們會根據取得的帳號聯繫方式和您聯繫,
並進行核准程序
5. 審核通過後,您會收到電子郵件通知
6. 收到通知後,請再次打開前述語料庫頁面,就可以看到並存取完整資料集
另外,針對台語文學作家有志,這是咱欲予未來AI有法度讀台語的「上起頭」的行動,假
使你若有認同,邀請咱做伙用慷慨、曠闊的心來加入這个隊陣。假使你若願意,我嘛歡喜
用仝款的技術方案來支持你的行動,阮的團隊會用仝款的方式、經過你的授權,共你上優
質的文字,照你佮意的方式(比如先拍碎、拍亂),囥佇我參與管理的NPO IMA的語料庫
,提供予非商業的AI訓練專案佮學術專案使用。歡迎你佮我連絡!
各族母語作家,若您有同樣的心志和技術需求,也都歡迎和我聯繫!
https://i.imgur.com/5JVLW7i.png


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.124.48 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1742134687.A.776.html
推
03/17 14:39,
2周前
, 1F
03/17 14:39, 1F
TW-language 近期熱門文章
PTT職涯區 即時熱門文章
73
130