[資料] AI 保存冰島語的經驗

看板TW-language (臺語板)作者 (RungTai)時間1年前 (2023/06/29 10:02), 編輯推噓4(407)
留言11則, 4人參與, 1年前最新討論串1/1
MBA 的在美學習筆記 FB https://reurl.cc/dD1W62 【AI 模型的意外用途:拯救瀕臨絕種的…語言? 】 人生去過的國家不多,有幸冰島是其中一個。但至今仍然讓人忘不了啊! 冰島的景色簡直是異世界,有時青草綠地像是天堂,有時卻有如「世界末日與冷酷意境」 。無論天堂或地獄,到處都是隨手拿起來亂拍都可以當桌布的等級。難怪要拍火星的電影 都要在此取景啊! 不過在冰島旅遊倒是有個小障礙:在地圖搜尋景點時,怎麼都拼不對地名。 因為冰島語實在是太難了。導致普通人如我,連把地名拼出來都難。 首都雷克雅維克 Reykjavík 還算簡單的。冰島最著名的景點,世界僅有的冰河湖景色 J ökulsárlón ,我從來沒能一次好好拼對。最變態的是島中的火山,叫做 T h r í h n ú k a g í g u r !看得我眼睛都花了。當時沒去,恐怕就是因為太難拼了,在地圖 拼不出來找不到路,直接放棄。 雖然冰島語很難,但如果到此地觀光,會發現——根本不用講冰島語。 雖然冰島語是官方語言,但統計顯示接近九成的冰島人,每天都得講英語!連英文電影預 告,都直接不上字幕。如今冰島語只剩下 30 萬人在講了。 雖然大家日常交流還是會用冰島語,但住在這裡,不講冰島語也是完全 OK 的。 難怪有人說,這個語言百年後很可能會消失,可以說是名副其實的瀕危語種了。 語言是文化的精髓。語言的滅絕,就失去了未來文化發展的可能性。就算是最熱門的中文 英文,也有許多傳統文化甚至神話的單字,是怎麼也翻譯不出來的。以中文來說,譬如「 功夫」、「風水」、「太極」至今除了音譯以外,都沒有一個好的翻譯。而且冰島語還與 其他維京人的語言緊密相連。如果未來突然發現新的古文明遺跡,卻沒有人能讀得懂,真 是人類文明遺產的一大損失! — 還好,在滅絕的前夕, AI 登場拯救了這項語言。 在此之前,冰島人其實曾經做出努力。政府成立了語言部門,專門用來保存這些術語。甚 至他們還自己用了 GPT-3 ,拿 30 萬筆冰島語資料,來訓練以及微調(Fine-tune)。 可惜成果令人失望——冰島語實在太冷門了,很多詞根本翻不出來,連基本的問題 AI 都 因為訓練不足,一直「幻想」出大錯特錯,卻 100% 肯定的答案。 終於, OpenAI 和遠在天邊靠近極圈的冰島人聯繫上了,釋出他們最關鍵的技術來拯救冰 島語。 OpenAI 從前其實不是很 Open。即使他們曾經對外簡單展示了模型訓練過程,卻沒有公開 最重要的一步:人類反饋的增強學習(RLHF),到底是要怎麼搞最有效率。 不過為了跟冰島政府一同拯救冰島語,倒是讓 OpenAI 使出絕招了。他們合作後,開始 了 RLHF 的一連串計畫:由 AI 作為學生,「人類老師」作為教學輔具,讓模型不斷的出 產答案,人類來評分。 結果呢?竟然短短 100 個例子以後,就讓冰島語模型達到了可用的階段! 如今 AI 可以用寫出北歐神話風格的冰島語古詩,並在人類用冰島語問問題時,自動識別 語言,並回答冰島相關知識。重要的是,以後 IT 的介面語言,無論是客服還是問答機器 ,完全可以預設是冰島文! 也就是說,未來即使家裡沒人懂冰島文,冰島的孩子們還是可以用冰島語跟 AI 聊天啦! — 從只是個聊天機器人,到拯救一門語言。 AI 技術真的挑戰很多從前既定的認知框架。 從前誰能想到,可能真正能把一個深邃難解、口耳相傳的北歐文化傳承下來的,不是那些 祖傳的冰島人,竟然只是存在雲端資料中心裡頭,模型的一套「參數」呢? 隨著 AI 技術發展,很多從前的規範,社會的眾多條條框框,可能都要砍掉重練了。 每年絡繹不絕的遊客,用數位技術拚命拍,想把冰島的視覺風景留下來。而那些眼睛看不 到摸不著的文化遺產,因為 AI ,竟然也有了永續流傳的機會! 你怎麼能不愛科技呢? 話說回來,相比之下 30 萬冰島人用的小語種,其實台灣原住民就有超過 58 萬,而阿美 族更是有二十幾萬。 AI 是不是也來拯救我們南島少數民族的族語呢? (好吧我承認這一篇只是想 PO 照片啦!) -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.231.107.225 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1688004165.A.265.html

06/29 12:19, 1年前 , 1F
要是平埔原住民語們多撐250年,或許就不會被台、日、
06/29 12:19, 1F

06/29 12:19, 1年前 , 2F
華等語言輪番取代了…
06/29 12:19, 2F

06/29 15:07, 1年前 , 3F
「被取代」和「撐不了」似乎是同一件事……
06/29 15:07, 3F

06/29 15:07, 1年前 , 4F
說得也是 QQ
06/29 15:07, 4F

06/30 11:45, 1年前 , 5F
我記得冰島人很保護他們的語言,沒聽過有啥危機
06/30 11:45, 5F

06/30 16:15, 1年前 , 6F
高山部落原住民若搬到西部平原,也早就全講台語了.
06/30 16:15, 6F

06/30 16:16, 1年前 , 7F
小語族的必然命運.保護也沒用.再說保護要有利多引誘.
06/30 16:16, 7F

06/30 16:17, 1年前 , 8F
平埔人轉換語言的模式和近世台語轉國語一樣.
06/30 16:17, 8F

06/30 16:18, 1年前 , 9F
兩百年來轉三種語言.可以列世界紀錄.
06/30 16:18, 9F

07/01 09:36, 1年前 , 10F
樓頂無講話無儂共汝當做啞口
07/01 09:36, 10F

07/01 09:37, 1年前 , 11F
政府佮社會先共無友善个態度提掉才講啦
07/01 09:37, 11F
文章代碼(AID): #1adEP59b (TW-language)
文章代碼(AID): #1adEP59b (TW-language)