[新聞] Meta打造台語英語AI翻譯 研發難度等5大QA一次看[影]

看板TW-language (臺語板)作者 (茹絮夢)時間2年前 (2022/10/20 22:36), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
https://www.cna.com.tw/news/ait/202210200209.aspx Meta打造台語英語AI翻譯 研發難度等5大QA一次看[影] 2022/10/20 15:17(10/20 19:31 更新) https://i.imgur.com/VA83ICN.jpg
圖為工程師陳鵬仁(左)示範Meta最新人工智慧支援的台語英語即時互譯系統。(圖取自 twitter.com/MetaAI) (中央社台北20日綜合外電報導)臉書母公司Meta昨天宣布推出首創由人工智慧(AI)技 術支援的閩南語(台語)、英語即時互譯系統。究竟閩南語翻譯難在哪、研發過程面臨哪 些挑戰,中央社彙整5大問答一次看懂。 Meta今天在推特(Twitter)發文指出,閩南話翻譯有SpeechMatrix系統支援,這是一個 有136個語言組合、含括41.8萬小時語音數據的語料庫。 Meta指出,至今為止,AI翻譯主要著重於各種書寫語言上,這次新推出的「通用語言翻譯 工具」(Universal Speech Translator, UST)是全球第一個由AI技術支援的「口語對口 語」翻譯系統,主要用於口語相傳的語言。 閩南語是全球約3000種口語相傳的語言之一,由於沒有標準書寫系統,也少有專門的翻譯 人員,這使他們為AI模型建立訓練數據時難度更高,也很難仰賴閩南語文本。 Meta指出,他們向所有AI社群開放此基準資料集的原始碼,並將閩南語翻譯系統納入UST ,希望其他研究人員能以此為基礎繼續研發,期盼有朝一日,未來所有語言無論是否可以 書寫,都不再是阻礙人們相互理解的障礙。 ● 全世界有多少人講閩南語? 閩南語是華裔群眾廣泛使用的語言,Meta統整2000年至2018年數據顯示,亞洲地區以中國 大陸約2800萬人最多,其次依序為台灣約1350萬人、馬來西亞約200萬人、新加坡約150萬 人、菲律賓約100萬人。 ● 打造閩南語翻譯系統為何這麼難? 以往的AI翻譯工具,必須利用大量的書寫文字來訓練AI模型,閩南語雖然是華裔族群廣泛 使用的語言,但大多以口語溝通,缺乏標準的書寫文字系統,無法以傳統的方式打造翻譯 工具,因此研發團隊嘗試在「通用語音翻譯工具」(UST)項目中開發新的AI翻譯技術。 ● 除了英文,閩南語還能翻譯成哪些語言? 根據Meta網站,目前這套翻譯系統只能以閩南語和英語進行即時語音翻譯,且每次只能翻 譯一個完整的句子。 民眾可至Hugging Face網站使用(網站連結點這裡) https://huggingface.co/spaces/facebook/Hokkien_Translation ● 閩南語翻譯系統在開發過程中,面臨那些挑戰? Meta在開發這套閩南語翻譯系統時,共面臨3大挑戰,分別是資料蒐集、模型設計以及準 確度評估。 為了解決閩南語資源不足問題,研發團隊想到了2大方法,首先是利用資源充足且相似度 高的中文作為「中間語言」,補足閩南語的詞彙量。研發團隊先將閩南語的語音,翻譯成 中文文字,接著再翻譯成英文,成功後再新增到訓練資料庫。 二是利用「語音探勘」產生訓練資料,研發團隊使用預先訓練好的語音編碼器,系統會自 動分析閩南語語音,並和相似語意的英文語音、文字進行配對。 在模型設計方面,有別傳統翻譯系統大多依賴「語音轉文字」系統,研發團隊則採用「語 音轉單元翻譯」(S2UT)系統,將語音轉換成一系列的聲學單元並生成波形後,再進行解 碼與翻譯。 至於準確度評估方面,研發團隊使用Meta開發的台羅(Tâi-lô)系統,將閩南語語音轉 譯成標準化的拼音符號,以音節為單位來評估翻譯準確度。 同時根據名為Taiwanese Across Taiwan(TAT)的閩南語語音語料庫,建立第一個閩南語 與英語雙向的語音翻譯基準資料集,未來將開放原始碼鼓勵其他研究人員合作進行閩南語 語音翻譯。 值得注意的是,TAT資料庫是由台灣產官學界共同開發,收集台灣各地不同腔調的台語語 音,總共錄製長達100小時語料,同時使用6支麥克風模擬各種情況,並使用約3000小時台 語鄉土劇片段作為研究語料,幫助訓練系統模型,提高準確率。 ● 這項AI翻譯技術除了翻閩南語,還能做什麼? 這項AI翻譯技術,未來可望擴展於其他口說或書寫語言,Meta也將公開具資料探勘技術支 援的「大型語音翻譯語料庫」(LASER),讓其他研究人員也能建立自己的語音翻譯系統 。(譯者:張茗喧/核稿:陳昱婷)1111020 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.40.0.40 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1666276564.A.5D7.html
文章代碼(AID): #1ZKLpKNN (TW-language)
文章代碼(AID): #1ZKLpKNN (TW-language)