Re: [閒聊] 版聚心得 (聲韻學相關)

看板HANGUKMAL (韓語板)作者 (歡迎光臨韓國語板)時間15年前 (2009/05/01 23:41), 編輯推噓3(304)
留言7則, 3人參與, 最新討論串8/11 (看更多)
※ 引述《wagor (宇宙大帝)》之銘言: : ※ 引述《albyu (歡迎光臨韓國語板)》之銘言: : : 感謝 wagor 大的詳細整理 ^^ : : 今天下午我寫了一個程式用以將整本《廣韻》和韓語漢字音進行 matching : : 目前程式跑過的部分主要是見溪群疑與影曉匣喻之間相互的變化的部分 : : 電腦跑出來的結果,除了冷僻字之外,幾乎和 wagor 大整理出來的一致 : : 下面補充一下程式對於 曉/匣→見 溪→曉 見→曉 的部分所跑出來的結果 : : 用以提供大家參考,太過罕見的漢字因為可能沒太大幫助我就不列了 : ==== : 要是我有這個本事,就不用一個個查老半天了.佩服. : 話說回來整本廣韻的資料檔在哪裡,matching怎麼做的,能否概述一下. : ==== 我用的是之前在北大中文論壇裡面看到的「廣韻字表」 http://editthis.info/phonology/%E5%BB%A3%E9%9F%BB%E5%AD%97%E8%A1%A8 (現在好像不能下載了 XD) 它裡面提供一個 UTF-8 編碼涵蓋 Unicode 3.1 字碼範圍的《廣韻》全書電子版文字檔 基本上先寫一個程式去 parse 這個文字檔 (這並不難,受過基礎程式訓練就可辦到) 把每個漢字的反切、聲母、韻母、呼、韻等、聲調都個別抓出來 在韓語漢字音的部分,因為我尚未找到一個完整的《玉篇》電子版本 所以我用 libhangul 這個函式庫的資料檔來代替 http://kldp.net/projects/hangul/ libhangul 是 Linux 平台上,提供韓文輸入法進行漢字變換的開放原始碼函式庫 下載 libhangul 的原始碼後,解開來是一堆 C 語言的程式碼,還有一個漢字詞列表 我只用它的漢字詞列表的檔案,一樣再寫個程式去 parse 它的內容 取得每個漢字所對應的諺文,然後利用羅馬字工具,把諺文轉成羅馬字,方便電腦處理 matching 的方法非常簡單,簡單來說就是查每一個在 libhangul 列表中的漢字 它的廣韻那個檔案裡面的聲母是什麼,比方我要找 廣韻見母 → 韓語匣母 的漢字群 就把每一個在 libhangul 列表中羅馬字開頭為 h 的漢字 如果它在廣韻檔案裡面有一例是寫著它是「見」母字的話,就把這個字印出來 當然也要設一些 rule 過濾不要的例子,例如「解」在廣韻有見母和匣母二種 因此只要該漢字同時也有匣母的項,那這個字就不是我們要的了 如此就能夠自動列出可能的 見 → 匣 的漢字例了,想法就是這麼簡單 當然如果實際上去寫程式,會發現有不少討厭的地方 那就是 Unicode 對應的問題,例如「青」和「靑」實際上對我們來說是同一個字 但是在 Unicode 編成二個不同的碼,而廣韻字表用「青」,韓文用「靑」 這樣電腦會認為這是二個不同的漢字,就不會對到一起,這就必須做一些額外的處理 這方法基本上只要有漢字音表就能夠做了 所以我現在還在努力收集日語、越南語、閩南語、粵語、吳語等的發音電子檔案 不過並不是很容易能夠取得,有不少線上字典的服務,但一次只能查一個漢字 我有想過寫一些 crawler 的程式去爬,程式自動不斷去查所有漢字的說明內容 不過這會對 web server 造成大量 traffic loading,因此還不敢短時間進行大量查詢 順道岔個題,利用資訊技術確實可以幫助語言學家進行研究,節省很多 heavy work 像是古人要花不少時間用系聯法去分析反切上字 但是電腦只要花數秒鐘就能完成整本《廣韻》的系聯工作了 除了幫助語言學家研究,我們也希望電腦能夠像語言學家一樣自動進行語言學研究 希望利用電腦找出更多人類無法容易歸納發現的語言學現象 這就是語言學的其中一個分支「計算語言學」所研究的重要課題之一 計算語言學界最權威的學會 Association for Computational Linguistics (ACL) 旗下有一個 Special Interest Group on Computaional Morphology and Phonology 簡稱 SIGMORPHON,有許多資訊技術應用於歷史語言學相關的研究論文可以參考 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.166.78.212 ※ 編輯: albyu 來自: 118.166.78.212 (05/01 23:43)

05/01 23:45, , 1F
會程式真屌.. ( ̄▽ ̄#)﹏﹏
05/01 23:45, 1F

05/01 23:45, , 2F
太強大了....
05/01 23:45, 2F

05/01 23:45, , 3F
23:45 XD
05/01 23:45, 3F

05/02 00:44, , 4F
現在大陸 韓國蠻多學者在做計算語言學這塊
05/02 00:44, 4F

05/02 00:45, , 5F
潘悟雲也是一有漢語方言 漢藏語的單詞 漢字音資料
05/02 00:45, 5F

05/02 00:48, , 6F
就存入電子資料庫裡 嚴翼相 鄭錦全也應用此方法在韓語和
05/02 00:48, 6F

05/02 00:48, , 7F
其他漢語方言漢字音做了比較 看誰和韓語比較相似
05/02 00:48, 7F
文章代碼(AID): #19-nWUN6 (HANGUKMAL)
討論串 (同標題文章)
文章代碼(AID): #19-nWUN6 (HANGUKMAL)