Re: [請益] corpus

看板Linguistics (語言學習)作者pbice (Pbice)時間18年前 (2008/04/06 17:35)推噓1(1推 0噓 0→)

留言1則, 1人參與討論串2/2 (看更多)

※ 引述《moistwin (winner)》之銘言： : 想請問 what is computer corpus (or machine-readable corpus)? : And, what is linguistically annotated corpus?? 在電腦普及之前，有些語料庫並不是使用電腦分析的。比方說，Quirk等人先做了大規模的問卷調查，再據此寫成著名的《A Comprehensive Grammar of the English Language》。 1960年代，Kucera和Francis建立Brown Corpus，是世界上第一個電腦語料庫，達到100萬字的規模。Brown Corpus包含500篇文章，每篇2000字。當然，以現代的觀點來看，Brown Corpus只是「迷你」語料庫，但在電腦尚未普及的時代，可說是一大創舉了，也由此開啟了語料庫語言學之路。有些語料庫是沒有添加任何標記(annotation)的，特別是早期的語料庫、以及第二語言語料庫。不過，為了便於檢索、研究，大多數的語料庫都會加上標記，語料標記端視研究目的而定，除了標記詞性以外，也有句法、語音、語用、風格等標記。早期語料庫的標記例如： present_NN1 (singular common noun) present_VVB (base form of a lexical verb) present_JJ (general adjective) 現代的語料庫則借鑑標記語言(markup language)，採用XML來標記，用起始和結束兩種標籤，將文本包在其中。例如： <w pos="t">現在</w> <w pos="w">，</w> <w pos="r">我</w> <w pos="n">代表</w> <w pos="m">第十五</w> 然而，古典語料庫學者John Sinclair認為，語料庫不該添加標記。因為不論是人工標記、還是用演算法自動標記，必定會有錯誤。不過，像這種極端的意見畢竟是少數。現在，我們所熟知的語料庫，大多都是經過標記的電腦語料庫了。【延伸閱讀】 1. Brown Corpus, Wikipedia http://en.wikipedia.org/wiki/Brown_Corpus 2. 黃希敏〈語料語言學概述〉《敦煌電子報》 http://cet.cavesbooks.com.tw/htm/m0131100.htm 3. Wynne, M. (Ed.). (2005). Developing linguistic corpora: A guide to good practice. Oxford: Oxbow Books. http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.122.111.130