Re: [請益] corpus
※ 引述《moistwin (winner)》之銘言:
: 想請問 what is computer corpus (or machine-readable corpus)?
: And, what is linguistically annotated corpus??
在電腦普及之前,有些語料庫並不是使用電腦分析的。比方說,Quirk等人先做了大規模
的問卷調查,再據此寫成著名的《A Comprehensive Grammar of the English Language》
。
1960年代,Kucera和Francis建立Brown Corpus,是世界上第一個電腦語料庫,達到100萬
字的規模。Brown Corpus包含500篇文章,每篇2000字。當然,以現代的觀點來看,Brown
Corpus只是「迷你」語料庫,但在電腦尚未普及的時代,可說是一大創舉了,也由此開啟
了語料庫語言學之路。
有些語料庫是沒有添加任何標記(annotation)的,特別是早期的語料庫、以及第二語言語
料庫。不過,為了便於檢索、研究,大多數的語料庫都會加上標記,語料標記端視研究目
的而定,除了標記詞性以外,也有句法、語音、語用、風格等標記。
早期語料庫的標記例如:
present_NN1 (singular common noun)
present_VVB (base form of a lexical verb)
present_JJ (general adjective)
現代的語料庫則借鑑標記語言(markup language),採用XML來標記,用起始和結束兩種標
籤,將文本包在其中。例如:
<w pos="t">現在</w>
<w pos="w">,</w>
<w pos="r">我</w>
<w pos="n">代表</w>
<w pos="m">第十五</w>
然而,古典語料庫學者John Sinclair認為,語料庫不該添加標記。因為不論是人工標記、
還是用演算法自動標記,必定會有錯誤。不過,像這種極端的意見畢竟是少數。現在,
我們所熟知的語料庫,大多都是經過標記的電腦語料庫了。
【延伸閱讀】
1. Brown Corpus, Wikipedia
http://en.wikipedia.org/wiki/Brown_Corpus
2. 黃希敏〈語料語言學概述〉《敦煌電子報》
http://cet.cavesbooks.com.tw/htm/m0131100.htm
3. Wynne, M. (Ed.). (2005). Developing linguistic corpora: A guide to good
practice. Oxford: Oxbow Books.
http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.122.111.130
推
04/06 17:56, , 1F
04/06 17:56, 1F
討論串 (同標題文章)
Linguistics 近期熱門文章
PTT職涯區 即時熱門文章