Re: [請益] corpus

看板Linguistics (語言學習)作者 (Pbice)時間16年前 (2008/04/06 17:35), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串2/2 (看更多)
※ 引述《moistwin (winner)》之銘言: : 想請問 what is computer corpus (or machine-readable corpus)? : And, what is linguistically annotated corpus?? 在電腦普及之前,有些語料庫並不是使用電腦分析的。比方說,Quirk等人先做了大規模 的問卷調查,再據此寫成著名的《A Comprehensive Grammar of the English Language》 。 1960年代,Kucera和Francis建立Brown Corpus,是世界上第一個電腦語料庫,達到100萬 字的規模。Brown Corpus包含500篇文章,每篇2000字。當然,以現代的觀點來看,Brown Corpus只是「迷你」語料庫,但在電腦尚未普及的時代,可說是一大創舉了,也由此開啟 了語料庫語言學之路。 有些語料庫是沒有添加任何標記(annotation)的,特別是早期的語料庫、以及第二語言語 料庫。不過,為了便於檢索、研究,大多數的語料庫都會加上標記,語料標記端視研究目 的而定,除了標記詞性以外,也有句法、語音、語用、風格等標記。 早期語料庫的標記例如: present_NN1 (singular common noun) present_VVB (base form of a lexical verb) present_JJ (general adjective) 現代的語料庫則借鑑標記語言(markup language),採用XML來標記,用起始和結束兩種標 籤,將文本包在其中。例如: <w pos="t">現在</w> <w pos="w">,</w> <w pos="r">我</w> <w pos="n">代表</w> <w pos="m">第十五</w> 然而,古典語料庫學者John Sinclair認為,語料庫不該添加標記。因為不論是人工標記、 還是用演算法自動標記,必定會有錯誤。不過,像這種極端的意見畢竟是少數。現在, 我們所熟知的語料庫,大多都是經過標記的電腦語料庫了。 【延伸閱讀】 1. Brown Corpus, Wikipedia http://en.wikipedia.org/wiki/Brown_Corpus 2. 黃希敏〈語料語言學概述〉《敦煌電子報》 http://cet.cavesbooks.com.tw/htm/m0131100.htm 3. Wynne, M. (Ed.). (2005). Developing linguistic corpora: A guide to good practice. Oxford: Oxbow Books. http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.122.111.130

04/06 17:56, , 1F
超詳細的~~~~謝謝p大~~~~~^^
04/06 17:56, 1F
文章代碼(AID): #17-9bkhp (Linguistics)
討論串 (同標題文章)
本文引述了以下文章的的內容:
0
2
完整討論串 (本文為第 2 之 2 篇):
0
2
1
1
文章代碼(AID): #17-9bkhp (Linguistics)