欢迎来到天天文库
浏览记录
ID:1315082
大小:386.00 KB
页数:31页
时间:2017-11-10
《ch3 語料庫:語言智識ê另外一種表達形式》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、計算語言學概論Ch3語料庫:語言智識ê另外一種表達形式楊允言13.1語料庫研究概況Khng語言材料ê倉庫語料庫khngê是ti語言實際使用中真正出現過ê語言材料語料庫是khngti電腦內底ê語言智識ê基礎資源真實語料愛經過分析、加工、處理,chiah會tàngchiân做有路用ê基礎資源23.1語料庫研究概況-2中研院平衡語料庫企業(Na)競爭(VA)的(DE)遊戲(Na)規則(Na),都(D)已(D)因(Cbb)他們(Nh)...London-Lund英語口語語料庫^aren’tyou.goingtositd/own#-/^quit
2、eanice.roomto!sitin(actually))#/語料庫內底ê語言材料是真實ê書面語iah是口語,並且ti這個基礎頂面,做語言學ê加工kah分析33.1語料庫研究概況-3語料庫分類書面語vs口語單語vs雙語vs多語為著無kângê應用目標,做無kâng層次ê加工43.1語料庫研究概況-4語料庫ê應用編辭典Lexicography(專家vs語料)語言學研究歷時(台語ti無kâng時代ê差異)共時(kang時陣ê華語(台灣、中國、新加坡、香港、…)/英語(美國、英國、澳洲、…)語言教學文學/社會學研究…53.1語料庫研究概
3、況-5語料庫發展簡史Chomsky反對語料庫研究自然語言本身會tàng產生無限ê話句,語料庫koh-khah大,makan-na是一小部分真實語料一般無包括錯誤ê話句,ma無包含無禮貌ê話句研究者個人ê語言直覺ti語言研究中ê重要性63.1語料庫研究概況-6第一代:1970年代~1980年代BrownCorpus美國Brown大學ti60年代初期,建立世界第一個根據系統性原則採集樣本ê標準語料庫,規模是100萬wordtokens,代表當時ê美國英語。70年代,利用規則方法建立詞性標記系統TAGGIT,正確率大約77%73.1語料庫研
4、究概況-7第一代:1970年代~1980年代LOBCorpus70年代初期,英國Lancaster大學語言學家Leech提議,NorwayOslo大學主持,最後khngtiNorwayBergen大學Norway人文科學計算中心80年代Leech領導êUCREL(Univ.CentreforCorpusResearchonLanguage)研究小組替LOB設計133個標記,用統計方法開發CLAWS詞性標記系統,正確率有96%83.1語料庫研究概況-8第一代:1970年代~1980年代London-LundCorpus(LLC)60年代
5、初期,錄2000點鐘ê講話kah廣播語料,整理做書面資料後來瑞典Lund大學ka轉做電子檔案,1975年建立London-Lund英語口語語料庫以上三個語料庫lóngkhngtiNorwayBergen大學ICAME(InternationalComputerArchiveofModernEnglish)ê資料庫內底93.1語料庫研究概況-9第二代:1980年代~1990年代COBUILD語料庫第一個為著編辭典建立ê語料庫。英國Birmingham大學kahCollins出版社合作,規模是2,000萬詞1987年出版英語辭典,詞條ê選
6、擇、用法說明、解說、例句lóng根據語料庫103.1語料庫研究概況-10第二代:1980年代~1990年代Longman語料庫80年代開始建立,包括(1)Longman/Lancaster英語語料庫(2)Longman口語語料庫(3)Longman英語學習語料庫目標:編英語學習辭典,服務學習英語ê外國人規模:5,000萬詞第二代ùi純學術研究行向編辭典ê應用,而且商業上得著成功113.1語料庫研究概況-11第三代:1990年代~ACL/DCI語料庫美國計算語言學會(ACL)提議發起收集範圍包括WallStreetJournal、Col
7、lins英語辭典、BrownCorpus、Upenntreebank、部分雙語/多語文本包括taggedcorpuskahuntaggedcorpus(rawcorpus)採用SGML(StructuredGeneralizedMarkupLanguage),Tagging遵照TEI(TextEncodingInitiative)標準123.1語料庫研究概況-12第三代:1990年代~UPennTreeBank80年代尾開始,對語料進行句法結構標注1993年,完成將近300萬英語詞ê話句ê句法結構標注2000年,LDC(Linguis
8、ticDataConsortium)發行UPenn簡體中文treebank,10萬詞/4,185個話句。133.2語料ê收集kah加工建立語料庫牽涉三個方面語料收集規模:百萬/千萬/億/…詞級領域:政治/經濟/體育/心理
此文档下载收益归作者所有