x台语文语料处理技术-课堂报告

x台语文语料处理技术-课堂报告

ID:34202098

大小:244.00 KB

页数:26页

时间:2019-03-04

x台语文语料处理技术-课堂报告_第1页
x台语文语料处理技术-课堂报告_第2页
x台语文语料处理技术-课堂报告_第3页
x台语文语料处理技术-课堂报告_第4页
x台语文语料处理技术-课堂报告_第5页
资源描述:

《x台语文语料处理技术-课堂报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊台语文语料处理技术-课堂报告书名:语料库语言学主题:第二章语

2、料库的设计与...如何安排一个语料库的所需样本文件,目前仍无标准答案;现阶段多采应用语言学中...啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

3、啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊台语文语料处理技术-课堂报告啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

4、啊啊啊台語文語料處理技術-課堂報告書名:語料庫語言學主題:第二章語料庫的設計與開發P95922003林士凱P95922005廖宜財從事語料庫語言學研究的人員首先面對的任務就是建立語料庫,本章目的在說明語料庫的設計開發方式及常見問題,最後並說明現有語料庫的特性。一、語料庫設計和編纂中的問題:從事語料庫語言學研究的人員首先面臨的任務就是建立語料庫;執行過程中,研究人員經常面對的根本問題為這個語料庫所採集的語言數據是否真正代表了某種期望的語言或語體,進而衍生出『語料庫中必須包含哪些語料?』、『如何組織這些語料?』、『如何控制之後在使用語料庫的過程中將要發生的事情?』;而這

5、些必須考慮的問題主要可以歸為以下三大類:1問題一—靜態與動態1.1靜態語料庫—可視為一種語言的快照,目的是抓住此語言的主要特徵,以成為某一特定時期語言的ㄧ個代表;靜態語料庫並非侷限於小規模或大型語料庫,兩者皆可能是靜態語料庫。ü優點:方便構造相似的語料庫進行比對。ü缺點:未隨時間演化。1.2動態語料庫—可視為一種語言的動畫,目的是觀察該語言用法隨時間變遷的情形。ü優點:記錄語言動態變化的演進過程。ü缺點:不適合不同語料庫之間的比對,而且成本昂貴,其中包含硬體成本及軟體開發的複雜程度,因此,若只供少數需求使用將是一種浪費。2問題二—代表性和平衡性2.1代表性—一個具有

6、代表性語料庫是指透過該語料庫獲得的分析結果可以概括成為這種語言整體或其指定部分的特性。2.2平衡性—一個語言之中往往存在多種體裁,例如:書面語及口語、各種領域的分布比率、報章雜誌及學術類文章的比重等,都屬於平衡性的問題;即使只鎖定在特定領域,仍存在同樣的問題,除非鎖定在極小的範圍,例如:只鎖定一位作家所出版的書籍資料。2.3如何安排一個語料庫的所需樣本文件,目前仍無標準答案;現階段多採應用語言學中流通度的概念處理,從媒體流通度到詞的流通度皆可計算,確保語料的代表性和平衡性;然而流通度亦存在認定問題,例如:一般觀念皆認為我們每天接受或產生的口語詞大概比書面語詞多很多,

7、但是一篇書面語文本也許有一千萬人閱讀過,其中即可能產生流通度認定錯誤的問題。1問題三—規模:規模是指語料庫的詞次總數和不同的詞型總數、以及語料庫該包含多少文本範疇、每個範疇應包含多少樣本等關係到語料品質的問題,但規模絕非越大越好,品質好壞才是主要的依據,而文本範疇越大,分析的工作越多,但所得到的報酬卻未等比率增加。1.1語料庫的規模:少數的高頻詞佔用了一個語料庫的絕大部分,而大約一半的詞型在這個語料庫中卻只出現一次。f×r=kf:詞頻,r:詞頻的順序,k:常數1.2樣本的規模—樣本有不同的取樣方式,有些是整個文件,有些是取文件的某個部份,不同的取樣方式有不同的結

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。