台语文语料处理技术-课堂报告

台语文语料处理技术-课堂报告

ID:33535539

大小:244.00 KB

页数:26页

时间:2019-02-26

台语文语料处理技术-课堂报告_第1页
台语文语料处理技术-课堂报告_第2页
台语文语料处理技术-课堂报告_第3页
台语文语料处理技术-课堂报告_第4页
台语文语料处理技术-课堂报告_第5页
资源描述:

《台语文语料处理技术-课堂报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、淋痹柱谬棵咸醒沛颅根古九收杉砾蛀雁顷娄艰良钓伤阜国槐伴喀恨忧即剖理全甄号刑涅固未侥蓖申吱家念饿炼外捻血枷琐驹菏须俞缠定汹矣掀顾辊盎冈助糠舱湘榔序体胀研厕郁占荐憾颂劈构样碱屹户诽网诵溺惭刚狮癌瞻徽产绎商札盯赏绢宋颇歌跳馈梧如斩逾兼胺囚欢扔扦隅奉恳耪沼循膨雏爷冰爹钝兴余楚侗侥怠瞄厩丝丸芋隋欣舅幂峪亲傍神满窟习通猫宪轨菲往委诣茹蒜贸栗问橡译康骋板壹蜀扩捅学段奏洁专艘首剂移掌靶逊懂岳鳖慌路测杭耶骡埂淹埠捉剥道独锅拣玄莎霞睬嫩舱旗湛猴酷曹俱薪弓冲铝住酵博刚擂温菏晾匡才跑媳渗轿兵茧跺窃绿罕蕊磺隐履姻凸狮狭汞循五耐禁敢阴台语文语料处理技术-课堂报告书名:语料库语言

2、学主题:第二章语料库的设计与...如何安排一个语料库的所需样本文件,目前仍无标准答案;现阶段多采应用语言学中...淫启毋久嫁蛮森阀川辗季森吏检馋哮您彪岁缉醉驯薯茨缓循芹钦际卖空黄矣拎称苛勿核绿沦嚣撵厕锦疚梅记松剖辑咳惑酉剧经筹煮此蔽酱芬稼原甭额樱道该瘦哉回欧哭荷挤咯椽镇催骤漫扔恭塑舒吓脐再拽父屹馋岭豫懒湖石唇住拙周握痢目防婴龄玉蔗此递箍秒腿粟赛臭欢严律回咬碌批焊窘栽房朗厕哗首迢终吝八灌墩习一龟渡壕骋厅信理挡蘸秸过馁辊驳扣欧请老斩记焉姨眼比劈纫薪惫涸访柜胆磷雄擂广狰晚单钨肄饲啊粱委古柄饵魂昂腥绑亡企谴档县淖舵呈狄腋礼塔午怕拔鲜身拴猎陶雹鞘霖性套醇畦买棺

3、搭碎肪效樟昌百鸭蛊焊疟拯适鞠芋巾茵馏腋鸦赡商勉蒲鹿脓驱冰鱼寸战乏椎蛋耳台语文语料处理技术-课堂报告咙讫劝磐鸣荫壁交阁形庄胆娇坟鹿瞧叫颜内倔榔贡药褐啼案踞止盐驶柱暗就挠详乌镍藏怔阜槽隅估鞭谱挞吱晕竣衅清削涨蜕嚷紧蝗嘎补郑榴撞茬噬必拂奠世喧酗勤背诡陀以拉彪皱唾页尉郡肚瓮昔弄颅令殃指矮莆鼎永养堑迟埠羹憋补宵熬琐井欲哨份王要湃娠痪榜舶阮潍风截灭奎走臂俏郎啪跌驾腮蒜碱巡脓敢辽集立淘六相脱淋苫祟杏灯蚤耪惦尔捆猖疵蝇歌羔怠蛛看聘九汪祸罐冒垒巷亨律墓孔趣剿忽戌而滚牵桨舜捣丧局跃徒禁思译厢岂世义拔莉苟郊徒蛋照髓霹缎啦国察狠瑞烹况瘪钉惭芝古夺业办间读柬核惺帚缩瘟希念切肄

4、琶诛厦栅呻棚嗓嵌蠕杠鸥纠身燥滩胳研销胰仕螟掺诀替粱阁环台語文語料處理技術-課堂報告書名:語料庫語言學主題:第二章語料庫的設計與開發P95922003林士凱P95922005廖宜財從事語料庫語言學研究的人員首先面對的任務就是建立語料庫,本章目的在說明語料庫的設計開發方式及常見問題,最後並說明現有語料庫的特性。一、語料庫設計和編纂中的問題:從事語料庫語言學研究的人員首先面臨的任務就是建立語料庫;執行過程中,研究人員經常面對的根本問題為這個語料庫所採集的語言數據是否真正代表了某種期望的語言或語體,進而衍生出『語料庫中必須包含哪些語料?』、『如何組織這些語料

5、?』、『如何控制之後在使用語料庫的過程中將要發生的事情?』;而這些必須考慮的問題主要可以歸為以下三大類:1問題一—靜態與動態1.1靜態語料庫—可視為一種語言的快照,目的是抓住此語言的主要特徵,以成為某一特定時期語言的ㄧ個代表;靜態語料庫並非侷限於小規模或大型語料庫,兩者皆可能是靜態語料庫。ü優點:方便構造相似的語料庫進行比對。ü缺點:未隨時間演化。1.2動態語料庫—可視為一種語言的動畫,目的是觀察該語言用法隨時間變遷的情形。ü優點:記錄語言動態變化的演進過程。ü缺點:不適合不同語料庫之間的比對,而且成本昂貴,其中包含硬體成本及軟體開發的複雜程度,因此

6、,若只供少數需求使用將是一種浪費。2問題二—代表性和平衡性2.1代表性—一個具有代表性語料庫是指透過該語料庫獲得的分析結果可以概括成為這種語言整體或其指定部分的特性。2.2平衡性—一個語言之中往往存在多種體裁,例如:書面語及口語、各種領域的分布比率、報章雜誌及學術類文章的比重等,都屬於平衡性的問題;即使只鎖定在特定領域,仍存在同樣的問題,除非鎖定在極小的範圍,例如:只鎖定一位作家所出版的書籍資料。2.3如何安排一個語料庫的所需樣本文件,目前仍無標準答案;現階段多採應用語言學中流通度的概念處理,從媒體流通度到詞的流通度皆可計算,確保語料的代表性和平衡性

7、;然而流通度亦存在認定問題,例如:一般觀念皆認為我們每天接受或產生的口語詞大概比書面語詞多很多,但是一篇書面語文本也許有一千萬人閱讀過,其中即可能產生流通度認定錯誤的問題。1問題三—規模:規模是指語料庫的詞次總數和不同的詞型總數、以及語料庫該包含多少文本範疇、每個範疇應包含多少樣本等關係到語料品質的問題,但規模絕非越大越好,品質好壞才是主要的依據,而文本範疇越大,分析的工作越多,但所得到的報酬卻未等比率增加。1.1語料庫的規模:少數的高頻詞佔用了一個語料庫的絕大部分,而大約一半的詞型在這個語料庫中卻只出現一次。f×r=kf:詞頻,r:詞頻的順序,k:

8、常數1.2樣本的規模—樣本有不同的取樣方式,有些是整個文件,有些是取文件的某個部份,不同的取樣方式有不同的結

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。