《计算语言学概论》PPT课件

《计算语言学概论》PPT课件

ID:39708814

大小:221.19 KB

页数:74页

时间:2019-07-09

《计算语言学概论》PPT课件_第1页
《计算语言学概论》PPT课件_第2页
《计算语言学概论》PPT课件_第3页
《计算语言学概论》PPT课件_第4页
《计算语言学概论》PPT课件_第5页
资源描述:

《《计算语言学概论》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、計算語言學概論Ch4詞法分析楊允言14.1概論音節語詞語句語詞是ùi無意義ê聲音kàu有意義ê語音ê關鍵過渡語言學對詞ê定義:會tàng獨立運用,有意義êsiong細ê語法單位24.1概論-2漢字ê例簡體字ê「后」對應繁體字ê「後面、皇后」,若是ti字ê基礎轉換有困難,ti詞ê基礎做轉換to有可能文字校對系統,「羅馬子(字)」(拼音ê輸入法)、「于(干)涉」(字形ê輸入法),利用詞ê基礎來檢查,chiah檢查會出來語詞檢索「人為」,若是語料庫無經過斷詞處理,有可能會chhe出「以人為本…」、「人為按怎beh活leh」等無適合ê例句34.1

2、概論-3詞法分析第一個任務Ùi話句內底ka詞chhe出來(tokenization)若有需要,koh分析組成這個詞ê語素成分(lemmatization/morphologicalanalysis)詞法分析第二個任務做PartofSpeechiah是WordSenseTagging這句話ê三個翻譯(n)lóng翻譯(v)了têng-tân去44.1概論-4詞法分析ê困難點理論上詞ê定義?詞ê意思beh按怎確認?實作上Beh按怎真緊ka詞chhe出來?斷詞beh按怎做disambiguity?詞類beh按怎做disambiguity?54.2詞

3、ê判別英文ê詞(Tokenization)WhiteSpace/標點隔開有ê詞用標點隔開eg“I’ll”“can’t”有ê縮寫詞有句點eg“U.S”有ê詞有非字母eg“AT&T”“Micro$oft”數字eg“123,456.789”“23.5%”“2005/12/21”會sái用Regularexpression表示,用FiniteStateMachine處理64.2詞ê判別-2英文ê詞形分析(Lemmatization)Prefix+WordStem(詞根)+Suffix+Inflection(型態變化)egpossibleimposs

4、ibleimpossiblyhappyhappinessladyladiescheckcheckedmakemakerstrongstrongest…74.2詞ê判別-3台文êtokenization:做WordSegmentation漢羅台文,需要先切做一個一個ê音節(全漢字to無需要)查辭典,用siong大比對(MaximalMatching) eg:台語文

5、計算

6、語言學

7、是

8、三

9、學分

10、ê

11、課問題:ambiguity eg:看台語故事(X)看台

12、語

13、故事(O)看

14、台語

15、故事(BackwardMaximalMatchthang解

16、決)84.2詞ê判別-4台文ê例 eg:真正常用… (O)真正

17、常用… (O)真

18、正常

19、用…華文ê例 eg:結合成分子時 (FMM/BMM)(X)結合

20、成分

21、子時 (O)結合

22、成

23、分子

24、時94.2詞ê判別-5Ambiguity分兩種交chhap型Ambiguity ABCAB

25、C/A

26、BC eg野球場(野球

27、場/野

28、球場)組合型Ambiguity ABAB/A

29、B eg個人(我

30、個人…/三

31、個

32、人…)組合型Ambiguity無法度用siong大比對解決104.2詞ê判別-6利用規則來解決組合型Ambiguityif(IsNumber(Le

33、ftWord(“個人”))) then“個

34、人” else“個人”利用MM+Feedback來解決交chhap型Ambiguity學歷史智識(FMM)學歷

35、史(辭典無)

36、智識學

37、歷史

38、智識114.2詞ê判別-7Siong大機率分詞(統計方法,針對交chhap型Ambiguity)eg:0看1台2語3故4事5FMM看台

39、語

40、故事0--2--3--5 BMM看

41、台語

42、故事0--1--3–5查詞頻資料看台90.0002%語2,7870.0688%看14,5660.3595%台語5,5490.1370%P(看台)×P(語)

43、選BMMê結果124.2詞ê判別-8演算法將無kâng分詞結果排序w1,w2,…,wnÙi辭典查出P(wi),並且紀錄倒pêng相óaê詞(LAW)P’(wi)=P’(wi-1)×P(wi),比較得著siong好êLAW(BLAW)一直算kàuP’(wn)wn開始,ùi正pêngkàu倒pêng將BLAW印出來,to是結果134.2詞ê判別-9eg:0-1(看),0-2(看台),1-3(台語),2-3(語),3-5(故事)P’(看)=P(看),無LAWP’(看台)=P(看台),無LAWP’(台語)=P’(看)×P(台語),“台語”êBLAW是

44、“看”P’(語)=P’(看台)×P(語),“語”êBLAW是“看台”P’(台語)>P’(語)“故事”是siong尾詞,結束“故事”êBLAW是“台語”,“台語”êB

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。