中文文本自动分词与标注第8章汉语词义自动标注技术.ppt

中文文本自动分词与标注第8章汉语词义自动标注技术.ppt

ID:50588593

大小:802.50 KB

页数:16页

时间:2020-03-12

中文文本自动分词与标注第8章汉语词义自动标注技术.ppt_第1页
中文文本自动分词与标注第8章汉语词义自动标注技术.ppt_第2页
中文文本自动分词与标注第8章汉语词义自动标注技术.ppt_第3页
中文文本自动分词与标注第8章汉语词义自动标注技术.ppt_第4页
中文文本自动分词与标注第8章汉语词义自动标注技术.ppt_第5页
资源描述:

《中文文本自动分词与标注第8章汉语词义自动标注技术.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文文本自動分詞與標注第8章 漢語詞義自動標註技術報告人:劉謦儀(J94922018)9/5/20211綱要詞義標注詞義排歧詞義自動標注與詞義自動排歧語言的編碼漢字字義組合結構基於字義排歧的模型自組織的漢語詞義排歧方法結語9/5/20212詞義標注對文本中的每個詞根據其所屬之上下文給出它的語義編碼指用非文字的東西來表示文字消息的內容,用圖畫、樂譜等都可以進行語義編碼。詞典釋義文本中的某個「義項號」義類詞典中相映的「義類編碼」9/5/20213詞義排歧處理一詞多義現象例:大學是教育機構是一本古書,博士既是官名,又是博學多才的人,又是師傅,還是一種學位的名稱。使用詞義標注文本可提

2、高檢索時的查全率和查準率。有利於選擇可以恰當表達語句中詞的目標詞,以提高翻譯的準確性。建立基於語義類的語言模型,為語音識別、手寫體識別和音字轉換提供幫助。9/5/20214詞義自動標注(WordSenseTagging)也稱為詞義自動排歧(WordSenseDisambiguation)計算機運用邏輯運算與推理機制,對出現在一定上下文中詞語的語義進行正確的判斷,自動確定其正確的義項並加以標注的過程。多義詞排歧主要依據該多義詞出現的上下文,排歧的過程就是建立他們之間的聯繫過程,這種聯繫則是詞語間的語義聯繫。常見方法人工智能法、基於詞典的方法、基於語料庫的方法9/5/20215語

3、言的編碼分為語音編碼和語義編碼兩大類語音編碼:用符號代表語音,一種語言區別於其他語言的根本區別就是其不同的語音音素編碼。就英語而言有英音,美音,澳音,新西蘭音等。語義編碼:是用符號代表語義,關注的是語言所能表達的意義,每種語言都有自己的語義系統。漢語和英語屬於不同的語系,前者屬於漢藏語系,後者屬於印歐語系。9/5/20216語言的編碼漢語語義編碼的基本符號是“字”漢語的語義主要附著在“字”上。字義排歧是詞義標注之突破點。濃縮形音義,多為形聲字,表音亦表意,望文生義,如:吠。大量同音字、同音詞語,化成書面多可消除歧義。單字多義項者占53.6%(如「打」字之義項數為26);詞組/

4、合成詞多義項者僅占0.46%。9/5/20217漢字字義組合結構向心性字組Vs.離心性字組冰山,青山,火山,高山(核心字在後)Vs.山峰,山城,山溝,山村(核心字在前)並列字組Vs.主從字組關閉,左右,上下,陰陽(二字相同相近相反)Vs.火車,汽車,黑板,白版(前字從,後字主)合義(國+務→國務)33%、加義(景+物→可供觀賞的景緻和事務)56.7%、同義(聲+音→聲;音)、偏義(厚+度→厚≠度;容+易→易≠容)、轉義(目+光=眼睛+光線→見識)少量字義推大量詞義成為可能!9/5/20218基於字義排歧的模型資源:三台機器+兩部詞典MRD-1讀入<現代漢語通用字典>MRD-2

5、讀入<同義詞詞林>MTD由MDR-1透過機器自動生成以字義定詞義的語義標注方式準確率在80%以上遭遇困難處二字詞之多義詞排歧單字本身意義抽象、廣泛、模糊,成詞時描述也困難如何將詞義間之關係建構成完整的意念表達仍須努力9/5/20219基於字義排歧的模型-MRD1說明MRD-1讀入<現代漢語通用辭典>,用來作為標注每個漢字的義項號。“打(da3)”在MRD-1中有25個義項,分別為打-B01:毆打,攻打;打-B02:用手或器具撞擊物體;打-B03:做,從事;打-B04:表示身體上的某些動作;……打-B25:器皿,蛋類因撞擊而破碎。“打(da2)”在MRD-1中記為打-A01:量

6、詞,12個叫一打。9/5/202110基於字義排歧的模型-MRD2說明MRD-2讀入<同義詞詞林>,編排方式以詞義為主兼顧詞類詞,多義詞則分別收入不同詞群以12個語義場(人,物,時間,空間,抽象事物,性質,動作,心理,活動狀態,關聯,助詞)之不同層次與大小來分類。各語義場間互相有著同義(好看Vs.華麗)、反義(善良Vs.凶惡)、類義(大雨Vs.暴雨)、聯義(同情Vs.同情心;哭Vs.淚人兒)等語義關係。同一個語義場包含”1.同義;2.反義;3.類義”三種語義關係跨語義場就是聯義9/5/202111基於字義排歧的模型-MTD說明MTD由MDR-1透過機器自動生成詞組之義項代碼,

7、如”打-B02鼓-A01”打-B01:毆打,攻打→打倒∣打擊∣打架∣…∣打手打-B02:用手或器具撞擊物體→打鼓∣打火∣…∣敲鑼打鼓鼓-A01:打擊樂器→鼓板∣鼓槌∣打鼓∣…∣重振旗鼓鼓-A02:發動,激起→鼓動∣鼓舞∣…∣鼓足幹勁9/5/202112自組織的漢語詞義排歧方法-步驟1以<現代漢語辭海>提供的搭配實例作為多義詞的初始搭配知識庫,無需人工標注初始語料,用適當的統計和自組織方法做訓練並自動擴大搭配集。在初始搭配知識庫中,每個條目的包含訊息可描述為多義詞義項號搭配類別(L/R)搭配示例9/5/2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。