基於知网语料标注手册

基於知网语料标注手册

ID:6310557

大小:172.00 KB

页数:63页

时间:2018-01-09

基於知网语料标注手册_第1页
基於知网语料标注手册_第2页
基於知网语料标注手册_第3页
基於知网语料标注手册_第4页
基於知网语料标注手册_第5页
资源描述:

《基於知网语料标注手册》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基於知網的語料標注手冊顏國偉香港科技大學計算机科學系譚慧敏新加坡南洋理工大學中華語言文化中心(一九九九年八月第一版)63目錄基於知網的語料標注手冊1一、引言3二、概念定義的格式及標識符號的用法3I.概念定義的格式3II.標識符號的用法5III.附加屬性的先後次序8三、語義辨別方法9I.語境9II.參攷知網的上下位描述詞關係12III.參攷知網的動態角色14IV.參攷知網描述詞所對應的英文描述15V.虛詞辨析15四、未登錄概念、新增概念的定義方法21I.人名21II.地名22III.建築物名25IV.組織名25V.數量27VI.時間29VII.實體名稱29VIII.外文

2、或音譯詞30IX.緊縮詞31X.單字縮略詞33XI.敬語35XII.增補概念35五、中研院語料的再處理36I.再切分36II.反切分38III.修改錯誤的切分38iv.修改切分不一致之處39v.修改手民之誤39六、知網仍未解決的問題40I.一個定義是另一定義的子集合40II.冗餘定義40III.簡繁轉換出現的遺漏40鳴謝41參攷文獻41附錄(一):台灣之行政區劃(1958年)42附錄(二):一對多的簡繁字對照表5063一、引言知網是面向計算機的雙語常識知識庫,為創建人董振東先生研究逾十載的重要成果,提供了設計真正的智能軟件所需的知識。知網共收錄了50220個漢語詞語,

3、所含蓋的概念總量達62174個,目前尚在擴充中。作為面向漢語計算需求的知識庫,知網詳盡地描述了概念之間的關係,以及概念所具有的屬性之間的關係,其中兼及漢語詞目在英語對應使用中的語義概念。本文作者利用知網來標注台灣中央研究院平衡語料庫(第三版)中的部分語料。台灣中央研究院平衡語料庫(第三版)共有五百萬目詞,我們抽取了其中有關社會犯罪的報導,共三萬六千目詞。其中三萬目詞,我們利用知網進行人工標注。茲將標注的方法,包括概念定義的格式、標識符號的用法、詞義辨別方法、未登錄概念及新增概念的定義方法等問題摘要報告,求正方家以匡不逮,亦冀方便其他學者進一步瞭解知網,在利用知網進行語

4、料標注時能取得更高的一致性和準確性。二、概念定義的格式及標識符號的用法為了使說明更清晰,以下是本文所採用的特別標記的定義:特別標記定義<可有項>可有但非必須的描述《多數項》可以有超過一個同類的描述單一項沒有任何特別標記的描述表示單一、必要的描述項一

5、項二第一項描述或者是第二項描述‘特徵’本文中橫式單引號‘’用來表示知網裏有嚴格定義的知識詞典描述語言。固定的特徵I.概念定義的格式對實詞而言,知網的特徵首先分兩層:主要特徵及次要特徵,前者共分五類:事件類、事物類、部件類、屬性和數量類、屬性值和數量值類,後者包括屬性的具體分類及這些類別可以有的值見知網網頁裡頭的文件:《概念

6、的次要特徵(1)》、《概念的次要特徵(2)》。,另加88個表示概念特性的描述見知網網頁裡頭的文件:《概念的次要特徵(3)》。。63概念類別定義格式備注事件主特徵1,<《動態角色=主特徵2

7、次特徵》>,<《<標識符>主特徵2

8、次特徵》>,複雜事件多半有至少一個動態角色事物主特徵1,<《<標識符>主特徵2

9、次特徵》>,若主特徵1為“事情”,接著應標注該事情的主要特徵,無須借助於標識符號。若主特徵1與某事件存有一動態角色關係,則利用標識符表達。部件‘部件’,%主特徵,次特徵,主特徵標注該部件所屬的整體的類型。次特徵標注該部件在整體中的部位或功能。屬性數量‘屬性’,次特徵1,

10、&主特徵

11、&次特徵2,‘數量’,次特徵1,&主特徵

12、&次特徵2,次特徵1標注該屬性和數量的具體屬性類或數量類。主特徵或次特徵2標注該具體屬性或數量的宿主的類型。屬性值數量值‘屬性值’,次特徵1,<次特徵2>,‘數量值’,次特徵1,<次特徵2>,次特徵1標注該屬性值或數量值所指向的屬性或數量特徵。次特徵2標注該屬性值或數量值的具體值。虛詞的類別包括:副狀、并列、主從、助詞和單位詞,其定義格式列如下:概念類別定義格式備注單位詞i.單位ii.名量‘單位’,&次特徵

13、&主特徵,‘名量’,&次特徵

14、&主特徵,63i.動量‘動量’,&次特徵

15、&主特徵,次特徵或主特徵標注該單位、名

16、量、動量所指向的屬性或事物的類型。餘下三類{次特徵

17、動態角色},前四個虛詞類別的詳細分類請參閱知網網頁上的文件《次要特徵(1)》。上述二表中“主特徵”、“次特徵”、“動態角色”,乃知網固有術語。為方便下文的討論,我們引進兩個新術語,說明如下。“類別屬性”:指出現在概念定義的第一個位置上的特徵,表示概念的類別。“附加屬性”:概念定義中第一位置以外,其他有關概念的本質屬性或與其存有某種的語義關係的屬性。I.標識符號的用法定義一個詞語的概念(以下稱之為概念),除了標注其類別屬性,還要定出其附加屬性。知網的標識符,是和附加屬性一起使用的。若概念所具有的附加屬

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。