词汇语义关系评测

词汇语义关系评测

ID:26753627

大小:773.17 KB

页数:15页

时间:2018-11-29

词汇语义关系评测_第1页
词汇语义关系评测_第2页
词汇语义关系评测_第3页
词汇语义关系评测_第4页
词汇语义关系评测_第5页
资源描述:

《词汇语义关系评测》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、词汇语义关系评测吴云芳万富强周蜜北京大学计算语言学研究所wuyf@pku.edu.cn2012-12-2纲要任务描述评测数据的准备评测数据的标注参赛系统的结果存在问题进一步工作展望缘起词汇语义信息是自然语言处理中很重要的资源,是进一步进行句法和语义分析的基础。在信息检索中的查询扩展、机器翻译中的模块识别等方面,相似词都是不可或缺的知识资源;在句法分析、词义消歧等信息处理任务中,词语相似度也发挥着重要的作用。而相似度词典的手工构建是一项费时费力的浩大工程,存在着不易更新、覆盖度不全等诸多缺陷。任务描述任务一:

2、同义词发现文件文书文本文牍公文文献档案文档任务二:下位词发现算法分治法动态规划法贪心法回溯法同义词词语的选词范围来源类型目标词数QQ聊天语料口语词语173领域同义词库常用词语1585微博新词语73Gigaword名词5000Gigaword动词2000Gigaword形容词1000Gigaword成语50人民日报语料组织机构名50人民日报语料地名50维基百科人名50去重之后得到9464个同义词词语。下位词词语的选词范围来源类型目标词数《现代汉语语义词典》语义类标签44《现代汉语词典》上位词(“是一种”模式)

3、61《知网》语义类标签49人民日报语料上位词(“一种”模式)412维基百科分词后加筛选规则4327领域同义词库常用的名词150Gigaword名词5000去重之后得到9354个上下位词词语。评测数据的准备综合各家结果,求并集;对同义词集/下位词集结果进行简单的统计:结果数据.xlsx选取评测的目标同义词;人工标注:北京大学中文系语言学专业硕士研究生同义词集投入了更多的时间同义词目标词的选择来源类型目标词数QQ聊天语料口语词语173领域同义词库常用词语1585微博新词语73Gigaword名词800Gigaw

4、ord动词300Gigaword形容词100Gigaword成语140人民日报和维基百科专有名词50去重之后得到3129个目标词,作为人工标注的对象词语。人工标注后,删除没有同义词的目标词,最终得到778个评价词。尽量涵盖不同来源、不同类型的词语。下位词语目标词的选择来源类型目标词数《现代汉语语义词典》语义类标签44《现代汉语词典》上位词(“是一种”模式)61《知网》语义类标签49人民日报语料上位词(“一种”模式)412维基百科等其他名词1100然后再选择下位词数在[2,99]之间的目标词1076个,作为人

5、工标注的对象。人工标注后,删除没有下位词的目标词,最终得到256个评价词。尽量选择有潜在下位词的目标词。参赛系统报名:23个队伍参赛:同义词8队10组结果上下位词4队5组结果参赛系统的结果—同义词宏平均准确率宏平均召回率宏平均F1值微平均准确率微平均召回率微平均F1值中科院声学所0.12710.10110.0990.44220.06440.1124北京理工大学0.19920.24640.18780.21120.23060.2205北京交通大学0.28760.34060.27370.30880.37530.3

6、389华为10.36390.52070.36710.27540.58540.3746华为20.33000.55340.36380.26150.61290.3666华侨大学0.03780.01050.01480.29960.01150.0222南京师范大学0.35880.60750.39840.30250.63860.4106哈尔滨工业大学0.32300.39050.28520.23030.36920.2837郑州大学10.29710.64190.35940.25300.67920.3687郑州大学20.32

7、520.69530.39220.25410.70720.3738参赛系统的结果—下位词宏平均准确率宏平均召回率宏平均F1值微平均准确率微平均召回率微平均F1值中科院声学所0.24290.08720.11560.78270.12210.2113北京理工大学0.30770.08860.11630.63830.08960.1572北京交通大学0.66120.37760.41850.70430.46420.5596郑州大学10.53910.33180.37370.64920.35180.4563郑州大学20.611

8、90.59880.56050.62330.50450.5576存在问题自动获取的准确率不高人工标注的时间花费大人工标注的难度大:同义词如何来定义?标注的一致性如何来把握?进一步工作展望同义词是非常重要的基础资源各位老师同学都有较大的兴趣和爱好是否有可能联合构建大规模的同义词资源?谢谢!

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。