开放知识库构建技术的多维量化评价方法

开放知识库构建技术的多维量化评价方法

ID:9149057

大小:107.39 KB

页数:12页

时间:2018-04-19

开放知识库构建技术的多维量化评价方法_第1页
开放知识库构建技术的多维量化评价方法_第2页
开放知识库构建技术的多维量化评价方法_第3页
开放知识库构建技术的多维量化评价方法_第4页
开放知识库构建技术的多维量化评价方法_第5页
资源描述:

《开放知识库构建技术的多维量化评价方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、开放知识库构建技术的多维量化评价方法BfWSSW靳小龙中国科学院计算技术研宄所网络数据科学与技术重点实验室网络大数据时代的到来使得开放知识库的构建技术越来越受到学术界和工业界的关注。近年来,依托开放知识库构建技术而构建的知识库及相关应用层出不穷。然而,s前并没有一种较为统一、全面的开放知识库构建技术的多维量化评价方法。在己有工作的基础之上,提出了一套开放知识库构建技术的多维评价指标体系,综合考虑包括开放知识库的构建准确率、构建时间、构建规模在内的多个维度,并在此基础上提出了开放知识库构建技术的多维量化评价方法。实验表明,开放知识库构建技术的评价结果较传统的评价方法

2、更为全面、合理,并且可以根据实际应用中维度的重要性差异产生不同角度的评价结果。关键词:开放知识库评价;多维;量化;为了挖掘海量数据中蕴藏的大量知识,需要以知识库的形式将其组织起来。知识库主要由实体与实体间的关系构成,它作为对数据进行结构化和体系化的组织与关联,进而进行可视化展示的一项重要技术,近年来受到了学术界和工业界的广泛关注。其中,具有代表性的大规模知识库有微软公司的Probase,其核心概念数在265万以上谷歌公司的KnowledgeVault包含4500万个实体以及2.7亿个关系[3];此外,还有一些比较知名的知识库以及建立在知识库之上的知识服务系统,如N

3、ELLH1,DBpediaX^l和YAGO£§1等,以及国内的搜狗知立方、百度知心等。由于互联网数据的多元化与爆炸式增长,仅针对在线百科等结构化或半结构化数据构建知识库已经远远不能满足需求,因此针对开放网络中的大量数据而构建的开放知识库应运而生。开放知识库是一个面向开放网络的、动态的、可増量的知识库m。开放网络是指知识的来源多元化,包括来自互联网的非结构化多语言文本数据(如时事新闻、电子邮件、微博、社交媒体网站的帖子、即时通信以及可以转换成文本的信息等)、半结构化的在线百科知识库、机器可读的结构化语言知识库(如各类词库、专名库、主题词表、标注语料库等);动态是指领

4、域知识和语言知识的要素之间的关系以及知识本身的属性是动态变化的;可增量是指知识的规模可以满足用户对于知识获取的实时性耍求而进行动态的扩展。这些特点异致幵放知识库的数据来源多样、规模巨大、变化迅速、质量参差不齐,从而对开放知识库构建技术的评价提出了巨大的挑战。一部分传统的知识库评价工作针对知识库的内容质量,仅使用某些基本指标(例如准确率、召回率等)对知识库进行评价。以管其屮一部分的评价对象是开放知识库,但这些工作并没有根据开放知识库来源广、更新快、规模大的特点,结合开放知识库的构建过程,从多个维度对其进行评价。另一部分传统的知识库评价工作侧重于关注知识库的应用价值。

5、它们大多使用某个综合评价方法(例如层次分析法、模糊评价法、TOPSTS法等)M从多个角度评价知识库的应用价值,并不侧重于通过知识库构建的结果对知识库构建技术进行多维、量化的评价。本文的主要贡献为结合开放知识库的构建准确率、构建时间、构建规模等多个维度,提出一套针对开放知识库构建技术的多维评价指标体系,对开放知识库构建技术进行多维量化评价。具体如下:(1)针对开放知识库来源广、更新快、规模大的特点,依据开放知识库构建过程中的命名实体识别(NamedEntityRecognition)、属性/关系抽取(SlotFilling)、实体链接(EntityLinking)三

6、大步骤分别计算开放知识库的构建准确率,并综合这些指标提出构建准确率这一概念。将开放知识库构建准确率与构建时间、构建规模相结合,评估开放知识库构建技术的总体效果,提出了一套开放知识库构建技术的多维指标体系,并依照此体系评价开放知识库的构建技(2)为了更好地按开放知识库特点衡量知识库构建技术,方便不同构建技术之间的比较,基于开放知识库构建技术的多维指标体系,提出丫开放知识库构建技术的多维量化评价方法,并使用此方法对国际权威评测的官方结果进行评价。本文第2节介绍了知识库评价的部分和关工作;第3节描述了开放知识库构建技术的多维指标体系;第4节对开放知识库构建技术的多维量化

7、评价方法进行了定义;第5节为实验;最后对本文进行总结。2相关工作目前传统的知识库评价工作主耍有两种:1)使用某些基准指标,针对所构建的知识库的质量括准确性、完备性等)进行评价;2)提出一套较完备的指标体系,利用综合评价方法对知识库进行评价,这类评价更多地关注知识库的应用价值。知识库相关评测任务中的指标更多地关注知识库本身的质量。在由美国国家标准与技术研宄院(NationalInstituteofStandardsandTechnology,NIST)组织的文木分析会议的知识库填充(TextAnalysisConferenceKnowledgeBasePopulat

8、ion,T

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。