知识库构建前沿

知识库构建前沿

ID:42278443

大小:831.20 KB

页数:19页

时间:2019-09-11

知识库构建前沿_第1页
知识库构建前沿_第2页
知识库构建前沿_第3页
知识库构建前沿_第4页
知识库构建前沿_第5页
资源描述:

《知识库构建前沿》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、知识库构建前沿:自动和半自动知识提取编者按:在过去几十年,人们曾尝试采用直接编辑知识、利用大众智慧、自动或半自动知识抽取三类方法来构建知识库。随着时代发展,直接编辑知识由于受时间和经济成本的约束,这种方式很难实现大规模知识库的构建。而利用大众智慧是指利用互联网众包机制,过于依赖激励机制将降低知识库运行稳定性。微软亚洲研究院主管研究员史树明在本文中重点讨论第三类方法——自动或半自动知识抽取,其基本思想是设计自动或半自动的算法,从现有的(自然语言)文档中提取知识。这个过程又被称为信息提取,定义为从非结构化和半

2、结构化文本中提取结构化信息。微软亚洲研究院主管研究员史树明正如动物依靠对环境和食物的认知来维持生存、人类依靠知识和技能来扮演社会角色一样,计算机应用程序和系统也依赖特定的“知识”来完成特定的功能。近些年,包括互联网搜索系统、自动导航系统、自动问答系统、机器翻译系统、语音识别系统等在内的智能系统取得了巨大进展,其背后是更深、更广、更新和更加准确的知识库的构建和使用。人类通过五官来获取知识,并通过语言和文字来实现知识的交流、共享和传承,由此建立起人类庞大的知识体系。然而,这些丰富的知识并不能够被计算机系统自然

3、而直接地使用,原因在于当前的计算机程序远未达到理解自然语言和洞悉人类智慧的程度和水平(甚至不少人怀疑这一天能否到来)。而我们又确实需要计算机系统能够具备一些知识,以便在不威胁到人类生存的前提下帮助人类完成一些“高级”任务。因此,我们的目标便自然地设定为以合理的代价构建一个尽可能丰富、准确和与时俱进的知识库。在过去几十年,人们曾尝试采用直接编辑知识、利用大众智慧、自动或半自动知识抽取三类方法来构建知识库。直接编辑知识是指知识编辑人员把自己头脑中的知识写成计算机能够处理的格式,例如把“狗是一种动物”写成“Is

4、A(狗,动物)”。在这种情况下,知识的编辑工作通常由从事知识库构建的研发人员或者数据标定人员来完成。受时间和经济成本的约束,这种方式很难实现大规模知识库的构建。利用大众智慧是指利用互联网众包机制,把知识编辑工作交给成千上万的互联网志愿者大军,知识库Freebase的维护就依赖于这种机制。众包的核心是设计合理的激励机制,使互联网用户利用业余时间向知识库贡献一些信息。本文重点讨论第三类方法——自动或半自动知识抽取,其基本思想是设计自动或半自动的算法,从现有的(自然语言)文档中提取知识。这个过程又被称为信息提取

5、,定义为从非结构化和半结构化文本中提取结构化信息。由于抽取算法的选择往往依赖于所要进行的知识提取任务,因此我们首先介绍知识类型和提取任务。知识类型和知识提取任务当前多数智能系统所涉及到的主要知识基本上可以表示为一个包含多种不同类型的结点和边的知识图以及图结点之间的关系集合。图1展示了一个简单的知识子图,而表1则列举了此子图上一些结点之间的关系。1.知识类型知识图中可能包含三类结点:实体如某一个人物、某一个国家、某一个机构、某一条狗、某一种编程语言、某一个学科等。图1中的实体包括E1、E2和E3。语义类一

6、种类型的实体或一些实体的集合,如国家、亚洲国家、动物、山脉等。图1中C1、C2、C3为语义类。文本通常作为实体和语义类的名字、描述等,如图1中的T1~T4。知识图中结点之间的边的类型包括:实体—语义类从一个实体指向它所属的语义类。此类型的边在图1中标记为“类”。子类—父类从一个语义类指向其父类,在图1中用“超类”来标识。属性从一个实体指向它的属性值。不同的属性类型对应于不同类型的边,如图1中“出生地”和“妻子”是两种不同的属性。所有实体和语义类都拥有一个特殊的属性“名字”,它指向文本类型的结点,表示此实体

7、或语义类的名字或自然语言表达(如中文名、英文名等)。对于“关系”,维基百科给出了很好的定义和描述,即关系是一个函数,它把k个点映射到一个布尔值。例如,假设关系R(X,Y,Z)表示“X认为Y喜欢Z”,则当且仅当“张三认为李四喜欢王五”时,R(张三,李四,王五)=TRUE。如果把上述定义直接运用到知识库上,关系则是一个把k个图结点(实体、语义类或文本结点)映射到布尔值的函数。值得注意的是,有一类特殊的关系叫做事件,其特点是函数参数中包含时间,并且对应于一个或多个动作1。属性也可以看作是一种特殊的(二元)关系,

8、即从实体和属性值到布尔值的映射。2.权重的重要性在知识图的结点和边上附加合适的权重对于上层应用至关重要。结点权重的重要性类似于互联网搜索中的网页等级,它通常标识着结点出现的频度或结点的先验概率。而将边的权重和结点的权重结合起来可以用来计算在给定一个结点的情况下其它结点出现的后验概率。例如在图2中,如果边和结点的权重都是合理的,上层应用就可以知道,对于实体E1来说,“苹果”比“明目果”更常见,在文章中提到“苹果”时,在更多的情况

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。