欢迎来到天天文库
浏览记录
ID:41952334
大小:419.97 KB
页数:41页
时间:2019-09-05
《《知识图谱》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、知识图谱知识图谱的研究主要源于三大领域,一是计算机科学领域的数据、信息、知识与知识域可视化研究;二是图书情报领域的引文分析可视化、知识地图和知识网络等研究;三是复杂网络系统和社会网络分析的研究。目前三者的研究方向和内容正在走向融合。由于知识图谱提出的时间不长,大多当做工具或方法来看待;相关理论大部分都是从多科学的简单借鉴,并没有完整的理论体系,真正的理论内核没有形成,只有少量的探索性理论研究。知识图谱在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现
2、在的知识图谱已被用来泛指各种大规模的知识库。知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。上述图模型可用W3C提出的资源描述框架RDF[2]或属性图(propertygraph)[3]来表示。知识图谱率先由Google提出,以提高其搜索的质量
3、。虽说三大搜索引擎在知识卡片的排版和内容展现上略有不同,但是它们都列出了姚明的身高、体重、民族等属性信息。此外,它们均包含“用户还搜索了”或“其他人还搜”的功能来展现相关的人物。该功能允许用户去浏览其他与姚明相关的人物的详细信息。Google在其知识卡片中也展示了很多与姚明相关的图片,以图文并茂的方式来展示姚明的方方面面。百度则结合了百度风云榜的信息,列出了姚明的类别(体坛人物)及其百度指数(今日排名和今日搜索热度等信息)。百度还展示了其特有的专题搜索,包含了与姚明相关的百科、图片、微博、新闻、音乐、贴吧和视频等七大类的结果,基本涵盖了用户最基本的需求。搜狗在列出与姚明相关的百
4、科、图片,电影和最新相关消息等专题的同时,其知识卡片额外显示了诸如“主持电视节目”、“效力篮球队”、“人物关系”等各种细粒度的语义关系。当遇到含有歧义的用户查询时,知识卡片还会列出其他可能的查询目标对象。在上面的例子中,搜狗还列出了一项“您是否要找”的功能,列出一位也叫姚明的一级作曲家。该功能用于去歧义,在显示最相关实体的同时也给出其他可能的对象,达到去歧义的作用。知识图谱的数据来源。为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验,我们不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现并添加新的知识。在这种背景下,知识图谱通过收集来自百科类站点和各种垂直
5、站点的结构化数据来覆盖大部分常识性知识。这些数据普遍质量较高,更新比较慢。而另一方面,知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。此外,通过搜索日志(querylog)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。。相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核加入到知识图谱中。在知识图谱的构建中,最重要的三个环节就是知识单元的
6、抽取、知识单元间关系的识别,以及知识图谱的存储与使用。其中尤以知识单元抽取和知识单元间关系的识别最为关键。知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的K
7、nowledgeVault。RDF是一种资源描述框架,可以形式化地表示结构信息,它一般用来描述网络资源,例如某个Web页面的内容、作者等。采RDF可以对知识进行结构化组织,进而采用图形化的方式展示出来。在知识图谱的存储研究中,目前主要是RDF数据库和图数据库,从顶向下设计的RDF数据库没有从底向上设计的图数据库成功,图形数据库在存储知识图谱的知识单元和单元关系上效果最佳。目前,图形数据库并没有一套完整的标准,但是大部分图形数据库都包含了节点、关系、属性这三个元素。节点可以用来存储知识单元,关
此文档下载收益归作者所有