欢迎来到天天文库
浏览记录
ID:47531281
大小:1.20 MB
页数:27页
时间:2020-01-13
《领域知识图谱的技术与应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、......领域应用
2、知识图谱的技术与应用 本文转载自公众号:贪心科技。领域应用
3、知识图谱的技术与应用李文哲开放知识图谱1周前本文转载自公众号:贪心科技。 作者
4、李文哲,人工智能、知识图谱领域专家导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。对于读者,我们不要求有任何AI相关的背景知识。目录:1.概论2.什么是知识图谱3
5、.知识图谱的表示参考材料......1.知识抽取2.知识图谱的存储3.金融知识图谱的搭建1.定义具体的业务问题2.数据收集&预处理3.知识图谱的设计4.把数据存入知识图谱5.上层应用的开发4.知识图谱在其他行业中的应用5.实践上的几点建议6.结语1.概论随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中,只要有关系分析的需求,知识图谱就“有可能”派的上用场。参考材料
6、......2.什么是知识图谱?知识图谱是由Google公司在2012年提出来的一个新的概念。从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(SemanticNetwork)的知识库”。但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relationalGraph)。那什么叫多关系图呢?学过数据结构的都应该知道什么是图(Graph)。图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。但相反,多关系图一般包含多种类型的节点和多种类型的边。比如左下图表示一个经典
7、的图结构,右边的图则表示多关系图,因为图里包含了多种类型的节点和边。这些类型由不同的颜色来标记。参考材料......在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。现实世界中的很多场景非常适合用知识图谱来表达。比如一个社交网络图谱里,我们既可以有“人”的实体,也可以包含“公司”实体。人和人之间的关系可以是“朋友”,也可以是“同事
8、”关系。人和公司之间的关系可以是“现任职”或者“曾任职”的关系。类似的,一个风控知识图谱可以包含“电话”、“公司”的实体,电话和电话之间的关系可以是“通话”关系,而且每个公司它也会有固定的电话。参考材料......3.知识图谱的表示知识图谱应用的前提是已经构建好了知识图谱,也可以把它认为是一个知识库。这也是为什么它可以用来回答一些搜索相关问题的原因,比如在Google搜索引擎里输入“WhoisthewifeofBillGates?”,我们直接可以得到答案-“MelindaGates”。这是因为我们在系统层面上已经创建好了一个包含“BillGates”和“MelindaGate
9、s”的实体以及他俩之间关系的知识库。所以,当我们执行搜索的时候,就可以通过关键词提取(”BillGates”,“MelindaGates”,“wife”)以及知识库上的匹配可以直接获得最终的答案。这种搜索方式跟传统的搜索引擎是不一样的,一个传统的搜索引擎它返回的是网页、而不是最终的答案,所以就多了一层用户自己筛选并过滤信息的过程。参考材料......在现实世界中,实体和关系也会拥有各自的属性,比如人可以有“姓名”和“年龄”。当一个知识图谱拥有属性时,我们可以用属性图(PropertyGraph)来表示。下面的图表示一个简单的属性图。李明和李飞是父子关系,并且李明拥有一个138
10、开头的电话号,这个电话号开通时间是2018年,其中2018年就可以作为关系的属性。类似的,李明本人也带有一些属性值比如年龄为25岁、职位是总经理等。参考材料......这种属性图的表达很贴近现实生活中的场景,也可以很好地描述业务中所包含的逻辑。除了属性图,知识图谱也可以用RDF来表示,它是由很多的三元组(Triples)来组成。RDF在设计上的主要特点是易于发布和分享数据,但不支持实体或关系拥有属性,如果非要加上属性,则在设计上需要做一些修改。目前来看,RDF主要还是用于学术的场景,在工业界我们更多的还
此文档下载收益归作者所有