欢迎来到天天文库
浏览记录
ID:33915664
大小:5.41 MB
页数:38页
时间:2019-02-24
《【5A版】搜狗知识图谱方案.ppt》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、搜狗搜索面向知识图谱的搜索技术张坤网页搜索的技术发展自然语言文本表示普通网页音频图片视频索引自然语言查询排序网页结果检索向量模型互联网的图分析:Anchor和Pagerank互联网的商业价值和社会价值排序函数的构造(LearningtoRank)搜索结构的变化自然语言文本表示普通网页音频图片视频索引自然语言查询排序网页结果检索自然语言文本表示普通网页音频图片视频自然语言查询丰富展现查询翻译结果翻译推理预测统计推荐复杂查询信息翻译知识库半结构化信息抽取半结构化数据结构化数据文本数据实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取属性值决策关系建立
2、知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘标签消岐SPARQL查询语句排序推理推荐统计Query整体架构图展现检索系统索引生成知立方数据库构建本体构建各类型实体挖掘、属性名称挖掘编辑系统实例构建纯文本属性、实体抽取半结构化数据抽取异构数据整合实体对齐、属性值决策、关系建立实体重要度计算推理完善数据国际上流行的知识库Wolframalpha计算知识引擎,而不是搜索引擎10万亿条的信息Freebase6800万实体10亿的关系DBpediaWikipedia结构化364万个条目(本体)Yago6.4亿条数据本体建立——实体、属性抽
3、取半结构化网页属性名计算和聚类属性+属性值(候选)实体+属性查询日志刘德华年龄张学友年龄($人)年龄查询日志分析本体建立——本体编辑13信息抽取系统建立14信息抽取系统建立数据管理和自动抽样系统网页库可视化UI系统模板库模板监控系统结构化数据抓取器文本挖掘步步惊心新西游记电视剧主题曲插曲片尾曲歌曲歌手不同数据源的整合实体对齐实例对齐过程Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)属性值决策与关系建
4、立属性值的决策:关系建立与补齐出生日期身高实体的重要性实体搜索李娜实体名称知立方实体库按重要度排序0.90.80.70.61,初始化:根据实体的属性及实体间关系初始化实体的重要度2,迭代:重要度在实体关系图中传递Entity-rankvsPage-rank推理补充数据与验证从原始三元组数据,推理生成新的数据,建立更多的实体间的链接关系,增加知识图的边的密度,例如:5、家族”>•••莫言的作品:红高粱家族生死疲劳白棉花推理作
5、家族”>
6、者=>作品人物关系配偶+男性=>丈夫,配偶+女性=>妻子;电影演员电影的主演=>演员出演了这部电影半结构化信息抽取半结构化数据结构化数据文本数据实体对齐推理补充数据异构数据整合重要度计算实体抽取属性抽取属性值决策关系建立知立方数据本体生成系统索引生成检索系统实体识别本体库Pattern挖掘标签消岐SPARQL查询语句排序推理推荐统计Query整体架构图展现检索系统索引生成查询语义理解用户输入查询词预处理语义分析查询语句生成查询纠错分词基于CFG的句法分析基于词典和CRF的分词和实体识别基于模式挖掘的属性识别基于模版匹配的SPARQL生成基于需求重要度的S
7、PARQL排序知识库通用词典属性模式实体别名基于规则的挖掘策略实体的识别和归一网页对齐百科Sogou点击日志知识库实体实体别名自然语言查询基于字典的序列标注模型CRF实体标记实体归一美国罗恩尼女抢匪美国罗恩尼女抢匪美国乔阿吉姆·罗恩尼侠盗魅影属性的模式挖掘互联网问题答案库知识库打上标记后的问题答案属性的表达模式去噪频繁模式挖掘标记实体和属性值1.无间道谁演的?刘德华2.谁是无间道的主演?刘德华3.让子弹飞谁演的?葛优无间道主演刘德华让子弹飞主演葛8、优主演的Pattern1.谁演的2.谁是的主演
刘德华让子弹飞主演葛8、优主演的Pattern1.谁演的2.谁是的主演
葛
8、优主演的Pattern1.谁演的2.谁是的主演
此文档下载收益归作者所有