基于web的数据挖掘方法综述

基于web的数据挖掘方法综述

ID:18827146

大小:539.50 KB

页数:30页

时间:2018-09-25

基于web的数据挖掘方法综述_第1页
基于web的数据挖掘方法综述_第2页
基于web的数据挖掘方法综述_第3页
基于web的数据挖掘方法综述_第4页
基于web的数据挖掘方法综述_第5页
资源描述:

《基于web的数据挖掘方法综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Web中实体关系分析与面向实体的社会网络分析研究邸楠北京大学网络实验室摘要:以实体为核心的Web内容挖掘可以分为三个层次:实体层次—提取、分析单个实体及其属性—、实体关系层次—提取、分析多个实体间的关系的—和基于实体的社会网络分析。本文对后面两个部分的相关研究进行了总结,描述了近年来该领域的研究路线,分析了其中用到的主要方法,并提出了几个该领域亟待解决的问题。关键字:实体关系、社会网络分析、综述YYY目录1.前言32.Web中的实体关系发现42.1.关系发现研究概况42.2.先确定关系类型的方法72.2.1.有监督的学习方法72.2.2.半监督的学习

2、方法方法82.3.后确定关系类型的方法142.4.实体关系发现的难点152.4.1.实体关系对的确定152.4.2.实体关系描述文本的筛选与扩展152.4.3.实体关系对的验证162.4.4.实体关系体系的发现163.Web中的社会网络分析173.1.以网页为研究对象的社会网络分析173.1.1.基于HITS的技术183.1.2.基于二分有向图的技术203.1.3.基于流量的技术203.1.4.几种技术的总结213.2.以实体为研究对象的社会网络分析213.2.1.以实体为核心的社会网络构建223.2.2.以实体为核心的社会网络分析方法233.3.基

3、于Web的社会网络分析主要难点问题254.参考文献27前言随着计算机的广泛应用与互联网的高速发展,网络信息不断爆炸式地增长。信息的过量增长带来一定负面影响:面对大规模的信息,用户难以找到自己真正的需求。如何利用一些自动化的方法帮助人们在海量信息源中迅速找到真正需要的信息,现有的搜索引擎已经不能满足用户的要求。下面就是一个例子:例如对于“丁磊”这个名字来说,叫这个名字的人很多,新闻报道中也会很常见,通过其服务的机构以及职务来分析,会发现网易公司有丁磊,而上海通用汽车公司也有一个丁磊,并且网易公司的丁磊的任职包括:董事会主席、总裁、总经理、CEO、董事等

4、等。除了了解“丁磊”的个人情况外,发现他与“人物”、“机构”、“事件”等其他命名实体地关系。“命名实体关系标注”时还可以进行“机构名+职务”、“机构+人名”等组合搜索,获取检索机构和特定职务的历任信息等。能够极大的提高情报分析、猎头行业的工作效率,因此具有很高的应用前景和商业价值。基于实体对Web的分析挖掘已成为Web挖掘领域研究开发的焦点,信息抽取(InformationExtraction)正是在这种背景下产生与发展起来。信息抽取系统的主要功能是从文本中抽取出特定的事实信息(FactualInformation)[1]。比如,从新闻报道中抽取出恐

5、怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。近十年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,涉及到了深层次的语言理解、篇章分析与推理、多语言文本处理、WEB信息抽取、名实体识别等自然语言研究领域。通过系统化、大规模地定量研究和评测推动了自然语言处理研究的发展,促进了自然语言处理研究与

6、应用的紧密结合。近年来,信息抽取的处理对象也扩展到了语音、图像、视频等其他媒体类型的数据。可以说,信息抽取已成为当前自然语言处理和相关领域的研究热点。信息抽取技术对搜索引擎、网络信息过滤和信息安全、自动问答系统、机器翻译、文本挖掘、企业智能信息系统等许多应用领域具有至关重要的作用[2][3]。在信息抽取领域中,命名实体(NamedEntity)是文本中基本的信息元素,是正确理解文本的基础[3]。狭义地讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、组织名、公司名、地名等。广义地讲,

7、命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。关系(Relation)被看作两个实体在一段时间或空间范围内的某种联系[4],在信息抽取研究中关系的发现在事件的侦测与描述中起着关键的作用。所以命名实体之间语义关系的抽取是信息抽取领域的一项重要的基础性研究现如今,命名实体语义关系抽取技术在很多专业领域中有着更高的要求和更迫切的需求。在教育自动化、公司人事管理等领域都期待着高质量的专业领域的命名实体语义关系抽取技术。面向专业

8、领域的信息抽取技术作为未来高层次、高效率的专业领域信息处理技术的基础具有重大研究价值。而作为信息抽取的核心任

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。