欢迎来到天天文库
浏览记录
ID:37400058
大小:8.58 MB
页数:60页
时间:2019-05-23
《Web实体活动融合关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、32重复记录检测1932l获取比较向量193.22聚类2l323训练SvM分类机2333实验评估2434本章小结27第4章Web实体活动真值发现.........⋯.................294l引言29山东大学硕士学位论文4il问题分析29412相关工作31413相关概念3242真值发现334.21查询谓词334.22特征选择334.23规则设定34424真值推理3643实验评估3644本章小结38第5章总结与展望................................3951总结3952未来的工作⋯40参考文献........................
2、.........................42致谢....................................47攻读学位期间发表的学术论文目录...................48攻读学位期间参与科研项目情况...................................49生奎奎兰堡圭兰垒丝奎TABLEoFCoNTENTSAbstractlnChineseAbstractinEnglishChapter1IntroductionIIlll1ResearchBackgroundl12ResearchContent313worksofthisThes
3、is414StractureofthisThesis4Chapter2DataFusionofWebEntityActivity62lWebEntityActivity62IntegrationFrameworkoftheWebEnfi口Activity723Sys协mArchitectureofDataFusionofWebEnfiWActivity10231DuplicationDetectionofWebEnhtyActivity1l232TruthDiscoveryofWebEntityAai“ty12233QuestionstoBeSolved13Chapter3Dup
4、licationDetectionofWebEntityActivityl531Forewordl53IlProblems153l2RdatedWork163l3BasicConcepts183.2DuplicationDetection1932IComparisonVector19322Cluster2I3231hiⅡtheSVMClassifier233Experiments2434Summary27Chapter4TruthDiscoveryofWebEntityActivity2941Fomword29凹孔n"”站¨弘弘弛""柏舵钉拈柏生堑奎兰竺圭兰堡丝兰摘要如今,互联网
5、技术的发展日新月异,互联网已经逐步渗透到了人们的生活之中,并成为了人们获取信息、传播消息的重要渠道。伴随着Web中信息的撵炸式增长与迅速传播,Web已经成为了一个重要信息源,这些蕴含在Web中的信息有着重要的研究意义与价值。对Web中的海量数据进行分析、挖掘、处理,可以获取丰富的信息价值,这些信息可以被集成在如市场情报分析、舆论分析
6、三【及电子商务等系统中,为人们提供深度信息服务。Web按其所蕴含信息的“深度”可划分为SurfaceWeb和DeepWeb。SurfaceW曲指可以通过uRL链接而被传统搜索引擎搜索到的页面。DeepWeb是指Web中可被访问的在线数据库.它们的内容
7、存储在真实的数据库中。这些内容只有在通过查询接口进行查询时才会由Web服务器动态生成页面并把结果页面返回给访问者。本文的研究对象是Web实体活动。所谓Web实体活动,即一个确定的实体.在一个确定的时间和一个确定的地点所做出的一个确定的活动。Web实体活动的集合便构成了Web实体的踪迹。Web实体踪迹具有重要的分析价值,比如就业市场情报分析中,一个企业的发展踪迹,对于求职者具有很好的参考价值。不同于传统集成系统研究对象主要来自于DeepWeb页面中较为结构化的部分,Web实体活动集成系统所研究的对象主要来源于Web页面中的无结构化文本片段,通过活动抽取从自然语句中获取Web实体活动
8、信息,并将其转化为结构化模式记录。本文主要研究Web实体话动融合关键技术。作为Web实体活动集成的最后一个步骤,Web实体活动融合将抽取所得的Web实体活动记录中指向同一Web实体活动的不同表象记录进行整台,得到一个完整准确的实体活动记录。Web实体活动融合包含两个主要部分,一个是Web实体活动重复记录山东大学硕士学位论文检测,另一个是Web实体活动真值发现。前者将指向同一Web实体括动的不同表象记录筛选出来,为Web实体活动真值发现服务,通过解决数据冲突、补充缺失数据并发现真值
此文档下载收益归作者所有