基于oem模型的半结构化数据模式抽取算法研究

基于oem模型的半结构化数据模式抽取算法研究

ID:33389269

大小:2.73 MB

页数:67页

时间:2019-02-25

基于oem模型的半结构化数据模式抽取算法研究_第1页
基于oem模型的半结构化数据模式抽取算法研究_第2页
基于oem模型的半结构化数据模式抽取算法研究_第3页
基于oem模型的半结构化数据模式抽取算法研究_第4页
基于oem模型的半结构化数据模式抽取算法研究_第5页
资源描述:

《基于oem模型的半结构化数据模式抽取算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号:TP301单位代码:10425学号:S08070867②寸闺石油六学硕士学位论文ChinaUniversityofPetroleumMasterDegreeThesis基于OEM模型的半结构化数据模式抽取算法研究ResearchofSchemaExtractionAlgorithmofSemi.structuredDataBasedonOEMModel学科专业:研究方向:作者姓名:指导教师:计算机科学与技术数据库及信息系统杨学伟龚安副教授二。一一年五月SchemaExtractionAlgorithmofSemi..st

2、ructuredDataBasedonOEMModelAThesisSubmittedfortheDegreeofMasterCandidate:YangXueweiSupervisor:AssociateProf.GongAnCollegeofComputer&CommunicationEngineeringChinaUniversityofPetroleum(EastChina)关于学位论文的独创性声明本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的成果,论文中有关资料和数据是实事求是的。尽我所知,除文中

3、已经加以标注和致谢外,本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油大学(华东)或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志对研究所做的任何贡献均已在论文中作出了明确的说明。若有不实之处,本人愿意承担相关法律责任。学位论文作者签名:日期:伽,J年r月谚日学位论文使用授权书本人完全同意中国石油大学(华东)有权使用本学位论文(包括但不限于其印刷版和电子版),使用方式包括但不限于:保留学位论文,按规定向国家有关部门(机构)送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅

4、、借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、缩印或其他复制手段保存学位论文。保密学位论文在解密后的使用授权同上。学位论文作者签指导教师签名:日期:加川年占月-yZ日日期:伽/J年』月钌El^,’r'一摘要随着计算机技术、Intemet以及数据库技术的飞速发展,各个领域产生的半结构化数据和信息急剧增加。因此,为满足数据挖掘的需求,需要设计出半结构化数据模型,从而能够利用模型来描述和存储半结构化数据的结构信息和内容。同时还要设计出有效的半结构化数据模式抽取算法,从大量半结构化数据中抽取更深层次的用于描述信息

5、、结构和潜在的有利用价值的模式。从而使得半结构化数据就像传统数据库中的数据一样,发现其数据结构和数据对象之间的关系,能够利用数据结构进行有效的操作。本文首先介绍了数据挖掘和Web数据挖掘的相关概念,并对其研究现状和发展做了深入的分析和总结。详细的介绍了半结构化数据的定义、特点以及目前主要的半结构化数据模型,同时阐述了半结构化数据模式抽取的概念。本文采用OEM模型来描述半结构化数据,指出了利用Apriori性质进行剪枝的策略不适用于分支路径中具有相同标签的OEM模型。为减少标签路径表达式的匹配次数,提高算法的效率,本文给出了一个有关O

6、EM模型的性质。在如何存储OEM模型的问题上,本文提出了一种新的存储方式,采用变型的邻接链表存储方式来存储OEM模型,能够有效的提高半结构化数据模式抽取的效率。本文重点研究了两个经典的频繁模式挖掘算法:Apriori算法和FP.Tree频繁模式挖掘算法,并对两种算法的优缺点进行了比较。在此基础上,为了快速、有效和准确的得到半结构化数据的目标模式,本文结合标签路径及其相关性质,提出了一种直接从OEM模型中抽取半结构化数据目标模式的算法。算法的基本思想是:采用一次深度优先遍历策略得到所有标签路径表达式,利用本文给出的性质减少匹配次数,生

7、成所有频繁标签路径表达式,最后结合有效的删减策略得到最长频繁标签路径表达式。理论分析和实验结果表明,该算法能够提高目标模式的准确度和执行效率,降低了模式抽取中候选集的规模。关键词:半结构化数据,OEM模型,目标模式,最长频繁标签路径^今_ResearchofSchemaExtractionAlgorithmofSemi.structuredDataBasedon0EMModelYangXuewei(ComputerScience&Technology)DirectedbyAssociateProfessorGongAnAbstrac

8、tWiththecomputer,databaseandInteracttechnologydeveloprapidly,thesemi—structureddataandinformationfromvariousareashasi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。