web表格数据提取与分析系统的设计与实现

web表格数据提取与分析系统的设计与实现

ID:35034679

大小:3.31 MB

页数:72页

时间:2019-03-16

web表格数据提取与分析系统的设计与实现_第1页
web表格数据提取与分析系统的设计与实现_第2页
web表格数据提取与分析系统的设计与实现_第3页
web表格数据提取与分析系统的设计与实现_第4页
web表格数据提取与分析系统的设计与实现_第5页
资源描述:

《web表格数据提取与分析系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工程硕士学位论文Web表格数据提取与分析系统的设计与实现DESIGNANDIMPLEMENTATIONOFTHEWEBTABLEDATAEXTRACTIONANDANALYSISSYSTEM曹贞兴哈尔滨工业大学2016年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文Web表格数据提取与分析系统的设计与实现硕士研究生:曹贞兴导师:王宏志教授申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C:621.3Dissertatio

2、nfortheMasterDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFTHEWEBTABLEDATAEXTRACTIONANDANALYSISSYSTEMCandidate:CaoZhenxingSupervisor:Prof.WangHongzhiAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2016Degree-Conferring-In

3、stitution:HarbinInstituteofTechnology哈尔滨工业大学软件工程硕士学位论文摘要数据表格作为网页数据展示的一种形式,开始越来越多的出现在各种领域的web页面中,因其具有简洁的展示方式以及显而易见地描述数据关系的优势而被越来越多的人应用到网页中并成为Web信息抽取中的热点。然而人们往往忽略表格数据自有的不足,通常表头(下文称属性名)决定一切,而现实中,Web上的表格经常出现无属性名或属性名难以理解的情况。因此,在自动分析修复表格的表头信息方面的研究将在Web挖掘、数据理解及决策支持方面提供极大的帮助,同时也将会被越来越多的研究者重视。论文开始讲述了

4、本课题的研究背景、目的、意义及相关领域的研究现状,并对本文的主要研究内容进行了阐述。之后详细描述了本课题的需求分析、系统的总体设计、系统各功能模块的详细设计与实现及系统的功能测试与非功能性测试,最后对本文进行了总结及展望。本文的主要研究内容主要有以下三个方面:Web表格数据提取与存储、表格数据分析和属性名自动标注。Web表格数据提取主要实现了对HTML网页的解析、数据表格的识别和表格内数据的提取存储等功能。表格数据分析主要实现对数据的深度分析,由于不同类型的数据具有不同的特征,因此首先对表格数据进行简单分类,不同类型的数据运用不同的处理方法提取特定的特征。本文以数据的结构特征与

5、统计特征作为研究对象,分别利用正则表达式表示数据的结构特征,利用统计分布均值和方差两个参数表示数据的统计特征,并利用大量训练数据建立“属性名-特征值”特征库。在属性名自动标注的研究中,主要完成对特定数据列匹配属性名。本文针对不同数据特征提出了不同的特征匹配策略并建立匹配模型,对于正则表达式表示的结构特征,运用编辑距离算法进行表达式串相似性比较,同时结合简单字符串匹配提高准确性;对于统计分布参数表示的统计特征则利用假设检验知识中的样本均值的检验方法比较两样本间的差异性。最后对于匹配出的候选属性名进行优化,得到最佳属性名。本文实验环节通过利用实验室现有的大量表格数据建立特征库,利用

6、交叉验证的方式优化匹配模型参数(阀值和检验水平),通过多次迭代试验,证明了综合运用正则表达式、统计分布的策略能够很好的解决数据表格属性名修复问题。关键词:Web挖掘;表格数据;属性名标注;数据特征;假设检验-I-哈尔滨工业大学软件工程硕士学位论文AbstractTableasaformofdatapresentationhasbegunappearedinvariousfieldsofwebpage.Tabledisplaymodeissimpleandintuitivetocharacterizingtherelationshipofinformation,soitiswid

7、elyusedandhasbecomethefocusofWebInformationExtraction.Butpeopleoftentoignoretable`sowninsufficient,typicallytable`sheaders(hereinafterreferredtoastheattributename)decidingeverything.Butinreality,thetableontheWebalwaysappearwithoutattributenamesorat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。