web数据库特征表示和抽取方法的研究

web数据库特征表示和抽取方法的研究

ID:33732767

大小:2.33 MB

页数:66页

时间:2019-02-28

web数据库特征表示和抽取方法的研究_第1页
web数据库特征表示和抽取方法的研究_第2页
web数据库特征表示和抽取方法的研究_第3页
web数据库特征表示和抽取方法的研究_第4页
web数据库特征表示和抽取方法的研究_第5页
资源描述:

《web数据库特征表示和抽取方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号:TP密级:公开学科分类号:论文编号:GK118222009120100005山东财经大学硕士学位论文Web数据库特征表示和抽取方法的研究作者姓名:赵琳学科专业:管理科学与工程指导教师:聂培尧教授林培光副教授培养院系:管理科学与工程学院二○一二年四月十日ResearchonExpressionandExtractionofWebDatabase’sCharacteristicsADissertationSubmittedfortheDegreeofMasterCandidate:ZhaoLin

2、Supervisor:Prof.NiePeiyaoProf.LinPeiguangSchoolofManagementScienceandEngineeringShandongUniversityofFinanceandEconomicsSponsorBy:NaturalScienceFoundationofShandongProvince(NO.J09LG05)中图分类号:TP密级:公开学科分类号:论文编号:GK118222009120100005硕士学位论文Web数据库特征表示和抽取方法的研究作者姓

3、名:赵琳申请学位级别:管理学硕士指导教师姓名:聂培尧、林培光职称:教授、副教授学科专业:管理科学与工程研究方向:数据管理学习时间:自2009年9月1日起至2012年6月30日止学位授予单位:山东财经大学学位授予日期:2012年6月山东省自然科学基金资助(项目编号:J09LG05)山东财经大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得山东财经大学或其它

4、教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:日期:年月日山东财经大学学位论文使用授权声明本人完全同意山东财经大学有权使用本学位论文(包括但不限于其印刷版和电子版),使用方式包括但不限于:保留学位论文,按规定向国家有关部门(机构)送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、缩印或其他复制手段保存学位论文。保密学位论文在解

5、密后的使用授权同上。学位论文作者签名:日期:年月日指导教师签名:日期:年月日摘要随着Internet的发展,Web正在加速地“深化”,Web可以简单地分为两部分:SurfaceWeb和DeepWeb。前者是指通过超链接就可以被传统搜索引擎搜索到的页面的集合;后者普遍被认为是网络中可访问的在线数据库。与SurfaceWeb的信息相比,DeepWeb中所包含的信息数据量更大、信息质量更好、专业性更强,因此日益成为人们获取信息的主要途径之一。由于DeepWeb中大量的信息被锁定在数据库内,而许多网页也是通过响

6、应具体的查询动态生成的,所以实现对DeepWeb或WDB(Web数据库)的检索,不仅将大大扩充现有搜索引擎的搜索能力,更为人们方便地进行信息查找提供了便捷的手段。WDB查询接口是我们访问和检索WDB的唯一路径,每个查询接口对应于不同的查询模式,用户通过填写不同的查询接口并提交请求,从而发现合适的信息。但是随着JavaScript、Ajax等动态脚本技术的广泛应用,查询接口的复杂性也在逐渐增加,另外网上有众多的WDB,而且其包含的数据也是多种多样的,所以快速识别WDB这类动态查询接口的特征、发现接口内各元

7、素之间的约束关系、实现接口特征的量化表示并对特定领域的WDB数据的特征进行定量描述和抽取是实现对WDB自动访问和提高传统搜索引擎搜索能力的关键步骤。本文针对以上问题,主要以WDB特征为主线研究了WDB查询接口和WDB数据特征的表示方法、Web数据库采样、WDB查询接口和WDB数据特征的抽取方法。具体研究内容包括:(1)WDB查询接口和WDB数据特征的表示方法本文将WDB数据属性分为三类,即文本属性、分类属性和数值属性。对于文本属性,采取基于词频的特征表示;对于数值型属性,基于数值属性具有连续性的特点,且

8、正态分布具有强大的普适性,我们采用正态分布的期望和偏差表示数值属性的特征;对于分类型属性采取基于统计的特征表示方法。在获取以上各类属性的特征后,将形成最终的特征向量。最后,因为本体具备良好的知识表示能力和推理能力,本研究采用本体的方法进行查询接口的表示。(2)基于贝叶斯模型的数据样本抽取方法为了实现对WDB特征的抽取,本文提出一种基于贝叶斯模型数据样本抽取方法,I该方法大体过程分为5个步骤:①构建WDB初始查询;②通过初始查询获得查询结果;

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。