欢迎来到天天文库
浏览记录
ID:33179555
大小:6.31 MB
页数:64页
时间:2019-02-21
《web信息抽取系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浙江工业大学硕士学位论文Web信息抽取系统的设计与实现作者姓名:皮珊指导教师:刘盛浙江工业大学信息工程学院2013年10月DissertationSubmittedtoZhejiangUniversityofTechnologyfortheDegreeofMasterTheDesignandImplementationOfWebInformationExtractionSystemCandidate:ShanPiAdvisor:ShengLiuCollegeofInformationEngineeringZhejiangUniversit
2、yofTechnologyoct2013浙江工业大学洲㈣咖㈣吣删婴Y2498280学位论文原创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或集体己经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本人承担本声明的法律责任。作者签名:归卅日期:驯≥年脑月f9日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意
3、学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在年解密后适用本授权书。.2),不保密口。(请在以上相应方框内打“√”)作者签名:导师签名:日期:沙I、年日期:矽J、年lA月”日1月”日浙江工业大学硕士学位论文Web信息抽取系统的设计与实现摘要当前作为基础网络的互联网正高速发展,基于互联网的万维网(Web)也得以在人们的日常生活中扮演越发重要的角色。万维
4、网上承载的海量信息,使得它变成了人们日常生活中获取信息的一个重要源头。探索一种方便人们从万维网的海量信息中挖掘出自己所需要的内容的方法变得越来越重要。Web信息抽取就是众多方法中的一个有效解决方案。本课题系统主要被应用于实现电子商务领域中商品、产品信息和行业领域咨询等Web信息抽取场景:同时,该系统也可以帮助普通用户获取大量的、个人感兴趣的Web信息。本课题的研究内容是,设计和实现一个能够从万维网中抽取用户所需要信息的Web信息抽取系统。通过使用本课题设计和实现的Web信息抽取系统,可以满足人们从Web上获取订制信息的需求;也可以通过本系
5、统实现获取大批量的信息,以此作为后续Web信息处理系统的数据输入,最终实现Web数据产品来满足人们获取各类Web信息的需求。研究了Web信息抽取的定义并提出了解决思路,针对从Web上获取信息特别是有价值对等的信息进行了相关的分类和定义;定义了一种表示Web格式化信息的数据模型。这个数据模型对于设计Web信息抽取算法、以及组织通过Web信息抽取算法获取的Web信息数据都具有重要的意义;针对不同的W曲信息抽取目标,设计和实现了Web信息抽取算法。例如:满足用户从自定义的页面上任意位置获取信息,设计了基于模板的信息抽取算法;满足用户从列表.详情
6、页面上获取信息,设计了基于列表自动抽取算法;通过对Hap服务框架构建服务器的设计与实现,对外实现了通过Http服务提供Web信息抽取的能力;同时也通过设计和实现了一个抽取任务工作引擎,实现了对外提供一种可以定制和托管信息抽取的任务级的Web信息抽取能力。最后,作者依据软件开发生命周期,依次从需求分析、系统设计和实现以及系统测试,介绍了web信息抽取系统的设计与实现。关键词:Web信息挖掘;Web信息抽取;基于模板信息抽取;列表信息抽取浙江工业大学硕士学位论文THEDESIGNANDIMPLEMENTATIONOFWEBINFORM随LTI
7、ONEXTRACTIONSYSTEMABSTRACTTheIntemetasabasisnetisdevelopingrapidly,Internet—basedWorldWideWeb(Web)havebeenplaysincreasinglyimportantroleinpeople’Sdailylife.MassiveinformationhostedontheWorldWideWebisanimportantsourceofaccesstoinformationinpeople’sdailylife。Todigoutonemeth
8、odseasyforpeopletoexploreamassofinformationfromtheWorldWideWebbecomeincreasinglyimportant。Webinf
此文档下载收益归作者所有