欢迎来到天天文库
浏览记录
ID:34618327
大小:2.76 MB
页数:93页
时间:2019-03-08
《web信息抽取系统设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文Web信息抽取系统的设计与实现硕士研究生:丁乔毅导师:张宇副教授副导师:孙一鸣高级工程师申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2012年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFWEBINFORMATIONEXTRACTI
2、ONSYSTEMCandidate:DingQiaoyiSupervisor:AssociateProfessorZhangYuAssociateSupervisor:SeniorEngineerSunYimingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2012Degree-Conferring-Institution:HarbinI
3、nstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要当前Web上承载的海量信息,使得它变成了人们日常生活中获取信息的一个重要源头。探索一种方便人们从万维网的海量信息中挖掘出自己所需要的内容的方法变得越来越重要。Web信息抽取就是众多方法中的一个有效解决方案。本课题来自于阿里巴巴(中国)网络技术有限公司搜索平台部内容系统组的实际需求。本课题所研究的内容是,从Web信息抽取应用领域出发,通过基于抽取对象和Web页面结构的特点,分析了系统需要解决的信息抽取问题;并且针对这些问题,分别提出了有针对性的抽取解决方案。基于
4、这些抽取方案,本课题设计和实现一个能够从万维网中抽取用户需要信息的Web信息抽取系统。在完成本课题的过程中,作者分析了Web信息抽取解决的问题,定义了典型的信息抽取目标;并以此为基础阐述了一种表示Web网页内容中结构化信息的数据模型。作者进行了系统业务场景的应用描述,并以此归纳成为系统的基本需求,依据软件开发生命周期,依次从需求分析、系统设计和实现以及系统测试这几个方面,详细介绍了课题系统的设计和实现。在此过程中,本文使用用例模型分析和总结了系统的功能性需求。然后,以此模型为基础设计了整个系统的功能模块和系统体系结构。作为这一部分的
5、核心,针对系统抽取任务工作引擎和Http服务器框架这两个组件的设计和实现,本文借助类图、时序图、流程图模型对它们进行了重点的介绍。另外,本文也对系统中使用的几种Web信息抽取算法,如基于模板信息抽取算法、列表信息抽取算法的思想和实现做了详细介绍,并且进行了一定的算法分析和评价。最后,通过系统测试和算法测评证明了系统可以满足预先定义的需求。关键字:Web信息挖掘;Web信息抽取;基于模板信息抽取;列表信息抽取-I-哈尔滨工业大学工程硕士学位论文AbstractNowadays,theWebwhichisbasedontheIntern
6、et,isplayingamoreandmoreimportantroleinpeople’sdailylife.ThereislotsofinformationconveyedbytheWeb,whichmakesitasignificantinformationsourceinpeople’slife.FindingaconvenientwayofdiggingthedesiredinformationfromthevastamountofthedataontheWebisveryimportant.Webinformation
7、extractionisoneoftheusefulsolutions.ThisprogramcomesfromsearchplatformdepartmentatAlibaba.ThethesisismainlyabouttheanalysisofWebextactionproblem,accordingtoitsapplicationfields.Thethesisdefinedtheextactionproblems,fromtheviewoftheextractiontragets’andWebpages’features,
8、andalsoputforwardspecificWebextractionsolutionstothem.Meanwhile,howtodesignandimplementaWebinformationextractionsyste
此文档下载收益归作者所有