欢迎来到天天文库
浏览记录
ID:33080359
大小:4.43 MB
页数:53页
时间:2019-02-20
《web就业信息抽取系统的实现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、合肥工业大学硕士学位论文Web就业信息抽取系统的实现研究姓名:方少卿申请学位级别:硕士专业:计算机技术指导教师:胡学钢;王敬毅2010-10Web就业信息抽取系统的实现研究摘要随着Internet的快速发展,网络已成为人们查询信息、获取数据的重要知识库。面对遍布全球的互联网络构成的“数据海洋”,作为从浩瀚的Web信息资源中发现潜在的有意义知识的有效手段,Web挖掘技术正越来受到人们的关注。在高职高专专业建设中需要从大量的企业用工信息中得到对专业建设和课程开设有一定指导意义的人才需求信息,Web信息是这些数据来源的重要组成部分,快速、准确、有效地获取
2、Web上的有价值信息,对指导高职院校专业建设和核心课程开设有着重要的意义。因特网页面所具有的数据量大、半结构化且动态变化的特点,给Web信息抽取带来了复杂度高、可扩展性和适应性差等问题。XML技术的出现,为解决基于Web的数据抽取提供了一个良好的机遇。本文的研究是基于XML的Web信息抽取,它属于Web内容挖掘的范畴。本文主要进行了以下几个方面的工作:1.针对Web信息抽取中的主要难点是如何有效地确定抽取规则这一问题。本文给出了一种基于路径归纳学习的信息抽取方案,并对相关的技术进行了探讨和研究;2.在对Web页特点进行研究的基础上,利用XML的特点
3、进行Web信息抽取,为此利用JTidy对其待抽取的Web页代码进行优化和清洗并转化为XML文档,再经过XML解析获取Web页的DOM树,以利进一步进行信息抽取;3.采用归纳学习方法给出基于DOM的抽取规则生成和数据抽取策略,提出了规则生成的算法和数据抽取算法;通过机器学习生成抽取规则(集),利用生成的模板中的规则对结构相似页面进行信息抽取;4.按照数据采集块模块、数据整理模块、数据抽取模块(包括规则生成及管理、就业信息抽取)给出了系统实现的总体框架,利用给出的算法完成了一个Web就业信息抽取系统Jobhunting的开发和实验。所抽取的数据存入数据
4、库,以便利用成熟的数据库技术处理利用这些数据。关键词:Web挖掘,归纳学习,规则生成,信息抽取ResearchontherealizationoftheemploymentinformationextractionsystemontheWebABSTRACTWiththerapidgrowthofInternet,ithasbeenbecominganimportantknowledgebaseforpeopletosearechforinformationanddata.Inthefaceof“thedataocean”,whichiscompo
5、sedoftheworldwidenetworkasaneffectivemeanstogainpotentialandmeaningfulknowledge,thetechniqueminedonlinehasbeendrawnmoreandmoreattention.Itisnecessaryforvocationalcollegestoobtainalargeamountofinformationaboutdemandingtalent,whichhasbeenprovidedguidingsignificancetospecialtycon
6、structionandcoursesettings.Theinformationontheinternethasbeenanimportantpartofthedatasources.ItisvaluablethattheinformationisfoundontheWebrapidly,accuratelyandefficientlyonspecialtyconstructionandcorecoursessettingsinvocationalcolleges.DuetothecharacteristicsontheInternetpages
7、uchasalargeamountofdatasemi-structuralanddynamicchanges,italsobringssuchproblemsashighcomplexity,lowexpansibilityandadaptabilitytoWebinformationextraction.ThediscoveryofXMLtechnologyisprovidedagoodopportunitytosolvethedataextractionontheWeb.ThisdissertationisbasedonXMLWebinfor
8、mationextraction,belongingtocontentminedcategoryontheWeb.main
此文档下载收益归作者所有