欢迎来到天天文库
浏览记录
ID:32252619
大小:3.54 MB
页数:72页
时间:2019-02-02
《面向搜索引擎评测的web信息抽取系统的设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国内图书分类号:TP311学校代码:10213国际图书分类号:620密级:公开工程硕士学位论文面向搜索引擎评测的Web信息抽取系统的设计与实现硕士研究生:刘宝导师:骆吉洲副教授副导师:王丫工程师申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2012年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C:620DissertationfortheMasterDegreeinEngineeringDesignandImplementationofWebInformationExtract
2、ionSystemforEvaluationofSearchEngineCandidate:LiuBaoSupervisor:AssociateProfessorLuoJizhouAssociateSupervisor:EngineerWangYaAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareEngineeringDateofDefence:June,2012Degree-
3、Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着Internet信息量的迅速增长,Web已经逐渐成为人们获取信息的主要平台。各大搜索引擎应运而生,竞争激烈。评价引擎的好坏,不仅要看搜索结果,还要依靠用户体验。用户体验必然能为引擎带来流量,所以针对搜索引擎进行用户满意度的评测已经越来越重要,部分具有大型搜索引擎的公司已经为此成立了专门的评测团队甚至部门,利用评测数据来引导引擎的走向。搜索引擎用户满意度评测的原理,就是将搜索引擎的结果集信息搜集
4、起来,交给用户打分,并针对指标进行统计,对比引擎之间的优劣。而能否成功地获取到评测数据,是能否成功发起评测任务的关键。本文通过实验数据说明数据抽取的准确程度会直接影响评测结果,突出信息抽取部分对整个系统的重要性。对比了一些现有的Web信息抽取技术,并针对本系统的需求进行分析,结合搜索引擎结果集页面源码的特点,总结各技术的优势与不足。提出使用正则匹配和Dom解析相结合的方式来抽取和处理评测数据。并基于这种设计思想,实现了一个适用性较强,自动化程度较高的Web信息抽取系统,来解决评测系统如何搜集评测数据的问题。系统主要包括页面下载、
5、页面过滤、生成抽取规则、信息抽取、数据存储等部分。本文对这些部分依次做了较为详细的介绍。其中生成抽取规则是系统较为重要的实现部分。系统可以利用Dom结构和样本学习来自动生成抽取规则,寻找节点的最大公共路径,记录样本节点的特征,并经过节点相似度匹配的算法过滤掉无关节点信息,为部分产品实现自动化较高的信息抽取。当然,抽取规则也可人工修正。为了提高精度,部分产品采用正则匹配的方式进行信息抽取。由人工提前编写并录入规则库,系统会调用模板匹配模块为信息抽取分配模板。最后,本文介绍了评价信息抽取好坏的两种指标:准确率和召回率。并对数据下载和
6、信息抽取部分进行测试和结果分析。依据评价指标,发现系统对搜索引擎产生的结果集页面具有很好的抽取效果,解决了为评测人员高效、准确地获取评测数据的问题。关键词:Web信息抽取;Dom解析;搜索引擎;用户满意度评测;评测数据I哈尔滨工业大学工程硕士学位论文AbstractWiththerapidgrowthoftheinformationonInternet,thewebhasgraduallybecomethemainplatformforpeopletogetinformation.Thus,themajorsearchengin
7、escomewiththetideoffashionwithintensivecompetitions.Thesearchresultsaswellastheuser’sexperiencearetwofactorstoevaluatethequalityoftheengine.Sincetheuser’sexperiencecanbringflowfortheengine,sotheevaluationthatfocusonthedegreeofuser’ssatisfactionaboutsearchenginehasbec
8、omemoreandmoreimportant,andcompaniesthathaslargesearchenginehavealreadysetupaspecialteamordepartmentsforevaluationtoleadthedirectio
此文档下载收益归作者所有