欢迎来到天天文库
浏览记录
ID:11812684
大小:1.15 MB
页数:43页
时间:2018-07-14
《大规模网页模块识别与信息提取系统设计与实现毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科生毕业论文题目:(中文)大规模网页模块识别与信息提取系统设计与实现(英文)DesignandImplementationofLargeScaleWebTemplateDetectionandInformationExtractionSystem姓名:学号:院系:专业:指导教师:00448174朱磊本科毕业论文摘要本文提出了一套基于语义的网页分块和主题内容信息提取算法,在天网搜索引擎预处理模块中将其实现,并且在SEWM2008会议中,以这套算法为框架,组织了主题型网页识别和网页主题内容信息块提取两个中文Web信息检索评测项目。在这
2、套算法的基础上,基于天网文件系统与Map-Reduce计算平台,实现了分布式的网页块级别QuarkRank算法,改进了PageRank算法的效果。实际检验表明,该套算法具有很好的适应性与可扩展性,并达到了很高的精度和召回率。关键词:网页分块信息提取评测Map-ReducePageRankii00448174朱磊本科毕业论文AbstractThispaperpresentsasemanticweb-pageblockingandinformationextractionofthematiccontentalgorithm,whichi
3、sachievedinthepretreatmentmoduleofTianWangsearchengine,andinSEWM2008meeting,usingthisalgorithm,weorganizedtwoChineseWebInformationRetrievalEvaluationProjects,whicharetheme-basedWebpageidentificationandblockextractionoftheinformationthemecontent.Inthismethod,basedonTian
4、WangfilesystemandtheMap-Reducecomputingplatform,thispaperreportsthedistributedblock-levelQuarkRankalgorithm,whichimprovestheresultofPageRankalgorithm.Theactualtestshowedthatthisalgorithmisgoodatadaptabilityandscalability,andreachesaveryhighprecisionandrecall.Keywords:W
5、eb-PageBlocking,InformationExtraction,Evaluation,Map-Reduce,PageRankii00448174朱磊本科毕业论文目录第1章序言3第2章相关研究工作52.1基于语义的网页信息提取算法52.2基于视觉的网页分块算法62.3BlockLevelPageRank算法82.3.1BlockLevelWebGraph82.3.2PageGraph92.3.3BlockGraph92.3.4BlockLevelPageRank10第3章天网搜索引擎Quark模块113.1网页分块算法13
6、3.2网页主题内容提取163.3算法效果演示18第4章SEWM2008中文Web信息检索评测234.1评测任务介绍234.1.1主题型网页发现任务234.1.2网页内容信息发现任务244.2评测格式254.3评测结果254.3.1主题型网页发现任务评测结果264.3.2网页内容信息发现任务评测结果284.4评测综述31第5章网页分块的分布式应用325.1QuarkRank325.2其他应用34第6章总结与展望356.1总结356.2展望35参考文献37致谢38ii00448174朱磊本科毕业论文第1章序言信息时代,非Web无以制胜。
7、互联网的高速发展,改变了我们的生活方式,打破了我们的时空界限,重塑着我们的社会形态。经济、政治、学习、工作、生活、娱乐等等各个层面都在Web网络中激荡起伏,深刻地影响着人类的未来。而Web网络的灵魂,就是流动在其中的无穷无尽的信息。Web2.0的意义就在于网络内容的提供方从商人和专业人员转变为网络上的每一个普通用户,从而几何级数地增长了Web的信息量。然而信息量的增大,随着而来的就是存储成本的增大和信息提取难度的增大,如何有效的获取和整合Web信息成为大家面对的共同课题。传统意义上,整个Web网络就是由无数的Web页面而构成,它们是
8、网络信息存储和提取的基本单位,获取了这些Web页面就相当于获取了Web信息内容。但是把整个页面作为最基本的信息处理单位有一些不合理之处。首先是因为Web页面中信息量的分布非常不均匀,有主题内容,也有广告,导航栏,版权信息,装饰信息,以
此文档下载收益归作者所有