欢迎来到天天文库
浏览记录
ID:31977282
大小:5.36 MB
页数:47页
时间:2019-01-29
《基于网络爬虫论坛信息检索系统设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据独创性声明本人郑重声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北农业大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。作者签名:初锈r乡日期:址年jL月—£日学位论文版权使用授权声明本学位论文作者完全了解河北农业大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河北农
2、业大学可以公布论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等其他复制手段保存、汇编学位论文。学位论文导师签名日期:垄隆.年』三月£日万方数据摘要公众论坛是互联网发展的产物之一,它是一个开放的平台,与普通网站的不同之处在于网民不仅可以通过其获取信息,同时它也提供了用户之间相互沟通的渠道,可以利用它来发布信息。但随着论坛的不断发展,用户的不断增多,其消极的一面也逐渐显现,某些不法分子利用论坛肆意散布危害社会、危害他人的不良信息,由于论坛网站用户多,刷新的频率快,这些不良信息短时间内就有可能造成一些非常严重的后果,有的甚至会威胁
3、到国家的利益,所以及时在论坛中发现此类信息是十分必要的。针对这种情况,本文对搜索引擎技术进行了深入的研究,并在此基础上研发了一个面向网络论坛且基于网络爬虫的垂直搜索引擎。本文通过网络爬虫和开发现有通用搜索引擎接口构建了全新的元搜索引擎,实现了网络信息的抓取功能。网络爬虫采取多线程技术应用礼貌策略、重新访问策略等实现对论坛网站信息进行抓取。元搜索引擎通过数据库选择、文本选择、查询分派和结果综合分析等技术实现了信息的分类、规范化等功能。另外本文还通过iaVa的开源工具Lucene为用户提供了便利高效的查询界面,用户可以方便获取论坛中的内容。论坛管理员
4、还可以对论坛实时监控,防止不良信息在网络上流通。该引擎能够对指定论坛内信息进行深度数据挖掘以及24小时监控新出现的信息,与现有搜索引擎相比,搜索精度高且实时性强,弥补了当前论坛信息监控相对薄弱的不足。关键词:论坛;网络爬虫;垂直搜索引擎;元搜索引擎;Lucene万方数据DesignAndImplementationofBBSInfomationRetrievalSystemBasedonW曲Cra’矿lerAuthor:Liu、veiMajor:computertechnolo影Tutor:Hall)【ianzIlOngAbstractBBSis
5、apmduct埘t11thedeVelopmentoftheIntemet,itisanopenplatfom.Unlikemecommonwebsite,thefomm、ⅣebsiteisnotoIllyconVenientforuserstoaccessinfbmation,butaJsopr0Videstheco㈣icationchaIlIlelbeMeenusers.UserscanuseittoreleaSeiI面mation.WithtlledeVelopmentofBBSandtheincreaSingnumberofusers,i
6、tsnegatiVesideisgraduallyeme玛ed.SomepeoplewitllulteriormotiveuseBBSwantonlytospreadbadinfomationwhichish啪lmltosocie哆aIldotllers.Becauseoftllela唱enumberofusersaJldthequickinf.onllationcirculationspeed,thebadinfIomlationmaycausesomeVeryseriousconsequencesinashontime,andsomeeVen
7、tllreatentlleinterestsofthestate.Sothat“isnecessarytofoundsuchinfomationtimelyinBBS.InViewofthissituation,thepapermdkesadeepresearchonsearchenginetechnologya11donthisbasisdeVelopsawebfommverticalsearchengine.TheVeIrticalsearchenginedeVelopedinthispaperwhichcaJlachievethe鼬ctio
8、nofnetworkinfo咖ationcapnlreismainlycomposedofwebcrawlera11dasystemde
此文档下载收益归作者所有