主题爬虫的设计与实现-毕业论文.doc

主题爬虫的设计与实现-毕业论文.doc

ID:11506974

大小:887.50 KB

页数:39页

时间:2018-07-12

主题爬虫的设计与实现-毕业论文.doc_第1页
主题爬虫的设计与实现-毕业论文.doc_第2页
主题爬虫的设计与实现-毕业论文.doc_第3页
主题爬虫的设计与实现-毕业论文.doc_第4页
主题爬虫的设计与实现-毕业论文.doc_第5页
资源描述:

《主题爬虫的设计与实现-毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学本科毕业论文主题爬虫的设计与实现[摘要]Web信息分布的局部专题化是互联网信息所呈现的特征之一,伴随着面向主题信息获取的需求越来越多,用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自动发现领域内的主要资源,进而研究主题信息的变化及其分布特征。用户往往搜索到很多与自己本意不相关的结果,浪费了用户过多地筛选时间。在这种情况下,过滤掉与所搜索主题无关的结果,仅搜索与自己本意相关的主题成为一种必然要求。本网络爬虫搜索软件可实现专业搜索,用户搜索时将返回大量的与指定专业领域的结果。另外,此软件可配置,可用于在网络上海量下载并筛选过滤和分类,非常适合资料的整理。[

2、关键词]中文主题爬虫信息采集专业搜索DesignandImplementationForTheSpider39/39厦门大学本科毕业论文[abstract]WebdistributionfeatureofthelocalisoneofthecharacteristicsfortheinformationontheInternet.Alongwiththetheme-orientedaccesstotheinformationneedsincreasingly,usershopethatthethemecanobtaininformationfieldstocollectinform

3、ationinamorecomprehensive,updatedfaster,andcanobtainthefieldofautomaticdiscoveryofmajorresources,thenstudyinformationanditsdistributioncharacteristics.TheUsersoftensearchofthemanynotrelatedtotheirintendedresults,wastetoomuchtimescreening.Undersuchcircumstances,withthestripsearchunrelatedtothet

4、heme,Searchonlywiththeirrelatedthemesintendedtobeanecessaryrequirement.SearchtheWebcrawlersoftwaretoachieveprofessionalsearch,userssearchwillreturnwithalargenumberofareasdesignatedprofessionalresults.Inaddition,thissoftwarecanbeconfigured,thenetworkcanbeusedtodownloadandShanghaivolumescreening

5、filteringandsorting,verysuitableforthecollationofinformation.[keywords]Chinesespiderinformationindustryprofessionalsearch39/39厦门大学本科毕业论文目录第一章引言7第二章主题爬虫的概述92.1主题爬虫的开发背景92.2程序处理流程102.3主题爬虫的运行环境112.4主体爬虫的运行界面介绍11第三章主题爬虫的相关开发工具和技术简介123.1Java程序设计语言简介123.2SQLServer2000数据库简介133.3结构化查询语言简介14第四章主题爬虫各模块

6、设计与实现164.1主题爬虫的程序总体结构164.2爬虫模块174.2.1爬虫模块功能描述174.2.2爬虫模块算法174.2.3爬虫模块算法流程图184.2.4爬虫模块接口184.3网页处理模块184.3.1网页处理模块功能描述184.3.2网页处理模块算法基本思想194.4.3网页处理模块算法流程图204.3.4网页处理模块接口204.4分词模块214.4.1分词模块功能描述214.4.2分词模块算法214.4.3分词模块算法流程图2239/39厦门大学本科毕业论文4.4.4分词模块接口224.5主题过滤模块224.5.1主题过滤模块功能描述224.5.2主题过滤模块算法234

7、.5.3主题过滤模块接口244.6分类模块244.6.1分类模块功能说明244.6.2分类模块算法244.6.3分类模块算法流程图254.6.4分类模块接口254.7链接算法模块254.7.1链接算法模块功能说明254.7.2算法254.8数据库模块概念模型设计264.8.1数据实体描述264.8.2数据实体-关系图274.8.3实体关系描述274.8.4数据视图描述274.8.5数据库一致性设计27第五章总结与展望29第六章致谢30第七章参考文献3139/39厦门大

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。