JAVA课程设计 网络爬虫搜索引擎

JAVA课程设计 网络爬虫搜索引擎

ID:46579846

大小:938.47 KB

页数:26页

时间:2019-11-25

JAVA课程设计 网络爬虫搜索引擎_第1页
JAVA课程设计 网络爬虫搜索引擎_第2页
JAVA课程设计 网络爬虫搜索引擎_第3页
JAVA课程设计 网络爬虫搜索引擎_第4页
JAVA课程设计 网络爬虫搜索引擎_第5页
资源描述:

《JAVA课程设计 网络爬虫搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、学号:课程设计题目网络爬虫搜索引擎学院管理学院专业信息管理与信息系统班级姓名指导教师王新201年7月4日武汉理工大学《java语言》课程设计课程设计任务书学生姓名:指导教师:王新工作单位:信息管理与信息系统系题目:网络爬虫搜索引擎初始条件:合理应用Java相关知识与编程技能,结合UML面向对象设计,解决信息管理领域的实际问题,如学生成绩管理、学籍管理、图书借阅管理、自动存取款机、通信录管理、商品销售管理、医院门诊管理、火车订票管理、影院自动售票、世界杯足球比赛管理、人力资源管理、酒店前台管理、房产中介管理、停车收费管理等。要求完成的主要任务:(包括课程设计工作

2、量及其技术要求,以及说明书撰写等具体要求)1.进行需求分析,撰写需求文档,绘制用例图。2.识别需求文档中的类,建模类,初步绘制类图(之后逐渐完善)。3.确定、建模类的实例变量。4.确定、建模类的方法。5.若有需要,在系统中加入继承与多态。6.将UML图转换成Java代码框架。7.设计算法,若有复杂的数据结构需求,使用相应集合框架。8.设计数据访问层,若有数据持久化需求,使用数据库/文件。9.添加表示层,若程序运行在桌面,使用图形用户界面。10.实现完整的系统,最终Java源代码至少在300行以上。11.进行测试,并给出相应结果。课程设计报告中要求详细描述思路、

3、步骤、方法、实现、问题及解决过程、操作说明、测试及结果。时间安排:1.2014年6月23日课程设计选题、查阅资料2.2014年6月24日~25日UML面向对象设计3.2014年6月26日~7月1日Java程序设计与代码调试4.2014年7月2日改进、完善、测试系统5.2014年7月3日~7月4日上午撰写、提交课程设计报告6.2014年7月4日下午课程设计答辩指导教师签名:年月日系主任(或责任教师)签名:年月日-2-武汉理工大学《java语言》课程设计网络爬虫搜索引擎1项目介绍1.1开发背景该项目软件开发的意图是开发出一款网络爬虫软件。应用目标为搜集网络信息,便

4、于查询使用。在如今的BIGDATA时代,网络信息庞大而又复杂,用户很难直接从中获得需要的信息。网络爬虫软件就是将这些信息收集并整理,当用户发起搜索请求时,该系统可将用户最需要的信息反馈给用户。1.2用户的特点本软件为免费软件,可供所有可使用互联网的用户使用。最终用户只需掌握基本的上网技术即可,操作人员的主要工作是启动和关闭服务器,只需掌握基本的电脑使用方法即可。维护人员需要专业的程序员,懂得Java的网络编程以及计算机网络基础,教育水平在专科以上。软件的预期工作时间为24h/日。组织结构图及用户角色如图表1-1所示:1.3需求分析1.3.1各子模块功能的描述本

5、系统共分为三大模块:爬虫模块、数据库模块和搜索模块,也就是后台、前台和数据库。每一个模块有各自的分工,最后三大模块集合在一起构成一个完整的网络爬虫系统。各个子模块的详细功能如下:1.3.2爬虫模块-3-武汉理工大学《java语言》课程设计第一个模块为爬虫模块。爬虫模块的主要任务是负责寻找网页,并将网页内的URL和关键字提取出来。此模块又详细分为两大模块:服务器模块和正则引擎模块,这两个模块分别负责上述的两个功能。服务器模块向某个种子URL发送请求,或得其页面内容;正则引擎模块将服务器获取的页面用正则表达式对其进行分析,截取其中的URL和关键字,然后再将URL传

6、递给服务器模块。系统按照这样的方式不断的抓取网页并进行分析,最后将结果存进数据库。1.3.3搜索模块第二个模块是搜索模块,用户在搜索界面输入关键字,然后系统在数据库中搜索对应的关键字,最后将结果返回给用户。此模块又分为搜索界面和结果界面。搜索界面是首页,用户在此界面中输入想要搜索的关键词,这些关键词将被此页面记录下来传递到数据中进行搜素。结果页面是数据库结果的接受者,当数据库完成搜素后会将结果传递给次页面,然后结果页面会将结果呈现给用户。1.3.4数据库模块数据库模块在整个系统中起到存储和桥梁作用。爬虫模块将搜索的结果整理完成后存入数据库,搜索模块从数据库中获

7、取需要的信息并呈现给用户。1.4对非功能性的需求1.4.1精度该系统的输入为一个字符串,里面包含了一个或多个关键字,长度在38个汉字以内,超过的部分将被直接舍弃。输出的数据要求包括网站的URL和页面简介,按照页面内容与搜索内容的匹配程度来排序。1.4.2时间特性要求a)响应时间≤0.01sb)更新处理时间≤0.1c)数据的转换和传送时间≤0.1s1.4.3灵活性-4-武汉理工大学《java语言》课程设计该系统运用的主要语言是Java,由于Java是一门跨平台的语言,所以本系统的兼容性比较强,只要配置了Java环境就可以运行。当该系统与数据库MySQL的接口发生

8、变化时,系统在重新加载了新的驱动后要能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。