游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc

游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc

ID:11570523

大小:71.50 KB

页数:8页

时间:2018-07-12

游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc_第1页
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc_第2页
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc_第3页
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc_第4页
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc_第5页
资源描述:

《游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统---开题报告.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、厦门大学软件学院毕业设计(论文)开题报告学生姓名班级学号校内指导教师姓名职称所在单位厦门大学软件学院毕业设计(论文)题目垂直搜索引擎:搜索新未来毕业设计(论文)的目标:开发关于游戏的具有全文(中文)检索的垂直搜索引擎系统。根据收录的多个信息格式相对单一的垂直门户和论坛,通过分析工具分析其信息特点和关键词分布状况,然后基于现有的信息格式建立索引库,以及相应的数据库。用户通过网页的方式查询,查询后的结果也以网页的方式显示。实现方法:基本环境:开发工具:MyEclipse,Dreamwear,Photoshop开发语言:Java,Javascript开发平

2、台:windows测试工具:Junit数据库:MYSQL工作原理:搜索引擎是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。信息搜集:通过使用网络爬虫从网络上抓取想要的资源。网络爬虫是搜索引擎出现的前提。信息整理分为构建文本库、建立索引。1.构建文本库在开发检索功能前,一个信息检索系统需要做些准备工作。首先,必须构建一个文本数据库,亦词库。这个文本数据库用来保存所有用户可能检索的信息。这个文本数据库具有可识别、冗余程度低等特点。该文本数据库是基本之前网络爬虫抓取的资源而建立的。2.建立索引有了文本数据库

3、之后,就应该根据词库内的文本建立索引。索引可大大提高信息检索的速度。用户查询又可分为搜索以及对结果的过滤两部分。1.搜索该部分通常是由用户提交一个检索请求,该请求将被分析,然后利用文本操作进行处理。2.对结果的过滤通常,在系统检索到用户需要的信息后,还需要做一步操作,就是将信息以一定的规则进行排序或过滤,在返回给用户。这一步关系到最终用户的体验。如果总是将一些无关信息返回给用户,那么它一定不是一个成功的搜索引擎。时间进度安排:2008年11月20日-2009年1月11日:查阅相关书籍资料,所有概念细节的敲定。2009年1月12日-2009年1月20日

4、:征求导师意见后进一步改进,整理提交毕业设计开题报告。2009年1月21日-2009年2月13日:完成相应文档资料。2009年2月14日-2009年4月30日:对必要技术及工具进一步了解和学习,完成基本代码修改和编写,整个系统的基本完成。2009年5月1日-2009年5月10日:集成测试,整个软件主体基本完成。2009年5月11日-2009年5月20日:系统测试,以及各种性能分析。2009年5月21日-2009年5月30日:确认软件功能,确认所需功能均已完成,并完成具体功能检查。2009年6月1日-2009年6月30日:项目文档终稿完成,提交毕业论文

5、,准备毕业答辩。指导教师审核意见:校内指导教师签名:2009年月日厦门大学软件学院毕业设计(论文)中期检查报告学生姓名班级3班学号校内指导教师姓名职称所在单位厦门大学软件学院毕业设计(论文)题目垂直搜索引擎:搜索新未来毕业设计(论文)的目标和主要任务:设计构建一个关于游戏的垂直搜索引擎,以Eclipse作为开发环境。后台数据处理使用Lucene索引工具和Heritrix爬虫技术,前台使用JSP技术进行页面设计,后台数据库使用MySQL数据库。设计的目的是让用户可以在网站上搜索其需要的游戏信息,并能从搜索结果中打开一个有关游戏详细参数的页面进行浏览。在

6、系统中,游戏信息是从新浪游戏、17173和迅雷游戏上利用Heritrix抓取下来的。网页经过HTMLParser解析后,得到的游戏详细信息插入到MySQL数据库中,并为该游戏建立词库和Lucene索引。最后构建一个简单的Web平台,对建立的索引和数据库进行整合,为用户提供真正的搜索服务。已经完成毕业设计(论文)任务的情况:经过团队成员的讨论,已完成对项目的大概了解,进行了可行性分析、需求分析等。并已经编写好了项目的详细设计说明书,现在正在按照项目的详细设计开发项目的几个核心模块,包括网络爬虫模块、网页解析模块、数据库和索引模块以及前台试图模块。按照计

7、划再经过两周,项目既可完成。存在的问题和困难(包括需要学院协助解决的问题和困难):主要有以下两个问题:1.这个垂直搜索只能做游戏领域吗?我们现在想换其他领域可不可以啊?2.我们现在是抓取了新浪游戏的游戏资料库,但是都是下面这种urlhttp://games.sina.com.cn/o/c/2007-10-18/4881.shtml从这些网址中不知道怎么找出各游戏的ID来建立索引,不会解析网页,不知道怎么从这些页面中提取出我们所需要的信息。特向您请教指导教师审核意见:校内指导教师签名:2009年月日学院检查组意见:学院检查组组长(签章):2009年月日

8、毕业论文任务书题目:垂直搜索引擎:搜索新未来目标要求:毕业设计(论文)的目标:开发关于游戏的具有全文(中文)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。