欢迎来到天天文库
浏览记录
ID:10670359
大小:38.50 KB
页数:4页
时间:2018-07-07
《科研跟踪系统毕业设计开题报告》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、******大学毕业设计(论文)开题报告题目科研跟踪系统设计学院信息科学与技术学院专业信息安全学生姓名****学号指导教师***职称讲师毕设地点*********大学年月日1.结合毕业设计(论文)课题任务情况,根据所查阅的文献资料,每人撰写1500~2000字左右的文献综述:随着WEB信息的爆炸性增长,如何快速、准确地从信息资源中寻找到所需要的信息日渐成为困扰人们的一大难题。传统的搜索引擎技术满足了人们的一定的需求,但是由于其通用的性质,仍然不能满足不同背景,不同目的和不同时期的用户个性化的需求。个性化WEB信息采集就是针对这个问题
2、而提出来的,而此问题在科研动态跟踪领域显得尤为重要,它直接关系到科研工作者科研效率问题。信息检索并不是WEB所特有的一个研究课题,早在本世纪50年代,当计算机被图书馆等部门用于存储和管理文档时,信息检索就作为一个研究领域而诞生了,到了八十年代,信息检索领域已经在文档内容表示,搜索模型,匹配策略等方面去得了丰硕成果,并成功地开发了一些系统。例如Cornell大学的SMART系统,和Massachusetts大学的NQRERY系统等。科研动态跟踪系统的研究主要针对两个方面:人员跟踪和会议/期刊跟踪。人员跟踪是自动根据人名寻找其主页,并分
3、析其中信息的变化,将最新动态反馈给用户。会议/期刊跟踪根据刊物名称(甚至简称),搜寻最新的论文并将相关的信息整理汇报给用户。其中关键的即实现WEB的针对性信息采集,针对性的为科研工作者搜索并提供与其相关的网络信息。动态跟踪系统的研究的问题主要在以下几个方面:1信息采集信息采集系统指的是按照标准格式采集指定网络信息,同搜索引擎的区别在于其采集的目的性更强,采集范围也比较小。其中信息采集系统实现上的几个关键问题:1)采集网页数据这一点可以利用VC或者JAVA的网络通讯功能来实现网络信息采集,另外为了提高采集效率都采用多线程技术,一些Sp
4、ider程序都是多线程,可以借鉴。2)如何按照关键字来采集信息信息采集的一大特点是按多个关键字将信息拆分出来,例如人名,标题,电话,EMAIL,内容等,实现时先定义好这些关键字,然后在网页中搜索,将夹在两个关键字当中的信息采集出来,导入本地数据库。3)网页中链接获取算法网页中的链接都是通过标签定义的,但也会分很多情况,例如:这是常用的链接格式,但要注意采集出来的链接可能是完整的http://...,也可能是相对路径,要分别处理。4)无效数据过滤即通过关键字的方式摒弃了许多广告信息,但是关键字信息中也会有不少无
5、效数据,包括信息开头的空格。5)搜索结果排序由于网络中的信息是非格式化的,搜索过程不可能做到精确、严格的匹配,搜索到的结果可能较多,而且未必是用户想要的。这时,需要研究针对具体搜索目标的排序算法,能够将最接近用户需求的信息,排在前面,呈现给用户。搜索引擎因具有一定的智能算法,能够排除掉那些明显不匹配用户需求的数据。2本地数据库的动态更新当利用搜索引擎搜索相关资源时,通过信息采集器能够精确地找到相关的网络信息,同时将其进行数据库写入工作,对浏览过的相关信息进行记录,以便以后查找。同时,针对该网络资源进行实时跟踪,在下一次搜索时,能够通
6、过比较,将本地数据库的原有资源进行更新。1.毕业设计任务要研究或解决的问题和拟采用的方法:伴随着信息社会的到来,信息资源的爆炸性增长,纷繁复杂。本人的毕业设计就是要研究对信息的动态跟踪和实时更新,以实现对最新信息的快速定位和了解。具体来说就是要实现对网络信息资源的精确性采集,并建立本地的信息数据库,将需要实时了解到的信息写入本地数据库,并与网络资源进行动态链接,以便能够实时对本地数据库信息进行更新,使用户能够及时的了解到最新的咨询。指导教师意见(对课题的深度、广度及工作量的意见和对毕业设计(论文)结果的预测):指导教师签字:年月日系
7、审查意见:系主任签字:年月日说明:开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一,此报告应在导师指导下,由学生填写,经导师签署意见及系审查后生效。
此文档下载收益归作者所有