基于开源架构的网络期刊论文跟踪与热点推送方法

基于开源架构的网络期刊论文跟踪与热点推送方法

ID:11578946

大小:29.00 KB

页数:9页

时间:2018-07-12

基于开源架构的网络期刊论文跟踪与热点推送方法_第1页
基于开源架构的网络期刊论文跟踪与热点推送方法_第2页
基于开源架构的网络期刊论文跟踪与热点推送方法_第3页
基于开源架构的网络期刊论文跟踪与热点推送方法_第4页
基于开源架构的网络期刊论文跟踪与热点推送方法_第5页
资源描述:

《基于开源架构的网络期刊论文跟踪与热点推送方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、精选公文范文管理资料基于开源架构的网络期刊论文跟踪与热点推送方法[键入文字][键入文字][键入文字]精选公文范文管理资料  原标题:基于开源架构的网络期刊信息采集与推送系统研究  概述  当前,各类科技论文每年以两百多万篇的速度递增,对这些海量数据的查找与利用成为科研人员共同关注的问题。在对期刊论文的应用中普遍存在三个问题:一是期刊论文更新延迟,由于版权等原因,大多数期刊在中国知网等数字出版商网站上的出现都有几个月的滞后期,但是这些期刊在自己的官方网站上往往及时更新了最新文章的信息;二是文章查询与推送问题,各大数字出版商在数字出版物的规模上越来越庞大,虽然提供了各种便

2、捷的查询,并给出相关查询功能,但是这些功能往往需要用户主动去搜索,缺乏个性化的热点推送功能。三是有的科研单位没有购买数据资源,这就给期刊论文的查询与利用带来了更多的不便。  针对上述现象以及科研人员往往只关注各自研究领域学术信息的基本事实,本文提出并实现了一个基于开源架构的网络期刊论文跟踪与热点推送方法,面向科研工作者个性化的需要,有针对性地定期自动跟踪最新期刊,并对这些期刊论文进行热点分析,当发现用户关注的主题有新论文发布时可以自动推送给用户,从而主动为科研人员提供网络期刊服务。科研人员可以借助本文所提方法,节省在各大数据库或者期刊官网上进行文章查找与检索的时间。 

3、 关键技术  本文提出的网络期刊论文自动跟踪与热点推送系统,主要研究思路是首先确定采集站点,然后有针对性地进行数据采集,生成知识库并进行热点分析,最终发布出分析后的数据供科技工作者参考。实现技术上采用了基于java的开源架构,这些开源架构技术成熟,调用简单的接口即可完成复杂的数据采集与数据分析,适合科研工作者作为科研辅助工具使用。本文采用的开源框架有[键入文字][键入文字][键入文字]精选公文范文管理资料HttpClinet、HTMLParser、IKAnalyzer。  HttpClinet  JDK的javanet包提供的HttpURLConnection技术,早

4、期很多应用系统通过该jar包实现数据采集,但是对于大部分应用程序来说,JDK库本身提供的功能还不够丰富和灵活。近年来,科研应用开发人员开始热衷HttpClient技术实现数据采集。HttpClient是ApacheJakartaCommon下的子项目,可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并可支持HTTP协议最新的版本和建议。  HTTP协议是Internet上使用得最多、最重要的协议,越来越多的Java应用程序需要直接通过HTTP协议来访问网络资源。HttpClient已经应用在很多的项目中,比如ApacheJakarta上很着名

5、的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。现在HttpClient最新版本为HttpClient4.2(GA)。  HTMLParser  HTMLParser是一个纯java的html解析库,它不依赖于其它的java[键入文字][键入文字][键入文字]精选公文范文管理资料库文件,主要用于改造或提取html,是目前应用得最广泛的html解析和分析的工具,现在htmlparser最新版本为2.0。HTMLParser有信息提取和信息转换两大主要功能。信息提取功能包括五个子功能:  文本信息抽取,例如对HTML进行有效信息搜索;链接提取

6、,用于自动给页面的链接文本加上链接的标签;资源提取,例如对一些图片、声音的资源的处理;链接检查,用于检查HTML中的链接是否有效;页面内容的监控。  信息转换功能包括五个子功能:链接重写,用于修改页面中的所有超链接;网页内容拷贝,用于将网页内容保存到本地;内容检验,可以用来过滤网页上一些字词;HTML信息清洗,把HTML信息格式化;转成XML格式数据。  IKAnalyzer介绍  IKAnalyzer是一个开源的,基于java[键入文字][键入文字][键入文字]精选公文范文管理资料语言开发的轻量级的中文分词工具包。由于开源软件多来源于国外,因此分词器对中文分词一般都

7、是单字分词,分词的效果不好。  开源项目作者林良益等人写的IKAnalyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更新,目前已更新到IKAnalyzer2012版本。最初,它是以开源项目Luence为应用主体,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。IKAnalyzer采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。并采用了多子处理器分析模式,支持:  英文字母(I

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。