基于移动设备数字图书馆检索新技术探究

基于移动设备数字图书馆检索新技术探究

ID:5942163

大小:31.00 KB

页数:9页

时间:2017-12-29

基于移动设备数字图书馆检索新技术探究_第1页
基于移动设备数字图书馆检索新技术探究_第2页
基于移动设备数字图书馆检索新技术探究_第3页
基于移动设备数字图书馆检索新技术探究_第4页
基于移动设备数字图书馆检索新技术探究_第5页
资源描述:

《基于移动设备数字图书馆检索新技术探究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于移动设备数字图书馆检索新技术探究  〔摘要〕文章针对移动设备的数字图书馆检索过程中出现的实际问题,全面分析研究了目前轻型文档匹配新算法的发展,深入讨论了该检索技术的预处理、前后端具体实现等内容,另外,文章介绍了目前二分网络聚类方法在数字图书馆推荐系统中的应用,为目前的数字图书馆的检索提供了一种比较实用的方法。9数字图书馆就是对有价值的文本、图像、语音、影像、软件和科学数据等多媒体信息进行收集、组织规范性的加工、进行高质量保存和管理、实施知识增值,并提供在广域网上高速横向跨库连接的电子存取服务。在现代社会中,数字图书馆所收藏的各类信息对于知识经济的整个过程都是必不可少的,它们凭

2、借高新技术快速地传播文化知识,不断推动全民族文化素质的不断提高,促进社会的进步和发展。同时,随着科技的日新月异,使用智能化移动设备访问数字图书馆的受众不断增多,这就给数字图书馆的发展提出了更高的要求,主要是如何将网络服务逐渐移植到移动设备上,让用户更加方便、快捷地使用数字图书馆资源。但伴随着我国各个数字图书馆的数据资源不断的快速增长,由于数字图书馆信息资源的异构性、复杂性等特点,面对浩如烟海的信息,用户想在最短时间内获取需要的信息却经常会相当困难。产生这些困难的主要有以下几个原因:(1)数字图书馆的信息以几何级数急剧膨胀,而信息同时呈现出异构、庞大、分散的特点,以至于图书馆的信息

3、维护和用户获取有用信息的困难较大;(2)基于移动设备数字图书馆检索工具的功能直接关系到浏览者的阅读效果,由于各个数字图书馆索引编制和标引方式以及开发方式的不同,会造成索引信息的查找速度、覆盖面和检索结果的差别较大;(3)数字图书馆检索带有一定的主观性,直接和用户信息检索能力相关,而目前的大部分用户缺少检索方面的专业知识,从而直接影响到信息检索的效果。19问题阐述现今,我们可以注意到许多人在利用移动设备访问基于服务器的数字图书馆。数字图书馆检索引擎最常用的搜索方法为分类检索(目录检索)、多元检索和关键词检索。分类检索主要是采用图书分类或者学科分类方法对数字图书资料进行加工整理,最终

4、提供一种等级结构式检索目录,该方法检索质量高,但是检索信息数量有限。多元检索可以同时检索多个数据库资源,整合后输出检索结果。目前,国内的清华知网和万方数据系统等均提供该种检索方式,但是由于检索机制及检索算法的差异,致使检索结果的准确性差、速度慢。基于关键字的索引是移动设备访问数字图书馆最常见的方式,该方式只需移动用户在搜索提问框中输入关键词,确认后,远程数字图书馆服务器会将与关键词匹配的结果罗列出来,发给移动用户终端,这以看似简单步骤其实需要大量的存储和计算资源。移动设备数字图书检索需要的是能接收理想长度的输入,并给出类似搜索引擎(对匹配的文档进行排序)的结果,这些过程要在移动设

5、备快速进行。另外,目前一些数字图书馆的搜索采用数据挖掘或者基于案例的分析方法来查找匹配输入的文档,这些方法只能是关键字索引的补充,在用户有需求的情况下进行。解决概览目前,业界提出一种解决移动设备检索数字图书馆的新方法,该方法主要基于轻型文档匹配的新算法。该快速评价算法在移动设备上计算非常高效,而且仅需极小的数据结构。该算法的具体处理过程主要是首先做一个预处理过程,根据图书馆中的文档生成一组数据结构,该数据结构包含了每篇文档的本地字典和具有惟一关键字的全局字典,该数据字典中主要包括了每篇文档的文档标题、关键字、特定标签内容的提取,以及出现频率最高的单词,该数据结构的数据量较小,当用

6、户浏览数字图书馆时,直接缓存到移动设备中,当用户利用关键字查找资源时,直接利用提取出的关键字和数字图书馆中的文档作比较,这样就保证了过程的高速性,预处理步骤如图1所示。图1匹配预处理图9接下来,需要一个在线的匹配计算过程,找到用户检索的相关文档。这一个过程其实就是一个文档相似度的计算问题,即求取两篇文章之间的相似程度的数值。因为两篇文章相似度越高,则表明两篇文章越有可能是同一类型。首先要做的一个工作是特征向量的选取,大部分数字图书馆采用的是中文分词机制,即先把文本切分为关键词序列,再进行信息处理。把经过处理之后得到的关键词进行停用词的处理,即把各种标点符号、汉语中最常用的虚词,包

7、括介词、连词、助词和叹词作为停用词,这些处理后的关键词构成了文本的特征向量。接下来。多采用基于空间向量模型(VSM)的文本进行分类,文本的特征向量与各类代表向量的夹角是决定文档归属的重要依据,这些夹角的余弦被称为“相似度”。上述过程相对是一个比较传统的处理方式,而针对移动设备未必适用。而目前的对本地文档与输入文档的相关量度的评价算法是利用匹配成功的单词数作为基础分,然后再抬高权重的单词加分。其中文章题目、特定域的标签在匹配单词成功的过程中优先得到加分。在线处理过程如图2所示。图2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。