大数据时代基于个性化服务的数字图书馆数据搜索引擎设计.pdf

大数据时代基于个性化服务的数字图书馆数据搜索引擎设计.pdf

ID:55272955

大小:329.85 KB

页数:4页

时间:2020-05-12

大数据时代基于个性化服务的数字图书馆数据搜索引擎设计.pdf_第1页
大数据时代基于个性化服务的数字图书馆数据搜索引擎设计.pdf_第2页
大数据时代基于个性化服务的数字图书馆数据搜索引擎设计.pdf_第3页
大数据时代基于个性化服务的数字图书馆数据搜索引擎设计.pdf_第4页
资源描述:

《大数据时代基于个性化服务的数字图书馆数据搜索引擎设计.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、二■一一一—_二数字图书馆·技带平台—/、-.j—————————..-..一——●陈臣(兰州商学院信息中心,兰州730020)大数据时代基于个性化服务的数字图书馆数据搜索引擎设计[关键词]数据时代;数据搜索引擎;设1大数据时代图书馆数据环境特点计;图书馆(1)用户私有化数据快速增长。大数据时代,以[摘要]大数据时代,数据搜索引擎在读者个性化定制为核心的用户推送式服务,已成为数用户个性化服务保障过程中的重要性不断增字图书馆服务模式变革的主要方向。为了满足读者数长。本文设计了一种大数据环境下数字图书字化阅读需求和提高用户满意度,图书馆将与云服务馆数据搜索

2、引擎,该搜索引擎减少了大量的商、电子商务运营商、第三方增值服务商、通信服务对历史查询的重复计算,节省了搜索时间,商等,以大数据平台数据共享的方式进行服务数据和提高了查询效率,并可使查询成本最小,显用户数据资源共享。当运营商所采集的用户数据量达著提高了系统的整体搜索性能。到一定规模后,会通过屏蔽搜索引擎和加密等技术手[中图分类号]G250.76段,对所存储的个人隐私数据进行保密和屏蔽搜索。[文献标志码]A这大幅度增加了图书馆大数据共享平台数据搜索体验[文章编号]1005—8214(2015)04-0091一o3的难度和可靠性,降低了所搜索数据的价值和数据

3、可用性,严重影响了数字读者个性化阅读服务的质量和大数据时代具有数据规模化、数据类型多样性、用户满意度。_2]高价值、处理速度快和社会化5个特点。随着数字(2)海量未WEB化的数据增加了数据搜索难度。图书馆读者云阅读需求和服务模式的变革,以及云大数据时代数据呈现海量级数增长的态势。图书馆所计算技术、无线传输技术、传感器网络和阅读终端采集和用户服务保障数据,主要包括读者阅读行为数技术的发展与普及,目前,基于大数据平台为读者据、用户个人信息数据、读者社会关系数据、论坛与提供安全、高效、经济、便捷、可定制的个性化阅博客等社交流动产生的数据、APP(Accele

4、ratedParallel读推送式服务,已成为图书馆用户服务模式发展的Processing)应用产生的数据、个人云应用产生的数一个重要趋势。据、物联网产生的数据等。这些数据海量存储于图书大数据时代,图书馆的数据量呈现爆发式的增馆与其他共享服务商的数据中心,却并未进行有效的长,数据集的规模将达到TB或者PB的级别。此外,价值提取、类别划分、组织编目、定位存储、检索维图片、音频、视频等非结构化数据将占据数据总量的护和网页WEB化,大幅度增加了数据搜索的复杂度、80%以上,大幅度增强了数据存储、管理、搜索和查成本、时间和准确性。询的难度。传统以数字文本存储、

5、搜索和分析的数据(3)要求搜索引擎具备较强的大数据价值发现功库关联算法、语义分析方法,已不适合大数据时代用能。根据摩尔定律可得出,每18个月图书馆数据中户服务高效、准确、快速和经济的需求。因此,如何心的存储性能可提高一倍,同时存储设备硬件成本降依据大数据时代读者阅读内容和服务质量需求,提高低一半。因此,大数据时代图书馆数据中心的存储能图书馆搜索引擎信息发现和知识挖掘的效率、容错力和成本,将不再是困扰大数据环境读者服务有效性性、可控性和可扩展,确保信息搜索过程智能、快的主要因素,而大数据的价值挖掘和应用有效性,则速、低成本和负载均衡,是关系读者大数据时代

6、阅读成为关系图书馆服务能力建设和用户满意度的关键。满意度和图书馆市场竞争力的关键。】大数据环境下,图书馆拥有的标准化、结构化数091数字图书馆·技平台据约占数据总量的15%,近85%的数据为半结构化数期性地爬取数据,并为数据建立索引。查询器主要利据和非结构化数据。部分关系用户个性化服务有效性用这些索引,通过检索用户的查找关键词来产生查找的重要数据,则分别存储于政府、第三方增值服务商结果。HDFS自动提供了文件在集群中的存储和冗余和运营商的大数据库中,并随着其所拥有数据的数备份,是专为大文件的存储而设计的。它将大的文件量、价值的快速增长而具有较强的垄断性

7、。其次,服切分成多个小块,然后将这些小块分散存储在多个数务数据具有内容庞大和链接复杂的特点,对搜索引擎据结点中,具有存储成本低廉、具备较强的容错性和的运行效率、并发处理能力、智能化和经济性要求较数据快速读取的特点。Hbase是一种分布式、半结构高。化和基于列的分布式数据库,适合非结构化数据的存(4)要求搜索引擎具备较强的可用性和可控性。储。可对HDFS之中提取出来的文件进行存储、修改大数据时代,图书馆通常以自建大数据平台和签署合与检索。搜索管理平台可根据用户搜索定制需求,从作协议的方式,与相关政府数据库、运营服务商大数Hbase中全面、准确、经济、快速

8、地提取出所需要的据平台、企业大数据平台共享大数据资源。但是,不数据和信息。I5]同的政府机构、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。