大数据时代文献分析与利用-论文.pdf

大数据时代文献分析与利用-论文.pdf

ID:55060043

大小:184.38 KB

页数:4页

时间:2020-05-08

大数据时代文献分析与利用-论文.pdf_第1页
大数据时代文献分析与利用-论文.pdf_第2页
大数据时代文献分析与利用-论文.pdf_第3页
大数据时代文献分析与利用-论文.pdf_第4页
资源描述:

《大数据时代文献分析与利用-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2014年4月石家庄职业技术学院学报Apr.2014第26卷第2期JournalofSh~iazhuangVocationalTechnologyInstituteVo1.26No.2文章编号:1009-4873(2014)02—0053—04大数据时代文献分析与利用王英哲(石家庄职业技术学院图书馆,河北石家庄050081)摘要:大数据自提出以来便引起了全社会的广泛关注,其具有海量、多样性、准确和高速的特征.利用文献知识发现技术,可以深入挖掘大数据的价值,并从中提取需要的知识.以中国知网的海量数据为例,对石家庄职业技术学院

2、的科研情况从全局动态、相关性追踪、趋势分析三个方面进行了挖掘,以利于进一步开展教学和科学研究.关键词:大数据;文献;挖掘中图分类号:G255文献标志码:A大数据是需要使用新处理模式才能具有更强的(3)精确度高决策力、洞察发现力和流程优化能力的海量、高增长基因组数据、地理空间数据、人口数据、经济运率和多样化的信息资产口].它利用各种知识发现技行数据、卫星遥感数据等均要求数据的准确性,而以术管理数据,快速提取有价值的信息,为提高各行业大数据为基础便能为科学决策提供精准的数据.的核心竞争力提供关键数据.大数据时代为文献的(4)处

3、理速度快分析与利用提供了新的途径,过去无法收集与分析处理速度快是大数据和传统数据挖掘技术最显的数据都被新的技术手段赋予了可能性.著的不同.气象数据、航天遥测遥控数据、交通流量、1大数据的特征地震监测数据等都要求数据的速度及时效性.而人(1)海量们可从大数据中快速获得满足要求的信息.大数据可以用数据海啸来形容.据统计,Face—2数据处理过程及其主要的知识发现技术book每天处理27亿次Like按钮点击,每天上传32.1数据处理过程亿张图片.国际数据公司(IDC)的研究表明,2008年大数据的处理流程可以概括为四步,即采集、

4、全球产生的数据量为0.49ZB,2009年为0.8ZB,导人和预处理、统计和分析、挖掘.采集端利用多2010年增长为1.2ZB,2011年高达1.82ZB,2012个数据库接收客户端数据,通过数据清理,导入到年达到2.8ZB,它相当于全球每人产生200GB以一个集中的大型分布式数据库或者分布式存储集上的数据.全球的数据资料存储量在2020年将达到群,形成数据仓库.利用存储于数据仓库中的海量40ZB(1024GB—ITB,1024TB一1PB,1024PB一数据进行分析和分类汇总,形成任务相关数据.再1EB.1024EB=I

5、ZB)[.利用知识挖掘技术,从任务相关数据中挖掘需要(2)多样性的知识.利用知识的过程中,也会产生大量的数大数据的数据包括:网络日志、音视频、图片、地据,这些数据又被采集端数据库采集,存储到数据理位置信息等,数据类型丰富.仓库中.流程如图1.收稿日期:2013-12-09作者简介:王英哲(1975一),女,河北定州人,石家庄职业技术学院馆员,硕士,主要研究方向:图书馆资源建设54石家庄职业技术学院学报第26卷Swanson基于非相关文献知识发现技术进行知识挖掘,发现了雷诺氏病与鱼油的关系,1998年他又发现了镁与偏头痛的关

6、系_3].2.2.3基于全文献的知识发现运用文本挖掘理论,从全文本中找出所需单字、词语和特定字串,从而挖掘文献关联和发现知识.3基于知识挖掘的文献分析与利用3.1纵观全局的动态研究海量权威的元数据汇集到一起,蕴藏了大量的知识,对基于数据的知识服务带来重大影响.以中国知网为检索平台,以“石家庄职业技术学院”为检索词进行检索,截止到2013年1O月,共检索到作者单图1大数据处理流程位包含“石家庄职业技术学院”的论文3995篇.通过对这些数据集合进行知识挖掘,即从元数据仓储中2.2主要的知识发现技术提取关键词等信息,可建立多种知

7、识的关联网络.以知识发现就是从各种数据中,发现知识片段间此为基础综合分析的石家庄职业技术学院1999年显性及隐含的联系,发现某学科发展的轨迹,或者是到2O13年的科研成果情况,见表1和图2.引起科研人员的某种猜想,从而进行知识挖掘,开展科学实验,促进知识创新.表1论文涉及到的排名前10的学科2.2.1基于相关文献的知识发现相关文献存在彼此引用、共引用、同被引用的关系,利用文献计量、内容分析、聚类分析、专利技术分析等方法,运用共词、共引理论,从文献内容人手提取重要的深层次信息.2.2.2基于非相关文献的知识发现非相关文献之间

8、,由于文献在表面上没有任何联系,基于此进行知识发现很困难,但这是进行知识创新及科学发现非常重要的途径.可以先利用各种知识挖掘技术找到知识点间隐含的关系,然后再发现隐含的知识.目前主要利用Swanson理论中知识元间的共引关系来揭示隐含的语义关联,再借用Arrowsmith辅助系统进行知识挖掘.如,198

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。