大数据环境下的文献分析与利用

大数据环境下的文献分析与利用

ID:39484119

大小:7.49 MB

页数:92页

时间:2019-07-04

大数据环境下的文献分析与利用_第1页
大数据环境下的文献分析与利用_第2页
大数据环境下的文献分析与利用_第3页
大数据环境下的文献分析与利用_第4页
大数据环境下的文献分析与利用_第5页
资源描述:

《大数据环境下的文献分析与利用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据环境下的文献分析与利用叶艳鸣2013·10一、几点认识大数据的海啸——巨量信息43,600,000条结果大数据的海啸大数据时代的四个特征苹果AppStore应用商店每天下载4600万款应用新浪微博用户每日发博量超过1亿条百度每日处理的搜索量超过了50亿Facebook每天处理的数据量(2012年):处理27亿次Like按钮点击。上传3亿张图片。吸收逾500TB新数据。一组数据国际数据公司(IDC)的研究结果表明:2008年全球产生的数据量为0.49ZB2009年的数据量为0.8ZB2010年增长为1.2ZB2011年的数量更是高达1.82Z

2、B相当于全球每人产生200GB以上的数据而到2012年为止人类生产的所有印刷材料的数据量是200PB全人类历史上说过的所有话的数据量大约是5EBIBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。大数据时代的四个特征各种结构化与非结构化数据大数据时代的四个特征基因组数据地理空间数据人口数据经济运行数据卫星遥感数据……大数据时代的四个特征气象数据航天遥测遥控数据交通流量数据地震监测数据……14大数据的阶梯处理过程模型多阶段流水处理模型:数据清理数据集成数据仓库任务相

3、关数据选择数据挖掘模式评估knowledge主要技术说明内容管理技术数据建模技术、版本控制技术、检索技术、文件路由技术等文档管理技术分类归档、外部特征管理、关键词管理信息提取技术人工智能技术、Bayesian概率和词频统计分析、向量空间模型信息过滤技术固定文章集法、协作过滤技术文本挖掘利用智能算法,并结合文字处理技术,分析大量的非结构化文本源数据仓库在线分析处理(OLAP)、在线事务处理(OLTP)分类技术决策树、贝叶斯方法、神经网络、遗传算法、粗糙集和实例推理(CBR)等。聚类技术统计分析方法、模糊逻辑、最近邻技术、规则归纳bookmark智能

4、化网络信息服务系统根本原因分析它是一种回溯性失误分析工具云模型解决数据挖掘中的知识表示问题可视化技术几何投射技术、基于图标技术、面向像素的技术、层次技术、基于图表技术主要的知识发现技术基于文献的知识发现原理与技术基于文献的知识发现基于相关文献的知识发现基于非相关文献的知识发现基于全文献的知识发现共词分析理论与方法共引分析理论与方法Swanson理论与方法文本挖掘理论与方法资料来源:冷伏海《基于文献的知识发现的应用进展研究》大数据的开发路径BigdataMatadataLinkdata知识发现进阶二、“大数据”困局的破解之道由《易经》想到的:《易经

5、》道:“易”有三易:简易变易不易简易:万事万物都是非常简单的,大道至简《周易·系辞上》:易有太极,是生两仪,两仪生四象,四象生八卦现代计算机之“0、1”世界《易经》之简易变易:宇宙万物,时刻变化,人事皆是如此《周易·系辞上》:知变化之道者,其知神之所为乎?《易经》之变易不易:变的规律本身是相对不变的,是相对静止和相对稳定的,是可以感知的《周易·系辞上》:易无思也,无位也,寂然不动,感而遂通天下之故《易经》之不易岩刻、结绳记事、文字起源远古人类应对“大数据”之路径实体世界符号化符号化复杂简化日出云端与“旦”字的产生喂…有好“大”一片树林呀信息的标识

6、:实物→图画→象形文字符号的产生:虚拟世界的起源人与自然区分的分水岭语言、书籍、通信知识体系起源古代信息世界符号化知识体系复杂简化人类应对“大数据”之路径近代-现代藏书体系符号化目录体系复杂简化书、报、刊、学位论文、标准、专利……目录学起源人类应对“大数据”之路径目录系统OPAC系统新世纪大数据符号化LinkedData复杂简化数字化、网络化大数据时代来临人类应对“大数据”之路径《易经》思想给出的“大数据”困境破解之道三、基于知识挖掘的文献分析与利用——以基因组研究为例1、纵观全局的动态调研研究概貌315,264条研究概貌研究概貌2、研究关联性分

7、析(热点追踪)主要研究领域(关键词分析)研究相关性追踪不同时期研究热点变化追踪1995-1999年2005-2012年3、研究关联性分析(时间序列)研究继承性追踪研究继承性追踪(引用)4、重要成果追踪(竞争情报)特定研究者追踪(专家)特定研究者追踪(主要成果)特定研究者追踪研究重点与方向合作团队特定研究者追踪特定文献分析—图书5、特定文献分析特定文献分析—最新成果特定文献分析—早期研究1966年就有了基因组研究特定文献分析—影响力最大的图书特定文献分析—期刊论文特定文献分析—最具影响的期刊论文特定文献分析—CSCD期刊论文特定文献分析—SCI期刊

8、论文特定文献分析—学位论文特定文献分析—学位论文特定文献分析—学位论文特定文献分析—标准特定文献分析—专利关键词:禽流感不同文献敏感度关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。