欢迎来到天天文库
浏览记录
ID:52743680
大小:7.53 MB
页数:28页
时间:2020-03-30
《大数据对IT技术架构的挑战28.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、大数据热点问题和2013年发展趋势预测CCF大数据专家委员会专家调研结果发布2012年11月30日调研的目标、方法和过程•70位委员学术界46位、产业界14位、海外10位•思考热点问题•给出2013年大数据发展趋势预测2热点问题候选项一、科学问题C.7如何将大数据变小(42)C.1数据的科学问题(55)C.8数据的价值提炼(49)C.2大数据的基本内涵(43)三、应用实践问题C.3计算模式(61)C.9大数据应用领域(49)二、技术问题C.10大数据对于系统的要求(49)C.4数据的多样性与数据态(53)C.11数据质量问题(41)C.5大数据的空间维问题(44)C.12大数据
2、安全和隐私(59)(分布、感知与传输)四、大数据生态问题C.6大数据的时间维问题(63)C.13数据资源化和共享管理(33)(流式化、时效性、在线处理)C.14大数据的生态环境(32)3【1】数据科学与大数据的学科边界大数据的基本问题数据的科学问题55(定义、结构等)43•数据界与物理界、人类社会•需要对“大数据”给出科学之间的关联与差异?定义,清晰说明其内涵与外•是否存在独立于领域的数据延科学?•大数据区别于其他数据的关•数据科学的分类谱系键特性是什么?3V•大数据的复杂性主要来自个高价值总量、低价值密度体之间的联系•大数据意味着全数据?•学习理论和认知理论等应当是数据科学
3、的重要组成部分•需要为动态、高维、复杂大数据建立形式化、结构化描述,并在此基础上发展大数据处理技术4【2】数据计算的基本模式与范式61•数据密集型计算的基本范式?•数据计算的效率评估与数据计算复杂性理论?•从中心化的/top-down模式转为去中心化的/自组织的计算模式?•基于数据的智能:会有越来越多靠“数据的体量+简单的逻辑”的方法去解决复杂问题5【3】大数据特性与数据态534463•多来源多模态数•三元空间大数据•数据的生命周期据:图像、视频、的产生、状态感•数据的时间维状音频、数据流、知与采集态与特征文本、网页…•柔性粒度数据传•流化分析、增量•关联关系异质、输、移动、存储
4、学习、在线推荐结构模式复杂与计算•离线与在线时效•互为因果,动态•数据空间范围和性要求变化数据密度的非均关系维空间维时间维衡态复杂性复杂性复杂性6【4】大数据的作用力和变换反应将大数据变小(物理作用)42•在尽量不损失价值的条件下,减小数据规模•不改变数据基本属性情况下的数据清洗•抽样、去重、过滤、筛选、压缩、索引、提取元数据等等方法,可以直接将大数据变小,这种作用类似于所谓的物理式的变小价值提炼(化学反应)49•大数据探索式考察与可视化将发挥作用,人机的交互分析可以将人的智慧作用融入•通过群体智慧、社会计算、认知计算对数据价值的发酵和提炼•从数据分析到数据制造7【5】大数据安全
5、和隐私问题59•安全和隐私,永远的问题•挑战•随着数据的增多,组织面大数据规模的密码学临的重大风险跨越了一个分布式编程框架中的安全计算复杂的威胁面,要遵守更非关系型数据存储多合规规定,传统的数据安全的数据存储和事务日志保护方法常常无法满足终端输入的确认/过滤实时安全/合规监测可扩展的、可组合的、脱敏(无隐私)的数据挖掘和分析强制的访问控制和安全通信粒度访问控制数据来源和数据通道8【6】大数据对IT技术架构的挑战49•大数据对于系统提出了很多非常极限的要求。不管是存储、传输还是计算•大数据平台将是技术高峰。这个平台可能是计算平台、传输平台、存储平台、交互平台等等•现有数据中心技术难
6、以满足大数据需求,整个IT架构的革命性重构势在必行。•存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。分布式存储架构不仅需要scaleup式的可扩展性,也需要scaleout式的可扩展性•大数据也许会颠覆整个系统结构9【7】大数据的应用及产业链49•大数据一定要与领域知识相结合。在不同的领域环境和不同的应用需求,大数据的获取、分析、反馈的方式都会不同•针对不同行业与领域业务需求,展开数据特征与业务特征的研究,进行大数据应用分类与技术需求分析,构建从需求分析业务模型数据模型数据采集数据分析总结反馈再到数据分析的全生命周期应用模型•不同的
7、应用环境和应用目标代表了不同的价值导向,对于大数据的价值密度有很大影响10【8】大数据的生态环境问题资源和共享管理其他生态问题3332•数据所有权,既是技术•涉及与政治、经济、社问题,也有法理问题会、法律、科学等等的•数据权益的认定与保护交叉影响问题•如何保护多方利益的前•大数据将对国家治理模提下解决数据共享问题式、企业的决策、组织和业务流程、个人生活•共享可能遇到的障碍:方式都将产生巨大的影法律或信誉顾虑响,影响模式值得研究保护竞争力的需要数据存储的位臵和方式不利于数据的
此文档下载收益归作者所有