大数据及其应用的矛盾问题与可拓学-科技促进发展

大数据及其应用的矛盾问题与可拓学-科技促进发展

ID:33338145

大小:2.06 MB

页数:7页

时间:2019-02-24

大数据及其应用的矛盾问题与可拓学-科技促进发展_第1页
大数据及其应用的矛盾问题与可拓学-科技促进发展_第2页
大数据及其应用的矛盾问题与可拓学-科技促进发展_第3页
大数据及其应用的矛盾问题与可拓学-科技促进发展_第4页
大数据及其应用的矛盾问题与可拓学-科技促进发展_第5页
资源描述:

《大数据及其应用的矛盾问题与可拓学-科技促进发展》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、技术产业发展促高进国会FocusonChina中ChtyinieaHocigh-TnSechtioIndustryPromo大数据及其应用的矛盾问题与可拓学*■ 李兴森** 张浩澜** 陈 艳 浙江大学宁波理工学院智能计算与数据管理研究中心 宁波 315100摘 要:大数据应用面临众多机遇与挑战。本文分析了大数据研究与应用中的矛盾问题,介绍了处理矛盾问题的可拓学及基于可拓学的创新方法;以数据质量的矛盾问题分析为例,本文展示了可拓学处理矛盾问题的思路,探讨、展望了可拓学对大数据应用中矛盾问题处理的支持。关键词:大数据 可拓学 矛盾问题 可拓创新

2、方法 数据挖掘DOI:10.11842/chips.2014.01.008这类数据的产生方式是主动的。各类微型传感器、摄像一、引 言头及GPS的广泛应用,会源源不断地自动产生新数据。人类正面临史上空前的数据浪潮。海量数据的产这些被动、主动和自动产生的数据共同构成了大数据生已经处于随时、随地、随人的泛在阶段,几乎完全的数据来源,其中自动式产生的数据是大数据的最主[1]不受时间、地点的限制。数据产生的形式包含了被动、要来源。[1]主动和自动3类,超市的销售记录、银行的交易记录、大数据是来源多样、类型多样、大而复杂、具有医院病人的医疗记录、公交车的

3、刷卡记录、百度的搜索潜在价值,但难以在期望时间内处理和分析的数据集记录等,是被动方式产生的数据。以博客、微博、微信(第462次香山科学会议)。大数据已成为一种新型的战[2]为代表的新型社交网络的出现和快速发展,使得用户略性基础资源,涉及物理、生物、脑科学、医疗、环[3]分享思想、体验的意愿更加强烈。以智能手机、平板保、经济、文化、安全等众多领域。大数据应用于互电脑为代表的全天候接入网络的新型移动设备的出现,联网搜索、电子商务、金融、通讯、智能电网等行业,使得人们在网上分享信息、展现自我的方式更为便捷,将会带来巨大的效益。*国家自然科学基金项

4、目“基于可拓学的知识智能涌现创新机理研究”(#71271191),负责人:李兴森。浙江省科技厅软科学课题“浙江省软件产业项目群资源配置优化与评价方法研究”(#2013C35085),负责人:郭研。** 李兴森,博士、教授、高级工程师。浙江大学宁波理工学院信息管理与信息系统研究所所长,中国人工智能学会理事,中国人工智能学会可拓工程专业委员会秘书长,宁波市拔尖与领军人才,浙江大学博士后合作导师。擅长以可拓学和信息技术处理管理中的矛盾问题,承担多项数据挖掘项目,为企业决策提供科学依据。  张浩澜,博士,副教授,浙江大学硕士生导师,浙江省新世纪1

5、51人才。2008年获澳大利亚维多利亚大学博士学位,2008-2010任皇家墨尔本理工大学博士后。截止2013年9月已发表高质量期刊及学术会议及技术报告50多篇(SCI期刊7篇)。  陈艳,浙江大学宁波理工学院信息管理与信息系统专业本科生。SCIENCE&TECHNOLOGYFORDEVELOPMENT45技术产业发展促高进国会中关注中国ChtyinieaHocigh-TnSechtioIndustryPromo大数据意味着大机遇,如何更好地管理和利用大分等数据中抽取知识(例如用户对某类产品的兴趣等)数据已经成为普遍关注的话题。然而,大数据

6、数量的是极为重要的,需要综合采用数据抽取、自然语言处理、[4]规模性、结构的异构性、产生的快速性和价值的稀疏性机器学习、数据挖掘和信息检索等技术。然而,用户给数据存储、管理以及数据分析带来了极大的挑战。的兴趣既受到他人的影响,也影响他人,等用户的兴趣挖掘出来,该用户的兴趣也许已经改变。二、大数据研究与应用中的矛盾问题4.数据质量低与分析结论要求高的矛盾从技术、管理、社会等角度,大数据及其应用面数据分析与挖掘依赖真实、准确的数据。“垃圾进,临的主要矛盾可归纳如下:垃圾出”,数据质量高低影响大数据应用的成败。冗余、1.大数据与分析工具无法胜任的矛

7、盾不一致、不准确、缺失等低质量的数据会影响分析的量变引起质变。大规模数据的传输、存储、分析结果,甚至可能得出错误的结论,使得大数据应用的计算与图形化展示等大大超出了小规模数据处理工具价值大大降低。数据质量低的原因很多,包括原始数的能力。需要在硬件、软件系统和算法上进行改良与革据录入不细心、设备精度低、外部环境干扰(如突然命,这些算法、软件系统必须从根本上变革以适应超断电)、数据整合时错位等。大数据的数据来源广,数[5]大规模数据高性能处理的需求。类似曹冲称象面临的据质量问题也更为突出。由于数据量大、数据之间的问题,大象很重,秤的秤量很小。传统

8、的数据管理技关联错综复杂、数据结构的多元化等,数据的一致性、术面临转型升级以有效应对海量数据的挑战。甚至需完整性很难维护,这对通过大数据挖掘获取知识辅助要建立新的专

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。