基于可拓学理论的高维大数据相似性研究

基于可拓学理论的高维大数据相似性研究

ID:46293167

大小:792.03 KB

页数:5页

时间:2019-11-22

基于可拓学理论的高维大数据相似性研究_第1页
基于可拓学理论的高维大数据相似性研究_第2页
基于可拓学理论的高维大数据相似性研究_第3页
基于可拓学理论的高维大数据相似性研究_第4页
基于可拓学理论的高维大数据相似性研究_第5页
资源描述:

《基于可拓学理论的高维大数据相似性研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第24卷第5期运筹与管理Vol.24,No.52015年10月OPERATIONSRESEARCHANDMANAGEMENTSCIENCEOct.2015基于可拓学理论的高维大数据相似性研究袁瑞萍, 师鸣若(北京物资学院信息学院,北京101149)摘要:高维大数据的相似性计算是数据挖掘领域的研究重点,论文通过分析高维大数据相似性计算的难点,提出采用可拓学的方法解决其中矛盾问题的研究思路。在基元表示高维大数据的基础上,借助数据转换、数据筛选、权重的确定、数据预处理等技术实现了数据之间的相似性计算,并基于水污染常规分析数据进行了算法验证。论文借助可拓的思

2、想研究大数据相似性的问题,不仅对数据挖掘的研究有一定的理论促进,同时也为可拓学的研究提供了新的应用空间。关键词:大数据;高维数据;可拓学;相似性中图分类号:TP311.1   文章标识码:A文章编号:1007-3221(2015)05-0184-05ResearchontheSimilarityofHighDimensionalBigDataBasedonExtenicsYUANRui-ping,SHIMing-ruo(SchoolofInformation,Beijingwuziuniversity,Beijing101149,China)Abst

3、ract:Thesimilaritycalculationofhighdimensionalbigdataisaresearchfocusinthefieldofdatamining.Inthispaper,afteranalyzingthedifficultyofsimilaritycalculationofhighdimensionaldata,amethodbasedonextenicsisputforwardtosolvethecontradictoryproblems.Firstly,theelementisusedtorepresenth

4、ighdimen-sionaldata.Thenthesimilaritybetweendataiscalculatedbymeansofdataconversion,dataselection,weightdeterminationanddatapre-processingtechnology.Finallytheconventionalanalysisdataofwaterpollutionisusedtoverifythemethod.Theideaofusingextenicstosolvesimilarityproblemofbigdata

5、cannotonlypromotetheoreticalresearchofdatamining,butalsoprovideanewapplicationforextenics.Keywords:bigdata;highdimensionaldata;extenics;similaritydetermination0 引言2008年9月,枟科学枠杂志发表文章枟BigData:ScienceinthePetabyteEra枠,“大数据”一词正式走入公众[1,2]视线,并开始传播。其实,“大数据”一词早在上个世纪80年代由美国人提出来。2011年6月,

6、IDC研究报告枟从混沌中提取价值枠中三个基本论断构成了大数据的理论基础,人们对大数据的关注程度日益上升。[3]据统计,Google“大数据”搜索量自2011年6月起呈直线上升趋势,大数据时代的到来毋庸置疑。根据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番,预计到2020年,全球将拥有35ZB的数据量,并且85%以上的数据以非结构化或半结构化的形式存在。“大数据”2011年一路走红,2012年后更加闪耀,成为业界当之无愧的焦点,很多国内外的学术会议均以“大数据”冠名。伴随新型SNS网络的发展、视频流量的猛增及图片分享需求的涌现,人们迷失于

7、茫茫的数据海洋中,如何从大数据中挖掘出有用的信息成为关注的焦点,其中高维大数据因其复杂性而备受关注,并成为数据领域中的研究热点和前沿问题。收稿日期:2015-06-04基金项目:北京市教委科技计划面上项目(KM201510037001);智能物流系统北京市重点实验室(NO:BZ0211);北京市属高等学校创新团队建设提升计划项目(项目号:IDHT20130517)作者简介:袁瑞萍(1982-),女,博士,讲师,山东荷泽人,研究方向:物流信息化,数据挖掘;师鸣若(1976-),女,河南郑州人,研究方向:商务智能。第5期袁瑞萍,等:基于可拓学理论的高维大

8、数据相似性研究1851 高维大数据相似性研究综述聚类分析是高维数据处理的主要内容,它根据数据对象属性信息或对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。