资源描述:
《基于spark的高维数据相似性连接》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第28卷第8期计算机技术与发展Vol.28No.82018年8月COMPUTERTECHNOLOGYANDDEVELOPMENTAug.2018基于Spark的高维数据相似性连接成小海(天津工业大学计算机科学与软件学院,天津300387)摘要:高维数据相似性连接(HDSJ)是指在给定的空间数据库中,频繁执行连接和距离计算操作找出向量空间满足给定条件的数据对。但是随着数据量和维数的增加,HDSJ的计算成本将呈指数增加。针对HDSJ在处理海量数据时效率不佳的问题,利用Spark集群分布式和基于内存并
2、行计算特性,提出了基于Spark框架的HDSJ改进方法。该方法主要借助Spark中高效的RDD算子,使用分段聚合近似(PAA)表示原始的高维向量,用符号聚合近似(SAX)将表示后的向量重新组织成组,这样可以避免大量不必要的计算。PAA和SAX都是已有的降维技术,将二者结合使用可以很好地过滤掉大部分的干扰数据。实验结果证明,该方法在保证实验结果准确率的前提下提高了运算速率,比现有方法有更好的性能优势。关键词:高维数据;相似性连接;Spark;分段聚合近似;符号聚合近似中图分类号:TP311文献标识
3、码:A文章编号:1673-629X(2018)08-0043-05doi:10.3969/j.issn.1673-629X.2018.08.009SimilarityJoinsofHigh-dimensionalDataBasedonSparkCHENGXiao-hai(SchoolofComputerScienceandSoftwareEngineering,TianjinPolytechnicUniversity,Tianjin300387,China)Abstract:High-dimen
4、sionaldatasimilarityjoins(HDSJ)istofindthedatapairsofmeetingtheconditionsbyfrequentlyusingopera-tionsofthejoinsanddistancecalculationinagivenspatialdatabase.However,withtheincreasingofthedatavolumeandthenumberofthedimensions,thecomputationalcostofHDS
5、Jwillincreaseexponentially.InordertosolvetheproblemofHDSJofpoorefficiency,weproposeanimprovedmethodofHDSJbyusingSparkclusterandmemoryparallelcomputing.Thismethodmainlyusespiecewiseaggre-gateapproximation(PAA)torepresentthehigh-dimensionalvectorsandre
6、organizethesevectorsintogroupsbasedontheirsymbolicaggregateapproximation(SAX)representationsbyusingtheefficientRDDoperatorinSparkcluster,whichavoidsmanyunnecessarycalculations.PAAandSAXareexistingdimensionalityreductiontechniques,thecombinationofthet
7、wocanbeusedtofilteroutmostoftheinterferencedata.Experimentshowsthattheproposedmethodcanimprovetheoperationratewhileensuringtheaccuracyrate,whichhasbetterperformancethanthatoftheexistingmethod.Keywords:high-dimensionaldata;similarityjoins;Spark;piecew
8、iseaggregateapproximation;symbolicaggregateapproximation0引言进行分布式运算。高维数据相似性连接不仅可以用于分类,而且还近年来,有学者不断地对高维数据的相似性连接[7]可以用于预测,在文本分类、聚类分析、预测分析、模式进行了研究和优化。例如,戴健等整合MapReduce识别、图像处理等领域应用广泛。但高维数据相似性框架,提出了分布式网格概略化KNNjoins(DSGMP-连接仍是一个非常具有挑战性的工作,主要有以下两J)和基于MapRedu