基于spark的高维数据相似性连接

基于spark的高维数据相似性连接

ID:33383430

大小:1.22 MB

页数:5页

时间:2019-02-25

基于spark的高维数据相似性连接_第1页
基于spark的高维数据相似性连接_第2页
基于spark的高维数据相似性连接_第3页
基于spark的高维数据相似性连接_第4页
基于spark的高维数据相似性连接_第5页
资源描述:

《基于spark的高维数据相似性连接》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第28卷第8期计算机技术与发展Vol.28No.82018年8月COMPUTERTECHNOLOGYANDDEVELOPMENTAug.2018基于Spark的高维数据相似性连接成小海(天津工业大学计算机科学与软件学院,天津300387)摘要:高维数据相似性连接(HDSJ)是指在给定的空间数据库中,频繁执行连接和距离计算操作找出向量空间满足给定条件的数据对。但是随着数据量和维数的增加,HDSJ的计算成本将呈指数增加。针对HDSJ在处理海量数据时效率不佳的问题,利用Spark集群分布式和基于内存并

2、行计算特性,提出了基于Spark框架的HDSJ改进方法。该方法主要借助Spark中高效的RDD算子,使用分段聚合近似(PAA)表示原始的高维向量,用符号聚合近似(SAX)将表示后的向量重新组织成组,这样可以避免大量不必要的计算。PAA和SAX都是已有的降维技术,将二者结合使用可以很好地过滤掉大部分的干扰数据。实验结果证明,该方法在保证实验结果准确率的前提下提高了运算速率,比现有方法有更好的性能优势。关键词:高维数据;相似性连接;Spark;分段聚合近似;符号聚合近似中图分类号:TP311文献标识

3、码:A文章编号:1673-629X(2018)08-0043-05doi:10.3969/j.issn.1673-629X.2018.08.009SimilarityJoinsofHigh-dimensionalDataBasedonSparkCHENGXiao-hai(SchoolofComputerScienceandSoftwareEngineering,TianjinPolytechnicUniversity,Tianjin300387,China)Abstract:High-dimen

4、sionaldatasimilarityjoins(HDSJ)istofindthedatapairsofmeetingtheconditionsbyfrequentlyusingopera-tionsofthejoinsanddistancecalculationinagivenspatialdatabase.However,withtheincreasingofthedatavolumeandthenumberofthedimensions,thecomputationalcostofHDS

5、Jwillincreaseexponentially.InordertosolvetheproblemofHDSJofpoorefficiency,weproposeanimprovedmethodofHDSJbyusingSparkclusterandmemoryparallelcomputing.Thismethodmainlyusespiecewiseaggre-gateapproximation(PAA)torepresentthehigh-dimensionalvectorsandre

6、organizethesevectorsintogroupsbasedontheirsymbolicaggregateapproximation(SAX)representationsbyusingtheefficientRDDoperatorinSparkcluster,whichavoidsmanyunnecessarycalculations.PAAandSAXareexistingdimensionalityreductiontechniques,thecombinationofthet

7、wocanbeusedtofilteroutmostoftheinterferencedata.Experimentshowsthattheproposedmethodcanimprovetheoperationratewhileensuringtheaccuracyrate,whichhasbetterperformancethanthatoftheexistingmethod.Keywords:high-dimensionaldata;similarityjoins;Spark;piecew

8、iseaggregateapproximation;symbolicaggregateapproximation0引言进行分布式运算。高维数据相似性连接不仅可以用于分类,而且还近年来,有学者不断地对高维数据的相似性连接[7]可以用于预测,在文本分类、聚类分析、预测分析、模式进行了研究和优化。例如,戴健等整合MapReduce识别、图像处理等领域应用广泛。但高维数据相似性框架,提出了分布式网格概略化KNNjoins(DSGMP-连接仍是一个非常具有挑战性的工作,主要有以下两J)和基于MapRedu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。