资源描述:
《大数据系统benchmark综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、大数据系统Benchmark综述闫义博1朱文强2杨仝3李晓明3(1北京大学深圳研究生院深圳5180552对外经济贸易大学信息学院北京1000293北京大学计算机系北京100871)摘要:Benchmark是目前最主要的计算机系统性能评测技术,其评测的内容主要包括软件、硬件以及系统自身这三个方面中的一个或多个。在大数据时代背景下,与传统计算机系统相比,大数据相关的计算机系统具备了更高的多样性以及复杂性,因此benchmark评测技术将涵盖广泛的应用领域并提供多样的数据类型和复杂的数据操作。本文对be
2、nchmark评测基准中的测试规范进行了归纳总结,同时还列举了在大数据时代背景下benchmark评测技术开发中的一些挑战以及发展趋势。关键词:基准测试,测试方法,大数据,性能ASurveyofBenchmarkinBigDataYanYibo1,ZhuWenqiang2,YangTong3,LiXiaoming3(1ShenzhenGraduateSchool,PekingUniversity,Shenzhen,518055,China;2SchoolofInformationManagemen
3、t,UniversityofInternationalBusinessandEconomic,Beijing,100029,China;3DepartmentofComputerScience,PekingUniversity,Beijing,100871,China)Abstract:Benchmarkiscurrentlythemostimportanttechniqueforevaluatingacomputersystem.Thecontentofassessmentmainlyinclu
4、desoneormoreofthethreeaspectsofthesoftware,thehardwareandthecomputersystemitself.IntheBigDataera,comparedwithtraditionalcomputersystem,thediversityandcomplexityofbigdatarelatedcomputersystemsarehigher.Therefore,benchmarkingtechnologywillcoverawiderang
5、eofapplicationsandprovideawiderangeofdatatypesandcomplexdatamanipulation.Thispapersummarizessometestingspecificationsandmethodsinbenchmarkandlistsseveralchallengestoadaptiontochangesfrombigdataeraanddevelopmenttrendinthedevelopmentofbenchmarking.Keywo
6、rds:benchmarks,benchmarkingmethodology,bigdata,performance通信作者:杨仝(yangtongemail@gmail.com).国家重点研发计划(2016YFB1000304),973项目(2014CB340400),国家自然科学基金(61672061),中国科学院网络数据科学与技术重点实验室开放基金课题1引言在计算机领域,benchmark是一种被广泛应用于评测计算机系统的相关性能的技术。Benchmark原指测量领域中的基准点,常用于判断不
7、同测量对象之间的某个测量指标的差异。在计算机领域,benchmark技术常常根据具体的应用领域建立相应的测试规范,然后依据测试规范设计测试流程,通过对该应用领域内错误!的不同计算机系统进行测试得到测试结果,测试结果可以反映出不同计算机系统之间的性能指标的差异未找到引用源。。Benchmark常用于评测计算机系统的性能测试,主要在测试响应时间、传输速度、吞吐量、资源占用率等方面,是基于性能的计算机系统设计中不可缺失的重要环节[2]。随着计算机技术的发展,出现了越来越多的计算机系统,而如何评价某个应用
8、领域中的计算机系统成为了学术界和工业界需要解决的首要问题。此外,在当前的大数据时代背景下,越来越多的应用领域需要使用大数据相关技术来应对数据的数量和种类的不断增加。大数据的特性使得大数据领域内的计算机系统与传统计算机系统之间存在一定的差异,例如,在对流式数据进行处理时,根据处理的时效性不同,计算机系统通常采用批量计算或流式计算,随着数据量的不断增加,人们将计算机系统开发的关注点转向低延迟、高吞吐和持续可靠的运行,这使得更加强调计算数据流和低时延的流式计算越来越受到欢迎,目前,主要的