资源描述:
《基于蚁群算法的副本选择策略的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于蚁群算法的副本选择策略的研究王韶君(运河高等师范学校计算机组)摘要:副本技术是数据网格中的关键技术。它能大大减少传输延迟,提高数据访问和处理的效率。分布着大量数据和计算能力的数据网格环境中,研究副本选择策略尤为重要。本文研究蚁群算法的原理同时分析了影响副本选择性能的主要因素,利用这些参考因素设计了基于蚁群算法的副本选择策略,并对这个新算法进行了分析和实现,经仿真平台实验,结果表明该算法可以减少数据访问延迟及带宽消耗,并有效做到网格中存储节点间的负载平衡,提高数据的访问速度。关键词:副本选择;蚁群算法;p2p;OptorSim中图分类号:TP393文献
2、标志码:DResearchofantalgorithmtoreplicaselectioninp2pWANGShaojun(Teamofcomputerscience&application,YunheHigherNomalSchool)Abstract:Replicaistheoneofthemostimportantkeytechniqueindatagrid.Theyareabletoreducethedelayofdatatransferandimprovetheefficiencyofdataaccessandprocessing.Replic
3、ationofdataisanimportantmethodtoimprovetheavailabilityofapplicationsindistributeddata–intensiveGridenvironment.howtochoosethereplicasisakeyfactortothatinfluencetheperformanceofreplicaselectiongreatly.Withinthispaper,thestrategyisanalyzedandimplemented.Throughusingsimulator,testre
4、sultsthatthisnewantalgorithmcanreducedataaccesslatency,decreasebandwidthconsumptionanddistributestoragesiteload,improvedataaccessspeed。Keywords:replicaselection;antalgorithm;p2p;OptorSim0 引 言网格系统是一种无缝、集成的资源共享和协作环境。在网格系统中,需要将需求量大的资源复制到多个站点上提供服务。副本选择是数据网格中非常重要的基础,即是从分布在网格中的众多副本中选择一
5、个副本的过程。选择依靠很多因素,如数据的放置、数据的大小、网络的带宽和延迟、用户和服务器间的网络状态、副本所在节点的负载情况及磁盘I/O读取速度等。蚁群算法[1][2]的正反馈性和协同性、隐含的并行性使其适用于分布式系统,而其具有的可扩展性使其很适合于网络结构和副本动态改变的数据网格环境。本文提出的基于蚁群的副本优化选择算法针对大规模数据密集型网格环境,既可以做到根据历史记录进行副本选择的预测,又可以有效做到副本存储节点的负载动态平衡。1基于蚁群算法的副本选择策略蚁群算法是利用与环境的动态交互获得反馈信息调整自我,以期逐步获得最佳解。蚁群算法已被广泛应用
6、到许多最优化问题中,如TSP分配问题、网络路由、任务高度及着色问题。在数据网格中,选择一个最佳副本同样是最优化问题,因此基于蚁群算法的副本选择策略[3]在理论上具有其可行性。蚁群算法是一种智能优化仿生算法[4],其显著特点为:①其原理是一种正反馈机制或称增强型学习系统,它通过信息素的不断更新达到最终收敛于最优路径上。②它是一种分布式的优化方法,不仅适合目前的串行计算机,而且适合未来的并行计算机。③它是一种全局优化的方法,不仅可用于求解单目标优化问题,而且可用于求解多目标优化问题。④它是一种启发式算法。1.1数据副本选择的因素副本选择算法的优劣很大程度上取
7、决于对影响副本选择因素参数的选取。这些因素成为副本选择的主要依据,主要包括以下几个方面:l磁盘I/O传输。针对副本选择策略而言,主要指磁盘读取时间。低的读取时间能降低数据副本的远程访问时间。lSE的读取速度。针对副本选择策略而言,主要指磁盘读取时间。我们忽略存储方式不同所引起的时间上的差异,认为所有的文件存储格式都是相同的。除此以外,在存储格式相同的情况下,能影响数据读取速度的还有硬盘的转数,硬盘的转数不同,读取的速度自然不同。lCE的计算速度。它反映了CE处理任务的快慢程度。CE的处理速度对读取的影响不会很大,可以忽略这个特征值。l网络状态。在进行副本
8、选择时,通用的作法是选择最小延迟的链路进行数据访问。传输带宽决定了数据的传输速率