基于GPU的AVS2高速并行运动估计算法研究

基于GPU的AVS2高速并行运动估计算法研究

ID:37023504

大小:3.24 MB

页数:62页

时间:2019-05-14

基于GPU的AVS2高速并行运动估计算法研究_第1页
基于GPU的AVS2高速并行运动估计算法研究_第2页
基于GPU的AVS2高速并行运动估计算法研究_第3页
基于GPU的AVS2高速并行运动估计算法研究_第4页
基于GPU的AVS2高速并行运动估计算法研究_第5页
资源描述:

《基于GPU的AVS2高速并行运动估计算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于GPU的AVS2高速并行运动估计算法研究ResearchonAVS2HighSpeedParallelMotionEstimationAlgorithmBasedonGPU工程领域:电子与通信工程作者姓名:高新意指导教师:张涛副教授企业导师:国狄非天津大学电气自动化与信息工程师学院二零一七年十一月摘要AVS2是继AVS1之后推出的具有我国自主知识产权的新一代视频编码标准,通过四叉树编码单元灵活划分方式、新的编码技术等在保证图像质量的情况下编码效率相比H.264/AVC提高了一倍,编码能力与HEVC相当,但是在场景编码方式上,编码效率达到了H.264/AVC的4倍,付出的代价是

2、编码复杂度的大幅度提升,使得在目前的硬件平台很难实现高清超高清视频的实时编码。另一方面随着信息技术的不断发展GPU在海量数据并行处理和内存带宽上的优势越来越明显,NVIDIA推出的CUDA编程模型使得GPU的通用开发应用更加简单灵活。本文在详细研究了AVS2和CUDA编程模型和原理的基础上主要针对AVS2编码中耗时较长的帧间运动估计部分进行优化包括:帧间运动估计预搜索、整像素搜索、子像素运动搜索,具体研究工作主要体现在以下几个方面:1)在帧间运动估计的预搜索过程中,利用快速搜索算法对当前最大编码单元块进行运动估计,每个线程计算一个4x4块大小的绝对误差和(SAD),并进行线程块归

3、约合并求得预搜索运动向量。2)在整像素运动搜素中,采用映射表算法代替编码单元块的大型数据结构,并采用类积分图算法原理,对每个4x4块大小的绝对误差和(SAD)进行的预测单元块的合并,并充分使用共享内存和纹理内存存储当前帧和参考帧数据、合理利用共享内存、局部变量、指令优化、CUDA函数调用等优化方法提高数据读写速度,减少线程同步次数,提高线程利用率,增加内核函数并发次数,减少分支语句等,从而优化了并行速度。3)在子像素搜索过程中充分利用编码单元的层次划分进行并行化设计,对每层编码单元进行预测模式循环,并继承整像素搜索过程的优化方案进行算法优化。实验仿真表明,进行优化后的AVS2视频

4、编码在相比较在CPU端的运行速度加速性能上有明显提升,本文优化方案有一定的研究意义和实用价值。关键词:AVS2视频编码标准,GPU,CUDA,帧间运动估计,并行处理IABSTRACTAVS2isthelatestAudioVideostandardofChinawithindependentintellectualpropertyrightsinheritedfromAVS1andAVS+.ComparedwithH.264/AVC,AVS2codingefficiencymorethandoublewiththesamevisualqualitybyintroducingafl

5、exiblequad-treepartitionstructureandmultiplenovelcodingtechniques.ThecodingefficiencyofAVS2isequivalenttoHEVCwhichisacounterpartofAVS2andupto4timesthatofHEVCunderthescenecodingmode.Buttheseimprovementsleadtoconsiderableincreaseincodingcomplexityanditisdifficulttoachievethereal-timecodingifAVS

6、2isappliedtotheFullHighDefinition(FHD)videoandUltraHighDefinition(UHD)video.Asthedevelopmentofparalleltechnology,GraphicsProcessingUnit(GPU)showsitsgreatadvantagesinparallelprocessingofbigdataandmemorybandwidthaccess.TheComputeUnifiedDeviceArchitecture(CUDA)developedbyNVIDIAmakesgeneralapplic

7、ationdevelopmentmoreconvenient.Inthisthesis,theverytime-consumingintermotionpredictionisoptimizedbasedontheCUDAandAVS2standard.Theoptimizedmodulesincludethepre-searchofME,theintegerpixelsearchandthefractionalpixelsearchofME.Thedetailedworksar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。