欢迎来到天天文库
浏览记录
ID:59205852
大小:244.50 KB
页数:16页
时间:2020-09-10
《实验四并行结构实验.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、实验四并行结构实验实验目的观察SMP上多线程并发程序行为;了解并掌握消除SMP上cacheping-pong效应的方法;学习NUMA内存访存特性实验内容以一个计数程序作为起点,先简单并行化,然后修正其并发执行的同步问题、并发度问题、cache的ping-pong效应问题,最后形成一个比较理想的SMP并发程序。第二部分为选做部分,观察NUMA访存性能特性,掌握内存绑定方法。实验环境硬件:PC或任何一款具有cache的功能的计算机软件:Windows/Linux操作系统、C语言编译器实验步骤及相关说明要求
2、学生学习SMP上的pthread库多线程编程,按要求编写程序代码逐步完成实验操作。1)编写一个完整程序用于统计一个数组中“M”字符出现的个数,统计核心样例代码如下:程序一核心统计代码(不含主函数、线程创建代码等)int*array;intlength;intcountintcount3s(){inti;count=0;for(i=0;i3、“MPMPMP…”模式。运行后记录执行时间。1)对上述程序完成多线程化的改造,用pthread编写多线程程序,每个线程所执行的统计代码以下列代码为起点:程序二线程化的核心统计代码(不含主函数、线程创建代码等)int*array;//待统计的数组intlength;//每个线程划分到的元素个数intcount;//统计出来的“M”个数intt;//线程数,取值为处理器核数voidcount3s_thread(intid)//id为创建线程时传入的线程号{/*computeportionofthearra4、ythatthisthreadshouldworkon*/intlength_per_thread=length/t;//每个线程分担的元素个数intstart=id*length_per_thread;//本线程负责的数组下标起点for(i=start;i5、ad()统计“M”字符的出现次数——保存在count共享变量中,实现多线程并发统计的功能。按1、2、4、8、16个线程数量分别执行,记录各自所需的执行时间(绘制成柱状图)。2)执行上述程序,统计结果是否正确?如果不正确,请加上pthread的互斥锁mutext以解决其错误——每次访问count时先申请mutext,访问结束后释放mutex,从而实现互斥访问保证结果正确;mutexm;…..voidcount3s_thread(intid){/*computeportionofthearrraythat6、thisthreadshouldworkon*/intlength_per_thread=length/t;intstart=id*length_per_thread;for(i=start;i7、将局部统计值记录在私有变量上,最后再统计总数,样例代码如下:private_count[MaxThreads];mutexm;voidcount3s_thread(intid){/*computeportionofarrayforthisthreadtoworkon*/intlength_per_thread=length/t;intstart=id*length_per_thread;for(i=start;i8、{private_count[id]++;}}mutex_lock(m);count+=private_count[id];mutex_unlock(m);}2)比较1)3)4)执行时间,分析结果,参考多核处理器间cache竞争引发的ping-pong效应,尝试消除该效应并检验是否获得性能提升。记录1、2、4、8、16个线程数目下的各自执行时间并与1)的时间相比较(绘制成柱状图)。附:选做实验学习线程和内存在NUMA节点/CPU的绑定编程接口。在NUMA
3、“MPMPMP…”模式。运行后记录执行时间。1)对上述程序完成多线程化的改造,用pthread编写多线程程序,每个线程所执行的统计代码以下列代码为起点:程序二线程化的核心统计代码(不含主函数、线程创建代码等)int*array;//待统计的数组intlength;//每个线程划分到的元素个数intcount;//统计出来的“M”个数intt;//线程数,取值为处理器核数voidcount3s_thread(intid)//id为创建线程时传入的线程号{/*computeportionofthearra
4、ythatthisthreadshouldworkon*/intlength_per_thread=length/t;//每个线程分担的元素个数intstart=id*length_per_thread;//本线程负责的数组下标起点for(i=start;i5、ad()统计“M”字符的出现次数——保存在count共享变量中,实现多线程并发统计的功能。按1、2、4、8、16个线程数量分别执行,记录各自所需的执行时间(绘制成柱状图)。2)执行上述程序,统计结果是否正确?如果不正确,请加上pthread的互斥锁mutext以解决其错误——每次访问count时先申请mutext,访问结束后释放mutex,从而实现互斥访问保证结果正确;mutexm;…..voidcount3s_thread(intid){/*computeportionofthearrraythat6、thisthreadshouldworkon*/intlength_per_thread=length/t;intstart=id*length_per_thread;for(i=start;i7、将局部统计值记录在私有变量上,最后再统计总数,样例代码如下:private_count[MaxThreads];mutexm;voidcount3s_thread(intid){/*computeportionofarrayforthisthreadtoworkon*/intlength_per_thread=length/t;intstart=id*length_per_thread;for(i=start;i8、{private_count[id]++;}}mutex_lock(m);count+=private_count[id];mutex_unlock(m);}2)比较1)3)4)执行时间,分析结果,参考多核处理器间cache竞争引发的ping-pong效应,尝试消除该效应并检验是否获得性能提升。记录1、2、4、8、16个线程数目下的各自执行时间并与1)的时间相比较(绘制成柱状图)。附:选做实验学习线程和内存在NUMA节点/CPU的绑定编程接口。在NUMA
5、ad()统计“M”字符的出现次数——保存在count共享变量中,实现多线程并发统计的功能。按1、2、4、8、16个线程数量分别执行,记录各自所需的执行时间(绘制成柱状图)。2)执行上述程序,统计结果是否正确?如果不正确,请加上pthread的互斥锁mutext以解决其错误——每次访问count时先申请mutext,访问结束后释放mutex,从而实现互斥访问保证结果正确;mutexm;…..voidcount3s_thread(intid){/*computeportionofthearrraythat
6、thisthreadshouldworkon*/intlength_per_thread=length/t;intstart=id*length_per_thread;for(i=start;i7、将局部统计值记录在私有变量上,最后再统计总数,样例代码如下:private_count[MaxThreads];mutexm;voidcount3s_thread(intid){/*computeportionofarrayforthisthreadtoworkon*/intlength_per_thread=length/t;intstart=id*length_per_thread;for(i=start;i8、{private_count[id]++;}}mutex_lock(m);count+=private_count[id];mutex_unlock(m);}2)比较1)3)4)执行时间,分析结果,参考多核处理器间cache竞争引发的ping-pong效应,尝试消除该效应并检验是否获得性能提升。记录1、2、4、8、16个线程数目下的各自执行时间并与1)的时间相比较(绘制成柱状图)。附:选做实验学习线程和内存在NUMA节点/CPU的绑定编程接口。在NUMA
7、将局部统计值记录在私有变量上,最后再统计总数,样例代码如下:private_count[MaxThreads];mutexm;voidcount3s_thread(intid){/*computeportionofarrayforthisthreadtoworkon*/intlength_per_thread=length/t;intstart=id*length_per_thread;for(i=start;i8、{private_count[id]++;}}mutex_lock(m);count+=private_count[id];mutex_unlock(m);}2)比较1)3)4)执行时间,分析结果,参考多核处理器间cache竞争引发的ping-pong效应,尝试消除该效应并检验是否获得性能提升。记录1、2、4、8、16个线程数目下的各自执行时间并与1)的时间相比较(绘制成柱状图)。附:选做实验学习线程和内存在NUMA节点/CPU的绑定编程接口。在NUMA
8、{private_count[id]++;}}mutex_lock(m);count+=private_count[id];mutex_unlock(m);}2)比较1)3)4)执行时间,分析结果,参考多核处理器间cache竞争引发的ping-pong效应,尝试消除该效应并检验是否获得性能提升。记录1、2、4、8、16个线程数目下的各自执行时间并与1)的时间相比较(绘制成柱状图)。附:选做实验学习线程和内存在NUMA节点/CPU的绑定编程接口。在NUMA
此文档下载收益归作者所有