doublex=(double)i/dt;
pi+=delta/(1.0+x*x);
}
returnpi*4;
}
doubleget_pi_sse(size_tdt){
doublepi=0.0;
doubledelta=1.0/dt;
__m128dxmm0,xmm1,xmm2,xmm3,xmm4;
xmm0=_mm_set1_pd(1.0);
xmm1=_mm_set1_pd(delta);
xmm2=_mm_set_pd(delta,0.0);
xmm4=_mm_setzero_pd();
for(longinti=0;i<=dt-2;i+=2){
xmm3=_mm_set1_pd((double)i*delta);
xmm3=_mm_add_pd(xmm3,xmm2);
xmm3=_mm_mul_pd(xmm3,xmm3);
xmm3=_mm_add_pd(xmm0,xmm3);
xmm3=_mm_div_pd(xmm1,xmm3);
xmm4=_mm_add_pd(xmm4,xmm3);
}
doubletmp[2]__attribute__((aligned(16)));
_mm_store_pd(tmp,xmm4);
pi+=tmp[0]+tmp[1]/*+tmp[2]+tmp[3]*/;
returnpi*4.0;
}
intmain()
{
intdx;
doublepai;
doublestart,finish;
dx=N;
start=clock();
pai=get_pi_sse(dx);
finish=clock();
printf("%.8lf\n",pai);
printf("%.8lfS\n",(double)((finish-start)/CLOCKS_PER_SEC));
return0;
}
时间运行如下:
第一次:
time=0.00837500S
第二次:
time=0.00741100S
第三次:
time=0.00772000S
三次平均为:
0.00783S
以下是SSE单精度的代码:
#include
#include
#include
#defineN10000000
floatget_pi_sse(size_tdt){
floatpi=0.0;
floatdelta=1.0/dt;
__m128xmm0,xmm1,xmm2,xmm3,xmm4;
xmm0=_mm_set1_ps(1.0);
xmm1=_mm_set1_ps(delta);
xmm2=_mm_set_ps(delta*3,delta*2,delta,0.0);
xmm4=_mm_setzero_ps();
for(longinti=0;i<=dt-4;i+=4){
xmm3=_mm_set1_ps((float)i*delta);
xmm3=_mm_add_ps(xmm3,xmm2);
xmm3=_mm_mul_ps(xmm3,xmm3);
xmm3=_mm_add_ps(xmm0,xmm3);
xmm3=_mm_div_ps(xmm1,xmm3);
xmm4=_mm_add_ps(xmm4,xmm3);
}
floattmp[4]__attribute__((aligned(16)));
_mm_store_ps(tmp,xmm4);
pi+=tmp[0]+tmp[1]+tmp[2]+tmp[3];
returnpi*4.0;
}
intmain()
{
intdx;
floatpai;
doublestart,finish;
dx=N;
start=clock();
pai=get_pi_sse(dx);
finish=clock();
printf("%.8f\n",pai);
printf("%.8lfS\n",(double)((finish-start)/CLOCKS_PER_SEC));
return0;
}
时间运行如下:
第一次:
time=0.00406100S
第二次:
time=0.00426400S
第三次:
time=0.00437600S
三次平均为:
0.00423S
1.1.3AVX向量优化版本设计
任务:
此部分需要给出单精度和双精度两个优化版本
注意:
(1)测试均在划分度为10的7次方下完成。
(2)在编译时需要加-mavx编译选项,才能启用AVX指令集,否则默认SSE指令集
(3)理论上,向量版本对比SSE版本和串行版本有明显加速,单精度版本速度明显优于双精度,速度接近双精度的两倍。
以下是AVX双精度的代码:
#include
#include
#include
#defineN10000000
/*doubleget_pi(intdt){
doublepi=0.0;
doubledelta=1.0/dt;
inti;
for(i=0;i
doublex=(double)i/dt;
pi+=delta/(1.0+x*x);
}
returnpi*4;
}*/
doubleget_pi_avx(size_tdt){
doublepi=0.0;
doubledelta=1.0/dt;
__m256dymm0,ymm1,ymm2,ymm3,ymm4;
ymm0=_mm256_set1_pd(1.0);
ymm1=_mm256_set1_pd(delta);
ymm2=_mm256_set_pd(delta*3,delta*2,delta,0.0);
ymm4=_mm256_setzero_pd();
for(longinti=0;i<=dt-4;i+=4){
ymm3=_mm256_set1_pd((double)i*delta);
ymm3=_mm256_add_pd(ymm3,ymm2);
ymm3=_mm256_mul_pd(ymm3,ymm3);
ymm3=_mm256_add_pd(ymm0,ymm3);
ymm3=_mm256_div_pd(ymm1,ymm3);
ymm4=_mm256_add_pd(ymm4,ymm3);
}
doubletmp[4]__attribute__((aligned(32)));
_mm256_store_pd(tmp,ymm4);
pi+=tmp[0]+tmp[1]+tmp[2]+tmp[3];
returnpi*4.0;
}
intmain()
{
intdx;
doublepai;
doublestart,finish;
dx=N;
start=clock();
pai=get_pi_avx(dx);
finish=clock();
printf("%.8lf\n",pai);
printf("%.8lfS\n",(double)((finish-start)/CLOCKS_PER_SEC));
return0;
}
时间运行如下:
第一次:
time=0.00720200S
第二次:
time=0.00659800S
第三次:
time=0.00670600S
三次平均为:
0.00683S
以下是AVX单精度的代码:
时间运行如下:
第一次:
time=0.00234200S
第二次:
time=0.00234200S
第三次:
time=0.00230000S
三次平均为:
0.002328S
由以上实验统计得出结论:
AVX-float=0.002328S
AVX-double=0.00683S
SSE-float=0.00423S
SSE-double=0.00783S
基本符合规律:
(以下为速度比较)
AVX-float>AVX-double≈SSE-float>SSE-double>serial
1.2积分计算圆周率的OpenMP优化
1.2.1OpenMP并行化
任务:
在串行代码的基础上进行OpenMP并行优化
注意:
测试在划分度为10的9次方下完成。
参考代码:
#include
#include
#defineN1000000000
doubleget_pi(intdt){
doublepi=0.0;
doubledelta=1.0/dt;
inti;
#pragmaompparallelforreduction(+:
pi)
for(i=0;i
doublex=(double)i/dt;
pi+=delta/(1.0+x*x);
}
returnpi*4;
}
intmain()
{
intdx;
doublepai;
//doublestart,finish;
dx=N;
doublestart=omp_get_wtime();
pai=get_pi(dx);
doublefinish=omp_get_wtime();
printf("%.8lf\n",pai);
printf("%lf\n",finish-start);
return0;
}
运行结果如下图:
串行结果如下:
提速十分明显。
1.2.2OpenMP并行化+SIMD向量化
任务:
实现OpenMP线程级和SIMD两级并行
自动向量化代码如下:
#include
#include
#defineN1000000000
doubleget_pi(intdt){
doublepi=0.0;
doubledelta=1.0/dt;
inti;
#pragmaompparallelforsimdreduction(+:
pi)
for(i=0;i
doublex=(double)i/dt;
pi+=delta/(1.0+x*x);
}
returnpi*4;
}
intmain()
{
intdx;
doublepai;
dx=N;
doublestart=omp_get_wtime();
pai=get_pi(dx);
doublefinish=omp_get_wtime();
printf("%.8lf\n",pai);
printf("%lf\n",finish-start);
return0;
}
注意:
自动向量化语句为#pragmaompparallelforsimdfor...
使用编译语句为:
gcc-fopenmp-mavx-O3...
运行结果如下图:
从结果看出:
有很明显的提速。
手动向量化代码如下:
#include
#include
#include
#defineN1000000000
doubleget_pi(intdt){
doublepi=0.0;
doubledelta=1.0/dt;
doubletmp[4]__attribute__((aligned(32)));
__m256dymm0,ymm1,ymm2,ymm3,ymm4;
ymm0=_mm256_set1_pd(1.0);
ymm1=_mm256_set1_pd(delta);
ymm2=_mm256_set_pd(delta*3,delta*2,delta,0.0);
ymm4=_mm256_setzero_pd();
inti;
#pragmaompparallelshared(ymm0,ymm1,ymm2)private(i,ymm3,tmp)
{
#pragmaompforreduction(+:
pi)
for(longinti=0;i<=dt-4;i+=4){
ymm3=_mm256_set1_pd((double)i*delta);
ymm3=_mm256_add_pd(ymm3,ymm2);
ymm3=_mm256_mul_pd(ymm3,ymm3);
ymm3=_mm256_add_pd(ymm0,ymm3);
ymm3=_mm256_div_pd(ymm1,ymm3);
//ymm4=_mm256_add_pd(ymm4,ymm3);
_mm256_store_pd(tmp,ymm3);
pi+=tmp[0]+tmp[1]+tmp[2]+tmp[3];
}
}
//doubletmp[4]__attribute__((aligned(32)));
//_mm256_store_pd(tmp,ymm4);
//pi+=tmp[0]+tmp[1]+tmp[2]+tmp[3];
returnpi*4.0;
}
intmain()
{
intdx;
doublepai;
dx=N;
doublestart=omp_get_wtime();
pai=get_pi(dx);
doublefinish=omp_get_wtime();
printf("%.8lf\n",pai);
printf("%lf\n",finish-start);
return0;
}
通过对向量化代码的分析,各个向量间的运算是没有任何依赖关系的,可以直接分线程并行运算,但需要注意最后要把各个线程的运算结果累加。
而线程的定义openmp的函数reduction是没有办法直接使用(+:
)进行累加,需要手动完成。
引入数组tmp用于将ymm3向量分割存放,并累加到pi变量,使用openmp函数reduction(+:
pi)对pi变量进行累加(详见代码)
解决的问题:
并行块中如何私有化一个数组:
直接将数组名称写入private()函数中。
曾经尝试将数组各项都放入private()函数中,错误如下:
多次尝试后,正确做法如下:
以tmp[4]数组举例:
私有化描述如下:
private(tmp);
运行结果如下图:
手动化结果明显优于自动化结果。
手动化的修改更符合编写的程序本身。
二、矩阵-矩阵相乘的openmp优化
2.1编写一个“矩阵-向量”或“矩阵-矩阵”相乘的OpenMP并行程序,或其他矩阵运算相关程序。
矩阵的验证均在1024*1024规模下完成
矩阵-矩阵相乘的openmp代码和串行代码如下:
#include
#include
#include
#defineN1024
#definen4
inta[N][N];
intb[N][N];
intc[N][N];
intd[N][N];
intmain()
{
inti,j,k;
for(i=0;ifor(j=0;ja[i][j]=1;
b[i][j]=1;
c[i][j]=0;
d[i][j]=0;
}
}
doublestart1=clock();
for(i=0;ifor(j=0;jfor(k=0;kd[i][j]+=a[i][k]*b[k][j];
}
}
doublefinish1=clock();
omp_set_num_threads(n);
//printf("thread_num:
%d\n",omp_get_thread_num());
doublestart=omp_get_wtime();
#pragmaompparallelshared(a,b,c)private(i,j,k)
{
#pragmaompforschedule(dynamic)
for(i=0;ifor(j=0;jfor(k=0;kc[i][j]+=a[i][k]*b[k][j];
}
}
}
doublefinish=omp_get_wtime();
//打印c
/*for(i=0;ifor(j=0;jprintf("%d",c[i][j]);
}
printf("\n");
}
printf("\n");
//打印d
for(i=0;ifor(j=0;jprintf("%d",c[i][j]);
}
printf("\n");
}*/
printf("PARALLELTIME=%lfs\n",finish-start);
printf("UNPARALLELTIME=%.8lfS\n",(double)(finish1-start1)/CLOCKS_PER_SEC);
return0;
}
运行结果如下图:
由结果可以看出OPENMP优化后的速度有明显的提升。
提升速度接近一倍。