筑波大学大学院インテル特别讲义

筑波大学大学院インテル特别讲义

ID:13466528

大小:50.50 KB

页数:4页

时间:2018-07-22

筑波大学大学院インテル特别讲义_第1页
筑波大学大学院インテル特别讲义_第2页
筑波大学大学院インテル特别讲义_第3页
筑波大学大学院インテル特别讲义_第4页
资源描述:

《筑波大学大学院インテル特别讲义》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、筑波大学大学院インテル特別講義レポート筑波大学システム情報工学研究科コンピュータサイエンス専攻XXXX学籍番号 XXXX課題1 Cプログラム(lap.c)の最適化作業lap.cで示すプログラムをIntelXeonE5-2699V3を2個用いたサーバ上で実行し,最適化したい。この時に行う作業についてレポートにまとめてください。1、事前調査1)実行環境このプログラムを実行する環境はIntelXeonE5-2699V3を2個用いたPCである。E5-2699v3はHaswellアーキテクチャを基づいた18

2、コアx86-64CPUである。ベクトル命令セットはSSEからAVX2までサポートする。2)最適化したいプログラムこのプログラムの主な機能は、浮動小数点数の二次元配列を扱うことである。だが、非常に基本的な方法しか使っていない。配列に関するすべての計算は、二重ループで配列の値を逐一計算する。なお初期化時のsin、cos計算も多くの時間を使う。プログラム自身は実行時に実行回数を指定可能で、実行時間も表示できる。2、最適化プラン環境:IntelXeonE5-2699V3x2、32GB以上のRAM、OSはC

3、entOSなどサーバ向けのLinux使用するツール:テキストエディター、IntelC++ComposerXEとIntelVTuneAnalyzerXEの最新版、システムのCコンパイラ、OpenMPなどの開発ツール第1日:まずプログラムのループ文の前に、自動ベクトル化禁止の文を入れる。システムコンパイラ、そしてiccの-O0と-O2でコンパイルして、プログラムの基本機能、計算結果とIntelコンパイラの動作を確認する。第2日:Intelコンパイラの-vec-report機能を使用し、プログラムのベク

4、トル化できない箇所とその原因を探す。そして、プログラムの論理構造と実行結果が変わらない前提で、ベクトル化できない箇所を修正する。第3日:前日に続く、ベクトル化可能だが自動的にベクトル化されない(外層ループなど)部分を#pragmasimdなどでベクトル化を強制してみる。そして、キャッシュミスなどで性能を妨げる問題(アライメントとか)をチェックして、できる限り解決する。ループの変換ができる場合、それも行う。第4日:並列化の段階に入る。まず-par引数で自動並列化を有効化し、-par-reportで並

5、列化できない箇所とその原因を探す。そして各ループ文の前に、並列化強制の文を入れてみる。第5日~第6日:前に見つかったベクトル化と並列化できない箇所とその原因をまとめて、プログラムを書き直さなく前提で総合的な最適化案を提出し、実証する。第7日~第10日:プログラムをより効率良い、並列化向けのフレームワークやライブラリ(OpenCL、OpenMP)などに書き直して、前の最適化案と比較する。3、最適化の結果予期と確認方法実行環境はシングルコアの性能、そしてコア数両方も非常に良いシステムである。そのため、

6、ベクトル化と並列化両方も性能に影響を当たる。ところが、今回最適化したいプログラムの最適化結果を予期するのは、プログラム自身の構造から考えずにはおかない。このプログラムは大体3部分がある。計算で使用する二次元配列のサイズは、マクロで固定されたので、時間複雑度を考えるときは無視できる。初期化部分と検証部分は、1回しか実行されていないので、反復回数に対する時間複雑度はO(1)である。主要の計算を行う関数lap_mainは、入力された反復回数回のループを行う、そしてループ内はループ変数を使っていないので、

7、時間複雑度はO(n)である。反復回数が多くなると、O(1)部分の計算時間は無視しても良いので、lap_mainだけを考えたい。lap_main内には、先ほど言及したループの中には三つの子ルーチンがある。最初は、ループ変数が10の倍数かを判断するルーチンである。このルーチンの計算時間(3回の整数比較)はほかと比べられないので、無視しよう。そして、一つの二重ループは(XSIZE-2)*(YSIZE-2)回の浮動小数点数代入で、二次元配列の一部の内容をコピーする;もう一つは(XSIZE-2)*(YSIZ

8、E-2)回のループで、浮動小数点数を3回足し算、1回割り算、1回代入する。ループ毎回の計算は独立であって、前回ループの計算結果に依存しない。従って、配列内容をコピーするループは完全に並列化できる。しかし、もう一つのループは、割り算は前の3回の足し算の結果に依存するので、並列化できない。定数4.0との割り算は、浮動小数点数割り算はどの命令セットでも遅いので、定数0.25との掛け算に自動的に書き換える場合がほとんどだ。Intel®64andIA-32ArchitecturesOptim

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。