http://gpu.fixstars.com/index.php/CUDA_Profiler%E3%82%92%E4%BD%BF%E3%81%86
に書いてありますね。森田君、チェックしてください。
------- 特にカーネル実行時のイベントは4つまでしか取れないことに注意
カーネル起動に関する情報は以下のものがあります。
- timestamp : カーネル起動時のタイムスタンプ
- gridsize : 起動したブロックの数
- threadblocksize : 起動したスレッドの数
- dynsmemperblock : 動的に割り当てられたsharedメモリのサイズ
- stasmemperblock : 静的に割り当てられたsharedメモリのサイズ
- regperthread : スレッドごとのレジスタ数
- memtransferdir : cudaMemcpyのコピー方向(0: host->device, 1:device->host)
- memtransfersize : cudaMemcpyのサイズ
- streamid : カーネルを起動したstreamのid
カーネル実行時のイベントは以下のものがあります。これらは同時に4つまでしか設定できません。
- gld_incoherent : コアレスされなかったメモリロードの回数
- gld_coherent : コアレスされたメモリロードの回数
- gld_32b : 32-byte ロードした回数
- gld_64b : 64-byte ロードした回数
- gld_128b : 128-byte ロードした回数
- gld_request : グローバルメモリからロードした回数
- gst_incoherent : コアレスされなかったメモリストアの回数
- gst_coherent : コアレスされたメモリストアの回数
- gst_32b : 32-byte ストアした回数
- gst_64b : 64-byte ストアした回数
- gst_128b : 128-byte ストアした回数
- gst_request : グローバルメモリにストアした回数
- local_load : ローカルメモリからロードした回数
- local_store : ローカルメモリにストアした回数
- branch : 分岐した回数
- divergent_branch : 分岐によってワープを分割した回数
- instructions : 実行した命令数
- warp_serialize : バンクコンフリクトによってシリアライズされた回数
- cta_launched : 起動したスレッドブロックの数
0 件のコメント:
コメントを投稿