2009年11月16日月曜日

CUDA Profiler

CUDA Profiler の使い方に関しては、
http://gpu.fixstars.com/index.php/CUDA_Profiler%E3%82%92%E4%BD%BF%E3%81%86
に書いてありますね。森田君、チェックしてください。

------- 特にカーネル実行時のイベントは4つまでしか取れないことに注意

カーネル起動に関する情報は以下のものがあります。
  • timestamp : カーネル起動時のタイムスタンプ
  • gridsize : 起動したブロックの数
  • threadblocksize : 起動したスレッドの数
  • dynsmemperblock : 動的に割り当てられたsharedメモリのサイズ
  • stasmemperblock : 静的に割り当てられたsharedメモリのサイズ
  • regperthread : スレッドごとのレジスタ数
  • memtransferdir : cudaMemcpyのコピー方向(0: host->device, 1:device->host)
  • memtransfersize : cudaMemcpyのサイズ
  • streamid : カーネルを起動したstreamのid


カーネル実行時のイベントは以下のものがあります。これらは同時に4つまでしか設定できません。

  • gld_incoherent : コアレスされなかったメモリロードの回数
  • gld_coherent : コアレスされたメモリロードの回数
  • gld_32b : 32-byte ロードした回数
  • gld_64b : 64-byte ロードした回数
  • gld_128b : 128-byte ロードした回数
  • gld_request : グローバルメモリからロードした回数
  • gst_incoherent : コアレスされなかったメモリストアの回数
  • gst_coherent : コアレスされたメモリストアの回数
  • gst_32b : 32-byte ストアした回数
  • gst_64b : 64-byte ストアした回数
  • gst_128b : 128-byte ストアした回数
  • gst_request : グローバルメモリにストアした回数
  • local_load : ローカルメモリからロードした回数
  • local_store : ローカルメモリにストアした回数
  • branch : 分岐した回数
  • divergent_branch : 分岐によってワープを分割した回数
  • instructions : 実行した命令数
  • warp_serialize : バンクコンフリクトによってシリアライズされた回数
  • cta_launched : 起動したスレッドブロックの数

0 件のコメント:

コメントを投稿