GPU performance logging/improvements (#3945)

- Improved GPU performance logging - Only use one execute shards function - Revert performance regression on multi-GPU - Use threads to launch NCCL AllReduce
2018-11-29 14:36:51 +13:00
parent c5f92df475
commit a9d684db18
8 changed files with 127 additions and 102 deletions
--- a/src/common/hist_util.cu
+++ b/src/common/hist_util.cu
@@ -358,7 +358,7 @@ struct GPUSketcher {
      });

    // compute sketches for each shard
-    dh::ExecuteShards(&shards_, [&](std::unique_ptr<DeviceShard>& shard) {
+    dh::ExecuteIndexShards(&shards_, [&](int idx, std::unique_ptr<DeviceShard>& shard) {
        shard->Init(batch, info);
        shard->Sketch(batch, info);
      });