#include #include #include #include #include #include #include "helpers.h" #include "../../src/common/io.h" #include "../../src/common/random.h" namespace xgboost { void TestLearnerSerialization(Args args, FeatureMap const& fmap, std::shared_ptr p_dmat) { for (auto& batch : p_dmat->GetBatches()) { batch.data.HostVector(); batch.offset.HostVector(); } int32_t constexpr kIters = 2; dmlc::TemporaryDirectory tempdir; std::string const fname = tempdir.path + "/model"; std::vector dumped_0; std::string model_at_kiter; { std::unique_ptr fo(dmlc::Stream::Create(fname.c_str(), "w")); std::unique_ptr learner {Learner::Create({p_dmat})}; learner->SetParams(args); for (int32_t iter = 0; iter < kIters; ++iter) { learner->UpdateOneIter(iter, p_dmat.get()); } dumped_0 = learner->DumpModel(fmap, true, "json"); learner->Save(fo.get()); common::MemoryBufferStream mem_out(&model_at_kiter); learner->Save(&mem_out); } std::vector dumped_1; { std::unique_ptr fi(dmlc::Stream::Create(fname.c_str(), "r")); std::unique_ptr learner {Learner::Create({p_dmat})}; learner->Load(fi.get()); learner->Configure(); dumped_1 = learner->DumpModel(fmap, true, "json"); } ASSERT_EQ(dumped_0, dumped_1); std::string model_at_2kiter; // Test training continuation with data from host { std::string continued_model; { // Continue the previous training with another kIters std::unique_ptr fi( dmlc::Stream::Create(fname.c_str(), "r")); std::unique_ptr learner{Learner::Create({p_dmat})}; learner->Load(fi.get()); learner->Configure(); // verify the loaded model doesn't change. std::string serialised_model_tmp; common::MemoryBufferStream mem_out(&serialised_model_tmp); learner->Save(&mem_out); ASSERT_EQ(model_at_kiter, serialised_model_tmp); for (auto &batch : p_dmat->GetBatches()) { batch.data.HostVector(); batch.offset.HostVector(); } for (int32_t iter = kIters; iter < 2 * kIters; ++iter) { learner->UpdateOneIter(iter, p_dmat.get()); } common::MemoryBufferStream fo(&continued_model); learner->Save(&fo); } { // Train 2 * kIters in one go std::unique_ptr learner{Learner::Create({p_dmat})}; learner->SetParams(args); for (int32_t iter = 0; iter < 2 * kIters; ++iter) { learner->UpdateOneIter(iter, p_dmat.get()); // Verify model is same at the same iteration during two training // sessions. if (iter == kIters - 1) { std::string reproduced_model; common::MemoryBufferStream fo(&reproduced_model); learner->Save(&fo); ASSERT_EQ(model_at_kiter, reproduced_model); } } common::MemoryBufferStream fo(&model_at_2kiter); learner->Save(&fo); } Json m_0 = Json::Load(StringView{continued_model.c_str(), continued_model.size()}); Json m_1 = Json::Load(StringView{model_at_2kiter.c_str(), model_at_2kiter.size()}); ASSERT_EQ(m_0, m_1); } // Test training continuation with data from device. { // Continue the previous training but on data from device. std::unique_ptr fi(dmlc::Stream::Create(fname.c_str(), "r")); std::unique_ptr learner{Learner::Create({p_dmat})}; learner->Load(fi.get()); learner->Configure(); // verify the loaded model doesn't change. std::string serialised_model_tmp; common::MemoryBufferStream mem_out(&serialised_model_tmp); learner->Save(&mem_out); ASSERT_EQ(model_at_kiter, serialised_model_tmp); learner->SetParam("gpu_id", "0"); // Pull data to device for (auto &batch : p_dmat->GetBatches()) { batch.data.SetDevice(0); batch.data.DeviceSpan(); batch.offset.SetDevice(0); batch.offset.DeviceSpan(); } for (int32_t iter = kIters; iter < 2 * kIters; ++iter) { learner->UpdateOneIter(iter, p_dmat.get()); } serialised_model_tmp = std::string{}; common::MemoryBufferStream fo(&serialised_model_tmp); learner->Save(&fo); Json m_0 = Json::Load(StringView{model_at_2kiter.c_str(), model_at_2kiter.size()}); Json m_1 = Json::Load(StringView{serialised_model_tmp.c_str(), serialised_model_tmp.size()}); // GPU ID is changed as data is coming from device. ASSERT_EQ(get