[R] Add a compatibility layer to load Booster object from an old RDS file (#5940)

* [R] Add a compatibility layer to load Booster from an old RDS * Modify QuantileHistMaker::LoadConfig() to be backward compatible with 1.1.x * Add a big warning about compatibility in QuantileHistMaker::LoadConfig() * Add testing suite * Discourage use of saveRDS() in CRAN doc
2020-07-26 00:06:49 -07:00
parent 40361043ae
commit ace7fd328b
10 changed files with 251 additions and 7 deletions
--- a/R-package/tests/generate_models.R
+++ b/R-package/tests/generate_models.R
@@ -0,0 +1,94 @@
+# Script to generate reference models. The reference models are used to test backward compatibility
+# of saved model files from XGBoost version 0.90 and 1.0.x.
+library(xgboost)
+library(Matrix)
+source('./generate_models_params.R')
+
+set.seed(0)
+metadata <- model_generator_metadata()
+X <- Matrix(data = rnorm(metadata$kRows * metadata$kCols), nrow = metadata$kRows,
+            ncol = metadata$kCols, sparse = TRUE)
+w <- runif(metadata$kRows)
+
+version <- packageVersion('xgboost')
+target_dir <- 'models'
+
+save_booster <- function (booster, model_name) {
+  booster_bin <- function (model_name) {
+    return (file.path(target_dir, paste('xgboost-', version, '.', model_name, '.bin', sep = '')))
+  }
+  booster_json <- function (model_name) {
+    return (file.path(target_dir, paste('xgboost-', version, '.', model_name, '.json', sep = '')))
+  }
+  booster_rds <- function (model_name) {
+    return (file.path(target_dir, paste('xgboost-', version, '.', model_name, '.rds', sep = '')))
+  }
+  xgb.save(booster, booster_bin(model_name))
+  saveRDS(booster, booster_rds(model_name))
+  if (version >= '1.0.0') {
+    xgb.save(booster, booster_json(model_name))
+  }
+}
+
+generate_regression_model <- function () {
+  print('Regression')
+  y <- rnorm(metadata$kRows)
+
+  data <- xgb.DMatrix(X, label = y)
+  params <- list(tree_method = 'hist', num_parallel_tree = metadata$kForests,
+                 max_depth = metadata$kMaxDepth)
+  booster <- xgb.train(params, data, nrounds = metadata$kRounds)
+  save_booster(booster, 'reg')
+}
+
+generate_logistic_model <- function () {
+  print('Binary classification with logistic loss')
+  y <- sample(0:1, size = metadata$kRows, replace = TRUE)
+  stopifnot(max(y) == 1, min(y) == 0)
+
+  data <- xgb.DMatrix(X, label = y, weight = w)
+  params <- list(tree_method = 'hist', num_parallel_tree = metadata$kForests,
+                 max_depth = metadata$kMaxDepth, objective = 'binary:logistic')
+  booster <- xgb.train(params, data, nrounds = metadata$kRounds)
+  save_booster(booster, 'logit')
+}
+
+generate_classification_model <- function () {
+  print('Multi-class classification')
+  y <- sample(0:(metadata$kClasses - 1), size = metadata$kRows, replace = TRUE)
+  stopifnot(max(y) == metadata$kClasses - 1, min(y) == 0)
+
+  data <- xgb.DMatrix(X, label = y, weight = w)
+  params <- list(num_class = metadata$kClasses, tree_method = 'hist',
+                 num_parallel_tree = metadata$kForests, max_depth = metadata$kMaxDepth,
+                 objective = 'multi:softmax')
+  booster <- xgb.train(params, data, nrounds = metadata$kRounds)
+  save_booster(booster, 'cls')
+}
+
+generate_ranking_model <- function () {
+  print('Learning to rank')
+  y <- sample(0:4, size = metadata$kRows, replace = TRUE)
+  stopifnot(max(y) == 4, min(y) == 0)
+  kGroups <- 20
+  w <- runif(kGroups)
+  g <- rep(50, times = kGroups)
+
+  data <- xgb.DMatrix(X, label = y, group = g)
+  # setinfo(data, 'weight', w)
+  # ^^^ does not work in version <= 1.1.0; see https://github.com/dmlc/xgboost/issues/5942
+  # So call low-level function XGDMatrixSetInfo_R directly. Since this function is not an exported
+  # symbol, use the triple-colon operator.
+  .Call(xgboost:::XGDMatrixSetInfo_R, data, 'weight', as.numeric(w))
+  params <- list(objective = 'rank:ndcg', num_parallel_tree = metadata$kForests,
+                 tree_method = 'hist', max_depth = metadata$kMaxDepth)
+  booster <- xgb.train(params, data, nrounds = metadata$kRounds)
+  save_booster(booster, 'ltr')
+}
+
+dir.create(target_dir)
+
+invisible(generate_regression_model())
+invisible(generate_logistic_model())
+invisible(generate_classification_model())
+invisible(generate_ranking_model())
--- a/R-package/tests/generate_models_params.R
+++ b/R-package/tests/generate_models_params.R
@@ -0,0 +1,10 @@
+model_generator_metadata <- function() {
+  return (list(
+    kRounds = 2,
+    kRows = 1000,
+    kCols = 4,
+    kForests = 2,
+    kMaxDepth = 2,
+    kClasses = 3
+  ))
+}
--- a/R-package/tests/testthat.R
+++ b/R-package/tests/testthat.R
@@ -1,4 +1,4 @@
 library(testthat)
 library(xgboost)

-test_check("xgboost")
+test_check("xgboost", reporter = ProgressReporter)
--- a/R-package/tests/testthat/test_lint.R
+++ b/R-package/tests/testthat/test_lint.R
@@ -2,7 +2,7 @@ context("Code is of high quality and lint free")
 test_that("Code Lint", {
  skip_on_cran()
  my_linters <- list(
-    absolute_paths_linter = lintr::absolute_paths_linter,
+    absolute_path_linter = lintr::absolute_path_linter,
    assignment_linter = lintr::assignment_linter,
    closed_curly_linter = lintr::closed_curly_linter,
    commas_linter = lintr::commas_linter,
--- a/R-package/tests/testthat/test_model_compatibility.R
+++ b/R-package/tests/testthat/test_model_compatibility.R
@@ -0,0 +1,77 @@
+require(xgboost)
+require(jsonlite)
+source('../generate_models_params.R')
+
+context("Models from previous versions of XGBoost can be loaded")
+
+metadata <- model_generator_metadata()
+
+run_model_param_check <- function (config) {
+  expect_equal(config$learner$learner_model_param$num_feature, '4')
+  expect_equal(config$learner$learner_train_param$booster, 'gbtree')
+}
+
+get_num_tree <- function (booster) {
+  dump <- xgb.dump(booster)
+  m <- regexec('booster\\[[0-9]+\\]', dump, perl = TRUE)
+  m <- regmatches(dump, m)
+  num_tree <- Reduce('+', lapply(m, length))
+  return (num_tree)
+}
+
+run_booster_check <- function (booster, name) {
+  # If given a handle, we need to call xgb.Booster.complete() prior to using xgb.config().
+  if (inherits(booster, "xgb.Booster") && xgboost:::is.null.handle(booster$handle)) {
+    booster <- xgb.Booster.complete(booster)
+  }
+  config <- jsonlite::fromJSON(xgb.config(booster))
+  run_model_param_check(config)
+  if (name == 'cls') {
+    expect_equal(get_num_tree(booster), metadata$kForests * metadata$kRounds * metadata$kClasses)
+    expect_equal(as.numeric(config$learner$learner_model_param$base_score), 0.5)
+    expect_equal(config$learner$learner_train_param$objective, 'multi:softmax')
+    expect_equal(as.numeric(config$learner$learner_model_param$num_class), metadata$kClasses)
+  } else if (name == 'logit') {
+    expect_equal(get_num_tree(booster), metadata$kForests * metadata$kRounds)
+    expect_equal(as.numeric(config$learner$learner_model_param$num_class), 0)
+    expect_equal(config$learner$learner_train_param$objective, 'binary:logistic')
+  } else if (name == 'ltr') {
+    expect_equal(get_num_tree(booster), metadata$kForests * metadata$kRounds)
+    expect_equal(config$learner$learner_train_param$objective, 'rank:ndcg')
+  } else {
+    expect_equal(name, 'reg')
+    expect_equal(get_num_tree(booster), metadata$kForests * metadata$kRounds)
+    expect_equal(as.numeric(config$learner$learner_model_param$base_score), 0.5)
+    expect_equal(config$learner$learner_train_param$objective, 'reg:squarederror')
+  }
+}
+
+test_that("Models from previous versions of XGBoost can be loaded", {
+  bucket <- 'xgboost-ci-jenkins-artifacts'
+  region <- 'us-west-2'
+  file_name <- 'xgboost_r_model_compatibility_test.zip'
+  zipfile <- file.path(getwd(), file_name)
+  model_dir <- file.path(getwd(), 'models')
+  download.file(paste('https://', bucket, '.s3-', region, '.amazonaws.com/', file_name, sep = ''),
+                destfile = zipfile, mode = 'wb')
+  unzip(zipfile, overwrite = TRUE)
+
+  pred_data <- xgb.DMatrix(matrix(c(0, 0, 0, 0), nrow = 1, ncol = 4))
+
+  lapply(list.files(model_dir), function (x) {
+    model_file <- file.path(model_dir, x)
+    m <- regexec("xgboost-([0-9\\.]+)\\.([a-z]+)\\.[a-z]+", model_file, perl = TRUE)
+    m <- regmatches(model_file, m)[[1]]
+    model_xgb_ver <- m[2]
+    name <- m[3]
+
+    if (endsWith(model_file, '.rds')) {
+      booster <- readRDS(model_file)
+    } else {
+      booster <- xgb.load(model_file)
+    }
+    predict(booster, newdata = pred_data)
+    run_booster_check(booster, name)
+  })
+  expect_true(TRUE)
+})