/** * Copyright 2019-2023 by XGBoost Contributors * \file device_adapter.cuh */ #ifndef XGBOOST_DATA_DEVICE_ADAPTER_H_ #define XGBOOST_DATA_DEVICE_ADAPTER_H_ #include // for make_counting_iterator #include // for none_of #include // for size_t #include #include #include #include "../common/device_helpers.cuh" #include "../common/math.h" #include "adapter.h" #include "array_interface.h" namespace xgboost { namespace data { class CudfAdapterBatch : public detail::NoMetaInfo { friend class CudfAdapter; public: CudfAdapterBatch() = default; CudfAdapterBatch(common::Span> columns, size_t num_rows) : columns_(columns), num_rows_(num_rows) {} size_t Size() const { return num_rows_ * columns_.size(); } __device__ __forceinline__ COOTuple GetElement(size_t idx) const { size_t column_idx = idx % columns_.size(); size_t row_idx = idx / columns_.size(); auto const& column = columns_[column_idx]; float value = column.valid.Data() == nullptr || column.valid.Check(row_idx) ? column(row_idx) : std::numeric_limits::quiet_NaN(); return {row_idx, column_idx, value}; } __device__ float GetElement(bst_row_t ridx, bst_feature_t fidx) const { auto const& column = columns_[fidx]; float value = column.valid.Data() == nullptr || column.valid.Check(ridx) ? column(ridx) : std::numeric_limits::quiet_NaN(); return value; } XGBOOST_DEVICE bst_row_t NumRows() const { return num_rows_; } XGBOOST_DEVICE bst_row_t NumCols() const { return columns_.size(); } private: common::Span> columns_; size_t num_rows_{0}; }; /*! * Please be careful that, in official specification, the only three required * fields are `shape', `version' and `typestr'. Any other is optional, * including `data'. But here we have one additional requirements for input * data: * * - `data' field is required, passing in an empty dataset is not accepted, as * most (if not all) of our algorithms don't have test for empty dataset. An * error is better than a crash. * * What if invalid value from dataframe is 0 but I specify missing=NaN in * XGBoost? Since validity mask is ignored, all 0s are preserved in XGBoost. * * FIXME(trivialfis): Put above into document after we have a consistent way for * processing input data. * * Sample input: * [ * { * "shape": [ * 10 * ], * "strides": [ * 4 * ], * "data": [ * 30074864128, * false * ], * "typestr": " { public: explicit CudfAdapter(StringView cuda_interfaces_str) { Json interfaces = Json::Load(cuda_interfaces_str); std::vector const& json_columns = get(interfaces); size_t n_columns = json_columns.size(); CHECK_GT(n_columns, 0) << "Number of columns must not equal to 0."; auto const& typestr = get(json_columns[0]["typestr"]); CHECK_EQ(typestr.size(), 3) << ArrayInterfaceErrors::TypestrFormat(); std::vector> columns; auto first_column = ArrayInterface<1>(get