Подмножества данных сохраняют информацию из родительского кадра данных - PullRequest
0 голосов
/ 23 ноября 2018

Я предполагаю, что это используется как функция в data.frame (), но это представляет много проблем для оценки учебных и тестовых наборов для некоторых пакетов.Например, если вы используете h2o для машинного обучения, импортируете набор данных и размещаете подкадр данных на основе некоторой случайной выборки данных, построитель модели h2o будет иметь доступ к полному исходному фрейму данных со всеми уровнями факторов и всеми данными.Таким образом, если вы попробуете что-то вроде h2o.predict (model, newdata = dataset [test,]), ваш прогноз просто скопирует ответ в наборе данных поверх (проверено на модели глубокого обучения).Вы можете увидеть сохранение фактора ниже:

y = as.factor(c("1","0","0","1"))
X = c(5,4,3,4)
data = data.frame(y,X)

train = data[c(1,4),]
test = data[c(2,3),]

trainingData = data[train,]
trainingData
levels(trainingData[,1])
[1] "0" "1"

Теперь я смог решить вопрос сохранения информации о факторе, но я не уверен, как удалить информацию из родительского фрейма данных в новом подмножестве.У кого-нибудь есть идеи?

РЕДАКТИРОВАТЬ: Для тех, у кого была проблема с фактором, это так же просто, как применение функции droplevels ().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...