Импорт выбранных столбцов из CSV в H2O - PullRequest
0 голосов
/ 30 мая 2018

У меня есть CSV-файл, размер которого превышает 20 ГБ.Я могу прочитать первые несколько строк, используя readlines, а затем выяснить, какие столбцы я хочу импортировать.Можно ли импортировать только эти столбцы, используя h2o.importFile() или другим способом в h2o, чтобы я не загружал ненужные столбцы?

1 Ответ

0 голосов
/ 30 мая 2018

Функция h2o.importFile() не поддерживает загрузку только подмножества столбцов.Вот некоторые обходные пути:

  • Загрузите весь набор данных и используйте аргумент x в любой функции моделирования, чтобы игнорировать определенные столбцы.fit <- h2o.gbm(x = good_cols, y = y, training_frame = train)
  • Загрузите весь набор данных, а затем создайте новый H2OFrame, который содержит только нужные вам столбцы.newdf <- df[, good_cols]
  • Создайте копию данных на диске, содержащую только те столбцы, которые вам нужны.Это легко сделать с помощью инструмента cut (пример здесь ).cut -d, -f2-4,6-10 train.csv > newtrain.csv
...