Чтение набора данных спарк только первых n столбцов - PullRequest
0 голосов
/ 11 октября 2018

У меня есть набор данных с более чем 5000 столбцами, и исключение OutOfMemoryException выдается при попытке прочитать набор данных, даже при ограничении до 10 строк.Есть еще одна запись о причине исключения , и поэтому я хочу прочитать только первые n столбцов, чтобы избежать ошибки.Я не смог найти вызов API, который делает это, и только строки могут быть ограничены head или limit.Есть ли способ сделать ограничение только для первых нескольких столбцов?Спасибо.

1 Ответ

0 голосов
/ 11 октября 2018

Учитывая, что ваш набор данных ds, вы можете извлечь первые n столбцы в массив:

val n = 2
val firstNCols = ds.columns.take(n)

, а затем выбрать только эти столбцы из набора данных:

ds.select(firstNCols.head, firstNCols.tail:_*)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...