Вопрос относительно лучшего выбора для определения схемы в спарк и как удалить / удалить столбец из rdd спарк? - PullRequest
0 голосов
/ 30 января 2020

У меня есть два набора данных NY C данные такси и данные о погоде. Погодные данные из огромного количества столбцов, около 100, из которых мне нужно всего 5-10. И я хочу, чтобы они печатались вместо строк, поэтому нужна схема. Я знаю два способа для этого

  1. Rdd-> Rows-> дать схему, а затем преобразовать в DF
  2. Dataframe InferSchema (документация говорит, что он проходит дважды)

Является ли inferSchema хорошим выбором для 100 столбцов, и вам не нужно писать StructType или CaseClass для 100 столбцов? И данные такси с более чем миллиардом записей, которые также имеют около 60 столбцов, но мне нужно только около 10. Что будет подходящим выбором для этого набора данных? Написать схему для всех 60 столбцов?

Второй вопрос: как я уже говорил, мне не нужны все столбцы, поэтому я отбрасываю столбцы. Из документации и Inte rnet я узнал, как это сделать, используя DF только с функцией выбора. Но я на всякий случай должен написать схему, которая, насколько мне известно, возможна только с использованием RDD. Как удалить / удалить столбцы в RDD?

В идеале, используя любой идентификатор RDD / DF, например, сначала удалить столбцы, а затем указать схему. Это возможно? Я знаю, что это много вопросов, но я новичок ie с искрой, все это всплыло в моей голове, и я хочу сделать это правильно.

Спасибо

1 Ответ

0 голосов
/ 30 января 2020

Вам не нужен СДР, чтобы достичь этого, это действительно просто. Просто загрузите ваши данные в DF, затем выберите и приведите нужные столбцы.

...