Как правильно создать новый фрейм данных с помощью PySpark? - PullRequest
0 голосов
/ 21 июня 2019

Я пытаюсь создать фрейм данных, используя PySpark, по:

lr_col = predictions_lr.select('prediction_1')
nb_col = predictions_nb.select('prediction_2')
df = spark.createDataFrame([lr_col, nb_col])

, но когда я запускаю приведенный выше код, я получаю эту ошибку:

AssertionError: dataType py4j.java_gateway.JavaMember объект по адресу 0x00000237C7D2B550 должен быть экземпляром класса 'pyspark.sql.types.DataType'

Как я могу преобразовать мои данные в запрошенный тип данных?

1 Ответ

1 голос
/ 06 июля 2019

Вы добавляете uid для каждого прогноза в каждом из двух DataFrame, а затем просто внутренне соединяете два DataFrame в этом id.

predictions_lr.join(predictions_nb, 'id')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...