Масштабирование данных из фрейма данных, полученных с помощью pyspark - PullRequest
1 голос
/ 07 марта 2019

Я пытаюсь масштабировать некоторые данные из CSV-файла. Я делаю это с pyspark, чтобы получить dataframe и sklearn для масштабной части. Вот код:

from sklearn import preprocessing
import numpy as np
import pyspark

from pysparl.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.option('header','true').csv('flights,csv')
X_scaled = preprocessing.scale(df)

Если я создаю кадр данных с пандами, у части масштаба проблем нет, но с искрой я получаю эту ошибку:

ValueError: setting an array element with a sequence.

Итак, я предполагаю, что типы элементов различаются в pandas и pyspark, но как я могу работать с pyspark, чтобы выполнить масштабирование?

1 Ответ

1 голос
/ 07 марта 2019

sklearn работает с пандами данных. Таким образом, вы должны преобразовать фрейм данных spark в фрейм данных pandas.

X_scaled = preprocessing.scale(df.toPandas())

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...