Question

Я пытаюсь масштабировать некоторые данные из CSV-файла. Я делаю это с pyspark, чтобы получить dataframe и sklearn для масштабной части. Вот код:

from sklearn import preprocessing
import numpy as np
import pyspark

from pysparl.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.option('header','true').csv('flights,csv')
X_scaled = preprocessing.scale(df)

Если я создаю кадр данных с пандами, у части масштаба проблем нет, но с искрой я получаю эту ошибку:

ValueError: setting an array element with a sequence.

Итак, я предполагаю, что типы элементов различаются в pandas и pyspark, но как я могу работать с pyspark, чтобы выполнить масштабирование?

Ranga Vure · Answer 1 · 07 марта 2019

sklearn работает с пандами данных. Таким образом, вы должны преобразовать фрейм данных spark в фрейм данных pandas.

X_scaled = preprocessing.scale(df.toPandas())

Масштабирование данных из фрейма данных, полученных с помощью pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Масштабирование данных из фрейма данных, полученных с помощью pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов