Я пытаюсь масштабировать некоторые данные из CSV-файла. Я делаю это с pyspark, чтобы получить dataframe и sklearn для масштабной части. Вот код:
from sklearn import preprocessing
import numpy as np
import pyspark
from pysparl.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.option('header','true').csv('flights,csv')
X_scaled = preprocessing.scale(df)
Если я создаю кадр данных с пандами, у части масштаба проблем нет, но с искрой я получаю эту ошибку:
ValueError: setting an array element with a sequence.
Итак, я предполагаю, что типы элементов различаются в pandas и pyspark, но как я могу работать с pyspark, чтобы выполнить масштабирование?