У меня несколько лет опыта pyspark
: но в основном это включает конвертацию Spark
DataFrame
в pandas
. При попытке сделать обратное, это кажется менее предсказуемым.
Учитывая скромный pandas
фрейм данных pdf , вот самый простой код, преобразующий его в spark
. Заметьте, что я предоставлял полную StructType
/ схему , но это не сработало, поэтому я делаю это максимально простым путем преобразования всех полей в str
first:
sdf = spark.createDataFrame(pdf.astype(str))
Здесь были основы кода, который также не работал - с использованием полностью определенных типов столбцов:
sdf = spark.createDataFrame(pdf,StructType(scols))
В обоих случаях создается sdf
фрейм данных искры - но он пуст . В отладчике pycharm
мы можем видеть как исходный pandas pdf
, так и spark sdf
: первый содержит 11 строк, а второй пустой:
Что происходит? Я имею в виду, по крайней мере, ошибка должна быть выдана, предоставляя некоторый намек на то, почему spark
были несчастны.