Преобразование pandas DataFrame приводит к пустому Spark DataFrame, но ошибок и предупреждений не возникало - PullRequest
0 голосов
/ 27 февраля 2020

У меня несколько лет опыта pyspark: но в основном это включает конвертацию Spark DataFrame в pandas. При попытке сделать обратное, это кажется менее предсказуемым.

Учитывая скромный pandas фрейм данных pdf , вот самый простой код, преобразующий его в spark. Заметьте, что я предоставлял полную StructType / схему , но это не сработало, поэтому я делаю это максимально простым путем преобразования всех полей в str first:

sdf =  spark.createDataFrame(pdf.astype(str))

Здесь были основы кода, который также не работал - с использованием полностью определенных типов столбцов:

sdf =  spark.createDataFrame(pdf,StructType(scols))

В обоих случаях создается sdf фрейм данных искры - но он пуст . В отладчике pycharm мы можем видеть как исходный pandas pdf, так и spark sdf: первый содержит 11 строк, а второй пустой:

enter image description here

Что происходит? Я имею в виду, по крайней мере, ошибка должна быть выдана, предоставляя некоторый намек на то, почему spark были несчастны.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...