Задание Spark не заканчивается: показ данных - PullRequest
2 голосов
/ 01 мая 2020

Мне нужно объединить 5 кадров данных в один. Фреймы данных выглядят так:

+-------------------+---------------------------------------------------------------------------+
|Timestamp          |sentence                                                                   |
+-------------------+---------------------------------------------------------------------------+
|2020-03-13 12:01:32| : 0792b8d1-7ad9-43fc-9e75-9b1f2612834c updated field1 with beats|
+-------------------+---------------------------------------------------------------------------+
+-------------------+------------------------------------------------------------------------+
|Timestamp          |sentence                                                                |
+-------------------+------------------------------------------------------------------------+
|2020-03-04 23:10:59| : 0792b8d1-7ad9-43fc-9e75-9b1f2612834c updated field2 with kobo |
+-------------------+------------------------------------------------------------------------+
+-------------------+------------------------------------------------------------------------+
|Timestamp          |sentence                                                                |
+-------------------+------------------------------------------------------------------------+
|2020-03-13 12:01:32| : 0792b8d1-7ad9-43fc-9e75-9b1f2612834c updated field3 with beats|
+-------------------+------------------------------------------------------------------------+

+-------------------+-------------------------------------------------------------------+
|Timestamp          |sentence                                                           |
+-------------------+-------------------------------------------------------------------+
|2020-02-20 07:20:29| : 0792b8d1-7ad9-43fc-9e75-9b1f2612834c added an field4 with beats|
+-------------------+-------------------------------------------------------------------+

+-------------------+---------------------------------------------------------------+
|Timestamp          |sentence                                                       |
+-------------------+---------------------------------------------------------------+
|2020-02-20 07:20:29| : 0792b8d1-7ad9-43fc-9e75-9b1f2612834c added a field5 with beats|
+-------------------+---------------------------------------------------------------+

Шоу работает нормально, когда объединение применяется для первых 3-х фреймов данных, но после включения двух последних задание запуска не выполняется.

Для выполнения Союз, который я использовал,

dfs = [df1, df2, df3, df4, df5]
df_final = reduce(lambda a, b: a.union(b), dfs)
df_final.show()

Я хочу отобразить результат, но задание застряло на showString at NativeMethodAccessorImpl.java:0

Как мне go об этой проблеме?

1 Ответ

1 голос
/ 01 мая 2020

выглядит хорошо для меня, так как у вас есть тот же тип данных для union, а также те же имена столбцов для unionByName

Я думаю, что это не проблема с union или unionByName Возможно, быть какой-то другой проблемой. С точки зрения планировщика может возникнуть нехватка ресурсов. Посмотрите, какие другие задания выполняются частично.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...