Pyspark to pandas df занимает много времени - PullRequest
0 голосов
/ 23 декабря 2018

Преобразование объекта pyspark в панд занимает много времени.Как хранить в pandas df?

У меня есть код ниже (образец).Я извлекаю данные из pyspark и просто извлекаю данные из teradata, а затем, наконец, объединяю 2 разных df в python.Однако при преобразовании pp_data2 в pandas df требуется около 2 часов.

pp_data2 = sqlContext.sql('''SELECT c1,c2,c3 

FROM cstonedb3.pp_data 

where prod in ('7QD','7RJ','7RK','7RL','7RM') ''')

pp_data2 = pp_data2.toPandas()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...