Преобразование объекта pyspark в панд занимает много времени.Как хранить в pandas df?
У меня есть код ниже (образец).Я извлекаю данные из pyspark и просто извлекаю данные из teradata, а затем, наконец, объединяю 2 разных df в python.Однако при преобразовании pp_data2 в pandas df требуется около 2 часов.
pp_data2 = sqlContext.sql('''SELECT c1,c2,c3
FROM cstonedb3.pp_data
where prod in ('7QD','7RJ','7RK','7RL','7RM') ''')
pp_data2 = pp_data2.toPandas()