Question

Преобразование объекта pyspark в панд занимает много времени.Как хранить в pandas df?

У меня есть код ниже (образец).Я извлекаю данные из pyspark и просто извлекаю данные из teradata, а затем, наконец, объединяю 2 разных df в python.Однако при преобразовании pp_data2 в pandas df требуется около 2 часов.

pp_data2 = sqlContext.sql('''SELECT c1,c2,c3 

FROM cstonedb3.pp_data 

where prod in ('7QD','7RJ','7RK','7RL','7RM') ''')

pp_data2 = pp_data2.toPandas()

Pyspark to pandas df занимает много времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark to pandas df занимает много времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов