Question

У меня 10 .dat больших файлов.Я использую Pyspark, чтобы преобразовать эти файлы в формат паркета, чтобы ускорить обработку данных.Код, который я написал, прекрасно работал до сегодняшнего дня.Первые несколько файлов .dat для преобразования в паркет заняли около 2 часов каждый.Сегодня неожиданно один и тот же код очень медленно преобразует новый файл .dat в паркет.Я снова запустил код на старых файлах, которые раньше работали без сбоев, теперь процесс преобразования занимает около 4 часов вместо 2 часов.Идея кода заключается в следующем: 1- Я читаю файл .dat

2011_df = spark.read.text(filepath)

2 - Я анализирую файл .dat, чтобы получить столбцы, используя "substr"

3 - Я конвертируюпроанализировал фрейм данных в паркет, процесс, который занимает около двух часов.

2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")

4- После этого я прочитал преобразованный файл партера

de_parq = spark.read.parquet(filepath)

Итак, мой вопрос: почему искра получаетмедленно без видимой причины?Должен ли я удалить Spark и установить его снова, поскольку я использую свой личный ноутбук?Я использую свой Macbook pro с 16 ГБ

spark-2.3.2-bin-hadoop2.7.Пожалуйста, сообщите ..

Почему код Pyspark вдруг работает медленно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Почему код Pyspark вдруг работает медленно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов