У меня 10 .dat больших файлов.Я использую Pyspark, чтобы преобразовать эти файлы в формат паркета, чтобы ускорить обработку данных.Код, который я написал, прекрасно работал до сегодняшнего дня.Первые несколько файлов .dat для преобразования в паркет заняли около 2 часов каждый.Сегодня неожиданно один и тот же код очень медленно преобразует новый файл .dat в паркет.Я снова запустил код на старых файлах, которые раньше работали без сбоев, теперь процесс преобразования занимает около 4 часов вместо 2 часов.Идея кода заключается в следующем: 1- Я читаю файл .dat
2011_df = spark.read.text(filepath)
2 - Я анализирую файл .dat, чтобы получить столбцы, используя "substr"
3 - Я конвертируюпроанализировал фрейм данных в паркет, процесс, который занимает около двух часов.
2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")
4- После этого я прочитал преобразованный файл партера
de_parq = spark.read.parquet(filepath)
Итак, мой вопрос: почему искра получаетмедленно без видимой причины?Должен ли я удалить Spark и установить его снова, поскольку я использую свой личный ноутбук?Я использую свой Macbook pro с 16 ГБ
spark-2.3.2-bin-hadoop2.7.Пожалуйста, сообщите ..