Question

Почему число строк отличается после преобразования из .dat в формат данных паркета с помощью pyspark?Даже когда я повторяю преобразование для одного и того же файла несколько раз, я получаю другой результат (чуть больше или чуть меньше или равный количеству исходных строк)!

Я использую свой Macbook pro с 16 ГБ

.dat размер файла составляет 16,5 ГБ

spark-2.3.2-bin-hadoop2.7.

У меня уже есть количество строк от моего поставщика данных (45 миллионов строк).

Сначала я читаю файл .dat

2011_df = spark.read.text(filepath)

Во-вторых, я конвертирую его в паркет - процесс, который занимает около двух часов.2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")

После этого я читаю преобразованный файл паркета

de_parq = spark.read.parquet(filepath)

Наконец, я использую "count" для получения номеров строк.

de_parq.count()

Преобразование данных из .dat в паркет с помощью Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Преобразование данных из .dat в паркет с помощью Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы