Преобразование данных из .dat в паркет с помощью Pyspark - PullRequest
0 голосов
/ 10 декабря 2018

Почему число строк отличается после преобразования из .dat в формат данных паркета с помощью pyspark?Даже когда я повторяю преобразование для одного и того же файла несколько раз, я получаю другой результат (чуть больше или чуть меньше или равный количеству исходных строк)!

Я использую свой Macbook pro с 16 ГБ

.dat размер файла составляет 16,5 ГБ

spark-2.3.2-bin-hadoop2.7.

У меня уже есть количество строк от моего поставщика данных (45 миллионов строк).

Сначала я читаю файл .dat

2011_df = spark.read.text(filepath)

Во-вторых, я конвертирую его в паркет - процесс, который занимает около двух часов.2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")

После этого я читаю преобразованный файл паркета

de_parq = spark.read.parquet(filepath)

Наконец, я использую "count" для получения номеров строк.

de_parq.count()
...