Почему число строк отличается после преобразования из .dat в формат данных паркета с помощью pyspark?Даже когда я повторяю преобразование для одного и того же файла несколько раз, я получаю другой результат (чуть больше или чуть меньше или равный количеству исходных строк)!
Я использую свой Macbook pro с 16 ГБ
.dat размер файла составляет 16,5 ГБ
spark-2.3.2-bin-hadoop2.7.
У меня уже есть количество строк от моего поставщика данных (45 миллионов строк).
Сначала я читаю файл .dat
2011_df = spark.read.text(filepath)
Во-вторых, я конвертирую его в паркет - процесс, который занимает около двух часов.2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")
После этого я читаю преобразованный файл паркета
de_parq = spark.read.parquet(filepath)
Наконец, я использую "count" для получения номеров строк.
de_parq.count()