Я сохраняю pandas DataFrame в файле паркета со следующим фрагментом кода:
df.to_parquet(path, engine="pyarrow", compression="snappy")
В рамках регрессионного теста я сохраняю файл и сравниваю его с ранее созданным файлом. Я пытался сравнить содержимое файла тремя различными способами:
- diff командной строки: файлы разные.
- pyarrow.parquet Table.equals: таблицы разные.
- Pandas assert_frame_equal (): кадры данных равны.
Как глубже копать, чтобы найти различия между файлами паркета?
import pyarrow.parquet as pq
import pandas as pd
path1 = "f1.pq"
path2 = "f2.pq"
df1 = pd.read_parquet(path1)
df2 = pd.read_parquet(path2)
# This assertion passes
pd.testing.assert_frame_equal(df1, df2)
table1 = pq.read_table(path1)
table2 = pq.read_table(path2)
# This assertion fails
assert table1.equals(table2)