Как определить различия в паркетных файлах - PullRequest
1 голос
/ 03 февраля 2020

Я сохраняю pandas DataFrame в файле паркета со следующим фрагментом кода:

df.to_parquet(path, engine="pyarrow", compression="snappy")

В рамках регрессионного теста я сохраняю файл и сравниваю его с ранее созданным файлом. Я пытался сравнить содержимое файла тремя различными способами:

  1. diff командной строки: файлы разные.
  2. pyarrow.parquet Table.equals: таблицы разные.
  3. Pandas assert_frame_equal (): кадры данных равны.

Как глубже копать, чтобы найти различия между файлами паркета?

import pyarrow.parquet as pq
import pandas as pd

path1 = "f1.pq"
path2 = "f2.pq"

df1 = pd.read_parquet(path1)
df2 = pd.read_parquet(path2)

# This assertion passes
pd.testing.assert_frame_equal(df1, df2)

table1 = pq.read_table(path1)
table2 = pq.read_table(path2)

# This assertion fails
assert table1.equals(table2)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...