Слияние паркетных файлов - Pandas Meta в схеме несоответствие - PullRequest
0 голосов
/ 08 ноября 2018

Я пытаюсь объединить несколько файлов паркета в один. Их схемы идентичны на местах, но моя ParquetWriter жалуется, что это не так. После некоторого исследования я обнаружил, что мета панд в схемах отличается, вызывая эту ошибку.

Можно ли игнорировать / объединять / удалять метаданные панд? Мне даже нужна мета панд?

import pyarrow.parquet as pq

pq_tables=[]
for file_ in files:
    pq_table = pq.read_table(f'{MESS_DIR}/{file_}')
    pq_tables.append(pq_table)
    if writer is None:
        writer = pq.ParquetWriter(COMPRESSED_FILE, schema=pq_table.schema, use_deprecated_int96_timestamps=True)
    writer.write_table(table=pq_table)

Точная ошибка -

Traceback (most recent call last):
  File "{PATH_TO}/main.py", line 68, in lambda_handler
    writer.write_table(table=pq_table)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pyarrow/parquet.py", line 335, in write_table
    raise ValueError(msg)
ValueError: Table schema does not match schema used to create file:
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...