Вы можете попробовать использовать Python с пандами и пиарроу:
import pandas as pd
df = pd.read_parquet('input.parquet')
df.to_csv('out.csv', index=False) # Exporting to CSV is easy
df.to_csv('out.txt', index=False, sep=' ') # Text is just a tad more difficult
df.to_csv('out.txt', index=False, sep='\t') # Alternatively, you can use tab separators
df.to_json('out.json') # Exporting to JSON is easy as well
См. Соответствующие документы API:
Вы также можете изменить код выше, чтобы использовать fastparquet вместо pyarrow и проверить, дает ли это вам лучшую или худшую производительность.Все, что вам нужно изменить - это строка, которая читает файл паркета:
df = pd.read_parquet('input.parquet', engine = 'fastparquet')
Не забудьте сначала установить pandas, pyarrow и fastparquet, введя pip install pandas pyarrow fastparquet
(или аналогичный, в зависимости от вашего решения по управлению пакетами).