Как просматривать большие файлы с помощью Parquet viewer - PullRequest
0 голосов
/ 11 марта 2019

enter image description here

Я получаю ошибку OutOfMemory при попытке открыть большой файл паркета размером 96 МБ.

enter image description here

Есть ли настраиваемая опция для изменения параметров JVM или любой другой подход на основе потока.

Нам нужен файл CSV в качестве вывода.

1 Ответ

0 голосов
/ 12 марта 2019

Не могу сказать вам, как заставить работать определенную программу просмотра, но если вам нужен вывод CSV, вы можете попробовать использовать Python с пандами и пиарроу. Достаточно следующего сценария:

import pandas as pd
df = pd.read_parquet('input.parquet')
df.to_csv('out.csv', index=False)

См. Соответствующие документы по API:

Не забудьте сначала установить pandas и pyarrow, введя pip install pandas pyarrow (или аналогичный, в зависимости от вашего решения по управлению пакетами).

...