Question

Я хотел быстро преобразовать формат файла паркетного файла в TXT.

Пробовал с parquet-tools cat parque_file > parque_file.txt, но для файла 5 КБ это занимает более 2 секунд.

Я считаю, что при использованииэтот инструмент.Что может быть более быстрым способом?

(поиск решения 500 мс, если это возможно) ..

Zoltan · Answer 1 · 05 марта 2019

Вы можете попробовать использовать Python с пандами и пиарроу:

import pandas as pd
df = pd.read_parquet('input.parquet')
df.to_csv('out.csv', index=False)             # Exporting to CSV is easy
df.to_csv('out.txt', index=False, sep=' ')    # Text is just a tad more difficult
df.to_csv('out.txt', index=False, sep='\t')   # Alternatively, you can use tab separators
df.to_json('out.json')                        # Exporting to JSON is easy as well

См. Соответствующие документы API:

Вы также можете изменить код выше, чтобы использовать fastparquet вместо pyarrow и проверить, дает ли это вам лучшую или худшую производительность.Все, что вам нужно изменить - это строка, которая читает файл паркета:

df = pd.read_parquet('input.parquet', engine = 'fastparquet')

Не забудьте сначала установить pandas, pyarrow и fastparquet, введя pip install pandas pyarrow fastparquet (или аналогичный, в зависимости от вашего решения по управлению пакетами).

Какой самый быстрый способ конвертировать Parquet в обычный файл TXT?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой самый быстрый способ конвертировать Parquet в обычный файл TXT?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы