На данный момент наиболее удобным способом создания паркета является использование Pandas из-за его зрелости. Тем не менее, pyarrow
также предоставляет возможности для построения своих таблиц из обычного Python:
import pyarrow as pa
string_array = pa.array(['a', 'b', 'c'])
pa.Table.from_arrays([string_array], ['str'])
Поскольку Parquet является столбцовым форматом данных, вам придется загрузить данные один раз в память, чтобы выполнить построчное преобразование представления столбчатых данных.
На данный момент вам также необходимо создать массивы Arrow сразу; Вы не можете создавать их постепенно. В будущем мы планируем представить (инкрементные) классы компоновщика из C ++: https://github.com/apache/arrow/pull/1930