У меня есть большой файл Parquet с несколькими небольшими группами строк.Я хотел бы создать новый файл Parquet с одной (большей) группой строк, и я работаю на Python.Я мог бы сделать что-то вроде:
import pyarrow.parquet as pq
table = pq.read_table('many_tiny_row_groups.parquet')
pq.write_table(table, 'one_big_row_group.parquet')
# Lots of row groups...
print (pq.ParquetFile('many_tiny_row_groups.parquet').num_row_groups)
# Now, only 1 row group...
print (pq.ParquetFile('one_big_row_group.parquet').num_row_groups)
Однако для этого необходимо, чтобы я сразу прочитал весь файл Parquet в память.Я хотел бы избежать этого.Есть ли какой-то «потоковый» подход, при котором объем памяти может оставаться небольшим?