Вот простая функция, которую я часто использую:
def df_to_parquets(df, chunk_size=10):
"""
Saves pandas dataframe to parquet in chunks
"""
grp = df.groupby(df.index // chunk_size)
n_grp = grp.ngroups
for i in range(n_grp):
grp.nth(i).to_parquet(f'file_{i}.gzip', compression='gzip')
Образцы данных
df = pd.DataFrame(np.random.rand(10, 5), columns = ['col_'+str(x) for x in range(1, 6)])
df_to_parquets(df, chunk_size=2)
Это позволит вывести 5 разных файлов паркета.