Действительно, потребление-авро (и другие драйверы-приемники) связаны с форматом / обслуживанием -> знакомый контейнер, а не с выводом.
Avro, вообще говоря, не является столбчатым форматом, и поэтому, чтобы написать его с помощью Dask, вам нужен bag
, а не dataframe
. Вам захочется сделать:
df.to_bag().to_avro(...)
(см. документы )
К сожалению, вам нужно будет создать свой собственный объект JSON схемы, что должно быть довольно просто из dtypes исходного dataframe.
Библиотека, которую потребление-avro и Dask используют для быстрого чтения avro в кадры данных, uavro , может в какой-то момент быть расширена и для записи.