Вы можете сделать это следующим образом
import dask.bag as db
db.from_delayed(df.map_partitions(pd.DataFrame.to_dict, orient='records'
).to_delayed())
, что даст вам сумку , которую вы можете вычислить (если она умещается в памяти) или иным образом манипулировать.
Обратите внимание, что to_delayed / from_delayed не требуется, есть метод to_bag
, но, похоже, он не работает правильно.
Кроме того, вы не особо получаете от dataframe
модель здесь, вы можете начать с db.read_text
и встроенного модуля CSV.