Кэширование фрейма данных в joblib - PullRequest
0 голосов
/ 07 февраля 2019

Joblib имеет функциональность для совместного использования массивов Numpy между процессами, автоматически сопоставляя массив.Однако это использует специальные возможности Numpy.Pandas действительно использует Numpy под капотом, но если у всех ваших столбцов одинаковый тип данных, вы не сможете сериализовать DataFrame в один массив Numpy.

Какой будет «правильный» способ кэшированияDataFrame для повторного использования в Joblib?

Лучше всего было бы записать каждый столбец в отдельности, а затем восстановить кадр данных внутри цикла (и молиться, чтобы Панды не копировали данные).Но это кажется довольно интенсивным процессом.

Мне известен автономный класс Memory, но не ясно, может ли это помочь.

...