Эффективный способ хранения большого набора данных для автономного алгоритма в Python - PullRequest
0 голосов
/ 04 октября 2019

Мне нужно запустить несколько автономных алгоритмов для большого набора данных (чтобы проверить его масштабируемость). Набор данных может достигать 10 миллионов * 10 тысяч.

Я не думаю, что могу использовать небольшие партии в этом случае, поскольку мой алгоритм отключен, что означает, что ему нужны все данные одновременно. Я получу ошибку памяти при создании такого большого набора данных с использованием numpy. У меня также нет доступа к корню, так как я выполняю задания в кластере.

Интересно, в этой ситуации все еще возможно генерировать такой набор данных в Python?

...