Мне нужно запустить несколько автономных алгоритмов для большого набора данных (чтобы проверить его масштабируемость). Набор данных может достигать 10 миллионов * 10 тысяч.
Я не думаю, что могу использовать небольшие партии в этом случае, поскольку мой алгоритм отключен, что означает, что ему нужны все данные одновременно. Я получу ошибку памяти при создании такого большого набора данных с использованием numpy. У меня также нет доступа к корню, так как я выполняю задания в кластере.
Интересно, в этой ситуации все еще возможно генерировать такой набор данных в Python?