Question

Мне нужно запустить несколько автономных алгоритмов для большого набора данных (чтобы проверить его масштабируемость). Набор данных может достигать 10 миллионов * 10 тысяч.

Я не думаю, что могу использовать небольшие партии в этом случае, поскольку мой алгоритм отключен, что означает, что ему нужны все данные одновременно. Я получу ошибку памяти при создании такого большого набора данных с использованием numpy. У меня также нет доступа к корню, так как я выполняю задания в кластере.

Интересно, в этой ситуации все еще возможно генерировать такой набор данных в Python?

Эффективный способ хранения большого набора данных для автономного алгоритма в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Эффективный способ хранения большого набора данных для автономного алгоритма в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы