может ли один обучить набор из 20 миллионов строк? - PullRequest
0 голосов
/ 07 октября 2019

Я хочу обучить модель в TF, используя набор данных из более чем 20 миллионов строк. Есть ли какие-либо ограничения / ошибки, которые могут возникнуть при выполнении этого? Есть ли какие-либо методы / методы, которые я мог бы попытаться эффективно выполнить? Проблема в простой классификации, но я никогда не тренировался с таким большим набором данных. Любые советы будут полезны. Спасибо

1 Ответ

0 голосов
/ 07 октября 2019

TensorFlow может обрабатывать петабайт информации, передаваемой через десятки тысяч графических процессоров - вопрос в том, правильно ли ваш код управляет ресурсами, и может ваше оборудованиесправиться? Это называется распределенное обучение . Тема очень обширная, но вы можете начать с , настроив графический процессор - включая установку CUDA & cuDNN. Вы также можете обратиться к конвейеру входных данных оптимизация .

Я предлагаю обрабатывать все ваши установки с помощью Anaconda 3 , так как он обрабатывает совместимость пакетов - вот руководство или два для начала работы.

Наконец, ваши основные аппаратные ограничения: оперативная память и память графического процессора;первый - для максимального размера массива, который может обрабатывать модель (например, 8 ГБ), а второй - для максимального размера модели, который подходит для графического процессора.

...