Существует ли решение Tensorflow / Keras Dataset для передачи из хранилища данных? - PullRequest
0 голосов
/ 24 февраля 2020

В случаях, когда большие данные не помещаются в памяти и поддерживаются в хранилище данных компании: есть ли способ выполнить предварительную выборку в пакетах размером хранилища данных, таких как 50 000, и обновить sh, когда очередь заканчивается все еще подает обучающие партии модели с меньшим значением, например, 16 на обучающую партию?

Я вижу, что наборы данных Tensorflow используют последовательность tf from_generator или keras для постановки в очередь и загрузки из генератора, если и только если этот генератор извлекает один пример в время. Это ужасно неэффективно, поскольку каждый из этих вызовов приводит к дополнительным расходам и, возможно, к сканированию раздела или таблицы для любого хранилища данных на основе интерфейса типа запроса. В противном случае обучение должно быть остановлено, пока генерируется новый набор данных.

...