Насколько большим может быть файл TensorFlow .record, прежде чем он вызовет проблемы с производительностью? - PullRequest
0 голосов
/ 05 ноября 2018

В API обнаружения объектов TensorFlow они рекомендуют разделение, если набор данных содержит «более нескольких тысяч примеров», , отмечая, что :

  • tf.data.Dataset API может параллельно читать примеры ввода, улучшая пропускную способность.
  • tf.data.Dataset API может лучше перемешивать примеры с помощью заштрихованных файлов, что немного улучшает производительность модели.

Несколько тысяч - это немного расплывчато, и было бы неплохо иметь более точный ответ, такой как размер файла. Другими словами, насколько большим может быть файл .record, прежде чем он начнет вызывать проблемы с производительностью? К какому размеру файла мы должны стремиться при защите наших данных?

1 Ответ

0 голосов
/ 21 ноября 2018

Похоже, что команда TensorFlow рекомендует ~ 100 МБ шардов. https://www.tensorflow.org/guide/performance/overview Вы также можете учесть влияние производительности на размер партии во время обучения. https://www.pugetsystems.com/labs/hpc/GPU-Memory-Size-and-Deep-Learning-Performance-batch-size-12GB-vs-32GB----1080Ti-vs-Titan-V-vs-GV100-1146/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...