В API обнаружения объектов TensorFlow они рекомендуют разделение, если набор данных содержит «более нескольких тысяч примеров», , отмечая, что :
- tf.data.Dataset API может параллельно читать примеры ввода, улучшая пропускную способность.
- tf.data.Dataset API может лучше перемешивать примеры с помощью заштрихованных файлов, что немного улучшает производительность модели.
Несколько тысяч - это немного расплывчато, и было бы неплохо иметь более точный ответ, такой как размер файла. Другими словами, насколько большим может быть файл .record, прежде чем он начнет вызывать проблемы с производительностью? К какому размеру файла мы должны стремиться при защите наших данных?