У меня есть файл train.tf_record и набор файлов tf_record (скажем, 1.tf_record ... 100.tf_record)
1.tf_record ... Файлы 100.tf_record - это просто закрытая версия файла train.tf_record. Следовательно, вместе они составляют те же данные, что и в файле train.tf_record.
Тем не менее, я нахожу разницу в производительности моей модели при загрузке обучающих данных через защищенные файлы, а затем при обучении моей модели.
Для первого случая я загружаю данные следующим образом:
d = tf.data.TFRecordDataset("train.tf_record")
if is_training:
d = d.repeat()
d = d.shuffle(buffer_size=100)
Во втором случае, я просто передаю список имен файлов в файле:
d = tf.data.TFRecordDataset(["1.tf_record","2.tf_record",....])
if is_training:
d = d.repeat()
d = d.shuffle(buffer_size=100)
Я также разделяю файлы записей для тестового набора данных. Но никаких проблем там не наблюдается. Я проверил, что файлы с записанными файлами не имеют проблем. Следовательно, я думаю, что могут быть некоторые проблемы с d.repeat () или d.shuffle ().