Чтение нескольких файлов tf_record в тензорном потоке - PullRequest
0 голосов
/ 27 апреля 2019

У меня есть файл train.tf_record и набор файлов tf_record (скажем, 1.tf_record ... 100.tf_record)

1.tf_record ... Файлы 100.tf_record - это просто закрытая версия файла train.tf_record. Следовательно, вместе они составляют те же данные, что и в файле train.tf_record.

Тем не менее, я нахожу разницу в производительности моей модели при загрузке обучающих данных через защищенные файлы, а затем при обучении моей модели.

Для первого случая я загружаю данные следующим образом:

d = tf.data.TFRecordDataset("train.tf_record")
if is_training:
  d = d.repeat()
  d = d.shuffle(buffer_size=100)

Во втором случае, я просто передаю список имен файлов в файле:

d = tf.data.TFRecordDataset(["1.tf_record","2.tf_record",....])
if is_training:
  d = d.repeat()
  d = d.shuffle(buffer_size=100)

Я также разделяю файлы записей для тестового набора данных. Но никаких проблем там не наблюдается. Я проверил, что файлы с записанными файлами не имеют проблем. Следовательно, я думаю, что могут быть некоторые проблемы с d.repeat () или d.shuffle ().

...