Tenorflow.data.experimental.CsvDataset читает из файла снова и снова? - PullRequest
0 голосов
/ 16 мая 2019

Я борюсь с длительным временем тренировок с tf.data.Dataset, и начинаю задумываться, может ли чтение CSV-файла стать узким местом.

Считает ли *1001* tenorflow.data.experimental.CsvDataset

чтение файла из файла снова и снова?

*1004* Я пытаюсь сначала импортировать весь набор данных и поместить его в пустой массив, а затем создать новый TF Набор данных из тензоров .Но такое изменение займет время, и я не хочу тратить время, если SO мог бы сказать мне заранее, что это не имеет значения.

1 Ответ

0 голосов
/ 27 мая 2019

Я не знаю точно, почему я так долго тренировался с CsvDataset, но изменение моего кода, чтобы сначала импортировать данные в массив Numpy, а затем импортировать его с помощью tf.data.Dataset.from_tensor_slices, сделало обучение примерно 10-100 раз быстрее . Еще одно, возможно, уместное изменение, за которым последовало это, заключалось в том, что набор данных больше не был вложенным во время обработки. В старой версии каждая партия была кортежем тензоров столбцов, тогда как в новой версии каждая партия была просто тензором. (Дальнейшее ускорение может быть достигнуто путем удаления преобразований, адаптированных к вложенной структуре, которые теперь применяются только к одному тензору.)

...