Как предварительно обработать данные с помощью API tf.data.Dataset tenorflow? - PullRequest
2 голосов
/ 11 июля 2019

В настоящее время я использую API-интерфейс tenfflow tf.data.Dataset для чтения и передачи набора данных в модель для обучения (построена с использованием Dataset.from_generator(...)).

Однако я не уверен, какпредварительно обработать набор данных для объектов, которые требуют полного прохождения через набор данных.Например, чтобы вычислить словарные слова для встраивания функций, потребуется полный проход по набору данных, поэтому я не могу использовать здесь функцию tf.data.Dataset's map().

Я изучил tf.transform's API (с Apacheлуч), но кажется, что я не могу ввести объект tf.data.Dataset в конвейер, только список в памяти или как файлы с диска.

...