В настоящее время я использую API-интерфейс tenfflow tf.data.Dataset для чтения и передачи набора данных в модель для обучения (построена с использованием Dataset.from_generator(...)
).
Однако я не уверен, какпредварительно обработать набор данных для объектов, которые требуют полного прохождения через набор данных.Например, чтобы вычислить словарные слова для встраивания функций, потребуется полный проход по набору данных, поэтому я не могу использовать здесь функцию tf.data.Dataset's map()
.
Я изучил tf.transform's
API (с Apacheлуч), но кажется, что я не могу ввести объект tf.data.Dataset
в конвейер, только список в памяти или как файлы с диска.