Вы выбираете подходящую функцию потока в зависимости от того, сколько у вас данных и как они организованы.
flow()
- для небольших наборов данных, которыми вы можете полностью управлять в памяти.
flow_from_directory()
будет читать файлы из подкаталогов в родительском каталоге, используя имя каждого подкаталога в качестве метки. Этот выбор хорош, если у вас есть большой объем данных, упорядоченных по каталогам. Это может стать проблемой, если у вас есть общий набор файлов с различными наборами функций, которые вы хотите обучать, потому что вам нужно будет хранить избыточную копию ваших данных в разных подкаталогах (или, по крайней мере, создавать каталоги, заполненные символическими ссылками). это указывает на ваше реальное хранилище файлов).
flow_from_dataframe()
будет читать файлы и метки, как указано в панде DataFrame. Эта функция добавлена совсем недавно и является наиболее гибким выбором, поскольку вы можете хранить одну копию своих файлов, используя любую структуру каталогов, которую вы предпочитаете, и вы можете сгенерировать свой DataFrame из метаданных, хранящихся в виде файла CSV, базы данных, или любой другой метод, который поддерживает pandas.