Обратите внимание, что ответы здесь и здесь бесполезны, поскольку размер набора данных должен быть известен заранее, если я собираюсь использовать упомянутые там подходы.
Перед преобразованием данных в TFRecord у меня есть данные в pandas DataFrame, поэтому у меня есть 2 варианта:
A) Разделить DataFrame на отдельные порции (train и test или train, dev, test ...) ), а затем сохраните каждый блок отдельно как TFRecord.
B) Сохраните DataFrame как есть и преобразуйте его в файл TFRecord, но из-за недостатков во время выполнения не будет большой гибкости (насколько я знаю) чтобы разделить весь кусок данных на 2 отдельных объекта, особенно TFRecord не будет сохранять размер набора данных в качестве метаданных.
Вопрос в том, какой путь выбрать? какие другие варианты / лучшие варианты, которые вы знаете?