Как разбить файл TFRecord на наборы поездов / тестов во время выполнения - PullRequest
0 голосов
/ 12 апреля 2020

Обратите внимание, что ответы здесь и здесь бесполезны, поскольку размер набора данных должен быть известен заранее, если я собираюсь использовать упомянутые там подходы.

Перед преобразованием данных в TFRecord у меня есть данные в pandas DataFrame, поэтому у меня есть 2 варианта:

A) Разделить DataFrame на отдельные порции (train и test или train, dev, test ...) ), а затем сохраните каждый блок отдельно как TFRecord.

B) Сохраните DataFrame как есть и преобразуйте его в файл TFRecord, но из-за недостатков во время выполнения не будет большой гибкости (насколько я знаю) чтобы разделить весь кусок данных на 2 отдельных объекта, особенно TFRecord не будет сохранять размер набора данных в качестве метаданных.

Вопрос в том, какой путь выбрать? какие другие варианты / лучшие варианты, которые вы знаете?

...