Мой набор данных состоит из 293 записей TF, я предварительно тренирую BERT с нуля на COLAB TPU. А поскольку colab TPU SHutdown каждые ~ 12 часов, мне нужно возобновлять обучение с контрольных точек, сохраненных в моем контейнере GCS.
Поэтому, когда обучение возобновляется, оценщики продолжают обучение с последней партии перед выключением или продолжают обучение спервый пакет в первом файле TFrecord?
мои tfrecords создаются с использованием create_pretraining_data.py из BERT с помощью этой команды (ls ./shards/ | xargs -n 1 -P 8 -I{} python3 bert/create_pretraining_data.py --input_file=./shards/{} --output_file=pretraining_data/{}.tfrecord
), где каждый шард содержит 256000 предложений.
Также вот ссылка на используемый ноутбук COLAB: COLAB