У меня есть большой файл (1 ГБ +) со смесью коротких и длинных текстов (формат: wikitext-2) для точной настройки модели языка с масками с bert-large-uncased в качестве базовой модели. Я выполнил инструкцию на https://github.com/huggingface/transformers/tree/master/examples/language-modeling. Кажется, что процесс застрял на этапе «Creating features from dataset file at <file loc>
». Я не уверен, что не так, действительно ли он застрял или для файла такого размера требуется много времени?
Команда выглядит примерно так:
export TRAIN_FILE=/path/to/dataset/my.train.raw
export TEST_FILE=/path/to/dataset/my.test.raw
python run_language_modeling.py \
--output_dir=local_output_dir \
--model_type=bert \
--model_name_or_path=local_bert_dir \
--do_train \
--train_data_file=$TRAIN_FILE \
--do_eval \
--eval_data_file=$TEST_FILE \
--mlm
Добавлено: задание выполняется на CPU