Моделирование языка Huggingface застряло на этапе чтения данных - PullRequest
0 голосов
/ 19 июня 2020

У меня есть большой файл (1 ГБ +) со смесью коротких и длинных текстов (формат: wikitext-2) для точной настройки модели языка с масками с bert-large-uncased в качестве базовой модели. Я выполнил инструкцию на https://github.com/huggingface/transformers/tree/master/examples/language-modeling. Кажется, что процесс застрял на этапе «Creating features from dataset file at <file loc>». Я не уверен, что не так, действительно ли он застрял или для файла такого размера требуется много времени?

Команда выглядит примерно так:

export TRAIN_FILE=/path/to/dataset/my.train.raw
export TEST_FILE=/path/to/dataset/my.test.raw

python run_language_modeling.py \
    --output_dir=local_output_dir \
    --model_type=bert \
    --model_name_or_path=local_bert_dir \
    --do_train \
    --train_data_file=$TRAIN_FILE \
    --do_eval \
    --eval_data_file=$TEST_FILE \
    --mlm

Добавлено: задание выполняется на CPU

1 Ответ

0 голосов
/ 22 июня 2020

Поскольку файл огромен, я настоятельно рекомендую попробовать ваш код на игрушечном наборе данных, прежде чем запускать его на реальных больших данных. Это также будет полезно при отладке.

Если ваша система имеет многоядерные процессоры, следуйте некоторым стратегиям многопроцессорной обработки. Взгляните на https://github.com/PyTorchLightning/pytorch-lightning.

...