Question

У меня есть большой файл (1 ГБ +) со смесью коротких и длинных текстов (формат: wikitext-2) для точной настройки модели языка с масками с bert-large-uncased в качестве базовой модели. Я выполнил инструкцию на https://github.com/huggingface/transformers/tree/master/examples/language-modeling. Кажется, что процесс застрял на этапе «Creating features from dataset file at <file loc>». Я не уверен, что не так, действительно ли он застрял или для файла такого размера требуется много времени?

Команда выглядит примерно так:

export TRAIN_FILE=/path/to/dataset/my.train.raw
export TEST_FILE=/path/to/dataset/my.test.raw

python run_language_modeling.py \
    --output_dir=local_output_dir \
    --model_type=bert \
    --model_name_or_path=local_bert_dir \
    --do_train \
    --train_data_file=$TRAIN_FILE \
    --do_eval \
    --eval_data_file=$TEST_FILE \
    --mlm

Добавлено: задание выполняется на CPU

user12769533 · Answer 1 · 22 июня 2020

Поскольку файл огромен, я настоятельно рекомендую попробовать ваш код на игрушечном наборе данных, прежде чем запускать его на реальных больших данных. Это также будет полезно при отладке.

Если ваша система имеет многоядерные процессоры, следуйте некоторым стратегиям многопроцессорной обработки. Взгляните на https://github.com/PyTorchLightning/pytorch-lightning.

Моделирование языка Huggingface застряло на этапе чтения данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Моделирование языка Huggingface застряло на этапе чтения данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы