Это уточняющий вопрос. Я пытаюсь обучить BERT, предоставленный huggingface , используя стандартное внимание, и оценивать, используя другое определение внимания.
Операция, о которой я думал, была изменением bert-base-uncased
на путь моего обученного model (используя стандартное внимание) в следующей команде и запустите --do_eval
при установке моей версии с индивидуальным вниманием.
export GLUE_DIR=/path/to/glue
export TASK_NAME=MRPC
python ./examples/run_glue.py \
--model_name_or_path bert-base-uncased \
--task_name $TASK_NAME \
--do_eval \
--data_dir $GLUE_DIR/$TASK_NAME \
--max_seq_length 128 \
--per_gpu_eval_batch_size=8 \
--per_gpu_train_batch_size=8 \
--learning_rate 2e-5 \
--num_train_epochs 3.0 \
--output_dir /tmp/$TASK_NAME/
Однако я получал неожиданные результаты. Поэтому я хочу убедиться, что использовал правильную команду. Может ли кто-нибудь подтвердить или исправить меня?
Отредактировано: версия была 2.8.0.