DialoGPT - тонкая настройка разговорной нейронной модели GPT2 - PullRequest
0 голосов
/ 05 апреля 2020

Я использую https://github.com/microsoft/DialoGPT/ от Microsoft, это классный чат-бот из НЛП. Я хочу уточнить их уже отлаженную модель GPT2 с моими данными. Я настраиваю small_ft.pkl с помощью следующего обучающего параметра в Google Colab:

!python LSP_train.py --model_name_or_path /content/DialoGPT/models/small --init_checkpoint /content/apex/DialoGPT/small_ft.pkl --train_input_file /content/apex/DialoGPT/data/train_raw_friend.128len.db --eval_input_file ./data/dummy_data.tsv --output_dir /content/DialoGPT/models/output_model --seed 42 --max_seq_length 128 --train_batch_size 16 --gradient_accumulation_steps 8 --eval_batch_size 64 --learning_rate 1e-5 --num_optim_steps 1000 --valid_step 5000 --warmup_steps 4000 --normalize_data true --fp16 false --lr_schedule noam --loss_scale 0.0 --no_token_id true --pbar true

Обучение завершено, но когда я перехожу к /content/DialoGPT/models/output_model, фактическая модель отсутствует! я вижу только 2 файла в сгенерированной папке GPT2.1e-05.2.1gpu.2020-04-04161237 eval_log.txt и train_log.txt, но нет большого файла pkl.

Что я делаю не так? Или может быть ошибка при сохранении кода модели. В документах они сказали

Файл журнала и контрольную точку сохраненной модели можно найти в ./models/output_model

Ниже я прилагаю скриншот Colab с законченной тренировкой Colab with finished training DialoGPT

...