Как обучить модель BERT со SQUAD 2.0 в Cloud TPU v2? - PullRequest
0 голосов
/ 12 июня 2019

Отказ от ответственности: я очень плохо знаком с нейронными сетями и Tensorflow.

Я пытаюсь создать приложение QA, в котором пользователь задает вопрос, а приложение дает ответ. Большинство традиционных методов, которые я пробовал, не работали или недостаточно точны или требуют ручного вмешательства. Я занимался исследованием неконтролируемого приложения QA, когда я наткнулся на BERT .

BERT , как утверждает Google, - это современная модель нейронной сети, получившая наивысший балл в таблице лидеров для Squad 2.0. Я хочу использовать эту модель для своего приложения и проверить ее производительность.

Я создал виртуальную машину для Windows 2012 Datacenter edition в Compute Engine. Я создал облачный TPU с использованием ctpu.

У меня есть BERT модель большого размера в облачном хранилище.

Как обучить большую модель без корпуса BERT с SQUAD 2.0 ?

Пожалуйста, не стесняйтесь исправлять меня, если я ошибаюсь, у меня есть понимание, что Cloud TPU - это просто устройство, такое как CPU или GPU. Однако, если вы прочитаете это , они объясняют, что Cloud TPU является виртуальной машиной («На Cloud TPU вы можете работать с BERT-Large как ...»).

Где мне запустить run_squad.py , как указано в здесь ?

python run_squad.py \
  --vocab_file=$BERT_LARGE_DIR/vocab.txt \
  --bert_config_file=$BERT_LARGE_DIR/bert_config.json \
  --init_checkpoint=$BERT_LARGE_DIR/bert_model.ckpt \
  --do_train=True \
  --train_file=$SQUAD_DIR/train-v2.0.json \
  --do_predict=True \
  --predict_file=$SQUAD_DIR/dev-v2.0.json \
  --train_batch_size=24 \
  --learning_rate=3e-5 \
  --num_train_epochs=2.0 \
  --max_seq_length=384 \
  --doc_stride=128 \
  --output_dir=gs://some_bucket/squad_large/ \
  --use_tpu=True \
  --tpu_name=$TPU_NAME \
  --version_2_with_negative=True

Как получить доступ к файлам хранилища из виртуальной машины для этого аргумента vocab_file?

Является ли внешний IP-адрес значением для $TPU_NAME переменной среды?

1 Ответ

1 голос
/ 16 июня 2019

Таким образом, TPU в настоящее время считываются только из GCS. Модель, которую вы скачали, должна быть загружена в другую корзину GCS вашего собственного создания. Вот так TPU будет обращаться к vocab_file и другим файлам.

...