BERT предоставляет возможность включать предварительно обученные языковые модели из Hugging Face в линию. Согласно do c:
- name: HFTransformersNLP
# Name of the language model to use
model_name: "bert"
# Pre-Trained weights to be loaded
model_weights: "bert-base-uncased"
# An optional path to a specific directory to download and cache the pre-trained model weights.
# The `default` cache_dir is the same as https://huggingface.co/transformers/serialization.html#cache-directory .
cache_dir: null
После этого я настроил свой конвейер следующим образом:
- name: "HFTransformersNLP"
# Name of the language model to use
model_name: "bert"
# Pre-Trained weights to be loaded
model_weights: "bert-base-uncased"
cache_dir: "C:/Project ABC/cache/"
Но проблема в том, что при выполнении шагов обучения , модель продолжает сбой с:
OSError: Имя модели 'bert-base-uncased' не найдено в списке имен моделей токенизаторов (bert-base-uncased, bert-large-uncased, bert- с базовым корпусом, по-большому, по-немецки, по-немецки, по-немецки, по-немецки, по-немецки, по-большому маскирование, маскировка по-большому-в-общем-деле-слова, маскировка-по-большому-без-кейса-маскировка-точно-настроенного-отряда, маскировка-в-большом-целом-слове cased-finetuned-mrp c, bert-base-german-dbmdz-cased, bert-base-german-dbmdz-uncased, bert-base-finni sh -cased-v1, bert-base-finni sh -uncased-v1, bert-base-голландский корпус). Мы предположили, что 'bert-base-uncased' был путем, идентификатором модели или URL-адресом к каталогу, содержащему файлы словаря с именем ['vocab.txt'], но не смог найти такие файлы словаря по этому пути или URL.
Я провел некоторое исследование, и похоже, что при загрузке файлов из inte rnet могут возникнуть проблемы, поэтому я вручную загрузил конфигурацию файлов. json, pytorch_model.bin и поместил ее в C: / Project ABC / cache / все равно получаю такое же сообщение об ошибке. Любая идея, как решить эту проблему, не давая каталог кеша, тоже терпит неудачу с той же ошибкой.