Как пройти обучение языковой модели на BERT - PullRequest
0 голосов
/ 28 мая 2020

Я хочу обучить BERT на целевом корпусе. Я смотрю на эту реализацию HuggingFace . Они используют файлы .raw для данных обучения. Если у меня есть файлы .txt с данными обучения, как я могу использовать их реализацию?

1 Ответ

1 голос
/ 28 мая 2020

.raw указывает только на то, что они используют необработанную версию WikiText, это обычные текстовые файлы, содержащие необработанный текст:

Мы используем необработанный WikiText-2 (без токенов были заменены перед токенизацией).

В описании параметров файлов данных также указано, что они являются текстовыми файлами. Из run_language_modeling.py - L86-L88 :

train_data_file: Optional[str] = field(
    default=None, metadata={"help": "The input training data file (a text file)."}
)

Поэтому вы можете просто указать свои текстовые файлы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...