Question

Я хочу обучить BERT на целевом корпусе. Я смотрю на эту реализацию HuggingFace . Они используют файлы .raw для данных обучения. Если у меня есть файлы .txt с данными обучения, как я могу использовать их реализацию?

Michael Jungo · Answer 1 · 28 мая 2020

.raw указывает только на то, что они используют необработанную версию WikiText, это обычные текстовые файлы, содержащие необработанный текст:

Мы используем необработанный WikiText-2 (без токенов были заменены перед токенизацией).

В описании параметров файлов данных также указано, что они являются текстовыми файлами. Из run_language_modeling.py - L86-L88 :

train_data_file: Optional[str] = field(
    default=None, metadata={"help": "The input training data file (a text file)."}
)

Поэтому вы можете просто указать свои текстовые файлы.

Как пройти обучение языковой модели на BERT

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как пройти обучение языковой модели на BERT

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы