Тонкая настройка Берта на наборе медицинских данных - PullRequest
0 голосов
/ 20 июня 2020

Я хотел бы использовать языковую модель, такую ​​как Bert, чтобы получить вектор признаков для определенного текста, описывающего медицинское состояние.

Поскольку в тексте много слов, неизвестных большинству предварительно обученных моделей и токенизаторы, мне интересно, какие шаги требуются для выполнения этой задачи?

Использование предварительно обученной модели кажется мне полезным, поскольку набор данных, описывающих медицинские условия, довольно мал.

1 Ответ

1 голос
/ 22 июня 2020

Да, этот вопрос слишком общий, чтобы относиться к Stack Overflow, но я постараюсь дать несколько полезных указателей.

  1. Попробуйте найти любые существующие medical pre- обученные модели.

  2. В противном случае выполните точную настройку BERT / RoBERTa в вашем домене или любой другой последующей задаче (классификация / ответ на вопрос), над которой вы работаете, чтобы она фиксировала неизвестные медицинские термины в ваш корпус.

...