Я хотел бы использовать языковую модель, такую как Bert, чтобы получить вектор признаков для определенного текста, описывающего медицинское состояние.
Поскольку в тексте много слов, неизвестных большинству предварительно обученных моделей и токенизаторы, мне интересно, какие шаги требуются для выполнения этой задачи?
Использование предварительно обученной модели кажется мне полезным, поскольку набор данных, описывающих медицинские условия, довольно мал.