Я использую модуль spaCy для поиска имен объектов для ввода текста. Я тренирую модель, чтобы предсказать медицинские условия. В настоящее время у меня есть доступ к 2 миллионам медицинских заметок, которые я написал для аннотации.
Я сопоставляю медицинские записи с заранее определенным списком из ~ 90 тысяч терминов, который используется для задачи аннотации. При нынешнем темпе аннотации требуется около полутора часов, чтобы аннотировать 10 000 заметок. То, как в данный момент работает аннотация, в итоге около 90% заметок не имеют аннотаций (сейчас я работаю над получением лучшего списка терминов перекрестных ссылок), поэтому я беру ~ 1000 аннотированных заметок и обучаю модель на этих.
Я проверил, и модель как бы реагирует на известные аннотированные термины, которые она видела (например, термин tachycardia
был замечен ранее из аннотации, и иногда поднимает его, когда термин появляется в тексте). ).
Этот фон, возможно, не слишком уместен для моего конкретного вопроса, но я подумал, что немного расскажу о моей текущей позиции.
Мне было интересно, может ли кто-нибудь, кто успешно обучил новую сущность в spaCy, дать мне некоторое представление о своем личном опыте в объеме обучения, который был необходим, чтобы иметь хотя бы несколько надежное распознавание сущности.
Спасибо!