Я собираюсь извлечь размеры опухолей из отчетов о гистопатологии. Размер измеряется в миллиметрах и обычно упоминается где-то в произвольном тексте. Я могу определить измерения в мм с помощью регулярных выражений, однако не все они будут соответствовать размеру опухоли, который мне нужен. Также может быть дополнительное упоминание о опухоли in-situ и ее размере, хотя мне нужен только размер инвазивного компонента опухоли. Оба могут быть упомянуты в одном и том же предложении.
Так что в основном мне нужна модель НЛП, чтобы решить для каждого данного измерения, которое было найдено в произвольном тексте с использованием регулярных выражений, является ли это размером опухоли, который я ищу,Или, чтобы выразить это в более технических терминах, мне нужно классифицировать токен (например, «20 мм») на основе его контекста в отчете.
Поскольку это не стандартная проблема классификации текста, я не уверенКаков наилучший подход и как я могу использовать BERT и тому подобное для этой цели.
Я могу представить два возможных подхода:
NER: аннотировать инвазивную опухольПоместите размер в текст и обучите модель NER, чтобы определить правильное измерение как сущность. У меня такое ощущение, что это может быть трудно, когда нужно рассмотреть более одного предложения за раз.
Textcat: заменить соответствующий токен токеном-заполнителем, который находится в BERTвыделите (например, «20 мм» -> «[unused001]») и классифицируйте предложение, также включая предыдущее и следующее предложение, чтобы обеспечить больше контекста. Я бы заменил только один миллиметр за раз, чтобы позволить модели сфокусироваться на одном измерении, если их несколько.
Может быть и другой способ? Кто-нибудь делал что-нибудь подобное и может поделиться своим опытом?