Как классифицировать токен на основе его контекста с использованием НЛП - PullRequest
0 голосов
/ 05 октября 2019

Я собираюсь извлечь размеры опухолей из отчетов о гистопатологии. Размер измеряется в миллиметрах и обычно упоминается где-то в произвольном тексте. Я могу определить измерения в мм с помощью регулярных выражений, однако не все они будут соответствовать размеру опухоли, который мне нужен. Также может быть дополнительное упоминание о опухоли in-situ и ее размере, хотя мне нужен только размер инвазивного компонента опухоли. Оба могут быть упомянуты в одном и том же предложении.

Так что в основном мне нужна модель НЛП, чтобы решить для каждого данного измерения, которое было найдено в произвольном тексте с использованием регулярных выражений, является ли это размером опухоли, который я ищу,Или, чтобы выразить это в более технических терминах, мне нужно классифицировать токен (например, «20 мм») на основе его контекста в отчете.

Поскольку это не стандартная проблема классификации текста, я не уверенКаков наилучший подход и как я могу использовать BERT и тому подобное для этой цели.

Я могу представить два возможных подхода:

  1. NER: аннотировать инвазивную опухольПоместите размер в текст и обучите модель NER, чтобы определить правильное измерение как сущность. У меня такое ощущение, что это может быть трудно, когда нужно рассмотреть более одного предложения за раз.

  2. Textcat: заменить соответствующий токен токеном-заполнителем, который находится в BERTвыделите (например, «20 мм» -> «[unused001]») и классифицируйте предложение, также включая предыдущее и следующее предложение, чтобы обеспечить больше контекста. Я бы заменил только один миллиметр за раз, чтобы позволить модели сфокусироваться на одном измерении, если их несколько.

Может быть и другой способ? Кто-нибудь делал что-нибудь подобное и может поделиться своим опытом?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...