Выявление разных времен слова в Amazon Comprehend Medical - PullRequest
1 голос
/ 23 октября 2019

Я использую Amazon Comprehend Medical для обнаружения травм.

Допустим, у меня есть следующий текст:

Джону была сделана операция по восстановлению вывиха левого колена и полной слезы ACL. "

Amazon acrehend medical (ACM) может распознать вывих как медицинское состояние. Однако рассмотрим следующий фрагмент текста:

«У Джона смещена правая коленная чашечка с вывихом».

В этом фрагменте текста ACM нев состоянии распознать вывих как заболевание. Точно так же, если бы я вставил фрагмент текста типа «растяжение связок левой лодыжки», ACM смог бы распознать растяжение связок голеностопного сустава как состояние здоровья, однако, если бы я его вставил, вывихнул левую лодыжку. «оно не распространяется на слово« вывих »как медицинское состояние.

Есть ли способ очистить мой текст от изменения порядка слов, чтобы эти объекты могли быть помечены точно?

1 Ответ

2 голосов
/ 23 октября 2019

То, что вы ищете, называется лемматизацией. Например, вы можете использовать инструментарий NLTK, чтобы свести каждое слово к его неизмененной базовой форме (лемме), которая даст вам «вывих» и «растяжение» в качестве базовых форм. Это может улучшить точность обнаружения объекта. Порядок слов на самом деле не должен иметь значения. В противном случае, тренируйте свой собственный NER (https://nlpforhackers.io/named-entity-extraction/).

...