Пометка POS не соответствует модели Spacy en_core_web_lg - PullRequest
1 голос
/ 07 апреля 2019
  • POS-тегирование для PROPN не работает ожидаемым образом с использованием модели en_core_web_lg .

  • POS-тегированиеработает более предсказуемо, используя модель _md .

Учитывая (плохо сформированное) предложение: "CK7, CK-20, GATA 3, PSA,все отрицательны. "

При использовании модели _lg" CK7 "помечается как NOUN (NNS).

При использовании модели _md" CK7 "помечается какPROPN (NNP). Это правильно.

При использовании модели _lg и замене "CK7" в предложении для:

  • «CK1» помечен как PROPN

  • «CK2» помечен как PROPN

  • «CK3», «CK4» помечен как PROPN

  • "CK5", помеченный как ADJ

  • "CK6", помеченный как PROPN

  • «CK7» помечен как NOUN

  • «CK8» помечен как PROPN

  • «CK9» помечен как ADP

  • "CK22", "CK222", помеченный как PROPN

При использовании модели _md и заменяя "CK7", как описано выше, все были помечены как PROPN, , как ожидается, .

, поскольку большинство предложений, которые я буду анализировать, будут плохо сформированный , я подумал, что более глубокий анализ модели _lg будет лучше работать, только чтобы найти вышеуказанные проблемы с тегами POS .

Посоветуйте, пожалуйста:

  1. Как бороться с нелогичным тегом POS при использовании модели en_core_web_lg?
  2. Какая модель лучше всего подходит для анализа зависимостей плохо сформированных предложений?

Большое спасибо.

1 Ответ

1 голос
/ 08 апреля 2019

Так что это не прямой ответ на ваш вопрос, но если вы работаете с биомедицинскими данными, возможно, имеет смысл попробовать этот пакет: scispacy

Он не помечает CK-7 как собственное существительное, но может обрабатывать множество таких терминов как сущности, см. Различные дополнительные модели NER, которые поддерживают разные наборы тегов. Он все еще находится в стадии разработки, и вам, возможно, все еще потребуется добавить особые случаи / исключения для ваших данных, но я думаю, что вы увидите лучшие и более согласованные результаты, чем со стандартными моделями пространств.

...