POS-тегирование для PROPN не работает ожидаемым образом с использованием модели en_core_web_lg .
POS-тегированиеработает более предсказуемо, используя модель _md .
Учитывая (плохо сформированное) предложение: "CK7, CK-20, GATA 3, PSA,все отрицательны. "
При использовании модели _lg" CK7 "помечается как NOUN (NNS).
При использовании модели _md" CK7 "помечается какPROPN (NNP). Это правильно.
При использовании модели _lg и замене "CK7" в предложении для:
«CK1» помечен как PROPN
«CK2» помечен как PROPN
«CK3», «CK4» помечен как PROPN
"CK5", помеченный как ADJ
"CK6", помеченный как PROPN
«CK7» помечен как NOUN
«CK8» помечен как PROPN
«CK9» помечен как ADP
"CK22", "CK222", помеченный как PROPN
При использовании модели _md и заменяя "CK7", как описано выше, все были помечены как PROPN, , как ожидается, .
, поскольку большинство предложений, которые я буду анализировать, будут плохо сформированный , я подумал, что более глубокий анализ модели _lg будет лучше работать, только чтобы найти вышеуказанные проблемы с тегами POS .
Посоветуйте, пожалуйста:
- Как бороться с нелогичным тегом POS при использовании модели en_core_web_lg?
- Какая модель лучше всего подходит для анализа зависимостей плохо сформированных предложений?
Большое спасибо.