Какую версию spaCy вы используете? Если я запускаю этот точный фрагмент кода с текущей последней версией 2.2.4, я получаю эту распечатку:
NORP корейский
NORP китайский
ЯЗЫК engli sh
GPE Индия
GPE Америка
ДАТА 2 года 6 месяцев
Как видите, предварительно обученная модель en_core_web_sm
действительно распознает LANGUAGE
сущностей.
В качестве краткого совета: модуль NER в spaCy лучше работает с реальными предложениями, чему он и был обучен. Из моих результатов вы видите, что он работает также с неграмматическими последовательностями слов, как и при вводе, но он будет допускать больше ошибок, поскольку отсутствует грамматический контекст.