У меня есть следующий код:
import nltk
sent='El gato está bajo la mesa de cristal.'
nltk.pos_tag(word_tokenize(sent), lang='spa')
Но вывод совсем не точен:
[('El', 'NNP'),
('gato', 'NN'),
('está', 'NN'),
('bajo', 'NN'),
('la', 'FW'),
('mesa', 'FW'),
('de', 'FW'),
('cristal', 'NN'),
('.', '.')]
Например, es
следует классифицировать как глагол.
Если я попробую то же самое, используя английскую фразу:
import nltk
sent='The cat is under the cristal table.'
nltk.pos_tag(word_tokenize(sent), lang='spa')
Все работает нормально:
[('The', 'DT'),
('cat', 'NN'),
('is', 'VBZ'),
('under', 'IN'),
('the', 'DT'),
('cristal', 'NN'),
('table', 'NN'),
('.', '.')]
Обратите внимание, что я загрузил все ресурсы nltk.Не могли бы вы сказать мне, что мне здесь не хватает, так что тегирование слов не работает на испанском языке?