Проблема с обнаружением нескольких языков в списке токенов с помощью langid - PullRequest
0 голосов
/ 24 июня 2019

Я пытаюсь определить, есть ли английские и итальянские слова в предложении с токенами, которое читается из изображения в формате PDF.

Я пытался как langdetect, так и langid определить язык.Хотя в списке есть и итальянские слова, он распознает только английский.

Вот мой код на данный момент

tokens=['Maren', '1000', 'LEGEND', '/', 'LEGENDA', 'IME', 'NDUSTANLE', 'Wi',
'SENSIBELDALATIBEOL', 'SCALE', '/', 'SCALA', 'St']
lang, score = langid.classify(tokens)
print(lang , score)
#-- en -10.376239776611328

Как мне заставить его также распознавать итальянский?

...