Я пытаюсь определить, есть ли английские и итальянские слова в предложении с токенами, которое читается из изображения в формате PDF.
Я пытался как langdetect
, так и langid
определить язык.Хотя в списке есть и итальянские слова, он распознает только английский.
Вот мой код на данный момент
tokens=['Maren', '1000', 'LEGEND', '/', 'LEGENDA', 'IME', 'NDUSTANLE', 'Wi',
'SENSIBELDALATIBEOL', 'SCALE', '/', 'SCALA', 'St']
lang, score = langid.classify(tokens)
print(lang , score)
#-- en -10.376239776611328
Как мне заставить его также распознавать итальянский?