Question

Я пытаюсь определить, есть ли английские и итальянские слова в предложении с токенами, которое читается из изображения в формате PDF.

Я пытался как langdetect, так и langid определить язык.Хотя в списке есть и итальянские слова, он распознает только английский.

Вот мой код на данный момент

tokens=['Maren', '1000', 'LEGEND', '/', 'LEGENDA', 'IME', 'NDUSTANLE', 'Wi',
'SENSIBELDALATIBEOL', 'SCALE', '/', 'SCALA', 'St']
lang, score = langid.classify(tokens)
print(lang , score)
#-- en -10.376239776611328

Как мне заставить его также распознавать итальянский?

Проблема с обнаружением нескольких языков в списке токенов с помощью langid

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Проблема с обнаружением нескольких языков в списке токенов с помощью langid

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы