Question

У меня проблема с использованием Tika для определения языка (в python). Сначала я заметил, что когда я анализирую PDF-файлы с parser.from_file(file), язык не включается в "часть метаданных" в большинстве случаев.

Таким образом, япопытался явно определить язык , и я получил в большинстве случаев "th" в результате, в то время как мои документы находятся на французском . Затем я скопировал содержимое файла PDF в простой текстовый файл , и в результате получился странный правильный . Вот код, который я использовал:

from tika import language 
print(language.from_file(file))

Позвольте мне заметить, что я только что установил tika с командой pip install tika без какой-либо дополнительной настройки. Что-то не так в процессе, который я использовал?

Не работает определение языка из тика-питона

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Не работает определение языка из тика-питона

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы