Не работает определение языка из тика-питона - PullRequest
0 голосов
/ 06 ноября 2019

У меня проблема с использованием Tika для определения языка (в python). Сначала я заметил, что когда я анализирую PDF-файлы с parser.from_file(file), язык не включается в "часть метаданных" в большинстве случаев.

Таким образом, япопытался явно определить язык , и я получил в большинстве случаев "th" в результате, в то время как мои документы находятся на французском . Затем я скопировал содержимое файла PDF в простой текстовый файл , и в результате получился странный правильный . Вот код, который я использовал:

from tika import language 
print(language.from_file(file))

Позвольте мне заметить, что я только что установил tika с командой pip install tika без какой-либо дополнительной настройки. Что-то не так в процессе, который я использовал?

...