У меня проблема с использованием Tika для определения языка (в python). Сначала я заметил, что когда я анализирую PDF-файлы с parser.from_file(file)
, язык не включается в "часть метаданных" в большинстве случаев.
Таким образом, япопытался явно определить язык , и я получил в большинстве случаев "th" в результате, в то время как мои документы находятся на французском . Затем я скопировал содержимое файла PDF в простой текстовый файл , и в результате получился странный правильный . Вот код, который я использовал:
from tika import language
print(language.from_file(file))
Позвольте мне заметить, что я только что установил tika с командой pip install tika
без какой-либо дополнительной настройки. Что-то не так в процессе, который я использовал?