Python pdfminer не показывает символы utf-8 должным образом - PullRequest
0 голосов
/ 26 сентября 2018

Я извлекаю текст на французском языке из PDF, используя pdfminer и python.Проблема в том, что я не вижу акценты типа éàã ... и т.д.

Например:

на собственном месте (ce qu'il faut faire) на местностисоциальная, семейная жизнь, любовь, семья, дети, дети, родители.Les donnes es sociales и familiales qu6becoises ne sont pas les donnes francaises.

Я использую команду:

pdf2txt.py -c utf-8 sample.pdf

Я установил CJK Languages, но все ещене работаетЯ использую python 2.7.10.

Есть предложения о том, как правильно отображать символы?

...