Проблемы с кодированием при конвертации PDF в DOCX - PullRequest
0 голосов
/ 30 апреля 2019

Я получаю беспорядок случайных символов при открытии файла DOCX, преобразованного из файла PDF с китайским текстом

Но когда я прямо использую python для извлечения текста из PDF (Tika PDF parser), текст получается нормально - так что, похоже, не возникает проблем с целостностью текста в самом файле PDF. .

Однако, поскольку я хочу сохранить форматирование, мне нужно преобразовать этот PDF-файл в файл DOCX, а не просто преобразовать его в текстовый файл и вставить текст в текстовый документ.

Возможные решения могут включать:

  • Способ указания кодировки при открытии файла DOCX в Libre Office

  • Инструмент преобразования PDF в DOCX, который позволит мне указать кодировку

...