Я получаю беспорядок случайных символов при открытии файла DOCX, преобразованного из файла PDF с китайским текстом
Но когда я прямо использую python для извлечения текста из PDF (Tika PDF parser), текст получается нормально - так что, похоже, не возникает проблем с целостностью текста в самом файле PDF. .
Однако, поскольку я хочу сохранить форматирование, мне нужно преобразовать этот PDF-файл в файл DOCX, а не просто преобразовать его в текстовый файл и вставить текст в текстовый документ.
Возможные решения могут включать:
Способ указания кодировки при открытии файла DOCX в Libre Office
Инструмент преобразования PDF в DOCX, который позволит мне указать кодировку