Question

Я получаю беспорядок случайных символов при открытии файла DOCX, преобразованного из файла PDF с китайским текстом

Но когда я прямо использую python для извлечения текста из PDF (Tika PDF parser), текст получается нормально - так что, похоже, не возникает проблем с целостностью текста в самом файле PDF. .

Однако, поскольку я хочу сохранить форматирование, мне нужно преобразовать этот PDF-файл в файл DOCX, а не просто преобразовать его в текстовый файл и вставить текст в текстовый документ.

Возможные решения могут включать:

Способ указания кодировки при открытии файла DOCX в Libre Office

Инструмент преобразования PDF в DOCX, который позволит мне указать кодировку

Проблемы с кодированием при конвертации PDF в DOCX

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Проблемы с кодированием при конвертации PDF в DOCX

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы