Перефразирование PDF может быть чрезвычайно трудным, в некоторых случаях невозможным. Даже Adobe признается в строгих ограничениях с перекомпоновкой в собственной программе просмотра. Это связано с тем, что PDF, как и PostScript (и в отличие от других форматов, таких как Word или HTML), является языком описания страниц .
Вы, вероятно, сможете только переформатировать текст только без графики, и вы сможете делать это только в тех случаях, когда вы можете извлечь значимый текст из PDF ( нетривиальная задача сама по себе при отсутствии пометка , иногда практически невозможно .)
Проблемы, с которыми вы можете столкнуться с PDF-файлами без тегов:
- отсканированные документы без возможности поиска могут потребовать выполнения OCR
- буквы отображаются индивидуально, а не как часть строк (вам будет сложно определить, действительно ли PDF читается как
noted
, no ted
, not ed
, n o t e d
и т. Д.
- многостолбцовый текст, вставка текстовых полей и т. Д.
- отображение между текстом и шрифтом может быть запутано, т. Е. Буква
b
может отображаться на глиф A
шрифта и будет отображаться как A
- единственный способ разрешить это отображение - это OCR шрифта, или растеризовать PDF и OCR весь PDF
- и т.д.