Чтобы извлечь текст из PDF и получить его позицию, вы можете использовать PDFMiner . PDFMiner также может экспортировать PDF напрямую в HTML, сохраняя текст в хорошем положении.
Я не знаю ваш вариант использования, но при этом вы можете столкнуться с множеством проблем, потому что PDF действительно ориентирован на презентацию, а не на контент, поток текста не является непрерывным. Поэтому, если вы хотите, чтобы текст был редактируемым, это будет непростой задачей.