У меня проблема с извлечением текста из PDF с использованием PDFTextStripper
из PDFBox 2.0.13
. Чтобы быть более конкретным - линии, которые находятся слишком близко друг к другу, объединяются вместе. Например:
![enter image description here](https://i.stack.imgur.com/MmtGo.png)
В первой строке есть текст " signfieldbig ", во второй строке есть подчеркивания, но PDFTextStripper
проанализировал его как " s_i_g_n_fi_e_ld_b_ig_ _______ " (он объединил обе строки в одну ). Я пробовал несколько настроек (разные линии Separator, Tresholds и т.д ..), но ничего не помогло Эти две строки были объединены каждый раз, и я не могу просто удалить все ненужные символы из текста, потому что я ищу позицию этого заполнителя для создания поля подписи.
ОБНОВЛЕНИЕ: Я только что понял, что вызвало эту проблему - в исходном файле не две нормальные строки, разделенные разделителем строк, а одна строка с подчеркиванием и текстовая область, помещенная вручную, с текстом " placeholder " над этим. Но, тем не менее, средство просмотра PDF (просматривая его как текст) или другая библиотека PDF (iText 2.x) анализирует его как две отдельные строки ...