В общем случае это невозможно.
Если документ PDF не помечен тегом, сам документ не содержит информации о структуре.Проще говоря, документ не знает, какие части являются таблицами, или строками таблицы, или даже абзацами.Если не сказать невозможно в общем случае.
Используя pdf2Data, вы можете добиться этого.Предостережение заключается в том, что вы должны определить шаблон заранее.Поэтому вам нужно сообщить программе, где она может ожидать таблицу.
Вы можете взглянуть на SimpleTextExtractionStrategy
в iText
.Он по существу обрабатывает всю информацию рендеринга и решает, когда объединить текст с существующим буфером.
В некоторый момент кода он решает, что, если буфер уже заканчивается пробелом, больше пробела не должно добавляться.
Я бы предложил вам создать собственную реализацию SimpleTextExtractionStrategy
, которая переопределяет это поведение и всегда вставляет пробелы.