Трудность здесь вызвана тем, что текст в PDF не содержится ни в одной таблице.Может показаться, что это так, но под поверхностью это не так.
Так что есть несколько вариантов, о которых я могу подумать.Но ни один из них не будет настолько удовлетворительным, как вам бы того хотелось.
- Есть некоторые компании, которые предлагают SDK для преобразования PDF в Excel / Word.Investintech и Iceni - пара примеров.Но эти решения не являются бесплатными.
- Если вы знаете точный макет файлов PDF, из которого нужно извлечь данные таблицы, тогда вы можете использовать любой SDK, который позволяет извлекать текст из PDF, а также сообщаетВы точные координаты извлеченного текста.Используя этот метод, вам нужно заранее знать, где будет находиться текст, чтобы вы могли извлечь текст из определенной области на странице.Очевидно, что это не сработает, если вам потребуется обработать какой-либо случайный документ.
Это сложная задача, но, надеюсь, это даст вам отправную точку.