Я пытаюсь извлечь данные [цену, информацию и количество] из PDF (у меня более 10 000 PDF, поэтому бесплатная пробная версия сайта не будет работать).Вот один пример PDF, который я получаю:
![enter image description here](https://i.stack.imgur.com/WpOm5.png)
Я попробовал его на Python (новичок в этом виде задач, а также на Python) с несколькими пакетамикак PyPDF2, pdfx и т. д., но я получаю только такой текст
с PyPDF2:
![enter image description here](https://i.stack.imgur.com/F3z5O.png)
Так что это возможноизвлекать цену, число и информацию, но у меня другой формат pdf, поэтому невозможно просто с текстом и некоторые алгоритмы извлекать информацию.
Что я хочу сделать, и это возможно, потому чтомногие сайты делают это и заставляют людей платить за это.Я хочу прочитать его по вертикали и преобразовать данные, извлеченные в XML / JSON или просто в набор данных.
Я хочу читать документ по столбцам, а не по строке
![enter image description here](https://i.stack.imgur.com/4woOl.png)
Есть ли способ сделать это на python или других языках?