Существует ли библиотека для анализа PDF, которая может извлекать текст по заданным координатам? - PullRequest
1 голос
/ 02 сентября 2011

Доброе утро, ребята. Мне было поручено задание, в котором я должен извлекать текст из файла PDF (банковского счета) в соответствии с заданной спецификацией полей и разделов. Эта спецификация дана в файле YAML. Поля выражаются в виде набора из двух координат - верхнего левого и правого нижнего края прямоугольника, в котором находится текст, и имени поля. Я использую SnakeYAML для загрузки этой информации в объекты. Я был успешным до этого момента. В следующей части, где мне нужно извлечь текст из PDF-файлов, используя эти данные, ну ... я застрял здесь. Во-первых, я пока не могу решить, какую библиотеку PDF-анализа использовать. Можете ли вы предложить мне библиотеку парсинга PDF, подходящую для моей задачи, и как мне решить эту задачу? Спасибо!

1 Ответ

2 голосов
/ 02 сентября 2011

PDF Box может извлекать текст из заданной области. Посмотрите на PDFTextStripperByArea !

...