Question

Доброе утро, ребята. Мне было поручено задание, в котором я должен извлекать текст из файла PDF (банковского счета) в соответствии с заданной спецификацией полей и разделов. Эта спецификация дана в файле YAML. Поля выражаются в виде набора из двух координат - верхнего левого и правого нижнего края прямоугольника, в котором находится текст, и имени поля. Я использую SnakeYAML для загрузки этой информации в объекты. Я был успешным до этого момента. В следующей части, где мне нужно извлечь текст из PDF-файлов, используя эти данные, ну ... я застрял здесь. Во-первых, я пока не могу решить, какую библиотеку PDF-анализа использовать. Можете ли вы предложить мне библиотеку парсинга PDF, подходящую для моей задачи, и как мне решить эту задачу? Спасибо!

Vlad · Answer 1 · 02 сентября 2011

PDF Box может извлекать текст из заданной области. Посмотрите на PDFTextStripperByArea !

Существует ли библиотека для анализа PDF, которая может извлекать текст по заданным координатам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Существует ли библиотека для анализа PDF, которая может извлекать текст по заданным координатам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы