Как найти x, y расположение текста в pdf - PullRequest
5 голосов
/ 19 января 2011

Существует ли какой-либо инструмент для поиска местоположения X-Y для текстового содержимого в файле PDF?

Ответы [ 3 ]

5 голосов
/ 20 января 2011

Docotic.Pdf Library может это сделать. См. Образец C # ниже:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need"))
{
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData())
        Console.WriteLine(textData.Position + " " + textData.Text);
}
1 голос
/ 23 января 2011

TET , набор инструментов для извлечения текста из семейства продуктов pdflib может сделать это. TET имеет интерфейс командной строки, и это самый мощный из всех известных мне инструментов для извлечения текста. (Он может даже обрабатывать лигатуры ...)

Геометрия
TET предоставляет точные метрики для текста, такие как положение на странице, ширина глифа и направление текста. Определенные области на странице могут быть исключены или включены в извлечение текста, например, игнорировать верхние и нижние колонтитулы или поля.

1 голос
/ 19 января 2011

Попробуйте запустить «Preflight ...» в Acrobat и выберите PDF Analysis -> List page objects, grouped by type of object.

Если вы найдете текстовые объекты в списке результатов, вы заметите, что в разделе Text Properties -> * Font есть значение позиции (в пунктах).

...