Использование LocationTextExtractionStrategy в itextSharp для текстовой координаты - PullRequest
2 голосов
/ 22 сентября 2011

Моя цель - извлечь данные из PDF, которые могут иметь структуру таблицы, в файл Excel.

используя LocationTextExtractionStrategy с iTextSharp, мы можем получить строковые данные в виде простого текста с содержимым страницы слева направо.

Как мне двигаться вперед так, чтобы во время

PdfTextExtractor.GetTextFromPage (читатель, i, новый LocationTextExtractionStrategy ())

Я мог бы сделать так, чтобы текст сохранил свою координату в результирующей строке.

Как, например, если первая строка в pdf имеет текст, выровненный по правому краю, то результирующая строка должна содержать конечные пробелы или пробелы, сохраняющие содержимое по правому краю.

Пожалуйста, дайте несколько советов, как я могу добиться того же.

1 Ответ

9 голосов
/ 22 сентября 2011

Очень важно понимать, что PDF-файлы не поддерживают таблицы .Все, что выглядит как таблица, на самом деле представляет собой просто набор текста, размещенный в определенных местах на фоне линий.Это очень важно, и вы должны помнить об этом, когда работаете над этим.См. этот пост для простого примера этого.Затем см. Этот пост для более сложного примера подкласса.Последнее не совсем соответствует вашей цели, но показывает некоторые более сложные вещи, которые вы можете сделать.

...