Как прочитать пустую ячейку в файле PDF в ASP.net - PullRequest
0 голосов
/ 13 декабря 2010

Я могу читать PDF-файл, используя PDFBOX, в моем приложении ASP.net, но он не добавляет места для пустой ячейки таблицы, так как читать пустые поля из PDF-файла с помощью PDFBOX в C #. Есть ли другой способ прочитать файл PDF.

Спасибо.

1 Ответ

0 голосов
/ 14 декабря 2010

Вы могли бы быть в состоянии осуществить такие вещи, если вы точно знаете, где текст должен быть заранее, и можете получить расположение текста по мере его извлечения.

Если вы заранее не знаете, где находятся строки и ячейки, вам придется угадывать, исходя из расположения текста.Это будет нелегко.

Как правило, извлечение данных из PDF не рекомендуется.В PDF-файлах отсутствует понятие «таблицы» (если только создатель PDF-файлов не использует этот «метод маркированного содержимого», что все еще встречается редко).PDF-файлы содержат линии, глифы и изображения (куча пикселей).Из этой информации очень сложно извлечь форматирование ... а иногда это практически невозможно.

Я не знаю, даст ли PDFBox местоположение извлеченного текста, а iTextSharp -.

...