Я хотел бы прочитать содержимое PDF с изображениями, текстом и таблицей - PullRequest
0 голосов
/ 04 января 2019

Желаю всем мирного Нового Года !!

Я очень новичок в чтении содержимого PDF с изображениями, текстом и таблицей. Я просмотрел много сайтов и использовал iTextSharp (TextWithFontExtractionStategy) для чтения и преобразования контента в HTML, а я делал только с текстом. Я искал предложения на многих сайтах, но не смог найти решение.

Теперь, чего я хочу добиться, так это того, что я хотел бы читать контент из PDF, содержащий текстовые изображения и таблицу, и конвертировать его в HTML. Я узнал, что трудно идентифицировать изображение и таблицу.

для изображения - Я не хочу извлекать изображение из PDF, так как собираюсь оставить какой-нибудь заполнитель для изображения, чтобы я мог дать альтернативный текст. Можно ли идентифицировать изображение при чтении содержимого PDF, если оно есть? Потому что iTextShrp (TextWithFontExtractionStategy) пропускает изображение и читает следующий элемент.

для таблицы - Я хочу прочитать таблицу о том, как она присутствует в PDF.

Все эти преобразования должны быть приведены в одном результате.

Если кто-нибудь поможет мне, это будет с благодарностью !!.

Заранее большое спасибо !!

1 Ответ

0 голосов
/ 04 января 2019

Учитывая, что вы будете разрабатывать с .NET, вы можете использовать библиотеку PDFSharp .

Съемка изображений

Существует превосходный ответ SO , относящийся к поиску табличных данных в отношении спецификации PDF.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...