программа для преобразования / компиляции нескольких файлов .pdf, извлеченных из базы данных, в один файл .pdf / text file / html - PullRequest
0 голосов
/ 29 ноября 2011

мой друг работает в местном правительстве и говорит, что его офис тратит много времени на выполнение процесса, описанного в названии, а именно: 1. запросить базу данных для имени. рассматриваемая база данных более ebscohost, чем MySQL. 2. индивидуальное удаление текста из серии .pdf. 3. вставка / вывод этих результатов в один файл.

мой ограниченный опыт работы в php, javascript, html и т. Д., И я просто не думаю, что у них есть возможность читать такие типы файлов, поправьте меня, если я ошибаюсь. Так что я думаю, что я просто искал 1. язык / или подход, который мог бы хорошо вписаться в то, что я уже выучил. 2. Описание того, сколько это будет предпринято. Я собираюсь попробовать получить немного более точную информацию от него и добавлю, что, когда я получу это. Также у меня нет необходимого представителя, чтобы добавить '.pdf' к тегам, кажется, что он подходит. Заранее спасибо!

1 Ответ

0 голосов
/ 29 ноября 2011

Возможно, есть лучшие инструменты, но вы можете достичь своей цели, комбинируя две утилиты:

  1. Средство извлечения простого текста (например, Apache Tika), которое будет извлекать содержимое простого текста из файла PDF
  2. Конвертер из HTML в PDF (вы создаете целевой документ в HTML и конвертировать его в PDF, когда будете готовы). Одним из таких инструментов является wkhtmltopdf (http://code.google.com/p/wkhtmltopdf/)

Сначала вы извлекаете простой текст из входных файлов PDF, а затем создаете выходной документ в формате html, вставляя текст, извлеченный из PDF, в какой-то шаблон HTML. Затем вы конвертируете HTML в PDF-файл. Таким образом, вам никогда не придется прикасаться к внутренностям документа PDF, вы работаете только с простым текстом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...