Нужен совет по отображению (и / или конвертации) файлов PDF в Интернете - PullRequest
3 голосов
/ 23 марта 2012

Сначала немного предыстории: мой сайт имеет два основных типа пользователей. Пользователи с бесплатными учетными записями могут загружать документы, а платные клиенты могут затем искать, просматривать или загружать эти документы. Загрузчики могут просматривать только те документы, которыми они владеют, а платные клиенты могут просматривать все что угодно. В настоящее время мы поддерживаем только документы Word (.doc или .docx) и простой текст. Мы используем библиотеку JODConverter для преобразования между Word и html; html - это то, что хранится в базе данных и что отображается для пользователей.
Мы хотим перейти к принятию PDF-файлов, но я не уверен, как лучше всего либо отображать PDF-файлы, либо конвертировать их в HTML. Я видел предложения использовать Google docs для конвертации на лету, но не представляется возможным ограничить доступ должным образом, учитывая, что документ должен быть общедоступным для Google - исправьте меня, если я ошибаюсь. Кажется, что просто использование тега в html (или что-то вроде PDFBox) может привести к той же проблеме.
В качестве альтернативы мы могли бы забыть отображать PDF-файлы напрямую и конвертировать их в html, как мы это делаем с документами Word, но я еще не нашел достойную библиотеку для этого. Все, на что я смотрел до сих пор, похоже, говорит о том, что это не очень хорошо для конвертации работы, только для окон и / или требует огромного лицензионного сбора. (Лицензионный сбор не обязательно является нарушителем, если он не превышает 100 долларов в год или около того.) Кто-нибудь знает хорошую библиотеку преобразования Java? (То, что выполняется через командную строку, было бы приемлемо, если бы оно действительно выполняло хорошую работу.)
И последнее, мы планируем предложить платным клиентам возможность загрузки оригинальных файлов PDF. Это может быть сложно? Есть ли что-то, что я должен иметь в виду при построении остальной части процесса?

1 Ответ

1 голос
/ 23 марта 2012

Вместо преобразования PDF в HTML, что означает какое-то распознавание текста (распознавание текста), вы можете преобразовать PDF в изображения с помощью таких инструментов, как JPedal и создать страницу HTML, которая ссылается на эти изображенияПоследовательный порядок.Поскольку это библиотека Java, это не только окна.

Загрузка оригинальных файлов PDF не должна быть проблемой.Вы должны просто установить mimetype на стандартное расширение PDF: application / pdf в заголовке.

...