Сначала немного предыстории: мой сайт имеет два основных типа пользователей. Пользователи с бесплатными учетными записями могут загружать документы, а платные клиенты могут затем искать, просматривать или загружать эти документы. Загрузчики могут просматривать только те документы, которыми они владеют, а платные клиенты могут просматривать все что угодно. В настоящее время мы поддерживаем только документы Word (.doc или .docx) и простой текст. Мы используем библиотеку JODConverter для преобразования между Word и html; html - это то, что хранится в базе данных и что отображается для пользователей.
Мы хотим перейти к принятию PDF-файлов, но я не уверен, как лучше всего либо отображать PDF-файлы, либо конвертировать их в HTML. Я видел предложения использовать Google docs для конвертации на лету, но не представляется возможным ограничить доступ должным образом, учитывая, что документ должен быть общедоступным для Google - исправьте меня, если я ошибаюсь. Кажется, что просто использование тега в html (или что-то вроде PDFBox) может привести к той же проблеме.
В качестве альтернативы мы могли бы забыть отображать PDF-файлы напрямую и конвертировать их в html, как мы это делаем с документами Word, но я еще не нашел достойную библиотеку для этого. Все, на что я смотрел до сих пор, похоже, говорит о том, что это не очень хорошо для конвертации работы, только для окон и / или требует огромного лицензионного сбора. (Лицензионный сбор не обязательно является нарушителем, если он не превышает 100 долларов в год или около того.) Кто-нибудь знает хорошую библиотеку преобразования Java? (То, что выполняется через командную строку, было бы приемлемо, если бы оно действительно выполняло хорошую работу.)
И последнее, мы планируем предложить платным клиентам возможность загрузки оригинальных файлов PDF. Это может быть сложно? Есть ли что-то, что я должен иметь в виду при построении остальной части процесса?