В ASP.NET, как лучше конвертировать PDF-файл в HTML? - PullRequest
1 голос
/ 10 ноября 2008

Что мои пользователи будут делать, это выбрать документ PDF на своем компьютере, загрузить его на мой веб-сайт, где я преобразую его в документ HTML для отображения на веб-сайте. Документ будет сохранен в базе данных после преобразования.

Какой лучший способ конвертировать PDF в HTML?

Мне было вручено требование, согласно которому пользователь должен создать «новостной» сюжет в формате PDF и затем загрузить его на сервер, где он будет преобразован в HTML и отображен на веб-сайте.

Ответы [ 6 ]

2 голосов
/ 10 ноября 2008

Любое программное обеспечение для создания документов, которое может сохранять документы в формате PDF, может сохранять их в формате HTML. Я предполагаю, что проблема заключается в том, что ваши пользователи будут создавать расширенные документы (много встроенных изображений), что приведет к созданию нескольких файлов, а ваши требования проистекают из желания сделать загрузку этих документов максимально простой для пользователя.

Существует множество конверсионных пакетов, которые, вероятно, могут сделать это для вас, однако, когда вы говорите о многофункциональном контенте, вы говорите о тексте и изображениях. Эти изображения нужно где-то хранить и каким-то образом обслуживать, и какой бы метод конвертации вы ни использовали, вам потребуется изучить все источники изображений, чтобы убедиться, что они указывают на действительные местоположения на вашем сервере.

Я хотел бы предложить альтернативный способ сделать это, который вы можете использовать в своей команде: реализовать один из многих API блогов для публикации контента. Существуют бесплатные и коммерческие пакеты программного обеспечения, которые используют эти API для публикации контента непосредственно на веб-сайте, например, Windows Live Writer и Microsoft Word. Ваши пользователи могут просто создавать свой контент и загружать его прямо на ваш сайт, не публиковая его сначала в формате PDF, а затем загружая его. Таким образом, процесс становится намного более плавным для ваших пользователей, и вы получаете сообщения в форме, которая не требует от вас тратить тысячи долларов на разработку или покупку кода конверсии.

Двумя наиболее распространенными API являются MetaWeblog API и API подвижного типа . Оба очень просты и просты в реализации. Я думаю, что этот путь будет НАМНОГО лучшей альтернативой, чем то, о чем вы думаете.

1 голос
/ 10 ноября 2008

Почему бы не использовать iTextSharp для чтения содержимого PDF? Затем Вы можете сохранить как двоичный PDF, так и текстовое содержимое в базу данных. Затем вы можете позволить пользователям выполнять поиск содержимого и загружать PDF.

1 голос
/ 10 ноября 2008

Все, что для этого потребовалось, - это простой поиск в Google "PDF to HTML": http://www.gnostice.com/pdf2manyOverview_x.asp. Я уверен, что есть и другие.

Так что, хотя это «возможно», вы можете объяснить своему менеджеру, что это не лучшее решение для управления контентом.

1 голос
/ 10 ноября 2008

Я бы порекомендовал не делать этого, ЕСЛИ ВОЗМОЖНО (но мы все знаем, на что похожи менеджеры), так что ...

Я бы порекомендовал вам избегать преобразования PDF в / из HTML (потому что, если вы не сможете найти коммерческое решение, оно почти невозможно), а вместо этого сделайте, как уже упоминалось, и сохраните его в виде закодированной строки Base64. или BLOB или какой-либо другой двоичный формат в базе данных, а затем отобразите его пользователю с помощью своего рода плагина просмотра PDF для браузера.

1 голос
/ 10 ноября 2008

Я не думаю, что преобразование PDF в строку HTML обязательно является лучшей идеей, особенно если вы хотите экспортировать ее обратно в PDF. Файлы PDF часто содержат двоичные элементы, такие как изображения, поэтому лучше всего преобразовать их в ASCII с помощью кодировки, такой как Base64. Таким образом, у вас будет строка ASCII, которую вы можете сохранить в текстовое поле в БД и затем преобразовать обратно. Не могли бы вы подробнее рассказать об основных требованиях?

0 голосов
/ 10 ноября 2008

Вы должны заглянуть в DynamicPDF. У них есть конвертер (в настоящее время бета), предназначенный именно для этой цели. Мы с большим успехом использовали их продукты (особенно для выгрузки отчетов Reporting Services непосредственно в PDF).

Ссылка: http://www.dynamicpdf.com/

...