есть ли конкретный формат, который понимают все приложения (то есть специально такие читатели, как doc, pdf) - PullRequest
0 голосов
/ 29 августа 2010

я столкнулся со многими проблемами при преобразовании html-данных на странице в pdf и в документ, удостоверяющийся, что изображения также появляются в преобразованной статье, но не удалось

Я понимаю, что XML - это нечто вроде основы

так ли это?

и как его использовать?

Я имею в виду любое руководство о том, как сгенерировать XML-страницу, а затем изменить ее расширение на необходимое (pdf,doc)?

с использованием vs08, asp.net, c #

1 Ответ

4 голосов
/ 29 августа 2010

Короткий ответ - нет.
Если был такой формат, почему бы не все приложения использовать его в первую очередь?

Примечание о разных форматах

Почти все приложения для документов понимают простой текст (а приложения для работы с изображениями и т. Д. - нет). Проблема с простым текстом в том, что он не содержит никакого форматирования. Без картинок, без размера шрифта, без полей, ничего, кроме текста. Вот также основная причина, почему существует много разных форматов, форматирование.

Взять, к примеру, HTML. HTML хорош для потокового текста на веб-сайтах с непрерывным блоком текста, который перемещается с помощью полосы прокрутки. Нет разрывов страниц, может адаптироваться к разной ширине столбца в зависимости от размера экрана и т. Д. HTML также очень динамичен, страницы могут расширять разделы, заменять содержимое и реагировать на ввод пользователя.

Напротив, возьмите PDF. PDF ориентирован на страницы, фиксированная ширина и высота страниц. Он также предназначен только для просмотра. Обтекание текста исправлено с явными переносами строк. (Скопируйте текст из PDF-документа в документ Word и вставьте немного текста в середину строки, и разрыв строки будет настоящим беспорядком). PDF эмулирует печатную страницу с полями и всем прочим.

Где-то посередине находится документ Word. Страница ориентирована как PDF, но не такая фиксированная по форме, как PDF-документ, для поддержки приятного редактирования. Разделы текстов хорошо переплетаются, когда текст вставляется посередине. Он довольно гибок при редактировании, но конечный результат такой же строгий, как и PDF. При печати документа Word распечатка будет выглядеть точно так же, как на экране.

XML

XML - это очень общий формат, вы можете думать о нем как о формате для форматов. XML сам по себе ничего не говорит о контенте, вам нужно отдельное описание того, как интерпретировать XML для данного приложения. Существуют спецификации, такие как DocBook , которые определяют, как описать документ в XML. Но это не точное описание того, как будет выглядеть документ. Он отделяет контент от макета. Вам необходимо применить макет / шаблон для создания видимого формата вывода. Из XML DocBook вы можете создавать PDF, HTML и т. Д.

Не существует способа преобразования данного формата документа в XML, даже такого XML-формата, как DocBook. Форматы на основе XML могут использоваться в качестве исходного формата для создания другого видимого формата.

Примечание о конвертации

Проблема преобразования различных форматов друг в друга проистекает из разных целей и сильных сторон каждого формата. Один формат просто не подходит или даже не способен правильно описать свойства другого формата. Не существует общего метода преобразования между форматами, потому что форматы, такие как PDF, не раскрывают структуру документа в многократном использовании.

Как публиковать в разных форматах

Ключом к успеху при публикации в разных форматах является отделение контента от макета. Вам необходимо указать, какой текст у вас есть, какова структура (заголовки, разделы и т. Д.), Какие изображения у вас есть и как они связаны с вашими разделами текста. Текст и описание структуры могут быть в формате XML, в базе данных или в другом месте.

Затем вам понадобится инструмент для генерации каждого выходного формата из шаблона с использованием какого-либо инструмента.

Примечание о форматах изображений

С другой стороны, форматы изображений намного проще конвертировать между собой (при условии, что вы конвертируете пиксельные форматы в пиксельные форматы и векторные форматы в векторные форматы), поскольку конечный результат точно такой же. Разница между различными форматами изображений заключается в основном в алгоритме сжатия, который используется для сжатия изображений. При распаковке изображений исходное изображение со всей его информацией восстанавливается (за исключением незначительных артефактов сжатия).
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...