Нужен простой способ отобразить текстовый документ в HTML - PullRequest
0 голосов
/ 22 марта 2011

Я получаю по электронной почте кучу документов .doc, которые я пишу сценарий на python для извлечения тела и любого файла .doc или .pdf, а также любого сообщения, которое они могли отправить, и в зависимости от ответа, который он может сделать больше, а затем я хочу отправить его на свой веб-сервер и иметь формат php-сценария для отображения.

Я хочу сделать любое преобразование на моем домашнем компьютере, потому что у меня нет доступа к веб-серверу в оболочке, а php - единственный поддерживаемый язык, который я (вроде) знаю. На рабочем столе я открыт для Python, C и C ++, которые я знаю лучше и больше подходят для работы. Я действительно хотел бы сохранить форматирование, если это возможно, и я не пытаюсь сделать из этого большой проект, поэтому, если он слишком сложный, я всегда могу просто загрузить .doc и открыть его локально.

Ответы [ 4 ]

2 голосов
/ 22 марта 2011

Существуют различные конвертеры Word в HTML - коммерческие и открытые конвертеры.Наиболее распространенный конвертер (с открытым исходным кодом), скорее всего, "wv".Вы также можете использовать Open-Office, например, использовать мост PyUNO (требуется работающий сервер OpenOffice).Если вы работаете в Windows, существуют различные коммерческие решения, позволяющие повторно использовать установленную установку Office.В общем: Google самостоятельно и выбрать конвертер в соответствии с вашими потребностями и требованиями.

2 голосов
/ 22 марта 2011

Используйте возможности Google, чтобы превратить все в HTML: http://docs.google.com/viewer?pli=1 Они даже включают в себя небольшое руководство по API, как использовать его на этой странице.

1 голос
/ 09 февраля 2013

Вы можете использовать наш Doc To HTML Converter для этой задачи.Это приложение устанавливается на ваш компьютер и одновременно конвертирует множество входных документов MS Word в пакетном режиме, используя MS Word для доступа к их оригинальному содержимому.Программа, хотя и не использует (X) механизм генерации HTML, встроенный в MS Word, вместо этого она использует свою собственную реализацию, специально предназначенную для создания компактного чистого кода.Для работы также не требуется доступ к Интернету.

0 голосов
/ 22 марта 2011

Использовать антислово для извлечения содержимого MS Word.

http://www.winfield.demon.nl/

Вы можете выбрать формат вывода XML, чтобы сохранить основное форматирование.Затем вы можете использовать XSLT для форматирования HTML.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...