Преобразовать 20k Word Doc в небольшие HTML-страницы с автоматически созданными метатегами? - PullRequest
0 голосов
/ 20 июля 2011

У меня огромное слово doc длиной 20000 слов, и я хотел бы загрузить его в свой блог.

Однако я хотел бы разбить его на небольшие (ish) веб-страницы и, если возможно, автоматически генерировать релевантные ключевые слова, теги заголовка и описания.Не могу найти инструмент для этого, так что я думаю о кодировании чего-то, но я действительно не знаю, с чего начать.Я пишу php / sql.Я думаю разбить его на каждые символы X, а затем создать метатеги из наиболее часто встречающихся слов.Что было бы довольно легко, но у него также есть довольно много изображений.Есть ли какая-нибудь библиотека php, которую я мог бы использовать для работы с документами?

1 Ответ

0 голосов
/ 20 июля 2011

OpenOffice имеет возможность преобразовывать Word Dox в X / HTML / XML / другие форматы.

Некоторое время назад я написал PHP-скрипт, который брал полученный XHTML-вывод из больших документов Word и затем выполнял XSL-преобразования - включая HTMLTidy - и перекачивал их в пользовательские шаблоны XHTML.

Результат, на удивление, был очень хорошим - с одной оговоркой. В зависимости от степени редактирования ваших документов Word - esp. с Track Change - вы можете обнаружить, что случайные символы выпадают полностью, и вы часто получаете дополнительный интервал.

В моем случае вывод был законным по своему характеру, поэтому я попросил нашу команду редактирования проанализировать вывод и дать мне честное мнение, и, честно говоря, они не чувствовали себя хорошо по отношению к отсутствующим символам, но я проверял орфографию на основе браузера взял бы большую часть этого.

Итак, мое решение для вас - использовать Open Office для преобразования в XHTML (я думаю, мне пришлось изменить макрос преобразования - там была очень простая опечатка, которая заставляла его задыхаться из памяти - возможно, это было исправлено ). А потом, пожалуйста, по-своему.

Проверьте мой профиль и напишите мне, если вам нужен сценарий, который я написал, и я отправлю вам исходный код завтра, если хотите, (хак, но он работает!).

РЕДАКТИРОВАТЬ: Испытывались многие другие решения, я забыл детали, за исключением того, что все они отстой гораздо больше, чем Open Office.

...