Мне нужно простое текстовое представление произвольного файла HTML (например, сообщение в блоге). Пока это не проблема, есть десятки конвертеров HTML в TXT. Однако текст в параграфах (читается «p
elements») должен быть выровнен в виде простого текста (с определенным количеством столбцов) и, если возможно, переносится через дефис, чтобы дать лучший читаемый результат. Кроме того, полученный текстовый файл должен иметь формат UTF-8 или UTF-16.
Простой простой текстовый разговор, который я могу сделать с XSLT, это почти тривиально. Но обоснование текста находится за пределами его возможностей (не совсем верно, потому что XSLT завершен по Тьюрингу, но достаточно близок к реальности).
FOP и XSL-FO также не работают. Они делают так, как просили, но вывод простого текста FOP ужасен (разработчики говорят, что он не предназначен для такого использования).
Я также экспериментировал с HTML -> XSLT -> Roff, но я застрял с groff, и его поддержка Unicode далека от оптимальной. Поскольку существуют такие символы, как эллипсы ("...") и типографски правильные кавычки, довольно сложно сказать groff в таблице стилей XSLT escape-последовательности для десятков символов Unicode.
Другим способом может быть преобразование в TeX и вывод в виде простого текста, но я никогда не пробовал это раньше с (La) TeX.
Возможно, я упустил что-то действительно простое. У кого-нибудь есть идеи, как мне достичь вышеперечисленного? Кстати, решение должно предпочтительно работать без прав root для установки с PHP, Python, Perl, XSLT или любой программой, найденной в полу-приличном дистрибутиве Linux.