преобразование HTML в текст с помощью Perl - PullRequest
5 голосов
/ 11 января 2012

У меня есть куча html-файлов, и мне нужно конвертировать и форматировать их в текст с помощью perl, т.е. что-то вроде <br/> будет преобразовано в \n

Я нашел этот модуль perl в cpan html :: formattext, он хорошо форматирует текст, но если есть ссылка, он удаляет его, есть ли опция с HTML :: FormatText для форматирования HTML как текст, но когда есть такие ссылки

<a href="http://www.microsoft.com>http://www.microsoft.com</a>

То есть что-то вроде этого:

<br /><b>Microsoft</b><br /><a href="http://www.microsoft.com>`

будет преобразовано в:

microsoft
http://www.microsoft.com

1 Ответ

7 голосов
/ 12 января 2012

Взгляните на HTML :: FormatText :: WithLinks

Установка опции after_link, скажем, "(% l)" поместит ссылку в строку после текста привязки. В вашем примере вы получите Microsoft (http://www.microsoft.com).

...