Как извлечь html escape-символы / сущности в виде текста при очистке веб-страниц? (Рубин и Нокогири) - PullRequest
2 голосов
/ 23 января 2010

В своем скрипте ruby ​​+ mechanize (nokogiri) я использую этот фрагмент кода:

row.at_xpath('td[3]/div[1]/a/text()').to_s.strip

на форуме, где заголовок сообщения html выглядит так:

<a href="showthread.php?t=233891" >&lt;/body&gt; on Footer ?</a>

и яполучить от xpath эту строку &lt;/body&gt; on Footer ?

Я хотел бы получить то, что вижу в веб-браузере </body> on Footer ?

Как можноЯ делаю это для всех html escape-символов / сущностей?

1 Ответ

1 голос
/ 23 января 2010

Пожалуйста, посмотрите это сообщение , чтобы скрыть htmlentities

или

Существует пакет ruby, который называется htmlentities

...