Unescape HTML-код из функции JavaScript в ruby - PullRequest
1 голос
/ 21 ноября 2011

У меня есть скребок ruby19, который загружает следующие страницы, как в браузере ajax, и эти следующие страницы являются javascripts - что-то вроде:

...DOM.appendContent(this, HTML(\"\\u003cdiv class=\\\"...\\\">...

Я ищу простой способ, как убрать содержимое HTML, чтобы можно было подать его в Nokogiri - получить <div class="...">... из \\u003cdiv class=\\\"...\\\">...

1 Ответ

0 голосов
/ 29 марта 2013

Попробуйте CGI::unescapeHTML(html_escaped_string)

Для получения дополнительной информации проверьте документы Ruby: http://www.ruby -doc.org / stdlib-2.0 / libdoc / cgi / rdoc / CGI.html # method-c-unescapeHTML

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...