Разбор только контента в узлах HTML через Nokogiri в Ruby - PullRequest
0 голосов
/ 18 февраля 2012

Предположим, я проанализировал строку HTML, которая выглядит следующим образом ...

<a href="http://www.google.com" class="blah"><img src="logo.png" border="0"></img><br><span class="red">Go to google!</span></a>

Это всего лишь пример ... но как мне разобраться со всем, кроме следующего:

http://www.google.com
logo.png
Go to google!

Также можно ли искать подстановочные знаки?

Ответы [ 2 ]

1 голос
/ 18 февраля 2012

Может быть так:

doc = Nokogiri::HTML '<a href="http://www.google.com" class="blah"><img src="logo.png" border="0"></img><br><span class="red">Go to google!</span></a>'
doc.xpath('//*/@href|//*/@src|//*/text()').map(&:to_s)
1 голос
/ 18 февраля 2012

Если бы вы могли использовать некоторые драгоценные камни, это будет очень простая работа.Я бы порекомендовал вам Mechanize gem.Справка: http://mechanize.rubyforge.org/Mechanize.html

...