Я пытаюсь извлечь каждую ссылку href на html-странице для оценки с nokogiri и xpath - PullRequest
3 голосов
/ 04 августа 2010

Я пытаюсь извлечь каждую ссылку href на html-странице для оценки w / nokogiri и xpath.То, что я имею до сих пор, похоже, вытаскивает только заголовки страниц.Меня не интересует заголовок ссылки, а только URL, на который указывает ссылка.

Вот что у меня есть:

doc = Nokogiri::HTML(open("http://www.cnn.com"))
doc.xpath('//a').each do |node|
  puts node.text
end

Может кто-нибудь подсказать мне, как это исправить, чтобы я вытащил реальный href вместо самого текста?

1 Ответ

3 голосов
/ 04 августа 2010

Ваш XPATH из // a отбрасывает все элементы.Который включает в себя текстовое содержание.Вы можете использовать @attrname для доступа к атрибутам.Например,

//a/@href

Получит вам ссылку на каждый a в документе

...