Question

Я пытаюсь извлечь каждую ссылку href на html-странице для оценки w / nokogiri и xpath.То, что я имею до сих пор, похоже, вытаскивает только заголовки страниц.Меня не интересует заголовок ссылки, а только URL, на который указывает ссылка.

Вот что у меня есть:

doc = Nokogiri::HTML(open("http://www.cnn.com"))
doc.xpath('//a').each do |node|
  puts node.text
end

Может кто-нибудь подсказать мне, как это исправить, чтобы я вытащил реальный href вместо самого текста?

Chris Cameron-Mills · Answer 1 · 04 августа 2010

Ваш XPATH из // a отбрасывает все элементы.Который включает в себя текстовое содержание.Вы можете использовать @attrname для доступа к атрибутам.Например,

//a/@href

Получит вам ссылку на каждый a в документе

Я пытаюсь извлечь каждую ссылку href на html-странице для оценки с nokogiri и xpath

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Я пытаюсь извлечь каждую ссылку href на html-странице для оценки с nokogiri и xpath

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы