Hpricot parse image alt text - PullRequest
       2

Hpricot parse image alt text

0 голосов
/ 05 ноября 2010

Я пытаюсь извлечь альтернативный текст из всех изображений на странице, используя Hpricot, но не могу понять, как это сделать.

Кто-нибудь делал это раньше?

Спасибо!Dennis

1 Ответ

2 голосов
/ 05 ноября 2010

Я впервые использую Hpricot , так что будьте осторожны.Я думаю, что это изолирует данные, о которых вы спрашивали.

require 'rubygems'
require 'hpricot'

page = "<html><body><p>Create a link of an image:<a href=\"default.asp\"><img src=\"smiley.gif\" alt=\"alt_text_1\" width=\"32\" height=\"32\" /></a></p><p>No border around the image, but still a link:<a href=\"default.asp\"><img border=\"0\" src=\"smiley.gif\" alt=\"alt_text_2\" width=\"32\" height=\"32\" /></a></p></body></html>"
doc = Hpricot(page)

doc.search("//img").each do |img|
    puts img.attributes['alt']
end

Вывод выглядит так:

#=> alt_text_1
#=> alt_text_2
...