Я хотел бы получить фактические строки URL из гиперссылок.Я хотел бы, чтобы мой результат был лишен html.
Итак, если одна из моих входных строк будет
<a href="http://target.com/resource.tar.gz">resource</a>
, я бы хотел получить:
http://target.com/resource.tar.gz
Как я могу это сделать?
В Hpricot вы получаете доступ к атрибутам элемента, используя квадратные скобки (как при доступе к элементам в Hash). Итак, чтобы использовать ваш пример:
doc = Hpricot('<a href="http://target.com/resource.tar.gz">resource</a>') puts doc.at('a')['href'] # => http://target.com/resource.tar.gz