Приветствую всех:
Я хотел бы получить информацию из огромной коллекции страниц результатов поиска Google.
Единственное, что мне нужно, это URL-адреса внутри набора <cite></cite>
HTML-тегов.
Я не могу найти какое-либо иное решение для решения этой проблемы, поэтому теперь я перехожу на ruby.
Это то, что я написал:
require 'net/http'
require 'uri'
url=URI.parse('http://www.google.com.au')
res= Net::HTTP.start(url.host, url.port){|http|
http.get('/#hl=en&q=helloworld')}
puts res.body
К сожалению, я не могу использовать рекомендуемый гем hpricot ruby (потому что он пропускает команду make или что-то в этом роде?)
Так что я бы хотел придерживаться этого подхода.
Теперь, когда я могу получить тело ответа в виде строки, единственное, что мне нужно, - это извлечь все, что находится внутри города (удалить i, чтобы увидеть настоящее имя :)) HTML-теги.
Как мне это сделать? используя регулярное выражение? Кто-нибудь может привести пример?