Разбор веб-страницы в Ruby для получения с нее URL - PullRequest
0 голосов
/ 22 марта 2011

Я хочу проанализировать веб-страницу и получить первые несколько встроенных URL-адресов под определенными заголовками, используя ruby.Например, у меня есть архив документов, в котором документы хранятся как doc-type.timestamp.ext, и я хочу вытащить все документы одного типа.

Лучшее решение, которое я нашел, заключалось в следующем: Каков наилучший способ анализа веб-страницы в Ruby?

В любом случае я могу сделать это без использования hpricotи другие подобные пакеты?

Спасибо!

1 Ответ

3 голосов
/ 22 марта 2011

Почему вы не хотите использовать внешний драгоценный камень?Они могут сделать вашу жизнь намного проще, взгляните на этот Механизированный пример, где вы можете быстро вывести каждую ссылку на странице:

require 'rubygems'
require 'mechanize'

a = Mechanize.new { |agent|
  agent.user_agent_alias = 'Mac Safari'
}

a.get('http://google.com/') do |page|
  p page.links
end

В последнее время я много перебираюи вы не сможете продвинуться очень далеко без разбора страницы, я использую Nokogiri с простой сетью / http, но в будущем переключусь на Mechanize.Механизация также использует Нокогири внутри страны.

...