Я пытаюсь извлечь все пять строк, перечисленных в таблице выше.
Я использую библиотеку Ruby hpricot для извлечения строк таблицы с использованием выражения xpath.
В моем примере используемое выражение xpath - / html / body / center / table / tr. Обратите внимание, что я удалил тег tbody из выражения, что обычно имеет место для успешного извлечения.
Странно то, что я получаю первые три строки в результате, а последние две строки отсутствуют. Я просто понятия не имею, что там происходит.
РЕДАКТИРОВАТЬ: Ничего волшебного в коде, просто прикрепить его по запросу.
require 'open-uri'
require 'hpricot'
faculty = Hpricot(open("http://www.utm.utoronto.ca/7800.0.html"))
(faculty/"/html/body/center/table/tr").each do |text|
puts text.to_s
end