Как «извлечь» определенные данные из файла HTML и обработать данные - PullRequest
2 голосов
/ 09 апреля 2011

Я новичок в программировании, и у меня есть вопрос о том, как получить определенную информацию со страницы на веб-сайте, обработать данные, чтобы проверить и убедиться, что они соответствуют определенным параметрам, и сохранить URL-адреса страниц, которые соответствуют параметрам.

Проблема заключается в следующем:

- существует веб-сайт с несколькими статьями.-Я хотел бы иметь возможность составить список URL-адресов статей на сайте, которые содержат менее x количество слов.

Мне не нужна помощь с кодированием или что-то еще, потому что я новичок в этоми это по сути самообучение для меня, чтобы научиться программировать.

У меня просто есть вопросы, как это сделать.Я знаю HTML и минимальный Ruby, и это мои знания.

Я просто не знаю, как "вытянуть" данные с веб-страницы.: S Что бы я использовал, чтобы вытащить HTML?Что мне делать с HTML после того, как я его вытащил?Преобразовать это в Руби?Если да, то как?

1 Ответ

3 голосов
/ 09 апреля 2011

Начните с:

require 'open-uri'
require 'nokogiri' 
doc = Nokogiri::HTML(open(URL))
doc.xpath(//a).each {|node| p a.text}

Nokogiri - это библиотека для анализа документов HTML / XML в Ruby.Посетите веб-страницу для получения дополнительной информации о том, как установить / использовать его.

...