Получить фрагмент строки значения с любого веб-сайта - PullRequest
1 голос
/ 02 ноября 2011

Я пытаюсь создать приложение rails, которое получает результаты альбомов с PitchforkMedia.com. Например, я хочу получить счет 8.0 из этого альбома , как показано ниже на рисунке.

В моем кратком исследовании я столкнулся с похожим вопросом , заданным с точки зрения asp.net .

Как правило, предлагаемые ответы

  1. с использованием http-запроса
  2. разбирают исходный код HTML
  3. , определяя уникальные флаги вокруг переменной Score

Некоторые ответы пришли с использованием встроенных функций asp.net.

Есть ли эквивалентные функции, доступные в Ruby или Ruby on Rails?Или кто-то может предложить другой способ сделать то, что я хочу сделать?

Любое предложение будет оценено.Спасибо.

Редактировать 1: Это полностью для личного использования и обучения.Предположим, что нет никаких юридических последствий для сбора данных с веб-сайтов.

enter image description here

Ответы [ 2 ]

2 голосов
/ 02 ноября 2011

Я бы использовал Mechanize, чтобы очистить интересующий вас контент. У Райана Бейтса есть отличный скринкаст о том, как использовать Mechanize .

1 голос
/ 02 ноября 2011

Вы должны убедиться, что вы читаете условия использования сайта, прежде чем начинать очистку данных, особенно если это не для личного использования.

Это часть условий использования Pitchfork, и большинство других сайтов имеют нечто подобное.

«Любое воспроизведение, копирование или распространение Материалов или элементов дизайна Сайта для любых целей строго запрещено без письменного согласия Pitchfork или его владельца, если Pitchfork не является владельцем.»

Соскоб экрана определенно относится к этой категории.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...