Ruby on Rails читатель сафари, как извлечение текста и сборник - PullRequest
0 голосов
/ 13 октября 2011

У меня есть веб-сервис, похожий на digg, который вкратце объясняет, что имеет парсер страниц, и когда люди отправляют истории, парсер возвращает заголовок и сводку на основе hpricot и некоторых других небольших принципов извлечения, которые я написал.Поднимите его на следующий уровень и попробуйте поиск и извлечение контента со страниц, которые пользователи отправляют в анализатор.Я хочу извлечь содержание статьи, например.

Конечно, я действительно не хочу начинать с нуля и писать свой собственный шаблон и алгоритмы извлечения.

Есть лидрагоценный камень или что-то, что я могу подключить к своему приложению rails, которое может в какой-то степени иметь отношение к тому, чего я хочу достичь?

Я действительно застрял в этом, и любая помощь приветствуется.

С наилучшими пожеланиями.

Ответы [ 2 ]

0 голосов
/ 11 мая 2013

Дайте драгоценности Readability попробовать Это работает очень хорошо:

https://github.com/cantino/ruby-readability

require 'rubygems'
require 'readability'
require 'open-uri'

source = open('http://lab.arc90.com/experiments/readability/').read
puts Readability::Document.new(source).content
0 голосов
/ 13 октября 2011

Hpricot устарела в рубине в пользу nokogiri. Вы можете использовать любое выражение xpath с nokogiri, например

require 'rubygems'
require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('http://www.google.com/').read)
puts doc.xpath('//title')[0].text
...