Какой набор инструментов для скребка на основе ruby ​​/ rails или PHP и css вы порекомендуете? - PullRequest
0 голосов
/ 27 июня 2010

Я ищу предложения по соскобам инструментария. Решение не должно быть очень терпимым к искаженному HTML или способному адаптироваться к различным ситуациям. Он не должен быть очень масштабируемым, он будет запускаться не чаще одного раза в день. Нужно сделать одну вещь и сделать это хорошо: соскрести HTML с определенного сайта.

Я бы предпочел использовать скребок на основе селектора CSS, чем XPath, так как первый будет проще использовать, учитывая, что я хочу только очистить HTML.

Я изучаю scrAPI, но он больше не разрабатывается. Боюсь, он не будет перенесен на ruby ​​1.9x. Я столкнулся с [ошибками] в (обязательном) геме tidylib, который нужно было исправить вручную http://bit.ly/beZHMR. Суть в том, что я не хочу создавать решение, которое постепенно выводит из себя бизнес. *

Я рассмотрел несколько других вариантов (scRUBYt, Scrapy, Beautiful Soup), но ни один из них не соответствовал обоим требованиям:

A) используйте ruby ​​/ rails или php

B) использовать css selector, а не xpath (если я не преувеличиваю сложность, которую последний добавит к работе)

Я даже посмотрел на http://mozenda.com, но их инструмент задохнулся на первой работе, и их поддержка все еще не вернулась ко мне.

Может ли кто-нибудь предложить набор инструментов для чистки, который соответствует требованиям?

спасибо.

1 Ответ

0 голосов
/ 02 августа 2010

Я открыл похожую тему @ https://stackoverflow.com/questions/3357303/whats-a-good-complete-php-mysql-screen-scraper-project

Вы можете найти PHP Simple HTML DOM Parser полезным, хотя, честно говоря, я еще не пробовал.

...