Я ищу предложения по соскобам инструментария. Решение не должно быть очень терпимым к искаженному HTML или способному адаптироваться к различным ситуациям. Он не должен быть очень масштабируемым, он будет запускаться не чаще одного раза в день. Нужно сделать одну вещь и сделать это хорошо: соскрести HTML с определенного сайта.
Я бы предпочел использовать скребок на основе селектора CSS, чем XPath, так как первый будет проще использовать, учитывая, что я хочу только очистить HTML.
Я изучаю scrAPI, но он больше не разрабатывается. Боюсь, он не будет перенесен на ruby 1.9x. Я столкнулся с [ошибками] в (обязательном) геме tidylib, который нужно было исправить вручную http://bit.ly/beZHMR. Суть в том, что я не хочу создавать решение, которое постепенно выводит из себя бизнес. *
Я рассмотрел несколько других вариантов (scRUBYt, Scrapy, Beautiful Soup), но ни один из них не соответствовал обоим требованиям:
A) используйте ruby / rails или php
B) использовать css selector, а не xpath (если я не преувеличиваю сложность, которую последний добавит к работе)
Я даже посмотрел на http://mozenda.com, но их инструмент задохнулся на первой работе, и их поддержка все еще не вернулась ко мне.
Может ли кто-нибудь предложить набор инструментов для чистки, который соответствует требованиям?
спасибо.