Question

Я ищу предложения по соскобам инструментария. Решение не должно быть очень терпимым к искаженному HTML или способному адаптироваться к различным ситуациям. Он не должен быть очень масштабируемым, он будет запускаться не чаще одного раза в день. Нужно сделать одну вещь и сделать это хорошо: соскрести HTML с определенного сайта.

Я бы предпочел использовать скребок на основе селектора CSS, чем XPath, так как первый будет проще использовать, учитывая, что я хочу только очистить HTML.

Я изучаю scrAPI, но он больше не разрабатывается. Боюсь, он не будет перенесен на ruby 1.9x. Я столкнулся с [ошибками] в (обязательном) геме tidylib, который нужно было исправить вручную http://bit.ly/beZHMR. Суть в том, что я не хочу создавать решение, которое постепенно выводит из себя бизнес. *

Я рассмотрел несколько других вариантов (scRUBYt, Scrapy, Beautiful Soup), но ни один из них не соответствовал обоим требованиям:

A) используйте ruby / rails или php

B) использовать css selector, а не xpath (если я не преувеличиваю сложность, которую последний добавит к работе)

Я даже посмотрел на http://mozenda.com, но их инструмент задохнулся на первой работе, и их поддержка все еще не вернулась ко мне.

Может ли кто-нибудь предложить набор инструментов для чистки, который соответствует требованиям?

спасибо.

Anthony Ryan-Lorraine · Answer 1 · 02 августа 2010

Я открыл похожую тему @ https://stackoverflow.com/questions/3357303/whats-a-good-complete-php-mysql-screen-scraper-project

Вы можете найти PHP Simple HTML DOM Parser полезным, хотя, честно говоря, я еще не пробовал.

Какой набор инструментов для скребка на основе ruby / rails или PHP и css вы порекомендуете?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой набор инструментов для скребка на основе ruby ​​/ rails или PHP и css вы порекомендуете?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

Какой набор инструментов для скребка на основе ruby / rails или PHP и css вы порекомендуете?