Хорошая программа для извлечения веб-данных / скребка экрана? - PullRequest
8 голосов
/ 25 февраля 2010

Мне нужно регулярно собирать данные о продукте с сайта и спрашивать, знает ли кто-нибудь хорошую программу? Я испытал Мозенда но его ежемесячная подписка и дорого в долгосрочной перспективе. Очевидно, что что-то бесплатное было бы лучше, но я тоже не против заплатить. Просто нужна достойная программа, которая надежна и не требует больших знаний в области программирования.

Ответы [ 16 ]

4 голосов
/ 25 февраля 2010

Вы можете попробовать ScraperWiki.com, если вы знаете Python.

2 голосов
/ 25 февраля 2010

Я экспериментировал с Screen-Scraper и нашел его простым в использовании. Приложение поставляется в нескольких версиях: базовая (бесплатная), профессиональная и корпоративная. Также поддерживаются несколько платформ.

1 голос
/ 15 июня 2015

Visual Web Ripper - один из лучших инструментов для очистки, AM использует эти инструменты в течение последних 5 лет для сбора данных

онлайн.
1 голос
/ 14 июня 2015

Вы можете попробовать мое программное обеспечение FMiner , я разрабатывал его более 5 лет, он может записывать макросы и моделировать действия человека (щелкать, заполнять ...) на страницах, вот некоторые учебник видео , чтобы показать, как его использовать. Добро пожаловать, оцените!

1 голос
/ 18 февраля 2015

Вы можете попробовать UiPath Studio , чтобы решить все ваши проблемы с очисткой. Продукт построен на основе очень мощного SDK , предназначенного для очистки и автоматизации пользовательского интерфейса. Он поставляется с мастером веб-очистки , идеально подходящим для извлечения структурированных данных из веб-страниц. Если данные, которые нужно очистить, не структурированы, я рекомендую использовать мастер очистки экрана. Это извлечение может быть сделано даже в фоновом режиме или в скрытом браузере IE. Вы можете легко разрабатывать рабочие процессы в IDE и впоследствии выполнять их отдельно или интегрировать в свое приложение.

1 голос
/ 05 апреля 2013

Scrape.it - это бесплатный и открытый исходный код, доступный на github.

1 голос
/ 16 мая 2010

Вы можете использовать irobot от IRobotSoft, который является абсолютно бесплатным и предоставляет больше функциональных возможностей, чем другие платные программы. Смотрите демоверсии здесь http://irobotsoft.com/help/, чтобы узнать, насколько это просто.

Ответы на вопросы на их форуме были получены очень быстро.

1 голос
/ 11 апреля 2010

Вот некоторые другие альтернативы для рассмотрения:

  1. Лицензия данных от поставщика.Позвоните им и спросите их.

  2. Используйте Amazon Mechanical Turk, чтобы заставить людей скопировать, вставить и отформатировать его для вас.Они дешевы.

  3. Для автоматизации это зависит от того, насколько сложен HTML и как часто он меняется.Вы могли бы использовать импорт веб-данных Excel, если это действительно просто.

1 голос
/ 26 февраля 2010

Наймите программиста, чтобы сделать это так, чтобы была только одна скидка. Я часто вижу подобные проекты на сайтах фрилансеров, таких как Elance и oDesk .

1 голос
/ 25 февраля 2010

Мне очень нравится iMacros . Вы можете протестировать его на предмет соответствия вашим потребностям с помощью совершенно бесплатного расширения Firefox (есть также версии IE), но есть и более полнофункциональные версии приложений и «серверов», которые имеют больше возможностей и возможностей для работы в без присмотра.

...