Хорошая программа для извлечения веб-данных / скребка экрана? - PullRequest
8 голосов
/ 25 февраля 2010

Мне нужно регулярно собирать данные о продукте с сайта и спрашивать, знает ли кто-нибудь хорошую программу? Я испытал Мозенда но его ежемесячная подписка и дорого в долгосрочной перспективе. Очевидно, что что-то бесплатное было бы лучше, но я тоже не против заплатить. Просто нужна достойная программа, которая надежна и не требует больших знаний в области программирования.

Ответы [ 16 ]

0 голосов
/ 06 апреля 2016

Попробуйте Data Scraping Studio - Бесплатный инструмент.

Вы можете создать агент очистки с помощью , указать и щелкнуть расширение скребка chrome , а затем экспортировать эти агенты в файл (*. Scraping) в многопоточном настольном приложении для пакетного сканирования и более сложных функций. *

Data Scraping Studio

0 голосов
/ 07 апреля 2015

Вы пробовали Кимоно Labs ? Это бесплатно и довольно быстро настроить с интуитивно понятным пользовательским интерфейсом. Кимоно в основном позволяет очищать сайты, обучая API с помощью селекторов CSS, созданных с помощью интерфейса «укажи и щелкни». Он позволяет выполнять пакетное сканирование URL-адресов, разбиение на страницы, выбор атрибутов, запланированные обходы и т. Д. И имеет множество встроенных интеграций.

0 голосов
/ 04 апреля 2014

Посмотрите на Visual Web Ripper. Это стоило вам денег, но я думаю, оно того стоит. http://www.visualwebripper.com/ProductInformation/Features.aspx

0 голосов
/ 06 декабря 2013

scrape.ly позволяет очистить сайты, написав простой URL.

, например, чтобы вычистить все вопросы из stackoverflow, вы бы написали следующее в адресную строку браузера.

http://scrape.ly/s/{http://stackoverflow.com/}{Printing the data and placement of tree elements}*
{'ask':'//*[@id="question"]/table/tbody/tr[1]/td[2]/div/div[1]/p[1]','username':'user3011391'}

Что делает URL:

  1. Перейти на stackoverflow.com
  2. Получить все ссылки, как в приведенном примере («Печать данных ...»)
  3. Извлеките текст вопроса в столбец 'ask', а имя пользователя asker в 'username'
  4. Загрузите извлеченный файл данных .csv из http://scrape.ly/download/fMxj2x.csv
0 голосов
/ 01 ноября 2013

http://trrdrr -scrapper.rhcloud.com - это веб-утилита для веб-поиска, в настоящее время она имеет ограниченные возможности, но ее можно удалить из списка данных. (пример: список вопросов и авторы stackoverflow.com)

Мне нравится добавлять функции, такие как разбиение на страницы, планировщик, поддержка регулярных выражений, записка с использованием класса html, идентификатор ...

0 голосов
/ 15 октября 2013

Я бы определенно предложил посмотреть на YQL от Yahoo (http://developer.yahoo.com/yql/)

Он использует разметку для определения структуры веб-страницы, а затем позволяет выполнять запросы к ней для извлечения данных. Это довольно изящная идея, с множеством активно поддерживаемых структур разметки для очистки популярных сайтов.

...