Каков процесс и стоимость создания веб-скребка из 100 сайтов? - PullRequest
0 голосов
/ 26 сентября 2019

Мне нужно создать веб-скребок минимум с 100 сайтами.Ни один из них не предлагает никаких API или RSS.Соскоб является единственным вариантом.Я сделал свое исследование, но не смог найти подробную информацию о соскобе.Какие технологии мне нужно сосредоточить на этом проекте, и если я хочу работать с Data Scientist, сколько это будет стоить в идеале?Я довольно новичок в программировании, но пытаюсь понять, как создать такую ​​вещь.

Я уже создал автоматизированный процесс для веб-сайтов на основе RSS.Я получаю информацию в Airtable.Но я должен создать более сложное решение для веб-сайтов, которые не предлагают RSS.

Я думаю об использовании Python с платформами Selenium и BeautifulSoup для очистки и превращения этих данных во что-то полезное.Затем я создам поисковый инструмент поверх этой базы данных, и люди смогут использовать фильтры для получения нужной информации.Последний шаг - создание автоматических документов на основе результатов фильтрации, но это можно решить с помощью G-drive doc API.

1 Ответ

0 голосов
/ 26 сентября 2019

сколько это в идеале будет стоить?

Можно сделать, не тратя ни копейки.Запустите свой собственный сервер или найдите бесплатные / платные хостинги для Python-серверов, которые соответствуют вашим потребностям.Кодируй сам или плати кому-то за это.Опять же, зависит от конкретной рабочей нагрузки.

Какие технологии мне нужны, чтобы сосредоточиться на этом проекте?

Вы уже ответили на свой вопрос.Python с BeautifulSoup достаточно для хобби проектов.Узнайте о микро-фреймворке, таком как Flask или Django, для своего инструмента поиска.

...