Мне нужно создать веб-скребок минимум с 100 сайтами.Ни один из них не предлагает никаких API или RSS.Соскоб является единственным вариантом.Я сделал свое исследование, но не смог найти подробную информацию о соскобе.Какие технологии мне нужно сосредоточить на этом проекте, и если я хочу работать с Data Scientist, сколько это будет стоить в идеале?Я довольно новичок в программировании, но пытаюсь понять, как создать такую вещь.
Я уже создал автоматизированный процесс для веб-сайтов на основе RSS.Я получаю информацию в Airtable.Но я должен создать более сложное решение для веб-сайтов, которые не предлагают RSS.
Я думаю об использовании Python с платформами Selenium и BeautifulSoup для очистки и превращения этих данных во что-то полезное.Затем я создам поисковый инструмент поверх этой базы данных, и люди смогут использовать фильтры для получения нужной информации.Последний шаг - создание автоматических документов на основе результатов фильтрации, но это можно решить с помощью G-drive doc API.