почтовый скребок, использующий прекрасный суп python или HTML-модуль - PullRequest
0 голосов
/ 16 сентября 2018

В настоящее время я пытаюсь собрать данные от моего риэлтора из списков, которые она отправляет мне.Он всегда приходит через ссылку с основного сайта "http://v3.torontomls.net" Я думаю, что только риэлторы могут заходить на этот сайт и фильтровать дома, но когда она отправляет его мне, я вижу список домов.

Мне интересно, возможно ли создать сценарий Python, который:)

1) открывает Gmail 2) фильтры на ее электронные письма 3) открывает одно из ее электронных писем 4) нажимает на ссылку 5) очищаетхранить данные в формате CSV

Я не уверен в целесообразности этого, я никогда не использовал python для очистки веб-страниц. Я вижу, что шаг 5 выполним, но как мне перейти к шагу 1-4

1 Ответ

0 голосов
/ 16 сентября 2018

Да, это возможно, но вам нужно заранее собрать некоторые требования, чтобы определить, какие части процесса могут быть исключены.Например, если ваш риэлтор отправляет вам одну и ту же ссылку каждый раз, вы можете просто настроить таргетинг на этот веб-адрес напрямую.Если ссылка изменяется, но параметрируется, например, по месяцам, вы можете просто настраивать веб-адрес каждый месяц, когда хотите обработать результаты.

Для отправки запросов я бы предложил использовать пакет requestsвместе с bs4 (BeautifulSoup 4) для целевых элементов.Для создания файлов CSV вы можете выбрать csv, но есть много альтернатив, если вам требуется что-то более специфичное для вашего варианта использования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...