Мониторинг изменений веб-страницы - PullRequest
0 голосов
/ 16 ноября 2018

Я хочу отслеживать веб-страницу объявления, чтобы при появлении нового объявления я мог выполнять задачи как можно быстрее. В настоящее время я использую Python с пакетом запросов:

allText = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text

, а затем найдите первое вхождение текста с определенным заголовком, соответствующим элементу статьи:

ind = allText.find(''<li class="article-list-item">''); allText = allText[ind:]; ind = allText.find(''</a>''); allText = allText[0:ind]

Я повторяю команду (т.е. обновляю страницу) каждые ~ 1,5 секунды.

Проблемы:

  1. это недостаточно быстро. Обычно моей программе требуется более 3 секунд, чтобы обнаружить ее после появления новой веб-страницы. Я думаю, что поиск текста занимает слишком много времени. Есть ли более быстрый способ?

  2. на некоторых веб-сайтах статьи скрыты, и команда запросов ничего не возвращает, даже если браузер все еще может это видеть. Пример исходного кода веб-страницы:

    <div data-app="recent-activity" data-url="/hc/api/internal/recent_activities">/div>

Как мне почистить такую ​​страницу, пожалуйста?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...