Веб-навигация как планирование Directed Acyclique Graph (DAG) - PullRequest
0 голосов
/ 02 апреля 2019

Я работаю над некоторыми материалами по сбору / очистке данных, и я постоянно обнаруживаю, что делаю похожие вещи, переходя с одного сайта на другой. Поэтому мне было интересно, есть ли способ автоматизировать эти "похожие" вещи.

Чтобы быть более понятным, предположим, что вам дан этот план (это всего лишь простой пример, а мой реальный вариант использования более сложный):

  • GET url = example.com
  • ВЫБРАТЬ И ЗАПОЛНИТЬ username form с именем пользователя = "Джон Дэвид"
  • ВЫБРАТЬ И ЗАПОЛНИТЬ passwrod form с паролем = "12345678"
  • ВЫБЕРИТЕ И НАЖМИТЕ НА submission_button

Мы можем видеть, что весь план, скорее всего, останется неизменным, независимо от того, что есть на сайте, и только некоторые параметры, такие как url , username или password изменится ... Есть ли способ перевести это в автономный план или программу? Обратите внимание на то, что традиционные инструменты веб-очистки, такие как селен , запросы , скрап , beautifulSoup ... не делайте то, что я ищу (иначе я просто не могу понять, как они это делают!).

Кроме того, я копаюсь в этом, пытаясь найти собственное решение. Моя основная идея - перевести план в направленный график ацикликов ( DAG ), отсюда и название моего поста. Вот моя первая попытка преобразовать план в DAG с networkx . Любая идея будет оценена! enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...