Я работаю над некоторыми материалами по сбору / очистке данных, и я постоянно обнаруживаю, что делаю похожие вещи, переходя с одного сайта на другой. Поэтому мне было интересно, есть ли способ автоматизировать эти "похожие" вещи.
Чтобы быть более понятным, предположим, что вам дан этот план (это всего лишь простой пример, а мой реальный вариант использования более сложный):
- GET
url
= example.com
- ВЫБРАТЬ И ЗАПОЛНИТЬ
username form
с именем пользователя = "Джон Дэвид"
- ВЫБРАТЬ И ЗАПОЛНИТЬ
passwrod form
с паролем = "12345678"
- ВЫБЕРИТЕ И НАЖМИТЕ НА
submission_button
Мы можем видеть, что весь план, скорее всего, останется неизменным, независимо от того, что есть на сайте, и только некоторые параметры, такие как url , username или password изменится ... Есть ли способ перевести это в автономный план или программу? Обратите внимание на то, что традиционные инструменты веб-очистки, такие как селен , запросы , скрап , beautifulSoup ... не делайте то, что я ищу (иначе я просто не могу понять, как они это делают!).
Кроме того, я копаюсь в этом, пытаясь найти собственное решение. Моя основная идея - перевести план в направленный график ацикликов ( DAG ), отсюда и название моего поста. Вот моя первая попытка преобразовать план в DAG с networkx . Любая идея будет оценена!