Как написать программу на Python, которая «очищает» результаты веб-сайта от всех возможных комбинаций, выбранных из выпадающих меню? - PullRequest
0 голосов
/ 09 июня 2018

Существует веб-сайт, на котором утверждается, что он прогнозирует приблизительную заработную плату лица на основе следующих критериев, представленных в форме раскрывающегося списка

  1. Возраст: 5 вариантов
  2. Образование: 3 варианта
  3. Пол: 3 варианта
  4. Опыт работы: 4 варианта
  5. Национальность: 12 вариантов

При нажатии *Кнопка 1015 *, веб-сайт выдает на новой странице набор текста с оценкой оклада в цифрах.

Итак, технически существует 5 * 3 * 3 * 4 * 12 = 2160 точек данных.Я хочу получить это и оформить в листе Excel.Затем я запускаю алгоритм регрессии, чтобы угадать функцию, которую использовал этот сайт.Это то, чего я с нетерпением жду с помощью этого упражнения.Это исключительно для целей обучения, так как я очень заинтересован в изучении этих инструментов.

Но я не знаю, как это сделать?Любой соответствующий учебник, документация, руководство помогут!Я программирую на python, и я бы хотел использовать его для решения этой задачи!

Спасибо!

1 Ответ

0 голосов
/ 09 июня 2018

Если вам неудобно запрашивать у них базу данных, так как roganjosh предложил :) используйте Selenium. Напишите на Python скрипт, который контролирует Web Driver и многократно отправляет запросы на все возможные комбинации.Сценарий довольно прост, просто вложенный цикл для каждого типа параметра / раскрывающегося списка.

Если вы уверены, что значения каждого типа не зависят друг от друга, проверьте, какой запрос отправляется на сервер.Если это простой URL в кодировке, например, age=...&sex=...&...,, то Selenium не требуется .Просто сгенерируйте такой URL для всех возможных комбинаций и позвоните на сервер.

...