Сотни длинный список местных органов власти и хотят автоматизировать захват URL для каждой из своих страниц утилизации. Как бы вы это сделали? - PullRequest
0 голосов
/ 27 февраля 2020

Основная задача состоит в том, чтобы создать базу данных каждой веб-страницы по утилизации / сбору отходов каждого местного органа власти, чтобы мы могли указывать пользователям на них для получения дополнительной информации в рамках инструмента поиска.

Однако Первая задача - взять длинный список местных органов власти и найти для каждого из них главную веб-страницу, посвященную утилизации.

В 99% случаев поиск в Google по имени "авторитетное имя" + "совет" + " повторное использование »вернет нужную страницу как первый результат поиска в Google.

До сих пор я пытался использовать сканер (Powerbot; www.powrbot.com), который мог бы занять список имен в файле CSV до до 200 и после сканирования, создайте CSV-файл с URL-адресом полномочий, вики и другой информацией, извлеченной из вики.

Однако при этом возвращается только домен верхнего уровня для каждого веб-сайта совета / органа, а также для каждого органа. имеет другое соглашение об именах, это не так просто, как объединение TLD со стандартным суффиксом субдомена. Также важно, что результаты поиска Google больше не отображаются на веб-странице по умолчанию как полный веб-адрес (я полагаю, чтобы предотвратить сканирование).

Я буду делать это вручную, пока не найду лучшее решение.

Дополнительные бонусные задания (которые я, безусловно, не смогу автоматизировать без особой работы):

  • Запустите отдельный поиск, чтобы выяснить, предлагает ли местная власть небольшую утилизацию электричества в Кербсайде. (часто можно узнать, прочитав описания первой страницы результатов поиска в Google)

  • Запустить отдельный поиск, чтобы определить, предлагает ли местная администрация крупногабаритные сборы отходов с разбивкой по краям (часто можно узнать, прочитав первую или второй результат с первой страницы результатов Google)

  • Запустите отдельный поиск, чтобы выяснить, поддерживает ли местная власть инициации повторного использования (часто можно узнать, прочитав описания первой страницы результатов Google)

Спасибо за любую помощь по это, высоко ценится заранее!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...