Можно ли автоматически срывать статьи с сайтов - Python & Beautiful Soup - PullRequest
0 голосов
/ 25 апреля 2018

Пытаясь создать сценарий для очистки одной или двух статей (только URL-адреса статей) с разных веб-сайтов, я смог создать сценарий Python, который использует BeautifulSoup для получения HTML-кода веб-сайта, найти меню Navbar веб-сайта через имя класса,и цикл по каждому разделу веб-сайта, проблема в том, что у каждого веб-сайта есть свое имя класса или Xpath для меню Navbar и его разделов.

Есть ли способ заставить скрипт работать на нескольких веб-сайтах с наименьшим количествомвмешательство человека как можно?

Любые предложения приветствуются,

Спасибо

1 Ответ

0 голосов
/ 06 августа 2018

Сделано, мне нужно было только использовать Python и Selenium, Xpath для элементов Navbar для каждого веб-сайта и еще один Xpath для всех типов статей на разных страницах веб-сайта, сохранить все в базе данных, а остальное просто настроитьдля наших конкретных потребностей, в конце концов, все было не так сложно, спасибо за помощь <3 </p>

...