В конечном счете, я пытаюсь открыть все статьи новостного сайта, а затем составить топ-10 слов, используемых во всех статьях. Чтобы сделать это, я сначала хотел посмотреть, сколько существует статей, чтобы я мог их перебрать в какой-то момент, пока не понял, как я хочу все делать.
Для этого я хотел использовать BeautifulSoup4. Я думаю, что класс, который я пытаюсь получить, - Javascript, так как я ничего не получаю обратно. Это мой код:
url = "http://ad.nl"
ad = requests.get(url)
soup = BeautifulSoup(ad.text.lower(), "xml")
titels = soup.findAll("article")
print(titels)
for titel in titels:
print(titel)
Название статьи иногда h2 или h3. У него всегда один и тот же класс, но я ничего не могу получить через этот класс. У него есть некоторые родители, но он использует то же имя, но с расширением -wrapper, например. Я даже не знаю, как использовать родителя, чтобы получить то, что я хочу, но я думаю, что эти классы тоже Javascript. Есть также ссылка, которая мне интересна. Но опять же, это, вероятно, также Javascript, поскольку ничего не возвращает.
Кто-нибудь знает, как я мог бы использовать что-нибудь (желательно href, но название статьи также было бы хорошо), используя BeautifulSoup?