Почему исходный код HTML изменяется при извлечении текста из супового объекта? - PullRequest
0 голосов
/ 16 октября 2019

Я пытаюсь очистить новостные статьи от результатов поискового запроса, используя Selenium и BeautifulSoup на Python. Я прибыл на последнюю страницу, которая содержит текст с использованием:

article_page = requests.get(articles.link_of_article[0])
article_soup = BeautifulSoup(article_page.text, "html.parser")
for content in article_soup.find_all('div',{"class":"name_of_class_with_contained_text"}):
     content.get_text()

Я заметил, что "name_of_class_with_contained_text" присутствует, когда я визуально проверяю исходный код в браузере, но класс отсутствует в объекте супа,Кроме того, все теги "p" заменены следующим кодом "\\u003c/p\\u003e\\u003cp\\u003e \\u003c/p\\u003e\\u003cp\\u003e".

Я не могу найти имя класса или теги, чтобы получить содержащийся текст. Буду признателен за любую помощь или рассуждение о том, почему это происходит.

PS: Относительно плохо знакомы с чисткой и HTML

ОБНОВЛЕНИЕ: добавив ссылку на последнюю страницу здесь.

https://www.fundfire.com/c/2258443/277443?referrer_module=searchSubFromFF&highlight=eileen%20neill%20verus

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...