Я попытался извлечь текстовое содержание комментариев с веб-страницы, используя ее URL-ссылку, и я использовал BeautifulSoup для очистки.Содержание комментариев отображается на странице, когда я щелкаю ссылку URL, но объект HTML, возвращаемый BeautifulSoup, не содержит этих тегов и текстов.
Я использовал BeautifulSoup с 'html.parser', чтобы выполнить очистку веб-страниц.Я успешно извлек количество лайков / просмотров / комментариев к видео на данной веб-странице, но информация о разделах комментариев не была включена в файл HTML.Я использовал браузер Chrome, а система - Ubuntu 18.04.1 LTS.
Это коды, которые я использовал (в python):
from urllib.request import urlopen
from bs4 import BeautifulSoup
import os
webpage_link = "https://www.airvuz.com/video/Majestic-Beast-Nanuk?id=59b2a56141ab4823e61ea901"
try:
page = urlopen(webpage_link)
except urllib.error.HTTPError as err: # webpage cannot be found
print("ERROR! %s" %(webpage_link))
soup = BeautifulSoup(page, 'html.parser')
Ожидаемый результат - объект супасодержит весь контент, который виден на веб-странице, особенно текстовое содержание комментариев (например, «Не быть там, мне очень понравилось наблюдать за стилем жизни белого медведя. Спасибо поставщику за такой документальный фильм.» и «WOOOW ... удивительно»... ");однако я не смог найти соответствующие узлы в объекте супа.Любая помощь будет оценена!