Я использую приведенный ниже код для извлечения текста с веб-сайта Bloomberg
from bs4 import BeautifulSoup, SoupStrainer url = 'https://www.bloomberg.com/news/articles/2020-01-19/welcome-to-peak-decade-from-globalization-to-central-banks' r = requests.get(url) soup = bs4.BeautifulSoup(r.text, 'lxml') p_tags = soup.find_all('p') sent_list = [] for p in p_tags: if p.string: sent_list.append(p.string) sent = ' '.join(word for word in slist) print(sent)
вывод, который я получаю
Чтобы продолжить, пожалуйста, нажмите на поле ниже, чтобы сообщить нам Вы не робот. "
Можно ли как-нибудь обойти эту проблему и извлечь текст с веб-сайта?
Вы получили капчу. Сайт Bloomberg очень строг в отношении сканеров.
Второе важное замечание. Сайт находится под платным доступом. Таким образом, вы можете видеть полный текст только нескольких страниц.