Проблема извлечения данных из Bloomberg с помощью bs4 - PullRequest
0 голосов
/ 21 января 2020

Я использую приведенный ниже код для извлечения текста с веб-сайта Bloomberg

from bs4 import BeautifulSoup, SoupStrainer

url = 'https://www.bloomberg.com/news/articles/2020-01-19/welcome-to-peak-decade-from-globalization-to-central-banks'
r = requests.get(url)
soup = bs4.BeautifulSoup(r.text, 'lxml')

p_tags = soup.find_all('p')
sent_list = []
    for p in p_tags:
        if p.string:
            sent_list.append(p.string)

sent = ' '.join(word for word in slist)

print(sent)

вывод, который я получаю

Чтобы продолжить, пожалуйста, нажмите на поле ниже, чтобы сообщить нам Вы не робот. "

Можно ли как-нибудь обойти эту проблему и извлечь текст с веб-сайта?

1 Ответ

0 голосов
/ 21 января 2020

Вы получили капчу. Сайт Bloomberg очень строг в отношении сканеров.

Второе важное замечание. Сайт находится под платным доступом. Таким образом, вы можете видеть полный текст только нескольких страниц.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...