Код не будет отображать весь извлеченный, извлеченный текст на сайте, используя BeautifulSoup - PullRequest
0 голосов
/ 20 января 2019

очень новый для Python. Следующий код позволит мне отображать только отдельные записи p с извлеченного веб-сайта (первая запись, 0, является текущим примером).

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = "https://en.wikipedia.org/wiki/Young_Thug"

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

page_soup = soup(page_html, "html.parser")
page_soup.findAll("p")

paragraphs = page_soup.findAll("p")
paragraph = paragraphs[0].text.strip()

print(paragraph)

По какой-то причине я не могу захватить конкретный аргумент для , который мне нужен для отображения всех элементов p на сайте в виде одного блока текста.

Конечная цель приведенного выше фрагмента кода - приложение уровня чтения, отсюда сокращенный текст. Любая помощь будет оценена, спасибо!

1 Ответ

0 голосов
/ 21 января 2019

Я не рядом с ноутбуком, чтобы включить вывод, но обычно это будет:

paragraphs = page_soup.findAll("p")
for para in paragraphs:
    print (para.text.strip())
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...