Получить содержимое из тега - PullRequest
0 голосов
/ 08 декабря 2018

В одном из моих предыдущих сообщений я смог получить все p-теги

import bs4
from urllib.request import  urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url='https://www.centralpark.com/things-to-do/central-park-zoo/polar-bears/'
# opening up connection
uClient = uReq(my_url)
page_html = uClient.read()
# close connection
uClient.close()
page_soup = soup(page_html, features="html.parser")

ps=list(page_soup.find_all('p'))

for s in ps:
    print(s)

. Я хочу получить любой контент из этих p-тегов.Пример:

ex1='<p> this is example </p>' -> I want res1 = 'this is example' 
ex2='<p> this is <strong> nice </strong> example </p>' -> I want res2 = 'this is nice example' 
ex3='<p> this is <b> okeyish </b> example </p>' -> I want res3 = 'this is okeyish example'

Все результаты (res1, res2, res3) могут попадать в список.

Я искал решения, но решения предлагали работать только для одного типа тега пример .Я хочу просто получить ВСЕ содержимое между p и / p, независимо от того, какие другие теги появляются между ними.Если эти другие теги имеют содержимое, они также должны быть включены.

1 Ответ

0 голосов
/ 08 декабря 2018
ps=page_soup.find_all('p')

results = []
for s in ps:
    #print(s.text)
    results = results.append(s.text)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...