Как получить только текстовую информацию из данных строкового типа, используя python's BeautifulSoup - PullRequest
0 голосов
/ 24 октября 2018

У меня есть данные в формате str в python, как показано.

data
 '  </h3>\n</div>\n<div class="wpb_text_column wpb_content_element " data-wow-delay="0.3s">\n<div class="wpb_wrapper">\n<p>\xa0</p>\n<h4><span style="font-weight: 400;">Our Backbone\xa0</span></h4>\n<p><span style="font-weight: 400;">We use various techniques of AI like Neural \n\n' 

Я хочу взять текст в этих данных.Если он был в теге (<>), а не в строковом формате, я могу использовать .string() или get_text() для типа bs4.element.ResultSet.Здесь его нельзя использовать, так как это строковый тип.Как получить из него целые строковые данные?

Ответы [ 2 ]

0 голосов
/ 25 октября 2018

Если вы хотите извлечь из определенных тегов, вы можете попробовать что-то вроде этого

from bs4 import BeautifulSoup as bs
soup = bs(data,'html.parser')
a = [i.text.strip() for i in soup.findAll('div',{'class':'wpb_wrapper'})]
0 голосов
/ 24 октября 2018

Вы можете напрямую позвонить getText() на весь документ

soup=BeautifulSoup(data,'html.parser')
text=soup.getText().replace("\n","")
#  Our Backbone We use various techniques of AI like Neural 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...