Извлечь описание объекта через Beautifulsoup в python - PullRequest
0 голосов
/ 25 октября 2018

Я хочу извлечь описание рядом с рисунком (которое переходит от «Модель статуэтки» к «Оставайтесь с нами :)» и сохранить его в переменной information через BeautifulSoup.Как мне это сделать?Вот мой код, но я не знаю, как его продолжить:

from bs4 import BeautifulSoup
response = requests.get('https://www.myminifactory.com/object/3d-print-the-little-prince-4707')
soup = BeautifulSoup(response.text, "lxml")
information = 

Я покажу вам ниже страницы, откуда я хочу извлечь описание объекта.Заранее спасибо!The Page from where I want to extract the text

Ответы [ 2 ]

0 голосов
/ 25 октября 2018

Найдите родительский тег, затем найдите <p>, добавьте пробелы и ____

parent = soup.find("div",class_="row container-info-obj margin-t-10")
result = [" ".join(p.text.split()) for p in parent.find_all("p") if p.text.strip() and not "_"*8  in p.text]
#youtube_v = parent.find("iframe")["src"]
print(result)
0 голосов
/ 25 октября 2018

Это работает для меня, я не горжусь сценарием из-за того, как я использовал оператор break.Но скрипт работает.

from urllib.request import urlopen
from bs4 import BeautifulSoup as BS

url = r'https://www.myminifactory.com/object/3d-print-the-little-prince-4707'

html = urlopen(url).read()
Soup = BS(html,"lxml")
Desc = Soup.find('div',{'class':'short-text text-auto-link'}).text
description = ''
for line in Desc.split('\n'):
    if line.strip() == '_________________________________________________________________________':
        break
    if line.strip():
        description += line.strip()
print(description)
...