Question

Я пытаюсь очистить данные с веб-сайта с помощью Beautifulsoup4 и получить только информацию между HTML-тегами, чтобы поместить в документ Excel, в настоящее время я могу получить только все HTML-данные со страницы.

import sys
import urllib3
import xlsxwriter
import lxml

page = requests.get('genericurlhere.com')
soup = BeautifulSoup(page.text, 'html.parser')

f = csv.writer(open('web_scrape.csv', 'w'))
f.writerow(['Item', 'Description'])


heading = soup.find_all("h4", class_="list-group-item-heading")
print(heading)
print('-------------------')
desc = soup.find_all("p", class_='list-group-item-text')
print(desc)

Rocky Li · Answer 1 · 21 октября 2018

Попробуйте использовать text:

desc = soup.find_all("p", class_='list-group-item-text')
desc = [e.text for e in desc] # only text within tags from the html elements.
print(desc)

Обратите внимание, что вы также можете использовать [] для получения атрибутов HTML-тегов, таких как: each['id']

Скребок сайта BeautifulSoup - разбор html

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Скребок сайта BeautifulSoup - разбор html

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы