Проблемы с разделением очищенных данных с помощью Python - PullRequest
0 голосов
/ 18 сентября 2018

Я пытаюсь очистить данные на некоторых страницах с помощью BeauitfulSoup, но я не могу получить нужные данные.У меня проблемы с разделением данных.Я опубликую свой код ниже, но я пытаюсь захватить каждый адрес и разделить его.Например, если вы попробуете приведенный ниже код, я смогу получить нужные данные, но не могу понять, как их разбить натег.Мой вывод, который я пытаюсь сделать, address = ['2 Warriston's Close','High Street, Edinburgh EH1 1PG','United Kingdom']

from bs4 import BeautifulSoup as bs
import requests

url = 'https://www.hauntedplaces.org/item/mary-kings-close/'

page = requests.get(url)

soup = bs(page.text, 'lxml')

region = soup.select('dd.data')[0]
# Need something here to split the region variable so I can separate for csv file. 
# Trying to use soup.select('dd.data')[0].split() but no avail. 
print(region)

1 Ответ

0 голосов
/ 18 сентября 2018

Итак, вместо HTML вы хотите получить текст внутри тегов. BeautifulSoup имеет атрибут text. Итак, в этом случае, чтобы получить то, что вы хотите, вы можете просто добавить строку:

print(region.text.split('\n')[:3])

...