Я использовал красивый суп и извлек немного html, в результате чего:
print(e)
<p class="top-half listing-results-marketed">
<small>
Listed on
18th Jan 2017
by
</small><br/>
<span>xxx Agents</span>
Я хочу извлечь только дату и агентов по недвижимости.
Для извлечения агента я использовал:
print(e.span.text)
xxx Agents
Для извлечения данных я использую:
print(e.small.text.strip())
и закончилось:
Listed on
18th Jan 2017
by
Я новичок в регулярных выражениях в python и не знаю, как извлечь только раздел даты. Какие-либо предложения?
используемый код:
from bs4 import BeautifulSoup as soup
import requests
from datetime import datetime
import pandas as pd
url='https://www.zoopla.co.uk/for-sale/property/petts-wood/?page_size=100'
req=requests.get(url)
page_soup = soup(req.content,'html.parser')
containers = page_soup.findAll('div',{'class':'listing-results-wrapper'})
e=containers[0].find('p',{'class':'top-half listing-results-marketed'})