Я написал код, который поможет мне очистить сайты. Он хорошо работал на некоторых сайтах, но в настоящее время я сталкиваюсь с проблемой.
Функция collectData () собирает данные с сайта и добавляет их в «dataList». Из этого списка данных я могу создать файл csv для экспорта данных.
Проблема, с которой я столкнулся сейчас, заключается в том, что функция добавляет в список несколько пробелов и \ n символов. Вывод выглядит следующим образом: (лишние пробелы здесь не показаны)
dataList = ['\ n 2.500.000']
Кто-нибудь, что может вызвать это? Как я уже говорил, на некоторых веб-сайтах эта функция работает нормально.
Спасибо!
def scrape ():
dataList = []
pageNr = range(0, 1)
for page in pageNr:
pageUrl = ('https://www.example.com/site:{}'.format(page))
print(pageUrl)
def getUrl(pageUrl):
openUrl = urlopen(pageUrl)
soup = BeautifulSoup(openUrl, 'lxml')
links = soup.find_all('a', class_="ellipsis")
for link in links:
linkNew = link.get('href')
linkList.append(linkNew)
#print(linkList)
return linkList
anzList = getUrl(pageUrl)
lenght = len(anzList)
print(lenght)
anzLinks = []
for i in range(lenght):
anzeigenLinks.append('https://www.example.com/ + anzList[i]')
print(anzLinks)
def collectData():
for link in anzLinks:
openAnz = urlopen(link)
soup = BeautifulSoup(openAnz, 'lxml')
try:
kaufpreisSuche = soup.find('h2')
kaufpreis = kaufpreisSuche.text
dataListe.append(kaufpreis)
print(kaufpreis)
except:
kaufpreis = None
dataListe.append(kaufpreis)