Соскреб в Интернете - .append добавить пробелы и \ n в список - PullRequest
0 голосов
/ 24 марта 2020

Я написал код, который поможет мне очистить сайты. Он хорошо работал на некоторых сайтах, но в настоящее время я сталкиваюсь с проблемой.

Функция collectData () собирает данные с сайта и добавляет их в «dataList». Из этого списка данных я могу создать файл csv для экспорта данных.

Проблема, с которой я столкнулся сейчас, заключается в том, что функция добавляет в список несколько пробелов и \ n символов. Вывод выглядит следующим образом: (лишние пробелы здесь не показаны)

dataList = ['\ n 2.500.000']

Кто-нибудь, что может вызвать это? Как я уже говорил, на некоторых веб-сайтах эта функция работает нормально.

Спасибо!

def scrape ():

dataList = []
pageNr = range(0, 1)

for page in pageNr:
    pageUrl = ('https://www.example.com/site:{}'.format(page))
    print(pageUrl)

    def getUrl(pageUrl):
        openUrl = urlopen(pageUrl)
        soup = BeautifulSoup(openUrl, 'lxml')
        links = soup.find_all('a', class_="ellipsis")
        for link in links:
            linkNew = link.get('href')
            linkList.append(linkNew)
            #print(linkList)
            return linkList

    anzList = getUrl(pageUrl)

    lenght = len(anzList)
    print(lenght)
    anzLinks = []

    for i in range(lenght):
        anzeigenLinks.append('https://www.example.com/ + anzList[i]')

    print(anzLinks)

    def collectData():

        for link in anzLinks:
            openAnz = urlopen(link)
            soup = BeautifulSoup(openAnz, 'lxml')
            try:
                kaufpreisSuche = soup.find('h2')
                kaufpreis = kaufpreisSuche.text
                dataListe.append(kaufpreis)
                print(kaufpreis)
            except:
                kaufpreis = None
                dataListe.append(kaufpreis)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...