Question

Пока что я могу очистить начальную страницу и сохранить. Я пытаюсь использовать количество страниц на сайте, чтобы определить количество циклов.

Количество страниц находится в коде со значением 'count =', которое в данном случае равно 18. Как я могу l oop мой код для очистки и сохранения каждой страницы?

Во-вторых, мой код очищает каждый url 3 раза.

Есть ли способ не иметь дубликаты?

Наконец, я использую 'strip', чтобы получить динамическое c целое число для l oop. Элемент возвращает текст: Просмотр страницы 1 из 18. Использование 'strip' возвращает правильный номер, если последний номер представляет собой одно целое число. В этом случае, поскольку их два (18), он возвращает только 8. Не могу понять, что это за меня.

Цените помощь.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import re
import csv

chrome_driver = "C:/chromedriver.exe"
Chrome_options = Options()
Chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9015")
options = webdriver.ChromeOptions()    
driver = webdriver.Chrome(chrome_driver, options=Chrome_options)
source = driver.page_source
soup = BeautifulSoup(source, "html.parser")

### set zipcode and search length ###
zipcode = "84105"
search = "1yr"   #search option: 1mo 3mo 6mo 1yr 2yr 3yr All
url = 'https://www.redfin.com/zipcode/' + zipcode + '/filter/include=sold-' + search
https = "https://www.redfin.com"
driver.get(url)
#####################################

###  get page count  ###
count = soup.find('span', class_='pageText').get_text() #grabs total pages to grab
pages = count.strip('Viewing page 1 of') #gives a number of pages to paginate
print("This search has " + pages + " pages" + ":  " + zipcode)
print(url)
########################

data = []
for url in soup.find_all('a', attrs={'href': re.compile("^/UT/")}):
    print(https + url['href'])
    data.append(https + url['href'])

with open("links.csv",'a') as csvfile:
    write = csv.writer(csvfile, delimiter = ' ')
    write.writerows(data)

αԋɱҽԃ αмєяιcαη · Answer 1 · 14 апреля 2020

Только что заметил, что вы хотите l oop без дубликатов:

import requests
from bs4 import BeautifulSoup
import csv

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0'
}


def main(url):
    with requests.Session() as req:
        print("Extracting Page# 1")
        r = req.get(url.format("1"), headers=headers)
        soup = BeautifulSoup(r.content, 'html.parser')
        total = int(soup.select_one("span.pageText").text.split(" ")[-1]) + 1
        urls = [f'{url[:22]}{a.get("href")}' for a in soup.select(
            "a.slider-item")]
        for page in range(2, total):
            print(f"Extracting Page# {page}")
            r = req.get(url.format(page), headers=headers)
            soup = BeautifulSoup(r.content, 'html.parser')
            links = [f'{url[:22]}{a.get("href")}' for a in soup.select(
                "a.slider-item")]
            urls.extend(links)
    mylist = list(dict.fromkeys(urls))
    with open("links.csv", 'w', newline="") as f:
        writer = csv.writer(f)
        writer.writerow(["Links"])
        writer.writerows(zip(mylist))


main("https://www.redfin.com/zipcode/84105/filter/include=sold-1yr/page-{}")

L oop нумерация страниц с использованием динамического целого числа c

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

L oop нумерация страниц с использованием динамического целого числа c

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов