Как читать сайт и итеративно сохранять данные (у меня есть CSV-файл с 1000 URL-адресами, но я не могу сохранить файлы с уникальным именем - PullRequest
1 голос
/ 22 марта 2019

Цель этого проекта: протестировать 10 adblocker в плагине браузера и запустить 1000 извлечь данные 1000 хар для 1 adblocker.таким образом, общий набор данных будет 10X1000 (тестовые данные) +1000 (исходные данные) = 11000.

Скрипт работает без ошибок при чтении 1 URL-адреса и сохранении 1.har.Тем не менее, у меня есть список CSV с 1000 URL, что я хочу, чтобы запустить URL-адреса из CSV и сохранить 1-1000.har соответственно без перезаписи.

Однако я не могу связать, чтобы сохранить часть.Когда я запускаю программу, браузер просто продолжает загружать разные URL-адреса, но сохраняет только файл данных размером 1 хар.

import csv
from browsermobproxy import Server
from selenium import webdriver
import json
server = Server("D:\\browsermob-proxy-2.1.4\\bin\\browsermob-proxy.bat")
server.start()
proxy = server.create_proxy()

profile = webdriver.FirefoxProfile()
profile.set_proxy(proxy.selenium_proxy())
driver = webdriver.Firefox(firefox_profile=profile)

extension_dir = "C:\\Program Files (x86)\\Mozilla Firefox\\browser\\features\\"

# remember to include .xpi at the end of your file names 
extensions = [
    'adblock_plus-3.5-an+fx.xpi'
    ]

for extension in extensions:
    driver.install_addon(extension_dir + extension, temporary=True)
    proxy.new_har("qq")

path = "D:\websites.csv"    
csvfile = open(path,'r')
reader = csv.reader(csvfile)
result = {}
for item in reader:
    if reader.line_num ==1:
        continue
    result[item[0]] = item[1]

csvfile.close()
print(result)


for id, web in result.items():
    website = web
    driver.get(website)




server.stop()
driver.quit()


f = os.fdopen(fi, "w")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...