Сканирование текстовых данных по нескольким ссылкам и сохранение просканированных данных в CSV-файле - PullRequest
0 голосов
/ 04 марта 2020

Что я уже сделал:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome(r"C:\Users\Documents\chromedriver")
cursor.execute("select TOP (10) Url from TABLE_NAME ORDER BY ID DESC ")
data = cursor.fetchall()
result_data = cursor.fetchall()

for link in result_data:
urllink = link.Url
driver.get(urllink)

Как я могу получить текстовые данные для l oop URL-адреса и сохранить URL-адрес и просканированный текст данные в файл CSV
Я пробовал использовать скрап и прекрасный суп.

Поскольку их несколько, то даже URL не могут получить данные с помощью css селектор также

Ответы [ 2 ]

0 голосов
/ 05 марта 2020

Проверьте приведенный ниже пример кода.

import scrapy
from selenium import webdriver
from selenium.webdriver.common.keys import Keys


cursor.execute("select TOP (10) Url from TABLE_NAME ORDER BY ID DESC ")
result_data = cursor.fetchall()
start_urls = []
for link in result_data:
    start_urls.append(link.Url)


class ToScrapeSpider(scrapy.Spider):
    name = 'toscrape'
    start_urls = start_urls

    def parse(self, response):

        # Write the code to scrape data, If the URLs are different, use different cases
        # Also add the items to a pandas data frame, dataframe_name.to_csv('path/to/filename.csv') does the work.
0 голосов
/ 04 марта 2020

создайте фрейм данных и вставьте в него все свои данные sh и когда вы закончите утилизацию. Экспортируйте его в CSV-файл, это лучший способ сохранить табличные данные.

...