Как собрать данные из URL-адреса .htm, который меняется каждый день года, и записать данные в файл .csv - PullRequest
0 голосов
/ 03 июля 2019

Я очень новичок в питоне.Я хочу получить данные из https://services.tcpl.ca/cor/public/gdsr/GdsrNGTLImperial20190703.htm, но дата в URL меняется каждый день.Я могу получить все URL-адреса в .csv, но я не знаю, как извлечь файл и записать в .csv, чтобы он был четко отформатирован.

Я могу получить данные с веб-сайта и записатьэто в .csv, как показано ниже, но я не знаю, как развернуть код для зацикливания части записи и извлечения URL-адресов .csv.

from urllib.request import urlopen  
from bs4 import BeautifulSoup  

url = "https://services.tcpl.ca/cor/public/gdsr/GdsrNGTLImperial20190703.htm"  
try:
    page = urlopen(url)
except:
    print("Error opening the URL")

soup = BeautifulSoup(page, 'html.parser')  
soup2 = soup.text

with open('scraped_text.csv', 'w') as file:   
    file.write(soup2)  

В идеале я бы смог объединить организованные данные за 365 днейв .csv для исследования.

1 Ответ

0 голосов
/ 03 июля 2019

Поскольку структура html остается неизменной и изменяется только URL, вы можете просто использовать дату в качестве переменной в URL

# here date is a variable or a function to set the date
url = "https://services.tcpl.ca/cor/public/gdsr/GdsrNGTLImperial" + date + ".htm"
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...