Используя Pandas в Python, я хочу загрузить файл csv с этого веб-сайта, но ссылка для загрузки содержит некоторые случайные символы, поэтому я хочу знать, как это автоматизировать.
Это данные финансовой торговли, которые обновляются каждый день. Файл csv, который я хочу загрузить, находится в красном квадрате в верхнем ряду. Каждый день вверху добавляется новая строка, и я хочу автоматизировать загрузку этого csv.
введите описание изображения здесь
Мой план состоял в том, чтобы автоматически импортировать csv в pandas в Python, динамически создавая строку url с использованием даты дня. Пример URL-адреса выглядит так:
https://www.jpx.co.jp/markets/derivatives/participant-volume/nlsgeu000004vd5b-att/20200731_volume_by_participant_whole_day.csv
А вот мой Python скрипт.
from datetime import datetime as dt
day = dt.today()
date = str(day.year) + '{:02d}'.format(day.month) + '{:02d}'.format(day.day)
url = 'https://www.jpx.co.jp/markets/derivatives/participant-volume/nlsgeu000004vd5b-att/%s_volume_by_participant_whole_day_J-NET.csv' %date
# Followed by pandas...
Проблема в том, что это часть этого url (nlsgeu000004vgi7-att
) всегда представляет собой случайную последовательность символов, и я не могу динамически запрашивать ее. Например, 7/30, это часть nlsgeu000004vd5b-att
. По крайней мере, я не знаю, каково правило для создания этой строки.
Есть ли способ правильно указать на такой частично случайный URL? Я придумал обходные пути, но понятия не имел, как их реализовать. Было бы здорово, если бы вы мне помогли! Пока я могу автоматически загружать csv, все в порядке!
- с использованием регулярных выражений
- с использованием парсера, такого как BeautifulSoup, чтобы получить URL-адрес любого csv в верхней строке