wget все связанные файлы с веб-страницы - PullRequest
0 голосов
/ 02 апреля 2020

Первый постер! Я пытаюсь получить все CSV-файлы, связанные на этом веб-сайте https://promo.betfair.com/betfairsp/prices, однако, когда я использую функцию wget, он фактически не получает файлы (создает файл цен, который открывается как txt веб-сайта).

wget -r --no-parent -e robots=off https://promo.betfair.com/betfairsp/prices

Любые идеи или помощь будут с благодарностью! Спасибо!

1 Ответ

0 голосов
/ 02 апреля 2020

Я полагаю, что есть способ загрузить все файлы csv из предоставленной вами ссылки .

  1. для запуска используйте консоль разработчика JavaScript чтобы получить все href ссылки на сайте.

Примечание: поскольку все ссылки на этом конкретном сайте имеют файл csv. Мы будем получать только ссылку на файлы csv.

var urls = [];
for(var i = document.links.length; i --> 0;)
    if(document.links[i].hostname === location.hostname)
        urls.push(document.links[i].href);
теперь у нас есть массив js со ссылками (URL), преобразующий его в json для загрузки в виде текстового файла
function download(content, fileName, contentType) {
    var a = document.createElement("a");
    var file = new Blob([content], {type: contentType});
    a.href = URL.createObjectURL(file);
    a.download = fileName;
    a.click();
}
download(urls, 'json.txt', 'text/plain');
Отформатируйте текстовый файл, чтобы мы могли выполнить с ним пакетную операцию wget. image wget -i json.txt для загрузки файлов csv image
...