Сканирование / очистка изображений .jpg с веб-страницы - 403 Запрещенная ошибка - PullRequest
0 голосов
/ 16 ноября 2018

Существует ли возможность сканирования / удаления изображений .jpg с веб-страницы с помощью Python?

пример:
Сайт (http://thisisthesiteimcrawling.com/images)
Я хочу получить все изображения .jpg из этогокаталог. Я знаю, что есть много. Когда я пытаюсь использовать wget, я получаю 403 Запрещенную ошибку.

С полным путем изображения:
Пример: (* http://thisisthesiteimcrawling.com/images/image1.jpg) you 'Вы сможете увидеть / получить изображение через браузер / wget ...

С помощью Python можно ли сканировать веб-страницу для * .jpg, даже если разработчик отключил вывод каталога на оригинал / images/ directory?

Кроме того, изменение пользовательского агента в wget и аналогичных файлах не работает, robots.txt также не разрешает этот каталог. Сайт использует простой http.

1 Ответ

0 голосов
/ 16 ноября 2018

См. Ответ Сканирование в Интернете и robots.txt Скорее всего, невозможно отобразить содержимое каталога, следовательно, невозможно сканировать его без прямых ссылок ...

...