Загрузка всех файлов PDF с веб-сайта - PullRequest
2 голосов
/ 17 марта 2012

Мне нужно создать настольное приложение для Windows на C #, которое загружает все PDF-файлы с веб-сайта. У меня есть ссылка на веб-сайт, но проблема, с которой я сталкиваюсь, заключается в том, что файлы PDF не находятся в определенной папке на веб-сайте, а разбросаны по всему.

Мне нужна помощь в поиске всех этих ссылок, чтобы я мог загрузить их или любые другие советы, которые могут помочь мне с моей проблемой.

Спасибо всем за помощь в продвинутом.

Ответы [ 2 ]

1 голос
/ 17 марта 2012
  1. Пролистать все страницы
  2. Найти все "* .pdf" URL
  3. Восстановить их и просто скачать:)

Пожалуйста, будьтеболее конкретно вы пытаетесь получить все PDF-файлы со страницы HTML или со всего домена?

0 голосов
/ 23 августа 2018

То, что вы пытаетесь сделать, известно как веб-очистка , есть несколько библиотек, которые могут упростить вашу задачу, одна из них - IronWebScraper , но платная.

Обширный список пакетов NuGet доступен здесь , которые можно использовать для очистки веб-страниц.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...