Как я могу получить файлы и папки специального сайта, такого как IDM Grabber в C # - PullRequest
2 голосов
/ 07 ноября 2011

Если вы работали с IDM (Internet Download Manager), у него есть элемент с именем Grabber, который выполняет поиск на специальном веб-сайте, получает файлы и папки этого веб-сайта, и вы можете загрузить их с помощью IDM.

Я бы хотел сделать что-то подобное в C #. Я хотел бы скачать HTML веб-страниц и извлекать ссылки с этих страниц. Я также хотел бы обнаружить каталоги и попытаться найти их содержимое - возможно, проанализировав страницы со списком каталогов "Index Of".

Как бы я поступил так?

Ответы [ 2 ]

1 голос
/ 07 ноября 2011

Используйте regex или HtmlAgilityPack (http://htmlagilitypack.codeplex.com/) для синтаксического анализа веб-сайта и поиска ссылок на файлы. Возможно, вам потребуется проверить расширение файла. Т.е. анализировать только ссылки, оканчивающиеся на .zip|.exe|.msi|.rar|.png|.pdf|.gif|.jpg|.jpeg.

0 голосов
/ 07 ноября 2011

Однажды я написал для этого «Web Spider» и опубликовал исходный код в Code Project .

Если вы хотите сделать это как конечный пользователь, я обнаружил, что бесплатный Httrack Website Copier работает довольно хорошо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...