Автоматическая загрузка файлов с определенного сайта - PullRequest
1 голос
/ 08 февраля 2011

Я очень новый программист .. На сайте есть много zip-файлов, которые мне нужны.Он будет обновляться / загружать новые ZIP-файлы еженедельно.Что мне нужно сделать, так это написать программу / скрипт для автоматической загрузки из Интернета еженедельно ... например, это веб-ссылка http://www.google.com/googlebooks/uspto-patents-applications-yellowbook.html (вы можете увидеть там много zip-файлов)

поэтому мой вопрос

  1. Какой сценарий мне нужно написать (у меня нет опыта в написании какого-либо сценария, так что вы можете предложить?), Чтобы я мог загрузить файл zip программно?

  2. Если 1-й вопрос решен, то как мне сделать так, чтобы он загружал новый zip-файл, загружаемый еженедельно?

Это я должениспользовать DOM ... Unix?если да, я сделаю некоторые исследования по тат, чтобы заставить его работать.

Ответы [ 3 ]

1 голос
/ 08 февраля 2011

Почему Wget? Вы можете использовать HtmlAgilityPack для анализа сайта и извлечения всех ссылок. Затем вы просто перебираете все URL и скачиваете файл, используя C # до конца. Вы также можете открыть процесс wget из c #, если хотите.

С другой стороны, это легко сделать, используя bash и sed / awk и grep в сочетании с wget.

В любом случае вам все равно понадобится cron для планирования работы на еженедельной основе.

WebClient Client = new WebClient ();
Client.DownloadFile("http://www.csharpfriends.com/Members/index.aspx", "index.aspx");
1 голос
/ 11 февраля 2011

Я также очень эффективно использовал JSoup (http://jsoup.org/) в приложениях Java / Scala для удаления данных с веб-страниц.

0 голосов
/ 08 февраля 2011

Если вы работаете в Linux / UNIX, используйте «wget» в скрипте для загрузки файлов и «cron» для планирования скрипта загрузки.

...