То, что вам нужно сделать, называется «Соскребание HTML». Это означает, что вы берете страницу HTML, а затем анализируете ссылки HTML внутри страницы. После разбора вы можете скачать, каталог и т. Д. Ссылки, найденные в документе (веб-странице).
Эта статья StackOverflow очень популярна для этой темы:
Параметры для очистки HTML?