Эта страница содержит в основном zip-файлы, и, глядя на содержимое HTML, кажется, что довольно просто определить, какие ссылки приведут к zip-файлу, просто выполнив поиск *.zip
в коллекции URL-адресов кандидатов, поэтому здесь что я бы порекомендовал:
fetch the page
parse the HTML
extract the anchor tags
for each anchor tag
if href of anchor tag contaings "*.zip"
add href to list of file links
while more files needed
generate a random index i, such that i is between 0 and num links in list
select i-th element from the links list
fetch the zip file
save the file to disk or load it in memory
Если вы не хотите получать один и тот же файл дважды, просто удалите URL из списка ссылок и случайным образом выберите другой индекс (пока у вас не будет достаточно файлов или пока у вас не закончатся ссылки). Я не знаю, на каком языке программирования работает ваша команда, но не составит труда написать небольшую программу, которая выполняет все вышеперечисленное.