Мне нужно скачать все PDF-файлы с определенного домена. В этом домене около 6000 pdf, и большинство из них не имеют ссылки html (либо они удалили ссылку, либо никогда не помещали ее на первое место).
Я знаю, что существует около 6000 файлов, потому что я гуглю: filetype: pdf site: *. Adomain.com
Однако Google перечисляет только первые 1000 результатов. Я считаю, что есть два способа добиться этого:
а) Используйте Google. Тем не менее, как я могу получить все 6000 результатов от Google? Может скребок? (попробовал scroogle, не повезло)
б) Пропустить Google и искать прямо в домене для PDF-файлов. Как мне это сделать, если большинство из них не связаны между собой?