Я готовлюсь к огромному проекту httrack. Я планирую позволить httrack запустить очень большой сайт. Я только тяну файлы * .jpg, * .png, * .pdf. Я просканировал сайт с помощью Xenu с целью исключения ссылок из работы httrack. Я использовал Excel, чтобы извлечь ссылки с «миниатюрами» и другие ссылки, которые, как я знаю, мне не нужны.
При этом я узнал, что некоторые данные, которые мне нужны, - это все .png, и все они названы одинаково. который "холст". Это будет большим камнем преткновения, потому что для каждого миниатюры, которую я удалил (963), у меня будет такое же, если не больше, число полноразмерной страницы. Я выполнил тестовый прогон, и они либо пытаются войти в одну и ту же папку, либо httrack через некоторое время остановится на них. Я не получаю файловое дерево, которое имеет их в отдельных папках.
Итак, мой вопрос, сколько раз httrack будет добавлять число к этим файлам? Я не могу запустить слишком много тестов, потому что сайт или некоторые страницы заблокируют меня. Кроме того, я буду делать это в нерабочее время, чтобы не вызывать проблемы с сайтом. Это должно быть сделано только ночью, и я предполагаю, что на многие дни у него будет менее миллиона ссылок.
Любая помощь будет принята с благодарностью.