Краткий ответ: «использовать темы». Создайте цепочку для каждого из 50+ URL-адресов, которые вы хотите повторно очищать.
Скорее всего, это не будет иметь большого значения, если вы будете использовать URLConnection, JSoup или каким-либо другим способом выполнять очистку. Фактическое узкое место, вероятно, связано с:
- нагрузкой и производительностью нагрузки на сервер (ы), который вы копируете из
- пропускная способность сети
- сеть latency
Первый из них находится вне вашего контроля (в позитивном ключе!). Последние два ... вы могли бы решить, но только бросив деньги на проблему. Например, вы могли бы заплатить за более качественное сетевое соединение / путь или за альтернативный хостинг, чтобы переместить скребок ближе к сайтам, которые вы пытаетесь очистить.
Переключение на многопоточную очистку улучшит некоторые из них. узкие места, но не устранять их.
Но я не думаю, что то, что вы делаете, является хорошей идеей.
Если вы пишете что-то, что неоднократно повторно очищает одни и те же страницы один раз каждые 1 или 2 секунды они будут замечать . И они собираются предпринять шаги, чтобы остановить вас. Шаги, с которыми будет сложно иметь дело. Такие вещи, как:
- ограничение скорости ваших запросов
- блокирование ваших IP-адресов или диапазона IP-адресов
- отправка вам писем "прекратить и отказаться"
И если это не поможет, может быть, более серьезные вещи.
Реальным решением может быть получение информации более эффективным способом; например, через API. Это может стоить вам денег тоже. Потому что (когда это сводится к этому) ваш сбор будет стоить их денег либо без возврата ... либо с отрицательной отдачей, если ваша деятельность в конечном итоге сократит клики реальных людей на их сайте.