Я полагаю, что статья, на которую вы ссылаетесь, называется "IRLbot: масштабирование до 6 миллиардов страниц и далее". Это был веб-сканер с одним сервером, написанный студентами Texas A & M.
Оставляя в стороне вопросы пропускной способности, дискового пространства, стратегии сканирования, robots.txt / politeness - главный вопрос, который у меня возникает, это «почему?» Обход всего веба означает, что вы используете общие ресурсы многих миллионов веб-серверов. В настоящее время большинство веб-мастеров позволяют роботам сканировать их при условии, что они играют хорошо и подчиняются явным и явным правилам вежливого сканирования.
Но каждый крупный бот, который забивает сайт без очевидной выгоды, приводит к тому, что еще несколько сайтов закрывают двери для всего, кроме больших мальчиков (Google, Yahoo, Bing и т. Д.). Итак, вы действительно хотите задать вопрос «почему», прежде чем тратить слишком много времени на то, как.
Предполагая, что вам действительно нужно сканировать большую часть сети на одном сервере, вам нужно получить более толстый канал, гораздо больше места для хранения (например, предполагается, что сжатый текст 2 КБ на страницу, так что 2 ТБ на 1 Б страниц) ), намного больше оперативной памяти, как минимум 4 реальных ядра и т. д. Бумага IRLbot будет вашим лучшим руководством. Возможно, вы также захотите взглянуть на проект crawler-commons для повторного использования фрагментов кода Java.
И последнее слово предостережения. Для невинной ошибки легко вызвать проблемы для веб-сайта, и в этот момент вы окажетесь на приемной стороне сердитого пламени веб-мастера. Поэтому убедитесь, что у вас толстая кожа:)