Вы не можете просто «волшебным образом» найти все страницы, которые существуют в домене, если нет карты сайта (которая не будет существовать большую часть времени).
Вот что вы можете сделать 1. Грубыйсила - это плохая идея, так как это займет очень очень много времени.2. Регулярное выражение над исходным кодом - ищите регулярные выражения в тегах
2 - ваш лучший выбор, так как он будет предоставлять все ссылки на этой странице.Я хотел бы рассмотреть возможность добавления рекурсивной функциональности, чтобы вы «пауковали» и выполняли одну и ту же операцию регулярного выражения на всех страницах, найденных в семени.
Вот алгоритм
Начните с начального числа (например: www.yahoo.com)
Выполните регулярное выражение для исходного кода этой страницы и сохраните все ссылки в структуре данных
Рекурсивно звоните # 1 по каждой ссылке, найденной в # 2.Возможно, вы захотите ограничить это только ссылками, которые живут на начальном домене (то есть: начинайте с или содержат www.yahoo.com), а также исключая ссылки на страницы, которые вы уже посетили
Для этого типа реализации идеально подойдет структура данных дерева с шаблоном проектирования посетителей.