С помощью Java вы можете написать простую утилиту, используя HttpUnit для извлечения текста со страницы, затем перейдите по каждой из ссылок, представленных на странице, - рекурсивно просматривая их и выполняя ту же задачу.
Это должно быть довольно тривиальным упражнением, однако к внешним ссылкам нужно относиться с некоторой осторожностью, в зависимости от того, как далеко вы хотите пойти с индексированием.