Ищите «веб-сканер», и вы найдете много примеров (например, Crawler4J или Crawler ), как решить эту проблему.
Помимо Java, вы часто будете сталкиваться с Python, когда дело доходит до поиска информации с веб-страниц - я не парень Python, но, похоже, он подходит для этой задачи.