В настоящее время я работаю над программой, которая просматривает sourceforge.com и получает ссылки на tarballs из репозиториев проектов с открытым исходным кодом, написанных на java.
Сначала я запускаю пустую команду поиска на домашней странице,это перечисляет проекты в sourceforge.net с фильтрами в левой части.Затем я фильтрую по языку программирования "Java", а затем просматриваю каждую категорию (всего 10 категорий проектов) и извлекаю ссылки из первых 25 проектов в каждой категории.Таким образом, теперь у меня есть Hashmap с 250 именами проектов и его веб-адресом.Двигаясь дальше, я перехожу к каждой из этих ссылок и получаю ссылку «Обзор кода» на каждой из ее страниц.На этой странице есть ссылка для «Скачать TARball».
Когда я пытаюсь подключиться к разным страницам и переместиться глубже с домашней страницы, я получаю следующую ошибку во время выполнения (ошибка возникает случайно во время выполнения)
Исключение в потоке "main" java.net.SocketTimeoutException: тайм-аут чтения на java.net.SocketInputStream.socketRead0 (собственный метод)
Я пытался дать 3-минутное время ожидания между каждымЗапрос "Jsoup.connect".Но все же ошибка сохраняется.Я не уверен, почему это происходит и как это решить.Любые предложения, идеи приветствуются.
Ниже приведен пример потока ссылок: 1. Домашняя страница 2. Запущен пустой поиск 3. Фильтрация по категориям Java и Mobile 4. Первый проект после фильтрации 5. Просмотр ссылки вПроект: http://wurfl.cvs.sourceforge.net/wurfl/ 6. Конечная ссылка Тарбол: http://wurfl.cvs.sourceforge.net/viewvc/wurfl/?view=tar