руководство по настройке crawler4j - PullRequest
5 голосов
/ 16 февраля 2011

Я хотел бы настроить сканер для сканирования веб-сайта, скажем, в блоге, и получать только ссылки на веб-сайте и вставлять ссылки в текстовый файл.Можете ли вы помочь мне пошагово настроить сканер?Я использую Eclipse.

1 Ответ

0 голосов
/ 11 января 2012

Jsoup сделает все необходимое для анализа html. Jsoup - это Java-API для обработки исходного кода HTML. Вы можете получить

  1. Таблица, с которой вы можете анализировать каждую строку или столбец.
  2. Список всех ссылок и импорт исходного кода в этот html (импорт как файлы CSS и JS).
  3. Данные конкретного тега.

и более.

Для вашей цели здесь - пример кода.

Надеюсь, это поможет вам.

...