Я хочу создать набор данных, состоящий из 2000-3000 веб-страниц, начиная с нескольких начальных URL. Я попробовал это с помощью сканера Nutch, но мне не удалось это сделать (не удалось преобразовать данные «сегментов», извлеченные в HTML-страницы).
Есть ли какие-либо предложения по использованию другого сканера или другого инструмента? Что если веб-страницы содержат абсолютные URL-адреса, что сделает невозможным использование набора данных в автономном режиме?