Java CSS Crawler - PullRequest
       57

Java CSS Crawler

1 голос
/ 16 января 2011

Я ищу веб-сканер с возможностью получить CSS страницы. Мне не нужны никакие другие необычные способности для ползания.

Я пытаюсь пробраться через Xapian, Nutch и Heritrix. Все они кажутся немного сложными. Если у кого-то есть опыт или рекомендации, я хотел бы услышать. Также приветствуется доступное руководство для любой из вышеперечисленных платформ.

David

Ответы [ 2 ]

0 голосов
/ 24 августа 2015

Вы правы, не используйте их, они слишком тяжелые.

Использование: Crawler4j

Следуйте инструкциям на месте для простого сканера.

Единственное, что вам нужно, - это изменение в MyCrawler.java: удаление «css» из шаблона FILTERS. В методе visit () поместите простое условие следующим образом:

if (url.contains(".css")) {
    // do what you need with it
}

Вот и все -ты хороший!

0 голосов
/ 16 января 2011

Я рекомендую использовать простой HTTPClient и простое регулярное выражение.Вы можете хранить ответы в своем собственном файле, базе данных или архиве (см. Heritrix).

Это упрощает задачу, а не использует тяжелый сканер.Поскольку в домене мало CSS, вы можете спокойно игнорировать сложные URL-адреса, следующие внутри домена.

Cheers!

...