Сканирование веб-данных с помощью веб-сканера - PullRequest
1 голос
/ 30 марта 2011

Я хотел бы использовать веб-сканер и сканировать определенный веб-сайт. Сайт представляет собой систему управления обучением, где многие студенты загружают свои задания, презентации проектов и так далее. Мой вопрос заключается в том, можно ли использовать веб-сканер и загружать файлы, загруженные в систему управления обучением. После того, как я загрузил их, я хотел бы создать индекс для них, чтобы запросить набор документов. Пользователь может использовать мое приложение в качестве поисковой системы. Может ли гусеничный это сделать? Я знаю про webeater (Crawler, написанный на Java)

Ответы [ 2 ]

0 голосов
/ 30 марта 2011

Если вы хотите использовать настоящий веб-сканер, пользователь http://www.httrack.com/

Он предлагает вам так много вариантов копирования сайтов или контента на веб-страницах, включая flash. Работает на windows и mac.

Затем вы можете выполнить шаги 2 и 3, как предложено выше.

0 голосов
/ 30 марта 2011
  1. Загрузка файлов в Java SingleThread.
  2. Разбор файлов (вы можете получить представление о плагинах разбора Nutch).
  3. Создать индекс с lucene
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...