Хороший сканер с открытым исходным кодом для индексации конкретного веб-сайта для конкретного содержимого? - PullRequest
0 голосов
/ 10 января 2011

Пожалуйста, предложите мне хороший веб-сканер с открытым исходным кодом, написанный на C ++, JAVA или PHP.

Мне просто нужно отсканировать / проиндексировать некоторые конкретные веб-сайты для определенного содержимого (изображения, текст, видео).

я знаю, что на этом сайте уже есть много вопросов и ответов по этой теме

но я немного растерялся после прочтения всех из них.

Так что извините, еслия повторяю тот же вопрос снова.

- Заранее спасибо

1 Ответ

0 голосов
/ 10 января 2011

Зависит от типа сайта.Если от вас требуется войти (или выполнить подобное действие), прежде чем вы сможете просматривать / загружать то, что вам нужно, я предлагаю вам использовать cURL (предпочтительно в PHP )).В противном случае вы можете использовать что-то простое, например wget, с sh или file_get_contents в PHP.

Вы должны использовать какой-то HTML-парсер и/ или регулярное выражение, чтобы найти конкретный контент, в зависимости от сайта, который вы просматриваете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...