получение только информации о сайте, как это делает поисковая система - PullRequest
0 голосов
/ 05 июля 2011

Я должен получить информацию о сайте, как это делает поисковая система. Мне нужно описание сайта, ссылка и некоторая информация о них, и я буду хранить его в своей БД. Есть ли библиотеки для этого? Пожалуйста, помните, что я могу сканировать целую веб-страницу, но мне нужна только информация в формате, просканированном поисковыми системами.

Спасибо
Картик

1 Ответ

1 голос
/ 05 июля 2011

Какой язык?Существуют API и привязки для чтения содержимого веб-страницы.Понимаете ли вы масштаб задачи, если хотите создать новую «поисковую систему»?Ваш вопрос настолько общий, что не так много советов, как:

Уважайте robots.txt

Не забивайте сервер запросами, вы скоро получитеВаш IP заблокирован разумными сисадминами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...