Объясните простой поисковик - PullRequest
0 голосов
/ 08 февраля 2012

Кто-нибудь может объяснить мне простой поисковик?

Как он должен выглядеть, какие компоненты он должен иметь и как он работает?

Есть веб-сканер, есть индексация, и запросы - это то, что я знаю. Какую часть этого труднее всего сделать?

Где использовать алгоритм PageRank - при сканировании? или в запросе, т.е. показ результатов? Что такое индексирование?

Я читаю вещи, но это немного сложно.

Я хотел бы создать простой поисковый движок Java. Неважно, какой алгоритм будет использоваться, пока у меня есть широта, я думаю, что это самый простой алгоритм. У меня есть простой веб-сканер, я ввожу начальный URL и лимит искомых страниц. Сначала сканер проверяет ссылку, robots.txt и, если это возможно, загружает первую страницу, извлекает URL-адреса со страницы и добавляет их в список. Когда сканер заканчивает извлекать URL-адреса с первой страницы, он берет первый URL-адрес в списке и извлекает ссылки и т. Д.

А как насчет индексации?

Я действительно не понимаю эту часть. Если я хочу полностраничную индексацию, как мне это сделать? Просто добавить полный текст загруженной страницы в базу данных?

Индексирование - моя самая важная часть, поэтому, пожалуйста, объясните эту часть.

Спасибо заранее!

1 Ответ

0 голосов
/ 14 февраля 2012

Книга Алгоритмы Интеллектуальной Сети имеет отличное введение в алгоритм PageRank и хороший способ его реализации. Я предлагаю вам получить копию этого и проработать главу 2, чтобы лучше понять это пространство.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...