Кто-нибудь может объяснить мне простой поисковик?
Как он должен выглядеть, какие компоненты он должен иметь и как он работает?
Есть веб-сканер, есть индексация, и запросы - это то, что я знаю. Какую часть этого труднее всего сделать?
Где использовать алгоритм PageRank - при сканировании? или в запросе, т.е. показ результатов?
Что такое индексирование?
Я читаю вещи, но это немного сложно.
Я хотел бы создать простой поисковый движок Java. Неважно, какой алгоритм будет использоваться, пока у меня есть широта, я думаю, что это самый простой алгоритм.
У меня есть простой веб-сканер, я ввожу начальный URL и лимит искомых страниц.
Сначала сканер проверяет ссылку, robots.txt и, если это возможно, загружает первую страницу, извлекает URL-адреса со страницы и добавляет их в список. Когда сканер заканчивает извлекать URL-адреса с первой страницы, он берет первый URL-адрес в списке и извлекает ссылки и т. Д.
А как насчет индексации?
Я действительно не понимаю эту часть. Если я хочу полностраничную индексацию, как мне это сделать? Просто добавить полный текст загруженной страницы в базу данных?
Индексирование - моя самая важная часть, поэтому, пожалуйста, объясните эту часть.
Спасибо заранее!