webcrawler анализ найденных страниц - PullRequest
0 голосов
/ 16 мая 2011

Я написал простой веб-сканер. Я загрузил все веб-сайты и их на моем жестком диске. Теперь я хочу проанализировать их, чтобы я мог написать простой интерфейс, например www.google.de, и искать информацию на моих выбранных страницах.

проблема в том, как быстро найти важную информацию. поэтому расчет важен. это может быть в реальном времени или после получения. моя идея написать диктоник со списком английских слов и посчитать записи ... или что делать? Мне нужна лекция, как извлечь информацию и сжать их. но я не знаю, где искать.

сканер основан на c ++ с mysql, где хранятся ссылки.

Я надеюсь, что мой вопрос ясно. : D

Кстати, за мой плохой английский, но на немецком языке нет такой доски: P

1 Ответ

1 голос
/ 16 мая 2011

Наука информационного поиска (ИР) является сложной.

Вы смотрели какие-нибудь стандартные тексты? Как:

Введение в поиск информации Кристофером Д. Мэннингом, Прабхакаром Рагхаваном и Генрихом Шютце (7 июля 2008 г.) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

Поиск информации: внедрение и оценка поисковых систем. Авторы Stefan Büttcher, Charles L. A. Clarke и Gordon V. Cormack (23 июля 2010 г.) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

Найдите «поиск информации» на Amazon для получения дополнительной информации.

Вы также можете взглянуть на мой ответ на Вопрос о дизайне для системы уведомлений , в котором описывается общая архитектура для поисковых веб-сайтов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...