ранжирование документов из моей базы данных - PullRequest
1 голос
/ 29 декабря 2011

Каждый раз, когда я ищу документы / документы по ранжированию документов или классификации текста, меня перенаправляют на страницы, связанные с веб-страницами, но я хочу ранжировать документы в хранилище.

Может ли кто-нибудь предложить книгу / статью, в которой говорится о ранжировании документов, присутствующих в базе данных документов (каждый результат поиска возвращает рейтинг страницы или какой-то другой алгоритм, относящийся к Интернету)

Моя цель - ранжировать документы из моей базы данных на основе их соответствия запросу или на основе справочного документа пользователя (без участия Интернета или веб-сайтов)

1 Ответ

0 голосов
/ 29 декабря 2011

Вы, вероятно, должны придерживаться существующей библиотеки ранжирования документов или базы данных. Большинство баз данных SQL имеют механизм полнотекстового поиска. Если вы работаете только с текстовой индексацией, вы можете также поискать много решений для поиска по тексту или ранжирования документов, таких как Lucene (есть и много других).
Если вы хотите понять, как работают алгоритмы ранжирования, возможно, стоит взглянуть на http://en.wikipedia.org/wiki/Tf-idf и http://en.wikipedia.org/wiki/Cosine_similarity.
Если вы хотите понять, как индексирование такой информации делает поиск эффективным, посмотрите на http://en.wikipedia.org/wiki/Inverted_index.
Обратите внимание, однако, что я не эксперт в этом вопросе, и существует много других подходов, хотя они не должны быть слишком разными в своей основной форме.
Использование системы, которая выполняет эту грязную работу для вас, не только сэкономит ваше время, но и даст вам более надежные и надежные возможности запросов, чем вы могли бы реализовать самостоятельно за приличное количество времени.

...