Apache Lucene: как преобразовать индекс коллекции в другой формат? - PullRequest
0 голосов
/ 24 февраля 2011

Мне нужно преобразовать индекс, сгенерированный Apache Lucene, в другое представление коллекции.

В настоящее время у меня есть коллекция документов со многими атрибутами.

Мне нужно создать пары документов с мерами сходстваиз него, чтобы передать их классификаторам.

Знаете ли вы какой-нибудь учебник, который я мог бы использовать для этого?

спасибо

1 Ответ

1 голос
/ 24 февраля 2011

Меры сходства должны основываться на запросе .то есть вы запрашиваете набор документов Lucene и возвращаете набор документов с относительными баллами.

Если вы хотите сравнить каждый документ с любым другим (это правильно? трудно определить из вопроса), тогданеобходимо использовать функцию каждого документа в качестве основы для запросов.

Например, вы можете извлечь верхние N терминов (по частоте, исключая стоп-слова) из каждого документа.Если у вас есть X документов, то у вас будет X запросов.Затем вы выполняете каждый из ваших X-запросов к индексу и получаете относительное сходство каждого документа со всеми остальными.Это матрица, которую вы можете использовать для классификации.

Другой альтернативой может быть использование заголовка или краткого изложения каждого документа в качестве основы для запроса (опять же, за исключением остановок).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...