Question

Мне нужно преобразовать индекс, сгенерированный Apache Lucene, в другое представление коллекции.

В настоящее время у меня есть коллекция документов со многими атрибутами.

Мне нужно создать пары документов с мерами сходстваиз него, чтобы передать их классификаторам.

Знаете ли вы какой-нибудь учебник, который я мог бы использовать для этого?

спасибо

Joel · Answer 1 · 24 февраля 2011

Меры сходства должны основываться на запросе .то есть вы запрашиваете набор документов Lucene и возвращаете набор документов с относительными баллами.

Если вы хотите сравнить каждый документ с любым другим (это правильно? трудно определить из вопроса), тогданеобходимо использовать функцию каждого документа в качестве основы для запросов.

Например, вы можете извлечь верхние N терминов (по частоте, исключая стоп-слова) из каждого документа.Если у вас есть X документов, то у вас будет X запросов.Затем вы выполняете каждый из ваших X-запросов к индексу и получаете относительное сходство каждого документа со всеми остальными.Это матрица, которую вы можете использовать для классификации.

Другой альтернативой может быть использование заголовка или краткого изложения каждого документа в качестве основы для запроса (опять же, за исключением остановок).

Apache Lucene: как преобразовать индекс коллекции в другой формат?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Apache Lucene: как преобразовать индекс коллекции в другой формат?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов