Получить все похожие документы, используя L SH Forest? - PullRequest
0 голосов
/ 16 февраля 2020

Я хотел бы выполнить некоторую инкрементную кластеризацию для ряда документов. Поскольку их число, вероятно, станет большим (миллиарды), L SH Index представляется хорошим решением проблемы.

Однако L SH Forest Бава и соавт. Похоже, что некоторые улучшения по сравнению с индексом L SH. Как упомянуто в статье:

Лес L SH улучшает теоретические гарантии производительности запросов, обеспечивая точность для всех запросов без соответствующего увеличения объема памяти .... Он также устраняет необходимость настройки индекса в зависимости от домена или при изменении размера корпуса ... Все эти свойства достигаются при сохранении эффективных запросов, предлагаемых схемой basi c L SH.

Я знаю, что L SH Forest стремится отвечать на запросы для top-k подобных точек, но в моем случае k неизвестно. Так что мне было интересно, можно ли получить все ключи, наборы ссылок которых имеют сходства Жакара, превышающие заданный порог, как L SH Index , чтобы мне не пришлось беспокоиться о -тюнинг или любой другой недостаток L SH Index.

Спасибо за ваше время:)

...