Объединение множества наборов минимальных значений K разных размеров в алгоритме KMV - PullRequest
0 голосов
/ 05 июня 2018

При исследовании метода K-минимальных значений (KVM) я обнаружил в блоге следующий абзац о методе KMV:

Обратите внимание, что если два объекта KMV имеют разный размер, из-заесли K - это разные размеры, или потому что либо одно из них не заполнено полностью минимальными значениями K, вы должны использовать меньшее значение K в качестве размера набора для объединения.

, а также

Чтобы выполнить объединение, вы просто берете 2 эскиза и объединяете их значения и сохраняете k наименьших (если 2 эскиза имеют разные размеры, k и k ', то вы сохраняете минимум (k, k')значения для сохранения самого низкого разрешения).

Тогда кажется, что если я пытаюсь использовать большое K (для большей точности, например, 2048), то если я смотрю на несколько объектов KMV (например,Таблицы в базах данных (уникальные пользователи интернет-портала), и даже одна из них имеет менее четкие значения, чем K (то есть K '), тогда мне придется использовать это меньшее значение K' в окончательном объединении.Вместо большого K я могу получить очень маленький K '.Могу ли я просто игнорировать тот факт, что K '

1 Ответ

0 голосов
/ 05 июня 2018

Для того чтобы эскиз KMV работал, вам нужно k минимальных значений.Если в одной из ветвей объединения не было значений k для начала, вы все равно можете взять объединение и обрезать его до k.Только если вы усекаете до k ', вы должны урезать комбинированный эскиз до k'.

На самом деле, вы можете использовать еще больше образцов для повышения точности.См. https://arxiv.org/abs/0903.0625 *, в котором показано, что достаточно отбросить только до минимально отброшенного сэмпла (который может вообще ничего не иметь), что приводит к несколько лучшей точности.

* Использование сброшенных сэмплов для более плотногоОценка множественных совокупностей.Эдит Коэн, Хаим Каплан.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...