Техника для сравнения предметов в наборе с переменным числом атрибутов, возможно с использованием LSH - PullRequest
0 голосов
/ 07 февраля 2019

У меня есть набор данных, содержащий миллионы предметов, собранных из разных разнородных источников.Каждый элемент содержит список от пятидесяти до тысячи атрибутов.Конкретные доступные атрибуты сильно различаются от предмета к предмету.

Я ищу лучший способ найти наиболее похожие предметы для заданного целевого элемента из набора.(Я, очевидно, хочу сделать это, не сравнивая грубую силу со всеми предметами в наборе.)

Я бы хотел использовать что-то вроде хеширования с учетом локальных особенностей с MinHash.Однако, если целевой элемент имеет 50 атрибутов, а вероятный совпадающий элемент в более широком наборе данных имеет 200, MinHash будет считать их несходными, даже если элемент с 200 атрибутами содержит все атрибуты целевого элемента.

Каковы лучшие методы или алгоритмы для сравнения предметов с разным количеством атрибутов?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...