У меня есть набор данных, содержащий миллионы предметов, собранных из разных разнородных источников.Каждый элемент содержит список от пятидесяти до тысячи атрибутов.Конкретные доступные атрибуты сильно различаются от предмета к предмету.
Я ищу лучший способ найти наиболее похожие предметы для заданного целевого элемента из набора.(Я, очевидно, хочу сделать это, не сравнивая грубую силу со всеми предметами в наборе.)
Я бы хотел использовать что-то вроде хеширования с учетом локальных особенностей с MinHash.Однако, если целевой элемент имеет 50 атрибутов, а вероятный совпадающий элемент в более широком наборе данных имеет 200, MinHash будет считать их несходными, даже если элемент с 200 атрибутами содержит все атрибуты целевого элемента.
Каковы лучшие методы или алгоритмы для сравнения предметов с разным количеством атрибутов?