Предположим, что существует четыре списка данных, а размерность каждой точки данных равна трем.Каждый список генерируется из другого метода.В идеале, только одна точка данных в каждом списке эквивалентна другой (предположим, красные точки данных).Мы называем это решением, а другие являются псевдо-решениями.Таким образом, будет легко найти реальное решение.Нам даже не нужны все данные, а только два списка данных.Сравнивая каждую возможную комбинацию двух точек данных из двух списков, решение будет найдено легко.
Все данные, к сожалению, содержат шум в реальном мире.Реальные решения будут неодинаковыми в разных списках.Иногда реальное решение теряется из его списка.Хуже того, существуют два псевдо-решения, которые удивительно близки друг к другу, что делает поиск ближайших точек данных бесполезным.
Как мне найти реальное решение в реальном мире?Я могу себе представить, что если две точки данных находятся ближе всего, а остальные три не так близки.Последние три выбраны.Причиной может быть число их соседей побольше.Однако насколько близко две точки данных должны рассматриваться как соседи?
Решит ли метод кластеризации эту проблему согласования с шумом?