«Вероятность» K-ближайшего соседа, как классификация - PullRequest
4 голосов
/ 08 февраля 2011

У меня есть небольшой набор точек данных (около 10) в двухмерном пространстве, и у каждой из них есть метка категории.Я хочу классифицировать новую точку данных на основе существующих меток точек данных, а также связать «вероятность» принадлежности к какому-либо конкретному классу меток.

Уместно ли маркировать новую точку на основе метки для ее ближайшего соседа (например, K-ближайший сосед, K = 1)?Чтобы получить вероятность, я хочу переставить все метки и вычислить все минимальное расстояние от неизвестной точки, а остальное и найти долю случаев, когда минимальное расстояние меньше или равно расстоянию, которое использовалось для его маркировки.*

Спасибо

Ответы [ 5 ]

5 голосов
/ 18 июня 2013

Метод Nearest Neighbor уже использует теорему Байеса для оценки вероятности, используя точки в шаре, содержащем выбранные вами K точки.Преобразование не требуется, так как количество точек в шаре из K точек, принадлежащих каждой метке, деленное на общее количество точек в этом шаре, уже является приближением апостериорной вероятности этой метки.Другими словами:

P (метка | z) = P (z | метка) P (метка) / P (z) = K (метка) / K

Это получается с использованиемБайесовское правило вероятности для оценочной вероятности, оцененной с использованием подмножества данных.В частности, используя:

VP (x) = K / N (это дает вам вероятность точки в шаре объемом V)

P (x) = K / NV (сверху)

P (x = метка) = K (метка) / N (метка) V (где K (метка) и N (метка) - количество точек в шаре данного заданного класса иколичество точек в общей выборке этого класса)

и

P (метка) = N (метка) /N.

Поэтому просто выберите K,рассчитайте расстояния, посчитайте точки и, проверив их метки и пересчитав, вы получите свою вероятность.

5 голосов
/ 21 февраля 2011

Roweis использует вероятностную структуру с KNN в своей публикации Анализ компонентов соседства .Идея состоит в том, чтобы использовать «мягкую» классификацию ближайших соседей, где вероятность того, что точка i использует другую точку j в качестве соседа, определяется как

enter image description here,

, где d_ij - этоевклидово расстояние между точкой i и j.

2 голосов
/ 09 февраля 2011

Нет вероятностей для такого K-ближайшего метода классификации, потому что это дискриминационная классификация, а также SVM. Следует использовать постпроцесс для изучения вероятностей на невидимых данных с генеративной моделью, такой как логистическая регрессия. 1. узнать K ближайший классификатор 2. Изучите логистическую регрессию по расстоянию и среднему расстоянию до ближайшего К для данных проверки.

Проверьте подробности статьи LibSVM.

1 голос
/ 08 февраля 2011

Сортировка расстояний до 10 центров; они могут быть
1 5 6 ... & mdash; один рядом, другие далеко
1 1 1 5 6 ... & mdash; 3 рядом, другие далеко
... много возможностей.
Вы можете объединить 10 расстояний в одно число, например, 1 - (ближайшее / среднее) ** p,
но это выбрасывание информации. (Различные степени р делают холмы вокруг центров более крутыми или более плоскими.)

Если ваши центры действительно являются гауссовыми холмами, взгляните на Оценка плотности многомерного ядра .

Добавлено: Есть миллионы функций, которые плавно идут между 0 и 1, но это не делает их вероятностями чего-либо.
«Вероятность» означает либо этот шанс, либо вероятность, как в вероятности дождя;
или что ты пытаешься произвести на кого-то впечатление.

Добавлено снова: scholar.google.com "(single | 1) классификатор ближайшего соседа" получает> 300 просмотров; "k классификатор ближайшего соседа" получает почти 3000.
Мне кажется (не эксперт), что из 10 различных способов отображения расстояний k-NN до меток
каждый из них может быть лучше, чем 9 других & mdash; для некоторых данных, с некоторой ошибкой.
В любом случае, вы можете попробовать задать stats.stackexchange.com ,

0 голосов
/ 08 февраля 2011

Ответ: это зависит.

Представьте, что ваши ярлыки - это фамилия человека, а координаты X, Y представляют некоторые существенные характеристики последовательности ДНК человека. Очевидно, что более точное описание ДНК повышает вероятность того, что фамилии будут одинаковыми.

Теперь предположим, что X, Y - это широта / длина рабочего офиса для этого человека. Работа ближе не связана с обменом ярлыками (фамилиями).

Итак, это зависит от семантики ваших тегов и осей.

НТН!

...