Question

У меня есть небольшой набор точек данных (около 10) в двухмерном пространстве, и у каждой из них есть метка категории.Я хочу классифицировать новую точку данных на основе существующих меток точек данных, а также связать «вероятность» принадлежности к какому-либо конкретному классу меток.

Уместно ли маркировать новую точку на основе метки для ее ближайшего соседа (например, K-ближайший сосед, K = 1)?Чтобы получить вероятность, я хочу переставить все метки и вычислить все минимальное расстояние от неизвестной точки, а остальное и найти долю случаев, когда минимальное расстояние меньше или равно расстоянию, которое использовалось для его маркировки.*

Спасибо

Stefio · Answer 1 · 18 июня 2013

Метод Nearest Neighbor уже использует теорему Байеса для оценки вероятности, используя точки в шаре, содержащем выбранные вами K точки.Преобразование не требуется, так как количество точек в шаре из K точек, принадлежащих каждой метке, деленное на общее количество точек в этом шаре, уже является приближением апостериорной вероятности этой метки.Другими словами:

P (метка | z) = P (z | метка) P (метка) / P (z) = K (метка) / K

Это получается с использованиемБайесовское правило вероятности для оценочной вероятности, оцененной с использованием подмножества данных.В частности, используя:

VP (x) = K / N (это дает вам вероятность точки в шаре объемом V)

P (x) = K / NV (сверху)

P (x = метка) = K (метка) / N (метка) V (где K (метка) и N (метка) - количество точек в шаре данного заданного класса иколичество точек в общей выборке этого класса)

и

P (метка) = N (метка) /N.

Поэтому просто выберите K,рассчитайте расстояния, посчитайте точки и, проверив их метки и пересчитав, вы получите свою вероятность.

bayer · Answer 2 · 21 февраля 2011

Roweis использует вероятностную структуру с KNN в своей публикации Анализ компонентов соседства .Идея состоит в том, чтобы использовать «мягкую» классификацию ближайших соседей, где вероятность того, что точка i использует другую точку j в качестве соседа, определяется как

enter image description here ,

, где d_ij - этоевклидово расстояние между точкой i и j.

yura · Answer 3 · 09 февраля 2011

Нет вероятностей для такого K-ближайшего метода классификации, потому что это дискриминационная классификация, а также SVM. Следует использовать постпроцесс для изучения вероятностей на невидимых данных с генеративной моделью, такой как логистическая регрессия. 1. узнать K ближайший классификатор 2. Изучите логистическую регрессию по расстоянию и среднему расстоянию до ближайшего К для данных проверки.

Проверьте подробности статьи LibSVM.

denis · Answer 4 · 08 февраля 2011

Сортировка расстояний до 10 центров; они могут быть
1 5 6 ... & mdash; один рядом, другие далеко
1 1 1 5 6 ... & mdash; 3 рядом, другие далеко
... много возможностей.
Вы можете объединить 10 расстояний в одно число, например, 1 - (ближайшее / среднее) ** p,
но это выбрасывание информации. (Различные степени р делают холмы вокруг центров более крутыми или более плоскими.)

Если ваши центры действительно являются гауссовыми холмами, взгляните на Оценка плотности многомерного ядра .

Добавлено: Есть миллионы функций, которые плавно идут между 0 и 1, но это не делает их вероятностями чего-либо.
«Вероятность» означает либо этот шанс, либо вероятность, как в вероятности дождя;
или что ты пытаешься произвести на кого-то впечатление.

Добавлено снова: scholar.google.com "(single | 1) классификатор ближайшего соседа" получает> 300 просмотров; "k классификатор ближайшего соседа" получает почти 3000.
Мне кажется (не эксперт), что из 10 различных способов отображения расстояний k-NN до меток
каждый из них может быть лучше, чем 9 других & mdash; для некоторых данных, с некоторой ошибкой.
В любом случае, вы можете попробовать задать stats.stackexchange.com ,

Dr. belisarius · Answer 5 · 08 февраля 2011

Ответ: это зависит.

Представьте, что ваши ярлыки - это фамилия человека, а координаты X, Y представляют некоторые существенные характеристики последовательности ДНК человека. Очевидно, что более точное описание ДНК повышает вероятность того, что фамилии будут одинаковыми.

Теперь предположим, что X, Y - это широта / длина рабочего офиса для этого человека. Работа ближе не связана с обменом ярлыками (фамилиями).

Итак, это зависит от семантики ваших тегов и осей.

НТН!

«Вероятность» K-ближайшего соседа, как классификация

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

«Вероятность» K-ближайшего соседа, как классификация

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы