Проклятие размерности, когда размеры фиксированы - PullRequest
0 голосов
/ 20 апреля 2020

Я думаю, что в сообществе Data Science существует большое недопонимание относительно того, что именно означает «проклятие высокой размерности». Пожалуйста, рассмотрим два примера:

1) Я хочу сравнить расстояние между точкой A и точкой B в 1000-мерном и 1001-мерном пространстве. Это пример проклятия высокой размерности, потому что есть большая вероятность, что расстояние будет больше в 1001-мерном пространстве.

2) Я хочу сравнить расстояние между точками A и точка B в 1000-мерном пространстве, а также расстояние между точкой A и точкой C в 1000-мерном пространстве. Это не проклятие высокой размерности, потому что, хотя размеры велики, они остаются неизменными.

Верно ли второе утверждение? Если отношение расстояний между точками AB вдвое выше, чем A- C в двумерном пространстве, я ожидаю увидеть вдвое более высокое соотношение расстояний в 1000-мерном пространстве тех же точек. Это означает, что проклятие высокой размерности возникает только тогда, когда пытаются сравнить расстояния между различными числами измерений.

1 Ответ

0 голосов
/ 21 апреля 2020

Я думаю, что ответил на этот вопрос небольшим тестом. Поэтому я собираюсь уйти отсюда на случай, если это кому-нибудь пригодится:

Я провел эксперимент, в котором я создал фиктивный набор данных с 3 наблюдениями (A = 1, B = 2, C = 4), рассчитал евклидово расстояние между точками и изменил число признаков, чтобы увидеть, начинает ли дифференцироваться соотношение расстояний между точками при увеличении характеристик.

После 2 объектов:

       0       1       2    ratio
0   0.00    1.41    4.24    3.00
1   0.00    1.41    2.83    2.00
2   0.00    2.83    4.24    1.50

После 100 функций:

       0        1       2   ratio
0   0.00    10.00   30.00   3.00
1   0.00    10.00   20.00   2.00
2   0.00    20.00   30.00   1.50

После 1000 функций:

       0        1       2   ratio
0   0.00    31.62   94.87   3.00
1   0.00    31.62   63.25   2.00
2   0.00    63.25   94.87   1.50

После 10000 функций:

       0         1       2  ratio
0   0.00    100.00  300.00  3.00
1   0.00    100.00  200.00  2.00
2   0.00    200.00  300.00  1.50

Что это значит? Проклятие высокой размерности не возникает, когда размеры фиксированы. Можно видеть, что отношение расстояний между первой ближайшей точкой (1) и второй ближайшей точкой (2) остается постоянным, когда число измерений увеличивается.

Чтобы выразить это в перспективе, да, вы путешествуете больше очков, но это имеет смысл, так как ваше общее пространство данных увеличивается с каждой добавленной функцией. Однако соотношение перемещений между точками остается неизменным, и вот что имеет значение.

Если честно, я не вижу такой проблемы со знаменитым «проклятием высокой размерности», если только вы не находитесь в ситуации, когда вам нужно сравнить те же точки в варианте n измерений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...