Как использовать масштабирование объектов в многомерных данных временных рядов? - PullRequest
0 голосов
/ 06 февраля 2020

Я пытаюсь провести классификацию по многомерным данным временных рядов. Я хочу выполнить масштабирование объектов для таких данных. Предположим, что данные многомерного временного ряда выглядят так:

F1                             F2                              F3                             
[1.0 2.0 3.0 4.0........]    [41.0 23.0 3.0 4.0.........]    [103.0 27.0 3.0 43.0.......]        
[331.0 2.0 3.0 4.0......]    [41.0 23.0 3.50 444.0......]    [1333.0 27.0 3.0 43.0......]        

и т. Д.,

Как использовать здесь масштабирование функций, чтобы привести все функции в один диапазон?

Метод 1: 1. Для каждого списка в F1 рассчитайте среднее и стандартное отклонение и стандартизируйте данные 2. Повторите вышеуказанный шаг для всего списка во всех функциях (F2, F3)

Метод 2: 1 Вычислите среднее значение для каждого списка в F1, а затем вычислите среднее значение для всего списка, аналогичным образом рассчитайте стандартное значение для каждого списка и среднее значение по всему списку в F1. Используйте это среднее значение и стандартное отклонение для стандартизации функции F1 2. Повторите вышеуказанный шаг для всех других функций (F2, F3)

Каков правильный подход к стандартизации данных такого типа? Являются ли упомянутые выше методы правильными?

1 Ответ

1 голос
/ 06 февраля 2020

Как видите, здесь , формула для стандартизации:

z = (x-x')/S, where x is a point, x' is the sample mean and S is the stdev of the sample.

Это означает, что x' должно быть средним значением всех списков в столбце (например, F1), и S должен быть стандартным элементом всех списков в столбце. Затем это вычисление z должно быть применено к каждой точке.

Каков правильный подход к стандартизации данных такого типа? Являются ли упомянутые выше методы правильными?

Метод 1 не является хорошим подходом, поскольку среднее значение списка 1 будет отличаться от среднего значения списка 2, и поскольку они являются частью одной выборки, центрирование среднее значение должно быть одинаковым. Метод 2 подходит для расчета среднего значения, но я не уверен в расчете stdev. Вычисление stdev всех списков вместе, безусловно, правильно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...