Набор данных 921rows
x 10166columns
используется для прогнозирования количества чашек бактерий на основе температуры воды. Каждый ряд является наблюдением (первые 10080 столбцов представляют собой временные ряды температуры воды, а остальные 2 столбца обозначены буквами y - 1 означает высокое количество бактерий, 0 означает низкое количество бактерий).
Для каждой активации есть колебания температуры. В остальное время температура воды будет оставаться постоянной на уровне 25 ° C. Поскольку во временном ряду слишком много функций, я подумываю извлечь некоторые релевантные функции из данных временного ряда, такие как первые 3 значения самой низкой частоты или амплитуда временного ряда, используя fft
или ifft
et * 1025. * из scipy.fftpack
, затем вписывается в модель логистической регрессии. Однако из-за ограниченного базового знания о волнах / сигнале меня смущает несколько вещей:
1) Создает ли применение fft
к временному ряду массив чисел частот данных временного ряда ? Если нет, какую функцию я должен использовать вместо этого?
2) Я сделал forward fill
для своих данных временного ряда (ie. Точки данных расположены через определенные интервалы времени) и количества данных для каждый временной ряд одинаков. Если 1) верно, будет ли число частот, возвращаемых для разных временных рядов, одинаковым?
Ниже приведена базовая c визуализация моих исходных данных.
Любая помощь приветствуется. Спасибо.