Мне нужно проанализировать совершенно неизвестные числовые данные (я не знаю, к чему это относится).
Ниже приведены некоторые примеры из обучающих данных:
'yout': array([[ 0.00000000e+00, -7.87464718e-08, -7.31121013e-08, ...,
-4.20583628e-07, -3.62647412e-07, -2.17680232e-07],
[ -1.13230235e-13, -9.38223846e-05, 8.30087034e-05, ...,
-1.66600921e-07, -2.18490921e-07, 3.85091720e-07],
[ 3.32348250e-06, -1.93950410e-04, 1.54892852e-04, ...,
-7.36868568e-08, -1.41946370e-07, 2.15633282e-07],
...,
[ 9.72858182e-04, 7.22416022e-05, -1.68044656e-05, ...,
-2.90709866e-06, 2.59359588e-06, 3.13502801e-07],
[ 9.71197632e-04, 7.19938095e-05, -1.67844712e-05, ...,
-2.91106565e-06, 2.58013028e-06, 3.30935374e-07],
[ 9.80158036e-04, 7.25326131e-05, -1.69481316e-05, ...,
-2.94693184e-06, 2.59483672e-06, 3.52095128e-07]]),
'uin': array([[ -9.01855411e-03, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -7.99360578e-14, 0.00000000e+00],
[ -9.01855411e-03, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -6.21724894e-14, 0.00000000e+00],
[ -9.01855411e-03, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, 1.41805257e-05, 0.00000000e+00],
...,
[ -2.50927606e-02, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -8.40115265e-01, 0.00000000e+00],
[ -2.50927606e-02, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -8.40071885e-01, 0.00000000e+00],
[ -2.50891131e-02, 0.00000000e+00, 0.00000000e+00, ...,
0.00000000e+00, -8.40028529e-01, 0.00000000e+00]]),
'time': array([[ 0.00000000e+00],
[ 1.00000000e-02],
[ 2.00000000e-02],
...,
[ 1.99980000e+02],
[ 1.99990000e+02],
[ 2.00000000e+02]])
Форма выходного, входного и временного массива соответственно:
((184112, 63), (184112, 21), (184112, 1))
Что я сделал с входными данными такдалеко?
- приведение в порядок - удаление нескольких столбцов, в которых сохраняются только нули
- применение некоторой статистики: среднее, минимальное, максимальное, процентили и корреляционная матрица
- визуализация: гистограмма каждого числового атрибута, пара с использованием seaborn
- кластеризация: метод К-средних и колена;после поиска наилучшего количества кластеров оказалось, что есть 3 кластера
Проблема в том, что я не знаю, чтобы подтвердить свое подозрение, что есть 3 кластера, не знаю, как использоватьвыходных данных (которые содержат в 3 раза больше функций) и, кроме того, что делать с метками времени.
Кто-нибудь может мне посоветовать, как мне проводить анализ, пожалуйста?
(Я прошу вашего понимания, потому что я совершенно новичок в анализе данных, особенно в области ML и AI.)