Неизвестный анализ данных с помощью Python - PullRequest
0 голосов
/ 10 октября 2018


Мне нужно проанализировать совершенно неизвестные числовые данные (я не знаю, к чему это относится).
Ниже приведены некоторые примеры из обучающих данных:

   'yout': array([[  0.00000000e+00,  -7.87464718e-08,  -7.31121013e-08, ...,
     -4.20583628e-07,  -3.62647412e-07,  -2.17680232e-07],
   [ -1.13230235e-13,  -9.38223846e-05,   8.30087034e-05, ...,
     -1.66600921e-07,  -2.18490921e-07,   3.85091720e-07],
   [  3.32348250e-06,  -1.93950410e-04,   1.54892852e-04, ...,
     -7.36868568e-08,  -1.41946370e-07,   2.15633282e-07],
   ..., 
   [  9.72858182e-04,   7.22416022e-05,  -1.68044656e-05, ...,
     -2.90709866e-06,   2.59359588e-06,   3.13502801e-07],
   [  9.71197632e-04,   7.19938095e-05,  -1.67844712e-05, ...,
     -2.91106565e-06,   2.58013028e-06,   3.30935374e-07],
   [  9.80158036e-04,   7.25326131e-05,  -1.69481316e-05, ...,
     -2.94693184e-06,   2.59483672e-06,   3.52095128e-07]]), 
   'uin': array([[ -9.01855411e-03,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -7.99360578e-14,   0.00000000e+00],
   [ -9.01855411e-03,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -6.21724894e-14,   0.00000000e+00],
   [ -9.01855411e-03,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,   1.41805257e-05,   0.00000000e+00],
   ..., 
   [ -2.50927606e-02,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -8.40115265e-01,   0.00000000e+00],
   [ -2.50927606e-02,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -8.40071885e-01,   0.00000000e+00],
   [ -2.50891131e-02,   0.00000000e+00,   0.00000000e+00, ...,
      0.00000000e+00,  -8.40028529e-01,   0.00000000e+00]]),        
   'time': array([[  0.00000000e+00],
   [  1.00000000e-02],
   [  2.00000000e-02],
   ..., 
   [  1.99980000e+02],
   [  1.99990000e+02],
   [  2.00000000e+02]])

Форма выходного, входного и временного массива соответственно:

   ((184112, 63), (184112, 21), (184112, 1))

Что я сделал с входными данными такдалеко?
- приведение в порядок - удаление нескольких столбцов, в которых сохраняются только нули
- применение некоторой статистики: среднее, минимальное, максимальное, процентили и корреляционная матрица
- визуализация: гистограмма каждого числового атрибута, пара с использованием seaborn
- кластеризация: метод К-средних и колена;после поиска наилучшего количества кластеров оказалось, что есть 3 кластера

Проблема в том, что я не знаю, чтобы подтвердить свое подозрение, что есть 3 кластера, не знаю, как использоватьвыходных данных (которые содержат в 3 раза больше функций) и, кроме того, что делать с метками времени.

Кто-нибудь может мне посоветовать, как мне проводить анализ, пожалуйста?

(Я прошу вашего понимания, потому что я совершенно новичок в анализе данных, особенно в области ML и AI.)

...