Scikit-learn - работа с данными, форма которых меняется - PullRequest
0 голосов
/ 07 мая 2018

У меня есть набор данных около 1 тыс. Выборок, и я хочу применить некоторые неконтролируемые методы для кластеризации и визуализации этих данных.

Данные могут быть интерпретированы как таблица электронной таблицы, и, к сожалению, она не имеет четко определенной структуры. Количество строк таблицы различается, но не столбцы.

Данные структурированы так:

sample 1:

{
  "table1": {
    "column1": [
      "-",
      "-",
      "-"
    ],
    "column2": [
      "2017-04-16 10:00",
      "2017-04-16 10:00",
      "2017-04-16 10:00"
    ],
    "column3": [
      "-",
      "-",
      "-"
    ],
    "column4": [
      "name X",
      "name Y",
      "name Z"
    ],
    "column5": [
      "0",
      "0",
      "0"
    ],
  }
}


sample 2:

{
  "table1": {
    "column1": [
      "-",
      "-",
      "-",
      "-",
      "-",
      "-",
      "-",
      "-"
    ],
    "column2": [
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00",
      "2017-04-10 22:00"
    ],
    "column3": [
      "-",
      "-",
      "-",
      "-",
      "-",
      "-",
      "-",
      "-"
    ],
    "column4": [
      "name A",
      "name Z",
      "name B",
      "name X",
      "name C",
      "name D",
      "name E",
      "name F"
    ],
    "coumn5": [
      "",
      "",
      "3",
      "1",
      "0",
      "3",
      "0",
      "0"
    ]
  }
}

Как я могу работать с этими данными для неконтролируемых алгоритмов обучения, которые предлагает scikit-learn? Является ли заполнение для этой проблемы? Если так, как я могу применить отступ в этом случае?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...