У меня есть набор данных около 1 тыс. Выборок, и я хочу применить некоторые неконтролируемые методы для кластеризации и визуализации этих данных.
Данные могут быть интерпретированы как таблица электронной таблицы, и, к сожалению, она не имеет четко определенной структуры. Количество строк таблицы различается, но не столбцы.
Данные структурированы так:
sample 1:
{
"table1": {
"column1": [
"-",
"-",
"-"
],
"column2": [
"2017-04-16 10:00",
"2017-04-16 10:00",
"2017-04-16 10:00"
],
"column3": [
"-",
"-",
"-"
],
"column4": [
"name X",
"name Y",
"name Z"
],
"column5": [
"0",
"0",
"0"
],
}
}
sample 2:
{
"table1": {
"column1": [
"-",
"-",
"-",
"-",
"-",
"-",
"-",
"-"
],
"column2": [
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00"
],
"column3": [
"-",
"-",
"-",
"-",
"-",
"-",
"-",
"-"
],
"column4": [
"name A",
"name Z",
"name B",
"name X",
"name C",
"name D",
"name E",
"name F"
],
"coumn5": [
"",
"",
"3",
"1",
"0",
"3",
"0",
"0"
]
}
}
Как я могу работать с этими данными для неконтролируемых алгоритмов обучения, которые предлагает scikit-learn? Является ли заполнение для этой проблемы? Если так, как я могу применить отступ в этом случае?