Я новичок в машинном обучении, и мне было интересно, могут ли определенные алгоритмы / модели (ie. Logisti c regression) обрабатывать списки как значения для своих переменных. До сих пор я всегда использовал довольно стандартные наборы данных, где у вас есть пара переменных, связанных значений, а затем классификация для этого набора значений (см. Пример 1). Однако теперь у меня есть аналогичный набор данных, но со списками для некоторых переменных (см. Пример 2). Могут ли с этим справиться модели регрессии logisti c, или мне нужно будет сделать какое-то извлечение признаков, чтобы преобразовать этот набор данных в обычный набор данных, как в примере 1?
Пример 1 (нормальный):
+---+------+------+------+-----------------+
| | var1 | var2 | var3 | classification |
+---+------+------+------+-----------------+
| 1 | 5 | 2 | 526 | 0 |
| 2 | 6 | 1 | 686 | 0 |
| 3 | 1 | 9 | 121 | 1 |
| 4 | 3 | 11 | 99 | 0 |
+---+------+------+------+-----------------+
Пример 2 (списки):
+-----+-------+--------+---------------------+-----------------+--------+
| | width | height | hlines | vlines | class |
+-----+-------+--------+---------------------+-----------------+--------+
| 1 | 115 | 280 | [125, 263, 699] | [125, 263, 699] | 1 |
| 2 | 563 | 390 | [11, 211] | [156, 253, 399] | 0 |
| 3 | 523 | 489 | [125, 255, 698] | [356] | 1 |
| 4 | 289 | 365 | [127, 698, 11, 136] | [458, 698] | 0 |
| ... | ... | ... | ... | ... | ... |
+-----+-------+--------+---------------------+-----------------+--------+
Чтобы предоставить некоторый дополнительный контекст по моей конкретной проблеме c. Я пытаюсь изобразить рисунки. Чертежи имеют ширину и высоту (обычные переменные), но чертежи также имеют, например, набор горизонтальных и вертикальных линий (представленных в виде списка их координат на соответствующей оси). Это то, что вы видите в примере 2. Фактический набор данных, который я использую, еще больше, он также содержит переменные, которые содержат списки, содержащие толщину для каждой строки, списки, содержащие расширение для каждой строки, списки, содержащие цвета пробелов между линии, et c. В конце концов, я хотел бы в своей логистической c регрессии понять, в результате чего получаются красивые рисунки. Например, если слишком много линий слишком близко, рисунок не будет красивым. Модель должна улавливать эти «характеристики» того, что делает рисунок хорошим и плохим.
Я не включил их, так как способ настройки этих данных немного сбивает с толку, и если я смогу решить свой вопрос для вышеуказанного набора данных, я чувствую, что могу использовать принцип этого решения для оставшихся набор данных. Однако, если вам нужна дополнительная (полная) информация, не стесняйтесь спрашивать!
Заранее спасибо!