У меня есть несколько списков в python вида:
features = [(array([ 2, 5, 7, 15, 15, 14, 1, 1, 0, 4, 4, 3, 6,
10, 11, 12, 13, 9, 8, 18, 17, 17, 18, 16, 16, 17,
21, 20, 19, 25, 24, 24, 23, 23, 23, 22, 29, 29, 30,
31, 28, 27, 33, 33, 33, 35, 39, 39, 39, 42, 41, 44,
43, 26, 32, 32, 33, 34, 37, 37, 36, 37, 37, 37, 38,
39, 39, 40, 42, 42, 50, 49, 48, 46, 45, 51, 52, 59,
57, 56, 47, 58, 54, 55, 53, 52, 60, 61, 62, 63, 64,
64, 70, 70, 69, 64, 64, 64, 65, 71, 71, 65, 65, 65,
68, 67, 66, 66, 70, 71, 71, 72, 73, 74, 75, 73, 78,
76, 77, 77, 81, 81, 83, 82, 81, 78, 80, 79, 84, 85,
86, 84, 88, 87, 88, 91, 87, 93, 93, 92, 92, 88, 90,
89, 95, 94, 98, 99, 99, 95, 95, 97, 96, 102, 101, 101,
100, 106, 106, 107, 106, 105, 102, 102, 104, 103, 103, 118, 118,
122, 110, 113, 113, 119, 122, 109, 114, 117, 120, 123, 108, 108,
115, 115, 116, 116, 121, 121, 124, 124, 111, 112, 112, 125,128,]),... ]))]
len(features) = 24073
len(features[n]) = 5
len(features[0][0]) = 397
len(features[1][0]) = 171
labels = [[0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
[0,0,,0,0,0,0,0,0,0,...]]
len(labels) = 70871704
len(labels[0] = 397
len(labels[1] = 315
как я могу их гомогенизировать, чтобы они имели одинаковую длину и их вложенные списки также одинаковой длины? Они приходят от применения регулярных выражений к некоторым данным OCR, получая координаты поля, которое получает текст из изображения.
Все функции закодированы, а метки являются бинаризаторами, где 0 - нет, а 1 - да.
Мне нужно, чтобы они соответствовали наивной байесовской классификации.
Большое спасибо и извините, если я прошу слишком много: (