Я впервые работаю с относительно большим набором данных (50 ГБ). Есть 30 000 классов и 100 000 меток (искаженные данные). Я пытаюсь обучить мою модель CNN на 10% данных для тестирования.
У меня проблема с горячим кодированием меток. Метки go от 0 до 29 999 (целые числа), поэтому в моем наборе данных 10% у меня есть массив из 10000 меток со случайными значениями от 0 до 29 999. Что происходит, так это то, что keras to категорический создает матрицу векторов с длиной = max (метки).
Например, если в моем наборе данных 10% наибольшая метка равна 25 000, то одна кодировка приведет к неправильной форме (10000, 250000). Потому что у меня есть только 20 меток в этом наборе данных.
Как я могу сделать одно горячее кодирование этих меток?
Я не уверен, достаточно ли я ясен, впервые работая над большими данные меня немного запутали.