Одно горячее кодирование до или после взятия небольшого образца? - PullRequest
0 голосов
/ 17 апреля 2020

Я впервые работаю с относительно большим набором данных (50 ГБ). Есть 30 000 классов и 100 000 меток (искаженные данные). Я пытаюсь обучить мою модель CNN на 10% данных для тестирования.

У меня проблема с горячим кодированием меток. Метки go от 0 до 29 999 (целые числа), поэтому в моем наборе данных 10% у меня есть массив из 10000 меток со случайными значениями от 0 до 29 999. Что происходит, так это то, что keras to категорический создает матрицу векторов с длиной = max (метки).

Например, если в моем наборе данных 10% наибольшая метка равна 25 000, то одна кодировка приведет к неправильной форме (10000, 250000). Потому что у меня есть только 20 меток в этом наборе данных.

Как я могу сделать одно горячее кодирование этих меток?

Я не уверен, достаточно ли я ясен, впервые работая над большими данные меня немного запутали.

1 Ответ

1 голос
/ 17 апреля 2020

Вы должны определенно горячо закодировать цель, прежде чем брать меньшую выборку. Тогда это не будет проблемой.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...