Question

Я впервые работаю с относительно большим набором данных (50 ГБ). Есть 30 000 классов и 100 000 меток (искаженные данные). Я пытаюсь обучить мою модель CNN на 10% данных для тестирования.

У меня проблема с горячим кодированием меток. Метки go от 0 до 29 999 (целые числа), поэтому в моем наборе данных 10% у меня есть массив из 10000 меток со случайными значениями от 0 до 29 999. Что происходит, так это то, что keras to категорический создает матрицу векторов с длиной = max (метки).

Например, если в моем наборе данных 10% наибольшая метка равна 25 000, то одна кодировка приведет к неправильной форме (10000, 250000). Потому что у меня есть только 20 меток в этом наборе данных.

Как я могу сделать одно горячее кодирование этих меток?

Я не уверен, достаточно ли я ясен, впервые работая над большими данные меня немного запутали.

nicolasgervais · Answer 1 · 17 апреля 2020

Вы должны определенно горячо закодировать цель, прежде чем брать меньшую выборку. Тогда это не будет проблемой.

Одно горячее кодирование до или после взятия небольшого образца?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Одно горячее кодирование до или после взятия небольшого образца?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы