Так что у меня есть ситуация, которую я не могу выбраться.Я довольно новичок в машинном обучении и его сообществе.Я пытаюсь сделать модель классификации, но вот моя проблема:
Итак, допустим, у меня есть 2 столбца X (переменные; текст или целые числа) и столбец 1 Y (который я пытаюсь предсказать).
Один из этих столбцов X произошел из набора данных, в котором есть повторяющиеся строки, но некоторая информация в дубликатах отличается и важна для моей работы.
Позвольте мне попытаться сделать пример ;
Продукт № Переменная 1 Y
1 яблочный результат1
2 оранжевый результат2
3 банан, яблочный результат1
4 bluebarry result3
5 banana result5
Итак, как вы можете видеть в строке 3, есть две информации, которые имеют для меня значение.Как я могу справиться с этой ситуацией в модели классификации?Извините, если это очевидно.Я новичок в ML:)
Редактировать Примечание: столбец переменной 1 содержит огромные данные и приблизительно тысячу различной информации.У меня нет 1 переменной в моей модели ofc.настоящая модель уже имеет большие размеры.