Я пытаюсь выполнить следующую классификационную оценку:
Моя проблема заключается в том, что в моем классифицированном файле более 3000000 классифицированных пикселей, а в моем наборе обучающих данных только 30-40 (10-15 для каждого класса, который может быть заявлен).
Мои наборы данных имеют одинаковую структуру, как показано ниже:
Пример строки обучения = [[230,40,120,2]] С первыми тремя значениями
будучи полосами цвета пикселя (BGR), а финал является заявленным
выходной класс (можем мы 1-3).
Я читаю данные тренировки в виде файла csv и преобразую их в кадр данных pandas.
Вопрос. Можно ли использовать этот метод, несмотря на то, что в двух наборах данных имеется разное количество прогнозируемых и фактических значений данных? И если это так, не уверен, для чего используются строки с 9 по 13.
Код:
b,g,r = cv2.split(img)
# Pandas dataset
dataSet = pd.DataFrame({'bBnad':b.flat[:],'gBnad':g.flat[:],'rBnad':r.flat[:]})
dataSet['class'] = X_clustered
training = pd.read_csv("/Users/chrisradford/Documents/School/Masters/RA/Classifier/Python/Training.csv")