Значение прогноза отсутствует в наборе данных - PullRequest
0 голосов
/ 05 декабря 2018

Учитывая, что у меня есть данные обучения и тестирования, может отсутствовать логический последовательный номер.Можно ли вывести значение, которого не было?

Например: данные обучения / тестирования имеют значения 1,2,3,4,5 ... 7,8,9,10, указанные дляlabel.

Возможно ли, что на основе модели данных она может предсказать результат 6, даже если в данных обучения или тестирования не было такого случая?

Я новичок в машинном обучении и прочитал о контролируемом / неконтролируемом обучении.Трудно точно определить точный ответ, так как довольно сложно получить правильную терминологию для области, с которой я не знаком.

Лучше всего было бы создать произвольную строку в наборе данных, который содержит значение меткичто нет?

Использование ML.net.

Извинения, если это простой вопрос.

Спасибо

Ответы [ 3 ]

0 голосов
/ 05 декабря 2018

В задаче классификации «Метка» является индексом «истинного класса».Если никакие примеры в наборе обучающих данных не относятся к классу «6», то изученная модель никогда не предскажет класс 6: ее учили никогда этого не делать.

В задаче регрессия «Метка» - это «предсказуемое количество» (действительное число).В этом случае для модели вполне нормально предсказать значение, которое она не видела во время обучения: модель может предсказать 6, или 5,7, или 6,1 и т. Д.

Без подробностей я не могу сказать,Вы решаете проблему классификации или регрессии.

0 голосов
/ 27 мая 2019

Способ, которым я решил или фактически смягчил недостаток значения, заключался в следующем.Для каждого входного типа данных, который должен быть последовательным - без пробелов, я использовал только данные / строки из моего набора данных, где была непрерывная последовательность, для всех записей.

Учитывая следующее: 0,1,2,3,4,5,6,7,9

Я использовал только те данные, которые соответствовали наибольшей доступной последовательности по всем записям.0 - 7. Это может привести к потере некоторых данных для обучающих моделей, но, поскольку данные достаточно последовательны, пропусков немного.

0 голосов
/ 05 декабря 2018

Ваша проблема в детерминированном и вероятностном подходах?Я не совсем понимаю, почему вы должны использовать машинное обучение, но попробуйте прочитать цепь Маркова:

https://en.wikipedia.org/wiki/Markov_chain

...