Как структурировать (обработать) такую ​​таблицу для обучения модели? - PullRequest
0 голосов
/ 25 мая 2019

Набор данных содержит различные элементы построчно, а столбцы содержат записанные выборки, где половина имеет положительный класс, а другая половина - отрицательный класс. Теперь я хочу создать и обучить модель для классификации образца невидимого предмета как положительного или отрицательного.

Вопрос : Как мне обрабатывать (использовать) такой набор данных?

И любая рекомендация для модели, поскольку число строк превышает 50 КБ, а количество столбцов - 12 положительных и 12 отрицательных.

dataset structure

Теперь из этих данных должна быть создана модель, которая может классифицировать x (или y или z) как положительные или отрицательные в зависимости от предоставленного значения. Например, если значение, предоставленное для x, равно 12, то модель оценивает x как положительное.

1 Ответ

0 голосов
/ 25 мая 2019

Пока я понимаю ваш вопрос, у вас есть переменная в качестве ввода, скажем, х.Эта переменная может содержать некоторые значения (положительные примеры), но не другие (отрицательные примеры).Теперь, учитывая новое значение для x, вы хотите знать, является ли такое значение вероятным для x.

Вы говорили об обучении.Я думаю, вы думаете о нейронных сетях.В этом случае просто создайте набор данных из первой строки таблицы (x-row) следующим образом:

D = [
 [10, 1],
 [11, 1],
 [13, 1],
 [14, 1],
 [16, 0],
 [15, 0],
 [14, 0],
 [16, 0],
]

Первый элемент - это ваше значение.Второй элемент сообщает вашей сети, является ли допустимое значение (1) или нет (0).Не забудьте перетасовать свой набор данных, чтобы избежать высокой корреляции образцов, которыми вы питаете вашу сеть (теоретически они должны быть iid).

Ваша сеть будет иметь в качестве входного только 1 нейрон в качестве выходного 1 нейрона.Последний слой будет функцией активации сигмоида (потому что он ограничен от 0 до 1).Используйте двоичную перекрестную потерю энтропии.


С учетом комментария, вот обновленный ответ.

Набор данных должен быть следующим:

D = [
 [10, 0.67, 25, ..., 1],
 [16, 0.15, 20.5, ..., 0],
 [...]
]

Сеть идентична описанной выше, но теперь вход имеет размерность, равную количеству строк.

...