Представьте, что у вас есть такой стол:
+-------+-----+--------+---------------------+
| Name | Age | Gender | Movie |
+-------+-----+--------+---------------------+
| John | 23 | Male | John the Ripper |
| Luke | 18 | Male | The Star Wars |
| Ann | 18 | Female | Mr. Nobody |
| Alice | 12 | Female | Alice in Wonderland |
| Bruce | 64 | Male | Armageddon |
+-------+-----+--------+---------------------+
I. Прежде всего, вам нужно разделить эту таблицу на две части:
- содержит вектор, который содержит Имя , Возраст , Пол столбцы.
- цель вектор, который содержит только Mov ie столбец .
II. После этого вы можете закодировать ваши строки в числа:
- Столбец Имя будет закодирован в уникальный индекс.
- Столбец Возраст не изменится.
- Столбец Пол будет закодирован в двоичные значения (0, 1).
- Столбец Mov ie будет закодирован в уникальный значения индекса.
Например:
+------+-----+--------+-------+
| Name | Age | Gender | Movie |
+------+-----+--------+-------+
| 0 | 23 | 1 | 3 |
| 1 | 18 | 1 | 2 |
| 2 | 18 | 0 | 4 |
| 3 | 12 | 0 | 1 |
| 4 | 64 | 1 | 0 |
+------+-----+--------+-------+
III. Затем вы можете разделить свой вектор на две части:
- Данные поезда для подачи алгоритма машинного обучения ( строки 1: 3 ).
- Тестовые данные для контеста ML алгоритм, который вы вводите ( строки 3: 5 ).
Соотношение между этим отдельным набором может отличаться, но обычно набор данных поезда выбирается больше, чем набор тестовых данных.
IV. Иногда вам может понадобиться масштабировать ваши данные.
Например:
+------+--------+--------+-------+
| Name | Age | Gender | Movie |
+------+--------+--------+-------+
| 0.0 | 0.3594 | 1 | 0.6 |
| 0.2 | 0.2813 | 1 | 0.4 |
| 0.4 | 0.2813 | 0 | 0.8 |
| 0.6 | 0.1875 | 0 | 0.2 |
| 0.8 | 1.0000 | 1 | 0.0 |
+------+--------+--------+-------+
В этом примере после шагов I-IV вы получите:
feature_train = [[ 0.0, 0.3594, 1 ], [ 0.2, 0.2813, 1 ], [ 0.4, 0.2813, 0 ]]
purpose_train = [ 0.6, 0.4, 0.8 ]
feature_test = [[ 0.6, 0.1875, 0], [0.8, 1.0000, 1]]
purpose_test = [[ 0.2, 0.0]]
Вот и все подготовить данные простым способом.
[UDP]
После всех этих шагов вы должны научить свой алгоритм по данным, а затем вы можете предсказать любимый Mov ie по имени, возрасту и полу для выбранного.