Извлечение функций из текстового файла и обучение их классификатору - PullRequest
0 голосов
/ 22 мая 2018

Мне нужно организовать некоторые данные из текстового файла в функции для классификатора.У меня есть 3 функции для обучения, и у меня возникают некоторые проблемы с пониманием того, каков правильный формат переменной функции.

from sklearn import tree
import os
import re

os.chdir(r"C:\ig_automation")
metrics_to_train = open('metrics_to_train.txt', 'r')
labels_to_train = open('labels_to_train.txt', 'r')
validation_metrics = open('validation_metrics.txt', 'r')
validation_labels = open('validation_labels.txt', 'r')

clf = tree.DecisionTreeClassifier()
features = metrics_to_train.read().replace("\n","").replace("   "," 
").split(" ")
print(features)

Вывод:

['1434.0', '4000000.0', '33.0', '82.0', '39.0', '219.0', '634.0', '5506.0', '58.0', '106.0', '783.0', '332.0', '222.0', '413.0', '197.0', '112.0'......

Данные следующие: feat 1 - количество постов (pos 0 = 1434), feat 2 - подписчики (pos 1 = 4000000),feat 3 - количество следов (поз. 2 = 33), и оно повторяется до последнего значения в списке.

Я должен обучить классификатор с помощью этих функций и получить одну метку.

А также, если есть какие-то проблемы с тем, как я импортировал данные, вот несколько строк из текстового файла:

1434.0   4000000.0   33.0   
82.0   39.0   219.0   
634.0   5506.0   58.0   
106.0   783.0   332.0   
222.0   413.0   197.0   

Я немного новичок в ML, так чтоМне действительно нужен совет.Спасибо!

1 Ответ

0 голосов
/ 22 мая 2018

Вам необходимо транспонировать матрицу объектов.

Причина этого в том, что все scikit-learn функции ожидают матрицу X в качестве входных данных, где строки - это subjects(samples), а столбцы - это`функции (переменные)?.

Из документации :

enter image description here

Итак, транспонировать данные, использующие numpy как быстрый способ:

import numpy as np

features = np.array(features)
X = features.T

clf.fit(X,....)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...