Чтение CSV-подобных многомерных массивов данных для дальнейшей обработки с помощью sklearn - PullRequest
0 голосов
/ 02 ноября 2019

У меня есть CSV-файл с такими данными:

jake 12 71 31 82 True
jake 44 54 44 80 True
jake 51 30 39 75 True
will 56 12 63 10 False
will 76 74 25 13 False
will 41 98 65 15 False
rich 77 11 93 25 False
rich 18 88 90 11 False
rich 22 12 99 20 False
chez 97 45 74 99 True
chez 91 31 71 15 True
chez 90 40 50 13 True

Так что это многорядные куски данных для каждого человека.

Я хотел бы прочитать его для дальнейшей обработки с помощью scikit-учиться.

Пока мой код выглядит следующим образом

import pandas as pd
import numpy as np

data = pd.read_csv('example_dataset.csv', sep=',')
data = data[['name', 'a', 'b', 'c', 'd', 'YesNo']]
X = np.array(data)

Но я получаю массив, в котором каждая запись представляет каждую строку. Но данные должны строиться так, чтобы представлять связанные строки данных по имени. Итак, как организовать это и подготовить данные для дальнейшего использования в машинном обучении, чтобы предсказать последний столбец (это, скорее всего, True или False)?

1 Ответ

2 голосов
/ 02 ноября 2019

Следующие строки позволяют мне правильно использовать таблицу в правильном формате.

data = pd.read_csv("example_dataset.csv", header=None, sep=",")
data.columns = ["name", "a", "b", "c", "d", "YesNo"]
print(data.head())
...