Как добавить заголовок к следующим данным, которые я извлекаю из базы данных машинного обучения? - PullRequest
0 голосов
/ 03 ноября 2018

Это данные, которые я извлекаю из Интернета:

import requests
r=requests.get('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data')
print(r.text[0:200])

Вот что печатает:

39, State-gov, 77516, бакалавров, 13, не состоящий в браке, адмиралтейский, Не в семье, Белый, Мужской, 2174, 0, 40, США, <= 50K 50, Self-emp-not-inc, 83311, холостяки, 13 лет, гражданский супруг, Exec-man </p>

Я хочу добавить к данным следующие заголовки, чтобы я мог построить классификатор.

col_names = ['age', 'work_class', 'fnlwgt', 'education', 'marital_status', 'occupation', 'relationship', 'race', 'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 'native_country', 'class']

... но у меня возникают проблемы при вводе имен в данные.

Я запускаю свои данные на colab.research.google.com

1 Ответ

0 голосов
/ 04 ноября 2018

Вы можете использовать встроенную структуру данных Python. Например, массив dicts в шаблоне [{header1: value1, header2: value2, ...}, ...], где каждый dict представляет строку.

Считыватели CSV из стандартной библиотеки могут помочь, например, DictReader: https://docs.python.org/3.7/library/csv.html#csv.DictReader

Панды могут быть более сложным подходом с большим количеством пользовательских инструментов:

import pandas as pd
df = pd.read_csv(url, header=None, names=col_names)
# Colab will auto pretty print a df if it is the last line of the cell like so
df.head()

В целом, такой подход я бы ожидал увидеть в исследованиях / науках о данных, где numpy / pandas очень популярен.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...