Python API для загрузки различных наборов данных машинного обучения? - PullRequest
2 голосов
/ 12 июня 2011

Есть ли у кого-нибудь Python API для получения различных наборов данных ML в соответствии с правилами

X, Y, info = mldata.load( name, db=, verbose= )
X: N x dim data, a NumPy array
Y: N, ints for class numbers or None
info: a dict with ...

Я бы предпочел прямой питон с NumPy, но если функция Rpy может просто получить данные, это может быть хорошо (извините, не говорите много R).

Для "дб", плоский файл будет хорошо, как

#! http://archive.ics.uci.edu/ml/machine-learning-databases
# ncol  nrow  nclass  year  name               etc.
  3  2858  2  2008   "Character+Trajectories"  Time-Series     Classification, Clus
  4   150  2  1988   "Iris"    Multivariate    Classification  Real
  8   768  2  1990   "Pima+Indians+Diabetes"   Multivariate    Classification  Inte
...

Почему просто плоские файлы вместо "настоящих" БД? Потому что я могу загрузить их один раз, а затем просматривать, сортировать и пробуждать их с усилием почти 0; другие могут предпочесть необычную поисковую систему.

Неважно, хранятся ли данные локально или загружаются через Интернет. (Обе, env MLDATAPATH = (local dir ... url ...))?

(Базовый API должен быть тривиальным для сайтов с одинаковыми именами и унифицированными данными, но унифицируя, например, UCI / мл выглядит довольно скучно.)

Ответы [ 2 ]

1 голос
/ 12 июня 2011

Люди из Scikits.learn решили эту проблему в примерах Scikits.learn

Наборы данных бывают всех форм и размеров, так что у них есть собственный код для работы с каждымнабор данных.(Было бы иначе, если бы у вас были, скажем, только наборы данных в формате CSV или ARFF, а не изображения в градациях серого и всякое другое).

0 голосов
/ 09 июля 2018

Вы можете проверить этот пакет / кодовую базу для поиска и импорта любого набора данных репо UCI ML.Он не будет загружать набор данных в объекте Python, а просто автоматически найдет и загрузит выбранный вами набор данных с портала.Вы даже можете выбрать все наборы данных определенного размера и категории задач ML.

https://github.com/tirthajyoti/UCI-ML-API

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...