Есть ли у кого-нибудь Python API для получения различных наборов данных ML в соответствии с правилами
X, Y, info = mldata.load( name, db=, verbose= )
X: N x dim data, a NumPy array
Y: N, ints for class numbers or None
info: a dict with ...
Я бы предпочел прямой питон с NumPy,
но если функция Rpy может просто получить данные, это может быть хорошо
(извините, не говорите много R).
Для "дб", плоский файл будет хорошо, как
#! http://archive.ics.uci.edu/ml/machine-learning-databases
# ncol nrow nclass year name etc.
3 2858 2 2008 "Character+Trajectories" Time-Series Classification, Clus
4 150 2 1988 "Iris" Multivariate Classification Real
8 768 2 1990 "Pima+Indians+Diabetes" Multivariate Classification Inte
...
Почему просто плоские файлы вместо "настоящих" БД?
Потому что я могу загрузить их один раз, а затем просматривать, сортировать и пробуждать их с усилием почти 0;
другие могут предпочесть необычную поисковую систему.
Неважно, хранятся ли данные локально или загружаются через Интернет.
(Обе, env MLDATAPATH = (local dir ... url ...))?
(Базовый API должен быть тривиальным для сайтов с одинаковыми именами и унифицированными данными,
но унифицируя, например, UCI / мл выглядит довольно скучно.)