Вы ответили на свой вопрос.Выберите список набора данных со свойствами, которые вы упомянули как хранилище UCI с категорированным набором данных.Вы можете выбрать кого угодно, чтобы начать играть с ним.
Итак, для начала, если бы вы были на вашем месте, я бы поступил шаг за шагом, почувствовал, как выглядит каждый из них, как он влияет на производительность классификатора, и выбрал несколько. популярного набора данных , поскольку они используются в качестве эталонного набора данных в большинстве исследований.Большая часть из перечисленных вами - это отдельные проблемы машинного обучения с большим количеством исследований.
Я бы начал с чего-то вроде этого:для пропущенных значений: Ирис, Голосование, Болезнь сердца для Duplicate: 921,810 набор данных песни (я думаю, не из UCI) Нормализация: Любой непрерывный набор данных с различным диапазоном для объектовТехника отбора проб: Пима Уменьшение размерности: Swiss Roll
Кроме того, еще одним лучшим подходом к поиску набора данных будет обращение к некоторым из соответствующих публикаций.Например, для уменьшения размерности вы можете просмотреть документы PCA, ISOMAP и т. Д., Для выборки см. Документ SMOTE и т. Д. И посмотреть, какой тип данных они используют для своих экспериментов, и продолжить.соответственно.