Хороший набор данных для предварительной обработки - PullRequest
3 голосов
/ 31 октября 2011

Я зачислен в аспирантуру по интеллектуальному анализу данных и получил задание на кодирование препроцессора интеллектуального анализа данных.У меня есть свобода выбора языка программирования и набора данных.Мне было интересно, если кто-нибудь может предложить хороший набор данных для использования.Я проходил через UCI Repository и нашел еще много таких ресурсов.Но, будучи новичком, я не уверен, какой набор данных будет хорошим выбором.Препроцессор должен иметь дело со следующими вещами:

  • Очистка данных
    • Отсутствующие значения
    • Ошибки
    • Выпадающие значения
    • Нормализация
    • Дедупликация
  • Сокращение данных
    • Методы выборки
    • Уменьшение размеров

Какие свойства следует учитывать при выборе набора данных?Какой конкретный набор данных вы бы предложили?

1 Ответ

1 голос
/ 01 ноября 2011

Вы ответили на свой вопрос.Выберите список набора данных со свойствами, которые вы упомянули как хранилище UCI с категорированным набором данных.Вы можете выбрать кого угодно, чтобы начать играть с ним.

Итак, для начала, если бы вы были на вашем месте, я бы поступил шаг за шагом, почувствовал, как выглядит каждый из них, как он влияет на производительность классификатора, и выбрал несколько. популярного набора данных , поскольку они используются в качестве эталонного набора данных в большинстве исследований.Большая часть из перечисленных вами - это отдельные проблемы машинного обучения с большим количеством исследований.

Я бы начал с чего-то вроде этого:для пропущенных значений: Ирис, Голосование, Болезнь сердца для Duplicate: 921,810 набор данных песни (я думаю, не из UCI) Нормализация: Любой непрерывный набор данных с различным диапазоном для объектовТехника отбора проб: Пима Уменьшение размерности: Swiss Roll

Кроме того, еще одним лучшим подходом к поиску набора данных будет обращение к некоторым из соответствующих публикаций.Например, для уменьшения размерности вы можете просмотреть документы PCA, ISOMAP и т. Д., Для выборки см. Документ SMOTE и т. Д. И посмотреть, какой тип данных они используют для своих экспериментов, и продолжить.соответственно.

...