Question

Я зачислен в аспирантуру по интеллектуальному анализу данных и получил задание на кодирование препроцессора интеллектуального анализа данных.У меня есть свобода выбора языка программирования и набора данных.Мне было интересно, если кто-нибудь может предложить хороший набор данных для использования.Я проходил через UCI Repository и нашел еще много таких ресурсов.Но, будучи новичком, я не уверен, какой набор данных будет хорошим выбором.Препроцессор должен иметь дело со следующими вещами:

Очистка данных
- Отсутствующие значения
- Ошибки
- Выпадающие значения
- Нормализация
- Дедупликация
Сокращение данных
- Методы выборки
- Уменьшение размеров

Какие свойства следует учитывать при выборе набора данных?Какой конкретный набор данных вы бы предложили?

iinception · Answer 1 · 01 ноября 2011

Вы ответили на свой вопрос.Выберите список набора данных со свойствами, которые вы упомянули как хранилище UCI с категорированным набором данных.Вы можете выбрать кого угодно, чтобы начать играть с ним.

Итак, для начала, если бы вы были на вашем месте, я бы поступил шаг за шагом, почувствовал, как выглядит каждый из них, как он влияет на производительность классификатора, и выбрал несколько. популярного набора данных , поскольку они используются в качестве эталонного набора данных в большинстве исследований.Большая часть из перечисленных вами - это отдельные проблемы машинного обучения с большим количеством исследований.

Я бы начал с чего-то вроде этого:для пропущенных значений: Ирис, Голосование, Болезнь сердца для Duplicate: 921,810 набор данных песни (я думаю, не из UCI) Нормализация: Любой непрерывный набор данных с различным диапазоном для объектовТехника отбора проб: Пима Уменьшение размерности: Swiss Roll

Кроме того, еще одним лучшим подходом к поиску набора данных будет обращение к некоторым из соответствующих публикаций.Например, для уменьшения размерности вы можете просмотреть документы PCA, ISOMAP и т. Д., Для выборки см. Документ SMOTE и т. Д. И посмотреть, какой тип данных они используют для своих экспериментов, и продолжить.соответственно.

Хороший набор данных для предварительной обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Хороший набор данных для предварительной обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы