В течение последних трех лет я ежедневно использовал R, и большая часть этого ежедневного использования тратится на проблемы машинного обучения / интеллектуального анализа данных.
Я был эксклюзивным пользователем Matlab, пока учился в университете.;в то время я думал, что это был отличный набор инструментов / платформы.Я уверен, что это также и сегодня.
Набор инструментов нейронной сети, набор инструментов оптимизации, набор инструментов статистики и набор инструментов подгонки кривой очень желателен (если не необходим) для тех, кто использует MATLAB для работы над ML / Data Mining.Тем не менее все они отделены от базовой среды MATLAB - другими словами, их необходимо приобретать отдельно.
Мой Топ-5 списка для изучения ML / Data Mining вR :
Это относится к паре вещей: во-первых, группа пакетов R, которые все начинаются Аруль (доступно от CRAN);полный список (arules, aruluesViz и т. д.) можно найти на домашней странице проекта .Во-вторых, все эти пакеты основаны на методике интеллектуального анализа данных, известной как рыночный анализ и, альтернативно, Правила ассоциации .Во многих отношениях это семейство алгоритмов является сущностью интеллектуального анализа данных - он полностью пересекает большие базы данных транзакций и находит вышеупомянутые ассоциации или корреляции между полями (переменными или функциями) в этих базах данных.На практике вы подключаете их к источнику данных и позволяете им работать в одночасье.Центральный пакет R в упомянутом наборе называется arules ;На странице пакета CRAN для arules вы найдете ссылки на несколько превосходных вторичных источников ( виньетки в лексиконе R) в пакете arules и в целом по технике правил ассоциации.
Самое свежее издание этой книги доступно в цифровом виде за бесплатно .Кроме того, на веб-сайте книги (ссылка на который приведена выше) представлены все наборы данных, используемые в ESL, которые можно загрузить бесплатно.(Кроме того, у меня есть бесплатная цифровая версия; я также купил версию в твердом переплете с BN.com; все цветные графики в цифровой версии воспроизведены в версии в твердом переплете.) ESL содержит подробные введения по крайней мере для одного образца избольшинство основных рубрик ML - например, нейронные метрики, SVM, KNN;неконтролируемые методы (LDA, PCA, MDS, SOM, кластеризация), многочисленные разновидности регрессии, CART, байесовские методы, а также методы агрегации моделей (Boosting, Bagging) и настройка моделей (регуляризация).Наконец, получите пакет R, прилагаемый к книге, от CRAN (что избавит вас от необходимости загружать входные наборы данных).
- CRAN Вид задачи: Машинное обучение
Пакеты, доступные для R, насчитывающие +3 500, подразделяются по доменам примерно на30 семейств пакетов или ' Представления задач '.Машинное обучение является одним из таких семейств.Представление «Машинное обучение» содержит около 50 пакетов.Некоторые из этих пакетов являются частью основного дистрибутива, включая e1071 (обширный пакет ML, включающий рабочий код для довольно многих обычных категорий ML).
С особым вниманием к сообщениям, отмеченным с помощью Predictive Analytics
Тщательное изучение кода само по себе было бы отличным введением в ML в R.
И еще один последний ресурс, который я считаю превосходным, но не попал в топ-5:
опубликовано в блоге Красивая WWW