Статистика, машинное обучение и сбор данных - PullRequest
1 голос
/ 21 сентября 2011

В настоящее время я изучаю интеллектуальный анализ данных, и у меня есть следующие вопросы.

  1. Какова связь между машинным обучением и интеллектуальным анализом данных?
  2. Я обнаружил, что многие методы интеллектуального анализа данных связанысо статистикой, хотя я «слышу», что интеллектуальный анализ данных имеет много общего с машинным обучением.Итак, мой вопрос: машинное обучение тесно связано со статистикой?
  3. Если они не связаны между собой, существуют ли такие подразделения, которые разделяют интеллектуальный анализ данных с упором на статистические методы и интеллектуальный анализ данных с упором на навыки машинного обучения?Потому что я нашел в отделе статистики некоторых аспирантур открытые курсы интеллектуального анализа данных.

Ответы [ 3 ]

3 голосов
/ 21 сентября 2011

Интеллектуальный анализ данных - это процесс извлечения полезной информации из данных, такой как шаблоны, тренды, поведение клиентов / пользователей, симпатии / антипатии и т. Д. Это включает использование алгоритмов, связанных с искусственным интеллектом и статистикой.

Wikipedia Определение Data Mining:

Data Mining (этап анализа Обнаружения знаний в базах данных процесс, [1] или KDD), относительно молодая и междисциплинарная область информатика, [2] [3] это процесс открытия новых моделей из больших наборов данных с использованием методов из статистики и искусственного интеллект, но и управление базой данных. В отличие, например, от машинное обучение, акцент делается на открытии ранее неизвестные шаблоны в отличие от обобщения известных шаблонов для новых данные.

Машинное обучение включает в себя заставить компьютеры «учиться» этому поведению, тенденциям и т. Д. И действовать в соответствии с ними. Например, при мошенничестве с кредитными картами компьютер «изучает» поведение клиента, и, если происходит что-то странное (транзакция с очень большими суммами и т. Д.), Он отмечает эту транзакцию на предмет возможного мошенничества.

Определение машинного обучения в Википедии:

Машинное обучение, отрасль искусственного интеллекта, является научным дисциплина, связанная с проектированием и разработкой алгоритмов которые позволяют компьютерам развивать поведение на основе эмпирических данных, таких как как из данных датчиков или баз данных. Машинное обучение связано с разработка алгоритмов, позволяющих машине учиться через индуктивный вывод, основанный на данных наблюдений, которые представляют неполные информация о статистическом явлении. Классификация, которая также упоминается как распознавание образов, является важной задачей в машине Обучение, с помощью которого машины «учатся» автоматически распознавать сложные шаблоны, чтобы различать образцы на основе их различных шаблоны и принимать разумные решения.

Машинное обучение использует Data Mining для изучения модели, поведения, тренда и т. Д., Поскольку Data Mining является способом извлечения этой информации из набора данных. Data Mining и Machine Learning используют статистику для принятия решений. Так что да, статистика задействована и очень важна для интеллектуального анализа данных и машинного обучения.

3 голосов
/ 21 сентября 2011

Существует много общего между тем, что разные люди называют машинным обучением, интеллектуальным анализом данных и статистикой. Само определение терминов будет зависеть от того, кого вы спрашиваете.

Вот хороший обзор , с множеством замечательных ссылок.

0 голосов
/ 30 марта 2017

Подробный ответ уже дал @SpeedBirdNine. Как примечание стороны:

  • Сбор данных и машинное обучение в основном основаны на старых, но гениальных идеях статистиков. (Логическая статистика, теории принятия решений и т. Д.)
  • Классическая статистика + современные мощные компьютеры = DM & ML
  • Поскольку мы живем в эпоху больших данных, с барьерами, с которыми раньше сталкивались статистики, с точки зрения отсутствия достаточного количества данных, больше не является проблемой. Поэтому во многих случаях (но не во всех, конечно) можно с уверенностью сказать, что интеллектуальный анализ данных / машинное обучение - это новая статистика! (Символ бесконечности ∞, который они имели в своих уравнениях, гласит, что если n (размер выборки) переходит в бесконечность, то поведение всего предсказуемо (!), Больше не является компрометированной реальностью!).

Что касается вашего последнего вопроса, по моему мнению, в любом значимом исследовании вам необходимо либо применить некоторые статистические методы к большим данным, и это когда DM / ML пригодится, либо вам нужно применить метод DM / ML, который уже разработан на основе классической статистики. Это два раздела, в которые вовлечено каждое исследование DM / ML, и статистика не исключается, не говоря уже о том, когда целью является создание благородного алгоритма DM / ML для анализа / кластеризации / классификации больших данных.

...