Это просто мнение одного человека (формально обученного ОД); другие могут видеть вещи совсем по-другому.
Машинное обучение , вероятно, является наиболее однородным из этих трех терминов и наиболее последовательно применяется - оно ограничено извлечением шаблона (или шаблоном -согласование) алгоритмы сами.
Из упомянутых вами терминов «Машинное обучение» - это наиболее используемый академическими департаментами для описания своих учебных программ, своих академических факультетов и исследовательских программ, а также термин, наиболее часто используемый в научных журналах и материалах конференций. ML явно наименее контекстно-зависимый из упомянутых вами терминов.
Поиск информации и Data Mining намного ближе к описанию завершенных коммерческих процессов - т.е. от запроса пользователя до поиска / доставки релевантных результатов. Алгоритмы ML могут находиться где-то в этом потоке процессов, и в более сложных приложениях они часто бывают, но это не формальное требование. Кроме того, термин Data Mining , по-видимому, обычно относится к применению некоторого потока процесса для больших данных (т. Е.> 2BG) и, следовательно, обычно включает в себя распределенную обработку (map-Reduce) компонент в начале этого рабочего процесса.
Таким образом, поиск информации (IR) и интеллектуальный анализ данных (DM) связаны с машинным обучением (ML) в виде алгоритма инфраструктуры . Другими словами, машинное обучение является одним из инструментов, используемых для решения проблем в поиске информации. Но это только один источник инструментов. Но IR не зависит от ML - например, конкретным IR-проектом может быть хранение и быстрый поиск полностью проиндексированных данных, реагирующих на пользовательский поисковый запрос IR, суть которого заключается в оптимизации производительности потока данных, т.е. обратный путь от запроса до доставки результатов поиска пользователю. Предсказание или сопоставление с шаблоном здесь может быть бесполезным. Аналогично, проект DM может использовать алгоритм ML для механизма прогнозирования, однако проект DM, скорее всего, также будет касаться всего потока обработки - например, методов параллельных вычислений для эффективного ввода огромного объема данных (возможно, TB). ) который доставляет протопреобразователь в механизм обработки для вычисления описательной статистики (среднее значение, стандартное отклонение, распределение и т. д. по переменным (столбцам).
Наконец, рассмотрим приз Netflix. Этот конкурс был направлен исключительно на машинное обучение - основное внимание было уделено алгоритму прогнозирования, о чем свидетельствует тот факт, что существовал единственный критерий успеха: точность предсказаний, возвращаемых алгоритмом. Представьте, если бы приз Netflix был переименован в соревнование Data Mining. Критерии успеха почти наверняка будут расширены для более точного доступа к производительности алгоритма в реальных коммерческих условиях - так, например, общая скорость выполнения (насколько быстро рекомендации будут предоставлены пользователю), вероятно, будет рассматриваться наряду с точностью.
Термины «Поиск информации» и «Интеллектуальный анализ данных» в настоящее время широко используются, хотя некоторое время я видел эти термины только в описании своей работы или в литературе поставщика (обычно рядом со словом «решение»). работодатель, мы недавно наняли аналитика "Data Mining". Я не знаю, что именно он делает, но на работе он носит галстук каждый день.