Question

Люди часто используют термины IR, ML и интеллектуальный анализ данных, но я заметил много совпадений между ними.

От людей, имеющих опыт в этих областях, что именно проводит грань между ними?

doug · Answer 1 · 06 августа 2010

Это просто мнение одного человека (формально обученного ОД); другие могут видеть вещи совсем по-другому.

Машинное обучение , вероятно, является наиболее однородным из этих трех терминов и наиболее последовательно применяется - оно ограничено извлечением шаблона (или шаблоном -согласование) алгоритмы сами.

Из упомянутых вами терминов «Машинное обучение» - это наиболее используемый академическими департаментами для описания своих учебных программ, своих академических факультетов и исследовательских программ, а также термин, наиболее часто используемый в научных журналах и материалах конференций. ML явно наименее контекстно-зависимый из упомянутых вами терминов.

Поиск информации и Data Mining намного ближе к описанию завершенных коммерческих процессов - т.е. от запроса пользователя до поиска / доставки релевантных результатов. Алгоритмы ML могут находиться где-то в этом потоке процессов, и в более сложных приложениях они часто бывают, но это не формальное требование. Кроме того, термин Data Mining , по-видимому, обычно относится к применению некоторого потока процесса для больших данных (т. Е.> 2BG) и, следовательно, обычно включает в себя распределенную обработку (map-Reduce) компонент в начале этого рабочего процесса.

Таким образом, поиск информации (IR) и интеллектуальный анализ данных (DM) связаны с машинным обучением (ML) в виде алгоритма инфраструктуры . Другими словами, машинное обучение является одним из инструментов, используемых для решения проблем в поиске информации. Но это только один источник инструментов. Но IR не зависит от ML - например, конкретным IR-проектом может быть хранение и быстрый поиск полностью проиндексированных данных, реагирующих на пользовательский поисковый запрос IR, суть которого заключается в оптимизации производительности потока данных, т.е. обратный путь от запроса до доставки результатов поиска пользователю. Предсказание или сопоставление с шаблоном здесь может быть бесполезным. Аналогично, проект DM может использовать алгоритм ML для механизма прогнозирования, однако проект DM, скорее всего, также будет касаться всего потока обработки - например, методов параллельных вычислений для эффективного ввода огромного объема данных (возможно, TB). ) который доставляет протопреобразователь в механизм обработки для вычисления описательной статистики (среднее значение, стандартное отклонение, распределение и т. д. по переменным (столбцам).

Наконец, рассмотрим приз Netflix. Этот конкурс был направлен исключительно на машинное обучение - основное внимание было уделено алгоритму прогнозирования, о чем свидетельствует тот факт, что существовал единственный критерий успеха: точность предсказаний, возвращаемых алгоритмом. Представьте, если бы приз Netflix был переименован в соревнование Data Mining. Критерии успеха почти наверняка будут расширены для более точного доступа к производительности алгоритма в реальных коммерческих условиях - так, например, общая скорость выполнения (насколько быстро рекомендации будут предоставлены пользователю), вероятно, будет рассматриваться наряду с точностью.

Термины «Поиск информации» и «Интеллектуальный анализ данных» в настоящее время широко используются, хотя некоторое время я видел эти термины только в описании своей работы или в литературе поставщика (обычно рядом со словом «решение»). работодатель, мы недавно наняли аналитика "Data Mining". Я не знаю, что именно он делает, но на работе он носит галстук каждый день.

Anony-Mousse · Answer 2 · 09 марта 2012

Я бы попробовал нарисовать линию следующим образом:

Поиск информации - это поиск того, что уже является частью ваших данных, как можно быстрее.

Машинное обучение - это методы, позволяющие обобщить имеющиеся знания до новых данных с максимально возможной точностью.

Интеллектуальный анализ данных в первую очередь предназначен для обнаружения в ваших данных чего-то скрытого , о котором вы не знали ранее, как "нового", насколько это возможно.

Они пересекаются и часто используют приемы друг друга. DM и IR используют структуры индексов для ускорения процессов. DM использует множество методов ML, например, шаблон в наборе данных, который полезен для обобщения, может быть новым знанием.

Их часто трудно отделить. Сделайте себе одолжение и не просто идти на модные слова. На мой взгляд, лучший способ их различить - это их намерение , как указано выше: найти данные, обобщить на новые данные, найти новые свойства существующих данных.

dimatura · Answer 3 · 05 августа 2010

Вы также можете добавить распознавание образов и (вычислительную?) Статистику как еще пару областей, которые перекрываются с тремя упомянутыми вами.

Я бы сказал, что между ними нет четко определенной линии.Что их разделяет, так это их история и их акценты.Статистика подчеркивает математическую строгость, анализ данных подчеркивает масштабирование до больших наборов данных, ML находится где-то посередине.

Razan Paul · Answer 4 · 16 ноября 2011

Data Mining - это обнаружение скрытых закономерностей или неизвестных знаний, которые можно использовать для принятия решений людьми.

Машинное обучение - это изучение модели для классификации новых объектов.

Поиск информации (IR) против интеллектуального анализа данных и машинного обучения (ML)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск информации (IR) против интеллектуального анализа данных и машинного обучения (ML)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы