Поиск информации (IR) против интеллектуального анализа данных и машинного обучения (ML) - PullRequest
21 голосов
/ 05 августа 2010

Люди часто используют термины IR, ML и интеллектуальный анализ данных, но я заметил много совпадений между ними.

От людей, имеющих опыт в этих областях, что именно проводит грань между ними?

Ответы [ 4 ]

24 голосов
/ 06 августа 2010

Это просто мнение одного человека (формально обученного ОД); другие могут видеть вещи совсем по-другому.

Машинное обучение , вероятно, является наиболее однородным из этих трех терминов и наиболее последовательно применяется - оно ограничено извлечением шаблона (или шаблоном -согласование) алгоритмы сами.

Из упомянутых вами терминов «Машинное обучение» - это наиболее используемый академическими департаментами для описания своих учебных программ, своих академических факультетов и исследовательских программ, а также термин, наиболее часто используемый в научных журналах и материалах конференций. ML явно наименее контекстно-зависимый из упомянутых вами терминов.

Поиск информации и Data Mining намного ближе к описанию завершенных коммерческих процессов - т.е. от запроса пользователя до поиска / доставки релевантных результатов. Алгоритмы ML могут находиться где-то в этом потоке процессов, и в более сложных приложениях они часто бывают, но это не формальное требование. Кроме того, термин Data Mining , по-видимому, обычно относится к применению некоторого потока процесса для больших данных (т. Е.> 2BG) и, следовательно, обычно включает в себя распределенную обработку (map-Reduce) компонент в начале этого рабочего процесса.

Таким образом, поиск информации (IR) и интеллектуальный анализ данных (DM) связаны с машинным обучением (ML) в виде алгоритма инфраструктуры . Другими словами, машинное обучение является одним из инструментов, используемых для решения проблем в поиске информации. Но это только один источник инструментов. Но IR не зависит от ML - например, конкретным IR-проектом может быть хранение и быстрый поиск полностью проиндексированных данных, реагирующих на пользовательский поисковый запрос IR, суть которого заключается в оптимизации производительности потока данных, т.е. обратный путь от запроса до доставки результатов поиска пользователю. Предсказание или сопоставление с шаблоном здесь может быть бесполезным. Аналогично, проект DM может использовать алгоритм ML для механизма прогнозирования, однако проект DM, скорее всего, также будет касаться всего потока обработки - например, методов параллельных вычислений для эффективного ввода огромного объема данных (возможно, TB). ) который доставляет протопреобразователь в механизм обработки для вычисления описательной статистики (среднее значение, стандартное отклонение, распределение и т. д. по переменным (столбцам).

Наконец, рассмотрим приз Netflix. Этот конкурс был направлен исключительно на машинное обучение - основное внимание было уделено алгоритму прогнозирования, о чем свидетельствует тот факт, что существовал единственный критерий успеха: точность предсказаний, возвращаемых алгоритмом. Представьте, если бы приз Netflix был переименован в соревнование Data Mining. Критерии успеха почти наверняка будут расширены для более точного доступа к производительности алгоритма в реальных коммерческих условиях - так, например, общая скорость выполнения (насколько быстро рекомендации будут предоставлены пользователю), вероятно, будет рассматриваться наряду с точностью.

Термины «Поиск информации» и «Интеллектуальный анализ данных» в настоящее время широко используются, хотя некоторое время я видел эти термины только в описании своей работы или в литературе поставщика (обычно рядом со словом «решение»). работодатель, мы недавно наняли аналитика "Data Mining". Я не знаю, что именно он делает, но на работе он носит галстук каждый день.

16 голосов
/ 09 марта 2012

Я бы попробовал нарисовать линию следующим образом:

Поиск информации - это поиск того, что уже является частью ваших данных, как можно быстрее.

Машинное обучение - это методы, позволяющие обобщить имеющиеся знания до новых данных с максимально возможной точностью.

Интеллектуальный анализ данных в первую очередь предназначен для обнаружения в ваших данных чего-то скрытого , о котором вы не знали ранее, как "нового", насколько это возможно.

Они пересекаются и часто используют приемы друг друга. DM и IR используют структуры индексов для ускорения процессов. DM использует множество методов ML, например, шаблон в наборе данных, который полезен для обобщения, может быть новым знанием.

Их часто трудно отделить. Сделайте себе одолжение и не просто идти на модные слова. На мой взгляд, лучший способ их различить - это их намерение , как указано выше: найти данные, обобщить на новые данные, найти новые свойства существующих данных.

4 голосов
/ 05 августа 2010

Вы также можете добавить распознавание образов и (вычислительную?) Статистику как еще пару областей, которые перекрываются с тремя упомянутыми вами.

Я бы сказал, что между ними нет четко определенной линии.Что их разделяет, так это их история и их акценты.Статистика подчеркивает математическую строгость, анализ данных подчеркивает масштабирование до больших наборов данных, ML находится где-то посередине.

0 голосов
/ 16 ноября 2011

Data Mining - это обнаружение скрытых закономерностей или неизвестных знаний, которые можно использовать для принятия решений людьми.

Машинное обучение - это изучение модели для классификации новых объектов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...