«Сходство» в Data Mining - PullRequest
9 голосов
/ 22 мая 2010

В области интеллектуального анализа данных существует ли конкретная дисциплина, называемая «сходство»? Если да, то с чем это связано. Любые примеры, ссылки, ссылки будут полезны.

Также, будучи новичком в этой области, я хотел бы узнать мнение сообщества о том, насколько тесно связаны интеллектуальный анализ данных и искусственный интеллект. Являются ли они синонимами, одно подмножество другого?

Заранее благодарим за то, что поделились своими знаниями.

Ответы [ 5 ]

9 голосов
/ 22 мая 2010

В области интеллектуального анализа данных существует ли конкретная дисциплина, называемая «сходство»?

Да. В области интеллектуального анализа данных и машинного обучения существует специальное подполе, называемое метрическим обучением, которое направлено на изучение лучшей дистанционной метрики среди экземпляров данных.

Знаете ли вы какие-либо из следующих понятий?

Евклидово расстояние

Расстояние Махаланобиса

корреляция Пирсона

косинус сходства и здесь

Функции ядра

После того, как вы узнаете это, вы узнаете, что такое «сходство».

Мне бы хотелось узнать мнение сообщества о том, насколько тесно связаны интеллектуальный анализ данных и искусственный интеллект.

Очень трудно различить, что такое интеллектуальный анализ данных, что такое ИИ. Не обсуждайте этот вопрос, когда вы новичок в этой области. Когда вы выучите 10 алгоритмов в области интеллектуального анализа данных и прочитаете несколько книг по искусственному интеллекту, вы узнаете разницу и отношение.

2 голосов
/ 28 июня 2011

Просто чтобы подчеркнуть важность концепции «сходства».

Интеллектуальный анализ данных (ИИ, машинное обучение, моделирование и т. Д.) - это приведение некоторой функции к максимальному или минимальному значению. Возьмите лучший алгоритм оптимизации / обучения / майнинга и неправильную функцию, и вы получите полный мусор. Обратите внимание, что мы используем «значение», а не «значение S». Это потому, что не существует (насколько мне известно) алгоритма (вычислительного или другого), способного оптимизировать более одного значения. Однако в нашей Вселенной сложные оптимизации встречаются чаще, чем одномерные (мы хотим быть богатыми, молодыми и здоровыми). Вот почему существует множество подобия и других функций оценки. И именно поэтому ни один из них не является «правильным»

2 голосов
/ 22 мая 2010

Подходящие определения «сходства» (какие функции вы извлекаете, что вы делаете с ними потом) - это почти определение кластеризации, а кластеризация - довольно широкое поле добычи данных.

Если вы сделаете стандартное циничное определение ИИ как набора проблем, которые мы не можем решить хорошо (в действительности, мы не можем указать достаточно хорошо, чтобы начать решать), интеллектуальный анализ данных затеняет его, как только пространство, в котором вы Вы ищете корреляции, которые становятся больше, чем могут справиться ваши алгоритмы.

1 голос
/ 29 ноября 2011

Сходство - это понятие, которое используется в нескольких задачах интеллектуального анализа данных, таких как кластеризация, классификация.В зависимости от того, какие данные у вас есть, вы можете использовать различные меры сходства, такие как косинусное сходство для текстовых документов, евклидово расстояние и т. Д.

0 голосов
/ 27 апреля 2017

Существует много измерений сходства, используемых в интеллектуальном анализе данных. для интеллектуального анализа текста, чтобы найти сходство в текстах, косинусное сходство, широко использованное сходство с jaccard

Для справки, вы можете ознакомиться с книгой по поиску Рагхавана и Амнинга

...