Что такое интеллектуальный анализ данных с точки зрения разработчика? - PullRequest
12 голосов
/ 14 июля 2009

Техническое объяснение того, что такое интеллектуальный анализ данных, можно найти в книге или в Википедии, но мне интересно, какие именно разработки это включает в себя? Это больше об использовании инструментов или больше о написании инструментов? Действительно ли это сильно отличается от других областей, когда дело доходит до НИОКР?

Ответы [ 7 ]

22 голосов
/ 10 сентября 2009

Data Mining - это процесс обнаружения интересных моделей в больших объемах данных. Это не запрос данных, это то, что описывает пользователь Treb (извините, Treb).

Чтобы понять DM с точки зрения разработчика, вам следует прочитать книгу «Программирование коллективного интеллекта» Тоби Сегарана.

3 голосов
/ 14 июля 2009

По моему опыту (я бывший майнер данных :-)), это смесь использования инструментов и инструментов для письма. Чаще всего инструменты, необходимые для анализа конкретного набора данных, не существуют, поэтому вам нужно сначала написать их самостоятельно. Это может быть очень интересно, но вам часто нужен совсем другой подход к тому типу программирования, которым я сейчас занимаюсь (например, встроенный беспроводной).

2 голосов
/ 09 апреля 2011

Вы действительно должны изменить принятый ответ на этот вопрос, чтобы он не вводил в заблуждение тех, кто сталкивался с ним.

Сказать, что запрос к базе данных - это интеллектуальный анализ данных, потому что "как бы вы обнаружили какой-либо шаблон в ваших данных без предварительного запроса?" это все равно, что сказать, что открывать дверь машины - это вождение, потому что «как еще можно было бы ехать куда-нибудь, не открывая дверь машины в первую очередь».

Вы можете читать свои данные из текстового файла, если хотите. Мое первое задание по извлечению данных использовало наборы данных из UCI-репозитория , и это почти все текстовые файлы.

Если вы хотите узнать о добыче данных, начните с поиска кластеризации и классификации. Узнайте о деревьях решений и классификации на основе правил. Затем посмотрите на k-ближайшего соседа и k-средних. После этого, если вы действительно хотите увидеть, что такое интеллектуальный анализ данных, посмотрите на Chameleon, DBScan и Support Vector Machines. Не обязательно изучать подробности последних трех (они довольно сложны и сложны по математике), но понимание абстрактного представления о том, что происходит, расскажет вам все, что вам нужно знать, чтобы использовать множество инструментов и библиотек, доступных для каждая стратегия.

Это только те алгоритмы, которые всплыли в моей голове только сейчас. Есть так много других, которые я не помню или даже не знаю.

1 голос
/ 14 июля 2009

Data Mining - это поиск большого количества данных для поиска скрытых паттернов. Пример Web 2.0: News Corp. использует свой сайт myspace.com как большой источник данных, чтобы определить, какие фильмы и продукты нужно продвигать. Они пишут программное обеспечение для определения тенденций в данных, которые пользователи публикуют на сайте. News Corp делает это для сбора информации, полезной для рекламных кампаний и прогнозов рынка. Он отличается от других областей исследований и разработок тем, что с точки зрения дающих данные является пассивным. Вместо того, чтобы выходить на улицу и спрашивать людей лично, какие фильмы они могут увидеть этим летом, и другие подобные вопросы, инструменты интеллектуального анализа данных разбираются в этих вещах, анализируя данные, добровольно предоставленные пользователями.

В Википедии действительно есть довольно хорошая статья: - http://en.wikipedia.org/wiki/Data_mining

0 голосов
/ 14 июля 2009

На уровне разработки интеллектуальный анализ данных - это просто еще одно приложение базы данных, но с огромным объемом данных.

Сам майнинг выполняется путем выполнения определенных запросов к базе данных. Именно в создании запросов, где важная работа сделана. Они, конечно, зависят от модели данных и гипотез, какие тенденции ожидает клиент. Поэтому, точная настройка запросов обычно не может быть сделана в процессе разработки, но только после того, как система активна и у вас есть живые данные. Затем пользователь может проверить свои гипотезы и адаптировать запросы, чтобы показать ему тенденции, которые он ищет.

Итак, с точки зрения разработчика, объем данных составляет около

  1. Управление большими наборами данных в вашем клиенте (один запрос может вернуть 100 000 строк данных)

  2. Предоставление пользователю (который может ничего не знать о SQL или реляционных базах данных в целом) эффективным способом изменения своих запросов и просмотра результатов.

0 голосов
/ 14 июля 2009

Я думаю, что больше нужно использовать готовые инструменты, а не разрабатывать свои собственные. Академический пример такого рода инструментов может быть WEKA . Конечно, вам все еще нужно знать, какие алгоритмы используются, как обрабатывать данные (очень важная часть) и т. Д.

В исследованиях и разработках я не очень разбираюсь, но это должно быть похоже почти на все: математика, статистика, математика ...

0 голосов
/ 14 июля 2009

Data Mining, как я уже сказал, находит шаблоны или тренды на основе данных. Перспектива разработчика может быть в таких приложениях, как Anti Money Laundring ... Где задан шаблон, вы будете искать данные для данного шаблона. Еще одно применение - в Projection Softwares ... где вы проецируете результат или результат в будущем на эвристику, изучая распознавание текущей тенденции по данным.

...