Как организовать данные для многоуровневого моделирования - дерево решений, классификация или регрессия - PullRequest
1 голос
/ 18 апреля 2011

У меня есть три таблицы - менеджер по продажам, клиент и заказ. У каждого менеджера по продажам есть несколько клиентов, и у каждого клиента может быть несколько заказов.

Мне интересно определить, приведут ли определенные атрибуты менеджера по продажам и атрибуты клиента к продажам определенного продукта (скажем, Продукт A Да / Нет).

Предположим, у меня есть 3 менеджера по продажам, 10 клиентов и 20 заказов.

Должен ли я структурировать набор данных, чтобы он имел 3 строки, 10 строк или 20 строк. Пожалуйста, сообщите.

Кроме того, будет ли дерево решений и алгоритм классификации автоматически понимать иерархические отношения между менеджером, клиентом и заказом?

Спасибо.

1 Ответ

0 голосов
/ 18 апреля 2011

Я думаю, вы должны сделать из него одну большую матрицу возможностей. Предположим, у вас есть таблицы

Менеджер по продажам (id attr_1 ... attr_m)
Клиент (идентификатор attr_1 ... attr_n sales_manager_id)
Заказ (id product_id_1 ... product_id_l customer_id)

Тогда, скорее всего, разумно создать матрицу в следующем виде

Матрица:
product_id order_attr_1 ... order_attr_l customer_attr_1 ... customer_attr_n ... manager_attr_1 ... manager_attr_m

Теперь у вас есть 20 * l матрица строк со всеми атрибутами, которые заданы для определенного порядка.

В простейшей форме вы можете использовать следующую матрицу для классификации. В случае слишком большого количества атрибутов может быть целесообразно сначала использовать PCA. Может быть, вам стоит попробовать использовать Weka и посмотреть, что получится.

Учитывая ваш вопрос об иерархических отношениях, тогда алгоритмы классификации не поймут их явно.
Я бы порекомендовал эту книгу здесь: Введение в интеллектуальный анализ данных , так как она отвечает на большинство ваших вопросов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...