Преобразование общих величин в числовые значения: (добавлено в редактировании)
Вам НУЖЕН какой-то способ получить показатель качества (меру "добродетели") из данных и преобразовать многие из этих вещей в числовые величины. Возможными метриками могут быть время выполнения задачи (в сравнении с первоначальной оценкой, чтобы узнать, не лгут ли они об этом), стоимость, стоимость в сравнении с указанными затратами (чтобы проверить, дают ли они вам правдивые цитаты), и некоторый вид конгломерата для удовлетворения клиента к проекту, над которым они работали.
Регионы / области предыдущих контрактов могут быть закодированы как координаты GPS с X, Y для центра региона для данной транзакции (IE "Калифорния" или "Соединенные Штаты" и width-x, width-y для этой области (границы ошибок). Чтобы увидеть, имеет ли значение география, вы найдете все предыдущие бизнесы в пределах заданного расстояния вашего нового контракта (простая форма: просто проверьте расстояние для всех их предыдущих транзакций, сложную форму с большим количеством данных: какой-то алгоритм кластеризации или 3-ий извлечение поверхности).
Затем вы получаете средневзвешенное значение (метрика качества для предыдущей коммерческой сделки), уменьшенное на (расстояние между текущим желаемым местоположением сделки и предыдущим местоположением сделки). Сложно,
но это даст вам региональные бизнес-показатели.
Анализ данных для извлечения значения
Я предлагаю вам преобразовать данные в стандартные кортежи CSV (идентификатор компании, код / координаты региона, размер счета, показатель эффективности), а затем выполнить статистические регрессии и методы численного анализа. Ваша цель - это набор уравнений, описывающих эффективность компании с точки зрения каждой характеристики. Анализ основных компонентов может упростить этот процесс путем определения наиболее важных характеристик для работы компании.
Выбор программного обеспечения:
Честно говоря, этот вид анализа, по сути, является областью программного обеспечения для статистического анализа или анализа данных, а не механизмами анализа SQL, поскольку они являются чисто статистическими и математическими. Если ваши показатели и характеристики являются числовыми и поддаются количественной оценке, R, Matlab, Mathematica и т. Д. Являются хорошим выбором. Если ваш набор данных очень большой, вам нужно инвестировать в самый надежный пакет, который вы можете получить.
Выбор лучшей компании-кандидата: простой случай
Проблема присвоения бизнеса лучшему кандидату является классической задачей оптимизации.
Если отношения между переменными и производительностью линейны, у вас есть действительно удобный случай. Методы линейного программирования были разработаны для оптимального решения именно такой проблемы (при условии, что вы можете извлечь отношения).
Выбор лучшей компании-кандидата: сложный случай
Если уравнения производительность-характеристики нелинейны, вам нужна нечеткая логика, чтобы найти лучшее решение. Это будет использовать очень, очень продвинутые алгоритмы, чтобы найти очень хорошее (не обязательно лучшее) решение для бизнеса, когда есть много переменных. По опыту, Mathematica имеет первоклассный набор инструментов оптимизации (на основе генетических алгоритмов) для нелинейной оптимизации, а Matlab также имеет нечеткие логические / генетические алгоритмы для решения этой проблемы. Дополнительные инструменты см. В разделе «Глобальная нелинейная оптимизация».