TSQL-запрос для анализа текста - PullRequest
0 голосов
/ 04 декабря 2009

У меня есть таблица, в которой указан порядковый номер, дата отмены и причина. Поле Reason - это поле varchar (255), оно было написано многими разными торговыми представителями, и его очень сложно сгруппировать по категории причин, мне нужно создать отчет для классификации причин отмены. Как лучше всего анализировать причины с помощью TSQL?

Пример причин, введенных торговым представителем

cust already has this order going out
cust can not hold for item Called to cancel order
cust doesn't want to pay for shipping
wife ordered same item from different vendor, sent email
cst made a duplicate order, sent email
cst can't hold
Cust doesn't want to go through verification process so is cancelling order
doesn't ant to hold  for Bo
doesn't want
Cust called to cancel the order  He can no longer get the product he wants 
cnt hld
will not comply with export req
cant' hold
Custs request
Cust will not hold for BO
per. cust. request.

Кстати, у меня SQL Server 2005.

Ответы [ 3 ]

4 голосов
/ 04 декабря 2009

Часть вашей проблемы в том, что это не действительно коды причины. звучит как проблема с вашей схемой для меня. если нет предопределенных кодов причин для ссылки, и вы разрешаете свободный ввод текста для каждой причины, то на самом деле нет никакого способа сделать это напрямую, за исключением извлечения отдельных причин, что, вероятно, не очень полезно.

просто идея, можете ли вы добавить еще один столбец в таблицу, даже если он находится во временной или тестовой среде, а затем дать бизнес-пользователям возможность назначить код (например, 1 для ошибок, 2 для дублированных заказов, 3 за неправильный товар и т. Д.) Для каждой отмены заказа. затем выполните анализ по этому вопросу.

Я предполагаю, что это то, что они ожидают от вас, но я не знаю, что я вижу лучший путь. Вы всегда можете выполнить анализ самостоятельно, если у вас есть полномочия / знания, но это может быть больно, если у вас есть куча отмен.

edit - теперь я вижу, что вы пометили это с помощью регулярных выражений ... можно было бы настроить указанные ключевые слова, чтобы вытащить записи, но должен был быть встроен некоторый допуск и все же ручной анализ после этого для элементы, которые не попадают ни в одну из указанных категорий из-за ошибок в написании и т. д. / edit

1 голос
/ 04 декабря 2009

Посмотрите на Term Lookup в SSIS, вот статья для чтения.

1 голос
/ 04 декабря 2009

+ 1 для @jmatthews, вам действительно нужно иметь коды причин, которые выбраны, а затем, возможно, разрешить ввод в свободной форме по полной причине.

Если это не вариант, вы можете посмотреть кластеризацию текста . Не ожидайте, что это будет быстро или легко, хотя это все еще открытая тема для исследований, связанная с ИИ и машинным обучением.

...