Исправьте алгоритм ML, используя AzureML, для решения проблемы категоризации - PullRequest
0 голосов
/ 27 октября 2018

Мне нужно найти способ построить и обучить модель с использованием AzureML для следующей проблемы:

У меня есть CSV-файл со следующей структурой:

Col A     Col B
CAT1      A B not C A D E
CAT1      D B E not A and C D
CAT2      C D A not B and A
CAT3      C D A not B and A

здесь CAT1, CAT2 - категории для слов A B C D E - слова, которые представляют собой словарь, могут быть написаны с ошибками

Кроме того, некоторые слова из словаря можно отрицать, поэтому их не следует рассматривать для категоризации.

Категория определяется как набор факторов, в которых частота каждого слова в нескольких строках дает наивысший ранг словам в этом наборе. Другими словами, алгоритм будет анализировать все слова по всем строкам для CAT, например, обнаруживать наиболее часто используемые слова и присваивать им наивысший ранг.

Модель, которую я пытаюсь построить, попытается классифицировать пользовательский ввод как предложение, то есть B A C, и покажет обнаруженную категорию с наивысшим рангом слов для этой категории, игнорируя NOT.

До сих пор я имел ограниченный успех, адаптируя образец классификации Twitter из AzureML.

Какие-нибудь другие предложения относительно того, как обучить модель?

...