Мне нужно найти способ построить и обучить модель с использованием AzureML для следующей проблемы:
У меня есть CSV-файл со следующей структурой:
Col A Col B
CAT1 A B not C A D E
CAT1 D B E not A and C D
CAT2 C D A not B and A
CAT3 C D A not B and A
здесь CAT1, CAT2 - категории для слов
A B C D E - слова, которые представляют собой словарь, могут быть написаны с ошибками
Кроме того, некоторые слова из словаря можно отрицать, поэтому их не следует рассматривать для категоризации.
Категория определяется как набор факторов, в которых частота каждого слова в нескольких строках дает наивысший ранг словам в этом наборе. Другими словами, алгоритм будет анализировать все слова по всем строкам для CAT, например, обнаруживать наиболее часто используемые слова и присваивать им наивысший ранг.
Модель, которую я пытаюсь построить, попытается классифицировать пользовательский ввод как предложение, то есть B A C, и покажет обнаруженную категорию с наивысшим рангом слов для этой категории, игнорируя NOT.
До сих пор я имел ограниченный успех, адаптируя образец классификации Twitter из AzureML.
Какие-нибудь другие предложения относительно того, как обучить модель?