Question

Я работаю над довольно большим набором данных, который будет обрабатываться в кластере, поэтому я использую PySpark для этой цели.

Презентабельные записи этого набора данных имеют такую структуру:

|RowNoIndex|ReceivedDate|             Product|          Subproduct|               Issue| 
+----------+------------+--------------------+--------------------+--------------------+
|         0|  07/29/2013|       Consumer Loan|        Vehicle loan|Managing the loan...|
|         1|  07/29/2013|Bank account or s...|    Checking account|Using a debit or ...|
|         2|  07/29/2013|Bank account or s...|    Checking account|Account opening, ...

После некоторых операций предварительной обработки / очистки данных я хотел бы создать и затем обучить модель, которая будет классифицировать проблемы (Issue) по некоторым категориям, которые пока неизвестны. Я новичок в области ОД. Я перечитал несколько статей о TF-IDF, но не уверен, что это может подойти для этого случая. Может ли кто-нибудь помочь? Заранее спасибо. Если вам нужна дополнительная информация, не стесняйтесь комментировать.

Какой метод ML для мультиклассовой (недвоичной) классификации текста мне следует выбрать (из SparkML)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какой метод ML для мультиклассовой (недвоичной) классификации текста мне следует выбрать (из SparkML)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы