Какой метод ML для мультиклассовой (недвоичной) классификации текста мне следует выбрать (из SparkML)? - PullRequest
0 голосов
/ 13 октября 2019

Я работаю над довольно большим набором данных, который будет обрабатываться в кластере, поэтому я использую PySpark для этой цели.

Презентабельные записи этого набора данных имеют такую ​​структуру:

|RowNoIndex|ReceivedDate|             Product|          Subproduct|               Issue| 
+----------+------------+--------------------+--------------------+--------------------+
|         0|  07/29/2013|       Consumer Loan|        Vehicle loan|Managing the loan...|
|         1|  07/29/2013|Bank account or s...|    Checking account|Using a debit or ...|
|         2|  07/29/2013|Bank account or s...|    Checking account|Account opening, ...

После некоторых операций предварительной обработки / очистки данных я хотел бы создать и затем обучить модель, которая будет классифицировать проблемы (Issue) по некоторым категориям, которые пока неизвестны. Я новичок в области ОД. Я перечитал несколько статей о TF-IDF, но не уверен, что это может подойти для этого случая. Может ли кто-нибудь помочь? Заранее спасибо. Если вам нужна дополнительная информация, не стесняйтесь комментировать.

...