Я работаю над довольно большим набором данных, который будет обрабатываться в кластере, поэтому я использую PySpark для этой цели.
Презентабельные записи этого набора данных имеют такую структуру:
|RowNoIndex|ReceivedDate| Product| Subproduct| Issue|
+----------+------------+--------------------+--------------------+--------------------+
| 0| 07/29/2013| Consumer Loan| Vehicle loan|Managing the loan...|
| 1| 07/29/2013|Bank account or s...| Checking account|Using a debit or ...|
| 2| 07/29/2013|Bank account or s...| Checking account|Account opening, ...
После некоторых операций предварительной обработки / очистки данных я хотел бы создать и затем обучить модель, которая будет классифицировать проблемы (Issue
) по некоторым категориям, которые пока неизвестны. Я новичок в области ОД. Я перечитал несколько статей о TF-IDF, но не уверен, что это может подойти для этого случая. Может ли кто-нибудь помочь? Заранее спасибо. Если вам нужна дополнительная информация, не стесняйтесь комментировать.