Я работаю над проблемой классификации текста, которая связана с несколькими текстовыми функциями, и мне необходимо построить модель для прогнозирования диапазона заработной платы.Пожалуйста, обратитесь к Образцу набора данных Большинство ресурсов / учебных пособий посвящены извлечению объектов только в одном столбце, а затем прогнозированию цели.Мне известны такие процессы, как предварительная обработка текста, извлечение функций (CountVectorizer или TF-IDF), а затем алгоритмы применения.
В этой задаче у меня несколько функций ввода текста. Как справиться с проблемами классификации текста, когда задействованы несколько функций? Это методы, которые я уже попробовал, но я не уверен, что это правильные методы.Пожалуйста, предоставьте ваши входные данные / предложения.
1) Прикладная очистка данных для каждой функции в отдельности, затем TF-IDF и затем логистическая регрессияЗдесь я попытался понять, могу ли я использовать только одну функцию для классификации.
2) Применили очистку данных для всех столбцов в отдельности, затем применили TF-IDF для каждого объекта, а затем объединили все векторы объектов, чтобы создать только один вектор объектов.Наконец логистическая регрессия.
3) Применили очистку данных для всех столбцов отдельно и объединили все очищенные столбцы, чтобы создать одну функцию 'merged_text'.Затем применил TF-IDF к этому merged_text с последующей логистической регрессией.
Все эти 3 метода дали мне точность 35-40% при перекрестной проверке и наборе тестов.Я ожидаю не менее 60% точности в тестовом наборе, который не предоставляется.
Кроме того, я не понял, как использовать 'company_name' & 'опыт' с текстовыми данными.в имени компании более 2000 уникальных значений.Пожалуйста, предоставьте ввод / указатель на то, как обрабатывать числовые данные в задаче классификации текста.