Справочная информация : я работаю над классификацией данных из данных системы продажи билетов в неудавшиеся или успешные запросы. Запрос проходит несколько этапов, прежде чем будет завершен. Каждый запрос назначается различным командам и отдельным лицам, прежде чем он будет помечен как завершенный.
Используя исторические данные, я хочу создать прогнозы для этих заявок в конечном состоянии x, прежде чем они будут помечены как завершенные (успех или неудача).
Среди различных функций, имена отдельных людей, которые работают с записями и названиями команд, являются очень важными факторами при анализе этих данных. Будучи огромной организацией, я ожидаю, что 5-10 новых имен будут добавляться каждый день.
Исторические данные
60 тыс. Записей (используется для обучения, проверки и тестирования)
Имеет 10 000 уникальных индивидуальных имен
Текущие данные
Общая 1к записей
- имеет 200 индивидуальных имен
Я сталкиваюсь с проблемой из-за данных о большом количестве элементов, таких как отдельные имена, число которых не фиксировано и продолжает расти.
1. Вызов при создании реальных прогнозов - нет. столбцов для текущих данных будет отличаться каждый раз и никогда не будет соответствовать длине функции данных обучения.
- Поэтому я должен тренировать свою модель каждый раз, я хочу делать прогнозы.
2. Проблема при подготовке данных. Вышеприведенное также представляет проблему для подготовки данных, поскольку теперь мне всегда приходится кодировать полные данные и запрашивать закодированные данные, чтобы разделить их на текущие и будущие данные.
Извините за длинную историю.
Что я ищу?
Есть ли лучший способ приблизиться?
Эти высокие и постоянно меняющиеся размеры - это боль. Любые предложения о том, как я могу справиться с ними, чтобы избежать тренировки каждый раз?
Примечание: я пытался использовать PCA и автоэнкодеры для тусклого красного. (Результаты были не очень хороши для моего сильно несбалансированного набора данных, поэтому я работаю только с данными с большими размерами)