Проблемы с высоким количеством кардинальных данных - PullRequest
0 голосов
/ 07 мая 2018

Справочная информация : я работаю над классификацией данных из данных системы продажи билетов в неудавшиеся или успешные запросы. Запрос проходит несколько этапов, прежде чем будет завершен. Каждый запрос назначается различным командам и отдельным лицам, прежде чем он будет помечен как завершенный. Используя исторические данные, я хочу создать прогнозы для этих заявок в конечном состоянии x, прежде чем они будут помечены как завершенные (успех или неудача).

Среди различных функций, имена отдельных людей, которые работают с записями и названиями команд, являются очень важными факторами при анализе этих данных. Будучи огромной организацией, я ожидаю, что 5-10 новых имен будут добавляться каждый день.

Исторические данные

60 тыс. Записей (используется для обучения, проверки и тестирования) Имеет 10 000 уникальных индивидуальных имен

Текущие данные Общая 1к записей - имеет 200 индивидуальных имен

Я сталкиваюсь с проблемой из-за данных о большом количестве элементов, таких как отдельные имена, число которых не фиксировано и продолжает расти. 1. Вызов при создании реальных прогнозов - нет. столбцов для текущих данных будет отличаться каждый раз и никогда не будет соответствовать длине функции данных обучения. - Поэтому я должен тренировать свою модель каждый раз, я хочу делать прогнозы. 2. Проблема при подготовке данных. Вышеприведенное также представляет проблему для подготовки данных, поскольку теперь мне всегда приходится кодировать полные данные и запрашивать закодированные данные, чтобы разделить их на текущие и будущие данные.

Извините за длинную историю.

Что я ищу?

Есть ли лучший способ приблизиться? Эти высокие и постоянно меняющиеся размеры - это боль. Любые предложения о том, как я могу справиться с ними, чтобы избежать тренировки каждый раз?

Примечание: я пытался использовать PCA и автоэнкодеры для тусклого красного. (Результаты были не очень хороши для моего сильно несбалансированного набора данных, поэтому я работаю только с данными с большими размерами)

Ответы [ 2 ]

0 голосов
/ 08 мая 2018

Поскольку у вас есть динамические данные, как вы сказали, вы можете использовать нейронную сеть для идентификации и объединения обновляющихся переменных и данных.

Также вам следует использовать классификаторы, такие как

  1. CVParameterSelection: Для выбора параметров перекрестной проверки.

  2. ЧАСТЬ: Для создания дерева решений - большая полезность, поскольку оно работает над правилом «разделяй и властвуй».

  3. Дерево REP (обрезано): для уменьшения ошибки в выводе путем разделения значений ошибок

И, наконец, когда у вас есть системы, вы можете запустить модель прогнозирования!

0 голосов
/ 08 мая 2018

Вы можете заменить все идентификаторы и имена в данных стандартным токеном, таким как <ID> или <NAME>. Это должно быть сделано во время предварительной обработки. Далее вы должны выбрать фиксированный словарный запас. Как и все слова, встречающиеся в тренировочных данных не менее 5 раз.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...