Текстовые теги / Классификация для автоматизации - PullRequest
0 голосов
/ 22 мая 2019

У меня была возможность автоматизировать и использовать ML, чтобы высвободить свое время. В автоматизации DevOps мне нужно стандартизировать сценическое имя, но с проектом 2000+ на предприятии некоторые сценические имена автоматически подставляются в рамку на основе имени проекта, хранилища.Название, которое может не соответствовать стандартам.Существует отчет, который извлекает все эти несекретные новые сценические имена конвейеров и, используя сопоставление с образцом, вручную классифицирует их в разные сегменты.Когда я пытаюсь использовать sci kit, большинство алгоритмов не принимают строку в качестве входных данных.Любой в этой группе, чтобы указать правильные алгоритмы и образцы для использования

1 Ответ

0 голосов
/ 22 мая 2019

Это общая проблема в машинном обучении, и многие алгоритмы предполагают, что вы изменили свои категориальные столбцы на числовые.

Во-первых, вы можете использовать LabelEncoder , который будет

Кодировать метки со значением от 0 до n_classes-1.

Этот метод преобразует ваши строки в целые числа.

Тогда вам нужно подумать, уместен ли этот метод. Часто это не так, потому что между вашими разными словами будет иерархия, и алгоритмы могут подумать, что слово 5 больше слова 4 (а это не так).

Вы можете использовать OneHotEncoder (после использования LabelEncoder, поскольку OneHotEncoder кодирует числовые столбцы).

Это создает двоичный столбец для каждой категории и возвращает разреженную матрицу или плотный массив.

Имейте в виду, что OneHotEncoder умножит количество функций, которые могут быть проблемой при обучении ваших моделей.

Вы также можете использовать get_dummies от панд вместо LabelEncoder и OneHotEncoder. См. статью , в которой сравниваются два подхода.

Многие алгоритмы НЛП также используют модель " мешок слов ". Загляните в библиотеку NLTK , которая может помочь вам решить вашу проблему.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...