классификация различных текстов для Python - PullRequest
0 голосов
/ 18 февраля 2019

У меня есть набор данных, где каждая строка является определенным нарушением соответствия.Первый столбец - это название нарушения (df ['Violations'] - пожарный выход, проход, эргономичные места ... до 130 нарушений), второй столбец - серьезность нарушения (df ['Category'] Minor, Medium, Major, Critical), 3-е описание нарушения (df ['Description'] 1-2 предложения, описывающего проблему).

Каждое нарушение (например, проход) представляет различные проблемы (проход слишком мал)против прохода просто мешают).Я хочу классифицировать мои нарушения в соответствии с описанием нарушения.Например, я хотел бы, чтобы следующие два описания нарушений были отнесены к одной и той же новой категории (препятствие):

'Рекомендуется, чтобы фабрика защищала все проходы от любых препятствий для обеспечения аварийной эвакуации и обеспечения того, чтобы всеЭвакуационные проходы и аварийные выходы всегда свободны. '

и

"Рекомендуется, чтобы фабрика защищала все проходы от любых препятствий, чтобы обеспечить аварийную эвакуацию и обеспечить, чтобы все эвакуационные проходыи аварийные выходы всегда открыты и обеспечивают надлежащую подготовку по пожарной безопасности для работников, проводящих регулярные проверки здоровья и безопасности "

Я знаю, что есть определенные ключевые слова, которые я мог бы искать (например, препятствие), но мне бы это потребовалосьнемного, чтобы определить ключевые слова для каждой категории нарушений (у меня более 130 категорий нарушений).

Какой анализ языка обработки можно запустить, чтобы python автоматически определял различные «кластеры» для diffДругие категории?Любое предложение для Python?

РЕДАКТИРОВАТЬ:

Я добавил рис данных

enter image description here

1 Ответ

0 голосов
/ 18 февраля 2019

мне потребовалось бы совсем немного времени, чтобы определить ключевые слова для каждой категории нарушения

Это называется задачей моделирования тем, и вы можете добиться этого с помощью скрытого распределения дирихле (LDA), которое автоматическисформировать текстовые кластеры для вас.LDA рассматривает каждый документ как набор тем в определенной пропорции.И каждая тема как набор ключевых слов, опять же, в определенной пропорции.

Поскольку вы еще не поделились набором данных, я бы указал вам на этот отличный ресурс . Вы также можете получить такие визуализации, как эти .

...