У меня есть набор данных, где каждая строка является определенным нарушением соответствия.Первый столбец - это название нарушения (df ['Violations'] - пожарный выход, проход, эргономичные места ... до 130 нарушений), второй столбец - серьезность нарушения (df ['Category'] Minor, Medium, Major, Critical), 3-е описание нарушения (df ['Description'] 1-2 предложения, описывающего проблему).
Каждое нарушение (например, проход) представляет различные проблемы (проход слишком мал)против прохода просто мешают).Я хочу классифицировать мои нарушения в соответствии с описанием нарушения.Например, я хотел бы, чтобы следующие два описания нарушений были отнесены к одной и той же новой категории (препятствие):
'Рекомендуется, чтобы фабрика защищала все проходы от любых препятствий для обеспечения аварийной эвакуации и обеспечения того, чтобы всеЭвакуационные проходы и аварийные выходы всегда свободны. '
и
"Рекомендуется, чтобы фабрика защищала все проходы от любых препятствий, чтобы обеспечить аварийную эвакуацию и обеспечить, чтобы все эвакуационные проходыи аварийные выходы всегда открыты и обеспечивают надлежащую подготовку по пожарной безопасности для работников, проводящих регулярные проверки здоровья и безопасности "
Я знаю, что есть определенные ключевые слова, которые я мог бы искать (например, препятствие), но мне бы это потребовалосьнемного, чтобы определить ключевые слова для каждой категории нарушений (у меня более 130 категорий нарушений).
Какой анализ языка обработки можно запустить, чтобы python автоматически определял различные «кластеры» для diffДругие категории?Любое предложение для Python?
РЕДАКТИРОВАТЬ:
Я добавил рис данных
![enter image description here](https://i.stack.imgur.com/Ab1I4.png)