Я должен на основании данных предсказать, какая группа по ликвидации последствий стихийных бедствий должна была отреагировать на аварию - полиция / спасательная служба / пожарная команда / скорая помощь и т. Д.
Проблема состоит из нескольких частей -
Уникальный идентификатор - (комбинация цифр)
Текстовые данные нескольких предложений для каждого идентификатора,
пример: нанесенный ущерб вызван градом. Люди не были
следуя инструкциям по спасению и были небрежны. Урон высокий.
-Всего 50к разных ID с текстом
Несколько структурированных полей данных - например, местоположение, тип, серьезность и т. Д. - всего 400 переменных
Метод решения проблемы:
- Взятые текстовые данные и идентификатор и вычисленный TFIDF, косинусное сходство, Doc2Vec, модель темы
Теперь мне нужно объединить структурированные данные и неструктурированные данные в кластеры. Поскольку это неконтролируемое обучение, не знаю, как объединить все вышеперечисленное, чтобы получить какое-то значение из данных.
В общей сложности у меня сейчас - 400 переменных, 10000 баллов от TFIDF, но я:
- Не уверен, как связать косинусное сходство с фреймом данных
- Не уверен, как использовать Doc2Vec для кластера
- Не уверен, как использовать тематические модели
Конечная цель - создать кластеры, которые можно изучить, чтобы различать, что если идентификатор содержит определенные ключевые слова, он должен быть передан определенной управленческой команде - например: кража / убийство / грабеж - все должно быть одним кластером, и я могу связать полицию с этот кластер