Неконтролируемое обучение, различные техники и запросы - PullRequest
0 голосов
/ 15 апреля 2019

Я должен на основании данных предсказать, какая группа по ликвидации последствий стихийных бедствий должна была отреагировать на аварию - полиция / спасательная служба / пожарная команда / скорая помощь и т. Д.

Проблема состоит из нескольких частей -

  1. Уникальный идентификатор - (комбинация цифр)

  2. Текстовые данные нескольких предложений для каждого идентификатора,

    пример: нанесенный ущерб вызван градом. Люди не были следуя инструкциям по спасению и были небрежны. Урон высокий. -Всего 50к разных ID с текстом

  3. Несколько структурированных полей данных - например, местоположение, тип, серьезность и т. Д. - всего 400 переменных

Метод решения проблемы:

  1. Взятые текстовые данные и идентификатор и вычисленный TFIDF, косинусное сходство, Doc2Vec, модель темы

Теперь мне нужно объединить структурированные данные и неструктурированные данные в кластеры. Поскольку это неконтролируемое обучение, не знаю, как объединить все вышеперечисленное, чтобы получить какое-то значение из данных.

В общей сложности у меня сейчас - 400 переменных, 10000 баллов от TFIDF, но я:

  • Не уверен, как связать косинусное сходство с фреймом данных
  • Не уверен, как использовать Doc2Vec для кластера
  • Не уверен, как использовать тематические модели

Конечная цель - создать кластеры, которые можно изучить, чтобы различать, что если идентификатор содержит определенные ключевые слова, он должен быть передан определенной управленческой команде - например: кража / убийство / грабеж - все должно быть одним кластером, и я могу связать полицию с этот кластер

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...