Я работаю с набором данных, содержащим фрагменты информации о событии.Мой фрейм данных выглядит примерно так:
index| event_description
----------------------
1 | concert with thousands of people
2 | people gathering
3 | there was an event in the city and it was so much fun
...
8000 | very boring gathering
Моя работа - кластеризовать эти события, основываясь на их значениях.Я не знаю, сколько событий должно быть, это задача обучения без присмотра.
Чтобы продолжить кластеризацию DBSCAN, я встроил все слова в моем фрейме данных в векторы, используя GloVe (скорее doc2Vec и т. Д.).
Как преобразовать векторы слов в векторы предложений, чтобыперейти к кластеризации?
Я прочитал эту статью , а также некоторые другие посты и статьи, в которых используются другие алгоритмы встраивания предложений, а не вложение слов GloVe.Кроме того, некоторые репозитории, такие как InferSent и Универсальный кодировщик предложений Google , довольно хороши, однако они используют предварительно обученные тензоры.
Учитывая эти ограничения, что я должен использовать обученные тензоры GloVe и dataframe, а не предварительно обученные, как я могу формировать векторы предложений из векторов слов?