Как сформировать вложения предложений из встраивания слов, используя перчатку на обученных тензорах данных? - PullRequest
0 голосов
/ 21 сентября 2018

Я работаю с набором данных, содержащим фрагменты информации о событии.Мой фрейм данных выглядит примерно так:

index| event_description
----------------------
1    | concert with thousands of people
2    | people gathering 
3    | there was an event in the city and it was so much fun
...
8000 | very boring gathering

Моя работа - кластеризовать эти события, основываясь на их значениях.Я не знаю, сколько событий должно быть, это задача обучения без присмотра.

Чтобы продолжить кластеризацию DBSCAN, я встроил все слова в моем фрейме данных в векторы, используя GloVe (скорее doc2Vec и т. Д.).

Как преобразовать векторы слов в векторы предложений, чтобыперейти к кластеризации?

Я прочитал эту статью , а также некоторые другие посты и статьи, в которых используются другие алгоритмы встраивания предложений, а не вложение слов GloVe.Кроме того, некоторые репозитории, такие как InferSent и Универсальный кодировщик предложений Google , довольно хороши, однако они используют предварительно обученные тензоры.

Учитывая эти ограничения, что я должен использовать обученные тензоры GloVe и dataframe, а не предварительно обученные, как я могу формировать векторы предложений из векторов слов?

...