Как кластеризовать смешанный переменный фрейм данных, описывающий события? - PullRequest
0 голосов
/ 14 сентября 2018

У меня ОГРОМНЫЙ фрейм данных, содержащий функции, которые описывают события.Большинство столбцов в кадре данных содержат строковые данные, чаще всего с более чем одним словом на ячейку.Однако есть 3 исключения: одно, где столбец содержит полный текст с более подробным описанием события, другой столбец, который содержит дату, и другой, который содержит и целое число, представляющее денежную стоимость.Задача состоит в том, чтобы объединить строки в события.Поскольку я не знаю, что это за события и сколько их, мне придется использовать алгоритм кластеризации без присмотра (мне предложили использовать KMedoids).Независимо от темы предварительной обработки данных, которая очевидна, я сталкиваюсь с двумя проблемами: как кластеризовать строковые данные, если в одной ячейке содержится более одного слова?Как я могу кластеризовать, когда смешанные типы данных, такие как строки, даты и целые числа?Я провел некоторое исследование и хорошо осознаю, что мне нужно векторизовать слова, используя word2vec и akin, но я просто не уверен, как использовать эти векторы, когда в ячейке содержится более одного слова.Должен ли я усреднять векторы на ячейку и использовать это в качестве входных данных для моего алгоритма кластеризации?Тогда как мне кластеризовать векторы и целые числа или числа с плавающей запятой?Мы можем притворяться, что мои данные выглядят так:

Location   |   Date       |          Description       | Cost  |  Activity        | 
-----------------------------------------------------------------------------------
Japan      | 30.11.2005   | ate an ice cream, was fun  | 1.3   |eating food       |  
USA        | 23.06.2012   |went to the beach and ocean | 20.5  |visit places      |
Columbia   | 19.12.2017   | went biking and ate candies| 4.8   |slept and ate     |
Russia     | 08.05.2003   | I forgot what we did, fun  | 90.8  |lazy sleep        |
...
Idia       | 08.07.2018   |there was an accident street| 100.8 | paid money       |  
Germany    | 08.04.2004   | ate an ice cream, was fun  | 1.3   |money             |  
France     | 08.02.2013   | ate an ice cream, was fun  | 1.3   |eat               |  
...