У меня ОГРОМНЫЙ фрейм данных, содержащий функции, которые описывают события.Большинство столбцов в кадре данных содержат строковые данные, чаще всего с более чем одним словом на ячейку.Однако есть 3 исключения: одно, где столбец содержит полный текст с более подробным описанием события, другой столбец, который содержит дату, и другой, который содержит и целое число, представляющее денежную стоимость.Задача состоит в том, чтобы объединить строки в события.Поскольку я не знаю, что это за события и сколько их, мне придется использовать алгоритм кластеризации без присмотра (мне предложили использовать KMedoids).Независимо от темы предварительной обработки данных, которая очевидна, я сталкиваюсь с двумя проблемами: как кластеризовать строковые данные, если в одной ячейке содержится более одного слова?Как я могу кластеризовать, когда смешанные типы данных, такие как строки, даты и целые числа?Я провел некоторое исследование и хорошо осознаю, что мне нужно векторизовать слова, используя word2vec и akin, но я просто не уверен, как использовать эти векторы, когда в ячейке содержится более одного слова.Должен ли я усреднять векторы на ячейку и использовать это в качестве входных данных для моего алгоритма кластеризации?Тогда как мне кластеризовать векторы и целые числа или числа с плавающей запятой?Мы можем притворяться, что мои данные выглядят так:
Location | Date | Description | Cost | Activity |
-----------------------------------------------------------------------------------
Japan | 30.11.2005 | ate an ice cream, was fun | 1.3 |eating food |
USA | 23.06.2012 |went to the beach and ocean | 20.5 |visit places |
Columbia | 19.12.2017 | went biking and ate candies| 4.8 |slept and ate |
Russia | 08.05.2003 | I forgot what we did, fun | 90.8 |lazy sleep |
...
Idia | 08.07.2018 |there was an accident street| 100.8 | paid money |
Germany | 08.04.2004 | ate an ice cream, was fun | 1.3 |money |
France | 08.02.2013 | ate an ice cream, was fun | 1.3 |eat |