Как я могу кластеризовать текстовые данные с несколькими столбцами? - PullRequest
0 голосов
/ 26 июня 2018

Я хотел бы сделать ak означает кластеризацию с текстовыми данными книги, имеющими столбцы 'title', 'genre', 'review' и 'synopsis'.

Я хочу использовать 'title'в качестве индикатора или первичного ключа для кластеризации, но я не уверен, как использовать несколько столбцов для этого.

Я знаю, что сначала я должен векторизовать данные, но векторизация принимает данные серии, а незначения кадра данных;так что здесь, опять же, я не знаю, как использовать все столбцы, как я хочу.

1 Ответ

0 голосов
/ 26 июня 2018

Вы можете векторизовать каждый столбец отдельно и объединять результаты.

Просто убедитесь, что вы делаете разреженную конкатенацию.

Однако кластеризация текста с помощью k-средних совсем не работает хорошо.K-means очень чувствителен к выбросам и шуму, а тест полон шума.Фундаментальные предположения о k-средних (k сигналов и гауссовской ошибке iid) не верны для текста.Удачи ...

...