Я не слишком увлекаюсь анализом данных, но мне нужны некоторые идеи по кластеризации.Позвольте мне сначала описать мою проблему.
У меня есть около 100 листов данных, которые содержат отзывы пользователей.Я пытаюсь найти для примера слова, которые описывают качество.Можно сказать, что это удивительное качество, а другой человек может сказать, что оно великолепно, и теперь мне нужно объединить те документы, которые описывают эти похожие предложения, и получить частоту таких предложений.Какую концепцию применять здесь?
Думаю, мне нужно указать некоторые стоп-слова и синонимы.Я не слишком знаком с этой концепцией.
Может кто-нибудь дать мне несколько подробных ссылок или объяснений?а какой инструмент использовать?Я в основном программист на Python, поэтому любой модуль Python был бы признателен.
Спасибо