Это очень общий вопрос. Я надеюсь, что кто-то может указать мне правильное направление.
Моя идея состоит в том, чтобы получить набор данных (поле / столбец), о которых я ничего не знаю. Какую группировку концептуальных групп я мог бы сделать, чтобы иметь общее представление о том, что это за идея.
Например, если у меня есть столбец для темы электронной почты. Могу ли я иметь слово распространенность / частота 10 лучших слов или понятий, которые позволили бы составить общее представление о том, что включают в себя данные?
Например, такие слова, как «Окружающая среда», «Технологии», «Правительство», «Япония».
Если бы я увидел кучу слов, таких как "C02", "Загрязнение", "Климат" и "Регулирование", то я бы понял, что я МОГУТ смотреть на данные об окружающей среде.
В частности, есть ли способ или библиотека в Jupyter или Pandas для подсчета каждого экземпляра отдельных слов в поле, которое я мог бы использовать в ранжировании, или есть алгоритм / библиотека для изучения концепции, которыми я должен быть глядя на?
Спасибо за помощь.