Jupyter / Pandas / Python: экстраполяция понятий или частоты слова - PullRequest
0 голосов
/ 27 апреля 2020

Это очень общий вопрос. Я надеюсь, что кто-то может указать мне правильное направление.

Моя идея состоит в том, чтобы получить набор данных (поле / столбец), о которых я ничего не знаю. Какую группировку концептуальных групп я мог бы сделать, чтобы иметь общее представление о том, что это за идея.

Например, если у меня есть столбец для темы электронной почты. Могу ли я иметь слово распространенность / частота 10 лучших слов или понятий, которые позволили бы составить общее представление о том, что включают в себя данные?

Например, такие слова, как «Окружающая среда», «Технологии», «Правительство», «Япония».

Если бы я увидел кучу слов, таких как "C02", "Загрязнение", "Климат" и "Регулирование", то я бы понял, что я МОГУТ смотреть на данные об окружающей среде.

В частности, есть ли способ или библиотека в Jupyter или Pandas для подсчета каждого экземпляра отдельных слов в поле, которое я мог бы использовать в ранжировании, или есть алгоритм / библиотека для изучения концепции, которыми я должен быть глядя на?

Спасибо за помощь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...