Уникальные слова и их количество в Пандах - PullRequest
0 голосов
/ 11 февраля 2019

Я только начал изучать панд, и мне было интересно, можете ли вы поместить текст в кадр данных, чтобы получить результаты.У меня есть текстовая информация около 3000 слов, некоторые слова повторяются много раз: «солнце», «луна», «земля».Я хочу создать график, который показывает количество встречаемости слов от самых частых до самых маленьких.На каких аспектах панд я должен сосредоточиться на обучении для такой задачи, и является ли панда лучшим выбором для этого или нет?

Ответы [ 2 ]

0 голосов
/ 13 февраля 2019

Согласитесь с комментарием Макса, что ваш вопрос слишком широкий.Однако, что вы хотите сделать, это tokenizing текст и подсчитать частоту каждого токена.Это можно сделать аналогично этому вопросу .Вот одна из реализаций:

import nltk

with open ("input.txt", "r") as myfile:
    data=myfile.read().replace('\n', ' ')

data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print(fdist1)
0 голосов
/ 11 февраля 2019

Если вы просто пытаетесь показать частоту слов, вы можете использовать следующее:

 df['column_with_words'].hist()

Но это, вероятно, не даст вам того, что вы хотите.Вам лучше исследовать некоторый тип пакета текстового анализа, например nltk.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...