Question

Я только начал изучать панд, и мне было интересно, можете ли вы поместить текст в кадр данных, чтобы получить результаты.У меня есть текстовая информация около 3000 слов, некоторые слова повторяются много раз: «солнце», «луна», «земля».Я хочу создать график, который показывает количество встречаемости слов от самых частых до самых маленьких.На каких аспектах панд я должен сосредоточиться на обучении для такой задачи, и является ли панда лучшим выбором для этого или нет?

Amirhos Imani · Answer 1 · 13 февраля 2019

Согласитесь с комментарием Макса, что ваш вопрос слишком широкий.Однако, что вы хотите сделать, это tokenizing текст и подсчитать частоту каждого токена.Это можно сделать аналогично этому вопросу .Вот одна из реализаций:

import nltk

with open ("input.txt", "r") as myfile:
    data=myfile.read().replace('\n', ' ')

data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print(fdist1)

Polkaguy6000 · Answer 2 · 11 февраля 2019

Если вы просто пытаетесь показать частоту слов, вы можете использовать следующее:

 df['column_with_words'].hist()

Но это, вероятно, не даст вам того, что вы хотите.Вам лучше исследовать некоторый тип пакета текстового анализа, например nltk.

Уникальные слова и их количество в Пандах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Уникальные слова и их количество в Пандах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов