Как разбить верхние слова на документ в строке;Pandas Dataframe - PullRequest
1 голос
/ 09 октября 2019

Я пытаюсь разбить текстовый столбец на фрейме данных и разбить верхние слова на строку / документ. У меня есть верхние слова, в этом примере это машина и обучение на счетчиках 8. Однако я не уверен, как разбить верхние слова на документ вместо целого кадра данных.

Ниже приведены результаты для ключевых слов для всего кадра данных:

машина 8

обучение 8

важно 2

думаю 1

значимый 1

import pandas as pd
y = ['machine learning. i think machine learning rather significant machine learning',
     'most important aspect is machine learning. machine learning very important essential',
    'i believe machine learning great, machine learning machine learning']
x = ['a','b','c']
practice = pd.DataFrame(data=y,index=x,columns=['text'])

То, что я ожидаю, находится рядом с текстовым столбцом, это еще один столбец, который указывает верхнее слово. Например, для слова «Машина» кадр данных должен выглядеть следующим образом:

a /… / 3

b /… / 2

c /… / 3

1 Ответ

1 голос
/ 09 октября 2019

Вы можете выполнить следующие действия с помощью счетчика из модуля сборов.

import pandas as pd
from collections import Counter
y = ['machine learning. i think machine learning rather significant machine learning',
     'most important aspect is machine learning. machine learning very important essential',
    'i believe machine learning great, machine learning machine learning']
x = ['a','b','c']
practice = pd.DataFrame(data=y,index=x,columns=['text'])


word_frequency = []

for line in practice["text"]:
    words = line.split()     #this will create a list of all the words in each line
    words_counter = Counter(words)    #This will count the words and number of occurances
    top_word = words_counter.most_common(1)[0][1]    #return the number of the first most frequent word in the list
    word_frequency.append(top_word)     #append the word to the empty list

practice["Word Frequency"] = word_frequency     #add the list as a new column in the dataframe
print(practice)

Более подробную информацию см. В документации счетчика https://docs.python.org/2/library/collections.html#collections.Counter

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...