Question

Я пытаюсь подсчитать количество ключевых слов в панде DataFrame следующим образом:

df = pd.read_csv('amazon_baby.csv')
selected_words = ['awesome', 'great', 'fantastic', 'amazing', 'love', 'horrible', 'bad', 'terrible', 'awful', 'wow', 'hate']

selected_words необходимо посчитать из серии: df ['review']

Я пытался

def word_counter(sent):
a={}
for word in selected_words:
    a[word] = sent.count(word)
return a

, а затем

df['totalwords'] = df.review.str.split()
df['word_count'] = df.totalwords.apply(word_counter)

----------------------------------------------------------------------------
----> 1 df['word_count'] = df.totalwords.apply(word_counter)

c:\users\admin\appdata\local\programs\python\python36\lib\site-packages\pandas\core\series.py in apply(self, func, convert_dtype, args, **kwds)
   3192             else:
   3193                 values = self.astype(object).values
-> 3194                 mapped = lib.map_infer(values, f, convert=convert_dtype)
   3195 
   3196         if len(mapped) and isinstance(mapped[0], Series):

pandas/_libs/src\inference.pyx in pandas._libs.lib.map_infer()

<ipython-input-51-cd11c5eb1f40> in word_counter(sent)
  2     a={}
  3     for word in selected_words:
----> 4         a[word] = sent.count(word)
  5     return a

AttributeError: 'float' object has no attribute 'count'

может кто-нибудь помочь ..? Я предполагаю, что это из-за некоторого значения ошибки в серии, которая не является строкой. , .

некоторые люди пытались помочь, но проблема в том, что отдельные ячейки в кадре данных содержат предложения.

Мне нужно извлечь количество выбранных слов, предпочтительно в виде словаря, и сохранить их в новом столбце в том же кадре данных с соответствующими строками.

Данные в формате CSV

jpp · Answer 1 · 07 сентября 2018

Повтор list.count в цикле будет работать, хотя и неэффективно, с list значениями. Сложность будет O ( m x n ), где m - количество выбранных значений, а n - общее количество значений. .

С Pandas вы можете использовать оптимизированные методы, которые обеспечивают сложность O ( n ). В этом случае вы можете использовать value_counts, за которым следует reindex:

res = df['A'].value_counts().reindex(selected_words)

print(res)

awesome      1
great        2
fantastic    2
Name: A, dtype: int64

Или, согласно решению @ pyd , сначала отфильтруйте, а затем используйте value_counts. Оба решения будут иметь сложность O ( n ).

Sreeram TP · Answer 2 · 07 сентября 2018

В вашем вопросе вы, кажется, реализуете диктат для подсчета. @pyd опубликовал хорошее решение для подсчета. Произведенный результат не является диктатом. Если вы ищете словарь в качестве вывода, взгляните на приведенный ниже код, который в основном является расширением решения, предоставляемого pyd.

df=pd.DataFrame({'A': ['awesome', 'great', 'fantastic', 'amazing', 'love', 'horrible', 'bad', 'terrible', 'awful', 'wow', 'hate','great', 'fantastic', 'amazing', 'love', 'horrible']})

def get_count_dict(data, selected_words):

    count_dict = {}

    counts = data.loc[data['A'].isin(selected_words), 'A'].value_counts()

    for i in range(len(counts.index.tolist())):
        count_dict[counts.index.tolist()[i]] = counts[i]

    return count_dict

selected_words=['awesome','great','fantastic']

get_count_dict(df, selected_words)

Output : {'fantastic': 2, 'great': 2, 'awesome': 1}

pyd · Answer 3 · 07 сентября 2018

Предположим, ваш фрейм данных выглядит следующим образом,

df=pd.DataFrame({'A': ['awesome', 'great', 'fantastic', 'amazing', 'love', 'horrible', 'bad', 'terrible', 'awful', 'wow', 'hate','great', 'fantastic', 'amazing', 'love', 'horrible']})
print(df)
    A
0   awesome
1   great
2   fantastic
3   amazing
4   love
5   horrible
6   bad
7   terrible
8   awful
9   wow
10  hate
11  great
12  fantastic
13  amazing
14  love
15  horrible

selected_words=['awesome','great','fantastic']

df.loc[df['A'].isin(selected_words),'A'].value_counts()
[out]
great        2
fantastic    2
awesome      1
Name: A, dtype: int64

как считать конкретные слова из серии панд?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как считать конкретные слова из серии панд?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы