Я новичок в кодировании и создал код, который подсчитывает частоту слов, а затем помещает в таблицу пакет panda, но мне нужно удалить произведенные дубликаты.
Я следовал онлайн-урокам, как удалять дубликаты, но текущий код все еще не работает, как видно из второго ввода. Любая обратная связь с благодарностью.
ВХОД
txt = "chilli mango chilli mango grape"
words = txt.split()
for word in words:
print(word + " " + str(txt.count(word)))
import pandas as pd
mytable = pd.DataFrame()
for word in words:
tempdf = pd.DataFrame({"word" : [word], "frequency" : [txt.count(word)]})
mytable = mytable.append(tempdf)
print(mytable)
ВЫХОД
chilli 2
mango 2
chilli 2
mango 2
grape 1
word frequency
0 chilli 2
word frequency
0 chilli 2
0 mango 2
word frequency
0 chilli 2
0 mango 2
0 chilli 2
word frequency
0 chilli 2
0 mango 2
0 chilli 2
0 mango 2
word frequency
0 chilli 2
0 mango 2
0 chilli 2
0 mango 2
0 grape 1
ВХОД
data = mytable
data.sort_values("First name", inplace = True)
data.drop_duplicates(subset = "First name",
keep = False, inplace = True)
print(data)