У меня есть датафрейм, в котором мне нужно найти 20 лучших повторных предложений, используя Python. Пожалуйста, дайте мне знать, как go об этом
Column A
Hello How are you?
This ticket is not valid
How are things at you end?
Hello How are you?
How can I help you?
Please help me with tickets
This ticket is not valid
Hello How are you?
Ожидаемый результат
Column A Frequency of Repeated sentence
Hello How are you? 3
This ticket is not valid 2
How can I help you? 1
.
.
.
Код до сих пор
df = pd.read_csv("C:\\Users\\aaa\\abc\\Analysis\\chat.csv", encoding="ISO-8859-1")
df['word_count'] = df['Column A'].apply(lambda x: len(str(x).split(" ")))
df[['Column A','word_count']].head()
for i, g in df.groupby('Column A'):
print ('Frequency of repeating sentence : {}'.format(g['Column A'].duplicated(keep=False).sum()))
Мне нужен результат в кадре данных, который можно записать в CSV со столбцами «Столбец A» и «Частота» в конечном результате