Я использую R, и в моем наборе данных есть текстовый столбец, и мне нужно знать, есть ли какой-нибудь способ узнать, какие слова всегда собираются вместе.
как большинство двух слов или три слова ... и т. д.
Например:
Happy birthday to you
Happy weekend
Have a nice day
Be close
Be smart
Happy birthday
It was a nice day
Happy birthday mama
Таким образом, результаты должны быть примерно такими:
Happy birthday - freq 3
Nice day - freq 2