Я пытаюсь выполнить подсчет частоты слов на относительно большом фрейме данных и не знаю, какой подход будет наилучшим.
В настоящее время мой фрейм данных выглядит следующим образом -
Comment 'I' 'it' 'is' 'up'
'I was here' NaN NaN NaN NaN
'I like soup' NaN NaN NaN NaN
'whats up' NaN NaN NaN NaN
'This is it' NaN NaN NaN NaN
Моя цель - выполнить подсчет частоты для каждого слова в заголовках столбцов («I», «it», «is», «up») для каждого комментария. Например, после процесса подсчета результат должен выглядеть примерно так -
Comment 'I' 'it' 'is' 'up'
'I was here' 1 0 0 0
'I like soup' 1 0 0 0
'whats up' 0 0 0 1
'This is it' 0 1 1 0
Каков наилучший подход к этому? Реальный набор данных содержит около 50 тыс. Комментариев и более 10 тыс. Столбцов с разными словами.