У меня есть текстовый файл, из которого я удалил символы и стоп-слова.
Я также разложил его по токенам (разбил его на список всех слов) на случай, если со списком операции проще.
Я хотел бы создать файл .csv
с частотами всех слов (длинный формат) в порядке убывания.Как я могу это сделать?
Я думал о циклическом просмотре списка таким образом:
longData = pandas.DataFrame([], index=[], columns=['Frequency'])
for word in tokenizedFile:
if word in longData.index:
longData.loc[word]=longData.loc[word]+1
else:
wordFrame = pandas.DataFrame([1], index=[word])
longData.append(wordFrame)
, но это кажется довольно неэффективным и расточительным.