Я использую python для преобразования слов в предложениях в текстовом файле в отдельные токены в списке с целью подсчета частот слов. У меня проблемы с преобразованием разных предложений в один список. Вот что я делаю:
f = open('music.txt', 'r')
sent = [word.lower().split() for word in f]
Это дает мне следующий список:
[['party', 'rock', 'is', 'in', 'the', 'house', 'tonight'],
['everybody', 'just', 'have', 'a', 'good', 'time'],...]
Так как предложения в файле были в отдельных строках, он возвращает этот список списков, и defaultdict не может идентифицировать отдельные токены для подсчета.
Он попробовал следующее понимание списка, чтобы изолировать токены в разных списках и вернуть их в один список, но вместо этого он возвращает пустой список:
sent2 = [[w for w in word] for word in sent]
Есть ли способ сделать это, используя списки? Или, может быть, другой более простой способ?