Хотелось бы взять список комментариев из фрейма данных, сначала разобрать в список предложений, затем на втором проходе, разобрать за словом. Нужно это для ввода в модель word2vec, genism.
Уже один раз использовал sent_tokenize из nltk для токенизации, но затем, если я попытаюсь выполнить word_tokenize после этого, у get возникнет проблема, поскольку она больше не является строкой и ожидает объект типа строки или байта.
import nltk
print(df)
ID Comment
0 Today is a good day.
1 Today I went by the river. The river also flow...
2 The water by the river is blue, it also feels ...
3 Today is the last day of spring; what to do to...
df['sentences']=df['Comment'].dropna().apply(nltk.sent_tokenize)
df['word']=df['sentences'].dropna().apply(nltk.word_tokenize)
после попытки передать предложения в слова
Ошибка типа: ожидаемая строка или байтовоподобный объект