У меня есть текстовый файл, который содержит новостную статью (я думаю, что она хранится в виде списка), и я хочу токенизировать слова, пометить их и сохранить их в соответствующих файлах.
Я использую библиотеку nltk для запуска ниже.
По какой-то причине код выполняется, но файлы пусты. Если бы я только бегал
with open(news_file) as f1, open(token_file, "w") as f2, open(tagged_file, "w") as f3:
f2.writelines(('\n'.join(wt(words)) for words in f1.readlines()))
тогда в новом файле каждое слово новостной статьи будет перечислено в новой строке
с приведенным ниже кодом я сталкиваюсь с проблемой на tokenized = ' '.join(wt(tagged))
, которая выдает ошибку TypeError: expected string or bytes-like object
. Я также пытался str.join
, но безрезультатно
with open(news_file) as f1, open(token_file, "w") as f2, open(tagged_file, "w") as f3:
tagged = pos_tag(f1.readlines())
tokenized = ' '.join(word_tokenize(tagged))
for token_words in tokenized:
print(' '.join(token_words), file=f2)
for tag_words in tagged:
print(' '.join(tag_words), file=f3)
#f2.writelines(('\n'.join(wt(words)) for words in f1.readlines()))
любая помощь будет оценена.
Спасибо :)