чтение и запись токенизированных и pos_tagged слов в новый файл - PullRequest
0 голосов
/ 07 мая 2018

У меня есть текстовый файл, который содержит новостную статью (я думаю, что она хранится в виде списка), и я хочу токенизировать слова, пометить их и сохранить их в соответствующих файлах.

Я использую библиотеку nltk для запуска ниже.

По какой-то причине код выполняется, но файлы пусты. Если бы я только бегал

with open(news_file) as f1, open(token_file, "w") as f2, open(tagged_file, "w") as f3:
 f2.writelines(('\n'.join(wt(words)) for words in f1.readlines()))

тогда в новом файле каждое слово новостной статьи будет перечислено в новой строке

с приведенным ниже кодом я сталкиваюсь с проблемой на tokenized = ' '.join(wt(tagged)), которая выдает ошибку TypeError: expected string or bytes-like object. Я также пытался str.join, но безрезультатно

with open(news_file) as f1, open(token_file, "w") as f2, open(tagged_file, "w") as f3:
    tagged = pos_tag(f1.readlines())
    tokenized = ' '.join(word_tokenize(tagged))
    for token_words in tokenized:
        print(' '.join(token_words), file=f2)
    for tag_words in tagged:
        print(' '.join(tag_words), file=f3)
#f2.writelines(('\n'.join(wt(words)) for words in f1.readlines()))

любая помощь будет оценена.

Спасибо :)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...